haku: @keyword reconstruction / yhteensä: 16
viite: 5 / 16
Tekijä:Sinisalo, Lari
Työn nimi:Logical segmentation and labeling of PDF documents
PDF-dokumenttien looginen segmentointi ja luokittelu
Julkaisutyyppi:Diplomityö
Julkaisuvuosi:2014
Sivut:68 s. + liitt. 6      Kieli:   eng
Koulu/Laitos/Osasto:Perustieteiden korkeakoulu
Oppiaine:Tietojenkäsittelytiede   (IL3010)
Valvoja:Gionis, Aristides
Ohjaaja:Hänninen, Rami
Elektroninen julkaisu: http://urn.fi/URN:NBN:fi:aalto-201406252199
OEVS:
Sähköinen arkistokappale on luettavissa Aalto Thesis Databasen kautta.
Ohje

Digitaalisten opinnäytteiden lukeminen Aalto-yliopiston Harald Herlin -oppimiskeskuksen suljetussa verkossa

Oppimiskeskuksen suljetussa verkossa voi lukea sellaisia digitaalisia ja digitoituja opinnäytteitä, joille ei ole saatu julkaisulupaa avoimessa verkossa.

Oppimiskeskuksen yhteystiedot ja aukioloajat: https://learningcentre.aalto.fi/fi/harald-herlin-oppimiskeskus/

Opinnäytteitä voi lukea Oppimiskeskuksen asiakaskoneilla, joita löytyy kaikista kerroksista.

Kirjautuminen asiakaskoneille

  • Aalto-yliopistolaiset kirjautuvat asiakaskoneille Aalto-tunnuksella ja salasanalla.
  • Muut asiakkaat kirjautuvat asiakaskoneille yhteistunnuksilla.

Opinnäytteen avaaminen

  • Asiakaskoneiden työpöydältä löytyy kuvake:

    Aalto Thesis Database

  • Kuvaketta klikkaamalla pääset hakemaan ja avaamaan etsimäsi opinnäytteen Aaltodoc-tietokannasta. Opinnäytetiedosto löytyy klikkaamalla viitetietojen OEV- tai OEVS-kentän linkkiä.

Opinnäytteen lukeminen

  • Opinnäytettä voi lukea asiakaskoneen ruudulta tai sen voi tulostaa paperille.
  • Opinnäytetiedostoa ei voi tallentaa muistitikulle tai lähettää sähköpostilla.
  • Opinnäytetiedoston sisältöä ei voi kopioida.
  • Opinnäytetiedostoa ei voi muokata.

Opinnäytteen tulostus

  • Opinnäytteen voi tulostaa itselleen henkilökohtaiseen opiskelu- ja tutkimuskäyttöön.
  • Aalto-yliopiston opiskelijat ja henkilökunta voivat tulostaa mustavalkotulosteita Oppimiskeskuksen SecurePrint-laitteille, kun tietokoneelle kirjaudutaan omilla Aalto-tunnuksilla. Väritulostus on mahdollista asiakaspalvelupisteen tulostimelle u90203-psc3. Väritulostaminen on maksullista Aalto-yliopiston opiskelijoille ja henkilökunnalle.
  • Ulkopuoliset asiakkaat voivat tulostaa mustavalko- ja väritulosteita Oppimiskeskuksen asiakaspalvelupisteen tulostimelle u90203-psc3. Tulostaminen on maksullista.
Sijainti:P1 Ark Aalto  1721   | Arkisto
Avainsanat:PDF document
reconstruction
logical structure
reverse-engineering
modular
segmentation
PDF-dokumentti
rakenteen palauttaminen
looginen rakenne
takaisinmallinnus
modulaarisuus
Tiivistelmä (fin):Sähköisten dokumenttien esittämiseen käytetään useita erilaisia formaatteja.
Eri formaatit erikoistuvat eri käyttötarpeisiin, kuten muokattavuuteen tai tarkkaan graafiseen hallittavuuteen.
PDF-dokumentit eivät välttämättä sisällä tietoa dokumentin loogisesta rakenteesta, eikä edes yksittäisen rivin tunnistaminen tekstistä ole täysin suoraviivaista.

Jotta PDF-dokumentteja voidaan muuttaa toisiin formaatteihin, täytyy tekstin looginen rakenne palauttaa eli rakentaa uudelleen.
Tässä työssä loppuformaattina on käytössä rakenteellinen yhdistelmä HTML- sekä CSS-merkintäkieliä.
Tältä kannalta kiinnostavia dokumentin loogisia osia ovat erityisesti tekstikappaleet, listat ja taulukot.

Tässä työssä esitellään PDF:n rakennetiedon palauttamiseen suunniteltu modulaarinen, yleiskäyttöinen järjestelmä.
Loogisen rakennetiedon palauttamiseen käytetyt järjestelmät keskittyvät yleensä yksittäisiin dokumenttityyppeihin, eikä täydellistä yleiskäyttöistä järjestelmää ole vielä luotu.
Työssä tämän ongelman ratkaisua lähestytään esittelemällä modulaarinen, helposti laajennettava järjestelmä, joka pohjautuu ihmisen havaintokyvyn perusominaisuuksiin.

Toteutettua järjestelmää verrataan muihin loogista rakennetietoa palauttaviin järjestelmiin, sekä PDF-dokumentteja esittäviin tai niiden tekstisisältöä käsitteleviin ohjelmiin.
Järjestelmän toteutus on täysin sääntöpohjainen ja proseduraalinen, minkä tiedetään rajoittavan järjestelmän tarkkuutta ja heikentävän järjestelmää suhteessa erikoistuneempiin menetelmiin.

Työssä kehitetty järjestelmä vaatii vielä parantamista jotta sen tarkkuus yltäisi samalle tasolle kuin erikoistuneemmissa järjestelmissä, mutta valittu lähestymistapa on hyvin lupaava.
Jatkokehitystä sekä parannuksia pohditaan työn lopussa.
Tiivistelmä (eng):Electronic documents are distributed in various different formats, which concentrate on different aspects, such as editability or precise graphical control.
PDF documents do not contain any logical textual structure, and therefore recognizing even a single line of text in a PDF document is a non-trivial task.

The conversion of PDF documents into structured formats requires the reconstruction of the documents' logical structure.
In this thesis, the selected output format is a structured combination of HTML and CSS.
Paragraphs, lists and tables are the logical components that are of particular interest to this research.

This thesis presents a modular, general purpose system for reconstructing a logical structure in PDF documents.
The development of a general purpose system is still an unsolved problem, as logical reconstruction systems tend to be specialized in specific classes of documents.
This issue is addressed by devising a modular, extensible system based on basic properties of human perception.

The implemented system is compared to other logical reconstruction systems, and additionally PDF reader and text extraction software.
The implemented system is strictly rule-based and procedural, which is known to limit its accuracy and to be a disadvantage compared to the more advanced methods used in specialized systems.

The devised system still requires improvements to get close to the accuracy of the specialized systems, however the selected approach is very promising.
Future work and improvements are considered at the end of this thesis.
ED:2014-08-03
INSSI tietueen numero: 49417
+ lisää koriin
INSSI