haku: @author Iivonen, Mika / yhteensä: 2
viite: 2 / 2
« edellinen | seuraava »
Tekijä:Iivonen, Mika
Työn nimi:Numeerisen tiedon haku vapaamuotoisista taloudellisista dokumenteista
Information extraction of numerical data from free form financial documents
Julkaisutyyppi:Diplomityö
Julkaisuvuosi:2010
Sivut:60      Kieli:   fin
Koulu/Laitos/Osasto:Informaatio- ja luonnontieteiden tiedekunta
Oppiaine:Ohjelmistotekniikka   (T-106)
Valvoja:Tarhio, Jorma
Ohjaaja:Saarela, Lauri
OEVS:
Sähköinen arkistokappale on luettavissa Aalto Thesis Databasen kautta.
Ohje

Digitaalisten opinnäytteiden lukeminen Aalto-yliopiston Harald Herlin -oppimiskeskuksen suljetussa verkossa

Oppimiskeskuksen suljetussa verkossa voi lukea sellaisia digitaalisia ja digitoituja opinnäytteitä, joille ei ole saatu julkaisulupaa avoimessa verkossa.

Oppimiskeskuksen yhteystiedot ja aukioloajat: https://learningcentre.aalto.fi/fi/harald-herlin-oppimiskeskus/

Opinnäytteitä voi lukea Oppimiskeskuksen asiakaskoneilla, joita löytyy kaikista kerroksista.

Kirjautuminen asiakaskoneille

  • Aalto-yliopistolaiset kirjautuvat asiakaskoneille Aalto-tunnuksella ja salasanalla.
  • Muut asiakkaat kirjautuvat asiakaskoneille yhteistunnuksilla.

Opinnäytteen avaaminen

  • Asiakaskoneiden työpöydältä löytyy kuvake:

    Aalto Thesis Database

  • Kuvaketta klikkaamalla pääset hakemaan ja avaamaan etsimäsi opinnäytteen Aaltodoc-tietokannasta. Opinnäytetiedosto löytyy klikkaamalla viitetietojen OEV- tai OEVS-kentän linkkiä.

Opinnäytteen lukeminen

  • Opinnäytettä voi lukea asiakaskoneen ruudulta tai sen voi tulostaa paperille.
  • Opinnäytetiedostoa ei voi tallentaa muistitikulle tai lähettää sähköpostilla.
  • Opinnäytetiedoston sisältöä ei voi kopioida.
  • Opinnäytetiedostoa ei voi muokata.

Opinnäytteen tulostus

  • Opinnäytteen voi tulostaa itselleen henkilökohtaiseen opiskelu- ja tutkimuskäyttöön.
  • Aalto-yliopiston opiskelijat ja henkilökunta voivat tulostaa mustavalkotulosteita Oppimiskeskuksen SecurePrint-laitteille, kun tietokoneelle kirjaudutaan omilla Aalto-tunnuksilla. Väritulostus on mahdollista asiakaspalvelupisteen tulostimelle u90203-psc3. Väritulostaminen on maksullista Aalto-yliopiston opiskelijoille ja henkilökunnalle.
  • Ulkopuoliset asiakkaat voivat tulostaa mustavalko- ja väritulosteita Oppimiskeskuksen asiakaspalvelupisteen tulostimelle u90203-psc3. Tulostaminen on maksullista.
Sijainti:P1 Ark Aalto  7613   | Arkisto
Avainsanat:information extraction
financial data
natural language
shallow parsing
regular expression
interim report
tiedonhaku
taloudellinen data
luonnollinen kieli
matala jäsennys
säännöllinen lauseke
osavuosikatsaus
Tiivistelmä (fin): Tutkimuksen tarkoituksena oli selvittää mahdollisuuksia hakea kiinnostavaa numerotietoa tietokoneohjelman avulla vapaamuotoisista taloudellisista dokumenteista.
Tutkimuksessa keskityttiin NASDAQ OMX Nordic -pörssissä listattujen yhtiöiden neljännesvuosittain julkaisemien osavuosikatsauksien käsittelyyn.
Tavoitteena oli kartoittaa menetelmiä, joiden avulla yritysten osavuosikatsauksessa julkaisemaa numerotietoa voidaan hakea käyttäjän määrittämien, ennen osavuosikatsauksen julkaisua asettamien hakuehtojen avulla mahdollisimman suurella osumatarkkuudella.

Osavuosikatsauksen rakenteen havaittiin toistuvan hyvin samankaltaisina dokumentista toiseen saman yrityksen osalta.
Numeroiden hakuun päätettiin hyödyntää dokumentin rakenteessa esiintyviä elementtejä, kuten otsikoita ja luetelmia, joiden esiintyminen haettavan numeron ympäristössä pystyttiin suurella todennäköisyydellä ennustamaan.
Lisäksi haettavien lukujen suuruus voitiin usein ennustaa melko tarkasti, mikä auttoi rajaamaan mahdollisten lukujen joukkoa.

Menetelmien analysointia varten kehitettiin prototyyppi tietokoneohjelmasta, joka hakee osavuosikatsauksesta käyttäjän asettamien hakuehtojen perusteella luvun.
Rakenteen hyödyntäminen mahdollistettiin dokumentin matalalla jäsentämisellä.
Käyttäjälle luotiin menetelmä, jolla dokumentin rakenteen elementteihin voidaan kohdistaa hakusanoja.
Lisäksi käyttäjä pystyi määrittämään alarajan ja ylärajan etsittävälle luvulle.

Tarkkuuden mittaamista varten järjestettiin koe, jossa yksi henkilö valmisteli ja suoritti 60 erillistä hakua.
Kokeessa oikeiden lukujen löytymisen osuus oli noin 84 %.
Muissa tapauksissa hakutulos oli määrittämätön, sillä useampi kuin yksi numero vastasi käyttäjän asettamia hakuehtoja yhtä hyvin.
Vääriä hakutuloksia ei siten esiintynyt kokeessa kertaakaan.
Tiivistelmä (eng): The objective of this study was to find and analyze methods that can be used to extract numerical information from free form financial documents using a computer program.
This study focused on quarterly interim reports, published by companies listed in NASDAQ CMX Nordic stock exchange.
The goal in practice was to develop a system that reports predefined figures immediately when an interim report is published.

Since natural language understanding is a difficult task, alternative methods were studied.
For given company, the published interim reports were found to be structurally quite similar.
This directed the study towards syntactical methods that can assist users to exploit the similarity.
Shallow parsing the document enabled matching the syntactical patterns in proximity of the searched figure.
In addition, estimated range of the searched figure was used to discard incorrect results.

To analyze selected methods, a prototype computer program was designed and implemented.
The program allowed user to create search parameters for syntactical patterns and number ranges.
To measure accuracy of the program, an experiment was carried out.
A user prepared and performed 60 different searches, and results were documented.
Proportion of correct results was about 84 %.
In other cases, many numbers matched equally well to the search parameters, leaving the search result undefined.
Incorrect search results were not encountered.
ED:2010-05-10
INSSI tietueen numero: 39580
+ lisää koriin
« edellinen | seuraava »
INSSI