search query: @supervisor Tarhio, Jorma / total: 69
reference: 17 / 69
Author: | Iivonen, Mika |
Title: | Numeerisen tiedon haku vapaamuotoisista taloudellisista dokumenteista |
Information extraction of numerical data from free form financial documents | |
Publication type: | Master's thesis |
Publication year: | 2010 |
Pages: | 60 Language: fin |
Department/School: | Informaatio- ja luonnontieteiden tiedekunta |
Main subject: | Ohjelmistotekniikka (T-106) |
Supervisor: | Tarhio, Jorma |
Instructor: | Saarela, Lauri |
OEVS: | Electronic archive copy is available via Aalto Thesis Database.
Instructions Reading digital theses in the closed network of the Aalto University Harald Herlin Learning CentreIn the closed network of Learning Centre you can read digital and digitized theses not available in the open network. The Learning Centre contact details and opening hours: https://learningcentre.aalto.fi/en/harald-herlin-learning-centre/ You can read theses on the Learning Centre customer computers, which are available on all floors.
Logging on to the customer computers
Opening a thesis
Reading the thesis
Printing the thesis
|
Location: | P1 Ark Aalto 7613 | Archive |
Keywords: | information extraction financial data natural language shallow parsing regular expression interim report tiedonhaku taloudellinen data luonnollinen kieli matala jäsennys säännöllinen lauseke osavuosikatsaus |
Abstract (eng): | The objective of this study was to find and analyze methods that can be used to extract numerical information from free form financial documents using a computer program. This study focused on quarterly interim reports, published by companies listed in NASDAQ CMX Nordic stock exchange. The goal in practice was to develop a system that reports predefined figures immediately when an interim report is published. Since natural language understanding is a difficult task, alternative methods were studied. For given company, the published interim reports were found to be structurally quite similar. This directed the study towards syntactical methods that can assist users to exploit the similarity. Shallow parsing the document enabled matching the syntactical patterns in proximity of the searched figure. In addition, estimated range of the searched figure was used to discard incorrect results. To analyze selected methods, a prototype computer program was designed and implemented. The program allowed user to create search parameters for syntactical patterns and number ranges. To measure accuracy of the program, an experiment was carried out. A user prepared and performed 60 different searches, and results were documented. Proportion of correct results was about 84 %. In other cases, many numbers matched equally well to the search parameters, leaving the search result undefined. Incorrect search results were not encountered. |
Abstract (fin): | Tutkimuksen tarkoituksena oli selvittää mahdollisuuksia hakea kiinnostavaa numerotietoa tietokoneohjelman avulla vapaamuotoisista taloudellisista dokumenteista. Tutkimuksessa keskityttiin NASDAQ OMX Nordic -pörssissä listattujen yhtiöiden neljännesvuosittain julkaisemien osavuosikatsauksien käsittelyyn. Tavoitteena oli kartoittaa menetelmiä, joiden avulla yritysten osavuosikatsauksessa julkaisemaa numerotietoa voidaan hakea käyttäjän määrittämien, ennen osavuosikatsauksen julkaisua asettamien hakuehtojen avulla mahdollisimman suurella osumatarkkuudella. Osavuosikatsauksen rakenteen havaittiin toistuvan hyvin samankaltaisina dokumentista toiseen saman yrityksen osalta. Numeroiden hakuun päätettiin hyödyntää dokumentin rakenteessa esiintyviä elementtejä, kuten otsikoita ja luetelmia, joiden esiintyminen haettavan numeron ympäristössä pystyttiin suurella todennäköisyydellä ennustamaan. Lisäksi haettavien lukujen suuruus voitiin usein ennustaa melko tarkasti, mikä auttoi rajaamaan mahdollisten lukujen joukkoa. Menetelmien analysointia varten kehitettiin prototyyppi tietokoneohjelmasta, joka hakee osavuosikatsauksesta käyttäjän asettamien hakuehtojen perusteella luvun. Rakenteen hyödyntäminen mahdollistettiin dokumentin matalalla jäsentämisellä. Käyttäjälle luotiin menetelmä, jolla dokumentin rakenteen elementteihin voidaan kohdistaa hakusanoja. Lisäksi käyttäjä pystyi määrittämään alarajan ja ylärajan etsittävälle luvulle. Tarkkuuden mittaamista varten järjestettiin koe, jossa yksi henkilö valmisteli ja suoritti 60 erillistä hakua. Kokeessa oikeiden lukujen löytymisen osuus oli noin 84 %. Muissa tapauksissa hakutulos oli määrittämätön, sillä useampi kuin yksi numero vastasi käyttäjän asettamia hakuehtoja yhtä hyvin. Vääriä hakutuloksia ei siten esiintynyt kokeessa kertaakaan. |
ED: | 2010-05-10 |
INSSI record number: 39580
+ add basket
INSSI