search query: @supervisor Tarhio, Jorma / total: 69
reference: 17 / 69
« previous | next »
Author:Iivonen, Mika
Title:Numeerisen tiedon haku vapaamuotoisista taloudellisista dokumenteista
Information extraction of numerical data from free form financial documents
Publication type:Master's thesis
Publication year:2010
Pages:60      Language:   fin
Department/School:Informaatio- ja luonnontieteiden tiedekunta
Main subject:Ohjelmistotekniikka   (T-106)
Supervisor:Tarhio, Jorma
Instructor:Saarela, Lauri
OEVS:
Electronic archive copy is available via Aalto Thesis Database.
Instructions

Reading digital theses in the closed network of the Aalto University Harald Herlin Learning Centre

In the closed network of Learning Centre you can read digital and digitized theses not available in the open network.

The Learning Centre contact details and opening hours: https://learningcentre.aalto.fi/en/harald-herlin-learning-centre/

You can read theses on the Learning Centre customer computers, which are available on all floors.

Logging on to the customer computers

  • Aalto University staff members log on to the customer computer using the Aalto username and password.
  • Other customers log on using a shared username and password.

Opening a thesis

  • On the desktop of the customer computers, you will find an icon titled:

    Aalto Thesis Database

  • Click on the icon to search for and open the thesis you are looking for from Aaltodoc database. You can find the thesis file by clicking the link on the OEV or OEVS field.

Reading the thesis

  • You can either print the thesis or read it on the customer computer screen.
  • You cannot save the thesis file on a flash drive or email it.
  • You cannot copy text or images from the file.
  • You cannot edit the file.

Printing the thesis

  • You can print the thesis for your personal study or research use.
  • Aalto University students and staff members may print black-and-white prints on the PrintingPoint devices when using the computer with personal Aalto username and password. Color printing is possible using the printer u90203-psc3, which is located near the customer service. Color printing is subject to a charge to Aalto University students and staff members.
  • Other customers can use the printer u90203-psc3. All printing is subject to a charge to non-University members.
Location:P1 Ark Aalto  7613   | Archive
Keywords:information extraction
financial data
natural language
shallow parsing
regular expression
interim report
tiedonhaku
taloudellinen data
luonnollinen kieli
matala jäsennys
säännöllinen lauseke
osavuosikatsaus
Abstract (eng): The objective of this study was to find and analyze methods that can be used to extract numerical information from free form financial documents using a computer program.
This study focused on quarterly interim reports, published by companies listed in NASDAQ CMX Nordic stock exchange.
The goal in practice was to develop a system that reports predefined figures immediately when an interim report is published.

Since natural language understanding is a difficult task, alternative methods were studied.
For given company, the published interim reports were found to be structurally quite similar.
This directed the study towards syntactical methods that can assist users to exploit the similarity.
Shallow parsing the document enabled matching the syntactical patterns in proximity of the searched figure.
In addition, estimated range of the searched figure was used to discard incorrect results.

To analyze selected methods, a prototype computer program was designed and implemented.
The program allowed user to create search parameters for syntactical patterns and number ranges.
To measure accuracy of the program, an experiment was carried out.
A user prepared and performed 60 different searches, and results were documented.
Proportion of correct results was about 84 %.
In other cases, many numbers matched equally well to the search parameters, leaving the search result undefined.
Incorrect search results were not encountered.
Abstract (fin): Tutkimuksen tarkoituksena oli selvittää mahdollisuuksia hakea kiinnostavaa numerotietoa tietokoneohjelman avulla vapaamuotoisista taloudellisista dokumenteista.
Tutkimuksessa keskityttiin NASDAQ OMX Nordic -pörssissä listattujen yhtiöiden neljännesvuosittain julkaisemien osavuosikatsauksien käsittelyyn.
Tavoitteena oli kartoittaa menetelmiä, joiden avulla yritysten osavuosikatsauksessa julkaisemaa numerotietoa voidaan hakea käyttäjän määrittämien, ennen osavuosikatsauksen julkaisua asettamien hakuehtojen avulla mahdollisimman suurella osumatarkkuudella.

Osavuosikatsauksen rakenteen havaittiin toistuvan hyvin samankaltaisina dokumentista toiseen saman yrityksen osalta.
Numeroiden hakuun päätettiin hyödyntää dokumentin rakenteessa esiintyviä elementtejä, kuten otsikoita ja luetelmia, joiden esiintyminen haettavan numeron ympäristössä pystyttiin suurella todennäköisyydellä ennustamaan.
Lisäksi haettavien lukujen suuruus voitiin usein ennustaa melko tarkasti, mikä auttoi rajaamaan mahdollisten lukujen joukkoa.

Menetelmien analysointia varten kehitettiin prototyyppi tietokoneohjelmasta, joka hakee osavuosikatsauksesta käyttäjän asettamien hakuehtojen perusteella luvun.
Rakenteen hyödyntäminen mahdollistettiin dokumentin matalalla jäsentämisellä.
Käyttäjälle luotiin menetelmä, jolla dokumentin rakenteen elementteihin voidaan kohdistaa hakusanoja.
Lisäksi käyttäjä pystyi määrittämään alarajan ja ylärajan etsittävälle luvulle.

Tarkkuuden mittaamista varten järjestettiin koe, jossa yksi henkilö valmisteli ja suoritti 60 erillistä hakua.
Kokeessa oikeiden lukujen löytymisen osuus oli noin 84 %.
Muissa tapauksissa hakutulos oli määrittämätön, sillä useampi kuin yksi numero vastasi käyttäjän asettamia hakuehtoja yhtä hyvin.
Vääriä hakutuloksia ei siten esiintynyt kokeessa kertaakaan.
ED:2010-05-10
INSSI record number: 39580
+ add basket
« previous | next »
INSSI