search query: @instructor Lagus, Krista / total: 7
reference: 6 / 7
« previous | next »
Author:Paatero, Vesa
Title:Sanojen painotusmenetelmien vertailu WEBSOM-kartoilla
A comparison of term weighting methods using WEBSOM maps
Publication type:Master's thesis
Publication year:2003
Pages:62      Language:   fin
Department/School:Teknillisen fysiikan ja matematiikan osasto
Main subject:Informaatiotekniikka   (Tik-61)
Supervisor:Kaski, Samuel
Instructor:Lagus, Krista
OEVS:
Electronic archive copy is available via Aalto Thesis Database.
Instructions

Reading digital theses in the closed network of the Aalto University Harald Herlin Learning Centre

In the closed network of Learning Centre you can read digital and digitized theses not available in the open network.

The Learning Centre contact details and opening hours: https://learningcentre.aalto.fi/en/harald-herlin-learning-centre/

You can read theses on the Learning Centre customer computers, which are available on all floors.

Logging on to the customer computers

  • Aalto University staff members log on to the customer computer using the Aalto username and password.
  • Other customers log on using a shared username and password.

Opening a thesis

  • On the desktop of the customer computers, you will find an icon titled:

    Aalto Thesis Database

  • Click on the icon to search for and open the thesis you are looking for from Aaltodoc database. You can find the thesis file by clicking the link on the OEV or OEVS field.

Reading the thesis

  • You can either print the thesis or read it on the customer computer screen.
  • You cannot save the thesis file on a flash drive or email it.
  • You cannot copy text or images from the file.
  • You cannot edit the file.

Printing the thesis

  • You can print the thesis for your personal study or research use.
  • Aalto University students and staff members may print black-and-white prints on the PrintingPoint devices when using the computer with personal Aalto username and password. Color printing is possible using the printer u90203-psc3, which is located near the customer service. Color printing is subject to a charge to Aalto University students and staff members.
  • Other customers can use the printer u90203-psc3. All printing is subject to a charge to non-University members.
Location:P1 Ark Aalto  5312   | Archive
Keywords:WEBSOM
self-organizing map (SOM)
information retrieval
term weighting
text mining
itseorganisoiva kartta
tiedonhaku
sanojen painotus
tekstin louhinta
Abstract (eng): The WEBSOM is a method for organizing text documents onto a map surface so that documents treating similar topics are situated near each other on the map surface.
To improve the organization process, the words in the documents are weighed using various methods so that those words that play an important role in determining the topics of documents get greater weights than very frequent or otherwise irrelevant words.
Term weighting can be divided into two distinct phases: Global term weighting and local term weighting.
Local weighting takes place in each document separately.

In this work, term weighting methods used with WEBSOM maps have been evaluated empirically.
The comparison study includes 4 methods for global term weighting and 4 methods for local term weighting, which can be used in 16 combinations.
For the purposes of the comparison study, a measure for the goodness of a WEBSOM map was developed and implemented.
The measure can be used with document collections comprising interlinked documents, such as collections of WWW pages or encyclopaedias.

Another goal of this work was to create a WEBSOM demonstration of a text collection with associative links.
The WEBSOM map was created using the text material of the WWW version of Encyclopaedia Britannica.

Based on the results of the comparison study, certain term weighting methods can be recommended.
The study also suggests that the choice of the global term weighting method affects the resulting WEBSOM map more than the local term weighting method.
Abstract (fin): WEBSOM on menetelmä, jolla voidaan kuvata tekstidokumenttiaineisto karttapinnalle siten, että samaan aihepiiriin kuuluvat dokumentit kuvautuvat lähelle toisiaan karttapinnalla.
Jotta dokumenttikartta järjestyisi mahdollisimman mielekkäästi, dokumentissa esiintyviä sanoja painotetaan eri tavoin.
Tarkoituksena on, että dokumentin aihepiirin määräytymisen kannalta tärkeät sanat vaikuttaisivat WEBSOM-kartan opettamiseen suuremmalla painoarvolla kuin hyvin yleiset tai muuten epäoleelliset sanat.
Painotus voidaan jakaa kahteen erilliseen osaan: globaaliin painotukseen ja dokumenttikohtaiseen, lokaaliin painotukseen.

Tässä työssä on vertailtu WEBSOM-karttojen kanssa käytettäviä painotusmenetelmiä kokeellisesti.
Kokeissa oli mukana neljä globaalin painotuksen menetelmää ja neljä dokumenttikohtaisen painotuksen menetelmää, yhteensä 16 menetelmäyhdistelmää.
Painotusmenetelmien vertailu toteutettiin laatimalla monta WEBSOM-karttaa kutakin menetelmäyhdistelmää käyttäen ja vertailemalla karttojen paremmuutta.
Karttojen vertailua varten kehitettiin mitta karttojen hyvyydelle.
Mitta soveltuu sellaisten tekstiaineistojen kanssa käytettäväksi, joissa artikkelien välillä on assosiaatiota ilmaisevia linkkejä, kuten esim.
WWW-sivuilla tai tietosanakirjoissa.

Työn toisena tavoitteena oli laatia WEBSOM-demonstraatio toisiinsa linkitettyjä dokumentteja sisältäviä sisältävästä aineistosta.
Demonstraatio toteutettiin käyttäen Encyclopaedia Britannica -tietosanakirjan WWW-version tekstiaineistoa Vertailututkimuksen tuloksena tietyt painotusmenetelmät havaittiin suositeltaviksi.
Kävi myös ilmi, että globaalin painotusmenetelmän valinta vaikuttaa kartan järjestymiseen yleisesti ottaen enemmän kuin dokumenttikohtaisen painotusmenetelmän valinta.
ED:2004-01-08
INSSI record number: 21083
+ add basket
« previous | next »
INSSI