haku: @instructor Hyvärinen, Aapo / yhteensä: 3
viite: 1 / 3
« edellinen | seuraava »
Tekijä:Väyrynen, Jaakko
Työn nimi:Learning linguistic features from natural text data by independent component analysis
Kielipiirteiden oppiminen luonnollisesta tekstistä riippumattomien komponenttien analyysilla
Julkaisutyyppi:Diplomityö
Julkaisuvuosi:2005
Sivut:63      Kieli:   eng
Koulu/Laitos/Osasto:Tietotekniikan osasto
Oppiaine:Informaatiotekniikka   (T-61)
Valvoja:Honkela, Timo
Ohjaaja:Hyvärinen, Aapo
Digitoitu julkaisu: https://aaltodoc.aalto.fi/handle/123456789/92343
OEVS:
Digitoitu arkistokappale on julkaistu Aaltodocissa
Sijainti:P1 Ark Aalto     | Arkisto
Avainsanat:independent component analysis
statistical natural language processing
riippumattomien komponenttien analyysi
luonnollisen kielen tilastollinen käsittely
Tiivistelmä (fin): Luonnollisen kielen analysointi on tärkeä tutkimusaihe kieliteknologian kannalta.
Symbolinen kirjoitettu kieli voidaan koodata numeerisessa muodossa ja analysoida käyttäen tilastollisia signaalinkäsittelymenetelmiä.
Tässä diplomityössä oletetaan sanojen käytön, erityisesti sanojen esiintymistaajuuksien konteksteissa, sisaltavan tilastollisilla menetelmillä irrotettavaa kielellistä informaatiota.

Riippumattomien komponenttien analyysia, erästä ohjaamattoman oppimisen menetelmää sokeaan lähde-erotteluun, sovelletaan piirreirrotukseen tekstikorpuksesta.
Vertailu löydettyjen piirteiden ja perinteisten syntaktisten sanakategorioiden samankaltaisuuden välillä osoitti, että riippumattomien komponenttien analyysi irrotti piirteitä jotka muistuttavat enemmän kielellisiä kategorioita kuin pääkomponenttianalyysilla irrotetut piirteet.
Tiivistelmä (eng): The analysis of natural language is an important field for language technology.
The symbolic nature of written language can be encoded in numeric form and analyzed using statistical signal processing methods.
In this thesis, it is assumed that word usage statistics, namely word frequencies in different contexts, contain linguistic information that can be extracted using statistical feature extraction methods.

Independent component analysis, an unsupervised statistical method for blind source separation, is applied to extracting features for words using a text corpus.
A study between the closeness of match between the emergent features and traditional syntactic word categories for words shows that independent component analysis extracts features that resemble more linguistic categories than features extracted with principal component analysis.
ED:2005-02-24
INSSI tietueen numero: 28105
+ lisää koriin
« edellinen | seuraava »
INSSI