Inssi

Helecon

Asiasanasto

Tenttu

haku: @keyword text mining / yhteensä: 3

hakutulos-lista

viite: 1 / 3

« edellinen | seuraava »

Tekijä:	Soppela, Jyri
Työn nimi:	Nonnegative Matrix Factorization in Text Mining Applications
	Ohjaamattoman koneoppimisen menetelmät luonnollisen kielen tilastollisen analyysin apuna
Julkaisutyyppi:	Diplomityö
Julkaisuvuosi:	2014
Sivut:	vi + 45 Kieli: eng
Koulu/Laitos/Osasto:	Sähkötekniikan korkeakoulu
Oppiaine:	Computer and information science (T-61)
Valvoja:	Oja, Erkki
Ohjaaja:	Vigário, Ricardo
Elektroninen julkaisu:	http://urn.fi/URN:NBN:fi:aalto-201502191893
OEVS:	Sähköinen arkistokappale on luettavissa Aalto Thesis Databasen kautta. Ohje sulje Digitaalisten opinnäytteiden lukeminen Aalto-yliopiston Harald Herlin -oppimiskeskuksen suljetussa verkossa Oppimiskeskuksen suljetussa verkossa voi lukea sellaisia digitaalisia ja digitoituja opinnäytteitä, joille ei ole saatu julkaisulupaa avoimessa verkossa. Oppimiskeskuksen yhteystiedot ja aukioloajat: https://learningcentre.aalto.fi/fi/harald-herlin-oppimiskeskus/ Opinnäytteitä voi lukea Oppimiskeskuksen asiakaskoneilla, joita löytyy kaikista kerroksista. Kirjautuminen asiakaskoneille Aalto-yliopistolaiset kirjautuvat asiakaskoneille Aalto-tunnuksella ja salasanalla. Muut asiakkaat kirjautuvat asiakaskoneille yhteistunnuksilla. Opinnäytteen avaaminen Asiakaskoneiden työpöydältä löytyy kuvake: Aalto Thesis Database Kuvaketta klikkaamalla pääset hakemaan ja avaamaan etsimäsi opinnäytteen Aaltodoc-tietokannasta. Opinnäytetiedosto löytyy klikkaamalla viitetietojen OEV- tai OEVS-kentän linkkiä. Opinnäytteen lukeminen Opinnäytettä voi lukea asiakaskoneen ruudulta tai sen voi tulostaa paperille. Opinnäytetiedostoa ei voi tallentaa muistitikulle tai lähettää sähköpostilla. Opinnäytetiedoston sisältöä ei voi kopioida. Opinnäytetiedostoa ei voi muokata. Opinnäytteen tulostus Opinnäytteen voi tulostaa itselleen henkilökohtaiseen opiskelu- ja tutkimuskäyttöön. Aalto-yliopiston opiskelijat ja henkilökunta voivat tulostaa mustavalkotulosteita Oppimiskeskuksen SecurePrint-laitteille, kun tietokoneelle kirjaudutaan omilla Aalto-tunnuksilla. Väritulostus on mahdollista asiakaspalvelupisteen tulostimelle u90203-psc3. Väritulostaminen on maksullista Aalto-yliopiston opiskelijoille ja henkilökunnalle. Ulkopuoliset asiakkaat voivat tulostaa mustavalko- ja väritulosteita Oppimiskeskuksen asiakaspalvelupisteen tulostimelle u90203-psc3. Tulostaminen on maksullista.
Sijainti:	P1 Ark Aalto 2649 \| Arkisto
Avainsanat:	nonnegative matrix factorization text mining NMF tiedonlouhinta tf-idf
Tiivistelmä (fin):	Tieteellisten julkaisujen meta-analyysi on käytäntö, jossa jo julkaistusta materiaalista tehdään johtopäätöksiä. Joissain tapauksissa voidaan tehdä jopa alkuperäisessa aineistossa julkaisemattomia löydöksiä. Meta-analyysiä tehdään paljon ihmisvoimin, mutta joillain aloilla on otettu käyttöön automaattisia työkaluja suurten aineistojen läpikäyntiin. Tässä työssä luonnollisen kielen tilastollisia menetelmiä käytetään neurotiedeartikkelien prosessointiin. Pitkän aikavälin tavoite, jonka osa tämä työ on, on löytää jo julkaistusta neurotiedekirjallisuudesta tietoa, jota ei voitaisi päätellä yksittäisistä artikkeleista. Kahta ohjaamatonta laskennallista metodia, k-means-klusterointia ja NMF-matriisihajotelmaa, käytettiin usean eri aineiston käsittelyyn semanttisen rakenteen löytämiseksi. Laskennallisten metodien tulokset eivät olleet odotetun tasoisia, mutta tf-idf-piirre-erottelun käyttökelpoisuus validoitiin. Klusteroinnit toimivat satunnaista klusterointia paremmin ja julkaistussa kirjallisuudessa on onnistuttu tuottamaan samoilla metodeilla parempia tuloksia eri parametreja käyttäen.
Tiivistelmä (eng):	Meta-analysis of scientific publications is a practice where conclusions, sometimes novel, are drawn from already published material. It is mostly done by hand but on some fields, automatic tools have appeared to mine through large amounts of scientific literature. In this thesis, methods in statistical processing of natural language are used to process neuroscience articles. The long-time goal in which this thesis is a part is to construct a method to automatically process neuroscience publications and possibly by combining data in them, find new results not found by the original authors. Two computational methods, k-means clustering and non-negative matrix factorization, were used on several text data data sets to find semantic structure in them. The results using the computational methods were not very useful but proved that the tf-idf feature extraction method has potential. The clustering performed better than random assignment of clusters and published literature has presented even higher results using the same methods with different parameters.
ED:	2015-03-08

INSSI tietueen numero: 50633

+ lisää koriin

« edellinen | seuraava »

INSSI