Inssi

Helecon

Vocabulary

Tenttu

search query: @keyword hahmontunnistus / total: 34

reference: 2 / 34

« previous | next »

Author:	Knuuttila, Juho
Title:	Automatic self-supervised learning of associations between speech and text
	Puheen ja tekstin välisen tilastollisen assosiaation itseohjautuva oppiminen
Publication type:	Master's thesis
Publication year:	2015
Pages:	63 Language: eng
Department/School:	Sähkötekniikan korkeakoulu
Main subject:	Akustiikka ja äänenkäsittely (S3004)
Supervisor:	Laine, Unto
Instructor:	Räsänen, Okko
Electronic version URL:	http://urn.fi/URN:NBN:fi:aalto-201504232421
Location:	P1 Ark Aalto 2765 \| Archive
Keywords:	statistical learning associative learning weakly supervised learning self-supervised learning pattern recognition machine learning tilastollinen oppiminen assosiatiivinen oppiminen heikosti ohjattu oppiminen itse-ohjautuva oppiminen hahmontunnistus koneoppiminen
Abstract (eng):	One of the key challenges in artificial cognitive systems is to develop effective algorithms that learn without human supervision to understand qualitatively different realisations of the same abstraction and therefore also acquire an ability to transcribe a sensory data stream to completely different modality. This is also true in the so-called Big Data problem. Through learning of associations between multiple types of data of the same phenomenon, it is possible to capture hidden dynamics that govern processes that yielded the measured data. In this thesis, a methodological framework for automatic discovery of statistical associations between two qualitatively different data streams is proposed. The simulations are run on a noisy, high bit-rate, sensory signal (speech) and temporally discrete categorical data (text). In order to distinguish the approach from traditional automatic speech recognition systems, it does not utilize any phonetic or linguistic knowledge in the recognition. It merely learns statistically sound units of speech and text and their mutual mappings in an unsupervised manner. The experiments on child directed speech with limited vocabulary show that, after a period of learning, the method acquires a promising ability to transcribe continuous speech to its textual representation.
Abstract (fin):	Keinoälyn toteuttamisessa vaikeimpia haasteita on kehittää ohjaamattomia oppimismenetelmiä, jotka oppivat yhdistämään saman abstraktin käsitteen toteutuksen useassa eri modaaliteeteissa ja vieläpä kuvailemaan aistihavainnon jossain toisessa modaaliteetissa, missä havainto tapahtuu. Vastaava pätee myös niin kutsutun Big Data ongelman yhteydessä. Samasta ilmiöstä voi usein saada monimuotoista mittaustuloksia. Selvittämällä näiden tietovirtojen keskinäiset yhteydet voidaan mahdollisesti oppia ymmärtämään ilmiön taustalla olevia prosesseja ja piilevää dynamiikkaa. Tässä diplomityössä esitellään menetelmällinen tapa löytää automaattisesti tilastolliset yhteydet kahden ominaisuuksiltaan erilaisen tietovirran välille. Menetelmää simuloidaan kohinaisella sekä korkea bittinopeuksisella aistihavaintosignaalilla (puheella) ja ajallisesti diskreetillä kategorisella datalla (tekstillä). Erotuksena perinteisiin automaattisiin puheentunnistusmenetelmiin esitetty menetelmä ei hyödynnä tunnistuksessa lainkaan foneettista tai kielitieteellistä tietämystä. Menetelmä ainoastaan oppii ohjaamattomasti tilastollisesti vahvat osaset puheesta ja tekstistä sekä niiden väliset yhteydet. Kokeet pikkulapselle suunnatulla, sanastollisesti rajoitetulla puheella osoitti, että oppimisjakson jälkeen menetelmällä saavutetaan lupaava kyky muuntaa puhetta tekstiksi
ED:	2015-05-10

INSSI record number: 51182

« previous | next »

INSSI