haku: @keyword hahmontunnistus / yhteensä: 34
viite: 2 / 34
Tekijä:Knuuttila, Juho
Työn nimi:Automatic self-supervised learning of associations between speech and text
Puheen ja tekstin välisen tilastollisen assosiaation itseohjautuva oppiminen
Julkaisutyyppi:Diplomityö
Julkaisuvuosi:2015
Sivut:63      Kieli:   eng
Koulu/Laitos/Osasto:Sähkötekniikan korkeakoulu
Oppiaine:Akustiikka ja äänenkäsittely   (S3004)
Valvoja:Laine, Unto
Ohjaaja:Räsänen, Okko
Elektroninen julkaisu: http://urn.fi/URN:NBN:fi:aalto-201504232421
Sijainti:P1 Ark Aalto  2765   | Arkisto
Avainsanat:statistical learning
associative learning
weakly supervised learning
self-supervised learning
pattern recognition
machine learning
tilastollinen oppiminen
assosiatiivinen oppiminen
heikosti ohjattu oppiminen
itse-ohjautuva oppiminen
hahmontunnistus
koneoppiminen
Tiivistelmä (fin):Keinoälyn toteuttamisessa vaikeimpia haasteita on kehittää ohjaamattomia oppimismenetelmiä, jotka oppivat yhdistämään saman abstraktin käsitteen toteutuksen useassa eri modaaliteeteissa ja vieläpä kuvailemaan aistihavainnon jossain toisessa modaaliteetissa, missä havainto tapahtuu.
Vastaava pätee myös niin kutsutun Big Data ongelman yhteydessä.
Samasta ilmiöstä voi usein saada monimuotoista mittaustuloksia.
Selvittämällä näiden tietovirtojen keskinäiset yhteydet voidaan mahdollisesti oppia ymmärtämään ilmiön taustalla olevia prosesseja ja piilevää dynamiikkaa.

Tässä diplomityössä esitellään menetelmällinen tapa löytää automaattisesti tilastolliset yhteydet kahden ominaisuuksiltaan erilaisen tietovirran välille.
Menetelmää simuloidaan kohinaisella sekä korkea bittinopeuksisella aistihavaintosignaalilla (puheella) ja ajallisesti diskreetillä kategorisella datalla (tekstillä).
Erotuksena perinteisiin automaattisiin puheentunnistusmenetelmiin esitetty menetelmä ei hyödynnä tunnistuksessa lainkaan foneettista tai kielitieteellistä tietämystä.
Menetelmä ainoastaan oppii ohjaamattomasti tilastollisesti vahvat osaset puheesta ja tekstistä sekä niiden väliset yhteydet.
Kokeet pikkulapselle suunnatulla, sanastollisesti rajoitetulla puheella osoitti, että oppimisjakson jälkeen menetelmällä saavutetaan lupaava kyky muuntaa puhetta tekstiksi
Tiivistelmä (eng):One of the key challenges in artificial cognitive systems is to develop effective algorithms that learn without human supervision to understand qualitatively different realisations of the same abstraction and therefore also acquire an ability to transcribe a sensory data stream to completely different modality.
This is also true in the so-called Big Data problem.
Through learning of associations between multiple types of data of the same phenomenon, it is possible to capture hidden dynamics that govern processes that yielded the measured data.

In this thesis, a methodological framework for automatic discovery of statistical associations between two qualitatively different data streams is proposed.
The simulations are run on a noisy, high bit-rate, sensory signal (speech) and temporally discrete categorical data (text).
In order to distinguish the approach from traditional automatic speech recognition systems, it does not utilize any phonetic or linguistic knowledge in the recognition.
It merely learns statistically sound units of speech and text and their mutual mappings in an unsupervised manner.
The experiments on child directed speech with limited vocabulary show that, after a period of learning, the method acquires a promising ability to transcribe continuous speech to its textual representation.
ED:2015-05-10
INSSI tietueen numero: 51182
+ lisää koriin
INSSI