haku: @keyword hierarchical clustering / yhteensä: 3
viite: 2 / 3
Tekijä:Hazara, Murtaza
Työn nimi:Unsupervised methods in multilingual and multimodal semantic modeling
Sivut:vii + 70 s. + liitt. 30      Kieli:   eng
Koulu/Laitos/Osasto:Perustieteiden korkeakoulu
Oppiaine:Machine Learning and Data Mining   (SCI3015)
Valvoja:Oja, Erkki
Ohjaaja:Honkela, Timo
Elektroninen julkaisu: http://urn.fi/URN:NBN:fi:aalto-201410072760
Sähköinen arkistokappale on luettavissa Aalto Thesis Databasen kautta.

Digitaalisten opinnäytteiden lukeminen Aalto-yliopiston Harald Herlin -oppimiskeskuksen suljetussa verkossa

Oppimiskeskuksen suljetussa verkossa voi lukea sellaisia digitaalisia ja digitoituja opinnäytteitä, joille ei ole saatu julkaisulupaa avoimessa verkossa.

Oppimiskeskuksen yhteystiedot ja aukioloajat: https://learningcentre.aalto.fi/fi/harald-herlin-oppimiskeskus/

Opinnäytteitä voi lukea Oppimiskeskuksen asiakaskoneilla, joita löytyy kaikista kerroksista.

Kirjautuminen asiakaskoneille

  • Aalto-yliopistolaiset kirjautuvat asiakaskoneille Aalto-tunnuksella ja salasanalla.
  • Muut asiakkaat kirjautuvat asiakaskoneille yhteistunnuksilla.

Opinnäytteen avaaminen

  • Asiakaskoneiden työpöydältä löytyy kuvake:

    Aalto Thesis Database

  • Kuvaketta klikkaamalla pääset hakemaan ja avaamaan etsimäsi opinnäytteen Aaltodoc-tietokannasta. Opinnäytetiedosto löytyy klikkaamalla viitetietojen OEV- tai OEVS-kentän linkkiä.

Opinnäytteen lukeminen

  • Opinnäytettä voi lukea asiakaskoneen ruudulta tai sen voi tulostaa paperille.
  • Opinnäytetiedostoa ei voi tallentaa muistitikulle tai lähettää sähköpostilla.
  • Opinnäytetiedoston sisältöä ei voi kopioida.
  • Opinnäytetiedostoa ei voi muokata.

Opinnäytteen tulostus

  • Opinnäytteen voi tulostaa itselleen henkilökohtaiseen opiskelu- ja tutkimuskäyttöön.
  • Aalto-yliopiston opiskelijat ja henkilökunta voivat tulostaa mustavalkotulosteita Oppimiskeskuksen SecurePrint-laitteille, kun tietokoneelle kirjaudutaan omilla Aalto-tunnuksilla. Väritulostus on mahdollista asiakaspalvelupisteen tulostimelle u90203-psc3. Väritulostaminen on maksullista Aalto-yliopiston opiskelijoille ja henkilökunnalle.
  • Ulkopuoliset asiakkaat voivat tulostaa mustavalko- ja väritulosteita Oppimiskeskuksen asiakaspalvelupisteen tulostimelle u90203-psc3. Tulostaminen on maksullista.
Sijainti:P1 Ark Aalto  1741   | Arkisto
Avainsanat:symbol grounding
automatic thesaurus extraction
multimodal fusion
hierarchical clustering
Tiivistelmä (eng):In the first part of this project, independent component analysis has been applied to extract word clusters from two Farsi corpora.
Both word-document and word-context matrices have been considered to extract such clusters.
The application of ICA on the word-document matrices extracted from these two corpora led to the detection of syntagmatic word clusters, while the utilization of word-context matrix resulted in the extraction of both syntagmatic and paradigmatic word clusters.
Furthermore, we have discussed some potential benefits of this automatically extracted thesaurus.

In such a thesaurus, a word is defined by some other words without being connected to the outer physical objects.
In order to fill such a gap, symbol grounding has been proposed by philosophers as a mechanism which might connect words to their physical referents.
From their point of view, if words are properly connected to their referents, their meaning might be realized.
Once this objective is achieved, a new promising horizon would open in the realm of artificial intelligence.

In the second part of the project, we have offered a simple but novel method for grounding words based on the features coming from the visual modality.
Firstly, indexical grounding is implemented.
In this naïve symbol grounding method, a word is characterized using video indexes as its context.
Secondly, such indexical word vectors have been normalized according to the features calculated for motion videos.
This multimodal fusion has been referred to as the pattern grounding.
In addition, the indexical word vectors have been normalized using some randomly generated data instead of the original motion features.
This third case was called randomized grounding.
These three cases of symbol grounding have been compared in terms of the performance of translation.
Besides that, word clusters have been excerpted by comparing the vector distances and from the dendrograms generated using an agglomerative hierarchical clustering method.

We have observed that pattern grounding exceled the indexical grounding in the translation of the motion annotated words, while randomized grounding has deteriorated the translation significantly.
Moreover, pattern grounding culminated in the formation of clusters in which a word fit semantically to the other members, while using the indexical grounding, some of the closely related words dispersed into arbitrary clusters.
INSSI tietueen numero: 49820
+ lisää koriin