Inssi

Helecon

Asiasanasto

Tenttu

haku: @keyword dokumenttiklusteri / yhteensä: 1

hakutulos-lista

viite: 1 / 1

« edellinen | seuraava »

Tekijä:	Soitinaho, Jouni
Työn nimi:	Approximate information filtering in publish/subscribe peer-to-peer networks
	Approksimoidun informaation suodatusmenetelmän soveltaminen tilauspalvelu-perusteisessa vertaisverkossa
Julkaisutyyppi:	Lisensiaatintutkimus
Julkaisuvuosi:	2010
Sivut:	v + 69 s. + liitt. 5 Kieli: eng
Koulu/Laitos/Osasto:	Tietoliikenne- ja tietoverkkotekniikan laitos
Oppiaine:	Tietoverkkotekniikka (S-38)
Valvoja:	Kantola, Raimo
Ohjaaja:	Beijar, Nicklas
OEVS:	Sähköinen arkistokappale on luettavissa Aalto Thesis Databasen kautta. Ohje sulje Digitaalisten opinnäytteiden lukeminen Aalto-yliopiston Harald Herlin -oppimiskeskuksen suljetussa verkossa Oppimiskeskuksen suljetussa verkossa voi lukea sellaisia digitaalisia ja digitoituja opinnäytteitä, joille ei ole saatu julkaisulupaa avoimessa verkossa. Oppimiskeskuksen yhteystiedot ja aukioloajat: https://learningcentre.aalto.fi/fi/harald-herlin-oppimiskeskus/ Opinnäytteitä voi lukea Oppimiskeskuksen asiakaskoneilla, joita löytyy kaikista kerroksista. Kirjautuminen asiakaskoneille Aalto-yliopistolaiset kirjautuvat asiakaskoneille Aalto-tunnuksella ja salasanalla. Muut asiakkaat kirjautuvat asiakaskoneille yhteistunnuksilla. Opinnäytteen avaaminen Asiakaskoneiden työpöydältä löytyy kuvake: Aalto Thesis Database Kuvaketta klikkaamalla pääset hakemaan ja avaamaan etsimäsi opinnäytteen Aaltodoc-tietokannasta. Opinnäytetiedosto löytyy klikkaamalla viitetietojen OEV- tai OEVS-kentän linkkiä. Opinnäytteen lukeminen Opinnäytettä voi lukea asiakaskoneen ruudulta tai sen voi tulostaa paperille. Opinnäytetiedostoa ei voi tallentaa muistitikulle tai lähettää sähköpostilla. Opinnäytetiedoston sisältöä ei voi kopioida. Opinnäytetiedostoa ei voi muokata. Opinnäytteen tulostus Opinnäytteen voi tulostaa itselleen henkilökohtaiseen opiskelu- ja tutkimuskäyttöön. Aalto-yliopiston opiskelijat ja henkilökunta voivat tulostaa mustavalkotulosteita Oppimiskeskuksen SecurePrint-laitteille, kun tietokoneelle kirjaudutaan omilla Aalto-tunnuksilla. Väritulostus on mahdollista asiakaspalvelupisteen tulostimelle u90203-psc3. Väritulostaminen on maksullista Aalto-yliopiston opiskelijoille ja henkilökunnalle. Ulkopuoliset asiakkaat voivat tulostaa mustavalko- ja väritulosteita Oppimiskeskuksen asiakaspalvelupisteen tulostimelle u90203-psc3. Tulostaminen on maksullista.
Sijainti:	P1 Ark Aalto 2597 \| Arkisto
Avainsanat:	publish/subscribe approximate filtering document clustering peer-to-peer network tilauspalvelu approksimoitu suodatus dokumenttiklusteri vertaisverkko
Tiivistelmä (fin):	Tilauspalvelusysteemit (publish/subscribe) ovat yleistymässä Internetissä johtuen käyttäjän tarpeesta rajoittaa informaatiotulvaa. Tilauspalvelu viittaa malliin, jossa vastaanottajat (tilaajat) määrittelevät haluamansa informaation sen sijaan, että lähettäjät (julkaisijat) päättävät siitä. Tämän mallin ongelmana on usein tilausehtojen määrittelyn vaikeus silloin kun käytetään sanatarkkaa määrittelytapaa. Käyttäjän voi olla mahdotonta löytää oikeita termejä tai kaikkia sen synonyymejä. Approksimoitu suodatus tähtää tämän ongelman ratkaisemiseen antamalla käyttäjälle liikkumavaraa ehtojen määrittelyssä. Tässä työssä tutkitaan tärkeimpiä ongelmia approksimoidun vapaan tekstisuodatuksen soveltamisessa tilauspalvelumalliin vertaisverkoissa. Approksimoidussa suodatuksessa tilaaja hyväksyy dokumentin silloin kun se on riittävän samankaltainen tilausehtojen kanssa valitun mittarin mukaan. Tilausehto voi olla sanoja, fraaseja tai jopa tekstidokumentti, ja tilauspalvelusysteemin tehtävänä on löytää samankaltaiset dokumentit ja lähettää tilaajien herätteet. Vertaisverkossa dokumentit saapuvat ja hakuehtoja talletetaan kaikissa solmuissa, mutta käyttäjä haluaa relevantit dokumentit riippumatta niiden sijainnista, mistä johtuva "rendezvous" ongelma on systeemin ratkaistava tehokkaasti. Kolmea teknistä ongelma-aluetta tarkastellaan. Ensiksi, tilauspalvelumalliin liittyy käänteisen haun ongelma, eli jokaista dokumenttia verrataan kaikkiin talletettuihin kyselyihin kerrallaan eikä päinvastoin. Tietokantoja ja informaation hakua varten kehitetyt ratkaisut eivät siten ole käyttökelpoisia. Toiseksi, approksimoidussa suodatuksessa hakuehtoja ei verrata suoraan dokumentin tekstiin. Sen sijaan molemmat muunnetaan abstraktiin "käsiteavaruuteen". Kolmanneksi, vertaisverkon skaalautuvuutta tutkitaan vertailemalla erilaisten julkaisumenetelmien tuottamia sanomamääriä. Paljon aikaisempaa tutkimusta on olemassa kustakin kolmesta teknisestä ongelma-alueesta. Kuitenkin tutkimukset, jotka kattavat kaikki kolme yhdessä, ovat harvinaisia. Sen vuoksi työn metodina on tarkastella aiempia tutkimuksia eri osa-alueilta ja valita joitakin vaihtoehtoja evaluoitavaksi. Tämä evaluointi suoritetaan kokeellisesti simuloimalla ja analyyttisesti laskemalla silloin kun se on mahdollista. Tuloksia vertaillaan sekä käyttäjän kannalta (suodatuksen laatu) että verkon näkökulmasta (sanomamäärä).
Tiivistelmä (eng):	Publish and subscribe systems are becoming increasingly popular in Internet mainly due to the users need to limit the information flood. The pubsub paradigm refers to a model where the receivers (subscribers) specify the information they want to receive instead of letting senders (publishers) decide what they want to send. The problem of this model is often the difficulty to compose the query for exact matching of the words. The user may not find the correct terms, or all synonyms. Approximate filtering addresses this problem by giving the user more freedom to specify the query. This thesis studies the key issues of applying approximate free text filtering to the pubsub model in p2p overlay networks. In approximate filtering the subscriber accepts a document whenever it is similar enough with the query according to the selected measure. The query may be words, phrases or even a text document, and the task of the pubsub system is to match the published documents with the queries and generate the notifications to the subscribers. In a p2p network the documents are published and the queries are stored by any peer, but the user wants the relevant documents regardless of their location, which creates the "rendezvous" problem for the pubsub system to solve efficiently. Three technical problem areas are studied. First, the pubsub model involves the problem of inverse query, i.e. each document is matched against all queries at a time and not vice versa. The solutions developed for databases and search applications are not feasible. Second, in the selected approximate filtering method the query parameters are not matched directly to the document content but both are transformed to an abstract "concept space". This raises the question about the quality of the transformation. Third, the scalability of the p2p network is addressed by comparing the message rate of different publishing strategies. A lot of previous research exists m each of the three technical problem areas However, studies containing all three together are rare. Therefore, the method of the thesis is to review previous studies in different areas and select some alternatives for evaluation. The evaluation is performed experimentally by simulations and analytically whenever feasible. The results are compared in terms of the user experience (filtering quality) and network load (message rate)
ED:	2010-08-09

INSSI tietueen numero: 40053

+ lisää koriin

« edellinen | seuraava »

INSSI