search query: @keyword vertaisverkko / total: 13
reference: 7 / 13
« previous | next »
Author:Soitinaho, Jouni
Title:Approximate information filtering in publish/subscribe peer-to-peer networks
Approksimoidun informaation suodatusmenetelmän soveltaminen tilauspalvelu-perusteisessa vertaisverkossa
Publication type:Licentiate thesis
Publication year:2010
Pages:v + 69 s. + liitt. 5      Language:   eng
Department/School:Tietoliikenne- ja tietoverkkotekniikan laitos
Main subject:Tietoverkkotekniikka   (S-38)
Supervisor:Kantola, Raimo
Instructor:Beijar, Nicklas
OEVS:
Electronic archive copy is available via Aalto Thesis Database.
Instructions

Reading digital theses in the closed network of the Aalto University Harald Herlin Learning Centre

In the closed network of Learning Centre you can read digital and digitized theses not available in the open network.

The Learning Centre contact details and opening hours: https://learningcentre.aalto.fi/en/harald-herlin-learning-centre/

You can read theses on the Learning Centre customer computers, which are available on all floors.

Logging on to the customer computers

  • Aalto University staff members log on to the customer computer using the Aalto username and password.
  • Other customers log on using a shared username and password.

Opening a thesis

  • On the desktop of the customer computers, you will find an icon titled:

    Aalto Thesis Database

  • Click on the icon to search for and open the thesis you are looking for from Aaltodoc database. You can find the thesis file by clicking the link on the OEV or OEVS field.

Reading the thesis

  • You can either print the thesis or read it on the customer computer screen.
  • You cannot save the thesis file on a flash drive or email it.
  • You cannot copy text or images from the file.
  • You cannot edit the file.

Printing the thesis

  • You can print the thesis for your personal study or research use.
  • Aalto University students and staff members may print black-and-white prints on the PrintingPoint devices when using the computer with personal Aalto username and password. Color printing is possible using the printer u90203-psc3, which is located near the customer service. Color printing is subject to a charge to Aalto University students and staff members.
  • Other customers can use the printer u90203-psc3. All printing is subject to a charge to non-University members.
Location:P1 Ark Aalto  2597   | Archive
Keywords:publish/subscribe
approximate filtering
document clustering
peer-to-peer network
tilauspalvelu
approksimoitu suodatus
dokumenttiklusteri
vertaisverkko
Abstract (eng): Publish and subscribe systems are becoming increasingly popular in Internet mainly due to the users need to limit the information flood.
The pubsub paradigm refers to a model where the receivers (subscribers) specify the information they want to receive instead of letting senders (publishers) decide what they want to send.
The problem of this model is often the difficulty to compose the query for exact matching of the words.
The user may not find the correct terms, or all synonyms.
Approximate filtering addresses this problem by giving the user more freedom to specify the query.

This thesis studies the key issues of applying approximate free text filtering to the pubsub model in p2p overlay networks.
In approximate filtering the subscriber accepts a document whenever it is similar enough with the query according to the selected measure.
The query may be words, phrases or even a text document, and the task of the pubsub system is to match the published documents with the queries and generate the notifications to the subscribers.
In a p2p network the documents are published and the queries are stored by any peer, but the user wants the relevant documents regardless of their location, which creates the "rendezvous" problem for the pubsub system to solve efficiently.

Three technical problem areas are studied.
First, the pubsub model involves the problem of inverse query, i.e. each document is matched against all queries at a time and not vice versa.
The solutions developed for databases and search applications are not feasible.
Second, in the selected approximate filtering method the query parameters are not matched directly to the document content but both are transformed to an abstract "concept space".
This raises the question about the quality of the transformation.
Third, the scalability of the p2p network is addressed by comparing the message rate of different publishing strategies.

A lot of previous research exists m each of the three technical problem areas However, studies containing all three together are rare.
Therefore, the method of the thesis is to review previous studies in different areas and select some alternatives for evaluation.
The evaluation is performed experimentally by simulations and analytically whenever feasible.
The results are compared in terms of the user experience (filtering quality) and network load (message rate)
Abstract (fin): Tilauspalvelusysteemit (publish/subscribe) ovat yleistymässä Internetissä johtuen käyttäjän tarpeesta rajoittaa informaatiotulvaa.
Tilauspalvelu viittaa malliin, jossa vastaanottajat (tilaajat) määrittelevät haluamansa informaation sen sijaan, että lähettäjät (julkaisijat) päättävät siitä.
Tämän mallin ongelmana on usein tilausehtojen määrittelyn vaikeus silloin kun käytetään sanatarkkaa määrittelytapaa.
Käyttäjän voi olla mahdotonta löytää oikeita termejä tai kaikkia sen synonyymejä.
Approksimoitu suodatus tähtää tämän ongelman ratkaisemiseen antamalla käyttäjälle liikkumavaraa ehtojen määrittelyssä.

Tässä työssä tutkitaan tärkeimpiä ongelmia approksimoidun vapaan tekstisuodatuksen soveltamisessa tilauspalvelumalliin vertaisverkoissa.
Approksimoidussa suodatuksessa tilaaja hyväksyy dokumentin silloin kun se on riittävän samankaltainen tilausehtojen kanssa valitun mittarin mukaan.
Tilausehto voi olla sanoja, fraaseja tai jopa tekstidokumentti, ja tilauspalvelusysteemin tehtävänä on löytää samankaltaiset dokumentit ja lähettää tilaajien herätteet.
Vertaisverkossa dokumentit saapuvat ja hakuehtoja talletetaan kaikissa solmuissa, mutta käyttäjä haluaa relevantit dokumentit riippumatta niiden sijainnista, mistä johtuva "rendezvous" ongelma on systeemin ratkaistava tehokkaasti.

Kolmea teknistä ongelma-aluetta tarkastellaan.
Ensiksi, tilauspalvelumalliin liittyy käänteisen haun ongelma, eli jokaista dokumenttia verrataan kaikkiin talletettuihin kyselyihin kerrallaan eikä päinvastoin.
Tietokantoja ja informaation hakua varten kehitetyt ratkaisut eivät siten ole käyttökelpoisia.
Toiseksi, approksimoidussa suodatuksessa hakuehtoja ei verrata suoraan dokumentin tekstiin.
Sen sijaan molemmat muunnetaan abstraktiin "käsiteavaruuteen".
Kolmanneksi, vertaisverkon skaalautuvuutta tutkitaan vertailemalla erilaisten julkaisumenetelmien tuottamia sanomamääriä.

Paljon aikaisempaa tutkimusta on olemassa kustakin kolmesta teknisestä ongelma-alueesta.
Kuitenkin tutkimukset, jotka kattavat kaikki kolme yhdessä, ovat harvinaisia.
Sen vuoksi työn metodina on tarkastella aiempia tutkimuksia eri osa-alueilta ja valita joitakin vaihtoehtoja evaluoitavaksi.
Tämä evaluointi suoritetaan kokeellisesti simuloimalla ja analyyttisesti laskemalla silloin kun se on mahdollista.
Tuloksia vertaillaan sekä käyttäjän kannalta (suodatuksen laatu) että verkon näkökulmasta (sanomamäärä).
ED:2010-08-09
INSSI record number: 40053
+ add basket
« previous | next »
INSSI