haku: @keyword distributed systems / yhteensä: 38
viite: 3 / 38
Tekijä:Canellas, Jorge
Työn nimi:Full-text search engines: Analysis and bencmarking of distributed text-search solutions
Julkaisutyyppi:Final Project-työ
Julkaisuvuosi:2014
Sivut:64      Kieli:   eng
Koulu/Laitos/Osasto:Perustieteiden korkeakoulu
Oppiaine:Tietokoneverkot   (T-110)
Valvoja:Heljanko, Keijo
Ohjaaja:Fabra Caro, Francisco Javier
OEVS:
Sähköinen arkistokappale on luettavissa Aalto Thesis Databasen kautta.
Ohje

Digitaalisten opinnäytteiden lukeminen Aalto-yliopiston Harald Herlin -oppimiskeskuksen suljetussa verkossa

Oppimiskeskuksen suljetussa verkossa voi lukea sellaisia digitaalisia ja digitoituja opinnäytteitä, joille ei ole saatu julkaisulupaa avoimessa verkossa.

Oppimiskeskuksen yhteystiedot ja aukioloajat: https://learningcentre.aalto.fi/fi/harald-herlin-oppimiskeskus/

Opinnäytteitä voi lukea Oppimiskeskuksen asiakaskoneilla, joita löytyy kaikista kerroksista.

Kirjautuminen asiakaskoneille

  • Aalto-yliopistolaiset kirjautuvat asiakaskoneille Aalto-tunnuksella ja salasanalla.
  • Muut asiakkaat kirjautuvat asiakaskoneille yhteistunnuksilla.

Opinnäytteen avaaminen

  • Asiakaskoneiden työpöydältä löytyy kuvake:

    Aalto Thesis Database

  • Kuvaketta klikkaamalla pääset hakemaan ja avaamaan etsimäsi opinnäytteen Aaltodoc-tietokannasta. Opinnäytetiedosto löytyy klikkaamalla viitetietojen OEV- tai OEVS-kentän linkkiä.

Opinnäytteen lukeminen

  • Opinnäytettä voi lukea asiakaskoneen ruudulta tai sen voi tulostaa paperille.
  • Opinnäytetiedostoa ei voi tallentaa muistitikulle tai lähettää sähköpostilla.
  • Opinnäytetiedoston sisältöä ei voi kopioida.
  • Opinnäytetiedostoa ei voi muokata.

Opinnäytteen tulostus

  • Opinnäytteen voi tulostaa itselleen henkilökohtaiseen opiskelu- ja tutkimuskäyttöön.
  • Aalto-yliopiston opiskelijat ja henkilökunta voivat tulostaa mustavalkotulosteita Oppimiskeskuksen SecurePrint-laitteille, kun tietokoneelle kirjaudutaan omilla Aalto-tunnuksilla. Väritulostus on mahdollista asiakaspalvelupisteen tulostimelle u90203-psc3. Väritulostaminen on maksullista Aalto-yliopiston opiskelijoille ja henkilökunnalle.
  • Ulkopuoliset asiakkaat voivat tulostaa mustavalko- ja väritulosteita Oppimiskeskuksen asiakaspalvelupisteen tulostimelle u90203-psc3. Tulostaminen on maksullista.
Sijainti:P1 Ark Aalto  1772   | Arkisto
Avainsanat:full-text search engines
distributed systems
scalability
Cloudera
Solr
SolrCloud
elastic search
Lucene
HDFS
Tiivistelmä (eng): The amount of available data has increased notably in the last few years, exposing scalability problems of storage systems.
Traditional clusters built with expensive storage solutions have proven not to be a feasible solution.
The amount of investment needed to build and expand such clusters is not affordable by many companies.
Commodity hardware is much cheaper but fails more often.
Fault tolerance has been passed to the application layer, which allows building larger clusters with less investment thus leading to more powerful systems.
However the fault tolerance mechanisms have to be taken into account when designing the application.

The most common mechanisms used when implementing data storage applications is replication.
Creating several copies of the same data ensures that the data is still available if there is at least one replica alive.
On the other hand, replication introduces new problems.
Managing replicas can be complicated when modifying existing data.
It is important to make sure that all the replicas store the same version of the data.

Searching in huge amounts of data requires new approaches since non-distributed text search engines are not able to return relevant documents in a reduced amount of time.
Scaling a text search engine requires that the storage capabilities of the cluster can be increased horizontally and that the response time does not increase drastically as the number of computers increases.

The purpose of this work is to analyse two different full-text search engines, Elastic search and Cloud era's distribution of SolrCloud.
Both text search engines use Lucene, a search library written in Java, under the hood to build a text search engine.
However, they manage data distribution and scaling in different manners.
We have prepared benchmarks to visualize how do they behave with different setups and how does the number of available nodes influence in their search and indexing performance.
ED:2014-06-30
INSSI tietueen numero: 49350
+ lisää koriin
INSSI