haku: @keyword hajautettu laskenta / yhteensä: 9
viite: 3 / 9
Tekijä:Päällysaho, Antti
Työn nimi:Data warehouse and reporting tools based on an open source distributed file system
Avoimeen lähdekoodiin perustuvaan hajautettuun levyjärjestelmään perustuvat datatavaratalo- ja raportointityökalut
Julkaisutyyppi:Diplomityö
Julkaisuvuosi:2010
Sivut:(10) + 66 s. + liitt.      Kieli:   eng
Koulu/Laitos/Osasto:Informaatio- ja luonnontieteiden tiedekunta
Oppiaine:Ohjelmistotekniikka   (T-106)
Valvoja:Saikkonen, Heikki
Ohjaaja:Tikkala, Juho
OEVS:
Sähköinen arkistokappale on luettavissa Aalto Thesis Databasen kautta.
Ohje

Digitaalisten opinnäytteiden lukeminen Aalto-yliopiston Harald Herlin -oppimiskeskuksen suljetussa verkossa

Oppimiskeskuksen suljetussa verkossa voi lukea sellaisia digitaalisia ja digitoituja opinnäytteitä, joille ei ole saatu julkaisulupaa avoimessa verkossa.

Oppimiskeskuksen yhteystiedot ja aukioloajat: https://learningcentre.aalto.fi/fi/harald-herlin-oppimiskeskus/

Opinnäytteitä voi lukea Oppimiskeskuksen asiakaskoneilla, joita löytyy kaikista kerroksista.

Kirjautuminen asiakaskoneille

  • Aalto-yliopistolaiset kirjautuvat asiakaskoneille Aalto-tunnuksella ja salasanalla.
  • Muut asiakkaat kirjautuvat asiakaskoneille yhteistunnuksilla.

Opinnäytteen avaaminen

  • Asiakaskoneiden työpöydältä löytyy kuvake:

    Aalto Thesis Database

  • Kuvaketta klikkaamalla pääset hakemaan ja avaamaan etsimäsi opinnäytteen Aaltodoc-tietokannasta. Opinnäytetiedosto löytyy klikkaamalla viitetietojen OEV- tai OEVS-kentän linkkiä.

Opinnäytteen lukeminen

  • Opinnäytettä voi lukea asiakaskoneen ruudulta tai sen voi tulostaa paperille.
  • Opinnäytetiedostoa ei voi tallentaa muistitikulle tai lähettää sähköpostilla.
  • Opinnäytetiedoston sisältöä ei voi kopioida.
  • Opinnäytetiedostoa ei voi muokata.

Opinnäytteen tulostus

  • Opinnäytteen voi tulostaa itselleen henkilökohtaiseen opiskelu- ja tutkimuskäyttöön.
  • Aalto-yliopiston opiskelijat ja henkilökunta voivat tulostaa mustavalkotulosteita Oppimiskeskuksen SecurePrint-laitteille, kun tietokoneelle kirjaudutaan omilla Aalto-tunnuksilla. Väritulostus on mahdollista asiakaspalvelupisteen tulostimelle u90203-psc3. Väritulostaminen on maksullista Aalto-yliopiston opiskelijoille ja henkilökunnalle.
  • Ulkopuoliset asiakkaat voivat tulostaa mustavalko- ja väritulosteita Oppimiskeskuksen asiakaspalvelupisteen tulostimelle u90203-psc3. Tulostaminen on maksullista.
Sijainti:P1 Ark Aalto  8657   | Arkisto
Avainsanat:thesis
Hadoop
MapReduce
distributed computing
reporting
distributed file system
diplomityö
hajautettu laskenta
raportointi
hajautettu levyjärjestelmä
Tiivistelmä (fin): Nopeiden yhteyksien ja kovalevyjen kasvun ja halpenemisen myötä järjestelmiin kerätyn tiedon määrä on kasvanut räjähdysmäisesti.
Tämän myötä tärkeän tiedon analysointi kaikesta tiedosta on muuttunut vaikeammaksi ja välttämättä yksi tietokone ei riitä tähän.

Tämän diplomityön aiheena on tutkia mitä vaihtoehtoja on hajautetulle tiedon analysoimiselle ja yrittää löytää ja toteuttaa ratkaisu joka pystyy hajauttamaan laskennan ja levynkäytön useamman koneen kesken.
Työkalun tulisi perustua avoimeen lähdekoodiin, jotta sen toimintaa voidaan tarvittaessa tutkia tarkemmin.
Järjestelmän tulisi myös toimia koneilla, jotka edustavat pienten tai keskisuurten palvelimien keskikastia ilman mitään erikoisuuksia.

Loppujen lopuksi ongelma päätettiin ratkaista MapReduce ohjelmointimallia käyttävällä järjestelmällä ja sen toteutukseen valittiin Hadoop.
Hadoopin avulla saatiin rakennettua raportointijärjestelmä ja sen valmistuttua sen tehokkuutta ja laajennettavuutta testattiin.

Lopputuloksena saatiin tehtyä järjestelmä, jota on helppo laajentaa, kunhan huolehditaan datan tasaisesta jakautumisesta järjestelmään.
Tiivistelmä (eng): The growth of the size of hard disks and growth of the speed of the network connecting the computers the data that could be gathered has grown exponentially.
This has also made it more difficult to find the relevant information from this huge amount of data and one computer might not be enough for the job.

The subject of this thesis is to find what options we have for analyzing this data distributable and to try to find a solution that can distribute the data and computing power across a network of computers.
The solution should be based on open source tools so we can examine the tools more closely if needed.
Also we should be able to run the system on current commodity server hardware that is connected with standard Ethernet with speed of 100 Mbit/s.

Finally it was decided to use MapReduce programming model to solve the problem and it was decided to used Hadoop framework as MapReduce implementation.
After selection of tools a prototype was designed and implemented.
After completion of the prototype performance of the prototype was tested.
The prototype was tested for performance as well as how easy the system was to expand.

The prototype performed well as long as data was distributed well enough across the network.
ED:2010-08-31
INSSI tietueen numero: 40342
+ lisää koriin
INSSI