haku: @keyword diplomityö / yhteensä: 19
viite: 13 / 19
Tekijä: | Päällysaho, Antti |
Työn nimi: | Data warehouse and reporting tools based on an open source distributed file system |
Avoimeen lähdekoodiin perustuvaan hajautettuun levyjärjestelmään perustuvat datatavaratalo- ja raportointityökalut | |
Julkaisutyyppi: | Diplomityö |
Julkaisuvuosi: | 2010 |
Sivut: | (10) + 66 s. + liitt. Kieli: eng |
Koulu/Laitos/Osasto: | Informaatio- ja luonnontieteiden tiedekunta |
Oppiaine: | Ohjelmistotekniikka (T-106) |
Valvoja: | Saikkonen, Heikki |
Ohjaaja: | Tikkala, Juho |
OEVS: | Sähköinen arkistokappale on luettavissa Aalto Thesis Databasen kautta.
Ohje Digitaalisten opinnäytteiden lukeminen Aalto-yliopiston Harald Herlin -oppimiskeskuksen suljetussa verkossaOppimiskeskuksen suljetussa verkossa voi lukea sellaisia digitaalisia ja digitoituja opinnäytteitä, joille ei ole saatu julkaisulupaa avoimessa verkossa. Oppimiskeskuksen yhteystiedot ja aukioloajat: https://learningcentre.aalto.fi/fi/harald-herlin-oppimiskeskus/ Opinnäytteitä voi lukea Oppimiskeskuksen asiakaskoneilla, joita löytyy kaikista kerroksista.
Kirjautuminen asiakaskoneille
Opinnäytteen avaaminen
Opinnäytteen lukeminen
Opinnäytteen tulostus
|
Sijainti: | P1 Ark Aalto 8657 | Arkisto |
Avainsanat: | thesis Hadoop MapReduce distributed computing reporting distributed file system diplomityö hajautettu laskenta raportointi hajautettu levyjärjestelmä |
Tiivistelmä (fin): | Nopeiden yhteyksien ja kovalevyjen kasvun ja halpenemisen myötä järjestelmiin kerätyn tiedon määrä on kasvanut räjähdysmäisesti. Tämän myötä tärkeän tiedon analysointi kaikesta tiedosta on muuttunut vaikeammaksi ja välttämättä yksi tietokone ei riitä tähän. Tämän diplomityön aiheena on tutkia mitä vaihtoehtoja on hajautetulle tiedon analysoimiselle ja yrittää löytää ja toteuttaa ratkaisu joka pystyy hajauttamaan laskennan ja levynkäytön useamman koneen kesken. Työkalun tulisi perustua avoimeen lähdekoodiin, jotta sen toimintaa voidaan tarvittaessa tutkia tarkemmin. Järjestelmän tulisi myös toimia koneilla, jotka edustavat pienten tai keskisuurten palvelimien keskikastia ilman mitään erikoisuuksia. Loppujen lopuksi ongelma päätettiin ratkaista MapReduce ohjelmointimallia käyttävällä järjestelmällä ja sen toteutukseen valittiin Hadoop. Hadoopin avulla saatiin rakennettua raportointijärjestelmä ja sen valmistuttua sen tehokkuutta ja laajennettavuutta testattiin. Lopputuloksena saatiin tehtyä järjestelmä, jota on helppo laajentaa, kunhan huolehditaan datan tasaisesta jakautumisesta järjestelmään. |
Tiivistelmä (eng): | The growth of the size of hard disks and growth of the speed of the network connecting the computers the data that could be gathered has grown exponentially. This has also made it more difficult to find the relevant information from this huge amount of data and one computer might not be enough for the job. The subject of this thesis is to find what options we have for analyzing this data distributable and to try to find a solution that can distribute the data and computing power across a network of computers. The solution should be based on open source tools so we can examine the tools more closely if needed. Also we should be able to run the system on current commodity server hardware that is connected with standard Ethernet with speed of 100 Mbit/s. Finally it was decided to use MapReduce programming model to solve the problem and it was decided to used Hadoop framework as MapReduce implementation. After selection of tools a prototype was designed and implemented. After completion of the prototype performance of the prototype was tested. The prototype was tested for performance as well as how easy the system was to expand. The prototype performed well as long as data was distributed well enough across the network. |
ED: | 2010-08-31 |
INSSI tietueen numero: 40342
+ lisää koriin
INSSI