haku: @supervisor Lampinen, Jouko / yhteensä: 58
viite: 2 / 58
Tekijä:Kuula, Jani
Työn nimi:InBase 2.0: Sequence database and research tool for autocatalytic self-splicing proteins
InBase 2.0: Tietokanta ja tutkimustyökalu automaattisesti isäntäproteiinista irti silmukoituville proteiineille
Julkaisutyyppi:Diplomityö
Julkaisuvuosi:2015
Sivut:74 s. + liitt. 7      Kieli:   eng
Koulu/Laitos/Osasto:Sähkötekniikan korkeakoulu
Oppiaine:Laskennallinen ja kognitiivinen biotiede   (S3001)
Valvoja:Lampinen, Jouko
Ohjaaja:Iwai, Hideo
Elektroninen julkaisu: http://urn.fi/URN:NBN:fi:aalto-201505272915
Sijainti:P1 Ark Aalto  2856   | Arkisto
Avainsanat:proteins
inteins
HINT domain
sequence analysis
biological databases
proteiinit
intein
biologiset tietokannat
sekvenssianalyysi
HINT proteiinijoukko
Tiivistelmä (fin):Inteinit ovat proteiineja, jotka silmukoituvat automaattisesti irti isäntäproteiinista ilman entsyymejä tai muita katalyyttejä.
Silmukoitumisesta seuraa toimiva isäntäproteiini ja vapaa inteini.
Tämä automaattinen leikkauttuminen on inteini -proteiinien perusominaisuus ja myös muita samankaltaisilla ominaisuuksilla varustettuja proteiiniryhmiä on löydetty.
Kaikissa näissä ryhmissä - inteinit mukaanluettuna - on proteiini -alue (engl. domain) nimeltä HINT, joka vastaa leikkautumisesta.
Tällä hetkellä ryhmät ovat inteinit, bakteeriperäiset inteinien kaltaiset proteiinit A, B ja C, sekä Hedgehog ja Vint -ryhmät.
Monet näiden ryhmien proteiineista ovat huonosti tutkittuja.

Tämän työn tarkoituksena on rakentaa verkkopohjainen työkalu - nimeltään InBase 2.0 - näiden ryhmien ominaisuuksien tutkimiseen sekä tietokanta proteiinisekvenssien tallennukseen.
InBase 2.0:n tietokanta on relaatiotietokanta, jossa proteiinisekvensseihin voidaan linkittää niihin liittyvää tietoa.
Tallaista tietoa on esimerkiksi sekvenssiin liittyvät julkaisut, sekvenssien luokitukset ja leikkautumisaktiivisuus.

InBase 2.0:n työkalupaketti sisältää sekvenssianalyysissä yleisesti käytettyjä ohjelmistoja.
Työkalut ovat BLAST, InterProScan 5, ClustalW ja WebLogo.
Useat inteinit sisältävät myös proteiini -domainin nimeltä hakeutuva endonukleaasi.
Tämä domaini voi kopioida inteiniä koodavan DNA -sekvenssin toisaalle organismin genomissa.
Uusi sijainti tulee kuitenkin sisältää lyhyen ko. inteinille spesifisen DNA -sekvenssin, ns. tunnistusalue.
Osalta inteineistä tämä tunnistusalue on tunnettu.
Tätä tietoa käytettiin hyväksi, kun InBase 2.0:n työkaluista rakennettiin yhteiskäyttökokonaisuus, jolla näitä tunnistusalueita pyritään ennustamaan.

Kokonaisuus toimii kyeten selvittämään tunnetut tunnistusalueet, mutta ei sitä kuinka pitkä tämä alue on.
Toinen päätehtävä InBase 2.0:lla on se että HINT domainin sisältävien proteiinien luokittelu on hankalaa ja epämääräistä.
Tähän ongelmaan pyritään saada selkeämpi määrittely käyttäen hyväksi InBase 2.0 työkaluja.
Tiivistelmä (eng):Inteins are autocatalyzing self-splicing proteins that are excised from a host protein giving a free intein and an active protein.
Other protein groups related to inteins by their ability to self-splice are also found and their function are at some level studied.
These proteins share a domain named as HINT (Hedgehog/Intein).
At the moment these groups are named as inteins, bacterial intein-like proteins A, B and C, hedgehog proteins and Vints.

The purpose of this work was to build a platform, named as InBase 2.0, where the functions and properties of these self-splicing elements could be studied efficiently.
The database that gathers protein sequences having these common properties lies at the basis of InBase 2.0.
The database is a relational database linking other important information to the actual sequential data of the proteins.
Such information is for example publications, classification of proteins, measured self-splicing activities etc.

A set of tools was added to the InBase 2.0 in order to perform sequential analysis and comparison between the sequences.
The set of tools performing sequential analysis includes BLAST, InterProScan 5, ClustalW and WebLogo.
Several known inteins contain homing endonuclease domain.
This domain can copy the intein coding sequence to another location in a genome.
However, the copy site needs to have a specific recognition site, which is again specific to the intein.

The capability of the tools were studied by constructing a workflow capable to predict such recognition sites.
Some recognition sites are known and the constructed workflow utilizing the tools of InBase 2.0 was capable to find these recognition sites with a small deficiency, not been able to predict the length of the site.
Classification of the protein sequences containing the HINT domain is not very clear.
InBase 2.0 main purpose for now on is to help to provide more specific definitions to the subgroups of the HINT domain containing proteins.
ED:2015-06-21
INSSI tietueen numero: 51468
+ lisää koriin
INSSI