haku: @keyword Gaussian processes / yhteensä: 6
viite: 1 / 6
« edellinen | seuraava »
Tekijä:Jokinen, Emmi
Työn nimi:Modeling protein stability with Gaussian processes
Proteiinien stabiilisuuden mallintaminen Gaussin prosesseilla
Julkaisutyyppi:Diplomityö
Julkaisuvuosi:2016
Sivut:62 s. + liitt. 7      Kieli:   eng
Koulu/Laitos/Osasto:Sähkötekniikan korkeakoulu
Oppiaine:Laskennallinen ja kognitiivinen biotiede   (IL3003)
Valvoja:Lähdesmäki, Harri
Ohjaaja:Heinonen, Markus
Elektroninen julkaisu: http://urn.fi/URN:NBN:fi:aalto-201608263065
Sijainti:P1 Ark Aalto  4426   | Arkisto
Avainsanat:protein stability
Gaussian processes
graph kernels
MKL
proteiinien stabiilisuus
Gaussin prosessit
verkkokernelit
Tiivistelmä (fin):Proteiineja hyödynnetään useissa sovelluksissa eri teollisuuden aloilla.
Kun halutaan tehostaa proteiineja käyttäviä prosesseja tai kehitetään uusia sovelluksia, niin proteiinien ominaisuuksia voidaan muokata tekemällä niihin mutaatioita.
Proteiinien stabiilisuuden parantaminen on usein tarpeellista, sillä niiden tulisi olla stabiileja teollisuusprosessien olosuhteissa.
Proteiinien stabiilisuusennustimien avulla voidaan arvioida miten mutaatiot vaikuttavat proteiinien stabiilisuuteen.
Uusia proteiineja suunniteltaessa ennustimien käyttö voi siten vähentää kokeellisesti testattavien proteiinivarianttien määrää.

Tässä diplomityössä esitellään kaksi koneoppimismenetelmää, joilla voidaan ennustaa stabiilisuuden muutoksia kun proteiineihin tehdään mutaatioita.
Molemmat metodit hyödyntävät Gaussin prosesseja ja esittävät proteiinit verkkoina, mutta ne käyttävät eri kerneleitä ja erilaisia kuvauksia samankaltaisuudelle ja mukautuvat siten eri tilanteisiin.
Ensimmäinen malli hyödyntää vain tarkasteltavasta proteiinista saatua stabiilisuusdataa.
Kun dataa on tarpeeksi, niin mallilla saadaan erinomaisia tuloksia.
Esimerkiksi käyttämällä 349 mutaation datasettiä bakteriofagi T4 lysosyymille ja yksi-pois -ristiinvalidiointia saimme korrelaation 0.90 ja virheen neliöllisen keskiarvon 0.76 kcal/mol ja suoriuduimme siten paremmin kuin muut stabiilisuusennustimet.
Tätä mallia käyttäen voidaan ennustaa sekä yksittäisten että useiden samanaikaisten mutaatioiden vaikutuksia ja hyödyntää informaatiota energiafunktioita käyttäviltä ennustimilta stabiilisuusennustuksien parantamiseksi.

Toinen esitelty malli hyödyntää stabiilisuusdataa useista proteiineista ja sitä voidaan siten käyttää myös silloin, kun tarkasteltavasta proteiinista on saatavilla vain vähän tai ei lainkaan dataa.
Tämän mallin kanssa käytimme aikaisemmin julkaistua datasettiä, jossa on mutaatioita 131 eri proteiinista.
Datasetin 2648 mutaatiosta erotettiin 350 mutaatiota testausta varten ja loppuja käytettiin mallin kouluttamiseen.
Näin saavutimme kohtuulliset tulokset, korrelaation 0.54 ja virheen neliöllisen keskiarvon 1.32 kcal/mol.
Tiivistelmä (eng):Proteins are used in various applications by different industries.
In order to refine the processes they are used in or to create new applications, protein engineering is applied to alter the properties of proteins by introducing mutations to them.
It is often desirable to improve the stability of proteins as they should be stable in the conditions of industrial processes.
Protein stability predictors provide a way to estimate how mutations affect the stability.
When a novel protein is being designed, the predictors can thus be used to reduce the amount of proteins to be tested experimentally.

This master's thesis introduces two machine learning approaches for predicting stability changes of proteins upon mutations.
They both utilise Gaussian processes and a graph presentation of proteins, but by using different kernels and different notions of similarity, they adapt to different situations.
The first approach uses experimental stability measurements only from the protein of interest.
When enough data is available it can reach excellent results.
For example, when we trained this model using a stability data set of 349 measurements for bacteriophage T4 lysozyme and leave-one-out cross validation, we achieved a correlation of 0.90 and root mean squared error of 0.76 kcal/mol and outperformed the current state-of-art prediction methods.
This method can predict the effects of single and multiple simultaneous mutations and can also incorporate information from predictors relying on energy functions to further improve stability predictions.

The second approach exploits data from multiple proteins and can be applied even when only little or no experimental data is available from the protein of interest.
We trained this model using a previously published data set of 2648 mutations from 131 proteins.
When a set of 350 mutations of this data set was excluded for testing and the rest of the data was used for training, we achieved reasonable results, a correlation of 0.54 and a mean squared error of 1.32 kcal/mol.
ED:2016-09-04
INSSI tietueen numero: 54277
+ lisää koriin
« edellinen | seuraava »
INSSI