..om å ta seg av kunnskap – NTNU – Fakultet for naturvitenskap og teknologi

Blogginnlegg sammen med Astrid Lægreid (ikke på bildet) fra Institutt for kreftforskning og molekylær medisin:

Vi overser ofte at vi ikkje alltid, når vi har publisert forskingsresultata våre, har tilbode den nye kunnskapen til forskingsverda på best muleg måte. I dag er biomedisinsk forsking i stor grad avhengig av datamaskinar for å kunna analysere og integrere ulike typar data og fakta. Og sjølv om datamaskinar er ein kraftfull reiskap, er det vanskeleg for dei å tolke det som for oss er så lett å forstå når vi les ein vitskapeleg publikasjon.

Sjølv om mykje forsking er gjort for å betre datamaskinene sine ferdigheiter innan tekstanalyse, til dømes innanfor fagområdet tekstgruvedrift (‘text mining’), forblir mange fakta og mykje ny kunnskap nedgravne i publikasjonane våre. Dei blir vanskeleg å finne fordi vi ofte brukar ord som har mange tydingar, til dømes namn som er morosame (sonic hedgehog) men som ikkje gir meining for ein datamaskin, eller vi nemner fakta i ein kontekst som endrar meiningsinnhaldet på ein avgjerande måte (til dømes ved å bruke det enkle ordet ‘ikkje’). Derfor må vi komme datamaskinane i møte og hjelpe dei med å forstå den verkelege kunnskapen som vi har gøymd så godt i teksten. Dette blir særleg interessant når ein ønskar å nå målet vi har sett oss for forskingsprosjekta våre her ved NTNU: bruke systembiologi for å finne ny biologisk innsikt.

Systembiologi er i stor grad basert på at datamaskinar handterer kunnskap om biologiske system eller prosessar (som celledeling; eller regulering av gen-aktivitet). Det er ventande at systembiologi, brukt til å forstå humanbiologi, vil opne for vesentleg ny innsikt som kan danne grunnlag for eit betre helsevesen. Systembiologi er gjort muleg gjennom framskritta i laboratorieteknologi som gjer at vi no kan skaffe oss store mengder data om prosessar, celler og organ i kroppen vår. Når desse data er tolka og publisert, kan systemskala biomedisinsk kunnskap integrerast i datamodellar som i neste omgang kan bidra til betre handtering av sjukdom gjennom høgare medisinskfagleg presisjon. For å lukkast med dette må vi ta oss av denne kunnskapen på ein god måte.

I forskingsarbeidet vårt har vi utvikla ei rekke datamodellar for cellelinjer som vi brukar i laboratoriet. Kvar gong måtte vi skaffe oss informasjonen vi trong for desse modellane ved å lese mange vitskapelege artiklar fordi berre ein liten del av informasjonen vi trong for modellane var tilgjengeleg i databasar. Dette fekk oss til å tenke på at det ville vera storvegs om i alle fall ein del av informasjonen for slike modellar fanntest lett tilgjengeleg for datamaskinar: informasjon for genregulering. Ein liten, men viktig del av dette er kunnskap om systemet som koplar informasjonen i ein spesifikk type protein, transkripsjonsfaktorar, med spesifikke DNA-sekvensar i nærleiken av genene (attkjenningssete, eller transkripsjonsfaktor-bindingssete): dette systemet koplar protein-verda med DNA-verda og dikterer kva for nokon genene som er aktive og kva for nokon av dei som held seg inaktive. Vi har nettopp sett i gang ein stor innsats for å bygge kunnskapsbasar for menneske og to av dei viktigaste modellsystema: mus og rotte (1, 2).

Vi veit sjølvsagt at DNA bindande transkripsjonsfaktorar berre er ein liten del av det komplekse systemet for genregulering. Og det vil trengast ei svært stor gruppe forskarar for å ta seg av det store mangfaldet av kunnskap om genregulering som finnst i den vitskapelege litteraturen. Der er vi heldige som ikkje er aleine om å innsjå kor viktig dette er. Vi har funne fram til forskarar frå heile verda som er villige til å gå sammen med oss i eit globalt konsortium for å ta vare på, eller ‘kurere’ kunnskap om genregulering (på norsk kjenner vi uttrykket ‘kurere’ i samband med kuratorar som legg til rette for kunst- eller museumsutstillingar; på engelsk er ‘curate/curator’ gjengs innanfor fagfeltet kunnskapshandtering).

Vi diskuterer no korleis vi best kan strukturere eksisterande tiltak og sette i gang nye for sammen å bygge opp ein serie av kunnskapsdatabasar og –ressursar som dekker heile genreguleringsfeltet for alle organismane som blir studerte i dag. Eksisterande databasar og ressursar representerte innanfor konsortiet omfattar mellom anna Gene Ontology, PAZAR, TFCat, TFactS og RegulonDB og vi har med DBD og IntAct frå European Institute of Bioinformatics (EBI). Eksisterande og nye ressursar skal byggast vidare på ein måte som gjer det lett å integrere informasjonen inn i datamodellar. Konsortiet kallast «Gene Regulation Consortium» (GRECO) og blir leia av oss.

Målet vårt er å utvide det som vi no gjer for DNA-bindande transkripsjonsfaktorar frå menneske, mus og rotte, til å omfatte heile genreguleringsfeltet – med mange ulike regulatoriske protein og –RNA og mange ulike strukturelle og funksjonelle DNA-element som til sammen sørger for at genreguleringssystemet finstiller genaktivitetane til spesifikke cellulære funksjonar – og å gjera dette for alle organismane.

GRECO har som mål å:

Fremje samhandling innanfor fagfeltet genregulering

Vurdere og forbetre ‘state of the art’-annotasjon av komponentar og mekanismar i genregulering

Identifisere sams initiativ, unngå dobbeltarbeid, fylle gap i kunnskapsressursar

Utvide og samordne ontologiar og kontrollerte vokabular

Fremje sameinte datautvekslings-format

Fremje sameinte retningslinjer som kan sikre kvalitet på ‘kurering’ av genreguleringskunnskap

Tiltrekke oss finansiering for å støtte opp under samhandling og for å sette i gang ny ‘kurerings’-aktivitet

Vi har nettopp, med finansiell støtte frå NTNU, organisert det første GRECO-arbeidsmøtet, som satellittmøte til The Seventh Conference of the International Society for Biocuration, ISB2014. Møtet var 5. april på Universitetet i Toronto og samla partnarar frå Storbritannia, Sveits, Tyskland, USA, Mexico, Brasil og Saudi-Arabia. Vi drøfta ideane våre for konsortiet og la grunnlaget for ein samla strategi for å skaffe finansiering frå internasjonale kjelder som NIH i USA og Horizon2020 i Europa, og frå nasjonale kjelder som NFR.

Vi planlegg å presentere noko av arbeidet ved Virtual Physiological Human (VPH) Conference 2014 i Trondheim, september 2014. VPH ønskar å bidra til å utvikle persontilpassa medisin ved å legge til rette for å bygge sterkare tverrfagleg samhandling mellom livsvitskapane, matematisk vitskap og ingeniørkunst over heile spekteret av grunn-, translasjons- og anvendt forsking.

Referansar

1)Tripathi S, Christie KR, Balakrishnan R, Huntley R, Hill DP, Thommesen L, Blake JA, Kuiper M, Lægreid A. Gene Ontology Annotation of Sequence specific DNA-binding Transcription Factors: Setting the Stage for a Large Scale Curation Effort. Database Aug 27; bat062 2013.

2) Chawla K; Tripathi S; Thommesen L; Lægreid A; Kuiper M. TFcheckpoint: a curated compendium of specific DNA-binding RNA polymerase II transcription factors. Bioinformatics 2013 ;Volume 29.(19) p. 2519-2520.

Publisert av Martin Kuiper