Inligting

Gebruik gevalle van RNA sekondêre struktuur voorspelling

Gebruik gevalle van RNA sekondêre struktuur voorspelling


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Ek is 'n voorgraadse student wat tans 'n tesis skryf oor RNA se sekondêre struktuur voorspelling, wat spesifiek voortbou op analise wat deur die RNAStruktuur en Ontvou sagtewarepakkette deur sekere algoritmes hier en daar te wysig. Ek is egter nie 'n bioloog nie. Ek het al my klasse in fisika en rekenaarwetenskap geneem, en ek het soortvan in my huidige navorsing gestruikel, en aangesien dit gelyk het of dit 'n goeie pas vir my vaardighede was, het ek daarby gehou. Dit laat my egter nuuskierig oor 'n motivering vir my huidige werk. Hoekom is RNA se sekondêre struktuur voorspelling belangrik en wat is sommige van die toepassings daarvan?


Kort antwoord

Ek kan aan ten minste 'n dosyn toepassings dink waarvoor dit nuttig sal wees om die sekondêre struktuur van 'n gegewe volgorde van RNA van die bokant van my kop af te ken. In geen spesifieke volgorde nie:

  • Simulasie/visualisering van RNA
  • Riboskakelaars
  • MikroRNA
  • RNA-interferensie (RNAi)
  • RNA-RNA interaksies
  • RNA-DNA interaksies
  • RNA-proteïen interaksies
  • Ribosomale proteïen uitdrukking
  • Ribosieme
  • Geforseerde evolusie van RNA-aptamere
  • Sintetiese tRNA's met vier en vyf basispaarkodons
  • Beëindiging van transkripsie (die proses wat mRNA van DNA maak)

Basies enigiets wat met RNA te doen het, wat een van die fundamentele boustene van alle lewende wesens is.

Meer in-diepte

Simulasie/visualisering van RNA

Sekondêre struktuur (2°) vorm die tweede (yep) vlak in die standaard 4-vlak hiërargie van makromolekulêre struktuur, en bestaan ​​uit kortafstand interaksies tussen en tussen residue. In RNA word 2° gewoonlik beskou as losweg identies met basisparingsinteraksies. Om 'n behoorlike simulasie/visualisering te kan doen, sal jy waarskynlik ook ten minste die 3° inligting nodig hê, maar 2° is ook belangrik.

Riboskakelaars

Soos 'n mRNA deur 'n ribosoom vertaal word, kan dit in baie gevalle vorm in 'n komplekse 3D-struktuur wat die translasieproses sal beïnvloed. Byvoorbeeld, sommige van die mRNA's wat proteïene kodeer wat verband hou met die metabolisme van metaalione, het 'n riboswitch wat self aan metaalione sal bind en uitdrukking van die verwante proteïen inhibeer/opreguleer. Om verskeie redes is dit gewoonlik uiters moeilik om die volle 3D-struktuur van 'n riboswitch te kry, so om die 2° te leer ken, bly 'n belangrike bron van inligting oor hulle.


Om die sekondêre struktuur van nukleïensure te ken, is in baie gevalle baie nuttig wanneer u daarmee werk. Die eenvoudigste geval, en waarskynlik die mees gebruikte geval, is wanneer jy 'n klein RNA of DNA bestel of sintetiseer en eintlik nie wil hê dat dit 'n stabiele sekondêre struktuur moet hê nie. Daar is baie metodes waar jy 'n klein nukleïensuur gebruik wat aan 'n komplementêre deel van 'n ander nukleïensuur kan bind (hibridisering).

Byvoorbeeld in PCR, wat gebruik word om klein hoeveelhede DNA te versterk, gebruik jy klein DNA's wat primers genoem word wat aan spesifieke dele van 'n groter DNA-sjabloon bind. As daardie primers self stabiele sekondêre strukture kan vorm, sal daardie strukture opgebreek moet word voordat die primer aan die sjabloon kan bind. Sulke mededingende strukture kan die doeltreffendheid van sulke eksperimente drasties verminder en is iets wat mense probeer vermy, bv. deur sekondêre strukture te voorspel voordat primers gekies word.

Daar is ook metodes wat kort nukleïensure met aangehegte etikette soos fluorofore gebruik. Daardie gemerkte probes bind aan spesifieke teikenvolgordes, en jy kan dan bv. bepaal met 'n mikroskoop waar daardie probes gebind is. In al sulke tegnieke wil jy nie regtig sekondêre strukture in jou probes hê nie, aangesien dit inmeng met die binding aan die werklike teiken.

Wanneer RNA eerste ingebring word, word dikwels gesê dat dit enkelstring is en sekondêre struktuur word nie eers genoem nie. Maar selfs wanneer dit as boodskapper-RNA optree, speel sekondêre struktuur van RNA wel 'n rol. Een meganisme vir transkripsiebeëindiging werk deur 'n stamlus binne 'n sekere reeks stabiliteit te vorm, en die voorspelling daarvan is nodig om die werf waar transkripsie beëindig word, te voorspel.

Daar is ook baie tipes regulerende RNA's, dit is 'n baie aktiewe en warm onderwerp op die oomblik. Die bekendste is seker RNS-interferensie (siRNA en miRNA), maar daar is ook baie ribosime en veral in bakterieë ook riboswitches. Ek sal nie probeer om die verskillende tipes regulatoriese RNA's hier te lys nie, daar is 'n groot aantal verskillende klasse wat bekend is, en nuwes word steeds ontdek. Om dit te verstaan ​​is dit dikwels nodig om die sekondêre of tersiêre struktuur van die RNA's te ken.

Jy kan dikwels ten minste 'n paar hipoteses skep oor hoe 'n RNA kan werk deur na die sekondêre struktuur te kyk. In riboswitches byvoorbeeld het jy tipies 'n aan- en 'n af-konformasie, en dit kan dikwels verduidelik word deur sekondêre strukture.

Alhoewel die sekondêre struktuur dikwels nie genoeg is om te verstaan ​​hoe 'n spesifieke RNA werk nie, begin jy steeds deur dit in die meeste gevalle te voorspel. In baie gevalle sal jy addisioneel eksperimentele data gebruik om die voorspelling te verifieer (bv. SHAPE of inlyn ondersoek).

Om die werklike driedimensionele struktuur van RNA te bepaal is redelik moeilik. Hoe hard hang baie af van die presiese RNA, maar dit kan maklik jare neem om dit te doen. As jy gelukkig is, kan jy dit maklik kristalliseer, maar RNA's met buigsame dele is geneig om nie goed te kristalliseer nie. In daardie geval kan jy KMR doen om die struktuur te bepaal, maar dit het 'n taamlik ernstige grootte-beperking en kan maklik jare neem vir groter RNA's.

In die geval van KMR, is dit baie nuttig om die sekondêre struktuur te ken in feitlik elke geval. Jy moet jou seine aan spesifieke basisse toewys, en dit is baie makliker as jy die sekondêre struktuur ken. Jy kan ook KMR gebruik om spesifieke sekondêre struktuurvoorspellings te ondersteun of te weerlê.

Meer betroubare sekondêre struktuur voorspelling sal redelik lekker wees, die huidige metodes misluk steeds dikwels genoeg. Alhoewel daar waarskynlik 'n beperking is op hoe goed jy sulke metodes kan kry vir RNA's met uitgebreide tersiêre struktuur.


Abstrak

Sekondêre struktuurvoorspelling is 'n belangrike probleem in RNA-bioinformatika omdat kennis van struktuur van kritieke belang is om die funksies van RNA-reekse te verstaan. Beduidende verbeterings in voorspelling akkuraatheid is onlangs gedemonstreer deur die inkorporering van eksperimenteel verkry strukturele inligting, byvoorbeeld deur gebruik te maak van selektiewe 2'-hidroksielasielasie wat deur middel van primer extension (SHAPE) kartering ontleed is. Sulke karteringsdata is egter tans slegs beskikbaar vir 'n beperkte aantal RNA-volgordes. In hierdie artikel bied ons 'n metode aan om die voordeel van eksperimentele karteringdata in sekondêre struktuurvoorspelling uit te brei na homoloë rye. Spesifiek, ons stel 'n metode voor vir die integrasie van eksperimentele kartering data in 'n vergelykende volgorde analise algoritme vir sekondêre struktuur voorspelling van veelvuldige homoloë, waardeur die kartering data bevoordeel nie net die voorspelling vir die spesifieke volgorde wat gekarteer is nie, maar ook ander homoloë. Die voorgestelde metode word gerealiseer deur die TurboFold II-algoritme vir voorspelling van RNA sekondêre strukture te wysig om basisparingswaarskynlikhede te gebruik wat gelei word deur SHAPE eksperimentele data wanneer sulke data beskikbaar is. Die SHAPE-kartering-geleide basisparing-waarskynlikhede word verkry deur die RSample-metode te gebruik. Resultate demonstreer dat die SHAPE-karteringdata vir 'n volgorde die struktuurvoorspelling akkuraatheid van ander homoloë rye verbeter bo die akkuraatheid wat verkry word deur slegs volgordevergelyking (TurboFold II). Die opgedateerde weergawe van TurboFold II is vrylik beskikbaar as deel van die RNAstructure-sagtewarepakket.


Inleiding

RNA en proteïen is twee groot biologiese makromolekules en hul interaksie kan diepgaande effekte in verskillende velde hê, insluitend die regulering van geenuitdrukking [[1], [2], [3], [4]], proteïensintese [5,6], virale replikasie, en sellulêre verdedigingsmeganisme [[7], [8], [9], [10]]. Ten spyte van die belangrikheid van hierdie strukture, is dit moeilik om hul interaksie met behulp van eksperimentele metodes te identifiseer, aangesien dit duur en tydrowend is. Daar is dus 'n toenemende behoefte om masjienleerbenaderings te hê om hierdie interaksies akkuraat te voorspel [[11], [12], [13], [14], [15], [16]]. Onttrekking van strukturele kenmerke is een van die belangrikste voorverwerkingstappe in hierdie area. Onlangse ontwikkelings in die opheldering van RNA en proteïen strukturele kenmerke het die behoefte verhoog om verskillende instrumente te ontwerp, wat gemik is op die ondersoek van interaksies tussen RNA en proteïen. Ten spyte van verskeie studies oor die kwessie, is daar nog geen geskikte instrument vir die onttrekking van strukturele kenmerke ontwerp nie.


Gebruik gevalle van RNA sekondêre struktuur voorspelling - Biologie

Masjienleer en datawetenskaptoepassings in die industrie

Hierdie bewaarplek sal een keer per jaar opgedateer word. Vir die afgelope 6 maande en alle toekomstige skakels is 'n samewerkende bewaarplek eerder geskep. Om aan te sluit, moet jy twee bewaarplekke indien, die uniekheid van die Google Blaaie URL's nagaan. Projekteer 100 nuwe voorleggings teen die einde van volgende maand.

Ook in plaas van "kyk" kan jy aansluit die skakel-brief, daar is reeds sowat 600 inskrywings, eerste e-pos sal uitgestuur word Feb 2020. Maandelikse skakel-deel lys: https://mailchi.mp/ec4942d52cc5/firmai.

As jy hierdie bewaarplek geniet, sal jy ook graag google-colab-notebooks wil hê: Google Collaboratory End-to-End Notebooks and Repositories https://google-colab.com/

Voeg asseblief jou gereedskap en notaboeke by hierdie Google Blad. Of voeg dit eenvoudig by hierdie subreddit, r/datascience-projek

Merk in GEEL om jou pakket bygevoeg te kry, kan jy dit ook sommer self byvoeg met 'n trek versoek.

'n Samegestelde lys van toegepaste masjienleer en datawetenskap notaboeke en biblioteke in verskillende industrieë. Die kode in hierdie bewaarplek is in Python (hoofsaaklik deur Jupyter-notaboeke te gebruik), tensy anders vermeld. Die katalogus is geïnspireer deur ongelooflike-masjien-leer. r/datascienceproject is 'n subreddit waar jy al jou datawetenskapprojekte kan deel.

Waarskuwing: Dit is 'n werk aan die gang, dra asseblief by, veral as jy 'n vakkundige is in enige van die industrieë wat hieronder gelys word. As jy 'n [analities, rekenaarmatig, statisties, kwantitief] navorser/ontleder in veld X of 'n veld X [masjienleeringenieur, datawetenskaplike, modelbouer, programmeerder] dan sal jou bydrae baie waardeer word.

As jy wil bydra tot hierdie lys (doen asseblief), stuur vir my 'n trekversoek of kontak my @dereknow of op linkedin of kontak op die webwerf FirmAI. 'n Gelyste bewaarplek moet ook afgekeur word as:

  • Bewaarplek se eienaar sê uitdruklik dat "hierdie biblioteek nie in stand gehou word nie".
  • Vir 'n lang tyd nie toegewyd nie (2

Hulp benodig: As daar enige bydraers daar buite is wat bereid is om eers 'n Python-analise-afdeling te vul en dan in stand te hou in enige een van die volgende sub/bedrywe, kontak my asseblief. Kontak my ook om by te voeg bykomende nywerhede.


Natuur-geïnspireerde optimaliseringsalgoritme vir voorspelling van "minimum vrye energie" "RNA sekondêre struktuur"

Oor die laaste paar jaar is baie optimeringsalgoritmes ontwikkel om die optimale sekondêre struktuur van ribonukleïensuur (RNA) met "minimum vrye energie" (MFE) te voorspel. Hierdie algoritmes is óf geïnspireer deur dinamiese programmering óf deur metaheuristiese tegnieke. RNA neem deel aan verskeie biologiese aktiwiteite in die organisme. Hierdie aktiwiteite behels proteïensintese, begrip van die funksionele gedrag van RNA-molekules, kodering, dekodering en geenuitdrukking, draer van die oordrag van genetiese inligting, vorming van proteïen, katalisator in biomediese reaksies en strukturele molekule in sellulêre organelle, transkripsie, ens. , die belangrikste rol van RNA is in die ontwikkeling van nuwe middels en die begrip van verskeie siektes wat plaasgevind het as gevolg van genetiese afwyking en virusse. Vir die bogenoemde aktiwiteite, word dit vereis om die korrekte RNA sekondêre struktuur met minimum vrye energie met verlangde voorspelling akkuraatheid te voorspel. Hierdie vraestel bied 'n metaheuristiese optimeringsalgoritme aan om die optimale sekondêre struktuur van RNA met vereiste funksionaliteit te verkry en vereis minder tyd as die ander in die literatuur. Die werkverrigting van die voorgestelde algoritme word gekontroleer met verskillende bestaande state-of-the-art tegnieke. Daar word gevind dat die voorgestelde algoritme beter resultate lewer teenoor die ander tegnieke.

Dit is 'n voorskou van intekeninginhoud, toegang via jou instelling.


GLASSgo - Outomatiese en betroubare opsporing van sRNA-homoloë vanaf 'n enkele invoerreeks

Bakteriese klein RNA's (sRNA's) is belangrike post-transkripsionele reguleerders van geenuitdrukking. Die funksionele en evolusionêre karakterisering van sRNA's vereis die identifikasie van homoloë, wat dikwels uitdagend is as gevolg van hul heterogeniteit, kort lengte en gedeeltelik min volgordebewaring. Ons het die GLobal Automatic Small RNA Search go (GLASSgo)-algoritme ontwikkel om sRNA-homoloë in komplekse genomiese databasisse te identifiseer wat vanaf 'n enkele volgorde begin. GLASSgo kombineer 'n iteratiewe BLAST-strategie met paarsgewyse identiteitsfiltrering en 'n grafiek-gebaseerde groeperingsmetode wat RNA se sekondêre struktuurinligting gebruik. Ons het die spesifisiteit, sensitiwiteit en looptyd van GLASSgo, BLAST en die kombinasie RNAlien/cmsearch in 'n tipiese gebruiksgeval-scenario op 40 bakteriese sRNA-families getoets. Die sensitiwiteit van die getoetste metodes was soortgelyk, terwyl die spesifisiteit van GLASSgo en RNAlien/cmsearch aansienlik hoër was as dié van BLAST. GLASSgo was gemiddeld ~87 keer vinniger as RNAlien/cmsearch, en slegs ~7.5 keer stadiger as BLAST, wat toon dat GLASSgo die afweging tussen spoed en akkuraatheid optimaliseer in die taak om sRNA-homoloë te vind. GLASSgo is ten volle geoutomatiseer, terwyl BLAST dikwels slegs dele van homoloë herwin en RNAlien/cmsearch uitgebreide bykomende bioinformatiese werk vereis om 'n omvattende stel homoloë te kry. GLASSgo is beskikbaar as 'n maklik-om-te gebruik webbediener om homoloë sRNA's in groot databasisse te vind.

Sleutelwoorde: Rfam bakterieë vergelykende genomika grafiek-gebaseerde groepering homologie soek ncRNA voorspelling sRNA.

Syfers

Aantal ware positiewe (TP)...

Aantal ware positiewe (TP) en vals positiewe (FP) treffers per Rfam sRNA...

Positiewe voorspellende waardes (PPV) vir...

Positiewe voorspellende waardes (PPV) vir alle voorspellings van GLASSgo, RNAlien/cmsearch en BLAST. Die…

Sintenie-analise van drie homoloë ...

Sintenie-analise van drie homoloë van RF00111/SdsR wat geklassifiseer word as TP's en ...

Diversiteit van die homoloë van...

Diversiteit van die homoloë van die 40 maatstaf sRNA-families in die GLASSgo, ...

Vergelyking van die looptye van...

Vergelyking van die looptye van GLASSgo, RNAlien/cmsearch en BLAST vir die 40 maatstaf ...


Afsluiting

Om af te sluit, het ons 'n metode ontwikkel wat maklik is om op te lei en te ontplooi vir enige klas klein RNA genomiese lokusse. Deur die nuwe iteratiewe agtergrondkeuse te gebruik, kan ons metode die agtergrond 'moeilike gevalle' kies wat spesifiek vir elke opleiding is, wat prestasie bevorder. Ons wys dat ons metode beter as klasspesifieke metodes presteer, beide in akkuraatheid en berekeningsprestasie. Ons het kruisspesie-identifikasie van klein RNA's verder as homologie behaal, en het ook 'n realistiese gebruiksgeval uitgelig in die identifikasie van pre-miRNA's uit klein RNA-Seq-pieke.


ReadXplorer 2.2.3

:: BESKRYWING

ReadXplorer is 'n vrylik beskikbare omvattende eksplorasie- en evalueringsinstrument vir NGS-data. Dit onttrek en voeg hoeveelheid- en kwaliteitmaatstawwe by elke belyning om die gekarteerde leesstukke te klassifiseer. Hierdie klassifikasie word dan in ag geneem vir die verskillende data-aansigte en alle ondersteunde outomatiese analise-funksies.

:: SKERMSKIETE

:: VEREISTES

:: MEER INLIGTING

Bioinformatika. 30 Apr 2014. [Epub voor druk]
ReadXplorer – Visualisering en analise van gekarteerde rye.
Hilker R, Stadermann KB, Doppmeier D, Kalinowski J, Stoye J, Straube J, Winnebald J, Goesmann A.


Implementering

Basiese begrippe

As gevolg van die behoefte aan algemene dataformate, het ons verskeie basiese datatipes geïdentifiseer wat regdeur die bioinformatiese gemeenskap gebruik word en elementêre formaatbeskrywings geskep (sien tabel ​ tabel2), 2 ), formeel gespesifiseer deur XML-skemas, en 'n biblioteek (BioDOM) om XML-lêers volgens hierdie skemas te skep en bykomend van algemene formate na die XML-formate om te skakel en omgekeerd. Hierdie XML-formate word op groot skaal binne die HOBIT-projek gebruik om interoperasie tussen die bioinformatiese webdienste wat deur die projeklede by verskeie verskillende universiteite en navorsingsinstellings regoor Duitsland verskaf word, te fasiliteer. Nietemin wil ons veral die feit beklemtoon dat alhoewel die formate aanvanklik binne die HOBIT-projek gedefinieer is, die gebruik daarvan geensins tot hierdie konteks beperk is nie. Inteendeel, hulle is uitdruklik ontwerp om nuttige boustene vir enige gebruiker in die bioinformatiese gemeenskap te wees, en hul gebruik vir data-uitruiling tussen bioinformatiese nutsmiddels word hoogs aangemoedig. In die volgende beskryf ons sommige van hierdie XML-skemas en toon voorbeelde van hul toepassing.

Tabel 2

Vergelyking van inheemse formate en hul HOBIT XML-eweknieë

Reeks formate
FASTASequenceMLeenvoudige volgorde inligting vir nukleïen- en aminosure
GCGSequenceAnnotationMLvolgorde inligting met bykomende fasiliteite vir aantekeninge
STADEN
Reeksbelyningsformate
FASTABelyningML(veelvuldige) belynings vir nukleïen- en aminosure
KLUSTAAL
MSF
RNA sekondêre struktuurformate
mVOUDRNAStructMLRNA sekondêre struktuur inligting
Weense styl DotBracket
RNA Sekondêre Struktuur Belyning Formate
belynde Weense styl DotBracketRNAStructAlignmentML(veelvuldige) belynings van RNA sekondêre strukture

Die tabel toon 'n vergelyking van sommige inheemse bioinformatiese lêerformate (eerste kolom) en hul HOBIT XML-eweknieë (tweede kolom). Hierdie XML-formate dek volgorde, belyning, RNA sekondêre struktuur en RNA sekondêre struktuur belyning formate in 'n vorm wat onafhanklik is van enige spesifieke program. Die gebruik van die XML-formate lei tot 'n aansienlike afname in die aantal nodige lêerformate.

XML skema struktuur

Sommige implementeringsriglyne is vir die verskillende HOBIT XML-skemas gedefinieer om konsekwentheid in ontwikkeling en resultate te waarborg. Hierdie riglyne is soos volg:

XML-skemas gee die vermoë om die loonvragdata te valideer, wat nie die geval is in DTD's nie. Aangesien hierdie vermoë belangrik is in werkvloeiomgewings, is XML-skema-gebaseerde formaatdefinisies 'n vereiste. Nog 'n vereiste wat afkomstig is van die verspreide werkvloei-scenario is stabiliteit. Daarom kan slegs stabiele spesifikasies gebruik word. In ooreenstemming met die HOBIT-riglyne is dit verpligtend dat die formaat nie gebonde is aan 'n geslote lisensiebeperking nie, maar vrylik gebruik en uitgebrei mag word.

Aktiewe instandhouding van formate is ook noodsaaklik, aangesien dit veral belangrik is in 'n gebied van vinnige ontwikkeling soos bioinformatika. Net so behoort dit moontlik te wees om die formaat uit te brei om spesiale gebruiksgevalle te akkommodeer.

Twee bykomende kenmerke van formate wat ons aanbeveel, maar nie vereis nie, is eenvoud en gebruik van boublokke. Albei kenmerke verbeter die bruikbaarheid van die formaat.

Ons wil nie noodwendig bestaande skemas vervang nie. 'n Nuwe skema is slegs ontwikkel indien geen beskikbare skema geskik was vir die gegewe vereistes nie. Al die skemas maak uitgebreide gebruik van oorerwing. HOBIT XML-formaat beskrywings is gebaseer op twee XML-skemas, wat elementêre tipes bevat: Basiese biologiese tipes soos aminosuurvolgordes word gedefinieer in 'n versameling genaamd BioTypes [31]. Die gebruik van hierdie tipe in die nuut ontwikkelde XML-skemas word in figuur ​ figuur1 geïllustreer. 1 . Meer tegniese elemente, bv. parameters van 'n opdraglyntoepassing, wat dikwels in die XML-skemas benodig word, word in die HobitTypes [32] versamel. Om wydverspreide en gediversifiseerde gebruik van die skemas moontlik te maak, is sommige uitbreidingspunte in die skemas ingesluit. Inligting wat nie in 'n gegewe weergawe van 'n skema verantwoord is nie, kan maklik as kenmerk bygevoeg word. Dit word bewerkstellig deur XSD anyAttribute-verklarings by sentrale etikette by te voeg.

Basiese konsep van HOBIT XML-skemas. Die basiese konsep van HOBIT XML-skemas word stap vir stap verduidelik met behulp van SequenceML as 'n voorbeeld. Eers word 'n aminosuurvolgorde met id en beskrywing in die bekende FASTA-formaat omgeskakel na SequenceML. Die kleurkodering beklemtoon die getransformeerde inhoud. In SequenceML is dit moontlik om te onderskei tussen verskeie volgordetipes (in hierdie geval 'n aminosuurvolgorde), gedefinieer deur die SequenceML-skema. Die SequenceML-skema verkry sy basiese tipe inligting van BioTypes.

Aangesien dit 'n moontlikheid oopmaak vir onbehoorlike uitbreiding van 'n gegewe skema, maar redelike uitbreidings moet oorweeg word tydens validering, was 'n meganisme nodig om deurlopende ontwikkeling te ondersteun. Om aan hierdie vereiste te voldoen, is 'n publieke Wiki-bladsy geïnstalleer [33]. Elke belangstellende persoon word uitgenooi om voorstelle te maak vir die verbetering van die skemas direk in die Wiki, in samewerking met ander persone om die skema-definisies te verbeter. Die XML-skemas kan verkry word vanaf die subversion-bewaarplek geleë op [34]. Vir gehaltebeheerdoeleindes kan veranderinge slegs deur geregistreerde SourceForge [35] BioSchema-projek [36] lede aangebring word.

Reeks formate

SequenceML

SequenceML handel oor allerhande eenvoudige volgorde-inligting wat dikwels as insette vir verskeie algemene bioinformatiese gereedskap gebruik word. Dit is ontwerp om gebruik te word as 'n XML-vervanging van die FASTA [17]-formaat, wat al FASTA se inligting bevat, terwyl daardie formaat se voorgenoemde konsekwentheidsprobleme vermy word. SequenceML onderskei tussen nukleïen- en aminosuurvolgorde volgens die IUPAC-standaard en laat die gebruiker ook toe om gratis volgorde-inligting by te voeg gebaseer op basiese tipes gedefinieer deur BioTypes [31] (figuur ​ (figuur1). 1). SequenceML ondersteun ook 'n verpligte volgorde-ID en 'n opsionele gedetailleerde volgordebeskrywing. SequenceML bevat geen annotasie-inligting nie.

SequenceAnnotationML

SequenceAnnotationML is gebaseer op SequenceML. Terwyl SequenceML rou volgorde-inligting bevat, laat SequenceAnnotationML bykomende aantekeninge toe. Dus, terwyl SequenceML dikwels as insette vir bioinformatiese gereedskap gebruik word, kan SequenceAnnotationML gebruik word om die resultaat te stoor. SequenceAnnotationML laat modellering terreine van belang van klein volgordes (DNA, RNA of proteïen) toe. Verder is dit moontlik om heelgenoomaantekeninge in te kapsuleer as gevolg van die rekursiewe struktuur daarvan.

BelyningML

AlignmentML is 'n formaat wat (veelvuldige) belyningsinligting beskryf wat enige belyningsprogram soos CLUSTALW [18], DCA [37] en Dialign [38] kan produseer. Soortgelyk aan SequenceML, word verskillende volgordetipes ondersteun.

RNA sekondêre struktuurformate

RNAStructML

RNAStructML is 'n formaat vir die stoor van RNA sekondêre struktuur inligting. Die mees gebruikte toepassing vir RNA gereedskap, soos RNAshapes [39], RNAfold [19] en Mfold [40] is die voorstel van RNA sekondêre strukture, gebaseer op termodinamiese beginsels. RNAStructML is geïnspireer deur SequenceML en gebruik Weense-styl DotBracket-stringe vir die stoor van inligting oor RNA se sekondêre strukture.

RNAStructAlignmentML

RNAStructAlignmentML is 'n formaat vir die stoor van RNA sekondêre struktuur belynings soos bereken deur bv. RNAforester [41] of RNAalifold [42]. RNAStructAlignmentML gebruik 'n RNAStructML-agtige argitektuur, maar is gebaseer op AlignmentML in plaas van SequenceML.

BioDOM

Om die gebruik van die HOBIT XML-formate te vereenvoudig, is 'n maklik-om-te gebruik Java-biblioteek (BioDOM) ontwikkel. BioDOM bied 'n maklike manier om XML-lêers te bou volgens die HOBIT-formaatbeskrywings van binne die gebruiker se eie programme. Dit is ontwerp om 'n modulêre stelsel te wees wat maklik uitgebrei kan word soos nodig om nuwe formate te akkommodeer. Boonop bied BioDOM funksies om inheemse nie-XML-uitvoer van verskeie bioinformatiese gereedskap om te skakel na die HOBIT XML-formate.

Die BioDOM-biblioteek bevat een Java-klas vir elke inheemse ondersteunde XML-formaat, wat metodes implementeer om die ooreenstemmende datastruktuur te skep deur die nodige dele by die nuwe dokument by te voeg of data van gewone dataformate na XML-elemente in te voer.

Elkeen van hierdie klasse is gebaseer op die abstrakte klas AbstractBioDOM, wat algemeen vereiste metodes vir alle omsetters verskaf, bv. vir die opstel en kry van die dokumente-objekmodel (DOM)-inhoud, die validering van die dokument teen 'n XML-skema of die skep van 'n stringvoorstelling van die XML-data wat in die objek vervat is. AbstractBioDOM bied ook 'n algemene meganisme vir XML-na-XML-formaat omskakeling via XSLT [43] skrifte. Laastens is 'n paar metodes vir toegang tot die log- en fout-/uitsonderingshanteringsfasiliteite van die BioDOM-biblioteek geïntegreer. Dit maak voorsiening vir grasieuse agteruitgang van die stelsel en gebruikerskennisgewing in geval van foutiewe invoerdata of onvoorsiene omstandighede tydens dataskepping of omskakeling.

Die huidige weergawe 1.2 van BioDOM ondersteun die HOBIT XML-formate SequenceML, AlignmentML, RNAStructML en RNAStructAlignmentML, wat die skepping van dokumente in hierdie formate moontlik maak en, bykomend, omskakeling van en na (veelvuldige) FASTA, CLUSTALW en die Weense styl DotBracket-formaat. XSLT-omskakelaars vir TinySeq [44], INSDseq [45] en EMBLxml [45] word ook verskaf. As gevolg van sy modulêre ontwerp, kan BioDOM baie maklik uitgebrei word deur derdeparty XSL-skrifte of eie Java-klasse. Verder is dit voortdurend onder ontwikkeling en toetsing om bykomende dataformate te ondersteun.


Kellis Lab by MIT Rekenaarwetenskap en Broad Institute

    Enkelsel genomika: Die vertaling van genetiese bevindings in terapeutika bly 'n onopgeloste uitdaging, deels omdat in 93% van die gevalle siekte-geassosieerde algemene variante nie proteïene direk ontwrig nie, maar eerder hul genomiese beheerelemente verander. Ons groep ontwikkel en gebruik epigenomiese kaarte van regulatoriese elemente, en sellulêre stroombane wat hulle aan hul reguleerders en teikengene verbind, om te verstaan ​​hoe menslike genetiese variasie bydra tot siektes en kanker. Ons het hulpbronne en metodes ontwikkel om te bestudeer hoe genetiese variasie geenuitdrukking, regulatiewe streekaktiwiteit, sellulêre fenotipes en uiteindelik menslike siektes beïnvloed. Ons het hierdie metodes toegepas op vetsug, Alzheimer se siekte, kardiovaskulêre eienskappe, psigiatriese versteurings en kanker, wat verskeie insigte tot gevolg gehad het. Benewens die dissekteer van hierdie stroombane, het ons geenmanipulasies en genoomredigering gebruik om die fenotipiese tekens van siektes van risiko- en nie-risiko individue om te keer, wat die weg baan vir genomika-gebaseerde terapeutika.
    Meer oor: Enkelselgenomika

Nuus Artikels oor ons werk

Geselekteerde publikasies

Ruzicka, Mohammadi, Davila-Velderrain, Subburaju, Tso, Hourihan, Kellis

Skisofrenie is 'n vernietigende geestesversteuring met 'n hoë maatskaplike las, komplekse patofisiologie en diverse genetiese en omgewingsrisikofaktore. Die kompleksiteit, poligenisiteit daarvan en klein-effek-grootte en seltipe-spesifieke bydraers het meganistiese toeligting en die soeke na nuwe terapeutika belemmer. Hier bied ons die eerste enkelsel disseksie van skisofrenie aan, oor 500,000+ selle van 48 nadoodse menslike prefrontale korteksmonsters, insluitend 24 skisofreniegevalle en 24 kontroles. Ons annoteer 20 seltipes/toestande, wat 'n hoë-resolusie-atlas van skisofrenie-veranderde gene en weë in elk verskaf. Ons vind neurone is die seltipe wat die meeste geaffekteer word, met diep-laag kortiko-kortikale projeksie neurone en parvalbumien-uitdrukking inhiberende neurone wat beduidende transkripsionele veranderinge toon wat op geneties-geïmpliseerde streke konvergeer. Ons ontdek 'n nuwe opwindende-neuron-seltoestand wat aandui van transkripsionele veerkragtigheid en verryk is in skisofrenie-vakke met minder versteurde transkripsionele handtekeninge. Ons identifiseer sleutel trans-werkende faktore as kandidaat-drywers van waargenome transkripsionele versteurings, insluitend MEF2C, TCF4, SOX5 en SATB2, en karteer hul bindingspatrone in nadoodse menslike neurone. Hierdie faktore reguleer afsonderlike geenstelle onderliggend aan fetale neuro-ontwikkeling en volwasse sinaptiese funksie, wat twee toonaangewende modelle van skisofrenie-patogenese oorbrug. Ons resultate verskaf die mees gedetailleerde kaart tot op datum vir meganistiese begrip en terapeutiese ontwikkeling in neuropsigiatriese versteurings.

Park, He, Davila-Velderrain, Hou, Mohammadi, Mathys, Peng, Bennett, Tsai, Kellis

Duisende genetiese variante wat in verskeie seltipes optree, lê onder komplekse afwykings, maar die meeste geenuitdrukkingstudies profiel slegs grootmaatweefsels, wat dit moeilik maak om vas te stel waar genetiese en nie-genetiese bydraers optree. Dit is veral belangrik vir psigiatriese en neurodegeneratiewe versteurings wat 'n impak het op verskeie breinseltipes met hoogs duidelike geenuitdrukkingspatrone en proporsies. Om hierdie uitdaging die hoof te bied, ontwikkel ons 'n nuwe raamwerk, SPLITR, wat enkelkern- en grootmaat-RNA-volgorde-data integreer, wat fenotipe-bewuste dekonvolusie moontlik maak en regstel vir sistematiese verskille tussen grootmaat- en enkelseldata. Ons het 3 387 nadoodse breinmonsters oor 1 127 individue en in verskeie breinstreke ontbind. Ons vind dat selproporsie oor breinstreke, individue, siektestatus en genotipe verskil, insluitend genetiese variante in TMEM106B wat inhiberende neuronfraksie en 4,757 seltipe-spesifieke eQTL's beïnvloed. Ons resultate demonstreer die krag van gesamentlike ontleding van grootmaat- en enkelsel-RNA-volgorde om insigte te verskaf in seltipe-spesifieke meganismes vir komplekse breinafwykings.

Boix, James, Park, Meuleman, Kellis

Die annotering van die molekulêre basis van menslike siekte bly 'n onopgeloste uitdaging, aangesien 93% van siektelokusse nie-koderend is en geen-regulerende annotasies hoogs onvolledig is. Hier bied ons EpiMap aan, 'n kompendium wat bestaan ​​uit 10,000 epigenomiese kaarte oor 800 monsters, wat ons gebruik het om chromatientoestande, hoë-resolusie-verbeteraars, versterkermodules, stroomop-reguleerders en stroomaf-teikengene te definieer. Ons het hierdie hulpbron gebruik om 30 000 genetiese lokusse te annoteer wat met 540 eienskappe geassosieer is, wat kenmerk-relevante weefsels, vermoedelike oorsaaklike nukleotiedvariante in verrykte weefselversterkers en kandidaat-weefselspesifieke teikengene vir elkeen voorspel. Ons het multifaktoriale eienskappe verdeel in weefselspesifieke bydraende faktore met duidelike funksionele verrykings en siekte-komorbiditeitspatrone, en het beide enkelfaktor monotropiese en multifaktor pleiotropiese lokusse geopenbaar. Top-telling lokusse het dikwels veelvuldige voorspelde drywervariante gehad, wat konvergeer deur veelvuldige versterkers met 'n gemeenskaplike teikengeen, veelvuldige gene in gemeenskaplike weefsels, of veelvuldige gene en veelvuldige weefsels, wat uitgebreide pleiotropie aandui. Ons resultate demonstreer die belangrikheid van digte, ryk, hoë-resolusie epigenomiese annotasies vir die ondersoek van komplekse eienskappe.

Shi, Kasumova, Michaud, Cintolo-Gonzalez, D az-Mart nez, Ohmura, Mehta, Chien, Frederick, Cohen, Plana, Johnson, Flaherty, Sullivan, Kellis, Boland

Immuunkontrolepunt-inhibeerders (ICI's) toon belofte, maar die meeste pasiënte reageer nie. Ons identifiseer en valideer biomerkers van ekstrasellulêre vesikels (EV's), wat nie-indringende monitering van tumor-intrinsieke en gasheer-immuunstatus moontlik maak, sowel as 'n voorspelling van ICI-reaksie. Ons het transkriptomiese profilering van plasma-afgeleide EV's en gewasse van 50 pasiënte met metastatiese melanoom wat ICI ontvang het, onderneem en met 'n onafhanklike EV-alleen-kohort van 30 pasiënte bekragtig. Plasma-afgeleide EV en tumor transkriptome korreleer. EV-profiele openbaar drywers van ICI-weerstand en melanoom-progressie, vertoon differensieel uitgedrukte gene/weë, en korreleer met kliniese reaksie op ICI. Ons het 'n Bayesiaanse probabilistiese dekonvolusiemodel geskep om bydraes van tumor- en nie-tumorbronne te skat, wat interpretasie van differensieel uitgedrukte gene/weë moontlik maak. EV RNA-volgende mutasies het ook ICI reaksie geskei. EV's dien as 'n nie-indringende biomerker om gesamentlik tumor-intrinsieke en immuunveranderinge aan ICI te ondersoek, te funksioneer as voorspellende merkers van ICI-reaksie, en gewasvolharding en immuunaktivering te monitor.

Mohammadi, Davila-Velderrain, Kellis

Die dissekteer van die sellulêre heterogeniteit wat in enkelsel-transkriptomiese data ingebed is, is uitdagend. Alhoewel daar baie metodes en benaderings bestaan, is die identifisering van seltoestande en hul onderliggende topologie steeds 'n groot uitdaging. Hier stel ons die konsep van multiresolusie sel-toestand ontbinding bekend as 'n praktiese benadering om gelyktydig beide fyn- en growwe-korrel patrone van veranderlikheid vas te vang. Ons implementeer hierdie konsep in ACTIONet, 'n omvattende raamwerk wat argetipiese analise en veelvuldige leer kombineer om 'n gereed-vir-gebruik analitiese benadering vir multiresolusie enkel-sel toestand karakterisering te bied. ACTIONet bied 'n robuuste, reproduceerbare en hoogs interpreteerbare enkelsel analise platform wat dominante patroon ontdekking koppel met 'n ooreenstemmende strukturele voorstelling van die selstaat landskap. Deur veelvuldige sintetiese en werklike datastelle te gebruik, demonstreer ons ACTIONet se voortreflike werkverrigting relatief tot bestaande alternatiewe. Ons gebruik ACTIONet om selle oor drie menslike korteksdatastelle te integreer en te annoteer. Deur integrerende vergelykende analise definieer ons 'n konsensuswoordeskat en 'n konsekwente stel geenhandtekeninge wat diskrimineer teen die transkriptomiese seltipes en subtipes van die menslike prefrontale korteks.

Ten spyte van die oorweldigende kliniese belangrikheid daarvan, bly die SARS-CoV-2-geenstel onopgelos, wat disseksie van COVID-19-biologie belemmer. Hier gebruik ons ​​vergelykende genomika om 'n hoë-vertroue proteïenkoderende genestel te verskaf, proteïenvlak en nukleotiedvlak evolusionêre beperking te karakteriseer, en om funksionele mutasies van die voortslepende COVID-19-pandemie te prioritiseer. Ons kies 44 volledige Sarbecovirus-genome op evolusionêre afstande wat ideaal geskik is vir proteïen-koderende en nie-koderende element-identifikasie, skep heel-genoom-belynings, en kwantifiseer proteïenkoderende evolusionêre handtekeninge en oorvleuelende beperking. Ons vind sterk proteïenkoderende handtekeninge vir alle genoemde gene en vir 3a, 6, 7a, 7b, 8, 9b, en ook ORF3c, 'n nuwe alternatiewe-raam geen. Daarenteen het ORF10 en oorvleuelende ORF'e 9c, 3b en 3d nie proteïenkoderende handtekeninge of oortuigende eksperimentele bewyse nie en is nie proteïenkodering nie. Verder wys ons dat geen ander proteïenkoderende gene nog ontdek moet word nie. Kruis-stam en binne-stam evolusionêre druk stem grootliks ooreen by die geen-, aminosuur- en nukleotiedvlakke, met enkele noemenswaardige uitsonderings, insluitend minder-as-verwagte mutasies in nsp3 en Spike-subeenheid S1, en meer-as-verwagte mutasies in Nukleokapsied. Laasgenoemde toon ook 'n groep van aminosuur-veranderende variante in andersins-gekonserveerde residue in 'n voorspelde B-sel epitoop, wat positiewe seleksie vir immuunvermyding kan aandui. Verskeie Spike-proteïenmutasies, insluitend D614G, wat met verhoogde oordrag geassosieer is, ontwrig andersins perfek behoue ​​aminosure, en kan nuwe aanpassings aan menslike gashere wees. Die gevolglike hoë-vertroue geenstel en evolusionêre-geskiedenis-aantekeninge verskaf waardevolle hulpbronne en insigte oor COVID-19-biologie, mutasies en evolusie.

Marco, Meharena, Dileep, Raju, Davila-Velderrain, Zhang, Adaikkan, Young, Gao, Kellis, Tsai

Die epigenoom en driedimensionele (3D) genomiese argitektuur kom na vore as sleutelfaktore in die dinamiese regulering van verskillende transkripsieprogramme wat vir neuronale funksies benodig word. In hierdie studie het ons 'n aktiwiteitsafhanklike merkerstelsel in muise gebruik om die epigenetiese toestand, 3D-genoomargitektuur en transkripsielandskap van engramselle oor die leeftyd van geheuevorming en herroeping te bepaal. Ons bevindinge toon dat geheuekodering lei tot 'n epigenetiese priming gebeurtenis, gekenmerk deur verhoogde toeganklikheid van versterkers sonder die ooreenstemmende transkripsionele veranderinge. Geheuekonsolidasie lei vervolgens tot ruimtelike herorganisasie van groot chromatiensegmente en promotor-versterker-interaksies. Laastens, met heraktivering, gebruik engram-neurone 'n subset van de novo langafstand-interaksies, waar voorbereide versterkers in kontak gebring word met hul onderskeie promotors om gene betrokke by plaaslike proteïentranslasie in sinaptiese kompartemente op te reguleer. Gesamentlik verduidelik ons ​​werk die omvattende transkripsionele en epigenomiese landskap oor die leeftyd van geheuevorming en -herroeping in die hippocampus engram-ensemble.

Blanchard, Bula, Davila-Velderrain, Akay, Zhu, Frank, Victor, Bonner, Mathys, Lin, Ko, Bennett, Cam, Kellis, Tsai

In Alzheimer se siekte lei amiloïedafsettings langs die breinvaskulatuur tot 'n toestand bekend as serebrale amiloïedangiopatie (CAA), wat bloedbreinversperring (BBB) ​​funksie benadeel en kognitiewe degenerasie versnel. Apolipoproteïen (APOE4) is die sterkste risikofaktor vir CAA, maar die meganismes onderliggend aan hierdie genetiese vatbaarheid is onbekend. Hier het ons 'n geïnduseerde pluripotente stamsel-gebaseerde drie-dimensionele model ontwikkel wat anatomiese en fisiologiese eienskappe van die menslike BBB in vitro hersien. Soortgelyk aan CAA het ons in vitro BBB aansienlik meer amiloïedophoping in APOE4 vertoon in vergelyking met APOE3. Kombinatoriese eksperimente het aan die lig gebring dat disregulering van kalsineurien-kernfaktor van geaktiveerde T-selle (NFAT) sein en APOE in perisietagtige muurskilderye APOE4-geassosieerde CAA-patologie induseer. In die menslike brein word APOE en NFAT selektief gedisreguleer in perisiete van APOE4-draers, en inhibisie van kalsineurien-NFAT-sein verminder APOE4-geassosieerde CAA-patologie in vitro en in vivo. Ons studie onthul die rol van perisiete in APOE4-gemedieerde CAA en beklemtoon kalsineurien-NFAT sein as 'n terapeutiese teiken in CAA en Alzheimer se siekte.

Li, Nair, Lu, Wen, Wang, Dehaghi, Miao, Liu, Ordog, Biernacka, Ryu, Olson, Frye, Liu, Guo, Marelli, Ahuja, Davila-Velderrain, Kellis

Elektroniese gesondheidsrekords (EHR) is ryk heterogene versamelings van pasiëntgesondheidsinligting, waarvan die breë aanvaarding klinici en navorsers ongekende geleenthede bied vir gesondheidsinformatika, siekterisiko-voorspelling, uitvoerbare kliniese aanbevelings en presisiemedisyne. EHR'e bied egter verskeie modelleringsuitdagings, insluitend hoogs yl datamatrikse, raserige onreëlmatige kliniese notas, arbitrêre vooroordele in faktuurkode-toewysing, diagnose-gedrewe laboratoriumtoetse en heterogene datatipes. Om hierdie uitdagings aan te spreek, bied ons MixEHR aan, 'n multi-view Bayesiaanse onderwerpmodel. Ons demonstreer MixEHR op MIMIC-III, Mayo Clinic Bipolêre Versteuring, en Quebec Kongenitale Hartsiekte EHR datastelle. Kwalitatief toon MixEHR-siekteonderwerpe betekenisvolle kombinasies van kliniese kenmerke oor heterogene datatipes. Kwantitatief neem ons 'n uitstekende voorspellingsakkuraatheid van diagnostiese kodes en laboratoriumtoetsimputasies waar in vergelyking met die moderne metodes. Ons gebruik die afgeleide pasiëntonderwerpmengsels om teikensiektes te klassifiseer en sterftes van pasiënte in kritieke toestande te voorspel. In alle vergelyking, verleen MixEHR mededingende prestasie en openbaar betekenisvolle siekteverwante onderwerpe.

Khan, Jungreis, Wright, Mudge, Choudhary, Firth, Kellis

Agtergrond: POLG, geleë op kernchromosoom 15, kodeer die DNA-polimerase gamma (Pol gamma). Pol gamma is verantwoordelik vir die replikasie en herstel van mitochondriale DNA (mtDNA). Pol gamma is die enigste DNA-polimerase wat in mitochondria gevind word vir die meeste dierselle. Mutasies in POLG is die mees algemene enkelgeen oorsaak van siektes van mitochondria en is gekarteer oor die koderende gebied van die POLG ORF. Resultate: Deur PhyloCSF te gebruik om alternatiewe leesrame te ondersoek, het ons 'n bewaarde koderingshandtekening gevind in 'n alternatiewe raam in eksons 2 en 3 van POLG, hierin na verwys as ORF-Y wat de novo in plasentale soogdiere ontstaan ​​het. Deur die synplot2-program te gebruik, is sinonieme terreinbewaring gevind onder soogdiere in die streek van die POLG ORF wat deur ORF-Y oorvleuel word. Ribosoomprofieldata het aan die lig gebring dat ORF-Y vertaal is en dat inisiasie waarskynlik by 'n CUG-kodon plaasvind. Inspeksie van 'n belyning van soogdiervolgordes wat ORF-Y bevat, het aan die lig gebring dat die CUG-kodon 'n sterk inisiasiekonteks het en dat 'n goed bewaarde voorspelde RNA-stam-lus 14 nukleotiede stroomaf begin. Sulke kenmerke word geassosieer met verbeterde inisiasie by byna-verwante nie-AUG-kodons. Heranalise van die Kim et al. (2014) se konsep menslike proteoomdatastel het twee unieke peptiede opgelewer wat ondubbelsinnig na ORF-Y gekarteer het. 'n Addisionele bewaarde uORF, hierin na verwys as ORF-Z, is ook gevind in ekson 2 van POLG. Laastens het ons Clinvar-variante ondersoek wat sinoniem is met betrekking tot die POLG ORF en gevind dat die meeste van hierdie variante aminosuurveranderinge in ORF-Y of ORF-Z veroorsaak. Gevolgtrekkings: Ons verskaf bewyse vir 'n nuwe koderingsvolgorde, ORF-Y, wat die POLG ORF oorvleuel. Ribosoom profilering en massaspektrometrie data toon dat ORF-Y uitgedruk word. PhyloCSF en synplot2 analise toon dat ORF-Y onderhewig is aan sterk suiwerende seleksie. 'n Oorvloed van siekte-gekorreleerde mutasies wat na eksons 2 en 3 van POLG karteer, maar ook ORF-Y beïnvloed, verskaf potensiële kliniese betekenis aan hierdie bevinding.

Mohammadi, Davila-Velderrain, Kellis

Die menslike interaktoom is instrumenteel in die stelsel-vlak studie van die sel en die kontekstualisering van siekte-geassosieerde geen versteurings. Verwysingsorganisme-interaktome vang egter nie die seltipe-spesifieke konteks waarbinne proteïene en modules verkieslik op nie, vas. Hier stel ons SCINET bekend, 'n rekenaarraamwerk wat 'n ensemble van seltipe-spesifieke interaktome rekonstrueer deur 'n globale, konteks-onafhanklike verwysingsinteraktoom met 'n enkelsel geen-uitdrukkingprofiel te integreer. SCINET spreek tegniese uitdagings van enkelseldata aan deur die aanvanklik raserige en yl uitdrukking van data sterk toe te skryf, te transformeer en te normaliseer. Afgeleide selvlak geeninteraksiewaarskynlikhede en groepvlak interaksiesterktes definieer seltipe-spesifieke interaktome. Ons gebruik SCINET om interaktome van die belangrikste menslike brein- en immuunseltipes te rekonstrueer en te ontleed, wat spesifisiteit en modulariteit van versteurings wat met neurodegeneratiewe, neuropsigiatriese en outo-immuun versteurings geassosieer word, openbaar. Ons rapporteer seltipe interaktome vir brein- en immuunseltipes, saam met die SCINET-pakket.

Park, Sarkar, Nguyen, Kellis

Opsommende statistieke van genoomwye assosiasiestudies (GWAS) leer oorsaaklike verband tussen miljoene genetiese merkers en tiene en duisende fenotipes. Die onderliggende biologiese meganismes moet egter nog uitgeklaar word. Ons kan die nodige interpretasie van GWAS in 'n oorsaaklike bemiddelingsraamwerk bereik, op soek na 'n yl stel bemiddelaars tussen genetiese en stroomaf veranderlikes, maar daar is verskeie uitdagings. Anders as bestaande metodes wat op sterk en onrealistiese aannames staatmaak, pak ons ​​praktiese uitdagings aan binne 'n beginselvaste opsommingsgebaseerde oorsaaklike afleidingsraamwerk. Ons het die voorgestelde metodes ontleed in uitgebreide simulasies wat uit werklike genetiese data gegenereer is. Ons het gedemonstreer dat slegs ons benadering kousale gene akkuraat kan losmaak, selfs sonder om werklike individuele-vlak data te ken, ten spyte van die teenwoordigheid van mededingende nie-oorsaaklike roetes.

Elektroniese gesondheidsrekords (EHR) is 'n ryk heterogene versameling van pasiëntgesondheidsinligting, waarvan die breë aanvaarding groot geleenthede bied vir sistematiese ontginning van gesondheidsdata. Heterogene EHR-datatipes en bevooroordeelde vasstelling stel egter rekenaaruitdagings. Hier bied ons mixEHR aan, 'n generatiewe model sonder toesig wat samewerkende filtering en latente onderwerpmodelle integreer, wat gesamentlik die diskrete verspreidings van datawaarnemingsvooroordeel en werklike data modelleer met behulp van latente siekte-onderwerpverspreidings. Ons pas mixEHR toe op 12,8 miljoen fenotipiese waarnemings van die MIMIC-datastel, en gebruik dit om latente siekte-onderwerpe te openbaar, EHR-resultate te interpreteer, ontbrekende data toe te reken en sterftes in intensiewe sorgeenhede te voorspel. Deur beide simulasie en werklike data te gebruik, wys ons dat mixEHR beter as vorige metodes presteer en betekenisvolle multi-siekte insigte openbaar

Park, Sarkar, He, Davila-Velderrain, De Jager, Kellis

Menon, Mohammadi, Davila-Velderrain, Goods, Cadwell, Xing, Stemmer-Rachamimov, Shalek, Love, Kellis, Hafler

Genoomwye assosiasiestudies (GWAS) het genetiese variante geïdentifiseer wat verband hou met ouderdomsverwante makulêre degenerasie (AMD), een van die hoofoorsake van blindheid by bejaardes. Dit was egter uitdagend om die seltipes wat met AMD geassosieer word, te identifiseer gegewe die genetiese kompleksiteit van die siekte. Hier voer ons massiewe parallelle enkelsel-RNA-volgordebepaling (scRNA-volgorde) van menslike retinas uit met behulp van twee onafhanklike platforms, en rapporteer die eerste enkelsel transkriptomiese atlas van die menslike retina. Met behulp van 'n multi-resolusie netwerk-gebaseerde analise, identifiseer ons alle hoof retinale sel tipes, en hul ooreenstemmende geen-uitdrukking handtekeninge. Heterogeniteit word binne makroglia waargeneem, wat daarop dui dat menslike retinale glia meer divers is as wat voorheen gedink is. Laastens identifiseer GWAS-gebaseerde verrykingsanalise glia, vaskulêre selle en keëlfotoreseptore wat geassosieer word met die risiko van AMD. Hierdie data verskaf 'n gedetailleerde ontleding van die menslike retina, en wys hoe scRNA-seq insig kan gee in seltipes betrokke by komplekse, inflammatoriese genetiese siektes

Mudge, Jungreis, Hunt, Gonzalez, Wright, Kay, Davidson, Fitzgerald, Seal, Tweedie, He, Waterhouse, Li, Bruford, Choudhary, Frankish, Kellis

Die mees gewaardeerde rol van DNS is om proteïen te kodeer, maar die presiese gedeelte van die menslike genoom wat vertaal word, moet nog vasgestel word. Ons het voorheen PhyloCSF ontwikkel, 'n wydgebruikte instrument om evolusionêre handtekeninge van proteïenkoderende streke te identifiseer deur gebruik te maak van multi-spesies genoombelynings. Hier bied ons die eerste heel-genoom PhyloCSF-voorspellingspore vir mens, muis, hoender, vlieg, wurm en muskiet aan. Ons ontwikkel 'n werkvloei wat masjienleer gebruik om nuwe bewaarde proteïenkoderende streke te voorspel en hul handmatige samestelling doeltreffend te lei. Ons ontleed meer as 1000 menslike PhyloCSF-streke met 'n hoë telling, en voeg met selfvertroue 144 bewaarde proteïenkoderende gene by die GENCODE-geenstel, sowel as bykomende koderingstreke binne 236 voorheen geannoteerde proteïenkoderende gene, en 169 pseudogene, waarvan die meeste gestremd is. nadat primate gedivergeer het. Die meerderheid hiervan verteenwoordig nuwe ontdekkings, insluitend 70 voorheen onopgespoorde proteïenkoderende gene. Die nuwe koderingsgene word addisioneel ondersteun deur enkel-nukleotiedvariantbewyse wat aandui van voortgesette suiwerende seleksie in die menslike afkoms, kodering-ekson splyting bewyse van nuwe GENCODE transkripsies met behulp van volgende-generasie transskriptomiese datastelle, en massaspektrometrie bewyse van vertaling vir verskeie nuwe gene. Ons ontdekkings het gelyktydige vergelykende annotasie van ander gewerwelde genome vereis, wat ons wys is noodsaaklik om valse ORF's te verwyder en kodering van pseudogene streke te onderskei. Ons nuwe koderende streke help om siekte-geassosieerde streke te verduidelik deur te onthul dat 118 GWAS-variante wat voorheen gedink is nie-koderend is, in werklikheid proteïenveranderend is. Altesaam sal ons PhyloCSF-datastelle en algoritmes navorsers help wat hierdie genome wil interpreteer, terwyl ons nuwe aantekeninge opwindende lokusse bied vir verdere eksperimentele karakterisering.

Li, Liu, Zhang, Kubo, Yu, Fang, Kellis, Ren

Ons rapporteer 'n molekulêre toets, Methyl-HiC, wat gelyktydig die chromosoomkonformasie en DNA-metieloom in 'n sel kan vasvang. Metiel-HiC openbaar gekoördineerde DNA-metileringstatus tussen distale genomiese segmente wat in ruimtelike nabyheid in die kern is, en omlyn heterogeniteit van beide die chromatien-argitektuur en DNA-metieloom in 'n gemengde populasie. Dit maak gelyktydige karakterisering van seltipe-spesifieke chromatienorganisasie en epigenoom in komplekse weefsels moontlik

Liu, Davila-Velderrain, Zhang, Kellis

Ten spyte van groot eksperimentele en berekeningspogings wat daarop gemik is om die meganismes onderliggend aan siekterisiko te dissekteer, bly die kartering van cis-regulerende elemente na teikengene 'n uitdaging. Hier stel ons 'n matriksfaktoriseringsraamwerk bekend om fisiese en funksionele interaksiedata van genomiese segmente te integreer. Die raamwerk is gebruik om 'n regulatoriese netwerk van chromatieninteraksierande te voorspel wat meer as 20 000 promotors en 1.8 miljoen versterkers oor 127 menslike verwysingsepigenome verbind, insluitend rande wat in enige van die insetdatastelle teenwoordig is. Ons netwerk integreer funksionele bewyse van gekorreleerde aktiwiteitspatrone uit epigenomiese data en fisiese bewyse van chromatieninteraksies. 'n Belangrike bydrae van hierdie werk is die voorstelling van heterogene data met verskillende kwaliteite as netwerke. Ons toon dat die onbevooroordeelde integrasie van onafhanklike databronne wat dui op regulatoriese interaksies, betekenisvolle assosiasies produseer wat ondersteun word deur bestaande funksionele en fisiese bewyse, wat verband hou met verwagte onafhanklike biologiese kenmerke.

Novoa, Jungreis, Jaillon, Kellis

As gevolg van die degenerasie van die genetiese kode, word veelvuldige kodons in dieselfde aminosuur vertaal. Ten spyte daarvan dat dit 'sinoniem' is, word hierdie kodons nie ewe gebruik nie. Daar word gemeen dat selektiewe druk die keuse tussen sinonieme kodons binne 'n genoom dryf, terwyl GC-inhoud, wat tipies aan mutasiedryf toegeskryf word, die hoofbepaler van variasie tussen spesies is. Hier vind ons dat benewens GC-inhoud, inter-spesie kodongebruikshandtekeninge ook opgespoor kan word. Meer spesifiek, ons wys dat 'n enkele aminosuur, arginien, die belangrikste bydraer is tot kodongebruik-vooroordeelverskille oor lewensdomeine. Ons ontgin dan hierdie bevinding, en wys dat domein-spesifieke kodon-vooroordeel-handtekeninge gebruik kan word om 'n gegewe volgorde in sy ooreenstemmende lewensdomein met hoë akkuraatheid te klassifiseer. Ons het toe gewonder of die insluiting van kodongebruik-kodon-outokorrelasiepatrone, wat die nie-ewekansige verspreiding van kodonvoorvalle regdeur 'n transkripsie weerspieël, die klassifikasieprestasie van ons algoritme kan verbeter. Ons vind egter dat outokorrelasiepatrone nie domeinspesifiek is nie, en verbasend genoeg nie verband hou met tRNA-hergebruik nie, in teenstelling met vorige verslae. In plaas daarvan dui ons resultate daarop dat kodon-outokorrelasiepatrone 'n neweproduk is van kodonoptimaliteit regdeur 'n volgorde, waar hoogs uitgedrukte gene outokorreleerde 'optimale' kodons vertoon, terwyl lae uitgedrukte gene outokorreleerde 'nie-optimale' kodons vertoon.

Glorioso, Pfenning, Lee, Bennett, Sibille, Kellis, Guarente

Gevorderde ouderdom en die APOE e4 alleel is die twee grootste risikofaktore vir Alzheimer se siekte (AD) en dalende kognitiewe funksie. Ons beskryf 'n universele maatstaf om molekulêre breinouderdom te meet deur gebruik te maak van transkriptoomanalise van vier menslike postmortem-kohorte (n = 673, ouderdomme 25-97) vry van neurologiese siektes. In 'n vyfde kohort van ouer proefpersone met of sonder neurologiese siekte (n = 438, ouderdomme 67-108), toon ons dat proefpersone met breine wat in die ouer rigting afwyk van wat verwag sou word op grond van chronologiese ouderdom 'n toename in AD, Parkinson se siekte en kognitiewe agteruitgang. Opvallend is dat 'n jonger molekulêre ouderdom (-5 jr as chronologiese ouderdom) teen AD beskerm, selfs in die teenwoordigheid van APOE e4. 'n Gevestigde DNA-metileringmeter vir ouderdom korreleer goed met die transkriptoommeter vir bepaling van molekulêre ouderdom en toeken van afwykings van die verwagte. Ons resultate dui daarop dat vinnige breinveroudering en APOE e4 sinergistiese risikofaktore is, en intervensies wat veroudering vertraag, kan die risiko van neurologiese siekte aansienlik verminder en selfs in die teenwoordigheid van APOE e4 afneem.

Mathys*, Davila-Velderrain*, Peng, Gao, Mohammadi, Young, Menon, He, Abdurrob, Jiang, Martorell, Ransohoff, Hafler, Bennett, Kellis*, Tsai*

Alzheimer se siekte is 'n deurdringende neurodegeneratiewe versteuring, waarvan die molekulêre kompleksiteit nog steeds swak verstaan ​​word. Hier het ons 80 660 enkelkern-transkriptome van die prefrontale korteks van 48 individue met verskillende grade van Alzheimer se siekte-patologie ontleed. Oor ses hoof breinseltipes het ons transkripsie-afsonderlike subpopulasies geïdentifiseer, insluitend dié wat met patologie geassosieer word en gekenmerk word deur reguleerders van myelinasie, inflammasie en neuronoorlewing. Die sterkste siekte-geassosieerde veranderinge het vroeg in patologiese vordering verskyn en was hoogs seltipe-spesifiek, terwyl gene wat op laat stadiums opgereguleer is, algemeen was oor seltipes en hoofsaaklik betrokke was by die globale stresreaksie. Ons het veral gevind dat vroulike selle oorverteenwoordig was in siekte-geassosieerde subpopulasies, en dat transkripsieresponse aansienlik verskil tussen geslagte in verskeie seltipes, insluitend oligodendrosiete. Oor die algemeen is myelinasieverwante prosesse herhaaldelik versteur in verskeie seltipes, wat daarop dui dat miëlinering 'n sleutelrol in Alzheimer se siekte patofisiologie speel. Ons enkelsel transkriptomiese hulpbron verskaf 'n bloudruk vir die ondervraging van die molekulêre en sellulêre basis van Alzheimer se siekte

Wang, He, Goggin, Saadat, Wang, Sinnott-Armstrong, Claussnitzer*, Kellis*

Genoomwye epigenomiese kaarte het miljoene vermeende versterkers en promotors aan die lig gebring, maar eksperimentele validering van hul funksie en hoë-resolusie disseksie van hul drywer-nukleotiede bly beperk. Hier bied ons HiDRA (Hoë-resolusie Dissection of Regulatory Activity) aan, 'n gekombineerde eksperimentele en berekeningsmetode vir hoë-resolusie genoomwye toetsing en disseksie van vermeende regulerende streke. Ons toets

7 miljoen toeganklike DNS-fragmente in 'n enkele eksperiment, deur toeganklike chromatienekstraksie te koppel met selftranskribeer episomale verslaggewers (ATAC-STARR-volgens). Deur ontwerp oorvleuel fragmente hoogs in toeganklike streke met digte monsters, wat ons in staat stel om bestuurder-regulerende nukleotiede vas te stel deur verskille in aktiwiteit tussen gedeeltelik oorvleuelende fragmente te ontgin deur 'n masjienleermodel (SHARPR-RE) te gebruik. In GM12878 limfoblastoïede selle vind ons

65 000 streke wat versterkerfunksie toon, en bepaal

13 000 hoë-resolusie drywer elemente. Hierdie is verryk vir regulatoriese motiewe, evolusionêr-gekonserveerde nukleotiede en siekte-geassosieerde genetiese variante van genoomwye assosiasiestudies. In die algemeen bied HiDRA 'n hoë deurset, hoë resolusie benadering vir die dissekteer van regulatoriese streke en aandrywernukleotiede

Onuchic, Lurie, Carrero, Pawliczek, Patel, Rozowsky, Galeev, Huang, Altshuler, Zhang, Harris, Coarfa, Ashmore, Bertol, Fakhouri, Yu, Kellis, Gerstein, Milosavljevic

Om die impak van genetiese variasie in regulatoriese lokusse op menslike gesondheid te evalueer, het ons 'n hoë-resolusiekaart van alleliese wanbalanse in DNA-metilering, histoonmerke en geentranskripsie in 71 epigenome van 36 verskillende sel- en weefseltipes van 13 skenkers saamgestel. Diep heelgenoom-bisulfiet-volgordebepaling van 49 metielome het volgorde-afhanklike CpG-metileringswanbalanse by duisende heterosigotiese regulatoriese lokusse geopenbaar. Sulke lokusse word verryk vir stogastiese skakeling, wat gedefinieer word as ewekansige oorgange tussen volledig gemetileerde en ongemetileerde toestande van DNA. Die metileringswanbalanse by duisende lokusse is verklaarbaar deur verskillende relatiewe frekwensies van die gemetileerde en ongemetileerde toestande vir die twee allele. Verdere ontledings het 'n verenigende model verskaf wat volgorde-afhanklike alleliese wanbalanse van die epigenoom, stogastiese omskakeling by geenregulerende lokusse en siekte-geassosieerde genetiese variasie verbind.

Beaudoin, Novoa, Vejnar, Yartseva, Takacs, Kellis, Giraldez

RNS-vou speel 'n deurslaggewende rol in RNA-funksie. Kennis van die globale struktuur van die transkripsie is egter beperk tot sellulêre sisteme by bestendige toestand, wat dus die begrip van RNA-struktuurdinamika tydens biologiese oorgange belemmer en hoe dit geenfunksie beïnvloed. Hier het ons mRNA-struktuurdinamika tydens sebravisontwikkeling gekenmerk. Ons het opgemerk dat vertaling op 'n globale vlak struktuur eerder as struktuur rig wat vertaling lei. Ons het 'n afname in struktuur in vertaalde streke opgespoor en die ribosoom as 'n groot hermodelleerder van RNA-struktuur in vivo geïdentifiseer. Daarteenoor het ons gevind dat 3'-onvertaalde streke (UTR's) hoogs gevoude strukture in vivo vorm, wat geenuitdrukking kan beïnvloed deur mikroRNA-aktiwiteit te moduleer. Verder bevat dinamiese 3'-UTR strukture RNA-verval elemente, soos die regulatoriese elemente in nanog en ccna1, twee gene wat kodeer vir sleutel moederlike faktore wat die moeder-na-sigotiese oorgang orkestreer. Hierdie resultate openbaar 'n sentrale rol van RNA-struktuurdinamika in geenregulerende programme.

Juul, Madsen, Guo, Bertl, Hobolth, Kellis, Pedersen

Om die mutasieprosesse te verstaan ​​wat tydens kankerontwikkeling optree, is 'n sleutelonderwerp van kankerbiologie. Nogtans moet nog baie geleer word, aangesien 'n komplekse wisselwerking van prosesse met afhanklikhede van 'n reeks genomiese kenmerke hoogs heterogene kankergenome skep.Akkurate bestuurderopsporing maak staat op onbevooroordeelde modelle van die mutasietempo wat ook tempovariasie van ongekarakteriseerd vasvang. Hier ontleed ons patrone van waargenome-tot-verwagte mutasietellings oor 505 hele kankergenome, en vind dat genomiese kenmerke wat in ons mutasietempo-model ontbreek, waarskynlik op 'n megabasislengteskaal werk. Ons brei ons terreinspesifieke model van die mutasiekoers uit om die bykomende afwyking van hierdie bronne in te sluit, wat lei tot robuuste beduidendheidsevaluering van kandidaat-kankerbestuurders. Ons bied dus ncdDetect v.2 aan, met aansienlik verbeterde spesifisiteit vir opsporing van kankerbestuurder. Laastens wys ons dat die rangorde van kandidate volgens hul posterior gemiddelde waarde van hul effekgroottes 'n ekwivalente en meer berekeningsdoeltreffende alternatief bied tot rangorde volgens hul p-waardes. ncdDetect v.2 is geïmplementeer as 'n R-pakket en is vrylik beskikbaar by http://github.com/TobiasMadsen/ncdDetect2

Loughran, Jungreis, Tzani, Power, Dmitriev, Ivanov, Kellis, Atkins

Alhoewel stopkodon-leesdeur op groot skaal deur virusse gebruik word om hul geenuitdrukking uit te brei, is geverifieerde gevalle van soogdier-deurlees eers onlangs deur sisteembiologie en vergelykende genomika-benaderings ontdek. Voorheen het ons analise van bewaarde proteïenkodering-handtekeninge wat verder strek as geannoteerde stopkodons, stopkodon-deurlees van verskeie soogdiergene voorspel, wat almal eksperimenteel bekragtig is. Vier mRNA's vertoon hoogs doeltreffende stopkodon deurlees, en hierdie mRNA's het 'n UGA stopkodon onmiddellik gevolg deur CUAG ​​(UGA_CUAG) wat regdeur gewerwelde diere bewaar word. Met die uitbreiding van die identifikasie van hierdie deurleesmotief, het ons hier stopkodon-deurlees ondersoek, met behulp van weefselkultuurverslaggewertoetse, vir alle voorheen ongetoetste menslike gene wat UGA_CUAG bevat. Die deurleesdoeltreffendheid van die geannoteerde stopkodon vir die volgorde wat vitamien D-reseptor (VDR) kodeer, was 6,7%. Dit was die hoogste van diegene wat getoets is, maar almal het noemenswaardige vlakke van deurlees getoon. Die VDR is 'n lid van die kernreseptor-superfamilie van ligand-induseerbare transkripsiefaktore en bind sy hoofligand, kalsitriol, via sy C-terminale ligand-bindende domein. Die deurlees van die geannoteerde VDR mRNA lei tot 'n 67 aminosuur-lange C-terminale uitbreiding wat 'n VDR proteovorm genaamd VDRx genereer. VDRx kan homodimere en heterodimere met VDR vorm, maar in vergelyking met VDR, het VDRx 'n verminderde transkripsierespons op kalsitriol vertoon, selfs in die teenwoordigheid van sy vennoot retinoïed X-reseptor

Nie-koderende DNA-streke speel sentrale rolle in menslike biologie, evolusie en siekte. ChromHMM help om die nie-koderende genoom te annoteer deur epigenomiese inligting oor een of meer seltipes te gebruik. Dit kombineer veelvuldige genoomwye epigenomiese kaarte, en gebruik kombinatoriese en ruimtelike merkpatrone om 'n volledige annotasie vir elke seltipe af te lei. ChromHMM leer chromatien-toestand-handtekeninge deur 'n meerveranderlike verborge Markov-model (HMM) te gebruik wat die kombinatoriese teenwoordigheid of afwesigheid van elke merk eksplisiet modelleer. ChromHMM gebruik hierdie handtekeninge om 'n genoomwye annotasie vir elke seltipe te genereer deur die mees waarskynlike toestand vir elke genomiese segment te bereken. ChromHMM bied 'n outomatiese verrykingsanalise van die gevolglike aantekeninge om die funksionele interpretasies van elke chromatientoestand te vergemaklik. ChromHMM word onderskei deur sy modelleringsklem op kombinasies van punte, sy noue integrasie met stroomafwaartse funksionele verrykingsontledings, sy spoed en sy gebruiksgemak. Chromatientoestande word aangeleer, aantekeninge word geproduseer en verrykings word binne 1 dag bereken.

Liu, Sarkar, Kheradpour, Ernst, Kellis

Rekombinasietempo is nie-eenvormig versprei oor die menslike genoom. Die variasie van rekombinasietempo op beide fyn en groot skale kan nie volledig deur DNS-volgordes alleen verklaar word nie. Epigenetiese faktore, veral DNA-metilering, is onlangs voorgestel om die variasie in rekombinasietempo te beïnvloed. Ons bestudeer die verband tussen rekombinasietempo en geenregulerende domeine, gedefinieer deur 'n geen en sy gekoppelde kontrole-elemente. Ons definieer hierdie skakels deur gebruik te maak van uitdrukking kwantitatiewe eienskap loci (eQTLs), metilering kwantitatiewe eienskap loci (meQTLs), chromatienkonformasie van publiek beskikbare datastelle (Hi-C en ChIA-PET), en gekorreleerde aktiwiteitskakels wat ons oor seltipes aflei. Elke skakeltipe toon 'n "rekombinasietempo-vallei" van aansienlik verlaagde rekombinasietempo in vergelyking met ooreenstemmende kontrolestreke. Hierdie rekombinasietempo vallei is die meeste uitgespreek vir geenregulerende domeine van vroeë embrioniese ontwikkelingsgene, huishoudingsgene en konstitutiewe regulatoriese elemente, wat bekend is om verhoogde evolusionêre beperking oor spesies te toon. Rekombinasietempo-valleie toon verhoogde DNA-metilering, verminderde dubbelstring-breek-inisiasie en verhoogde hersteldoeltreffendheid, spesifiek in die afstamming wat na die kiemlyn lei. Verder, deur slegs die oorvleueling van funksionele skakels en DNA-metilering in kiemselle te gebruik, is ons in staat om die rekombinasietempo met hoë akkuraatheid te voorspel. Ons resultate dui op die bestaan ​​van 'n rekombinasietempo-vallei by regulatoriese domeine en verskaf 'n potensiële molekulêre meganisme om die wisselwerking tussen genetiese en epigenetiese variasies te interpreteer.

eGTEx Consortium Stranger, Brigham, Hasz, Hunter, Johns, Johnson, Kopen, Leinweber, Lonsdale, McDonald, Mestichelli, Myer, Roe, Salvatore, Shad, Thomas, Walters, Washington, Wheeler, Bridge, Foster, Gillard, Karasik, Kumar, Miklos, Moser, Jewell, Montroy, Rohrer, Valley, Davis, Mash, Gould, Guan, Koester, Little, Martin, Moore, Rao, Struewing, Volpi, Hansen, Hickey, Rizzardi, Hou, Liu, Molinie, Park, Rinaldi, Wang, Van, Claussnitzer, Gelfand, Li, Linder, Zhang, Smith, Tsang, Chen, Demanelis, Doherty, Jasmine, Kibriya, Jiang, Lin, Wang, Jian, Li, Chan, Bates, Diegel, Halow, Haugen, Johnson, Kaul, Lee, Maurano, Nelson, Neri, Sandstrom, Fernando, Linke, Oliva, Skol, Wu, Akey, Feinberg, Li, Pierce, Stamatoyannopoulos, Tang, Ardlie, Kellis, Snyder, Montgomery

Genetiese variante is geassosieer met talle molekulêre fenotipes wat nuwe insig bied in die reeks meganismes wat genetiese eienskappe en siektes onderlê. Die identifisering van enige spesifieke genetiese variant se kaskade van effekte, van molekule tot individu, vereis die bepaling van veelvuldige lae molekulêre kompleksiteit. Ons stel die Enhancing GTEx (eGTEx)-projek bekend wat die GTEx-projek uitbrei om geenuitdrukking met bykomende intermediêre molekulêre metings op dieselfde weefsels te kombineer om 'n hulpbron te verskaf om te bestudeer hoe genetiese verskille deur molekulêre fenotipes stroom om menslike gesondheid te beïnvloed

Ernst, Melnikov, Zhang, Wang, Rogov, Mikkelsen, Kellis

Massief parallelle verslaggewertoetse (MPRA's) maak nukleotied-resolusie disseksie van transkripsionele regulatoriese streke, soos versterkers, moontlik, maar slegs 'n paar streke op 'n slag. Hier bied ons 'n gekombineerde eksperimentele en rekenaarbenadering, Sistematiese hoë-resolusie aktivering en onderdrukking profilering met verslaggewer teëlwerk met behulp van MPRA (Sharpr-MPRA), wat hoë-resolusie analise van duisende streke gelyktydig moontlik maak. Sharpr-MPRA kombineer digte teëlwerk van oorvleuelende MPRA-konstrukte met 'n probabilistiese grafiese model om funksionele regulatoriese nukleotiede te herken, en om aktiveer- en onderdrukkende nukleotiede te onderskei, deur hul afgeleide bydrae tot verslaggewergeen-uitdrukking te gebruik. Ons het Sharpr-MPRA gebruik om 4,6 miljoen nukleotiede te toets wat strek oor 15 000 vermeende regulerende streke wat teen 5-nukleotied resolusie in twee menslike seltipes geteël is. Ons resultate het bekende seltipe-spesifieke regulatoriese motiewe en evolusionêr bewaarde nukleotiede herwin, en bekende aktiverende en onderdrukkende motiewe onderskei. Ons resultate het ook getoon dat endogene chromatientoestand en DNS-toeganklikheid beide voorspellend is van regulatoriese funksie in verslaggewertoetse, retrovirale elemente met aktiverende rolle geïdentifiseer, en ontbloot 'demper'-motiewe met onderdrukkende rolle in aktiewe chromatien.

Jungreis, Chan, Waterhouse, Fields, Lin, Kellis

Translasie-stopkodon-deurlees het na vore gekom as 'n belangrike reguleringsmeganisme wat honderde gene in diere-genome beïnvloed, gebaseer op onlangse vergelykende genomika en ribosomale profielbewyse, maar die evolusionêre eienskappe daarvan bly onbekend. Hier gebruik ons ​​vergelykende genomiese bewyse oor 21 Anopheles-muskiete om sistematies deurleesgene in die malariavektor Anopheles gambiae te annoteer, en om die eerste studie van oorvloedige deurlees-evolusie te verskaf, deur vergelyking met 20 Drosophila-spesies. Deur gebruik te maak van verbeterde vergelykende genomika-metodes vir die opsporing van deurlees, identifiseer ons evolusionêre handtekeninge van bewaarde, funksionele deurlees van 353 stopkodons in die malariavektor, Anopheles gambiae, en van 51 bykomende Drosophila melanogaster stopkodons, insluitend verskeie gevalle van dubbele en drievoudige deurlees en van deurlees. van twee aangrensende stopkodons. Ons vind dat die meeste verskille tussen die deurleesrepertoriums van die twee spesies ontstaan ​​het uit deurleestoename of -verlies in bestaande gene, eerder as die geboorte van nuwe gene of geendood wat deurleesverwante RNA-strukture soms verkry of verloor word terwyl deurlees voortduur dat deurlees meer is. waarskynlik verlore gaan by TAA- en TAG-stopkodons en daardie deurlees is onder voortgesette suiwerende evolusionêre seleksie in muskiet, gebaseer op bevolkingsgenetiese bewyse. Ons bepaal ook deurlees-geassosieerde geen-eienskappe wat voor deurlees is, en identifiseer verskille in die kenmerkende eienskappe van deurleesgene tussen klades. Ons skat meer as 600 funksionele deurleesstopkodons in muskiet en 900 in vrugtevlieg, verskaf bewyse van deurleesbeheer van peroksisomale teiken, en verfyn die filogenetiese omvang van oorvloedige deurlees as volg op divergensie van duisendpoot.

Genoomwye assosiasiestudies (GWAS) bied 'n kragtige benadering vir die ontdekking van siekteverwante variante by mense, maar die fyn kartering van die oorsaaklike variante bly 'n uitdaging. Dit word deels reggestel deur prioritisering van siekte-geassosieerde variante wat GWAS-verrykte epigenomiese annotasies oorvleuel. Hier stel ons 'n nuwe Bayesiaanse model RiVIERA (Risk Variant Inference using Epigenomic Reference Annotations) bekend vir afleiding van drywervariante uit opsommende statistieke oor veelvuldige eienskappe deur honderde epigenomiese annotasies te gebruik. In simulasie, RiVIERA belowende krag in die opsporing van oorsaaklike variante en oorsaaklike annotasies, het die multi-eienskap gesamentlike afleiding die opsporingskrag verder verbeter. Ons het RiVIERA toegepas om die bestaande GWAS-opsommingstatistieke van 9 outo-immuun siektes en skisofrenie te modelleer deur gesamentlik die potensiële oorsaaklike verrykings in te span onder 848 weefselspesifieke epigenomiese annotasies van ENCODE/Roadmap-konsortium wat 127 sel/weefseltipes en 8 hoof epigenomiese merke dek. RiVIERA het betekenisvolle weefselspesifieke verrykings geïdentifiseer vir versterkerstreke gedefinieer deur H3K4me1 en H3K27ac vir Bloed T-Sel spesifiek in die nege outo-immuun siektes en breinspesifieke versterkeraktiwiteite uitsluitlik in Skisofrenie. Boonop het die variante van die 95% geloofwaardige stelle hoë bewaring en verrykings getoon vir GTEx-volbloed eQTL's geleë binne transkripsie-faktor-bindingsplekke en DNA-hipersensitiewe terreine. Verder het gesamentlike modellering van die nege immuuneienskappe deur gelyktydig die onderliggende epigenomiese korrelasie tussen eienskappe af te lei en te ontgin, die funksionele verrykings verder verbeter in vergelyking met enkel-eienskap modelle.

Wang, Tucker, Rizki, Mills, Krijger, de Wit, Subramanian, Bartell, Nguyen, Ye, Leyton-Mange, Dolmatova, van der Harst, de Laat, Ellinor, Newton-Cheh, Milan, Kellis, Boyer

Genetiese variante wat deur genoomwye assosiasiestudies geïdentifiseer is, verklaar slegs 'n beskeie deel van oorerflikheid, wat daarop dui dat betekenisvolle assosiasies 'versteek' lê onder die huidige drempels. Hier integreer ons inligting van assosiasiestudies met epigenomiese kaarte om te demonstreer dat versterkers bekende lokusse wat verband hou met die kardiale QT-interval en QRS-duur aansienlik oorvleuel. Ons pas funksionele kriteria toe om lokusse te identifiseer wat geassosieer word met QT-interval wat nie aan genoomwye betekenis voldoen nie en wat deur bestaande studies gemis word. Ons demonstreer dat hierdie 'sub-drempel' seine nuwe lokusse verteenwoordig, en dat epigenomiese kaarte effektief is om ware biologiese seine van geraas te onderskei. Ons valideer eksperimenteel die molekulêre, geen-regulerende, sellulêre en organisme fenotipes van hierdie sub-drempel lokusse, wat demonstreer dat die meeste sub-drempel lokusse regulatoriese gevolge het en dat genetiese versteuring van nabygeleë gene hart fenotipes in muis veroorsaak. Ons werk verskaf 'n algemene benadering vir die verbetering van die opsporing van nuwe lokusse wat verband hou met komplekse menslike eienskappe.

Meer as 90% van algemene variante wat met komplekse eienskappe geassosieer word, beïnvloed nie proteïene direk nie, maar eerder die stroombane wat geenuitdrukking beheer. Dit het die dringendheid verhoog om die regulatoriese genoom te verstaan ​​as 'n sleutelkomponent vir die vertaling van genetiese resultate in meganistiese insigte en uiteindelik terapeutika. Om hierdie uitdaging die hoof te bied, het ons HaploReg (http://compbio.mit.edu/HaploReg) ontwikkel om die funksionele disseksie van genoomwye assosiasiestudie (GWAS) resultate te help, die voorspelling van vermeende oorsaaklike variante in haplotipe blokke, die voorspelling van waarskynlike seltipes aksie, en die voorspelling van kandidaat-teikengene deur sistematiese ontginning van vergelykende, epigenomiese en regulatoriese annotasies. Sedert ons die webwerf vir die eerste keer in 2011 bekendgestel het, het ons HaploReg grootliks uitgebrei, die aantal chromatientoestandkaarte verhoog na 127 verwysingsepigenome vanaf ENCODE 2012 en Roadmap Epigenomics, wat reguleerderbindingsdata insluit, regulatoriese motiefontwrigtingaantekeninge uitgebrei het, en uitdrukkingskwantitatiewe kenmerke geïntegreer ( eQTL) variante en hul weefselspesifieke teikengene van GTEx, Geuvadis en ander onlangse studies. Ons bied hierdie opdaterings aan as HaploReg v4, en illustreer 'n gebruiksgeval van HaploReg vir aandaggebrek-hiperaktiwiteitversteuring (ADHD)-geassosieerde SNP's met vermeende breinregulerende meganismes.

Claussnitzer, Dankel, Kim, Quon, Meuleman, Haugen, Glunk, Sousa, Beaudry, Puviindran, Abdennur, Liu, Svensson, Hsu, Drucker, Mellgren, Hui, Hauner, Kellis

Genoomwye assosiasiestudies kan gebruik word om siekte-relevante genomiese streke te identifiseer, maar interpretasie van die data is uitdagend. Die FTO-streek het die sterkste genetiese assosiasie met vetsug, maar die meganistiese basis van hierdie assosiasie bly ontwykend. Ons het epigenomiese data, alleliese aktiwiteit, motiefbewaring, reguleerderuitdrukking en geen-ko-uitdrukkingpatrone ondersoek, met die doel om die regulatoriese stroombane en meganistiese basis van die assosiasie tussen die FTO-streek en vetsug te dissekteer. Ons het ons voorspellings bekragtig met die gebruik van gerigte versteurings in monsters van pasiënte en van muise en met endogene CRISPR-Cas9 genoom redigering in monsters van pasiënte. Ons data dui daarop dat die FTO-alleel wat met vetsug geassosieer word, mitochondriale termogenese in adiposiet-voorloperselle op 'n weefsel-outonome manier onderdruk. Die rs1421085 T-tot-C enkelnukleotiedvariant ontwrig 'n bewaarde motief vir die ARID5B-onderdrukker, wat lei tot derepressie van 'n kragtige preadiposietversterker en 'n verdubbeling van IRX3- en IRX5-uitdrukking tydens vroeë adiposiet-differensiasie. Dit lei tot 'n sel-outonome ontwikkelingsverskuiwing van energie-dissiperende beige (brite) adiposiete na energie-bergende wit adiposiete, met 'n vermindering in mitochondriale termogenese met 'n faktor van 5, sowel as 'n toename in lipiedberging. Inhibisie van Irx3 in vetweefsel in muise het liggaamsgewig en verhoogde energie-dissipasie verminder sonder 'n verandering in fisiese aktiwiteit of eetlus. Die afbreek van IRX3 of IRX5 in primêre adiposiete van deelnemers met die risiko-alleel het termogenese herstel, wat dit met 'n faktor van 7 verhoog het, en ooruitdrukking van hierdie gene het die teenoorgestelde effek in adiposiete van nie-risiko-alleeldraers gehad. Herstel van die ARID5B-motief deur CRISPR-Cas9-redigering van rs1421085 in primêre adiposiete van 'n pasiënt met die risiko-alleel herstelde IRX3- en IRX5-onderdrukking, geaktiveerde verbruining-uitdrukkingsprogramme, en herstel termogenese, wat dit met 'n faktor van 7 verhoog. Ons resultate dui op 'n pad vir adiposiet termogenese regulering wat ARID5B, rs1421085, IRX3 en IRX5 behels, wat, wanneer dit gemanipuleer is, uitgesproke pro-vetsug en anti-vetsug effekte gehad het

Epigenomiese datastelle verskaf kritiese inligting oor die dinamiese rol van chromatientoestande in geenregulering, maar 'n sleutelvraag oor hoe chromatientoestandsegmentasies onder verskillende toestande oor die genoom verskil, is onbeantwoord gebly. Hier bied ons ChromDiff aan, 'n groepsgewyse chromatientoestandvergelykingsmetode wat 'n inligtingsteoretiese voorstelling van epigenome genereer en korrigeer vir eksterne kovariante faktore om relevante chromatientoestandveranderinge beter te isoleer. Deur ChromDiff toe te pas op die 127 epigenome van die Roadmap Epigenomics en ENCODE-projekte, verskaf ons nuwe groepsgewyse vergelykende ontledings oor geslag, weefseltipe, toestand en ontwikkelingsouderdom. Merkwaardig genoeg vind ons dat afsonderlike stelle epigenomiese kenmerke maksimaal diskriminerend is vir verskillende groepsgewyse vergelykings, wat in elke geval duidelike verrykte weë openbaar, waarvan baie nie geenuitdrukking verskille toon nie. Ons metodologie moet breed toepaslik wees vir epigenomiese vergelykings en bied 'n kragtige nuwe hulpmiddel om chromatientoestandverskille op die genoomskaal te bestudeer.

'n Fundamentele eenheid van geenregulerende beheer is die kontak tussen 'n regulerende proteïen en sy teiken-DNA of RNA-molekule. Biofisiese modelle wat hierdie interaksies direk voorspel, is onvolledig en beperk tot spesifieke tipes strukture, maar berekeningsanalise van grootskaalse eksperimentele datastelle laat toe dat regulatoriese motiewe geïdentifiseer word deur hul oorverteenwoordiging in teikenreekse. In hierdie uitgawe beskryf Alipanahi et al die gebruik van 'n diepleerstrategie om proteïen-nukleïensuur-interaksies uit diverse eksperimentele datastelle te bereken. Hulle wys dat hul algoritme, genaamd DeepBind, breed toepaslik is en lei tot verhoogde voorspellingskrag in vergelyking met tradisionele enkeldomeinmetodes, en hulle gebruik die voorspellings daarvan om regulatoriese motiewe te ontdek, om RNA-redigering en alternatiewe splitsing te voorspel, en om genetiese variante te interpreteer. As ons verder kyk as regulatoriese motiewe, illustreer die huidige resultate die krag van diep leer vir biologiese data-analise in die algemeen. Die benadering kan voorspellende krag vir spesifieke take verhoog, diverse datastelle oor datatipes integreer, en groter veralgemening verskaf gegewe die fokus op voorstellingsleer en nie bloot klassifikasie-akkuraatheid nie. Sistematiese visualisering en verkenning van interne voorstellings by elke laag kan meganistiese insigte lewer en nuwe eksperimente en navorsingsrigtings lei. Meer in die breë, kan diep leer dien as 'n leidende beginsel om beide hipotese-gedrewe navorsing en verkennende ondersoek te organiseer.Vir hierdie potensiaal om verwesenlik te word, moet statistiese en biologiese take op alle vlakke geïntegreer word, insluitend studie-ontwerp, eksperimentbeplanning, modelbou en verfyning, en data-interpretasie. en om genetiese variante te interpreteer

Madabhushi, Gao, Pfenning, Pan, Yamakawa, Seo, Rueda, Phan, Yamakawa, Pao, Stott, Gjoneska, Nott, Cho, Kellis, Tsai.

Neuronale aktiwiteit veroorsaak die vinnige uitdrukking van onmiddellike vroeë gene wat deurslaggewend is vir ervaringsgedrewe veranderinge aan sinapse, leer en geheue. Hier, deur gebruik te maak van beide molekulêre en genoomwye volgende-generasie volgordebepalingsmetodes, rapporteer ons dat neuronale aktiwiteitstimulasie die vorming van DNA-dubbelstring-breuke (DSB's) in die promotors van 'n subset van vroeë-responsgene veroorsaak, insluitend Fos, Npas4, en Egr1. Generering van geteikende DNA DSB's binne Fos- en Npas4-promotors is voldoende om hul uitdrukking te induseer selfs in die afwesigheid van 'n eksterne stimulus. Aktiwiteitsafhanklike DSB-vorming word waarskynlik bemiddel deur die tipe II topoisomerase, Topoisomerase IIbeta (Topo IIbeta), en afbreek van Topo IIbeta verswak beide DSB-vorming en vroeë-respons geenuitdrukking na neuronale stimulasie. Ons resultate dui daarop dat DSB-vorming 'n fisiologiese gebeurtenis is wat topologiese beperkings tot vroeë-reaksie geenuitdrukking in neurone vinnig oplos

GTEx Consortium Ardlie, Deluca, Segr , Sullivan, Young, Gelfand, Trowbridge, Maller, Tukiainen, Lek, Ward, Kheradpour, Iriarte, Meng, Palmer, Esko, Winckler, Hirschhorn, Kellis, MacArthur, Getz, Shabalin, Li, Zhou , Nobel, Rusyn, Wright, Lappalainen, Ferreira, Ongen, Rivas, Battle, Mostafavi, Monlong, Sammeth, Mel , Reverter, Goldmann, Koller, Guig , McCarthy, Dermitzakis, Gamazon, Im, Konkashbaev, Nicolae, Cox, Flutre , Wen, Stephens, Pritchard, Tu, Zhang, Huang, Long, Lin, Yang, Zhu, Liu, Brown, Mestichelli, Tidwell, Lo, Salvatore, Shad, Thomas, Lonsdale, Moser, Gillard, Karasik, Ramsey, Choi, Foster , Syron, Fleming, Magazine, Hasz, Walters, Bridge, Miklos, Sullivan, Barker, Traino, Mosavel, Siminoff, Valley, Rohrer, Jewell, Branton, Sobin, Barcus, Qi, McLean, Hariharan, Um, Wu, Tabor, Shive , Smith, Buia, Undale, Robinson, Roche, Valentino, Britton, Burges, Bradbury, Hambright, Seleski, Korzeniewski, Erickson, Marcus, Tejada, Taherian, Lu, Basile, Mash, Volpi, Struewing, Temple, Boyer, Colantuoni, Little, Koester, Carithers, Moore, Guan, Compton, Sawyer, Demchok, Vaught, Rabiner, Lockhart, Ardlie, Getz, Wright, Kellis, Volpi, Dermitzakis

Om die funksionele gevolge van genetiese variasie te verstaan, en hoe dit komplekse menslike siektes en kwantitatiewe eienskappe beïnvloed, bly 'n kritieke uitdaging vir biogeneeskunde. Ons bied 'n ontleding van RNA-volgordebepalingsdata van 1641 monsters oor 43 weefsels van 175 individue aan, gegenereer as deel van die loodsfase van die Genotipe-Weefsel-uitdrukking (GTEx)-projek. Ons beskryf die landskap van geenuitdrukking oor weefsels, katalogiseer duisende weefselspesifieke en gedeelde regulatoriese uitdrukking kwantitatiewe eienskap loci (eQTL) variante, beskryf komplekse netwerkverwantskappe en identifiseer seine van genoomwye assosiasiestudies wat deur eQTLs verduidelik word. Hierdie bevindinge verskaf 'n sistematiese begrip van die sellulêre en biologiese gevolge van menslike genetiese variasie en van die heterogeniteit van sulke effekte tussen 'n diverse stel menslike weefsels

Sealfon, Lin, Jungreis, Wolf, Kellis, Sabeti

Die toenemende beskikbaarheid van volgordedata vir baie virusse bied krag om streke onder ongewone evolusionêre beperking teen 'n hoë resolusie op te spoor. Een benadering gebruik die sinonieme substitusiekoers as 'n handtekening om genetiese streke te identifiseer wat oorvleuelende of ingebedde funksionele elemente kodeer. Proteïenkoderende streke in virale genome bevat dikwels oorvleuelende RNA-struktuurelemente, leesrame, regulatoriese elemente, mikroRNA's en verpakkingseine. Sinonieme vervangings in hierdie streke sal selektief benadeel word en dus word hierdie streke gekenmerk deur oormatige sinonieme beperking. Kodonkeuse kan ook transkripsiedoeltreffendheid, translasieakkuraatheid en proteïenvou moduleer. Ons het 'n filogenetiese kodonmodel-gebaseerde raamwerk, FRESCo, ontwikkel wat ontwerp is om streke van oormatige sinonieme beperking in kort, diep belynings, soos individuele virale gene oor baie opeenvolgende isolate te vind. Ons het die hoë spesifisiteit van ons benadering op gesimuleerde data gedemonstreer en ons raamwerk toegepas op die proteïenkoderende streke van ongeveer 30 verskillende spesies virusse met uiteenlopende genoomargitekture. FRESCo herwin bekende multifunksionele streke in goed-gekarakteriseerde virusse soos hepatitis B-virus, poliovirus en Wes-Nyl-virus, dikwels teen 'n enkelkodon-resolusie, en voorspel baie nuwe funksionele elemente wat virale gene oorvleuel, insluitend in Lassa- en Ebola-virusse. In 'n aantal virusse vertoon die sinonieme beperkte streke wat ons geïdentifiseer het ook bewaarde, stabiele voorspelde RNA-strukture, insluitend vermoedelike nuwe elemente in veelvuldige virale spesies

Padkaart Epigenomics Consortium, Kundaje, Meuleman, Ernst, Bilenky, Yen, Heravi-Moussavi, Kheradpour, Zhang, Wang, Ziller, Amin, Whitaker, Schultz, Ward, Sarkar, Quon, Sandstrom, Eaton, Wu, Pfenning, Wang, Claussnitzer, Liu, Coarfa, Harris, Shoresh, Epstein, Gjoneska, Leung, Xie, Hawkins, Lister, Hong, Gascard, Mungall, Moore, Chuah, Tam, Canfield, Hansen, Kaul, Sabo, Bansal, Carles, Dixon, Farh, Feizi, Karlic, Kim, Kulkarni, Li, Lowdon, Elliott, Mercer, Neph, Onuchic, Polak, Rajagopal, Ray, Sallari, Siebenthall, Sinnott-Armstrong, Stevens, Thurman, Wu, Zhang, Zhou, Beaudet, Boyer, De Jager, Farnham , Fisher, Haussler, Jones, Li, Marra, McManus, Sunyaev, Thomson, Tlsty, Tsai, Wang, Waterland, Zhang, Chadwick, Bernstein, Costello, Ecker, Hirst, Meissner, Milosavljevic, Ren, Stamatoyannopoulos, Wang, Kellis

Die verwysing menslike genoomvolgorde het die begin gemaak vir studies van genetiese variasie en die assosiasie daarvan met menslike siekte, maar epigenomiese studies het nie 'n soortgelyke verwysing nie. Om hierdie behoefte aan te spreek, het die NIH Roadmap Epigenomics Consortium die grootste versameling tot dusver van menslike epigenome vir primêre selle en weefsels gegenereer. Hier beskryf ons die integrerende analise van 111 verwysings menslike epigenome wat as deel van die program gegenereer is, geprofileer vir histoonmodifikasiepatrone, DNS-toeganklikheid, DNS-metilering en RNS-uitdrukking. Ons vestig globale kaarte van regulatoriese elemente, definieer regulatoriese modules van gekoördineerde aktiwiteit, en hul waarskynlike aktiveerders en onderdrukkers. Ons wys dat siekte- en eienskap-geassosieerde genetiese variante verryk word in weefselspesifieke epigenomiese merke, wat biologies relevante seltipes vir diverse menslike eienskappe openbaar, en 'n hulpbron verskaf vir die interpretasie van die molekulêre basis van menslike siekte. Ons resultate demonstreer die sentrale rol van epigenomiese inligting vir die begrip van geenregulering, sellulêre differensiasie en menslike siekte

Gjoneska, Pfenning, Mathys, Quon, Kundaje, Tsai, Kellis

Alzheimer se siekte (AD) is 'n ernstige ouderdomsverwante neurodegeneratiewe versteuring wat gekenmerk word deur ophoping van amiloïed-beta-plate en neurofibrillêre tangles, sinaptiese en neuronale verlies, en kognitiewe agteruitgang. Verskeie gene is by AD geïmpliseer, maar chromatientoestandveranderinge tydens neurodegenerasie bly ongekarakteriseer. Hier profileer ons transkripsie- en chromatientoestanddinamika oor vroeë en laat patologie in die hippokampus van 'n induseerbare muismodel van AD-agtige neurodegenerasie. Ons vind 'n gekoördineerde afregulering van sinaptiese plastisiteitsgene en regulatoriese streke, en opregulering van immuunresponsgene en regulatoriese streke, wat geteiken word deur faktore wat aan die ETS-familie van transkripsionele reguleerders behoort, insluitend PU.1. Menslike streke ortoloog tot toenemende-vlak versterkers toon immuunsel-spesifieke versterker handtekeninge sowel as immuun sel uitdrukking kwantitatiewe eienskap lokusse, terwyl dalende vlak versterker ortoloë fetale-brein-spesifieke versterker aktiwiteit toon. Veral, AD-geassosieerde genetiese variante word spesifiek verryk in toenemende-vlak versterker-ortoloë, wat immuunprosesse impliseer in AD predisposisie. Inderdaad, toenemende versterkers oorvleuel bekende AD-lokusse wat nie proteïenveranderende variante het nie, en impliseer bykomende lokusse wat nie genoomwye betekenis bereik nie. Ons resultate openbaar nuwe insigte in die meganismes van neurodegenerasie en vestig die muis as 'n nuttige model vir funksionele studies van AD-regulerende streke

Met honderde epigenomiese kaarte, ontstaan ​​die geleentheid om die gekorreleerde aard van epigenetiese seine, oor beide merke en monsters, te ontgin vir grootskaalse voorspelling van addisionele datastelle. Hier onderneem ons epigenoom-toerekening deur sulke korrelasies te benut deur 'n ensemble van regressiebome. Ons reken 4 315 hoë-resolusie seinkaarte toe, waarvan 26% ook eksperimenteel waargeneem word. Toegerekende seinspore toon algehele ooreenkoms met waargenome seine en oortref eksperimentele datastelle in konsekwentheid, herstel van geenaantekeninge en verryking vir siekte-geassosieerde variante. Ons gebruik die toegerekende data om eksperimentele datastelle van lae gehalte op te spoor, om genomiese terreine met onverwagte epigenomiese seine te vind, om hoë-prioriteitpunte vir nuwe eksperimente te definieer en om chromatientoestande in 127 verwysingsepigenome wat oor uiteenlopende weefsels en seltipes strek, af te baken. Ons toegerekende datastelle verskaf die mees omvattende menslike regulatoriese streekaantekening tot dusver, en ons benadering en die ChromImpute-sagteware vorm 'n nuttige aanvulling tot grootskaalse eksperimentele kartering van epigenomiese inligting.

Die akkurate afleiding van geenbome is 'n noodsaaklike stap in baie evolusionêre studies. Alhoewel die probleem van akkurate geenboomafleiding aansienlike aandag geniet het, is die meeste bestaande metodes slegs van toepassing op geenfamilies wat nie deur horisontale geenoordrag geraak word nie. Gevolglik bly die akkurate afleiding van geenbome wat deur horisontale geenoordrag geraak word 'n grootliks onaangespreekte probleem. In hierdie werk stel ons 'n nuwe en hoogs effektiewe metode bekend vir geneboomfoutkorreksie in die teenwoordigheid van horisontale geenoordrag. Ons metode modelleer doeltreffend horisontale geenoordragte, geenduplisering en verliese, en gebruik 'n statistiese hipotesetoetsraamwerk (Shimodaira-Hasegawa-toets) om volgordewaarskynlikheid te balanseer met topologiese inligting van 'n bekende spesieboom. Deur 'n deeglike simulasiestudie te gebruik, wys ons dat bestaande filogenetiese metodes onakkurate geenbome oplewer wanneer dit toegepas word op horisontaal oorgedrade geenfamilies en dat ons metode geneboomakkuraatheid dramaties verbeter. Ons pas ons metode toe op 'n datastel van 11 sianobakteriese spesies en demonstreer die groot impak van geneboom akkuraatheid op stroomaf evolusionêre ontledings. 'n Implementering van ons metode is beskikbaar by http://compbio.mit.edu/treefix-dtl/

Boyle, Araya, Brdlik, Cayting, Cheng, Cheng, Gardner, Hillier, Janette, Jiang, Kasper, Kawli, Kheradpour, Kundaje, Li, Ma, Niu, Rehm, Rozowsky, Slattery, Spokony, Terrell, Vafeados, Wang, Weisdepp, Wu, Xie, Yan, Feingold, Good, Pazin, Huang, Bickel, Brenner, Reinke, Waterston, Gerstein, White, Kellis, Snyder

Ten spyte van die groot evolusionêre afstande tussen metazoïese spesies, kan hulle merkwaardige gemeenskaplikhede in hul biologie toon, en dit het gehelp om vlieg en wurm as modelorganismes vir menslike biologie te vestig. Alhoewel studies van individuele elemente en faktore ooreenkomste in geenregulering ondersoek het, ontbreek 'n grootskaalse vergelykende analise van basiese beginsels van transkripsionele regulatoriese kenmerke. Hier karteer ons die genoomwye bindingsliggings van 165 menslike, 93 wurm en 52 vlieg transkripsie-regulerende faktore, wat 'n totaal van 1 019 datastelle genereer uit diverse seltipes, ontwikkelingstadia of toestande in die drie spesies, waarvan 498 (48,9% ) word vir die eerste keer hier aangebied. Ons vind dat strukturele eienskappe van regulatoriese netwerke merkwaardig bewaar word en dat ortoloë regulatoriese faktorfamilies soortgelyke bindingsmotiewe in vivo herken en 'n paar soortgelyke mede-assosiasies toon. Ons resultate dui daarop dat geen-regulerende eienskappe wat voorheen vir individuele faktore waargeneem is, algemene beginsels van metazoïese regulering is wat merkwaardig goed bewaar word ten spyte van uitgebreide funksionele divergensie van individuele netwerkverbindings. Die vergelykende kaarte van regulatoriese stroombane wat hier verskaf word, sal 'n verbeterde begrip van die regulatoriese onderbou van modelorganismebiologie bevorder en hoe dit verband hou met menslike biologie, ontwikkeling en siekte

Slattery, Ma, Spokony, Arthur, Kheradpour, Kundaje, N gre, Crofts, Ptashkin, Zieba, Ostapenko, Suchy, Victorsen, Jameel, Grundstad, Gao, Moran, Rehm, Grossman, Kellis, White.

Annotasie van regulatoriese elemente en identifikasie van die transkripsieverwante faktore (TRF's) wat hierdie elemente teiken, is sleutelstappe om te verstaan ​​hoe selle hul genetiese bloudruk en hul omgewing tydens ontwikkeling interpreteer, en hoe daardie proses skeefloop in die geval van siekte. Een doel van die modENCODE (model-organisme ENCyclopedia of DNA Elements)-projek is om 'n diverse steekproef van TRF's, beide DNA-bindende en nie-DNA-bindende faktore, te ondersoek om 'n raamwerk te verskaf vir die daaropvolgende studie van die meganismes waardeur transkripsionele reguleerders die genoom teiken. Hier verskaf ons 'n bygewerkte kaart van die Drosophila melanogaster regulatoriese genoom gebaseer op die ligging van 84 TRF's in verskillende stadiums van ontwikkeling. Hierdie regulatoriese kaart openbaar 'n verskeidenheid genomiese teikenpatrone, insluitend faktore met sterk voorkeure teenoor proksimale promotorbinding, faktore wat intergeniese en introniese DNA teiken, en faktore met duidelike chromatientoestandvoorkeure. Die data beklemtoon ook die strengheid van die Polycomb-regulerende netwerk, en toon assosiasie van die Trithorax-agtige (Trl) proteïen met brandpunte van DNA-binding deur die hele ontwikkeling. Verder identifiseer die data meer as 5800 gevalle waarin TRF's DNS-streke teiken met gedemonstreerde versterkeraktiwiteit. Streke van hoë TRF mede-besetting is meer geneig om geassosieer te word met oop versterkers wat oor seltipes gebruik word, terwyl laer TRF besetting streke geassosieer word met komplekse versterkers wat ook op die epigenetiese vlak gereguleer word. Saam dien hierdie data as 'n hulpbron vir die navorsingsgemeenskap in die volgehoue ​​poging om transkripsionele reguleringsmeganismes wat Drosophila-ontwikkeling rig, te dissekteer.

Libeskind-Hadas, Wu, Bansal, Kellis

Filogenetiese boomversoening is 'n wyd gebruikte metode om die evolusionêre geskiedenis van geenfamilies en spesies, gashere en parasiete en ander afhanklike pare entiteite te rekonstrueer. Rekonsiliasie word tipies uitgevoer met behulp van maksimum spaarsaamheid, waarin elke evolusionêre gebeurtenistipe 'n koste toegeken word en die doel is om 'n rekonsiliasie van minimum totale koste te vind. Daar word algemeen verstaan ​​dat rekonsiliasies sensitief is vir gebeurteniskoste, maar min word verstaan ​​oor die verband tussen gebeurteniskoste en oplossings. Boonop is die keuse van geskikte geleentheidskoste 'n berugte moeilike probleem. Ons spreek hierdie probleem aan deur 'n doeltreffende algoritme te gee vir die berekening van Pareto-optimale stelle rekonsiliasies, om sodoende die eerste sistematiese metode te verskaf om die verband tussen gebeurteniskoste en rekonsiliasies te verstaan. Dit lei weer tot nuwe tegnieke vir die berekening van gebeurtenisondersteuningswaardes en, vir kopilogenetiese ontledings, die uitvoer van robuuste statistiese toetse. Ons verskaf nuwe sagteware-instrumente en demonstreer die gebruik daarvan op 'n aantal datastelle van evolusionêre genomiese en cofilogenetiese studies. Beskikbaarheid en implementering: Ons Python-nutsgoed is vrylik beskikbaar by www.cs.hmc.edu/

Kellis, Wold, Snyder, Bernstein, Kundaje, Marinov, Ward, Birney, Crawford, Dekker, Dunham, Elnitski, Farnham, Feingold, Gerstein, Giddings, Gilbert, Gingeras, Green, Guigo, Hubbard, Kent, Lieb, Myers, Pazin, Ren, Stamatoyannopoulos, Weng, White, Hardison

Met die voltooiing van die menslike genoomvolgorde het die aandag gevestig op die identifisering en annotering van die funksionele DNA-elemente daarvan. As 'n aanvulling tot genetiese en vergelykende genomika-benaderings, is die Encyclopedia of DNA Elements Project van stapel gestuur om kaarte van RNA-transkripsies, transkripsionele reguleerder-bindingsplekke en chromatientoestande in baie seltipes by te dra. Die gevolglike genoomwye data onthul plekke van biochemiese aktiwiteit met hoë posisionele resolusie en seltipe spesifisiteit wat studies van geenregulering en interpretasie van niekoderende variante wat met menslike siekte geassosieer word, fasiliteer. Die biochemies aktiewe streke dek egter 'n baie groter fraksie van die genoom as wat evolusionêr bewaarde streke doen, wat die vraag laat ontstaan ​​of nie-bewaarde maar biochemies aktiewe streke werklik funksioneel is. Hier hersien ons die sterk punte en beperkings van biochemiese, evolusionêre en genetiese benaderings vir die definisie van funksionele DNA-segmente, potensiële bronne vir die waargenome verskille in beraamde genomiese dekking, en die biologiese implikasies van hierdie verskille. Ons ontleed ook die verband tussen seinintensiteit, genomiese dekking en evolusionêre bewaring. Ons resultate versterk die beginsel dat elke benadering aanvullende inligting verskaf en dat ons kombinasies van al drie moet gebruik om genoomfunksie in menslike biologie en siektes toe te lig.

Lang intergeniese niekoderende RNA's (lincRNA's) speel uiteenlopende regulerende rolle in menslike ontwikkeling en siektes, maar min is bekend oor hul evolusionêre geskiedenis en beperking. Hier karakteriseer ons menslike lincRNA-uitdrukkingspatrone in nege weefsels oor ses soogdierspesies en veelvuldige individue. Van die 1898 menslike lincRNA's wat in hierdie weefsels uitgedruk word, vind ons ortoloë transkripsies vir 80% in sjimpansee, 63% in rhesus, 39% in koei, 38% in muis en 35% in rot. Soogdier-uitgedrukte lincRNAs toon merkwaardige sterk behoud van weefselspesifisiteit, wat daarop dui dat dit selektief in stand gehou word. Daarteenoor dui die oorvloedige omset van lasperseel daarop dat presiese lasplekke nie krities is nie. Relatief tot evolusionêr jong lincRNA's, toon soogdier-uitgedrukte lincRNA's hoër primêre volgorde bewaring in hul promotors en eksons, verhoogde nabyheid aan proteïenkoderende gene wat verryk is vir weefselspesifieke funksies, minder herhalende elemente en meer gereelde enkel-ekson transkripsies. Merkwaardig genoeg vind ons dit

20% van menslike lincRNA's word nie buite sjimpansee uitgedruk nie en is onopspoorbaar selfs in rhesus. Hierdie hominied-spesifieke lincRNA's is meer weefselspesifiek, verryk vir testis, en ontwikkel vinniger binne die menslike geslag.

Baie biologies belangrike RNA-strukture word in evolusie bewaar wat lei tot kenmerkende mutasiepatrone. RNAalifold is 'n wyd gebruikte program om konsensus sekondêre strukture in veelvuldige belynings te voorspel deur evolusionêre inligting te kombineer met tradisionele energie-gebaseerde RNA-voualgoritmes. Hier beskryf ons die teorie en toepassings van die RNAalifold-algoritme.Konsensus sekondêre struktuur voorspelling lei nie net tot aansienlik meer akkurate struktuur modelle nie, maar dit laat ook toe om strukturele bewaring van funksionele RNAs te bestudeer.

Rouskin, Zubradt, Washietl, Kellis, Weissman

RNS het 'n dubbele rol as 'n inligtingsmolekule en 'n direkte effektor van biologiese take. Laasgenoemde funksie word in staat gestel deur RNA se vermoë om komplekse sekondêre en tersiêre voue aan te neem en het dus uitgebreide berekenings1, 2 en eksperimentele 3, 4, 5, 6, 7, 8 pogings vir die bepaling van RNA-strukture gemotiveer. Bestaande benaderings vir die evaluering van RNA-struktuur is grootliks beperk tot in vitro-stelsels, maar die termodinamiese kragte wat RNA-vou in vitro aandryf, is dalk nie voldoende om stabiele RNA-strukture in vivo5 te voorspel nie. Inderdaad, die teenwoordigheid van RNA-bindende proteïene en ATP-afhanklike helikases kan beïnvloed watter strukture in selle teenwoordig is. Hier bied ons 'n benadering vir wêreldwye monitering van RNA-struktuur in inheemse toestande in vivo met enkel-nukleotied-presisie. Hierdie metode is gebaseer op in vivo modifikasie met dimetielsulfaat (DMS), wat reageer met ongepaarde adenien- en sitosienreste9, gevolg deur diepvolgordebepaling om modifikasies te monitor. Ons data van gis- en soogdierselle stem uitstekend ooreen met bekende boodskapper-RNA-strukture en met die hoë-resolusie kristalstruktuur van die Saccharomyces cerevisiae ribosoom10. Vergelyking tussen in vivo en in vitro data toon dat daar in selle wat vinnig deel, baie minder gestruktureerde mRNA-streke in vivo is as in vitro. Selfs termostabiele RNA-strukture word dikwels in selle gedenatureer, wat die belangrikheid van sellulêre prosesse in die regulering van RNA-struktuur beklemtoon. Inderdaad, ontleding van mRNA-struktuur onder ATP-uitgeputte toestande in gis toon dat energie-afhanklike prosesse sterk bydra tot die oorwegend ontvoude toestand van mRNA's binne selle. Ons studies maak in die breë die funksionele analise van fisiologiese RNA-strukture moontlik en toon dat, in teenstelling met die Anfinsen-siening van proteïenvouing waarvolgens die struktuur wat gevorm word die termodinamies gunstigste is, termodinamika 'n onvolledige rol speel in die bepaling van mRNA-struktuur in vivo.

Onlangse vooruitgang in tegnologie het gelei tot 'n dramatiese toename in die aantal beskikbare transkripsiefaktor ChIP-seq en ChIP-chip datastelle. Om die motiefinhoud van hierdie datastelle te verstaan, is 'n belangrike stap om die onderliggende meganismes van regulering te verstaan. Hier verskaf ons 'n sistematiese motiefanalise vir 427 menslike ChIP-seq datastelle met behulp van motiewe wat uit die literatuur saamgestel is en ook de novo ontdek is met behulp van vyf gevestigde motiefontdekkingsinstrumente. Ons gebruik 'n sistematiese pyplyn vir die berekening van motiefverryking in elke datastel, wat 'n prinsipiële manier bied om te kies tussen motiefvariante wat in die literatuur gevind word en om potensieel problematiese datastelle te vlag. Ons analise bevestig die bekende spesifisiteit van 41 van die 56 geanaliseerde faktorgroepe en onthul motiewe van potensiële kofaktore. Ons gebruik ook seltipe-spesifieke binding om faktore wat aktief is in spesifieke toestande te vind. Die hulpbron wat ons verskaf, is toeganklik om deur 'n klein aantal faktore te blaai en om grootskaalse sistematiese ontledings uit te voer. Ons verskaf motiefmatrikse, gevalle en verrykings in elk van die ENCODE-datastelle. Die motiewe wat hier ontdek is, is in parallelle studies gebruik om die spesifisiteit van teenliggaampies te valideer, koöperasie tussen datastelle te verstaan ​​en die variasie van motiefbinding oor individue en spesies te meet

Wu, Rasmussen, Bansal, Kellis

Akkurate geenboom-spesie-boomversoening is fundamenteel om die evolusionêre geskiedenis van 'n geenfamilie af te lei. Alhoewel dit egter lank reeds besef is dat populasieverwante effekte soos onvolledige afstammingssortering (ILS) die geenboom dramaties kan beïnvloed, oorweeg baie van die gewildste versoeningsmetodes onenigheid slegs as gevolg van geenduplisering en -verlies (en soms horisontale geenoordrag) ). Metodes wat ILS modelleer, is óf hoogs geparametriseerd óf beskou 'n beperkte stel geskiedenisse, wat dus hul toepaslikheid en akkuraatheid beperk. Om hierdie uitdagings aan te spreek, bied ons 'n nuwe algoritme DLCpar aan om 'n mees spaarsamige (MP) geskiedenis van 'n geenfamilie af te lei in die teenwoordigheid van duplisering, verliese en ILS. Ons algoritme maak staat op 'n nuwe rekonsiliasiestruktuur, die benoemde koalescent tree (LCT), wat gelyktydig samesmelting en duplisering-verlies geskiedenis beskryf. Ons wys dat die LCT-voorstelling 'n uitputtende en doeltreffende soektog oor die ruimte van rekonsiliasies moontlik maak, en vir die meeste geenfamilies is die minste gemeenskaplike voorouer (LCA) kartering 'n optimale oplossing vir die spesiekartering tussen die geenboom en spesieboom in 'n MP LCT. Deur ons algoritme toe te pas op 'n verskeidenheid klades, insluitend vlieë, swamme en primate, sowel as op gesimuleerde filogenieë, bereik ons ​​hoë akkuraatheid, vergelykbaar met gesofistikeerde waarskynlikheidsversoeningsmetodes, teen verminderde looptyd en met baie minder parameters. Hierdie eienskappe maak afleiding van komplekse evolusie van geenfamilies oor 'n wye reeks spesies en groot datastelle moontlik.

Kasowski, Kyriazopoulou-Panagiotopoulou, Grubert, Zaugg, Kundaje, Liu, Boyle, Zhang, Zakharia, Spacek, Li, Xie, Olarerin-George, Steinmetz, Hogenesch, Kellis, Batzoglou, Snyder

Die meerderheid van siekte-geassosieerde variante lê buite proteïenkoderende streke, wat 'n verband tussen variasie in regulatoriese streke en siekte-aanleg voorstel. Ons het verskille in chromatientoestande bestudeer deur gebruik te maak van vyf histoonmodifikasies, kohesin en CTCF in limfoblastoïede lyne van 19 individue van uiteenlopende afkoms. Ons het uitgebreide seinvariasie in regulatoriese streke gevind, wat dikwels tussen aktiewe en onderdrukte state oor individue wissel. Versterkeraktiwiteit is veral divers onder individue, terwyl geenuitdrukking relatief stabiel bly. Chromatienveranderlikheid toon genetiese oorerwing in trio's, korreleer met genetiese variasie en populasiedivergensie, en word geassosieer met ontwrigtings van transkripsiefaktorbindingsmotiewe. Oor die algemeen bied ons resultate insig in chromatienvariasie onder mense.

Filogenetiese boomversoening is 'n kragtige benadering om evolusionêre gebeure soos geenduplisering, horisontale geenoordrag en geenverlies af te lei, wat fundamenteel is vir ons begrip van molekulêre evolusie. Terwyl duplisering-verlies (DL) rekonsiliasie lei tot 'n unieke maksimum-parsimony oplossing, lewer duplisering-oordrag-verlies (DTL) rekonsiliasie 'n veelheid van optimale oplossings, wat dit moeilik maak om die ware evolusionêre geskiedenis van die geenfamilie af te lei. Hierdie probleem word verder vererger deur die feit dat verskillende gebeurteniskoste-opdragte verskillende stelle optimale rekonsiliasies oplewer. Hier bied ons 'n effektiewe, doeltreffende en skaalbare metode aan om hierdie fundamentele probleme in DTL-versoening te hanteer. Ons benadering werk deur die ruimte van optimale rekonsiliasies eenvormig lukraak te steekproef en die resultate saam te voeg. Ons wys dat selfs geenbome met slegs 'n paar dosyn gene dikwels miljoene optimale rekonsiliasies het en 'n algoritme aanbied om die ruimte van optimale rekonsiliasies doeltreffend ewekansig ewekansig in O(mn(2)) tyd per monster te monster, waar m en n aandui die aantal gene en spesies, onderskeidelik. Ons gebruik hierdie steekproewe om te verstaan ​​hoe verskillende optimale rekonsiliasies in hul noduskartering en gebeurtenistoewysings verskil en om die impak van wisselende gebeurteniskoste te ondersoek. Ons pas ons metode toe op 'n biologiese datastel van ongeveer 4700 geenbome van 100 taksa en neem waar dat 93% van gebeurtenisopdragte en 73% van kartering konsekwent bly oor verskillende veelvuldige optima. Ons analise verteenwoordig die eerste sistematiese ondersoek van die ruimte van optimale DTL-versoenings en het baie belangrike implikasies vir die studie van geenfamilie-evolusie.

Feizi, Marbach, Medard, Kellis

Die herkenning van direkte verwantskappe tussen veranderlikes wat in 'n netwerk verbind is, is 'n deurdringende probleem in biologiese, sosiale en inligtingswetenskappe aangesien korrelasie-gebaseerde netwerke talle indirekte verwantskappe bevat. Hier bied ons 'n algemene metode aan om direkte effekte af te lei van 'n waargenome korrelasiematriks wat beide direkte en indirekte effekte bevat. Ons formuleer die probleem as die inverse van netwerkkonvolusie, en stel 'n algoritme bekend wat die gekombineerde effek van alle indirekte paaie van arbitrêre lengte in 'n geslote-vorm oplossing verwyder deur eie-ontbinding en oneindige reekssomme te ontgin. Ons demonstreer die doeltreffendheid van ons benadering in verskeie netwerktoepassings: onderskei direkte teikens in geenuitdrukking regulatoriese netwerke wat direk interaksie aminosuurreste herken vir proteïenstruktuurvoorspelling vanaf volgordebelynings en onderskei sterk samewerking in mede-outeurskap sosiale netwerke deur gebruik te maak van konnektiwiteitsinligting alleen. Benewens die teoretiese impak daarvan as 'n fundamentele grafiekteoretiese hulpmiddel, dui ons resultate daarop dat netwerkdekonvolusie wyd toepaslik is vir die berekening van direkte afhanklikhede in netwerkwetenskap oor diverse dissiplines heen

Kheradpour, Ernst, Melnikov, Rogov, Wang, Zhang, Alston, Mikkelsen, Kellis

Genoomwye chromatienkaarte het die sistematiese kartering van vermeende regulatoriese elemente oor veelvuldige menslike seltipes moontlik gemaak, wat tienduisende kandidate distale versterkerstreke onthul het. Tot onlangs het hul eksperimentele disseksie deur gerigte regulatoriese motiefontwrigting egter onuitvoerbaar op genoomskaal gebly, as gevolg van die tegnologiese vertraging in grootskaalse DNA-sintese. Hier gebruik ons ​​'n massiewe parallelle verslaggewertoets (MPRA) om die transkripsievlakke te meet wat deur 145bp DNA-segmente gesentreer is op evolusionêr-gekonserverde regulatoriese motiefgevalle en gevind in versterker-chromatientoestande. Ons selekteer vyf voorspelde aktiveerders (HNF1, HNF4, FOXA, GATA, NFE2L2) en twee voorspelde onderdrukkers (GFI1, ZFP161) en meet verslaggewer uitdrukking in eritroleukemie (K562) en lewerkarsinoom (HepG2) sellyne. Ons toets 2 104 wildtipe-reekse en 'n bykomende 3 314 gemanipuleerde versterker-variante wat geteikende motiefonderbrekings bevat, elk met 10 strepieskode-etikette in twee sellyne en 2 herhalings. Die resulterende data bevestig sterk die versterker aktiwiteit en seltipe spesifisiteit van versterker chromatien toestande, die vermoë van 145bp segmente om beide te rekapituleer, die nodige rol van regulatoriese motiewe in versterker funksie, en die komplementêre rolle van aktiveerder en onderdrukker motiewe. Ons vind statisties robuuste bewyse dat (1) deurmekaar, verwydering of ontwrigting van die voorspelde aktiveerdermotiewe versterkerfunksie afskaf, terwyl stil of motiefverbeterende veranderinge versterkeraktiwiteit handhaaf (2) evolusionêre bewaring, nukleosoomuitsluiting, binding van ander faktore en sterkte van die motiefpassing word almal geassosieer met wild-tipe versterker aktiwiteit (3) deurmekaar onderdrukker motiewe lei tot afwykende verslaggewer uitdrukking in sellyne waar die versterkers gewoonlik nie aktief is nie. Ons resultate dui op 'n algemene strategie vir die ontsyfering van cis-regulerende elemente deur sistematiese grootskaalse eksperimentele manipulasie, en verskaf kwantitatiewe versterkeraktiwiteitsmetings oor duisende konstrukte wat ontgin kan word om voorspellende modelle van geenuitdrukking te genereer en te toets

Verenigingstudies verskaf genoomwye inligting oor die genetiese basis van komplekse siektes, maar mediese navorsing het hoofsaaklik op proteïenkoderende variante gefokus, as gevolg van die moeilikheid om niekoderende mutasies te interpreteer. Hierdie prentjie het verander met vooruitgang in die sistematiese annotasie van funksionele niekoderende elemente. Evolusionêre bewaring, funksionele genomika, chromatientoestand, volgordemotiewe en molekulêre kwantitatiewe eienskap lokusse verskaf almal komplementêre inligting oor die funksie van niekoderende volgordes. Hierdie funksionele kaarte kan help met die prioritisering van variante op risiko-haplotipes, die filter van mutasies wat in die kliniek voorkom en die uitvoering van stelselvlak-analises om prosesse onderliggend aan siekteassosiasies te openbaar. Vooruitgang in voorspellende modellering kan datastel-integrasie moontlik maak om paaie te openbaar wat oor lokusse en allele gedeel word, en ryker regulatoriese modelle kan die soektog na epistatiese interaksies lei. Laastens kan nuwe massiewe parallelle verslaggewer-eksperimente sistematies regulatoriese voorspellings bekragtig. Uiteindelik kan vooruitgang in regulatoriese en stelselgenomika help om die waarde van heelgenoomvolgordebepaling vir persoonlike genomiese risiko-assessering, diagnose en behandeling te ontketen.

Alhoewel slegs 5% van die menslike genoom oor soogdiere bewaar word, is 'n aansienlik groter gedeelte biochemies aktief, wat die vraag laat ontstaan ​​of die bykomende elemente neutraal ontwikkel of 'n geslagspesifieke fiksheidsvoordeel verleen. Om hierdie vraag aan te spreek, integreer ons menslike variasie-inligting van die 1000 Genomes Project en aktiwiteitsdata van die ENCODE-projek. 'n Wye reeks getranskribeerde en regulatoriese nie-bewaarde elemente toon verminderde menslike diversiteit, wat 'n afstamming-spesifieke suiwerende seleksie voorstel. Omgekeerd toon bewaarde elemente wat aktiwiteit ontbreek, verhoogde menslike diversiteit, wat daarop dui dat sommige onlangs nie-funksioneel geword het. Regulerende elemente onder menslike beperking in nie-bewaarde streke is naby kleurvisie en senuweegroei-gene gevind, in ooreenstemming met suiwerende seleksie vir onlangs-ontwikkelde funksies. Ons resultate dui op voortgesette omset in regulatoriese streke, met ten minste 'n bykomende 4% van die menslike genoom onderhewig aan geslagspesifieke beperking.

ENCODE Projek Konsortium

Die menslike genoom kodeer die bloudruk van lewe, maar die funksie van die oorgrote meerderheid van sy byna drie miljard basisse is onbekend. Die Encyclopedia of DNA Elements (ENCODE)-projek het streke van transkripsie, transkripsiefaktorassosiasie, chromatienstruktuur en histoonmodifikasie sistematies gekarteer. Hierdie data het ons in staat gestel om biochemiese funksies vir 80% van die genoom toe te ken, veral buite die goed bestudeerde proteïenkoderende streke. Baie ontdekte kandidaat-regulatoriese elemente word fisies met mekaar en met uitgedrukte gene geassosieer, wat nuwe insigte verskaf in die meganismes van geenregulering. Die nuut geïdentifiseerde elemente toon ook 'n statistiese ooreenstemming met volgordevariante wat aan menslike siektes gekoppel is, en kan sodoende die interpretasie van hierdie variasie lei. Oor die algemeen verskaf die projek nuwe insigte in die organisasie en regulering van ons gene en genoom, en is 'n uitgebreide bron van funksionele aantekeninge vir biomediese navorsing.

Lindblad-Toh, Garber, Zuk, Lin, Parker, Washietl, Kheradpour, Ernst, Jordan, Mauceli, Ward, Lowe, Holloway, Clamp, Gnerre, Alfoldi, Beal, Chang, Clawson, Palma, Fitzgerald, Flicek, Guttman, Hubisz, Jaffe, Jungreis, Kostka, Lara, Martins, Massingham, Moltke, Raney, Rasmussen, Stark, Vilella, Wen, Xie, Zody, Worley, Kovar, Muzny, Gibbs, Warren, Mardis, Weinstock, Wilson, Birney, Margulies, Herrero, Green, Haussler, Siepel, Goldman, Pollard, Pedersen, Lander, Kellis

Die vergelyking van verwante genome het na vore gekom as 'n kragtige lens vir genoominterpretasie. Hier rapporteer ons die volgordebepaling en vergelykende analise van 29 eutheriese genome. Ons bevestig dat ten minste 5.5% van die menslike genoom suiwerende seleksie ondergaan het, en vind beperkte elemente op wat 4.2% van die genoom dek. Ons gebruik evolusionêre handtekeninge en vergelykings met eksperimentele datastelle om kandidaatfunksies vir 60% van beperkte basisse voor te stel. Hierdie elemente openbaar 'n klein aantal nuwe koderende eksons, kandidaat-stopkodon-deurleesgebeurtenisse en meer as 10 000 streke van oorvleuelende sinonieme beperking binne proteïenkoderende eksons. Ons vind 220 kandidaat-RNA-strukturele families, en byna 'n miljoen elemente wat potensiële promotor-, versterker- en isolatorstreke oorvleuel. Ons rapporteer spesifieke aminosuurreste wat positiewe seleksie ondergaan het, 280 000 nie-koderende elemente wat van mobiele elemente verwyder is en meer as 1 000 primaat- en mens-versnelde elemente. Oorvleueling met siekteverwante variante dui daarop dat ons bevindings relevant sal wees vir studies van menslike biologie, gesondheid en siekte.

Ernst, Kheradpour, Mikkelsen, Shoresh, Ward, Epstein, Zhang, Wang, Issner, Coyne, Ku, Durham, Kellis*, Bernstein*

Chromatienprofilering het na vore gekom as 'n kragtige manier om genomiese elemente te annoteer en regulatoriese aktiwiteit op te spoor. Hier genereer en ontleed ons 'n kompendium van epigenomiese kaarte vir nege chromatienmerke oor nege seltipes, om sistematies cis-regulerende elemente, hul seltipe-spesifisiteite en hul funksionele interaksies te karakteriseer. Ons identifiseer eers herhalende kombinasies van histoon-modifikasies en gebruik dit om diverse regulatoriese elemente te annoteer, insluitend promotors, versterkers, transkripsies en isoleerders in elke seltipe. Ons karakteriseer vervolgens die dinamika van hierdie elemente, wat betekenisvolle patrone van aktiwiteit vir promotortoestande en uitstekende seltipe-selektiwiteit vir versterkertoestande openbaar. Ons definieer multi-sel aktiwiteit profiele wat die patrone van versterker toestand aktiwiteit oor sel tipes weerspieël, sowel as analoge profiele vir geen uitdrukking, regulatoriese motief verrykings, en uitdrukking van die ooreenstemmende reguleerders. Ons gebruik korrelasies tussen hierdie profiele om kandidaat-verbeteraars aan vermeende teikengene te koppel, om seltipe-spesifieke aktiveerders en onderdrukkers af te lei, en om funksionele reguleerderbindingsmotiewe in spesifieke chromatientoestande te voorspel en te bekragtig. Hierdie funksionele aantekeninge en regulatoriese voorspellings stel ons in staat om intergeniese enkelnukleotied polimorfismes (SNPs) wat met menslike siekte geassosieer word, in genoomwye assosiasiestudies (GWAS) te herbesoek. Ons vind dat vir verskeie siektes, toptelling SNP's presies geposisioneer is binne versterkerelemente wat spesifiek aktief is in relevante seltipes. In verskeie gevalle beïnvloed 'n siektevariant 'n motiefgeval vir een van die voorspelde oorsaaklike reguleerders, en verskaf dus 'n potensiële meganistiese verklaring vir die siekteassosiasie. Ons studie bied 'n algemene raamwerk vir die toepassing van multi-sel chromatien toestand analise om cis-regulatoriese verbindings en hul rol in gesondheid en siekte te ontsyfer.

Negre, Brown, Ma, Bristow, Miller, Kheradpour, Loriaux, Sealfon, Li, Ishii, Spokony, Chen, Hwang, Wagner, Auburn, Domanus, Shah, Morrison, Zieba, Suchy, Senderowicz, Victorsen, Bild, Grundstad, Hanley, Mannervik, Venken, Bellen, White, Russell, Grossman, Ren, Posakony, Kellis, White

Na die volgordebepaling van menslike en model-organisme-genome, het genoomwye annotasie van regulatoriese inligting na vore gekom as 'n groot uitdaging. Hier beskryf ons 'n aanvanklike kaart van die Drosophila melanogaster regulatoriese genoom gebaseer op die ontwikkelingsdinamika van chromatienmodifikasies en chromatienmodifiserende ensieme, op polimerase besetting van promotors, op die dinamiese binding van versterker-geassosieerde proteïene soos die transkripsionele ko-faktor CBP, en op die lokalisering van een-en-veertig plekspesifieke transkripsiefaktore op verskillende stadiums van ontwikkeling.Die hele datastel verskaf proteïenmodifikasie en bindingsannotasies oor 94% van die genoom tesame met voorspelling en validering van 4 klasse regulatoriese elemente: isoleerders, promotors, knaldempers en versterkers. Hierdie regulatoriese kaart onthul verskeie nuut-ontdekte eienskappe van genoomregulering, insluitend die gebrek aan epigenetiese merke by promotors van gene wat kortstondig uitgedruk word, die assosiasie van spesifieke Histon Deacetylases (HDAC's) met Polycomb Response Elemente, die vroeë rol van CBP as 'n merker van versterkers en die voorkoms van hoë-besetting transkripsie faktor bindingsplekke wat korreleer met geen uitdrukking. Deur hierdie data te gebruik, het ons ook 'n kombinatoriese analise gegenereer van transkripsiefaktore en DNA-volgordemotiewe wat geassosieer word met verskillende stelle ontwikkelings-mede-uitgedrukte gene, wat 'n databasis verskaf om die stelle regulatoriese insette te ontdek wat regulatoriese elementfunksie beheer. Saam dien hierdie cis-regulerende annotasies as 'n grondslag vir verdere gedetailleerde ontledings van die genomiese regulatoriese kode in Drosophila.

Die modENCODE-konsortium, Roy, Ernst, Kharchenko, Kheradpour, Negre, Eaton, Landolin, Bristow, Ma, Lin, Washietl, Arshinoff, Ay, Meyer, Robine, Washington, Di Stefano, Berezikov, Brown, Brown, Candeias, Carlson, Carr , Jungreis, Marbach, Sealfon, Tolstorukov, Alekseyenko, Artieri, Boley, Booth, Brooks, Dai, Davis, Duff, Feng, Gorchakov, Gu, Henikoff, Kapranov, Li, Li, MacAlpine, Malone, Minoda, Nordman, Okamura, Perry , Powell, Riddle, Sakai, Samsonova, Sandler, Schwartz, Sher, Spokony, Sturgill, van Baren, Will, Wan, Yang, Yu, Feingold, Good, Guyer, Lowdon, Ahmad, Andrews, Berger, Bickel, Brenner, Brent, Cherbas, Elgin, Gingeras, Grossman, Hoskins, Kaufman, Kent, Kuroda, Orr-Weaver, Perrimon, Pirrotta, Posakony, Ren, Russell, Cherbas, Graveley, Lewis, Micklem, Oliver, Park, Celniker, Henikoff, Karpen, Lai, MacAlpine, Stein, White, Kelly

Etlike jare na die aanvanklike opeenvolging van die genome van menslike en ander organismes, bly die oorgrote meerderheid van elke genoom ongeannoteerde, en dit is steeds onduidelik hoe om genomiese inligting te vertaal in 'n funksionele kaart van sellulêre en ontwikkelingsprogramme. Om hierdie vraag aan te spreek, het die Drosophila modENCODE-projek 'n grootskaalse poging aangepak om transkripsie, reguleerderbinding, chromatientoestand, replikasie en nukleosoom-eienskappe oor 'n ontwikkelingstydverloop en in veelvuldige sellyne omvattend te karteer. Hier rapporteer ons ons aanvanklike integrerende ontleding van die eerste fase van die projek, wat meer as 1000 datastelle insluit wat oor vier jaar oor ses produksiesentrums gegenereer is. Ons geïntegreerde annotasie het die ontdekking van nuwe proteïenkoderende, nie-koderende, RNA-regulerende, replikasie- en chromatienelemente moontlik gemaak wat die geannoteerde gedeelte van die genoom meer as verdriedubbel. Ons bestudeer gekorreleerde aktiwiteitspatrone van hierdie elemente om 'n funksionele regulatoriese netwerk af te lei, wat ons gebruik om vermeende funksies vir nuwe gene te voorspel, stadium-spesifieke en weefselspesifieke reguleerders te openbaar, en voorspellende modelle van geenuitdrukking af te lei. Ons resultate verskaf 'n verwysingsannotasie wat gerigte eksperimentele en rekenaarstudies in Drosophila en verwante spesies kan inlig, en bied 'n model vir sistematiese data-integrasie tot die omvattende genomiese en funksionele annotasie van enige genoom, insluitend die mens.

'n Oorvloed van epigenetiese modifikasies is in die menslike genoom beskryf en het getoon dat dit uiteenlopende rolle speel in geenregulering, sellulêre differensiasie en die aanvang van siektes. Alhoewel individuele modifikasies aan die aktiwiteitsvlakke van verskeie genetiese funksionele elemente gekoppel is, is hul kombinatoriese patrone steeds onopgelos en bly hul potensiaal vir sistematiese de novo genoomannotasie onontgin. Hier gebruik ons ​​'n meerveranderlike Hidden Markov Model om 'chromatientoestande' in menslike T-selle te openbaar, gebaseer op herhalende en ruimtelik koherente kombinasies van chromatienmerke. Ons definieer 51 afsonderlike chromatientoestande, insluitend promotor-geassosieerde, transkripsie-geassosieerde, aktiewe intergeniese, grootskaalse onderdrukte en herhaal-geassosieerde toestande. Elke chromatientoestand toon spesifieke verrykings in funksionele aantekeninge, volgordemotiewe en spesifieke eksperimenteel waargenome eienskappe, wat duidelike biologiese rolle voorstel. Hierdie benadering bied 'n komplementêre funksionele annotasie van die menslike genoom wat die genoomwye liggings van diverse klasse epigenetiese funksie openbaar.

Butler, Rasmussen, Lin, Santos, Sakthikumar, Munro, Rheinbay, Grabherr, Forche, Reedy, Agrafioti, Arnaud, Bates, Brown, Brunke, Costanzo, Fitzpatrick, de, Harris, Hoyer, Hube, Klis, Kodira, Lennard, Logue, Martin, Neiman, Nikolaou, Quail, Quinn, Santos, Schmitzberger, Sherlock, Shah, Silverstein, Skrzypek, Soll, Staggs, Stansfield, Stumpf, Sudbery, Srikantha, Zeng, Berman, Berriman, Heitman, Gow, Lorenz, Birren, Kellis, Cuomo

Candida spesies is die algemeenste oorsaak van opportunistiese swaminfeksie wêreldwyd. Hier rapporteer ons die genoomvolgordes van ses Candida spesies en vergelyk hierdie en verwante patogene en nie-patogene. Daar is beduidende uitbreidings van selwand, afgeskei en vervoerder geenfamilies in patogeniese spesies, wat aanpassings wat met virulensie verband hou, voorstel. Groot genomiese bane is homosigoties in drie diploïede spesies, wat moontlik voortspruit uit onlangse rekombinasiegebeure. Verbasend genoeg ontbreek sleutelkomponente van die parings- en meiose-bane by verskeie spesies. Dit sluit groot verskille by die paringstipe lokusse (MTL) in. Lodderomyces elongisporus het nie MTL nie, en komponente van die a1/2-selidentiteitsdeterminant het verlore gegaan in ander spesies, wat vrae laat ontstaan ​​oor hoe paring en seltipes beheer word. Ontleding van die CUG leucine-to-serine genetiese-kode verandering toon dat 99% van voorvaderlike CUG kodons uitgevee is en nuwes het elders ontstaan. Laastens hersien ons die Candida albicans-geenkatalogus en identifiseer baie nuwe gene.

Heintzman, Hon, Hawkins, Kheradpour, Stark, Harp, Ye, Lee, Stuart, Ching, Ching, Antosiewicz-Bourget, Liu, Zhang, Green, Lobanenkov, Stewart, Thomson, Crawford, Kellis, Ren

Die menslike liggaam bestaan ​​uit verskillende seltipes met verskillende funksies. Alhoewel dit bekend is dat geslagspesifikasie afhanklik is van selspesifieke geenuitdrukking, wat op sy beurt deur promotors, versterkers, isolators en ander cis-regulerende DNS-volgordes vir elke geen aangedryf word, is die relatiewe rolle van hierdie regulerende elemente in hierdie proses nie duidelik nie. . Ons het voorheen 'n chromatien-immunopresipitasie-gebaseerde mikroskikking-metode (ChIP-chip) ontwikkel om promotors, versterkers en isoleerders in die menslike genoom op te spoor. Hier gebruik ons ​​dieselfde benadering om hierdie elemente in veelvuldige seltipes te identifiseer en hul rolle in seltipe-spesifieke geenuitdrukking te ondersoek. Ons het waargeneem dat die chromatientoestand by promotors en CTCF-binding by isolators grootliks onveranderlik is oor diverse seltipes. Daarteenoor is versterkers gemerk met hoogs seltipe-spesifieke histoonmodifikasiepatrone, korreleer sterk met seltipe-spesifieke geenuitdrukkingprogramme op 'n globale skaal, en is funksioneel aktief op 'n seltipe-spesifieke wyse. Ons resultate definieer meer as 55 000 potensiële transkripsionele versterkers in die menslike genoom, wat die huidige katalogus van menslike versterkers aansienlik uitbrei en die rol van hierdie elemente in seltipe-spesifieke geenuitdrukking beklemtoon.

Guttman, Amit, Garber, French, Lin, Feldser, Huarte, Zuk, Carey, Cassady, Cabili, Jaenisch, Mikkelsen, Jacks, Hacohen, Bernstein, Kellis, Regev, Rinn, Lander

Daar is toenemende erkenning dat soogdierselle baie duisende groot intergeniese transkripsies produseer. Die funksionele betekenis van hierdie transkripsies was egter besonder kontroversieel. Alhoewel daar 'n paar goed-gekarakteriseerde voorbeelde is, toon die meeste (>95%) min bewyse van evolusionêre bewaring en is voorgestel om transkripsionele geraas voor te stel. Hier rapporteer ons 'n nuwe benadering tot die identifisering van groot nie-koderende RNA's deur gebruik te maak van chromatien-toestand kaarte om diskrete transkripsionele eenhede te ontdek wat bekende proteïenkoderende lokusse tussenbeide tree. Ons benadering het ongeveer 1 600 groot multi-eksoniese RNA's oor vier muisseltipes geïdentifiseer. In skerp kontras met vorige versamelings, toon hierdie groot tussenliggende nie-koderende RNA's (lincRNA's) sterk suiwerende seleksie in hul genomiese lokusse, eksoniese volgordes en promotorstreke, met meer as 95% wat duidelike evolusionêre bewaring toon. Ons het ook 'n funksionele genomika-benadering ontwikkel wat veronderstelde funksies aan elke lincRNA toeken, wat 'n uiteenlopende reeks rolle vir lincRNA's in prosesse van embrioniese stamselpluripotensie tot selproliferasie demonstreer. Ons het onafhanklike funksionele validering verkry vir die voorspellings vir meer as 100 lincRNA's, met behulp van sel-gebaseerde toetse. In die besonder demonstreer ons dat spesifieke lincRNA's transkripsie gereguleer word deur sleutel transkripsie faktore in hierdie prosesse soos p53, NFkappaB, Sox2, Oct4 (ook bekend as Pou5f1) en Nanog. Saam definieer hierdie resultate 'n unieke versameling funksionele lincRNA's wat hoogs behoue ​​bly en by diverse biologiese prosesse betrokke is.

Lin, Deoras, Rasmussen, Kellis

    Stark, Lin, Kheradpour, Pedersen, Parts, Carlson, Crosby, Rasmussen, Roy, Deoras, Ruby, Brennecke, FlyBase-kurators, Berkeley Drosophila Genome Project, Hodges, et al, Pachter, Kent, Haussler, Lai, Bartel, Hannon, Kaufman , Eisen, Clark, Smith, Celniker, Gelbart, Kellis
    Nature, 8 Nov 2007 450:203-218, 14 bladsye

Lin, Carlson, Crosby, Matthews, Yu, Park, Wan, Schroeder, Gramates, St, Roark, Wiley, Kulathinal, Zhang, Myrick, Antone, Celniker, Gelbart, Kellis

Die beskikbaarheid van opeenvolgende genome van 12 Drosophila spesies het die gebruik van vergelykende genomika moontlik gemaak vir die sistematiese ontdekking van funksionele elemente wat in hierdie genus bewaar word. Ons het kwantitatiewe maatstawwe ontwikkel vir die evolusionêre handtekeninge spesifiek vir proteïenkoderende streke en dit genoomwyd toegepas, wat gelei het tot 1193 kandidaat-nuwe proteïenkoderende eksons in die D. melanogaster-genoom. Ons het hierdie voorspellings deur handmatige samestelling nagegaan en 'n subset bekragtig deur gerigte cDNA-sifting en -volgordebepaling, wat beide nuwe gene en nuwe alternatiewe splitsvorms van bekende gene openbaar. Ons het ook hierdie evolusionêre handtekeninge gebruik om bestaande geenaantekeninge te evalueer, wat gelei het tot die validering van 87% van gene wat nie beskrywende name het nie en 414 swak bewaarde gene identifiseer wat waarskynlik vals voorspellings, niekoderende of spesie-spesifieke gene sal wees. Verder stel ons metodes 'n verskeidenheid verfynings aan honderde bestaande geenmodelle voor, soos modifikasies aan translasiebeginkodons en ekson-splitsingsgrense. Laastens het ons gerigte genoomwye soektogte na ongewone proteïenkoderende strukture uitgevoer, en 149 moontlike voorbeelde van stopkodon-deurlees ontdek, 125 nuwe kandidaat-ORF's van polisistroniese mRNA's, en verskeie kandidaat-translasieraamverskuiwings. Hierdie resultate beïnvloed >10% van geannoteerde vlieggene en demonstreer die krag van vergelykende genomika om ons begrip van genoomorganisasie te verbeter, selfs in 'n modelorganisme wat so intensief bestudeer is soos Drosophila melanogaster.

Heel-genoom duplisering gevolg deur massiewe geenverlies en spesialisasie is lank reeds gepostuleer as 'n kragtige meganisme van evolusionêre innovasie. Onlangs het dit moontlik geword om hierdie idee te toets deur volledige genoomvolgorde te soek vir tekens van antieke duplisering. Hier wys ons dat die gis Saccharomyces cerevisiae ontstaan ​​het uit antieke heelgenoomduplisering, deur opeenvolging en ontleding van Kluyveromyces waltii, 'n verwante gisspesie wat voor die duplisering afgewyk het. Die twee genome word verwant deur 'n 1:2 kartering, met elke streek van K. waltii wat ooreenstem met twee streke van S. cerevisiae, soos verwag word vir heelgenoom duplisering. Dit los die langdurige kontroversie oor die herkoms van die gisgenoom op, en maak dit moontlik om die lot van gedupliseerde gene direk te bestudeer. Opvallend is dat 95% van gevalle van versnelde evolusie slegs een lid van 'n geenpaar behels, wat sterk ondersteuning bied vir 'n spesifieke model van evolusie, en ons in staat stel om voorvaderlike en afgeleide funksies te onderskei.

Kellis, Patterson, Endrizzi, Birren, Lander

Die identifisering van die funksionele elemente wat in 'n genoom gekodeer is, is een van die belangrikste uitdagings in moderne biologie. Vergelykende genomika behoort 'n kragtige, algemene benadering te bied. Hier bied ons 'n vergelykende ontleding van die gis Saccharomyces cerevisiae aan wat gebaseer is op hoë-gehalte trekreekse van drie verwante spesies (S. paradoxus, S. mikatae en S. bayanus). Ons het eers die genome in lyn gebring en hul evolusie gekenmerk, wat die streke en meganismes van verandering gedefinieer het. Ons het toe metodes ontwikkel vir direkte identifikasie van gene en regulatoriese motiewe. Die geenanalise het 'n groot hersiening aan die gisgeenkatalogus opgelewer, wat ongeveer 15% van alle gene beïnvloed het en die totale telling met ongeveer 500 gene verminder het. Die motiefanalise het outomaties 72 genoomwye elemente geïdentifiseer, insluitend die meeste bekende regulatoriese motiewe en talle nuwe motiewe. Ons het 'n vermoedelike funksie vir die meeste van hierdie motiewe afgelei, en insigte verskaf in hul kombinatoriese interaksies. Die resultate het implikasies vir genoomontleding van diverse organismes, insluitend die mens.

Amenta, Bern, Kellis (Kamvysselis)

Ons beskryf ons ervaring met 'n nuwe algoritme vir die rekonstruksie van oppervlaktes vanaf ongeorganiseerde monsterpunte in 3D. Die algoritme is die eerste vir hierdie probleem met bewysbare waarborge. Gegewe 'n "goeie monster" vanaf 'n gladde oppervlak, is die uitset gewaarborg om topologies korrek te wees en konvergerend na die oorspronklike oppervlak te wees soos die steekproefdigtheid toeneem. Die definisie van 'n goeie steekproef is op sigself interessant: die vereiste steekproefdigtheid wissel plaaslik, wat die intuïtiewe idee dat kenmerklose gebiede uit minder steekproewe gerekonstrueer kan word, streng vasvang. Die uitsetmaas interpoleer, eerder as benader, die invoerpunte. Ons algoritme is gebaseer op die driedimensionele Voronoi-diagram. Gegewe 'n goeie program vir hierdie fundamentele subroetine, is die algoritme redelik maklik om te implementeer.


Kyk die video: Protein Synthesis Updated (Oktober 2022).