Inligting

Kan geen-geen-interaksies tot geenuitdrukking lei?

Kan geen-geen-interaksies tot geenuitdrukking lei?


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Ek bou 'n projek oor die afleiding van geenregulerende netwerke deur ARACNE- en PCA-CMI-algoritmes te gebruik, en die insette tot hierdie algoritmes is geneem uit die DREAM3-uitdaging.

Die formaat van die invoerdata word in die prent gewys.

Nou volgens wat ek bestudeer het, het 'n geenuitdrukkingmatriks sy rye wat gene verteenwoordig, kolomme verteenwoordig monsters soos weefsels of eksperimentele toestande en die getalle in elke sel verwys na die uitdrukkingsvlak van 'n spesifieke geen in die spesifieke monster.

En daardie geenuitdrukking is die proses waarin inligting van 'n geen gesintetiseer word om geenprodukte te verkry. Die proses van geenuitdrukking is dat dit 'n transkripsieproses ondergaan waar 'n transkripsiefaktor homself aan die geen heg en dan lei tot die vorming van geenproduk.

Maar die insetdata toon blykbaar geen-geen-interaksies.

As gevolg hiervan is ek uiters verward.

Enige soort hulp sal baie waardeer word. Dankie.


Ek weet niks van jou algoritmes nie. Maar ek sal probeer om die formaat van die data wat aan jou gegee is, te verduidelik. Ek ken nie jou agtergrond in Biologie nie, so ek sal aanvaar dat dit nie jou kundigheidsveld is nie en sal 'n paar vereenvoudigings van die vak maak.

Wat is geenuitdrukking?
Om te verstaan ​​wat 'n geenuitdrukking is, moet jy verstaan ​​wat 'n geen is:

'n Geen is 'n volgorde in die DNA (saamgestel uit 4 basisse A,T,C en G) wat deur 'n proteïen getranskribeer kan word, in jou konteks sal ons sê dit begin altyd met 'n beginkodon ('n kodon is 'n drieling van DNA basisse) en stop met 'n stopkodon. Dit is gewoonlik ongeveer duisend basisse lank. Die transkripsie sal vir jou 'n RNA gee, en daardie RNA kan vertaal word (let op die verskil met getranskribeer) in 'n heel nuwe proteïen.

Nou is die geenuitdrukking 'n maatstaf van die hoeveelheid RNA van die geen waarna jy soek. In 'n sel kan jy ongeveer 10000-100000 kopieë van daardie RNA hê; die rou telling is nie regtig stabiel nie aangesien jy twee selle of drie kan onttrek en dit sal jou "uitdrukking" verander. Meeste van die tyd normaliseer ons die telling deur die telling van 'n klomp bekende gene wat huishoudelike gene genoem word. Die besonderheid van hierdie gene is dat hul uitdrukking redelik stabiel is.

Die syfers wat jy het, is 'n verhouding tussen RNA-kopieë van jou geen van belang en RNA-kopieë van 'n stabiele geen (in terme van uitdrukking).

Wat beteken G1(-/-) en wt?

Gewoonlik wanneer ons (bioloog) 'n monster noemwtdit betekenwilde tipe, met ander woorde, 'n normale individu. G1(-/-) beteken dat hierdie monster van 'n individu is met die G1-geen onaktief (kan verkry word deur genetiese modifikasie).

Wat is 'n geen-geen interaksie?
Eerstens 'n voorbeeld van interaksie: kom ons stel ons 'n geen voor wat kodeer vir 'n versterker (versterker) van transkripsie. die teenwoordigheid van hierdie geen laat toe dat 'n ander geen in die sel uitgedruk word, as hierdie geen nie teenwoordig is nie of nie getranskribeer word nie, sal die ander geen ook nie uitgedruk word nie.

Hoe kan ons interaksie daar sien?

Kom ons kyk na reël een, die kontrole (normale individu), Ons sien dat G4 (kolom) amper onuitgedruk is (0.07). In normale toestande word hierdie geen nie uitgedruk nie. Kom ons kyk nou na mutant G1(-/-) en G6(-/-), ons sien die uitdrukking van G4 styg (0.37;0.23) in vergelyking met die kontrole (wt). Ons kan veronderstel dat G1 en G6 as inhibeerders van die G4-geen optree.


Die kort antwoord is ja, natuurlik is daar geen-geen interaksies. Ek is nie seker wat die punt van die eksperiment sou wees as daar nie was nie.


Gene2vec: verspreide voorstelling van gene gebaseer op mede-uitdrukking

Bestaande funksionele beskrywing van gene is kategories, diskreet, en meestal deur handmatige proses. In hierdie werk ondersoek ons ​​die idee van geeninbedding, verspreide voorstelling van gene, in die gees van woordinbedding.

Resultate

Vanuit 'n suiwer data-gedrewe manier, het ons 'n 200-dimensie vektorvoorstelling van alle menslike gene opgelei, deur geen-ko-uitdrukkingspatrone in 984 datastelle van die GEO-databasisse te gebruik. Hierdie vektore vang funksionele verwantskap van gene vas in terme van die herwinning van bekende weë - die gemiddelde innerlike produk (ooreenkoms) van gene binne 'n roete is 1,52X groter as dié van ewekansige gene. Met behulp van t-SNE het ons 'n geen-ko-uitdrukkingskaart vervaardig wat plaaslike konsentrasies van weefselspesifieke gene toon. Ons het ook die bruikbaarheid geïllustreer van die ingebedde geenvektore, gelaai met ryk inligting oor geenko-uitdrukkingpatrone, in take soos geen-geen interaksie voorspelling.

Gevolgtrekkings

Ons het 'n masjienleermetode voorgestel wat transkripsiewye geen-ko-uitdrukking gebruik om 'n verspreide voorstelling van gene te genereer. Ons het verder die nut van ons verspreiding gedemonstreer deur geen-geen-interaksie te voorspel wat uitsluitlik op geenname gebaseer is. Die verspreide voorstelling van gene kan nuttig wees vir meer bioinformatika toepassings.


Die gebruik van masjienleer om verwantskap tussen gene te meet: 'n multi-kenmerke-model

Die meet van voorwaardelike verwantskap tussen 'n paar gene is 'n fundamentele tegniek en steeds 'n beduidende uitdaging in rekenaarbiologie. Sulke verwantskap kan geassesseer word deur geenuitdrukking-ooreenkomste terwyl dit hoë vals ontdekkingsyfers ondervind. Intussen is ander tipe kenmerke, bv. voorafkennisgebaseerde ooreenkomste, slegs lewensvatbaar om globale verwantskap te meet. In hierdie referaat stel ons 'n nuwe masjienleermodel, genaamd Multi-Feature Relatedness (MFR), voor om die voorwaardelike verwantskap tussen 'n paar gene akkuraat te meet deur uitdrukkingsooreenkomste met voorafkennisgebaseerde ooreenkomste in 'n assesseringskriterium in te sluit. MFR word gebruik om geen-geen-interaksies te voorspel wat uit die COXPRESdb-, KEGG-, HPRD- en TRRUST-databasisse onttrek word deur die 10-voudige kruisvalidering en toetsverifikasie, en om geen-geen-interaksies te identifiseer wat van die GeneFriends- en DIP-databasisse versamel is vir verdere verifikasie. Die resultate toon dat MFR die hoogste area onder kurwe (AUC) waardes bereik vir die identifisering van geen-geen interaksies in die ontwikkeling, toets en DIP datastelle. Spesifiek, dit verkry 'n verbetering van 1.1% gemiddeld van akkuraatheid vir die opsporing van geenpare met beide hoë uitdrukkingsooreenkomste en hoë voorafkennisgebaseerde ooreenkomste in alle datastelle, in vergelyking met ander lineêre modelle en mede-uitdrukking analise metodes. Met betrekking tot kankergeennetwerke konstruksie en geenfunksie voorspelling, verkry MFR ook die resultate met meer biologiese betekenisse en hoër gemiddelde voorspelling akkuraatheid, as ander vergelykende modelle en metodes. 'n Webwerf van die MFR-model en relevante datastelle kan verkry word vanaf http://bmbl.sdstate.edu/MFR.

Verklaring van belangebotsing

Die skrywers verklaar geen mededingende belange nie.

Syfers

Werkvloei van MFR-model. Vyf…

Werkvloei van MFR-model. Vyf stappe is in die werkvloei, insluitend ( ek...

Struktuur van die MFR-model.…

Struktuur van die MFR-model. Die model is gebaseer op SVM en gebruik ...

( A ) ROC's van nege modelle of metodes om geen-geen-interaksies te identifiseer ...

ROC's van nege modelle of metodes vir die identifisering van geen-geen-interaksies in die (...

Metaboliese weë word voorspel om ...

Daar word voorspel dat metaboliese weë direk beïnvloed word deur verhoogde glutamien en glutamaat ...

Aantal metaboliese weë voorspel ...

Aantal metaboliese weë wat voorspel word om direk beïnvloed te word deur verhoogde glutamien en ...

Persentasies van T0- en T1-ooreenstemmende...

Persentasies van L0- en L1-ooreenstemmende geselekteerde gene in die nege KEGG-metaboliese geen ...


Resultate en bespreking

Die integrasie van nuwe gene in GGI-netwerke is 'n geleidelike evolusionêre proses

'n Tegniese uitdaging om die rol van nuwe gene in die evolusie van geennetwerke te ondersoek, is om betroubare GGI-netwerke in hul globale verspreiding op te spoor. Met inagneming van huidige tegniese groei en evaluering van metodes en data wat GGI openbaar, het ons drie verskillende tipes data gekonstrueer en ontleed in 'n poging om robuuste GGI-netwerke te identifiseer (sien Metodes): die menslike proteïen-proteïen-interaksies (hPPI's), die menslike geen-samewerking. uitdrukking (hGC) netwerke, en die muis proteïen-proteïen interaksies (mPPIs).

Die tweede lyn data wat ons gebruik het om die korrelasie tussen nuwe geen-evolusie, soos ons voorheen omvattend ondersoek het, en die evolusie van GGI-netwerke soos aan die lig gebring deur bogenoemde drie verskillende databasisse te ondersoek, is die beste opgeloste vertebrate divergensie tye, ondersteun deur paleontologie, organisme-evolusionêre analise, en molekulêre evolusie, en mees betroubaar opgelos filogenetiese boom van gewerwelde diere oor dekades van uitgebreide studies oor gewerwelde spesies [2, 13]. Hierdie data het uitstekende skattings verskaf vir die ouderdomme van nuwe gene, wat bestaan ​​uit dié wat deur DNA-gebaseerde duplisering, RNA-gebaseerde duplisering en De novo ontstaan ​​tydens die evolusie van gewerwelde diere in die geslag na mense en muise, soos ons voorheen geïdentifiseer het in vergelykende genoomvergelyking.

Eerstens het ons die korrelasie tussen die ouderdomme van gene en hul topologiese kenmerke ondersoek in die GGI-netwerke wat beskryf word in die vier databasisse wat ons gekonstrueer het. Merkwaardig genoeg het al hierdie tipe GGI-netwerkdata hoogs soortgelyke koerse en patrone van nuwe gene wat in die netwerke geïntegreer is, geopenbaar. Daarom sal ons fokus op die mens vir aanbieding en bespreking van die resultate terwyl ons die relevante bevindinge in die muisgenoom bekendstel.

Ons het eers die menslike proteïen-proteïen-interaksies (hPPI's) netwerk ontleed deur 'n integrerende eksperimentele proteïen-interaksie-datastel [14] te ontgin en te wysig (met die drempel van vertroue telling van 0.68, sien Metodes). Die gerekonstrueerde menslike PPI-netwerk het 'n ongeveer skaalvrye topologiese struktuur [15] geopenbaar met 'n graadeksponent van 1.49 wat 'n kragwetverspreiding van konnektiwiteit (of grade) definieer (Bykomende lêer 1: Figuur S1 en Addisionele lêer 2: Tabel S1) . Ons het toe die geen (gelykstaande aan sy gekodeerde proteïen) ouderdom van elke nodus in die PPI-netwerk gemerk, bepaal deur 'n ouderdomsindeks vir die gene wat in elke tydperk van evolusie ontstaan ​​het langs die goed opgelosde filogenie van gewerwelde diere (Fig. 1a en b) ), wat uit 'n wyd gebruikte databasis verkry is [2, 13] (Sien Metodes). Analise op die bogenoemde PPI-netwerk het 'n beduidende en sterk korrelasie aangedui (polinomiale regressietoets, R 2 = 0,8834, Fig. 2a) tussen die ouderdomme van gene en hul konnektiwiteit (of graad, dit wil sê die aantal interaktiewe vennote) in die PPI-netwerk, wat 'n geleidelike evolusionêre proses openbaar waarin nuwe gene in die PPI-netwerk geïntegreer word, wat weerklink het. die evolusionêre prosedure van nuwe geenstrukture [16]. Hierdie bevinding dui daarop dat daar regdeur gewerwelde evolusie 'n nie-robuuste en vinnige proses was, onverwags deur konvensionele denke, waarin nuwe gene in die GGI-netwerke geïntegreer is. Tydens hierdie proses van 370 miljoen jaar (MY, tak 1-12, Fig. 1a) wat ons ondersoek het, het ons waargeneem dat 5 710 nuwe gene in die GGI-netwerke geïntegreer is. Verder het hierdie proses 'n evolusionêr beduidende patroon getoon: die nuwe gene het op 'n jong ouderdom begin om in netwerke geïntegreer te word om nuwe en minder gekoppelde takke te vorm, maar met die verloop van evolusionêre tyd, namate gene ouer word, het hulle meer interaksie verkry. skakels.

Skematiese diagram om die netwerkintegrasie van nuwe gene wat van verskeie filogenetiese vertakkings na die mens ontstaan, aan te toon. a Filogenetiese boom van gewerwelde diere na die mens tesame met takke en divergensie tye in miljoene jare vanaf hede (myr). Die aantal gene wat by elke filogenetiese vertakking ontstaan, is ook gelys. b 'n Subgrafiek van menslike PPI-netwerk om die inkorporering van nuwe gene uit verskillende oorsprongstye aan te toon

GGI netwerk topologiese patrone van menslike gene wat verband hou met hul divergensie tye. a Verspreiding van PPI-netwerkkonnektiwiteit (aantal interaksies) vir gene van verskillende filogenetiese vertakkings. b Verspreiding van gene van verskillende filogenetiese vertakkings van 'n ander PPI-netwerkverbinding gerekonstrueer met 'n strenger drempel. c Verspreiding van gemiddelde tussenwees (log10-gebaseer) binne elke geengroep in die PPI-netwerk. d Verspreiding van GC (geenko-uitdrukking) netwerkverbinding vir gene van verskillende filogenetiese vertakkings. Die foutstawe wys die standaardfout van die gemiddelde vir elke groep gene, en die strepieslyn dui die polinoomregressiekorrelasie tussen netwerksentraliteite (dit wil sê Konnektiwiteit, Tussenheid) van gene en hul divergensietye aan. Getalle naby elke datapunt is filogenetiese takopdragte vir elke groep gene. Die divergensietyd van elke geenouderdomsgroep is as die middeltydpunt vir elke tak toegeken en die oudste tak (tak 0) word arbitrêr as 500 myr gestel

Om moontlike vooroordeel te vermy wat deur die gekose vertrouenstellingdrempel vir die rekonstruksie van menslike PPI-netwerk geskep word, het ons 'n nuwe menslike PPI-netwerk herontleed deur 'n strenger afsnypunt te gebruik (Met 'n minimum vertrouenstelling van 0.77, sien Metodes en Addisionele lêer 2: Tabel S1) en ons het dieselfde evolusionêre patroon gevind (polinomiale regressietoets, R 2 = 0,7909, Fig. 2b). Die konnektiwiteitsgebaseerde gevolgtrekking word verder ondersteun deur die ontleding van 'n ander statistiese parameter wat netwerksentraliteite van gene beskryf, dit wil sê, Betweenness, wat die belangrikheid gemeet het van een nodus wat al die ander nodusse verbind (Polinomiale regressietoets, R 2 = 0,9021, Fig. 2c). Gebaseer op menslike PPI-netwerk gerekonstrueer uit 'n ander eksperimentele handmatige kurasie-hulpbron (Sien Metodes en Addisionele lêer 3: Figuur S2A), dit wil sê, Human Protein Reference Database (HPRD) [17], is dieselfde gevolgtrekking gemaak soos hierbo beskryf (Bykomende lêer 3: Figuur S2B).

Vir 'n meer streng ontleding van onafhanklike GGI-datatipes, het ons 'n ander menslike GGI-netwerk ontleed waarna verwys word as geen-ko-uitdrukking (hGC)-netwerk (Sien Metodes en Addisionele lêer 3: Figuur S2C en D), wat die korrelasies van geenuitdrukking-profilering weerspieël in 'n reeks menslike weefsels [18]. Die kartering van die topologiese posisies van nuwe gene in mense in die GC-netwerk het 'n soortgelyke korrelasie tussen die ouderdomme en konnektiwiteit van gene aan die lig gebring (Polinomiale regressietoets, R 2 = 0.6527, Fig. 2d), wat dieselfde evolusionêre neiging openbaar van nuwe gene wat begin met lae konnektiwiteit en ontwikkel om hoogs gekoppelde spilpunte te wees. Daarbenewens het ons ook die evolusionêre patrone van menslike PPI-netwerk ondersoek op grond van 'n ander geen-ouderdom datastel [19] (Bykomende lêer 4: Figuur S3A), wat geen ouderdomme in menslike genoom geskat het gebaseer op onafhanklike en lang veraf filogenetiese verspreiding. 'n Dieselfde evolusionêre patroon van nuwe gene is getoon (Bykomende lêer 4: Figuur S3B), en dit is verder gedemonstreer dat ons gevolgtrekking onafhanklik was van geen-ouderdomdateringsdatastelle. Dus, verskillende GGI-data, dit wil sê PPI- en GC-data, en verskillende geen-ouderdomdateringsdata, het almal dieselfde gevolgtrekkings ondersteun soos hierbo gerapporteer.

Verder het ons 'n soortgelyke protokol toegepas op die ontleding van die gerekonstrueerde muis GGI-netwerke vanaf muis PPI-data (mPPI's), deur die meeste van die beskikbare aanlyn eksperimentele interaksie-datastelle te integreer (Bykomende lêer 5: Tabel S2). Die integrerende analise van muis geen ouderdom inligting [13] (Addisionele lêer 6: Figuur S4A) en PPI topologiese data (Addisionele lêer 6: Figuur S4B) lei tot dieselfde gevolgtrekking (Polinoom regressie toets, R 2 = 0,6232, Addisionele lêer 6: Figuur S4C) bepaal deur die menslike GGI-netwerkontledings. Hierdie data dui daarop dat 'n geleidelike integrasie van nuwe gene in die GGI-netwerke 'n evolusionêre proses is wat in soogdierlyne van primate en knaagdiere gedeel word.

Gegewe die waarneming dat die verkryging van genetiese interaksies 'n tydafhanklike geleidelike prosedure is, het ons verder ondersoek ingestel of hierdie proses teen 'n konstante tempo plaasgevind het. Ons resultaat het getoon dat nuwe gene skakelvennote teen 'n hoë tempo (interaksies verkry per miljoen jaar) in die aanvanklike stadium van hul ontstaan ​​kon vestig. Daarna het die tempo dramaties gedaal, en uiteindelik plato gemaak (Fig. 3a en b), wat daarop dui dat die verkryging van biologiese rolle van nuwe gene 'n vinnige proses is tydens vroeë evolusie, maar soos die gene ouer word, word die funksiespektrum gediversifiseer op 'n baie laer koers. Met die voordeel van die hoë dekking van die menslike PPI-data (Bykomende lêer 2: Tabel S1), het ons daarna gefokus op die ontleding van beide topologiese en funksionele evolusiepatrone van nuwe gene gebaseer op ons eerste gekonstrueerde menslike PPI-netwerk.

Gemiddelde tempo van ontwikkelende skakelvennote (interaksies / myr) vir gene van verskillende filogenetiese vertakkings gebaseer op die menslike PPI-netwerk (a) en muis PPI netwerk (b). Die strepieslyn dui die kragregressiekorrelasie aan tussen evolusietempo's van interaksies vir gene en hul divergensietye. Getalle naby elke datapunt is filogenetiese takopdragte vir elke groep gene. Die divergensietyd van elke geenouderdomsgroep word as die middeltydpunt vir elke tak toegeken. En die oudste tak (tak 0) word arbitrêr op 500 myr gestel

Om die integrasieproses beter te visualiseer, het ons die gene in die soogdier-GGI-netwerke gekarteer op grond van hul konnektiwiteit, waar hoogs gekoppelde gene die kern van die menslike PPI-netwerk uitgemaak het en gene met lae konnektiwiteit op die netwerkperiferie geleë was (Fig. 4). , wat 'n duidelike korrelasie tussen geenouderdom en ligging in die soogdier-GGI-netwerke aan die lig gebring het. Verbasend genoeg is gevind dat 'n klein fraksie van jong gene in die netwerkkern ontwikkel het, terwyl die meerderheid gene wat onlangs ontstaan ​​het, veral primaatspesifieke gene (tak 8-12, Fig. 1a), in die buitestreke van die netwerk geleë is. . Soos die ouderdomme van gene toeneem, is hulle geneig om meer gereeld in die digter gekoppelde kern van netwerk te verskyn.

PPI netwerk liggings van gene in verhouding tot hul divergensie tye. Die netwerkliggings van gene word in vyf afsonderlike lae geklassifiseer volgens die rangorde van graadsentraliteite. Spesifiek, gene wat die boonste 20 % van graadsentraliteite het, word aan die netwerkkern (gene met baie hoë konnektiwiteit) en diegene met die onderste 20 % van graadsentraliteite in die netwerkperiferie (gene met baie lae konnektiwiteit) toegewys. Dieselfde reël word toegepas vir die toewysing van die middelste drie netwerklae. Die x-as toon die filogenetiese vertakkings vir elke groep gene, en y-as dui die kategorisering van gene volgens bogenoemde spesifikasies aan, en z-as vertoon die persentasie gene binne elke ouderdomsgroep geleë in die ooreenstemmende kategorieë

Nuwe gene verkry geleidelik pleiotropiese en noodsaaklike funksie rolle

Aangesien die meeste biologiese kenmerke voortspruit uit die komplekse interaksies tussen sel se talle komponente [4], kan die integrasie van nuwe gene in die GGI-netwerk die opkoms van nuwe funksies vir hierdie nuwe gene aandui. Verder kan die geleidelike evolusie van meer interaksies in GGI-netwerke die proses van nuwe gene wat pleiotropiese funksies verkry, aandui. Hierdie hipotese kan indirek bevestig word deur die sterk korrelasie van konnektiwiteit van gene en hul divergensie tye (Fig. 2a) en 'n sterk lineêre korrelasie tussen die konnektiwiteit van gene en hul uitdrukkingsbreedtes op beide RNA uitdrukkingsvlakke (Pearson lineêre korrelasie toets, R 2 = 0,9384, Fig. 5a) en proteïenuitdrukkingsvlak (Pearson lineêre korrelasietoets, R 2 = 0,9457, Fig. 5b). Dit kan dus daarop dui dat nuwe gene geleidelik breër uitdrukkingspatrone ontwikkel en dus pleiotropiese funksies verkry, aangesien hulle geleidelik meer skakelvennote ontwikkel (Fig. 2a), en gene met meer skakelvennote neig om breër uitdrukkingspatrone te hê (Fig. 5a en b). .

Uitdrukkingsbreedtes van gene met betrekking tot hul PPI-netwerkverbinding en divergensietye. a Gemiddelde aantal weefsels met uitdrukking van gene met verskeie PPI-netwerkverbindings gebaseer op RNA-volgorde-uitdrukkingsvlakdata. b Gemiddelde aantal weefsels met uitdrukking van gene met verskeie PPI-netwerkverbindings gebaseer op proteïenuitdrukkingvlakdata. Die foutstawe wys die standaardfout van die gemiddelde vir elke groep gene, en die soliede lyn dui die lineêre regressiekorrelasie tussen netwerkverbinding van gene en hul uitdrukkingsbreedtes aan. c Gemiddelde aantal weefsels met uitdrukking van gene van verskillende filogenetiese vertakkings gebaseer op RNA-volgorde uitdrukking vlak data. d Gemiddelde aantal weefsels met uitdrukking van gene van verskillende filogenetiese vertakkings gebaseer op proteïen uitdrukking vlak data. Die strepieslyn dui die polinoomregressiekorrelasie tussen divergensietye van gene en hul uitdrukkingsbreedtes aan. Takopdrag is naby elke datapunt gemerk. Die ouderdomstoewysing vir elke tak volg Fig. 1

Om hierdie hipotese op 'n direkte wyse te verifieer, het ons die weefseluitdrukkingspatrone vir gene langs verskillende filogenetiese takke verder bereken en vergelyk. Ons resultate het getoon dat gene geleidelik breër weefseluitdrukkingspatrone op mRNA-uitdrukkingsvlak ontwikkel het vanaf RNA-volgorde-data [20] (polinomiale regressiekorrelasietoets, R 2 = 0,96538, Fig. 5c), wat die verkryging van sterker pleiotropiese funksies aandui. Mens kan die rol van mRNA as die uitvoerder van biologiese funksies verskil, ons analise op proteïen-uitdrukking-profieldata [20] het dieselfde gevolgtrekking gemaak (Polinomiale regressietoets, R 2 = 80038, Fig. 5d). In ooreenstemming met die netwerktopologiese integrasieproses van nuwe gene (Figuur 2a en 4), het ons resultate 'n geleidelike proses getoon vir nuwe gene om pleiotropiese funksierolle te ontwikkel, weerspieël deur die weefseluitdrukkingspatrone. Hierdie bevindinge dui ook op funksionele beperkings op nuwe oorsprong gene [21], aangesien dit gewoonlik getoon word met baie smal en gespesifiseerde uitdrukkingspatrone [22], soos testis uitdrukking [23].

Een kritieke kenmerk van skaalvrye netwerke is die bestaan ​​van spilpuntnodusse, of hoogs gekoppelde nodusse [24]. Hub nodusse is noodsaaklike komponente in verskeie netwerke [25], en word onderwerp aan gekonsentreerde evolusionêre kragte wat die netwerkstrukture vorm om noodsaaklike funksies tot gevolg te hê [3, 26]. Om die bydrae van nuwe gene in die hervorming van die GGI-netwerk te ondersoek, het ons die persentasie verspreidings van spilpuntgene (met interaksiegrade nie kleiner as 6) ondersoek wat oor verskillende filogenetiese vertakkings in menslike PPI-netwerk ontstaan. Die data het 'n sterk korrelasie tussen geenouderdoms en breukdele van spilpuntgene getoon (polinomiale regressiekorrelasietoets, R 2 = 0,8016, Fig. 6a). Ons het veral gevind dat 'n groot proporsie spilpuntgene (16 %) in die mees onlangs ontstaande mensspesifieke tak (Tak 12, Fig. 1a) ontstaan ​​het, en hierdie getal het geleidelik toegeneem met geenouderdoms, en bereik 'n hoogtepunt van ongeveer 53 % vir die vroegste oorsprong gene (Tak 0, gene wat ontstaan ​​voor die verdeling van gewerwelde diere, Fig. 1a). Hierdie verskynsel dui op die geleidelike proses van nuwe gene wat ontwikkel om netwerkspilpunte te wees, en die oorspronklike geeninteraksienetwerke te hervorm.

Fraksie van topologies en funksioneel noodsaaklike gene vir geengroepe van verskillende divergensie tye. a Fraksie van spilpuntgene in PPI-netwerk binne geengroepe van verskillende divergensietye. Hub-gene word gedefinieer as gene met netwerkkonnektiwiteit groter as mediaanvlak (Interaksiegraad > = 6). Takopdrag is naby elke datapunt gemerk. Die ouderdomstoewysing vir elke tak volg Fig. 1. Die strepieslyn dui die polinoomregressiekorrelasie aan tussen divergensietye van gene en die breuke van spilpuntgene. b Fraksie van noodsaaklike gene met betrekking tot hul PPI-netwerkverbinding. Die soliede lyn dui die lineêre regressiekorrelasie aan tussen PPI-netwerkkonnektiwiteit van gene en die fraksies van noodsaaklike gene binne elke geengroep. c Fraksie van noodsaaklike gene in PPI-netwerk binne geengroepe vanaf verskillende divergensietye. Die strepieslyn dui die polinoom regressiekorrelasie aan tussen divergensie tye van gene en die breuke van noodsaaklike gene

Daar is gerapporteer dat daar 'n verband is tussen geen topologiese kenmerke en biologiese funksies [26, 27]. Meer spesifiek, gene met hoë netwerkverbindings is geneig om funksioneel noodsaaklik te wees [26] (Fig. 6b). Gegewe die bogenoemde waarneming dat nuwe gene geleidelik baie interaksies ontwikkel om netwerkhubs te word, is dit redelik om af te lei dat die verkryging van funksionele noodsaaklikheid vir nuwe gene in menslike genome 'n stapsgewyse evolusionêre proses kan volg. Deur die noukeurige versameling en ontleding van bronne van menslike geenessensiteitdata (Bykomende lêer 7: Tabel S3, sien Metodes), het ons die verband tussen geenessensaliteit en ontstaanstyd ondersoek (Fig. 6c). Dit was onverwags dat 'n proporsie van nuut ontstaande gene, veral gene wat na tak 6 (ongeveer 80 miljoen jaar gelede) ontstaan ​​het, noodsaaklike funksies ontwikkel het, hoewel meer gene wat uit ouer tydperke ontstaan ​​funksioneel noodsaaklik is, en die fraksie van noodsaaklike gene vermeerder met die verloop van evolusionêre tyd. Saam met bogenoemde waarnemings van die netwerktopologie, het ons analise 'n duidelike neiging getoon dat menslike nuwe gene geleidelik ontwikkel om topologies sentraal en funksioneel noodsaaklik te wees, en die vermoë verkry om die GGI-netwerke te hervorm.

Daar word gevind dat mensspesifieke spilpuntgene potensiële breinontwikkelingsfunksies het

Die merkwaardige ontwikkeling van die brein in primaat-afkomsspesies, veral by mense, is 'n deurslaggewende kenmerk wat hulle van ander organismes onderskei [28]. Onlangse studies het belangrike rolle van nuwe gene in die evolusie van belangrike menslike breinverwante eienskappe gerapporteer. Daar is byvoorbeeld opgespoor dat 'n oormaat jong gene (dit is primaatspesifiek) in die menslike genoom gewerf word in vroeë menslike breinontwikkeling [2] potensiële versterkende funksies van breinneoronverbinding deur SRGAP2 [29, 30] die vel- en breinfunksies deur CHRFAM7A [31, 32]. Ons het verder die korrelasie van die jong gene in die mens ondersoek wat bewyse het vir funksionering in breinontwikkeling met hul topologiese strukture in die GGI-netwerke.

Deur integrerende ontleding van die breinuitdrukkingspatroondata van hierdie jong gene [2] en hul netwerktopologiese kenmerke gebaseer op menslike PPI-netwerkdata, het ons geen beduidende vooroordeel gevind op die persentasies spilpuntgene (met minimum interaksiegrade van 6) tussen drie verskillende breinuitdrukking kategorieë van jong gene (Fisher se presiese toets, Fetus vs. Volwasse: P waarde = 0,435, Volwasse vs. Onpartydig: P waarde = 0,3323, Fig. 7). Met ander woorde, jong gene met diverse netwerkverbindings dra ewe veel by tydens beide vroeë en laat stadiums van menslike breinontwikkeling.

Vergelyking van PPI-netwerktopologieë vir jong gene met diverse breinuitdrukkingspatrone. Hierdie figuur toon die persentasie verspreiding van jong hub-gene en jong nie-hub-gene binne verskillende kategorieë van breinuitdrukkingspatrone. Die statistiese beduidendheidsverskil is met behulp van Fisher se presiese toets bereken

Meer intrigerend is dat vier menslike afkoms-spesifieke (die gene wat slegs in die menslike geslag ontstaan ​​het sedert sy divergensie en dus slegs in die menslike genoom bestaan) hub-gene met duidelike uitdrukkingsgetuienis in menslike brein gevind is (Bykomende lêer 8: Tabel S4). Aangesien daar geen direkte leidraad in literatuur was oor hul funksies in breinontwikkeling van hierdie vier gene nie, het ons 'n 'guilt by connection'-studie uitgevoer om die gerapporteerde bewyse vir die rolle in breinfunksie van hul direkte skakelvennote te ondersoek deur handmatige samestelling van vroeë studies (Bykomende lêer 9: Tabel S5). Daar is byvoorbeeld berig dat CCT4, 'n subeenheid van chaperonien wat TCP1 bevat, betrokke is by die ontwikkeling van 'n breinwanfunksieversteuring - Alzheimer se siekte [33], en dit is ook getoon dat CCT4 (gene id: 10575) 'n direkte interaksievennoot van een van jong hub gene - FAM86B2 (geen id: 653333, Fig. 8). Gesamentlik het ons gevind dat 62,5 % (10 van 16) en 53,3 % (8 van 15) van die eerste-laag-skakelvennote vir twee uit die vier middelpuntgene, wat fetusbreinbevooroordeeld was, bevestig is om betrokke te wees by breinontwikkeling (Fig. 8 en Addisionele lêer 9: Tabel S5). Terwyl vir die ander twee onbevooroordeelde hub-gene, 24.4% (10 uit 41) en 50% (3 uit 6) in vorige literatuur bewys is om in breinontwikkeling te funksioneer (Fig. 8 en Addisionele lêer 9: Tabel S5). Aangesien gene met soortgelyke funksies geneig is om binne dieselfde netwerkgroep [34] te wees, dui hierdie bewyse daarop dat hierdie vier menslike afkoms-spesifieke spilpuntgene ook met gepaardgaande funksies in menslike breinontwikkeling kan wees.

Menslike geslagspesifieke spilpuntgene en hul eerstevlakskakelvennote. Hierdie figuur illustreer twee fetus-breinbevooroordeelde menslike afstamming-spesifieke spilpuntgene (bo) en twee onbevooroordeelde menslike afstammingspesifieke spilpuntgene (onder) en hul direkte interaksievennote van die menslike PPI-netwerk. Gene wat bevooroordeeld is in fetusbrein (blou), volwasse brein (rooi) en onbevooroordeeld (oranje) tussen fetus en volwasse brein is gemerk. Gene (in vierkantige sirkels) wat in die groen gestippelde reghoek uiteengesit is, is in vorige literatuur gerapporteer om sekere breinontwikkelingverwante funksies te hê

Veelvuldige meganismes dryf die evolusie van menslike GGI-netwerk aan

Die belangrikste eienskap van komplekse netwerke, insluitend biologiese netwerke, is die krag-wet-graadverspreiding [24] (Bykomende lêer 1: Figuur S1), of sogenaamde skaalvrye kenmerk. Na aanleiding van die klassieke Barabasi-Albert (BA) model [35], is hierdie voorkeuraanhegtingsmodel ook toegepas om rekening te hou met die skaalvrye kenmerk van biologiese netwerke [36], wat beweer dat nuwe oorsprong gene geneig is om met goed-gekoppelde nodusse te interaksie. . Die grootste uitdaging vir hierdie model is egter die kenmerkende kenmerke van biologiese netwerke - duplisering as die dominante bron van netwerkevolusie [37]. Daarom is 'n ander biologies gemotiveerde model genoem duplisering-divergensie model voorgestel [38, 39], wat verantwoordelik is vir beide die geen duplisering en die daaropvolgende verlies van geërfde interaksies. Die verkryging van nuwe skakels, behalwe oorgeërfde interaksies, is egter nie in hierdie model oorweeg nie.

Om hierdie kwessie vanuit 'n evolusionêre aspek aan te spreek, het ons primaatspesifieke gene (tak 8-12 soos in Fig. 1a getoon) gedefinieer as jong gene, en gene wat voor hierdie tydperk ontstaan ​​het as ou gene. Onder hierdie jong gene is 95 % van hulle geskep uit duplisering-gebaseerde (óf van DNA-vlak duplisering of RNA-vlak duplisering) meganismes (Bykomende lêer 10: Figuur S5), wat in lyn is met die klassieke argument dat duplisering die dominante bron van evolusie [37]. Gevolglik het hierdie jong gene gemiddeld 27 % skakelmaats van hul ouergene geërf (Fig. 9a), wat statisties groter is (18 keer) as dié van ewekansige geenpare (Fig. 9b). Hierdie bevinding het die oorerwing van interaksievennote van nuwe gene van hul ouerlike kopieë aangedui [5]. Ons het verder die patroon vir jong gene ondersoek om nuwe skakelvennote te vestig, deur daardie gedeelde interaksies met hul ouerlike gene te verwyder. Anders as die patroon in giste [10], het ons gevind dat die jong gene geneig is om as nuwe skakelpatrone die gene met hoë topologiese sentraliteite te verkies (Chi-kwadraattoetse, Graad: P waarde <2.2e-16 Betweenness: P waarde <2.2e-16, Fig. 10a) en ouer ouderdom (Fisher se presiese toets, P waarde = 0,001247, Fig. 10b), wat 'n ryk-word-ryker proses [35] verlig vir nuwe gene om nuwe skakels te ontwikkel. Ons resultate dui dus op die biologiese relevansie van duplisering-divergensiemodel, en toon ook die voorkeuraanhegting om nuwe skakels vir nuwe oorsprong-gene te verkry. Hierdie bevinding het empiriese data en nuwe perspektief verskaf vir die ontwikkeling van nuwe evolusionêre modelle van biologiese netwerke in die toekoms.

Oorerwing van skakelvennote vir duplisering-gebaseerde jong gene (primaatspesifieke gene). a Die oorerwingstatus vir 'regte' duplikaat geenpare in die konteks van PPI-netwerke. b Die oorerwingstatus vir ewekansige geenpare in die konteks van PPI-netwerke. Die nommers binne die sirkels toon die gemiddelde PPI-netwerkverbinding vir ouergene of kindergene, en die persentasies dui die breukdele van gemeenskaplike skakelmaats aan wat deur ouergene en kindergene gedeel word

Voorkeuraanhegting aan nuwe skakelmaats van jong gene (primaatspesifieke gene) nadat die gedeelde interaksies met hul ouerlike gene verwyder is. a Voorkeur op netwerksentraliteite (graad en tussenwees) vir jong gene se nuwe interaksievennote. Die sentraliteite word gerangskik en in drie vlakke verdeel – hoog, matig en laag, elk met dieselfde aantal gene. b Jong gene se voorkeur vir die divergensie tye van nuwe skakelmaats. Die nommer voor die skuinslyn dui die 'regte' aantal skakelvennote aan, terwyl die getal daarna van ewekansige verwagting is

In hierdie huidige studie het ons 'n geleidelike integrasieproses van nuwe gene in voorvaderlike GGI-netwerke gerapporteer (Fig. 2). 'n Interessante vraag om te vra is watter meganismes onderliggend is aan die evolusie van hierdie nuwe geen-geïntegreerde netwerke, of waarom nuwe gene oor die algemeen minder sentraal in hierdie GGI-netwerk is. Op grond van hierdie data het ons eerstens voorgestel dat die nuwe genegedrewe netwerkevolusie by mense 'n mutasiebeperkte proses is as gevolg van klein effektiewe bevolkingsgrootte [40]: aangesien dit 'n tydafhanklike proses is vir nuwe gene om aangepas te word om die genoom- en GGI-netwerke deur nuwe skakelvennote te vestig.

Daarbenewens is gevind dat nuwe oorsprong-gene veral korter in proteïenlengte is (Addisionele lêer 11: Figuur S6A) [10], en kon gevolglik slegs 'n beperkte interaksie-oppervlak vir potensiële interaksievennote verskaf [41]. In die siening van evolusie, ontwikkel gene geleidelik langer proteïenlengte om meer interaksies te verkry, soos hulle verouder, en speel inderdaad 'n rol as een nie-dominante meganistiese faktor. Ons het egter gevind dat die korter proteïenlengte nie 'n belangrike faktor was om die skakels te bepaal nie, aangesien ons dieselfde patrone vir die datastelle van gekontroleerde proteïenlengtes waargeneem het (Bykomende lêer 11: Figuur S6B). Boonop is gevind dat nuwe gene in minder weefsels (Fig. 5c en d) en laer uitdrukkingsvlakke uitgedruk word (Bykomende lêer 11: Figuur S6C), terwyl gene met breër uitdrukkingspatrone (Fig. 5a en b) en hoër uitdrukkingsvlakke (Bykomende lêer 11: Figuur S6D) is geneig om meer interaksies te hê. Meganies kon die beperkings op beide die uitdrukkingsbreedte (Fig. 5c en d) en uitdrukkingsvlakke (Addisionele lêer 11: Figuur S6C) van nuwe ontstaande gene hulle slegs toelaat om te verbind met gene wat in dieselfde weefsels uitgedruk word met beperkte bindingspasie, wat verhinder hulle verder om hoogs gekoppelde nodusse van die netwerk te word. Nadat ons egter volgens uitdrukkingsvlak en -breedte genormaliseer is, het ons gevind dat gegewe dieselfde uitdrukkingsvlakke en -breedte, die ou gene steeds aansienlik meer skakels ontwikkel het as jong gene (Bykomende lêer 11: Figuur S6E en F). Ook, gebaseer op voorafgaande analise (Fig. 10), bied die hoogs gekoppelde ouer gene die nuwe gene met meer keuses om nuwe pad(e) na voordelige funksies te ontwikkel. Daarom het ons tot die gevolgtrekking gekom dat, benewens die meganistiese elemente soos proteïenlengtes en uitdrukkingsvlakke wat 'n beperkte meganistiese rol kan speel, die evolusionêre tyd met die ryk-word-ryker voorkeur van nuwe skakelvennote aansienlik bygedra het tot die verskyning van die waargenome evolusie patrone van GGI-netwerke wat deur evolusionêre kragte van natuurlike seleksie en mutasie beïnvloed word.

Ten spyte van die algemene beperking op nuwe gene om skakelvennote te verkry (Fig. 2), het ons steeds gevind dat 'n fraksie van nuwe gene, veral jong gene (primaatspesifieke gene, tak 8-12, Fig. 1a), vinnig interaksies kan ontwikkel en druk in netwerkkern (Fig. 4). Dit is aanloklik om te vra watter 'fiksheidseffek' [42] die vinnige verkryging van skakelvennote vir hierdie nuwe gene fasiliteer. Om hierdie probleem aan te spreek, het ons die proteïenvolgorde-kenmerke van daardie jong spilpuntgene (met minimum interaksiegrade van 6) en jong nie-hubgene ondersoek. Ten spyte van jong hub-gene wat effens korter is in proteïenlengte, is gevind dat hulle groter proporsies van lae-kompleksiteit en intrinsieke wanordelike streke het as jong nie-hub-gene (Bykomende lêer 12: Tabel S6). Lae kompleksiteit en strukturele versteuringstreke skep meer buigsaamheid en aanpasbaarheid om verskillende vennote te bind [41, 43]. Daarom gee hierdie voordelige intrinsieke kenmerke hierdie gene 'n hoë affiniteit om vinnig nuwe interaksies te verkry, en word dus netwerkhubs.


Materiaal en metodes

Die stamme, genotipes en geenuitdrukkingmetings was dié van ref. 7. Ons het aangrensende, hoogs-gekorreleerde merkers saamgevoeg om 'n totaal van 526 merkers (25) te verkry. Vir ons analise het ons uitdrukkingsdata gemiddeld van 0 en variansie 1 genormaliseer. Vir stadiums 1 en 2 van ons algoritme het ons slegs data van die 1 733 gene gebruik wat beduidende variasie (SD >0.25) in hul uitdrukkingsvlak getoon het. GO kategorieë van www.yeastgenome.org met >5 gene is gebruik vir die evaluering van biologiese funksie.Vermeende transkripsiefaktor-bindingsplekke is verkry vanaf http://fraenkel.mit.edu/yeast_map_2006.

GOLPH Algoritme.

GOLPH is 'n multi-stap prosedure vir die identifisering van multilokus koppeling en pare van interaksie lokusse. Ons beskryf kortliks die algoritme, en stel gedetailleerde verduideliking uit na SI teks. Twee sleutelkenmerke in GOLPH stel die vermoë in staat om veelvuldige lokusskakels te identifiseer. Eerstens laat GOLPH die identifikasie van alleelspesifieke interaksies toe waarin sekondêre QTL spesifiek is vir die alleel by die primêre lokus. Dit is in teenstelling met 'n sekondêre QTL wat bydra, ongeag die alleel by die primêre lokus. Ons model kan as uitdrukking geskryf word y ∼ basislyn + aX + αdeur + (1 − α)cZ, α = 1 vir X = BY en α = 0 vir X = RM, waar X is die primêre lokus, en Y en Z is 2 sekondêre lokusse.

Tweedens is die gebruik van modulariteit: in teenstelling met die soek na interaksie-QTL's by elke geen onafhanklik, groepeer ons gene in modules gebaseer op die brandpunte wat vir elkeen geïdentifiseer is. Hierdie stap verhoog die aantal koppelings wat opgespoor word aansienlik en verminder metingsartefakte en geraas.

Stadium 1.

Die eerste fase van ons analise pas klassieke genetiese analise (2, 28) toe om te kyk vir koppeling van geenuitdrukkingseienskappe aan 'n primêre lokus. Vir elke geen en merker gebruik ons ​​'n Welch's t toetsstatistiek (29) en permutasietoetsing met 'n streng afsnypunt om die betekenisvolheid van die koppeling te evalueer, met afsnypunte van 0.05 vir die t toets se P waarde en 10 −5 vir die permutasietoetsing. Omdat gene wat aan een merker gekoppel is, waarskynlik ook koppelingseine in naburige merkers sal hê, voeg ons klein pieke saam met proksimale groter pieke in chromosomale brandpunte. Na die samesmelting van pieke het ons 44 lokus-hotspots geïdentifiseer wat met ten minste 5 gene vir stadium 2 skakel.

Stadium 2.

Vir elk van die 44 modules wat in stadium 1 geïdentifiseer is en elke geen wat hiermee skakel, het ons segregante op die basis van oorerwing (óf BY óf RM) by die primêre lokus verdeel en elke subgroep op soortgelyke wyse getoets vir verdere sekondêre lokusse. Hierdie proses is onafhanklik uitgevoer vir die BY of RM alleel by die primêre lokus. Sekondêre lokusse word as betekenisvol beskou as Welch s'n t toets P <0.05 en P <10 −4 . Elke bespeurde sekondêre koppeling definieer 'n iQTL wat as 'n besluitboom voorgestel word. Die gevolglike boom kan sekondêre splitsings aan die BY (regs) kant, die RM (links) kant, of albei hê. Omdat noue lokusse met oorvleuelende stelle gene skakel, het ons soortgelyke iQTL-modules saamgevoeg (sien SI teks). Nadat ons modules verwyder het wat <5-gene het, het ons 91 iQTL-modules verkry.

Stadium 3.

Soos hierbo bespreek, gebruik GOLPH die modulariteit van geenuitdrukking om bykomende krag te verkry. Ons soek ons ​​soektog met die iQTL wat opgespoor is deur hoogs streng kriteria in stadium 2 te gebruik, wat verseker dat die geselekteerde lokusse waarskynlik kousale regulerende invloed op geentranskripsies sal uitoefen. Ons gaan een vir een deur die regulasiebome en evalueer al 4 338 gene in ons stel vir daardie module. Elke boom behels 2 onafhanklike toetse, afhangende van die struktuur van die boom. Vir elke module genereer ons 'n verspreiding van P waardes oor al 4 338 gene onafhanklik vir elk van die 2 toetse hierbo. 'n Geen word aan die module toegeken deur 'n genoomwye vals-ontdekkingskoers (FDR) van 1% (30) vir beide toetse te gebruik. Daarom is ons drempel aanpasbaar vir die aantal gene en die sterkte van koppelingsein vir elke lokus, so 'n groot aantal swak seine wat na dieselfde lokus wys, verhoog die betekenis.

Module-aantekening.

Om die resulterende modules biologies te annoteer, het ons die hipergeometriese verryking vir alle modules teen alle annotasies bereken en 'n FDR-regstelling vir veelvuldige onafhanklike hipoteses uitgevoer. Ons het waardes van oorweeg Pgekorrigeer < 0,005 om betekenisvol te wees.

Bykomende inligting.

Vir interaktiewe besigtiging en ontleding van al die gekonstrueerde iQTL-modules het ons 'n lêer gegenereer wat geformateer is vir visualisering met ons interaktiewe GENATOMY-analise-instrument.*


RE-veranderlikheid onthul duisende cis-regulerende domeine

Om die koördinasie van RE's te bestudeer, het ons sistematies die interindividuele korrelasie gemeet tussen chromatienpieke geleë binne 'n skuifvenster wat oor 250 pieke strek. Dit het 'n wydverspreide korrelasie aan die lig gebring wat vinnig verval met afstand, effens wissel oor toetspare, en toon verhoogde seltipe spesifisiteit oor lang reeks (Fig. 1A en Fig. S10). Dit is belangrik dat hierdie korrelasie nie spesifiek vir hierdie data is nie, want ons neem dit ook waar in 'n onafhanklike datastel vir neutrofiele van die Blueprint-projek (24) (fig. S11), met 'n relatief goeie mate van ooreenstemming (fig. S12). Die korrelasie vorm goed afgebakende domeine wat ons cis-regulerende domeine (CRD's) noem (Fig. 1B) (19). Ons het 'n genoomwye oproepstel van CRD's vervaardig deur 'n algoritme gebaseer op hiërargiese groepering te gebruik wat chromatienpieke iteratief in CRD's groepeer op grond van hul korrelasievlakke (23). Dit het 40,9% hergroepeer (n = 111 005) en 16,6% (n = 45,062) van die chromatienpieke binne onderskeidelik 12,583 en 10,442 CRD's in LCL's en fibroblaste.

(A) Genoomwye kaart van die kwadraat interindividuele korrelasies tussen nabygeleë chromatienpieke (skakerings van blou). Die grootste chromosome (chr) is oor verskeie rye verdeel. (B) Vergrote aansig van die boksarea in (A), 'n gebied wat oor 2000 chromatienpieke op chromosoom 4 strek. Interindividuele korrelasie (skakerings van blou) word gegee in die konteks van Hi-C-kontakte (geskaal tussen 0 en 1 skakerings van rooi). CRD-oproepe word met swart driehoeke getoon, en die genomiese liggings van TAD's en CRD's in die streek word onderskeidelik met rooi en blou intervalle getoon. Mbp, mega-basispare.

In die geval van LCL's, vang CRD's gekoördineerde aktiwiteit by 13.872 (57.7%) en 55.059 (40.5%) van die vermeende promotors en versterkers vas sodra die chromatienpieke in nie-oorvleuelende RE's in duie gestort is (fig. S13A). 'n CRD bevat gemiddeld 5.6 RE's, maar dit wissel aansienlik (44.6% met 2 RE's en 14.2% met >10 RE's fig. S13B). As gevolg hiervan help CRD's ons om versterker-promotor-koördinasie te bestudeer (fig. S14A): 'n Promotor koördineer gemiddeld met 7.8 versterkers [mediaan (md) = 4, standaardafwyking (sd) = 11.5], terwyl 'n versterker met 1.9 promotors (md = 1, sd = 2.1 fig. S14B) is in lyn met vorige skattings (25). Slegs 46.2% van die promotors koördineer met hul naaste versterker (fig. S14C), wat bevestig dat versterkers nie op grond van nabyheid alleen aan promotors toegewys moet word nie. Boonop is versterkers geneig om aan die een of ander kant van die promotors te lokaliseer, soos voorgestel deur die verryking van promotors by CRD-grense (fig. S14D).

Die ontleding van alleel-spesifieke effekte (ASE) in chromatienpieke toon dat die koördinasie tussen REs op 'n haplotipe-spesifieke wyse plaasvind (17, 23). Inderdaad, ons het gevind dat verskillende RE's geneig is om haplotipiese aktiwiteitskoördinasie te vertoon wanneer hulle aan dieselfde CRD's behoort (fig. S15). Dit toon dat die koördinasie tussen RE's wat op populasievlak ontdek word, in cis voorkom en op individuele vlak waargeneem word deur gebruik te maak van ASE. Kartering van CRD's met behulp van populasiedata is van nature afhanklik van steekproefgrootte. Ons het dus die LCL-data in groepe van 50 individue gesubsteekproef om ons ontdekkingskrag te bepaal en het gevind dat 317 LCL-monsters redelike krag verskaf: Versadiging word bereik in terme van die aantal CRD's wat ontdek is, terwyl meer monsters hul chromatienpiekinhoud beter sal afbaken (fig. S16).

Oor die algemeen is interindividuele korrelasie tussen chromatienpieke in staat om die gekoördineerde aktiwiteit van 'n groot fraksie van RE's in die genoom te openbaar, 'n koördinasie wat binne duisende CRD's voorkom en definieer die wyse waarop genetiese effekte die cis-regulerende landskap van gene beïnvloed.


Resultate

Resultate van ons studie stem ooreen met die voorspelling dat meer ver verwante spesies meer uiteenlopend is in hul patrone van geenuitdrukking. Geen uitdrukking was positief gekorreleer vir alle spesie pare, dikwels redelik sterk (let op dat alle GES maatreëls was >0, Fig. 1). Die omvang van hierdie positiewe korrelasies was egter geneig om af te neem namate PD onder spesiepare toegeneem het (P1, Fig. 1a, ρ = -0·27, P = 0·02). Alhoewel ons hoofsaaklik in geenuitdrukking tussen spesies geïnteresseerd was toe hulle interaksie gehad het, kan spesies ook verskil in geenuitdrukking intrinsiek (dws in monokultuur), of kan verskil in hoe hulle geenuitdrukking in bikultuur op- of afreguleer relatief tot monokultuur (geskat soos die logvou verander in TPM, 'logFC'). Daarom het ons ook getoets hoe PD verband hou met die GES van spesies wat in monokultuur gekweek word en met die GES van logFC. Ons het dieselfde algemene neiging tussen PD en GES waargeneem, ongeag of ons na die GES oor monokulture van spesiepare gekyk het (Fig. 1b, ρ = -0·35, P = 0·07), die GES van die logFC van spesies wat as bikulture gekweek word (ρ = −0·28, P = 0·01), of die ooreenkoms van uitdrukking van slegs die kandidaatgene in bikultuur (ρ = −0·21, P = 0·07) of monokultuur (ρ = −0·18, P = 0·36). Hierdie stel ontledings dui daarop dat, ongeag die toestande waarin geenuitdrukking gemeet is, of die spesifieke skatting van geenuitdrukking wat gebruik is, meer ver verwante spesies groter verskille in hul patrone van geenuitdrukking gehad het as nader verwante spesies.

In teenstelling met ons tweede voorspelling, toe spesies meer soortgelyk was in geenuitdrukking (hoër waardes van GES), was kompetisie tussen hulle swakker (Fig. 2 boonste panele), en vir ander spesies het fasiliterende interaksies meer algemeen geword (Fig. 2 onderste panele) . Toenemende GES is geassosieer met 'n afname in interaksiekoëffisiënte wat beraam is vanaf Lotka-Volterra-modelle wat pas by populasiedinamika (Spearman-rangkorrelasie van GES en αij vir: C. acicularis Fig. 2a, ρ = −0·72, P < 0·01, T. minimum Fig. 2b, ρ = −0·49, P = 0·04, Selenastrum capricornutum Fig. 2c, ρ = −0·45, P = 0·05, en S. punctulatum Fig. 2d, ρ = −0·79, P < 0·01, nie-beduidende korrelasies nie getoon nie). Hierdie tendens is ook ondersteun toe ons GES oor die transkripsie ondersoek het vir spesies wat afsonderlik in monokultuur gekweek is, of wanneer ons die GES van kandidaatgene in bikultuur of in monokultuur ondersoek het (Tabel 1). Dit dui weereens aan dat ongeag of ons 'n groot deel van die transkripsie beskou of slegs 'n stel gene wat vermoedelik belangrik is in spesie-interaksies, en ongeag of ons geenuitdrukking in bikultuur of in monokultuur ondersoek het, spesies met meer soortgelyke patrone van geen uitdrukking was geneig om swakker mededinging en in sommige gevalle fasilitering te toon. Altesaam 13 van die 14 beduidende korrelasies tussen GES en interaksiesterkte was negatief, wat aansienlik groter is as wat toevallig verwag is (χ 2 = 10·29, P < 0·01).

Spesie/geenuitdrukking korrelasie Alle gene in bikultuur Alle gene in monokultuur Kandidaatgene in bikultuur Kandidaatgene in monokultuur
Chlorella sorokiniana 0·11 −0·25 −0·47a a Die korrelasie is beduidend by P ≤ 0·05.
−0·52a a Die korrelasie is beduidend by P ≤ 0·05.
Closteriopsis acicularis −0·72a a Die korrelasie is beduidend by P ≤ 0·05.
−0·76a a Die korrelasie is beduidend by P ≤ 0·05.
0·21 0·37
Cosmarium turpinii 0·23 0·16 0·42 0·59a a Die korrelasie is beduidend by P ≤ 0·05.
Pandorina charkowiensis −0·27 −0·14 −0·44a a Die korrelasie is beduidend by P ≤ 0·05.
−0·29
Scenedesmus acuminatus −0·26 −0·45a a Die korrelasie is beduidend by P ≤ 0·05.
−0·35 −0·69a a Die korrelasie is beduidend by P ≤ 0·05.
Selenastrum capricornutum −0·45a a Die korrelasie is beduidend by P ≤ 0·05.
0·009 0·22 −0·15
Stauratrum punctulatum −0·72a a Die korrelasie is beduidend by P ≤ 0·05.
−0·31 −0·009 −0·38b b Die korrelasie is betekenisvol met 0·05 < P < 0·1.
Tetraedron minimum −0·49a a Die korrelasie is beduidend by P ≤ 0·05.
−0·41b b Die korrelasie is betekenisvol met 0·05 < P < 0·1.
−0·55a a Die korrelasie is beduidend by P ≤ 0·05.
0·07
  • a Die korrelasie is beduidend by P ≤ 0·05.
  • b Die korrelasie is betekenisvol met 0·05 < P < 0·1.

In teenstelling met ons derde voorspelling, het ons gevind dat GES ook geassosieer word met 'n groter waarskynlikheid van naasbestaan ​​tussen spesiepare. Dit word geïllustreer in Fig. 3, wat spesiepare toon waarin een of albei spesies 'n negatiewe interaksiekoëffisiënt (rooi kolletjies) gehad het, wat aandui dat ten minste een spesie voordeel getrek het uit die teenwoordigheid van 'n ander spesie (m.a.w. fasilitering). Gene-uitdrukking-ooreenkoms was 'n beduidende voorspeller van beide die waarskynlikheid van positiewe spesie-interaksies (β = 9·60, P = 0·005), sowel as die waarskynlikheid van naasbestaan ​​(β = 9·36, P = 0·006).

In plaas daarvan om deur ooreenkomste in uitdrukkingsvlakke oor veelvuldige gene gekodeer te word, is dit moontlik dat interaksiesterktes bepaal word deur die uitdrukking van individuele, funksioneel belangrike gene. Inderdaad, toe ons ondersoek het of die uitdrukkingsvlakke van elke spesifieke kandidaatgeen met die interaksiesterktes van elke individuele spesie oor bikulture gekorreleer is, het ons gevind dat byna alle kandidaatgeenfamilies negatief gekorreleer is met die grootte van die interaksiekoëffisiënte van ten minste een van die agt spesies (Tabel 2). Van die 32 beduidende korrelasies tussen geenuitdrukking en spesie-interaksiesterkte, was 30 negatief, wat aansienlik groter is as wat van toeval verwag is (Tabel 2, χ 2 = 24·5, P < 0·0001). Hierdie resultaat dui aan dat die uitdrukking van kandidaatgene geneig was om negatief geassosieer te word met spesie-interaksiesterktes oor die algemeen, wat swakker mededinging en meer gereelde fasilitering aandui. Toe ons korrelasies tussen uitdrukking van kandidaatgeenfamilies en RD oorweeg heteks vir individuele spesies (Tabel S2), 52 van 56 beduidende en marginaal nie-beduidende korrelasies was positief (χ 2 = 41·14, P < 0·01), wat weereens aandui dat kandidaat-geenuitdrukking-ooreenkoms oor die algemeen geassosieer is met swakker mededinging en meer gereelde fasilitering. Ons het gevind dat uitdrukkingsvlakke van al die kandidaat-geenfamilies behalwe nitrietreduktase en kobalamien beduidende voorspellers van RD wasek oor spesies en spesiekombinasies heen (Fig. 4, Tabel S2). Beide die frekwensie van oorlewering (RDek > 1) en die frekwensie van fasilitering (αij < 0) het toegeneem namate uitdrukkingsvlakke van die kandidaatgeenfamilies toegeneem het (twee links meeste kolomme in Fig. 4).

Gene/gene familie Chlorella Closteriopsis Kosmarium Pandorina Scenedesmus Selenatrum Stauratrum Tetraedron
1. Koolstofanhidrase −0·21 −0·12 −0·08 −0·16 0·25 −0·71a a Beduidende by P ≤ 0·05.
NA 0·14
2. Glutamaat semialdehied amientransferase NA −0·21 0·11 NA −0·72a a Beduidende by P ≤ 0·05.
−0·51a a Beduidende by P ≤ 0·05.
0·003 −0·12
3. Ysterdeurlaat 0·28 0·26 NA −0·23 −0·46a a Beduidende by P ≤ 0·05.
−0·58 NA 0·17
4. Ligte oeskompleks AB 0·59a a Beduidende by P ≤ 0·05.
0·01 0·02 −0·10 −0·36 −0·28 −0·66a a Beduidende by P ≤ 0·05.
0·06
5. Stikstof assimilasie regulatoriese proteïen 0·18 0·25 NA NA −0·21 NA NA 0·13
6. Nitraatreduktase 0·15 0·19 0·24 −0·30 −0·74 −0·52a a Beduidende by P ≤ 0·05.
−0·46a a Beduidende by P ≤ 0·05.
−0·06
7. Nitraatvervoerder −0·63a a Beduidende by P ≤ 0·05.
0·24 0·23 0·12 0·15 −0·45a a Beduidende by P ≤ 0·05.
−0·50a a Beduidende by P ≤ 0·05.
0·39
8. Nitrietreduktase 0·19 NA 0·35 −0·560a a Beduidende by P ≤ 0·05.
NA −0·50a a Beduidende by P ≤ 0·05.
−0·53a a Beduidende by P ≤ 0·05.
−0·37
9. Nitriet vervoerder 0·01 0·05 0·26 −0·16 0·04 −0·51a a Beduidende by P ≤ 0·05.
NA 0·16
10. Stikstofregulerende proteïen −0·01 0·24 0·22 −0·14 −0·19 −0·42b b Die korrelasie is marginaal nie-beduidend met 0·05 < P < 0·1.
−0·01 0·04
11. Fosfaatvervoerder −0·11 0·06 0·17 −0·15 −0·47a a Beduidende by P ≤ 0·05.
−0·53a a Beduidende by P ≤ 0·05.
−0·05 0·13
12. Biotien, vitamien B7 0·23 0·09 0·20 −0·21 0·01 −0·65a a Beduidende by P ≤ 0·05.
0·08 0·21
13. Kobalamien, vitamien B12 0·01 −0·21 0·08 −0·38b b Die korrelasie is marginaal nie-beduidend met 0·05 < P < 0·1.
−0·77a a Beduidende by P ≤ 0·05.
−0·60a a Beduidende by P ≤ 0·05.
−0·46a a Beduidende by P ≤ 0·05.
−0·00
14. Tiamien, vitamien B1 0·08 0·14 0·12 −0·20 −0·80a a Beduidende by P ≤ 0·05.
−0·57a a Beduidende by P ≤ 0·05.
−0·43b b Die korrelasie is marginaal nie-beduidend met 0·05 < P < 0·1.
−0·10
15. Glukose 0·30 0·11 0·19 −0·22 −0·47a a Beduidende by P ≤ 0·05.
−0·45b b Die korrelasie is marginaal nie-beduidend met 0·05 < P < 0·1.
−0·25 0·18
16. Mannose −0·63a a Beduidende by P ≤ 0·05.
0·22 0·12 NA −0·48a a Beduidende by P ≤ 0·05.
−0·68a a Beduidende by P ≤ 0·05.
−0·20 0·16
17. Suksinaat 0·41b b Die korrelasie is marginaal nie-beduidend met 0·05 < P < 0·1.
0·10 0·14 −0·33 0·23 −0·28 0·02 −0·10
  • a Beduidende by P ≤ 0·05.
  • b Die korrelasie is marginaal nie-beduidend met 0·05 < P < 0·1.

Ten slotte, om ander potensiële gene en geenfamilies te identifiseer wat met spesie-interaksiesterktes kan korreleer, het ons gesoek na gene wie se uitdrukkingspatrone differensieel gereguleer is in spesies wat verskillende tipes interaksies ervaar.Ons het hierdie verskillend gereguleerde geenfamilies na die GO-aantekeningdatabasis verwys en 28 Molekulêre Proses (vlak 3) GO-aantekeninge gevind. Die meerderheid van hierdie geenfunksies is op dieselfde wyse differensieel gereguleer (beide op of albei af) ongeag of die spesie kompetisie of fasilitering ervaar het, of hulle oor- of onderopbrengs ervaar het (Fig. S3, plus- en minusse is swart en aan dieselfde kant van die nullyn). Dit dui daarop dat die meerderheid gene wat differensieel uitgedruk is, nie op 'n ander manier kontrasterend gereguleer is in spesies wat verskillende tipes spesie-interaksies ervaar nie, dit wil sê kompetisie of fasilitering. Ses van die 28 Molekulêre Funksie-aantekeninge is egter óf opgereguleer wanneer spesies kompetisie en onderlewering ervaar het, maar is afgereguleer wanneer spesies fasilitering en oorlewering ervaar het, óf andersom (aantekeninge is vetgedruk in die legende van Fig. S3, en word aangedui deur rooi plus- en minustekens aan weerskante van die nullyn). Omdat hierdie GO-aantekeninge kontrasterend gereguleer is onder spesies wat verskillende tipes interaksies ervaar, kan hierdie geenfunksies betrokke wees by die bepaling van spesie-interaksiesterktes. Spesies wat fasilitering en oorlewering ervaar het, was geneig om geenfunksies op te reguleer wat algemeen geassosieer word met transkripsie (bv. DNA/RNA-bindende molekules) en energiemetabolisme (Fig. S3, GO-aantekening #17, #26 en #27). Meer spesifiek, aantekeninge vir hierdie GO-terme, wat die AmiGO2-portaal (amigo.geneontology.org) gebruik en soekresultate beperk tot slegs dié afkomstig van Viridiplantae en met eksperimentele bewyse vir geenfunksie, het ribulose-1,5-bisfosfaatkarboksilase/oksigenase ingesluit, 'n sleutelensiem in die Calvin-siklus, sowel as piruvaatdehidrogenasekinase en suksinaat-KoA-ligase, ensieme betrokke by die produksie van asetiel-KoA en die sitroensuursiklus. Daarenteen het spesies wat mededinging en onderlewering ervaar, geneig om gene wat verband hou met molekulêre vervoer, beide binne die sel en oor selmembrane te reguleer (Fig. S3, GO-aantekening #7, #21 en #22). Byvoorbeeld, GO-terme 0022857 en 0022892 (Fig. S3, #21 en #22) wat geïdentifiseer is as hoogs volop in kulture wat negatiewe ekologiese interaksies ervaar (mededinging of digtheid onder-opbrengs) het aantekeninge vir nitraat, ammonium, suiker, silikon, magnesium en ander metaal vervoerders.


Agtergrond

Integratiewe analise op multi-omika-data om biomerkers of roetekenmerke te vind wat hoogs geassosieer word met kanker het aansienlike aandag geniet [1,2,3,4,5,6]. Met inagneming van die ryk inligting wat in multi-omics data vervat is, het baie studies die onderlinge verwantskappe tussen veelvuldige meta-dimensionele data vir verbeterde biologiese interpretasie en analise ondersoek [7,8,9,10,11,12]. Om die interaksie tussen verskillende tipes genomiese kenmerke te verstaan, verg meer gesofistikeerde modellering en analise. In die besonder, die oorsaaklike verwantskappe tussen geen-uitdrukking data en DNA-metilering is omvattend bestudeer [13,14,15,16]. Vir gesamentlike analise van geenuitdrukking en metileringsdata in kanker, het pad- en subtipe-inligting veral nuttig bewys [17,18,19]. In hierdie studie spreek ons ​​die probleem van padgedrewe geïntegreerde analise van geenuitdrukking en metileringsdata in kanker aan.

Om padinligting te kombineer in genomiese analise en kankervoorspelling, is verskeie metodes voorgestel om padaktiwiteit af te lei [20,21,22,23,24]. Byvoorbeeld, die gemiddelde en mediaan van die uitdrukking waardes van pad lid gene kan gebruik word vir presiese kanker klassifikasie [24]. In [20] is roeteaktiwiteit-afleidingsmetode van toestand-responsiewe gene (die roetelidgene wie se gekombineerde uitdrukking optimale diskriminerende krag vir die siektefenotipe toon) voorgestel om roete-inligting in die presiese siekteklassifikasie in te sluit. Weg-aktiwiteit-afleidingsbenaderings met behulp van waarskynlikheidsafleiding is gebruik vir die kombinasie van verskeie tipes omics-data en 'n beter kankerklassifikasie [21,22,23]. Daardie bestaande roete-gebaseerde metodes neem egter bloot paaie as die stel gene en het die topologiese belangrikheid van die middelpuntgene in die roetenetwerk geïgnoreer wat hoogs met siektes geassosieer kan word. In hierdie opsig het Liu, et al. het 'n gerigte ewekansige loop (DRW)-gebaseerde padafleidingsmetode voorgestel om die topologies belangrike gene en paaie te identifiseer deur die gene in die padnetwerk te weeg [25]. Omdat hierdie oorspronklike DRW-metode 'n enkele profiel van geenuitdrukkingdata gerig het, het onlangse benaderings gefokus op die integrasie van verskeie tipes data, byvoorbeeld geenuitdrukking en metabolietdata [26]. Gerigte ewekansige stap op 'n geen-metaboliet grafiek (DRW-GM) is uitgevoer gelei deur pad inligting, en het belangrike differensiële gene en risiko weë in prostaatkanker geïdentifiseer.

In hierdie studie stel ons 'n DRW-gebaseerde benadering op 'n geïntegreerde geen-geen-grafiek voor, veral herdefinieer vir geenuitdrukking en metileringsdata om belangrike pad- en geenkenmerke vir oorlewingsvoorspelling te onttrek. Ons konstrueer eers 'n geïntegreerde geen-geen-grafiek deur rande tussen geenuitdrukking en metileringskenmerke sowel as rande binne elke profiel by te voeg. By die samestelling van die geïntegreerde geen-geen-grafiek, oorweeg ons twee benaderings: een wat tweerigtingrande tussen uitdrukking en metileringskenmerke van dieselfde geen wat albei profiele het, byvoeg, en 'n ander wat slegs die anti-gekorreleerde interaksies tussen die uitdrukking en metilering in ag neem data. Vir die rande binne elke enkele profiel neem ons die padgebaseerde interaksiegrafiek van die vorige studie aan [25]. DRW word dan uitgevoer, wat die gewigswaardes van beide uitdrukking en metileringskenmerke produseer. Die aanvanklike gewigte van die geenuitdrukking nodusse word gemeet deur DESeq2 [27], wat 'n metode is vir differensiële geenuitdrukking analise in telling data van hoë-deurset volgordebepaling toetse. Die metileringskenmerknodusse word aanvanklik geweeg deur 'n tweestert te gebruik t-toets tussen twee fenotipes. Deur die uitset van die DRW te gebruik, word 'n baanaktiwiteitsprofiel bereken. Samevattend, integrerende DRW (iDRW) op 'n grafiek wat oor geenuitdrukking en metileringskenmerke gedefinieer word, transformeer die gekombineerde profiel van geenuitdrukking en metileringsdata in 'n enkele padprofiel. Om belangrike roetekenmerke verder te onttrek, pas ons 'n denoising outo-enkodeerder (DA) [28] toe op die roeteprofielmatriks. DA het bewys dat dit effektief is om robuuste kenmerke teen insetgeraas te kies en meer spesifieke kankerverwante weë of gene te onttrek [29,30,31]. Die gevolglike kenmerke word bekragtig op 'n oorlewingsvoorspellingstaak van borskankerpasiënte. Die topologies beduidende weë en roetelidgene word ook geïdentifiseer en ontleed. Die algehele proses van die voorgestelde benadering word in Fig. 1 geïllustreer.

Oorsig van die voorgestelde integrerende pad-gebaseerde oorlewingsvoorspellingsmetode

Die roetekenmerke wat met ons skema gekies is, is gebaseer op geenuitdrukking en metileringskenmerke sowel as interaksies tussen die twee. Hierdie onttrek roete kenmerke is effektief om die voorspelling prestasie te verbeter in vergelyking met die geen-gebaseerde profiel of ander roete-gedrewe metodes. Ons onthul ook dat die iDRW-metode met 'n denoiserende outo-enkodeerder 'n meer kankerspesifieke weë of gene selekteer in vergelyking met dié wat direk deur die iDRW-metode gekies word.


Bespreking

BWI is 'n hoogs komplekse eienskap wat veroorsaak word deur die swak gekarakteriseerde wisselwerking tussen genetiese en omgewingsfaktore met hoër oorerflikheidskattings wat 70% bereik 2 . Om te verstaan ​​hoe genoomwye seine met klein effekgroottes bydra tot BMI op 'n molekulêre vlak, het bewys dat dit moeilik is. Die afbakening van die onderliggende biologiese meganismes van hierdie seine is noodsaaklik om die ontwikkeling van vetsug en die gepaardgaande kardiometaboliese versteurings beter te verstaan. In hierdie studie het ons promotor Capture Hi-C (pCHi-C) in primêre menslike wit adiposiete (HWA) uitgevoer om BMI-gekorreleerde vet-uitgedrukte gene te identifiseer wat onder genetiese regulering is in cis deur variante wat fisies met geenpromotors in wisselwerking tree. Deur ons metode om GWAS te integreer, cis-eQTL-ontledings, chromosomale interaksies en robuuste replikasie van die data van GTEx en TwinsUK, kon ons 42 kandidaatgene identifiseer vir toekomstige vetsugnavorsing.

In die afwesigheid van adiposiet-DHS-inligting, het ons DHS-data van alle weefsels in die ENCODE en Roadmap Epigenomics-projek gebruik om oop chromatienstreke binne die adiposiet-chromosomale interaksies 8 te benoem. Ten spyte van hierdie metodologiese kompromie, toon ons resultate dat variante in hierdie streke 'n beduidende gedeelte (4,6%) van die oorerflikheid van cis-gereguleerde uitdrukking in menslike subkutane vetweefsel. Selfs al is die totale persentasie variante binne die kruising van oop chromatienstreke en adiposiet-chromosomale lusplekke klein (0.23%), impliseer die verryking dat hierdie SNP's funksioneel relevant is vir adiposietbiologie en geenregulering in cis.

Die verryking van TF-bindingsmotiewe vir CEBPB en PPARG in chromosomale interaksies wat in adiposiet gevind word, maar nie in CD34+ selle nie, bevestig dat die regulatoriese stroombane wat hier geïdentifiseer word, relevant is vir vetbiologie. Daar is voorheen getoon dat hierdie twee TF's gedeelde regulatoriese terreine beset. Behalwe dat dit 'n versterker-bindende proteïen is, wat in ooreenstemming is met die teenwoordigheid daarvan by chromosomale interaksie-terreine, is gedemonstreer dat CEBPB die binding van PPARG by baie regulatoriese terreine 25 voorafgaan, wat daarop dui dat CEBPB die regulatoriese streke voorberei vir die binding van die vetmeester reguleerder PPARG.

Een van ons looping cis-eQTL variante is 'n stywe LD proxy (r 2 = 0.98) vir 'n streeks-BMI-voorsprong GWAS SNP (rs16951275) 2 . Tipiese fyn kartering tegnieke soos oorlê histoon merke, transkripsie faktor motief skanderings, of eQTL soektogte openbaar nie noodwendig die meganisme waardeur 'n SNP kan funksioneer nie. Ons het die GWAS-sein verfyn van 64 tot 16 LD SNP's binne 'n HindIII fragment wat in wisselwerking is met die MAP2K5 promotor deur oorlê cis-eQTL's, die promotor-verbeter-interaksiekaart en die uitdrukking-BMI-korrelasie. Die topkandidaat, rs4776984, het HWA-kernproteïenbinding op 'n alleel-spesifieke manier in ons EMSA-eksperiment verhoog en lê binne die onderdrukker histoonmerke H3K27me3 en H3K9me3 in ENCODE adipose nuklei data. Onlangse studies het voorgestel dat onderdrukkerelemente funksioneer deur lusinteraksies op 'n soortgelyke wyse as versterkerelemente 6,26, wat goed sal ooreenstem met die negatiewe korrelasie tussen uitdrukking van MAP2K5 en BMI-vlak.

Die streek by die MAP2K5 lokus, wat verhoogde binding vir die alternatiewe alleel vir rs4776984 vertoon, bevat voorspelde motiewe vir die lusinteraksieproteïen, CTCF en ander TF's (Aanvullende Tabel 8). Ons het nie bewyse van CTCF-binding by rs4776984 gevind in ons superverskuiwing en proteïenbindende EMSA-eksperimente nie. 'n Superverskuiwing-eksperiment kan egter negatief bly selfs in die teenwoordigheid van ware TF-binding as 'n kompleks in plaas van 'n enkele TF alleen vir die TF-binding benodig word 20 . Verder, deur gebruik te maak van DeepSEA-analise, het ons die potensiaal vir differensiële TF-binding by die variante plek rs4776984 onder alle moontlike lusvorming bevestig cis-eQTLs by die MAP2K5 lokus. Opmerklik, aangesien DeepSEA verskeie TF's as potensiële binders van rs4776984-terrein op 'n alleel-spesifieke manier geïdentifiseer het, is toekomstige studies wat 'n groter stel TF's toets, geregverdig om die werklike TF wat hierdie werf bind, te identifiseer. Ons postuleer dat TF-binding by hierdie interaksie-plek sal lei tot 'n onderdrukkende lusmeganisme, in hierdie geval verander MAP2K5 uitdrukking in adiposiete.

MAP2K5 is 'n lid van die ERK5 MAP kinase seinkaskade, en die belangrikheid van ERK5 sein in vet is voorheen gedemonstreer in Erk5 uitklopmuise, wat verhoogde adipositeit toon 27 . Dit dui daarop dat veranderinge in ERK5-sein in adiposiete relevant kan wees vir menslike vetsug. MAP2K5 is 'n sterk en spesifieke aktiveerder van ERK5 in die ERK5 MAP kinase seinkaskade 28, wat verdere studie van MAP2K5 in verband met verhoogde vet.

Die intronic ORMDL3 GWAS variant rs8076131 word geassosieer met hoëdigtheid lipoproteïen cholesterol (HDL-C) 15 en is die enigste cis-eQTL SNP in die HindIII fragment wat in wisselwerking is met die ORMDL3 promotor in ons adiposiet pCHI-C data. ORMDL3 is 'n negatiewe reguleerder van die sintese van sfingolipiede wat geproduseer word in reaksie op vetsug en verwante metaboliese eienskappe, soos inflammasie en insulienweerstand 21,22, en wat inmeng met belangrike seinpaaie wat met hierdie eienskappe geassosieer word 22 . As ons dit bevestig, wys ons dit ORMDL3 uitdrukking is negatief gekorreleer met BMI, en die cis-eQTL en risiko-variant rs8076131 verminder ORMDL3 uitdrukking, moontlik deur 'n verandering in die chromosomale interaksie tussen die versterker en promotor van ORMDL3, soos voorheen getoon is vir hierdie verbeterde webwerf 29 .

Ons het gevind dat die metaboliet GWAS SNP, rs3784671, 'n lus is cis-eQTL variant wat verband hou met die uitdrukking vlakke van die LACTB geen. Alhoewel hierdie variant 'n cis-eQTL vir LACTB beide in ons studie en die GTEx-vetkohort, lê dit binne die promotor vir die APH1B geen, waarvoor dit nie 'n cis-eQTL in ons studie. Deur oorvleueling van vet cis-eQTL data en adiposiet pCHI-C data, ons het vasgestel dat rs3784671 nie deur die aangrensende APH1B geen en gefiltreer die 35 cis-eQTL variante vir LACTB af na 'n enkele variant, rs3784671. Hierdie variant word negatief geassosieer met die vlakke van suksinielkarnitien, 'n metaboliet wat positief gekorreleer is met BMI in twee onafhanklike kohorte, KORA en TwinsUK, voorheen 23 . Suksinielkarnitien is 'n molekule in die butanoaatmetabolismeweg butanoaat is betrokke by anti-inflammasie, beskerming teen vetsug en 'n toename in leptienvlakke 30 . Verder, aangesien die suksinielkarnitien GWAS-variant rs3784671 'n eQTL is vir LACTB, wat verband hou met 'n toename in LACTB uitdrukking, ons postuleer dit LACTB uitdrukking verhoog suksinielkarnitien. Dit stem ooreen met 'n muisstudie wat toon dat butanoaatmetabolisme verminder word Lactb transgeniese muise 24. Veral ondersteuning vir LACTB as 'n oorsaaklike geen vir vetsug afkomstig van funksionele studies met behulp van transgeniese ooruitdrukking van Lactb in muise, wat lei tot 'n toename in die vet-massa-tot-maer-massa-verhouding 24,31. Alhoewel die funksie van LACTB in vet nie volledig toegelig is nie, dui hierdie studies daarop dat 'n vermindering in LACTB funksie en op sy beurt 'n toename in butanoaatmetabolisme en afname in suksinielkarnitienvlakke is voordelig vir vetsugbehandeling. Verdere molekulêre studies op die proteïenvlak is egter nodig om die funksie van te bepaal ORMDL3 en LACTB in verband met vetsug.

Ons het 'n perfekte LD-proxy geïdentifiseer vir 'n metaboliet GWAS SNP wat binne 'n HindIII fragment wat die reguleer ACADS geen en interaksie met sy promotor. ACADS is 'n mitochondriale proteïen wat die eerste stap van die vetsuur beta-oksidasie pad kataliseer. Behoorlike mitochondriale funksie is noodsaaklik vir vetfunksie en energiehomeostase. Benewens die METSIM en TwinsUK adipose RNA-seq datastelle wat in ons studie gebruik is, het 'n vorige studie geïdentifiseer ACADS wanneer daar sistematies gesoek word na gene wat oor- en onderuitgedruk word in vetsugtige versus maer vetweefsel 32 . Verder toon al 3 datastelle 'n konsekwente negatiewe korrelasie tussen ACADS uitdrukking en BMI, ter ondersteuning van sy goed gevestigde mitochondriale funksie. Die interaksie cis-eQTL en GWAS SNP, rs12310161, is geleë binne versterker-histonmerke in vetkerne en in die HepG2-lewersellyn, met die alternatiewe alleel wat 'n positiewe effek op geenuitdrukking toon, in ooreenstemming daarmee dat dit 'n beskermende alleel is. Interessant genoeg val hierdie variant binne 'n TEA Domain Transcription Factor 4 (TEAD4) ChIP-seq piek in die HepG2 selle. TEAD4 uitdrukking word gereguleer deur Peroxisome Proliferator Activated Receptor alpha (PPARα) 33, die belangrikste reguleerder van beta-oksidasie van vetsuurweë in lewer en bruin vetweefsel. Saamgevat dui hierdie resultate daarop dat die interaksie cis-eQTL en metaboliet GWAS SNP, rs12310161, funksioneer binne 'n versterker om te verhoog ACADS uitdrukking en mitochondriale vetsuur beta-oksidasie in vet.

Aangesien die pCHI-C-eksperimente in primêre HWA uitgevoer is, is ons in staat om te fokus op fisiese chromosomale interaksies direk in menslike adiposiete onder alle seltipes teenwoordig in vetweefsel. Adiposiete verrig sentrale vetfunksies, insluitend lipogenese en lipolise. Verdere ondersoek van die vetgene, wat onder cis genetiese regulering via chromosomale lus na die promotors en is gekorreleer met BMI, sal waarskynlik broodnodige insig verskaf in sellulêre prosesse wat bydra tot vetsug. Ons data verskaf 38 nuwe kandidaatgene, insluitend 'n paar bekende funksioneel relevante gene vir vetterigheid, soos LPIN1 34 en AKR1C3 35, wat tot dusver nie deur GWAS uitgelig is vir BMI of vetsugverwante metaboliese eienskappe nie. Ons postuleer dat identifikasie van sommige van hierdie 38 kandidate as vetsug GWAS-gene baie groter GWA-studies kan vereis, terwyl ander gene kan verteenwoordig wat op vetsug in menslike vetweefsel reageer. Ons ontleding van die lus cis-eQTLs vir ander GWAS-eienskappe wat met BMI gekorreleer is, soos serummetaboliete en lipiede, het gelei tot die identifikasie van drie addisionele vetsug-verwante metaboliese GWAS-gene. Ons erken dat brein en ander weefsel waarskynlik verantwoordelik is vir sommige van die BMI GWAS seine en dat GWAS variante kan optree via ander meganismes, soos trans regulering en alternatiewe splitsing, wat toekomstige ondersoek regverdig. Alhoewel die vier lus cis-eQTL-variante wat by GWAS-lokusse in ons studie geïdentifiseer is, verteenwoordig óf die GWAS-merker SNP's (soos die geval is by die ORMDL3 en LACTB loci) of hulle is in perfekte of amper perfekte LD met die GWAS SNP (r 2 = 1.0 by die ACADS lokus en r 2 = 0,98 by die MAP2K5 lokus), erken ons dat die lusvariante dalk nie altyd die sterkste is nie cis-eQTL SNP's by hierdie lokusse en dus is addisionele fyn kartering nodig om alle funksionele regulering volledig toe te lig cis-eQTL variante.

Die huidige studie gebruik die integrasie van multi-vlak genomiese en funksionele data om die begrip van genoomwye molekulêre seine onderliggend aan vetsug te verbeter. GWAS-seine val dikwels binne nie-koderende regulatoriese streke van die genoom, en die geaffekteerde geen(ne) bly dikwels onduidelik. Net so belemmer die plaaslike LD-struktuur dikwels die identifikasie en funksionele karakterisering van die werklike eQTL SNP alhoewel die eQTL teikengeen bekend is.Deur die integrasie van multilaag genomika-data in 'n funksioneel relevante menslike seltipe en -weefsel en replikasie in die GTEx- en TwinsUK-kohorte, wys ons dat die DHS'e binne die interaksie chromosomale streke verryk is vir weefselspesifieke TF-motiewe en verduidelik 'n beduidende deel van die oorerflikheid van geenuitdrukking in cis. Verder het ons geïdentifiseer LACTB, ACADS, ORMDL3, en MAP2K5 as vetsug-verwante gene in mense en verskaf 'n stel van 38 nie-GWAS kandidaat gene vir toekomstige studies in vetsug.


Biologiese geldigheid van genenetwerk gebaseer op relevansie van geen-geeninteraksie

In onlangse jare het geennetwerke een van die nuttigste instrumente geword vir die modellering van biologiese prosesse. Baie afleidingsgeennetwerkalgoritmes is ontwikkel as tegnieke om kennis uit geenuitdrukkingdata te onttrek. Om die betroubaarheid van die afgeleide geenverwantskappe te verseker is 'n deurslaggewende taak in enige studie om te bewys dat die algoritmes wat gebruik word presies is. Gewoonlik kan hierdie valideringsproses uitgevoer word met behulp van vorige biologiese kennis. Die metaboliese weë wat in KEGG gestoor word, is een van die mees gebruikte kundige bronne vir die ontleding van verwantskappe tussen gene. Hierdie artikel stel 'n nuwe metodologie bekend, GeneNetVal, om die biologiese geldigheid van geennetwerke te assesseer gebaseer op die relevansie van die geen-geen interaksies wat in KEGG metaboliese weë gestoor word. Daarom word 'n volledige KEGG-wegomskakeling na 'n geenassosiasienetwerk en 'n nuwe ooreenstemmende afstand gebaseer op geen-geeninteraksie-relevansie voorgestel. Die prestasie van GeneNetVal is vasgestel met drie verskillende eksperimente. Eerstens word ons voorstel in 'n vergelykende ROC-analise getoets. Tweedens word 'n ewekansigheidstudie aangebied om die gedrag van GeneNetVal aan te toon wanneer die geraas in die insetnetwerk verhoog word. Ten slotte word die vermoë van GeneNetVal om biologiese funksionaliteit van die netwerk op te spoor getoon.

1. Agtergrond

Modelleringsproses wat in lewende organismes voorkom, is een van die hoofdoelwitte in bioinformatika [1–4]. Geennetwerke (GN's) het een van die belangrikste benaderings geword om te ontdek watter geen-geen-verwantskappe by 'n spesifieke biologiese proses betrokke is.

'n GN kan as 'n grafiek voorgestel word waar gene, proteïene en/of metaboliete as nodusse voorgestel word en hul verwantskappe as rande [1].

Dit is belangrik om daarop te let dat GN's aansienlik kan verskil, afhangende van die modelargitektuur wat gebruik word om die netwerk af te lei. Hierdie modelle kan volgens Hecker et al. in vier hoofbenaderings gekategoriseer word. [1]: korrelasie [5, 6], logiese [7-9], differensiaalvergelykings-gebaseerde en Bayesiese netwerke [10, 11]. Hierdie benaderings is wyd gebruik in bioinformatika. Byvoorbeeld, Rangel et al. [12] het lineêre modellering gebruik om T-selaktivering van tydelike geenuitdrukkingsdata af te lei, of Faith et al. [13] aangepaste korrelasie en Bayesiaanse netwerke om 'n metode te ontwikkel om die regulatoriese interaksies van Escherichia coli.

Sodra 'n model gegenereer is, is dit baie belangrik om die betroubaarheid van die algoritme te verseker om die doeltreffendheid daarvan te demonstreer. Die kwaliteit van die algoritme(s) kan gemeet word deur die toepassing van sogenaamde sintetiese data [14] en/of deur vooraf biologiese kennis te gebruik [15]. Sintetiese databenaderings kan gebruik word om die werkverrigting van die GN-inferensiealgoritme te ontleed, terwyl 'n studie van biologiese geldigheid deur werklike data ondersteun word.

Sintetiese datametodes produseer 'n kunsmatige datastel volgens 'n voorheen bekende netwerk. Die waardes van die gesimuleerde geenuitdrukking word in 'n datastel gestoor en as invoer vir die GN-afleidingsalgoritme gebruik. Laastens word die werkverrigting van die algoritme getoets deur beide GN's te vergelyk. Tans kan hierdie proses uitgevoer word met behulp van verskillende instrumente soos GeneNetWeaver [16] of SynTReN [17].

Alhoewel hierdie benadering algemeen gebruik word om afleidingsalgoritmes te vergelyk, kan dit nie die interne kenmerke van werklike biologiese prosesse volledig weergee nie. Hierdie nadeel beteken dat hulle nie geskik is vir die validering van die afgeleide modelle uit 'n biologiese oogpunt nie.

Om hierdie probleem aan te spreek, is vergelyking met vorige biologiese kennis voorgestel [18, 19]. Tans is daar 'n aantal verskillende beskikbare biologiese bewaarplekke waar die Kyoto-ensiklopedie van gene en genome (KEGG) een van die mees gebruikte is vir die ontleding van verwantskappe tussen gene [20, 21]. KEGG se metaboliese weë bevat kennis oor verskillende biologiese prosesse. Hierdie paaie word voorgestel as 'n grafiek waar nodusse gene, ensieme of verbindings (d.w.s. koolhidrate, lipiede en aminosure) voorstel en rande kodeer vir verhoudings, reaksies of interaksies tussen die nodusse. Die weë vervat in die KEGG-databasis verteenwoordig die werklike kennis van molekulêre interaksie en reaksienetwerke vir metabolisme, genetiese inligtingverwerking, omgewingsinligtingverwerking, sellulêre prosesse en menslike siektes. Hulle verskaf nuttige gestruktureerde inligting vir geennetwerkvalidering. Byvoorbeeld, C. Li en H. Li [15] het KEGG-transkripsiepaaie gebruik om 'n netwerkanalise van die glioblastoom-mikroskikkingsdata uit te voer, of Ko et al. [22] het 'n nuwe Bayes-netwerkbenadering getoets deur geen-geen-verwantskappe wat in KEGG gestoor is, te gebruik. In hierdie lyn het ons 'n GN-valideringsraamwerk voorgestel wat gebaseer is op 'n direkte vergelyking tussen 'n geennetwerk en KEGG-paaie [23].

Die voorgenoemde benaderings, wat hierna die klassieke gebruik van KEGG genoem word, bied drie groot tekortkominge: (a) nie al die biologiese inligting word gebruik nie, (b) slegs sterk geen-geen-verwantskappe word oorweeg, en (c) die huidige biologiese kennis is nie voltooi.

Geen-geen-verwantskappe word gewoonlik slegs oorweeg deur metaboliese weë-gebaseerde GN-valideringsbenaderings. Gevolglik word alle ander biologiese inligting wat deur paaie verskaf word, geïgnoreer, soos geen-verbinding of verbinding-verbinding verwantskappe (sien Tabel 1). Wei en Li [24] het byvoorbeeld slegs menslike geen-geen-interaksies wat in die KEGG-bane gestoor is, gebruik wanneer simulasiestudies uitgevoer word, met uitsluiting van geen-verbinding en verbinding-verbinding verhoudings. Of Zhou en Wong [25] het die verwantskap tussen KEGG geenpare (hoofsaaklik PPrel en ECrel) gebruik om proteïen-proteïeninteraksiedatastelle te bestudeer.

Verder is huidige GN-valideringsbenaderings nie heeltemal akkuraat nie, aangesien hulle slegs sterk verwantskappe tussen gene (direkte geen-geen-interaksies) oorweeg, wat swakker verwantskappe aan die een kant laat [4].

Daarbenewens kan die gebruik van vorige biologiese kennis nog 'n belangrike gebrek, die huidige beperkings van die biologiese databasisse, meebring. Soos beskryf deur Dougherty en Shmulevich [2], het biologiese kennis 'n paar intrinsieke beperkings in die sin dat dit inherent afhanklik is van die aard van wetenskaplike kennis. Ander is afhanklik van die huidige stand van kennis, insluitend tegnologie. Huidige valideringsmetodes gebruik hierdie biologiese databasisse om die afgeleide verwantskappe as ware of vals positiewe te klassifiseer. As gevolg van die intrinsieke probleem van die biologiese databasisse, is dit nie moontlik om te argumenteer dat hierdie vals positiewe eintlik veroorsaak word deur 'n slegte voorspelling van die afleidingsmetodes of as gevolg van onvolledige kennis nie.

Hierdie artikel stel 'n nuwe metodologie, GeneNetVal, voor om die biologiese geldigheid van 'n geennetwerk te ontleed deur die biologiese inligting wat in KEGG gestoor is, te gebruik deur die geen-geen-verwantskappe te weeg. GeneNetVal gebruik verskillende tipes verwantskappe wat in KEGG-bane vervat is (geen-geen, geen-verbinding en verbinding-verbinding), wat 'n volledige en volledige omskakeling van 'n pad na 'n geennetwerk uitvoer. Die verkrygde netwerk sal as 'n goue standaard gebruik word in vergelyking met die insetnetwerk. Boonop word 'n nuwe bypassende afstand voorgestel. Hierdie maatstaf, gebaseer op geen-geen-interaksie-relevansie, neem die konsep van swak verwantskappe tussen 'n paar gene in ag om 'n stel nie-deterministiese indekse met verskillende vlakke van akkuraatheid aan te bied. Dus, ons aanvaar of weier nie kategories 'n geen-geen verhouding nie, maar 'n geweegde waarde word toegeken volgens afstand van daardie gene in die pad. Deur hierdie waardes het ons 'n nuwe geennetwerkgeldigheidsmaatstaf gegenereer en die probleem van die onvolledige biologiese kennis versag.

2. Metodes

In hierdie afdeling sal die GeneNetVal-metodologie en ook die metodes wat gebruik word om die eksperimente uit te voer, aangebied word. Hierdie metodes sal in die afdeling Resultate en Bespreking gebruik word.

2.1. GeneNetVal Metodologie

Soos reeds genoem, is die voorgestelde twee-stap metodologie, GeneNetVal, gebaseer op KEGG metaboliese weë en opgesom in Figuur 1. In die eerste stap word 'n volledige omskakeling van 'n metaboliese pad na 'n geen assosiasie netwerk uitgevoer. In die tweede stap word die biologiese geldigheid van 'n GN bepaal. Om dit te kan doen, word 'n nuwe ooreenstemmende afstand tussen netwerke gebruik.


'n Skematiese voorstelling van GeneNetVal-metodologie. In die eerste stap word organisme o se inligting uit KEGG databasis onttrek. Elkeen van die M. metaboliese weë word verwerk om te verkry M. geen netwerke. In die tweede stap, M. evaluasies van die insetnetwerk word uitgevoer. Let daarop dat die resultate wat aangebied is verkry is deur ons benadering op vlak 1 toe te pas.
2.1.1. Stap een: Van metaboliese paaie na geneassosiasienetwerke

KEGG-databasis stoor kennis oor baie verskillende organismes, maar ons benodig net die inligting wat betrekking het op die netwerk om ontleed te word. Daarom word slegs die KEGG metaboliese weë vir dieselfde organisme van die insetnetwerk oorweeg. Dit word voorgestel in Figuur 1, waar alle weë van die organisme

Hierdie weë word omgeskakel in geen assosiasie netwerke waar alle tipes roete verhoudings (sien Tabel 1), insluitend geen-geen (PPrel, ECrel en GErel), geen-verbinding (PCrel), en verbinding-verbinding, gebruik word.

Soos voorheen genoem, bestaan ​​'n metaboliese pad uit verskillende tipes nodusse (gene of ander verbindings) terwyl gene slegs in geennetwerke gebruik word. Hierdie verskil toon dat direkte vergelyking tussen hulle onbetroubaar is op grond van die inligting wat verskillende elemente bevat. Hierdie verskil word oorkom deur die abstraksievlak van die paaie te verhoog. Konkreet word elke pad omgeskakel in 'n geenassosiasienetwerk, die hoogste vlak van abstraksie vir rekonstruksie van geenregulerende prosesse soos dit beskryf word deur Martínez-Ballesteros et al. [30]. Hierdie omskakelingsproses word in Figuur 2 voorgestel en hieronder verduidelik.


Die eenvoudigste omskakelingsvoorbeeld. In die eerste substap word die saamgestelde nodusse en die rigting van die verhoudingsrande verwyder. In die tweede substap word nuwe assosiasieverhoudings gevestig.

Eerstens word al die saamgestelde nodusse wat in die pad aangebied word, verwyder. Geen nodusse word egter bewaar saam met hul invloedsverhoudings (nie-direkte rande), of dit nou PPrel, ECrel of GErel is. Die PCrel, verbinding-verbinding en ander verhoudings word op verskillende maniere verwerk.

Die saamgestelde nodusse wat tussen twee gene geleë is, dra inligting van een geen na 'n ander. Hulle dien as 'n brug tussen die gene, so hierdie twee geen nodusse behoort verwant te wees. Op grond hiervan, nadat die saamgestelde nodusse verwyder is, sal nuwe ongerigte geen-geen-verwantskappe geskep word. Hierdie verwantskappe word vasgestel tussen elke paar gene wat voorheen met dieselfde saamgestelde nodus geassosieer was.

Figuur 2 toon die omskakelingsproses vanaf "Padway M" (Figuur 1) na 'n geennetwerk in detail. Byvoorbeeld, gene

word geassosieer met 'n saamgestelde nodus in die pad, maar daar is geen direkte verband tussen hulle nie. Die inligting met betrekking tot hierdie indirekte geen-geen-invloed moet egter in ag geneem word sodat 'n nuwe invloedsverhouding tussen gene geskep word. Net so word 'n verwantskap tussen gene gegenereer

Die omskakeling wat in Figuur 2 aangebied word, is 'n eenvoudige voorbeeld paaie is dikwels meer kompleks. In 'n pad is veelvuldige gene waarskynlik verwant aan dieselfde saamgestelde nodus, of die chemiese verbindings word deur twee of meer gene/ensieme oorgedra. Hierdie twee gevalle moet oorweeg word om 'n volledige omskakeling uit te voer. In die eerste tipe werk verskeie gene op een of ander manier met dieselfde verbinding (substraat van 'n chemiese reaksie, produk, ens.). Hierdie biologiese inligting word bewaar en skep nuwe verwantskappe (sien Figuur 3(a)). In die tweede groep moet die gene wat verantwoordelik is vir die oordrag van die verbindings in die nuwe GN verwant wees, aangesien hulle eintlik gelyktydig met die chemiese verbindings in wisselwerking tree. Gevolglik word nuwe verwantskappe tussen hierdie gene ingesluit (sien Figuur 3(b)).


waar drie gene aan dieselfde verbinding verbind is. In die proses van omskakeling na 'n geennetwerk word nuwe verwantskappe tussen hierdie gene geskep. (b) toon 'n fragment van die

2.1.2. Tweede stap: Biologiese geldigheid

In die tweede stap word die metaboliese weë as biologiese kennis gebruik om die insetnetwerk te evalueer. Gewoonlik pas die literatuur 'n puntemetodologie [1, 27, 29] toe om 'n afgeleide model te evalueer deur voorafkennis te gebruik, hetsy dit sintetiese of biologiese data. Op grond van hierdie idee en op die idee van die sterk en swak verwantskappe in GNs [4], het die skrywers 'n nuwe maatstaf ontwikkel vir die evaluering van die geldigheid van 'n insetnetwerk wat gebaseer is op die relevansie van die geen-geen-interaksies wat in KEGG gestoor is. .

verteenwoordig die nodusse van die grafieke en verteenwoordig die rande (geen-geen-verwantskappe). Die geldigheid van die insetgrafiek ( ), volgens die biologiese inligting van pad

voorgestel in die grafiek, word gemeet as die verskil tussen beide grafieke op sekere vlak van afstand.

Definisie 1 (Vlak). Laat 'n grafiek en twee nodusse

. Die vlak van die verhouding tussen word bereken as die aantal rande tussen nodusse en in.

Byvoorbeeld, in Figuur 4 het die verhouding tussen nodusse en in 'n vlak van

want daar is twee rande tussen hierdie nodusse.


'n Voorbeeld van die vergelyking met behulp van vlak 1 en vlak 2. Voorbeelde van Treffer1 en Tref2 aangebied word. Die pers knope en hul verwantskappe word vir hierdie spesifieke evaluering gesnoei omdat hulle nie aan die metaboliese pad behoort nie.

Definisie 2 (Treffers op vlak l

)). Die aantal rande waar die vlak tussen die nodusse direk verbind is

kan gevind word in Figuur 4, waar die rand tussen gene en die en die rand tussen en is verteenwoordig. Natuurlik hoe groter die afstand tussen nodusse, hoe laer is die relevansie van die geëvalueerde verhouding. Dus, die nuwe ooreenstemmende afstand bied twee geweegde indekse deur vergelyking met die geselekteerde vlak.

Definisie 3. Kumulatiewe treffers op vlak

, kan gedefinieer word as die geweegde som van korrek afgeleide rande op vlak in volgens die inligting wat in aangebied word. Oorweeg

waar dui die som van rande aan wat korrek afgelei is geweeg deur hul relevansie in die netwerk met afstand (vlak) .

Figuur 4 bied 'n voorbeeld van berekening van en .

Definisie 4. Kumulatiewe mislukkings op vlak,

, kan gedefinieer word as die aantal verkeerde afgeleide rande op vlak in

is die aantal rande in. Dui dus die aantal rande aan wat nie korrek in die netwerk afgelei is met afstand (vlak) .

Figuur 4 toon 'n voorbeeld van berekening van

en . Op vlak toon die grafiek een kumulatiewe mislukking as gevolg van die gene en , wat direk in verbind is en 'n afstand van in het. Aangesien die interaksie tussen en swak is (treffer van vlak ), is die waarde van die kumulatiewe mislukkingsvlak

. Gevolglik kan die geldigheidsmaatstaf gedefinieer word.

Definisie 5. Die geldigheid (GeneNetVal-maatstaf) van grafiek volgens vlak ,

, word gedefinieer as die proporsie van korrek afgeleide rande op vlak in. Oorweeg

Hierdie maatstaf wissel tussen en , waar die laagste geldigheidswaarde en die hoogste is. Die geldigheidsmaatstaf skat die verhouding van korrektheid van met betrekking tot .

Die biologiese geldigheid word verkry as die proporsie positiewe voorspelling volgens die kumulatiewe trefslae en mislukkings. Dit is die belangrikste maatstaf wat deur ons metodologie verkry word om die kwaliteit van 'n GN te beoordeel.

2.2. ROC Studie

'n Ontvanger bedryfskenmerk (ROC)-analise sal in die Resultate-afdeling aangebied word. Die doel van hierdie studie is om die prestasie van verskillende geennetwerkgeldigheidsbenaderings te vergelyk, en werklike netwerke te evalueer teen ewekansige netwerke (sonder biologiese sin). Die drie netwerke sal in die eksperiment gebruik word, poog om die regulering van 'n groot aantal funksionele prosesse in gis te omvat. Daarom het ons aanvaar dat hierdie netwerke biologiese betekenis bevat van elke funksionele proses wat in die KEGG-paaie beskryf word (dit is funksioneel komplekse netwerke).

Daarom behoort die evaluering van hierdie netwerke relevante geldigheidsresultate vir elk van die paaie wat oorweeg word, te lewer. Daarteenoor behoort die biologiese geldigheid van ewekansige netwerke swak resultate te lewer omdat dit in werklikheid nie biologiese betekenis behoort te bevat nie.

'n Geldigheidsdrempel (T) is gebruik om te besluit of die insetnetwerk relevante inligting vir elke geselekteerde pad het. T dui die minimum geldigheidswaarde aan vir 'n netwerk met 'n spesifieke pad om as geldige waarde beskou te word. Om die ROC-kromme vir elke eksperiment te genereer, het ons verskillende gebruike T waardes (van tot ). 'n Verwarringsmatriks word vir elke iterasie verkry. As die geldigheidswaarde wat vir 'n pad verkry is, die T waarde, word die insetnetwerk as 'n positief geklassifiseer (ware positief of vals positief, afhangende van of die insetnetwerk 'n regte netwerk of 'n ewekansige netwerk is). As die verkry waarde laer is, word die insetnetwerk beskryf as 'n negatief (ware negatief of vals negatief). Met hierdie idee word die indekse vir elke iterasie vir die verwarringsmatriks bereken.

Dit is dus moontlik om verwarringsmatrikse en ware positiewe koerse (TPR) en vals positiewe koerse (FPR) waardes te bereken om die kromme te teken.

Figuur 5 verskaf 'n speelgoedvoorbeeld wat die hele proses wys (slegs vir een ewekansige netwerk). Dit bied 'n vergelyking tussen die resultate wat deur 'n regte netwerk verkry word en die resultate wat deur 'n ewekansige netwerk verkry word. Met die geldigheidswaardes wat vir beide netwerke verkry is (Figuur 5(a)), is verskillende verwarringsmatrikse volgens verskillende drempels gegenereer, slegs drempels in hierdie voorbeeld (Figuur 5(b)). Dus, vir elke iterasie is dit moontlik om die waardes van TPR en FPR te verkry (Figuur 5(c)). Met hierdie waardes word die ROC-kromme uiteindelik voorgestel (Figuur 5(d)).


Voorstelling van 'n speelgoedvoorbeeld vir die ROC-studie wat uitgevoer is. (a) verteenwoordig die GeneNetVal-proses, waar die geldigheidswaardes vir beide netwerke verkry word. In (b) word die verwarringsmatrikse verkry. Die TPR- en FPR-waardes word in (c) aangebied. Laastens word die ROC-kromme in (d) uitgebeeld.

Dit is belangrik om daarop te let dat die resultate wat in Figuur 6 aangebied word, gemiddelde waardes is vir 'n steekproef van ewekansige netwerke.


(a) Willekeurig
(b) Skaalvry
(c) Willekeurig
(d) Skaalvry
(e) Willekeurig
(f) Skaalvry
(a) Willekeurig
(b) Skaalvry
(c) Willekeurig
(d) Skaalvry
(e) Willekeurig
(f) Skaalvry ROC-ontleding van ons metodologie met behulp van sommige gisnetwerke. Vir hierdie analise is twee verskillende topologieë gebruik: suiwer ewekansige en skaalvrye topologie.
2.3.Kies Funksionele Beskrywing met GeneNetVal

Die spesifieke funksionaliteit van die insetnetwerk kan bestudeer word in ooreenstemming met die biologiese proses inligting stoor in 'n spesifieke KEGG pad. 'n Metaboliese pad verteenwoordig 'n model van 'n bepaalde biologiese proses. Verskillende stelle gene is by verskillende weë betrokke. Dit moet oorweeg word indien 'n funksionele assessering van die insetnetwerk uitgevoer word. As 'n pad 'n stel gene bevat, word hierdie stel geannoteer met die pad se biologiese funksie. Gevolglik sal enige inligting van die insetnetwerk wat nie aan die spesifieke biologiese proses behoort nie, nie vir hierdie validering in ag geneem word nie. Let daarop dat hierdie verwantskappe nie as 'n mislukking beskou moet word nie, want eintlik is daar geen inligting om die geldigheid van die interaksies te klassifiseer vanaf gene in die insetnetwerk wat nie in metaboliese weë teenwoordig is nie.

Hierdie snoeiproses, wat in Algoritme 1 uitgebeeld word, behels die verwydering van enige rand van die insetnetwerk indien die ooreenstemmende gene nie in die spesifieke pad teenwoordig is nie. Die insetnetwerk sal 'n ander snoei vir elke pad ondervind. Deur hierdie snoei kan die insetnetwerk onafhanklik vir elke proses geëvalueer word. 'n Voorbeeld van hierdie snoei word in Figuur 4 getoon waar die pers rande verwyder word vir die vergelyking met die pad.

Na snoei sal die vergelykings met elke pad die geldigheidsmaatstaf toon. Die funksionaliteit wat beskryf word deur die pad met die hoogste waarde van (GeneNetVal-maatstaf) sal die funksionaliteit wees wat die beste by die invoernetwerk pas. 'n Hoë waarde beteken dat die insetnetwerk die funksionaliteit wat deur daardie spesifieke metaboliese pad beskryf word, volledig of gedeeltelik beskryf.

verskillende vergelykings is in Figuur 1 uitgevoer, waar die hoogste waarde gegenereer is deur die geennetwerk wat uit "

Dit is ook moontlik vir die insetnetwerk om inligting oor meer as een spesifieke biologiese proses te bevat. Alternatiewelik is die biologiese prosesse gewoonlik onderling verwant (bv. die selsiklus en die meiose). 'n Voorbeeld van hierdie situasie in Figuur 1 kan die vergelyking tussen die geennetwerk van " " en die insetnetwerk wees. In daardie geval kan die hoogste waardes van die geldigheidsmaatstaf oorweeg word om te bepaal watter prosesse beter beskryf word.

3. Resultate en bespreking

Die prestasie van ons voorstel is getoets deur drie eksperimente met verskillende tipes netwerke. Eerstens is ons voorstel vergelyk met die klassieke gebruik van KEGG. 'n ROC-analise van verskillende afstandsvlakke van GeneNetVal en presisiemeting is uitgevoer. Die gedrag van die voorgestelde metode met verskillende geraasvlakke word in die tweede eksperiment getoets. Laastens word die vermoë van GeneNetVal om die biologiese funksionaliteit wat in 'n insetnetwerk geënkodeer is, op te spoor in die derde eksperiment.

3.1. ROC analise

Die ROC-analise is uitgevoer om die verbetering aan te toon wat deur ons benadering behaal is oor dié wat slegs direkte geen-geen-verhoudings oorweeg [24, 25], tesame met die robuustheid daarvan teen inligting sonder biologiese betekenis (sien Afdeling 2.2).

ROC-analise is wyd gebruik in die literatuur [31, 32] omdat dit in staat is om die prestasie van klassifiseerders en rangorders te beoordeel as 'n afweging tussen 'n ware positiewe koers en vals positiewe koers. Daarbenewens word die area onder die ROC-kromme (AUC) aangebied, aangesien dit inligting verskaf oor die vlak van ewekansigheid van die benadering.

Vir hierdie studie is drie komplekse en kontrasterende gisgeennetwerke met verskillende tipes geenverwantskappe gebruik. 'n Proteïen-proteïen interaksie netwerk is deur Batada et al. [33] in die ontleding van hoogs gekoppelde proteïene in 'n netwerk (hubs). Die netwerk wat voortspruit uit die seleksie van die proteïen-proteïen- en proteïen-DNA-interaksies van die Saccharomyces-genoomdatabasis (SGD) [34] bied toegang tot die volledige Saccharomyces cerevisiae (gis) genomiese volgorde. En uiteindelik is die netwerk aangebied deur Lee et al. [35] (YeastNet v.2) wat proteïen-proteïen, proteïen-DNA, mede-uitdrukking, filogenetiese bewaring en literatuurinligting kombineer.

Vir elke insetnetwerk wat hierbo verduidelik is, is twee verskillende topologieë van ewekansige netwerke oorweeg: suiwer ewekansig en skaalvry. Laasgenoemde topologie word gebruik aangesien biologiese netwerke dit gewoonlik volg [36, 37].

Die steekproefgrootte vir elke insetnetwerk en topologie is bereken met 'n vertrouensinterval van 95% vir 'n oneindige populasie van netwerke [38]. Gevolglik is 'n steekproefgrootte van 385 ewekansige netwerke gebruik. Suiwer ewekansige netwerke is ontwerp om dieselfde nodus en randgrootte as die insetnetwerk te hê, maar geen-geen-verwantskappe is ewekansig gegenereer. Skaalvrye netwerke is gegenereer met behulp van die oopbronbiblioteek JGraphT, met dieselfde nodusse ook. Om inligting wat in KEGG gestoor is, te gebruik, het ons die KGML-lêers van gispaaie onttrek deur die KEGG API te gebruik.

Die resultate van die analise word in Figuur 6 voorgestel, waar elke ry die studie van 'n ander insetnetwerk voorstel. Die linkerkolom in die figuur verteenwoordig die studie vir suiwer ewekansige topologie, en die heel regterkantste toon die skaalvrye topologie. Elke grafiek bevat vyf lyne wat die gedrag van GeneNetVal kodeer met inagneming van die afstandsvlakke van een tot vier en die presisiemaat [30, 39] vir die klassieke gebruik van KEGG. In totaal is meer as 11 000 (3 insetnetwerke × 2 topologieë × 5 mate/vlakke × 385 netwerke) evaluerings uitgevoer.

Die ROC-krommes toon dat die resultate van die drie netwerke 'n soortgelyke patroon vir beide topologieë volg. Veral opvallend is die afstand tussen die punt (1, 1) en die een hierbo. FPR is 1 vir 'n drempel gelyk aan nul (sien Afdeling 2.2 vir meer besonderhede), maar verteenwoordig 'n baie lae waarde vir die volgende kontrolepunt (drempel = 0.01). Dit kan wees as gevolg van die feit dat die gebruik van KEGG as goudstandaard baie effektief is om interaksies met geen biologiese betekenis op te spoor nie.

Vir sommige vlakke begin die lyne nie by punt (0, 0) nie (Figure 6(b) en 6(d)). Dit is omdat sommige KEGG-paaie nie baie interaksies bevat nie (bv. pad bevat slegs ) so 'n ewekansige netwerk kan daardie geenverwantskappe op 'n sekere afstandvlak bevat.

Met betrekking tot die waardes verkry vir die area onder die kromme (AUC), is dit belangrik om daarop te let dat die hoof die aantal tipe verwantskappe wat in die netwerk oorweeg word, hoe beter die metodologie presteer, is. Die beste resultate word verkry deur Lee se netwerk [35] wat vier verskillende tipes verhoudings kombineer. Die tweede beste resultaat word met behulp van SGD gegenereer, terwyl Batada se netwerk die swakste resultaat bied. Dit maak sin aangesien KEGG-paaie biologiese data van verskeie kontrasbronne versamel.

Om die klassieke gebruik van KEGG te vergelyk met vlak 1 van ons voorstel, wat slegs verskil oor hoe die roete-inligting bestuur word, is moontlik om te argumenteer dat die voorgestelde omskakeling aansienlike verbetering in AUC lewer. Vlak 1 lewer in alle gevalle beter resultate. Byvoorbeeld, die AUC-waarde van 0.88 word verhoog tot 0.92 in SGD vir skaalvrye topologie (Figuur 6(d)). Verder is dit moontlik om AUC te verbeter deur die afstandvlak in die vergelyking te verhoog. Die beste resultaat word deur vlak 2 getoon, terwyl vlakke 3 en 4 swakker vaar as vlakke 1 en 2.

Die resultate wat aangebied word, toon dat GeneNetVal in staat is om geenverwantskappe met en sonder biologiese betekenis op te spoor. Verder bied die metodologie 'n beduidende verbetering in vergelyking met die klassieke benadering (presisie) vir alle vlakke wat bestudeer is. In die besonder word die beste prestasie verkry deur vlak 2 vir al die eksperimente.

Ten slotte, ten spyte van die feit dat biologiese databasisse deurslaggewende inligtingsbronne is vir die evaluering van resultate wat in enige studie verkry is, het hulle sekere beperkings. Hierdie beperkings is intrinsiek aan almal van hulle, in die sin dat hulle inherent afhang van die aard van wetenskaplike kennis, ander is voorwaardelik, afhangende van die huidige stand van kennis, insluitend tegnologie [2, 40]. Sulke beperkings kan verkeerde gebeurtenis- of entiteitetikette, wanaanwysings in die verhoudings, afwesigheid van assosiasies en ander onduidelikhede insluit. Gevolglik kan die prestasie van vorige kennisgebaseerde metodes deur hierdie beperkings beïnvloed word, insluitend ons benadering. GeneNetVal kan veral geraak word vir verkeerde gebeurtenis- of entiteitetikette en ook vir die afwesigheid van assosiasie in die metaboliese weë in terme van slegte klassifikasie van verhoudings (verkeerde tref of mislukking). Ten spyte van hierdie feit is dit die moeite werd om te noem dat die klassieke benaderings ook geraak word vir die probleme wat hierbo aangebied word. In hierdie sin bied GeneNetVal 'n meer robuuste prestasie as die klassieke benaderings, aangesien die gebruik van indirekte verwantskappe hierdie probleme versag. Hierdie bevestiging word ondersteun deur die resultate wat in hierdie ROC-analise aangebied word, waar GeneNetVal beter presteer as die klassieke benadering al word dieselfde databasisse (wat dieselfde gebreke bevat) in beide metodes gebruik.

3.2. Willekeurigheidstudie

Ten spyte van die feit dat daar in die ROC-analise-afdeling aangetoon is dat GeneNetVal werklike netwerke beter van ewekansige netwerke onderskei as 'n klassieke benadering wat uit die literatuur onttrek is, sal in hierdie afdeling die gedrag van die metodologie tot die progressiewe insluiting van geraas getoon word.

Konkreet het ons die studie uitgevoer vir al die gisnetwerke wat voorheen in die referaat aangebied is (Batada-, Lee- en SGD-netwerke). Hierdie insetnetwerke is verander deur toenemende ewekansigheid in hul geenverwantskappe. Dus, in 'n lusproses wat uit 10 iterasies saamgestel is, is die ewekansige verhoudings wat by die netwerke gevoeg is, met 10% verhoog by elke iterasie. Op dieselfde manier is 'n 10% van die oorspronklike verhoudings verwyder. Om vooroordeel te vermy, is dit 385 keer gedoen (steekproefgrootte met 'n vertrouensinterval van 95% met die veronderstelling van 'n oneindige populasie van ewekansige netwerke) [38]. Daarom is 15360 (385 netwerke × 10 iterasies × 4 oorspronklike netwerke) verskillende ewekansige netwerke ontleed.

Volgens die resultate wat in die ROC-analise-afdeling aangebied word, is die geldigheidswaarde vlak 2 in hierdie eksperiment oorweeg. As goue standaard het ons die pad (gisselsiklus) gebruik aangesien dit een van die mees bestudeerde weë vanaf gis is [41–43]. Die resultate-gemiddeldes word in Figuur 7 opgesom.


Resultate van die ewekansigheidstudie van GeneNetVal met behulp van vlak 2. Vir hierdie studie het ons verskillende gisnetwerke versus pad gebruik sce04111.

Figuur 7 bied die evolusie van die geldigheidswaardes vir die gisnetwerke aan. Daar kan waargeneem word dat die verskillende geldigheidswaardes 'n soortgelyke gedrag volg. Hierdie gedrag verifieer dat die verlies van relevante inligting in die netwerke progressief is, en dit neem toe namate die ewekansigheid ook in hulle toeneem. Hierdie resultate toon dat ons metode in staat is om die verlies van inligting op te spoor namate die ewekansigheid in die netwerke toeneem.

3.3. 'n Funksionele Studie: Gisselsiklusnetwerke

In hierdie afdeling word 'n paar bekende gisnetwerke gebruik om die bruikbaarheid van ons benadering te bewys deur spesifieke biologiese funksionaliteit op te spoor soos dit in Afdeling 2.3 beskryf is. Hierdie netwerke is geproduseer deur verskillende geennetwerk-afleidingsbenaderings toe te pas op dieselfde tydreeks gis-sel-siklus mikroskikking [44]. Konkreet is die netwerke gegenereer deur die benaderings van die netwerk wat deur Nariai et al. [26], wat verkry word deur 'n Bayes-gebaseerde algoritme Bulashevska en Eils [28] wat 'n ander Bayes-gebaseerde algoritme is Ponzoni et al. [29] wie se algoritme genaamd GRNCORP gebaseer is op 'n kombinatoriese optimering en uiteindelik die netwerk wat deur Gallo et al. [27] (genoem GRNCORP2) wat 'n prestasieverbetering van GRNCORP is.

Vir hierdie studie is al die inligting wat in KEGG gestoor is, in 'n enkele komplekse netwerk saamgevoeg. Hierdie globale netwerk (KEGG globale netwerk, KGN) word gegenereer volgens die kennis wat ingesamel is in elke geenassosiasienetwerk wat gegenereer word vanaf Saccharomyces cerevisiae paaie. Die doel van KGN is om 'n globale evaluering van die verskillende netwerke uit te voer om te besluit of die netwerke biologiese kennis bevat of nie. Spesifiek, die evaluering is met vlak 2 uitgevoer, volgens die resultate wat in die ROC-analise-afdeling verkry is. Om die geennetwerke te vergelyk, is slegs die verwantskappe tussen gene vervat in die insetnetwerk en KGN oorweeg. Dit is nie moontlik om die kwaliteit van daardie interaksies vas te stel nie, want KEGG bevat geen inligting om vas te stel of die geen-geen interaksies biologies relevant is of nie.

In Tabel 2 word die KGN-rye, die globale evalueringsresultate, getoon. Dit is die moeite werd om te noem dat twee van die vier netwerke beter geldigheidsresultate met die KGN verkry as gevolg van die insluiting van 'n groter aantal van die indirekte verwantskappe ( ).


Kyk die video: CS50 Lecture by Mark Zuckerberg - 7 December 2005 (Oktober 2022).