Inligting

1: Ortoloog/Paralog Lab - Biologie

1: Ortoloog/Paralog Lab - Biologie


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Vir hierdie opdrag sal jy jou belyning, jou boom, die name van 'n paar ortoloë, die name van 'n paar paraloge, en 'n kort beskrywing van die betekenis van die geen wat jy gekies het, inlewer. Daarbenewens sal jy 'n "Bylae" hê met aantekeninge oor die stappe (as iets gebeur het by 'n stap wat nie in die instruksies beskryf is nie, as jy iets interessants opgemerk het).

INSTRUKSIES

Kry jou stel reekse

  1. Kry jou "aas" rye.
    1. Gaan na Uniprot en tik YFG-naam + 'n modelspesie in (byvoorbeeld as jy uiteindelik in duisendpoot-gene belangstel, sal jy Drosophila insit). Lees 'n bietjie oor jou geen en blaai af na FASTA. Klik hierop en dit sal jou na die FASTA-geformateerde proteïenvolgorde neem.
      1. As daar meer as een "weergawe" van YFG vir daardie spesie is, kry die FASTA vir almal - hulle is waarskynlik homoloë. As ek byvoorbeeld na Dlx (die Distalless in gewerwelde diere) kyk, vind ek 5 weergawe by mense. So ek sou die FASTA vir elk van hierdie kry. Plaas dit alles in dieselfde teksdokument.
  2. Kry jou "model" rye. Volg dieselfde instruksies vir jou ander twee (of drie) modelle. As jy probleme ondervind om jou modelle te kies, kan jy my vir hulp vra! Voeg dit by die FASTA-teksdokument.
  3. Kry jou "toets" rye
    1. Blast jou "aas" volgorde in NCBI blastp. Beperk jou soektog tot jou toetsspesie, dit help as jy die wetenskaplike naam ken (Wikipedia het hierdie). Kies die rye met 'n evaluasie minder as 1e-10. As daar te veel is, kies net die top 5. As daar nie enige met 'n evaluasie so laag is nie, kies die top 3. Voeg dit by die FASTA teksdokument.
  4. Kry jou "uitgroep" volgorde
    1. Dit moet 'n volgorde wees wat soortgelyk is aan maar nie homoloog is aan YFG nie. Om een ​​te vind, gaan terug na UniProt en klik op BLAST. Plak jou aasvolgorde in en kies die UniRef50-databasis uit die aftrekkieslys en klik hardloop. Wag.
    2. Rol af in die resultatelys totdat jy geenname begin sien wat van YFG verskil. Klik op 'n hoë telling een hiervan en kry die FASTA-volgorde, voeg dit by jou FASTA-teksdokument heel bo.

Maak jou boom

Die volgende stap is om jou rye in lyn te bring en 'n boom te maak. Om rye in lyn te bring, plaas die dele van elke ry wat die meeste ooreenstem, in vertikale kolomme. Dit maak dit makliker om visueel te sien of die rye regtig baie soortgelyk is of nie so baie nie. Jy kan ook soms dinge soos bewaarde domeine in 'n belyning sien. Die ander nuttige ding oor belynings is dat hulle gebruik kan word om ooreenkomste te behaal deur statistiese algoritmes. Hierdie programme gebruik belynings om filogenetiese verwantskappe af te lei.

  1. Plak jou FASTA-geformateerde volgorde in https://www.ebi.ac.uk/Tools/msa/muscle/ en kies Pearson/FASTA as jou uitset. Die uitvoer is belangrik omdat ons 'n uitvoerlêer benodig wat die volgende program kan lees.
  2. Die resultate bladsy het 'n klomp verskillende opsies. Stoor die basiese teksweergawe en klik dan rond om jou belyning op verskillende maniere te visualiseer. Sien jy iets interessants? Enige patrone?
  3. Laai hierdie "belyningslêer" op na http://iqtree.cibiv.univie.ac.at. en klik submit job. IQtree sal by verstek verskillende modelle van molekulêre evolusie op jou data toets en kyk watter een pas. Ons gaan nie fancy modelle gebruik nie, so ons hoef nie dinge soos 'n gammaverspreiding of gratis koers heterogeniteit by te voeg nie. Soos IQtree loop, kan jy die verskil tussen paraloge en ortoloë oordink en/of 'n beskrywing van jou geen begin skryf en wat gebeur het by elke stap wat jy gedoen het om uit te vind oor die genetiese kompleksiteit daarvan in jou nie-model organisme.

Voorbeelduitvoer deur Hyung Joo Kim en Kinsei Imada

Hierdie boom poog om uit te vind of die Drosophila Distalless-familiegeen INDY (I'm Not Dead Yet) 'n homoloog in 'n verwante insek, Folsomia candida (FOLCA), het.

Menslike paralogs is in rooi verpak. Die naaste familielid in hierdie boom aan Drosophila INDY (XP_009059854.1) is 'n weekdier-geen (ortoloë in rooi boks). Die FOLCA geen val binne dieselfde klade as Drosophila INDY, wat daarop dui dat dit 'n INDY homoloog kan wees.

In blou is menslike en Drosophila-verteenwoordigers van 'n voorvaderlike geendupliseringsgebeurtenis.


  • Vergelykende kaarte,
  • kartering van gebruikersdata,
  • interaktiewe web-GUI,
  • REST API, en SPARQL RDF.

Om geenfunksies " volgens tradisie" te raai, herwin ons geenfamilies volgens hulle voorgeslagte, en versamel bekende biologiese rolle van die familielede.

Hoe nader verwant die spesie is, hoe fyner is die geenortologieë.

Ons verwys as ortoloë na alle afstammelinge van 'n bepaalde enkele geen van die laaste gemeenskaplike voorouer, dus verwys ons operasionele definisie na 'n spesifieke filogeniebestraling vir 'n stel spesies, wat die vlak-van-ortologie genoem word.

Let wel: begrippe van ortoloë en paraloge is onsamehangend, bv. paraloë kan ko-ortoloë wees as dit na die spesiasie gedupliseer word of kan nie wees as dit vroeër gedupliseer is nie.


1: Ortoloog/Paralog Lab - Biologie

VIB-UGent Sentrum vir Plantstelselbiologie—Evolusionêre Stelselbiologielaboratorium

ksrates is 'n instrument om heelgenoomduplisering* (WGD's) relatief tot spesiasiegebeure te posisioneer deur gebruik te maak van substitusietempo-aangepaste gemengde paralog-ortoloog verspreidings van sinonieme substitusies per sinonieme terrein (KS).

* of, meer algemeen, heelgenoomvermenigvuldiging (WGM'e), maar ons sal bloot die meer algemene WGD gebruik om na enige vermenigvuldiging te verwys

Om antieke WGD-gebeure met betrekking tot spesiasiegebeure in 'n filogenie te posisioneer, die KS waardes van WGD paralog pare in 'n spesie van belang word dikwels vergelyk met die KS waardes van ortoloog-pare tussen hierdie spesie en ander spesies. Dit is byvoorbeeld algemene praktyk om ortoloog en paralogus te plaas KS verspreidings in 'n gemengde plot. As die betrokke afstammelinge egter verskillende substitusietempo's toon, so 'n direkte naïewe vergelyking van paralog en ortholoog KS skattings kan misleidend wees en lei tot filogenetiese waninterpretasie van WGD-handtekeninge.

ksrates is gebruikersvriendelike opdragreëlinstrument en Nextflow-pyplyn om paralog en ortholog te vergelyk KS verspreidings afgelei van genomiese of transkriptomiese volgordes. ksrates skat verskille in sinonieme substitusiekoerse tussen die betrokke geslagte en genereer 'n aangepaste gemengde plot van paralog en ortoloog KS verspreidings wat dit moontlik maak om die relatiewe filogenetiese posisionering van veronderstelde WGD en spesiasiegebeure te assesseer.

Vir meer besonderhede, sien ons voordruk en die dokumentasie hieronder.

ksrates kan uitgevoer word met óf 'n Nextflow-pyplyn (aanbeveel) óf 'n handmatige opdraglyn-koppelvlak. Laasgenoemde is beskikbaar via Docker- en Singularity-houers, en as 'n Python-pakket om in bestaande genomika-gereedskapstelle en werkvloeie te integreer.

In die volgende afdelings beskryf ons kortliks hoe om die Nextflow-pyplyn te installeer, op te stel en uit te voer en die basiese gebruik van die opdragreël-koppelvlak vir die Docker- of Singularity-houers. Vir gedetailleerde gebruiksinligting, 'n volledige tutoriaal en bykomende installasie-opsies, sien asseblief die volledige dokumentasie.

Om te illustreer hoe om te gebruik ksrates, twee voorbeelddatastelle word verskaf vir 'n eenvoudige voorbeeldgebruiksgeval wat WGD-handtekeninge in eensaadlobbige plante met oliepalm (Elaeis guineensis) as die fokusspesie.

voorbeeld : 'n volledige datastel wat die volledige volgordedata vir die fokusspesies en twee ander spesies bevat en kan ure se berekeninge vereis afhangende van die beskikbare rekenaarhulpbronne. Ons beveel aan om hierdie datastel op 'n rekenaargroepering uit te voer en die ksrates Nextflow-pyplyn behoort dit redelik maklik te maak om dit vir 'n verskeidenheid HPC-skeduleerders op te stel.

toets : 'n klein toetsdatastel wat slegs 'n klein subset van die volgordedata vir elk van die spesies bevat en dit neem slegs 'n paar minute om uitgevoer te word. Dit is slegs bedoel vir 'n vinnige nagaan van die instrument en kan plaaslik uitgevoer word, bv. op 'n skootrekenaar. Die resultate is nie baie betekenisvol nie.

Sien die gebruiksafdelings hieronder en die handleiding vir meer besonderhede.

Installeer Nextflow, amptelike instruksies is hier, maar kortliks:

As jy nie Java geïnstalleer het nie, installeer Java 8 of later of volg hierdie stappe:

Installeer Nextflow deur óf:

Dit skep die volgende vloei-uitvoerbare lêer in die huidige gids. Jy sal dit dalk wil skuif na 'n vouer wat toeganklik is vanaf jou $PATH, byvoorbeeld:

Installeer óf Singularity (aanbeveel, maar sien hier óf Docker. Dit is nodig om die ksrates Singularity of Docker-houer wat alle ander vereiste sagteware-afhanklikhede bevat, dus hoef niks anders geïnstalleer te word nie.

Installeer ksrates: Wanneer u Nextflow gebruik, ksrates en die ksrates Singularity of Docker-houer sal outomaties afgelaai word net wanneer jy die bekendstelling van die ksrates pyplyn vir die eerste keer, en hulle sal gestoor en hergebruik word vir enige verdere uitvoerings (sien Nextflow pyplyndeling). Daarom is dit in hierdie geval nie nodig om handmatig te installeer nie ksrates, gaan eenvoudig voort met die Gebruik-afdeling hieronder.

Ons illustreer kortliks hier hoe om die ksrates Volgende vloei pyplyn op die toetsdatastel.

Kloon die bewaarplek om die toetsdatastelle te kry:

Jy sal dalk die datastelvouer wat jy wil gebruik na 'n ander ligging wil kopieer, byvoorbeeld jou tuisvouer, en dan na daardie gids verander:

Begin die ksrates Volgende vloei pyplyn. (As dit die eerste keer is dat jy die pyplyn begin, sal Nextflow eers aflaai ksrates en die ksrates Singulariteit of Docker-houer.)

Werk plaaslik op 'n skootrekenaar/rekenaar:

Wanneer Singularity gebruik word (aanbeveel):

Die vereiste --config parameter spesifiseer die (pad na die) pyplyn konfigurasie lêer vir die ksrates ontledings wat uitgevoer moet word. As die gespesifiseerde lêer nie bestaan ​​nie (by die gegewe pad) sal 'n nuwe sjabloonkonfigurasielêer gegenereer word en die pyplyn gaan uit. Wysig en vul die gegenereerde konfigurasielêer in (sien die volledige dokumentasie vir meer besonderhede) en voer dan dieselfde opdrag hierbo weer uit om die pyplyn weer te begin.

Die datastelgids bevat reeds 'n vooraf ingevulde ksrates pyplynkonfigurasielêer vir die oliepalm-voorbeeld gebruiksgeval, config_elaeis.txt , daarom moet die bogenoemde Nextflow-opdrag die pyplyn direk begin.

Loop op 'n rekenaargroepering:

Die --config parameter is dieselfde as hierbo.

Die -c parameter spesifiseer 'n Nextflow konfigurasie lêer. Hierdie lêer bevat instellings om die rekenaarkluster op te stel wat gebruik moet word en die pyplynehulpbronne daarop, soos aantal SVE's en hoeveelheid geheue. Dit stel ook nou op of die ksrates Singulariteit of Docker-houer. Die datastelgids bevat reeds 'n sjabloon Nextflow-konfigurasielêer genaamd custom_nextflow.config wat by jou hulpbronne aangepas kan word. Ander algemene sjabloon Nextflow-konfigurasielêers kan gevind word in die doc-gids in die bewaarplek.

As die Nextflow-konfigurasielêer bloot nextflow.config genoem word, sal die konfigurasielêer outomaties herken en gebruik word sonder om dit met die -c parameter te spesifiseer.

Sien asseblief die volledige dokumentasie en die Nextflow-dokumentasie vir meer besonderhede oor Nextflow-konfigurasie, bv. vir verskillende HPC-skeduleerders.

Installeer óf Singularity (aanbeveel, maar sien hier) óf Docker. Dit is nodig om die ksrates Singulariteit of Docker-houer wat bevat ksrates en alle ander vereiste sagteware-afhanklikhede, dus hoef niks anders geïnstalleer te word nie. Die ksrates Singularity of Docker-houer sal outomaties afgelaai word net wanneer jy 'n ksrates bevel op die publiek toeganklike houer vir die eerste keer, en hulle sal gestoor en hergebruik word vir enige verdere beveluitvoerings.

Ons illustreer kortliks hier hoe om te hardloop ksrates met behulp van die Singularity- of Docker-houer.

ksrates kom met 'n opdragreël-koppelvlak. Die basiese sintaksis daarvan is:

Om 'n uit te voer ksrates opdrag deur die Singularity-houer te gebruik, is die sintaksis:

Of om 'n uit te voer ksrates opdrag met behulp van die Docker-houer is die sintaksis:

Een of ander voorbeeld ksrates opdragte is:

Wys gebruik en alle beskikbare OPDRAG s en OPSIES:

Genereer 'n sjabloonkonfigurasielêer vir die fokusspesies:

Wys gebruik en ARGS vir 'n spesifieke OPDRAG:

Begin die ortoloog KS ontleding tussen twee spesies deur gebruik te maak van vier drade/CPU-kerne:

Sien asseblief die volledige dokumentasie vir meer besonderhede en die volledige stel opdragte.

As jy 'n fout teëkom of enige vraag of voorstel het, maak asseblief 'n probleem oop.

As jy resultate publiseer wat gegenereer word deur ksrates, haal asseblief aan:

Sensalari, C., Maere, S., en Lohaus, R. (2021) ksrates: posisionering van heelgenoomduplisering relatief tot spesiasiegebeure deur gebruik te maak van tempo-aangepaste gemengde paralog-ortoloog KS verspreidings. bioRxiv 2021.02.28.433234 doi: 10.1101/2021.02.28.433234

Hierdie artikel is 'n voordruk en is nie deur eweknie-beoordeling gesertifiseer nie [wat beteken dit?].


ToxoDB

Omar S. Harb,. Namens die EuPathDB-groep, in Toxoplasma Gondii (Tweede uitgawe), 2014

19.5.4 Definieer van gene op grond van hul filogenetiese profiel

Ortologie in ToxoDB word gedefinieer op grond van proteïengroeperings wat deur die OrthoMCL-databasis (Chen et al., 2006 Fischer et al., 2011b Li et al., 2003). Hierdie databasis bevat, benewens alle organismes in EuPathDB-hulpbronne, 150 organismes wat belangrike takke van die boom van die lewe verteenwoordig. Deur gebruik te maak van OrthoMCL-groepe kan 'n mens ortoloë binne ToxoDB definieer soos hierbo beskryf in Figuur 19.5 E of 'n filogenetiese profiel definieer van gene teenwoordig in ToxoDB. Byvoorbeeld, om te bepaal watter gene in Figuur 19.5 nie ortoloë by soogdiere het nie, kan 'n 'Orthology Phylogenetic Profile'-stap by die strategie gevoeg word (Fig. 19.6 A en B). Die parameters vir hierdie soektog (Fig. 19.6 C) laat die keuse toe van ortoloog-teenwoordigheid (klik een keer op die grys sirkels langs hele filums of organismes-vinkje) of ortoloog-afwesigheid (klik twee keer op die grys sirkels langs hele filums of organismes rooi 'x'). Ongeselekteerde grys sirkels in Figuur 19.6 C dui op geen voorkeur vir ortoloog-teenwoordigheid of -afwesigheid nie. In die voorbeeld wat in Figuur 19.6 getoon word, is C-gene in ToxoDB met geen ortoloë in enige soogdiere in OrthoMCL gedefinieer. Die toevoeging van hierdie stap by die strategie lei tot 'n totaal van 460 gene wat in ToxoDB bewaar word, maar afwesig in soogdiere (Fig. 19.6 D).

FIGUUR 19.5. Die skep en hersiening van meerstapstrategieë.

A) Deur dieselfde logika as in Figuur 19.4 te volg, kan bykomende stappe bygevoeg word. Hier word die opspringvenster met soekparameters vir die lewensiklusstadiums mikroskikking-eksperiment ( Fritz et al., 2012 ).

B) Resultate van hierdie soektog word gekombineer met die vorige resultate deur 'n snybewerking te gebruik.

C) Die strategie groei met 'n bykomende stap met resultate wat grafies en tabelvormig opgedateer word.

D) Die mikroskikking Affymetrix-skyfie is geskep met behulp van ME49-volgorde (Bahl et al., 2010) dus is resultate slegs vir hierdie ras beskikbaar. Om ortoloë van die ME49-gene in alle spesies en stamme in ToxoDB te vind, kan die resultate egter in ortoloë omskep word.

E) Die strategie bestaan ​​nou uit vier stappe wat alle gene in ToxoDB wys wat transmembraandomeine en/of seinpeptiede bevat en in oösiste en sporozoiete opgereguleer word.

F) Deur op die naam van die strategie te klik, verskyn 'n opspringvenster met bykomende opsies wat toelaat dat 'n stap in 'n strategie hersien, uitgevee of uitgebrei kan word in sub-strategieë.

G) In hierdie voorbeeld word die eerste stap hersien om gene met ten minste 12 transmembraandomeine in te sluit.

H) Hersiening van die eerste stap lei tot die opdatering van al die daaropvolgende stappe in die strategie.

FIGUUR 19.6. Illustrasie van die Filogenetiese Profiel-navraag.

A) Die definisie van gene gebaseer op hul filogenetiese profiel word bereik deur 'n stap by te voeg.

B) Kies die 'Orthology Phylogenetic Profile'-navraag onder die 'Evolusie'-kategorie uit die opspringvenster.

C) Organismes kan ingesluit word (regmerk) of uitgesluit (rooi 'x') om die tipe gene te definieer. In hierdie voorbeeld word slegs gene sonder ortoloë in soogdiere geselekteer.

D) Resultate van hierdie navraag word bygevoeg tot die groeistrategie wat 460 gene in ToxoDB openbaar wat aan al die kriteria van hierdie soekstrategie voldoen. Soekstrategieë kan gestoor en met ander gedeel word deur unieke URL's te gebruik (gegenereer deur op die deelskakel (rooi sirkel) te klik): http://toxodb.org/toxo/im.do?s=bcd12f3c24149bfe .


Wanneer jy twyfel, sê Homoloog!

As twee gene evolusionêr verwant is, word gesê dat hulle homoloog is. So al die soorte gene wat in hierdie artikel genoem word, is homoloë. Dit is die warm, knus kombersterm vir ortoloë en paraloge.

Neem byvoorbeeld die armadillo geen van Drosophila. Dit word &beta-catenin in ander soogdiere genoem, en tog is hulle homoloë. Die nederige vrugtevlieg het talle soortgelyke voorbeelde soos die bazooka-geen (wat PAR-3 by mense genoem word). As jy tyd het, kyk na al die eienaardige name!


Bespreking

Die Orthology Benchmark-diens oorkom baie van die praktiese komplikasies wat voorheen met ortologie-benchmarking verband gehou het. Dit maak 'n sistematiese vergelyking van 'n nuwe metode met die nuutste benaderings tot 'n wye reeks maatstawwe moontlik. Dit vervang huidige praktyk, wat tipies minder metodes, minder toetse en minder empiriese data insluit.

Deur op 'n gemeenskaplike stel data vir alle metodes staat te maak, verseker die maatstafdiens dat die resultate wat deur verskillende metodes verkry word, direk vergelykbaar is. Vorige maatstafpogings het noukeurige en foutgevoelige kartering van proteïene tussen verskillende bronne, vrystellings en keuse van alternatiewe splitsingsvariante vereis. In teenstelling hiermee, deur staat te maak op 'n gemeenskaplike stel data vir alle metodes, verseker die maatstafdiens dat die resultate wat deur verskillende metodes verkry word, direk vergelykbaar is. Die enigste waarskuwing is dat, aangesien proteome in kwaliteit en analitiese moeilikheidsgraad verskil, die resultate op die maatstafdatastel moontlik nie heeltemal die kwaliteit van die ortologie-opdragte weerspieël wat andersins deur elke hulpbron verskaf word nie. Die keuse van spesies ingesluit in die QfO verwysingsproteome (Aanlyn Metodes) vereis 'n kompromie tussen (i) die verhoging van die aantal proteome om die maatstafstel meer verteenwoordigend van huidige hulpbronne te maak en (ii) om die aantal proteome laag te hou om te fasiliteer en aan te moedig nuwe voorleggings tot die maatstaf.

Voorleggings wat op 'n subset van die proteome uitgevoer word, word ontmoedig, aangesien alle ontbrekende voorspellings as vals negatiewe getel word. Dit bied 'n aansporing vir indieners om die hele verwysingsproteoomdatastel te ontleed. Ons het alternatiewe maniere oorweeg om voorleggings oor gedeeltelike data te hanteer, maar hierdie benaderings het groot gebreke gehad. Byvoorbeeld, een alternatief was om tellings wat verkry is op die subset van proteome wat in 'n spesifieke voorlegging oorweeg is, te ekstrapoleer na alle data. Hierdie benadering kan egter 'n vooroordeel in die ontledings inbring (bv. sommige metodes voorspel slegs ortoloë vir 'maklike' pare proteome). Nog 'n alternatief was om vergelykings te beperk tot die kruising van proteome wat deur alle metodes ontleed is. Hierdie benadering lei egter tot 'n oormatige vermorsing van inligting, aangesien die kruising net met elke bykomende metode kan verminder.

Oor die algemeen het resultate verkry oor veelvuldige filogenetiese en funksionele toetse vorige waarnemings bevestig dat die hoofverskil tussen die gevestigde ortologie-afleidingsmetodes lê in die afweging wat hulle produseer in terme van akkuraatheid en herroeping 13,15,17. Hierdie afweging was egter nie teenwoordig in die verwysingsgeenboomtoets nie, miskien omdat rye met dubbelsinnige ligging tipies uitgesluit word van hierdie hand-saamgestelde bome. Op hierdie verwysingsbome het die meta-metode MetaPhOrs besonder goed gevaar. Die ontleding het ook bevestig dat die wyd gebruikte wederkerige beste trefferbenadering 'n relatief hoë presisie maar 'n relatief lae herroeping 38,39 het. Ander metodes vul verskillende nisse, met OMA-groep en PANTHER (almal) wat dikwels aan die twee uiterstes van die presisie-herroeping-afweging lê. Onder die meer gebalanseerde benaderings het InParanoid, Hieranoid en OrthoInspector goeie prestasie in die meeste maatstawwe getoon.

Die besluit om 'n skewe of 'n gebalanseerde benadering tot die presisie-herroeping-afruil te verkies, hang sterk af van die toepassing. Byvoorbeeld, hipotese-genererende ontledings kan 'n hoë herroeping bevoordeel, terwyl filogenomiese spesieboomafleiding tipies hoë akkuraatheid vereis. As gevolg hiervan het ons ons daarvan weerhou om 'n gekombineerde telling te bereken, wat noodwendig 'n stelling van voorkeur met betrekking tot hierdie afweging sou behels.

Om mededingend geag te word, moet 'n metode ideaal die Pareto-grens bereik of oorskry in ten minste 'n subset van die maatstawwe. As dit nie die geval is nie, kan die maatstafdiens help om foute of dieper foute te ontbloot. Analoog aan eenheidstoetsing in sagteware-ingenieurswese, kan benchmarking ook kwaliteitsbeheer verskaf vir nuwe vrystellings van gevestigde hulpbronne. In die loop van die huidige gemeenskapsmaatstafpoging is meer as honderd stelle voorspellings aan die diens voorgelê. Baie indieners het nie hul resultate publiek beskikbaar gestel nie, vermoedelik nadat hulle swak uitkoms in sommige van die maatstawwe ontdek het. Dit demonstreer duidelik die doeltreffendheid van die maatstafdiens vir gehaltebeheer.

Die vlaag van benchmarking is sirkelvormigheid. Ten spyte van ons beste pogings, kon nie alle omsendbrief vermy word nie. Sommige metodes het kennis van die spesieboom in hul afleiding gebruik, maar hierdie potensieel onregverdige voordeel het 'n weglaatbare verskil in prestasie vir hierdie metodes veroorsaak. Meer algemeen is baie metodes opgelei of verfyn met behulp van sommige van die maatstawwe wat hier oorweeg word. Byvoorbeeld, parameters van die meta-metode MetaPhOrs is gedeeltelik opgelei met behulp van TreeFam-A 31. Net so het die nuutste weergawes van InParanoid 28 en PhylomeDB 23 die maatstafdiens gebruik vir parameterfynafstelling. Wat die funksionele maatstawwe betref, alhoewel GO-aantekeninge afgelei van volgordevergelykings uitgesluit is, word eksperimente dikwels gelei deur volgordeooreenkoms met proteïene met bekende funksie. Dus, selfs wanneer ons ontledings beperk tot eksperimenteel gesteunde GO-aantekeninge, kan ons nie omsendbrief heeltemal vermy nie. Omdat die maatstawwe egter gesamentlik deur 'n groot hoeveelheid data van 'n wye reeks spesies (tienduisende bome en honderdduisende pare funksionele aantekeninge) ondersteun word, lyk die risiko van oorpassing laag, en hierdie potensiële risiko sal wees gemonitor deur die QfO-benchmarking-werkgroep. Nuwe maatstawwe kan mettertyd ingestel word om ooraanpassing op te spoor en te ontmoedig.

Tans gebruik die maatstafdiens ortoloë geenpare as 'gemene delers' onder al die metodes. Baie hulpbronne verskaf egter ryker uitsette - soos versoende genebome of hiërargiese ortoloë groepe - en kan inderdaad daarvoor geoptimaliseer word. Die prestasie op paarsgewyse data is dus nie heeltemal verteenwoordigend van wat die data bied nie. In die toekoms kan die maatstafdiens egter uitgebrei word om hierdie ryker, meer spesifieke ortologieformate ook te evalueer. Net so kan die maatstafdiens ook uitgebrei word om vertrouetellings of posterior waarskynlikhede in ag te neem, wat veral relevant is vir waarskynlikheidsgebaseerde ortologie-inferensiemetodes 40,41.


Materiale en Metodes

Annotasie data

Ons het alle annotasiedata van die FTP-werf van die UniProt-GOA-databasis afgelaai [41].

Ons het die Gene Ontology (GO) woordeskat gebruik vir funksionele annotasie [28]. Ons het alle aantekeninge ingesluit wat deur 'n kurator toegeken is (bewyskodes EXP, IMP, IGI, IPI, IEP, IDA, ISS, RCA, IC, NAS, TAS), en uit die nie-gekureerde aantekeninge (bewyskode IEA), het ons dié ingesluit afgelei van UniProtKB-sleutelwoorde, UniProt Subsellulêre Liggingterme, Ensiemkommissie-nommers en InterPro (verwysingskodes GO_REF:0000004, GO_REF:0000023, GO_REF:0000003 en GO_REF:0000002, onderskeidelik). Ten spyte daarvan dat dit nie saamgestel is nie, het 'n onlangse verslag getoon dat hierdie elektroniese aantekeninge van hoë gehalte is, veral vir die enigste geanaliseerde Prokariote, E coli [42] en Figuur S7 in Teks S1

Ons druk die spesifisiteit (teenoorgestelde van algemeenheid) van 'n GO-term GO uiti met betrekking tot die inligtinginhoud daarvan:

waar freq(GOi) is die frekwensie van GOi onder alle aantekeninge vir die twaalf verwysingsgenome [43].

Die OMA-algoritme en die OMA-databasis

Die OMA-algoritme is 'n grafiek-gebaseerde metode van ortologie-afleiding [35]. Roth et al. verskaf volledige besonderhede van die algoritme, en ons som die hoofpunte op wat relevant is vir ons werk. Die algoritme begin met 'n alles-teen-almal-volgordebelyning: proteïene van twee spesies word verbind as hulle die beste tweerigtingtreffers is, binne 'n vertrouensinterval, in die vergelykende spesie. Die verbindings tussen 'n paar proteïene word verbreek wanneer een van hulle die beste tweerigting-treffer is met een van die proteïene in 'n gekoppelde paar in 'n derde spesie, en die ander is die beste tweerigting-treffer met die tweede proteïen in dieselfde paar as die gebreekte pare is afgeleide paralogs. Die oorblywende verbindings is afgeleide ortoloë. Laastens is OMA-kliek van ortoloë subgrafieke waar alle proteïene deur ortoloë verwantskappe verbind word (Figuur 1).

In hierdie werk gebruik ons ​​slegs OMA-kliek wat ten minste 10 lede groepeer.

Die OMA-algoritme is beskikbaar as 'n selfstandige weergawe, die resultate kan ook op die OMA-webwerf geblaai word [44].

Annoteer OMA klieks van ortoloë

Omdat een noodsaaklike komponent van ons werk die annotering van OMA-klieke van ortoloë is op grond van die proteïene wat hulle bevat, het ons eers gekyk of OMA-kliek proteïene met dieselfde funksie bevat. Eerstens is ongeannoteerde OMA-lede gemerk met die GO-bepalings van geannoteerde OMA-lede by vier drempels: as 30, 50, 70 of 90% van OMA-lede die onderskeie funksie het. Om hierdie etikette toe te ken, het ons slegs aantekeninge gebruik wat beskikbaar is in die 16-01-2008 UniProt-GOA-vrystelling.

Vervolgens het ons die aantekeninge in die meer onlangse 17-10-2011 UniProt-GOA-vrystelling nagegaan. Vir elke ongeannoteerde proteïen beskou ons die gemerkte funksie as bevestig as die proteïen die onderskeie annotasie in die meer onlangse vrystelling bevat, beskou ons die benoemde funksie as verwerp as die proteïen dieselfde aantekening langs 'n ‘NOT’-kwalifiseerder (eksplisiete verwerping) of 'n nuwe aantekening bevat wat nie die gepropageerde een is nie (implisiete verwerping). Om 'n meer robuuste maatstaf te maak, som ons die bevestigde en afgekeurde aantekeninge vir elke GO-term op. Ons het hierdie maatstaf ‘Koherensie van 'n GO-term genoem.’ Meer formeel,

waar is die stel bevestigde aantekeninge wat met term GO geassosieer wordi en is die stel afgekeurde aantekeninge wat met term GO geassosieer wordi. Ons verantwoord die definisie van die GO: die toewysing van enige GO-aantekening veronderstel die toewysing van al die GO-ouerterme.

Dit is 'n konserwatiewe skatting van samehang: ons beskou 'n aantekening wat dalk nog nie by die databasis gevoeg is nie as verwerp. Aantekeninge word voortdurend by UniProt-GOA-databasis gevoeg, en die annotasie-opdateringsinterval vir 'n geen kan so lank as 12 jaar wees [42]. Om vir hierdie vooroordeel te vergoed, het ons koherensie op 'n drie-jaar interval geëvalueer, aangesien die meeste gene in E coli word binne daardie tydsraamwerk bygewerk.

Vir elke GO-term hang die funksionele koherensie af van die opgelegde annotasiedrempel (Figuur 7): toe 'n groter fraksie van OMA-lede in 2008 die GO-aantekening ondersteun het, het ons meer nuut geannoteerde proteïene gevind wat hierdie voortgeplante GO-aantekening ondersteun in 2011. Die nadeel. van die toenemende drempel was 'n kleiner aantal GO-terme wat in annotasie gebruik kan word en gevolglik 'n kleiner aantal geannoteerde OMA-groepe wat gebruik is in die opleiding van die annotasiemodel. Ons het die drempel van 50% as 'n kompromie gekies: vir die meeste GO-terme is die nuut geannoteerde proteïene in ooreenstemming met die voortgeplante funksies𠅏raksie van korrek voorspelde nuut aangekome annotasies is groter as 0,9𠅎n ons bly oor met genoeg spesifieke GO-terme vir funksionele annotasie (Figuur 7, paneel C): 422 GO-terme uit die Biologiese Proses-ontologie, 48 GO-terme uit die Sellulêre Komponent-ontologie en 264 GO-terme uit die Molekulêre Funksie-ontologie. Ons gebruik die 50%-drempel regdeur hierdie werk.

Filetiese profiele

Die filetiese profiel van 'n OMA-kliek van ortoloë word geënkodeer as 'n vektor van binêre waardes. Die vektor se lengte is 998 items𠅍ie aantal prokariotiese genome wat by ons werk ingesluit is. Elke posisie in die vektor dui die teenwoordigheid of afwesigheid van 'n OMA-klieklid in die onderskeie genoom aan. Daar is 64052 geannoteerde en ongeannoteerde OMA filetiese profiele in ons datastel (Figuur 1).

Ons het die filetiese profiele verryk, eerstens deur die ontbrekende ortoloë aan OMA-klieklede te koppel (Figuur 1, vol lyne), en tweedens deur die paraloge (Figuur 1, stippellyne) aan OMA-klieklede te koppel. Ortoloë sluit een-tot-een-ortoloë, een-tot-veel-ortoloë, veel-tot-een-ortoloë en baie-tot-veel ortoloë in.

Masjienleeralgoritmes

Die Clus-HMC [7] algoritme bou besluit bome vir hiërargiese multi-etiket klassifikasie (HMC). In teenstelling met gewone klassifikasiebome [45], wat vir enkel-etiket annotasie gebruik kan word, is Clus-HMC in staat om veelvuldige, hiërargies georganiseerde klasetikette te hanteer, soos terme uit die Gene Ontology. Dit bou besluitebome vir HMC deur die standaard besluitboomleeralgoritme uit te brei: Dit verdeel die opleidingsdata in substelle gebaseer op kenmerkwaardes, om die geweegde som van afwykings vir alle klasetikette binne die substelle wat na die verdeling tot gevolg het te minimaliseer [7] .

In hierdie geweegde som, 'n parameter w0 kan gebruik word om meer gewig te plaas op óf die meer spesifieke óf die meer algemene GO-terme. Die verstekwaarde van hierdie parameter is 0,75, wat meer gewig op meer algemene terme plaas. Verandering van die verstekwaarde van die w0 parameter om meer gewig op die spesifieke terme te plaas, sal hulle bevoordeel, wat moontlik die akkuraatheid van die meer algemene terme verruil vir 'n wins in akkuraatheid van die meer spesifieke terme. Om te toets vir moontlike wins, het ons met verskillende waardes van die w geëksperimenteer0 parameter om hoër gewig te plaas op óf die meer algemene GO-terme (verstekwaarde, w0 =𠂠.75 w0 =𠂠.5) of op die meer spesifieke GO-bepalings (w0 =𠂡/0.75 =𠂡.33 w0 =𠂡.75 w0 =𠂢.0 w0 =𠂣.0). Clus-HMC-Ens het geblyk sterk te wees vir die waarde van die w0 parameter (Figuur S8 in teks S1): ons het nie 'n beduidende verandering in die AUPRC-waardes aangeteken nie (p-waarde was nie laer as 0.28 in die vyf getoetste waardes van die w0 parameter, Wilcoxon-tekenrangtoets), en ons het dus die verstekwaarde in al ons berekeningseksperimente gebruik.

Daarbenewens stel die hiërargie van klasetikette afhanklikhede tussen die klasse bekend: Clus-HMC is bewus van die hiërargiese verhoudings tussen die veelvuldige etikette en gebruik hierdie inligting om voorspellende prestasie te verbeter.

Die Clus-HMC-algoritme is uitgebrei na 'n ensemble-omgewing (Clus-HMC-Ens) [18], waar 'n bos van besluitnemingsbome vir HMC aangeleer word: Die voorspellings van die individuele bome word gekombineer om die algehele voorspelling van die ensemble te verkry. Clus-HMC-Ens implementeer, onder andere, die Random Forest (RF) ensemble [19] benadering, waar die individuele bome gekonstrueer word deur 'n ewekansige weergawe van Clus-HMC te gebruik. Each tree is constructed from a different sample of the training dataset: The bagging (Bootstrap aggregating) methodology of resampling the dataset [46] is used to construct the different samples. One bootstrap sample consists of the same number of examples as the original dataset, but they are randomly drawn with replacement consequently a bootstrap sample contains about two thirds of unique examples. A model𠅌lus-HMC decision tree—is produced from each of the bootstrap samples.

When estimating the classification error, out-of-bag estimates are calculated. The examples that were omitted from the bootstrap sample—one third of the original dataset𠅊re used in calculating Precision, Recall, and Area Under the Precision-Recall Curve (AUPRC). The estimates are based on the random sample, and the measures are therefore unbiased. To check whether adding paralogs improves the functional annotation model regardless of the machine learning algorithm used, we inferred functional annotation models with the standard approach used in phyletic profiling: transfer of function via pairwise distance measures between phyletic profiles, as implemented in a kNN classifier (Figure S9 in Text S1). The conclusions presented above do not change: the model that includes both orthologs and paralogs outperforms the model that includes only orthologs. Because Clus-HMC-Ens outperforms kNN in computational efficiency and predictive accuracy, we used Clus-HMC-Ens throughout this work.

Evaluating the functional annotation models

We compare models of functional annotation using Precision-Recall curves: in the Precision-Recall space, Recall is on the x-axis, and Precision is on the y-axis. Traditionally, Precision and Recall are defined for binary classification: an instance either has or does not have the label in our case, each OMA clique either has or does not have a GO annotation. Precision and Recall are defined for each GO term:

where is the number of correctly predicted true annotations (“True Positives”), is the number of incorrectly predicted true annotations (�lse Positives”), and is the number of missed true annotations (�lse Negatives”).

Precision stands for the fraction of correctly predicted examples out of all the predictions, and Recall stands for the fraction of correctly predicted examples out of all known to be true.

Here, we are dealing with a multi-class problem: each OMA clique can be annotated with multiple GO terms. The classifier we are using is adapted for such a problem and assigns a probability that each OMA group is assigned each of the GO terms. By varying a cut-off for the probability form 1.0 to 0.0, we are relaxing the stringency of the predictions: an increasing number of OMA groups are assigned an increasing number of GO terms. Fixing this cut-off at the three values and calculating Precision and Recall for each GO term created visualizations in Figure 3 .

The probabilities allow us to have a ranking of GO annotation predictions for OMA cliques and proteins therein. In addition to the ranking, we wanted to have an intuition for the number of candidates we need to experimentally examine in order to get confirmed annotations. Therefore, we translated the probabilities to Precision for each GO term. Similarly as above, we varied the cut-off for the probability, and calculated the corresponding Precision for each GO term at each probability cut-off: out of all the OMA clique annotations that pass the threshold, we counted the number of true positives, and the number of false positives.

To compare models in Figure 2 , we used a single measure of performance that combines Precision and Recall: Area Under the Precision-Recall Curve (AUPRC). To calculate AUPRC, we first varied the probability cut-off from 1.0 to 0.0 and obtained the Precision-Recall curve. We then calculated the area that is enclosed between the Recall axis and the curve. The closer AUPRC is to 1.0, the better the model.

Bacterial strains, growth conditions, and antibiotic treatments

All deletion mutants used herein were derived from wild-type sequenced Escherichia coli MG1655 by P1 transduction. P1 phage was grown on a series of Keio collection deletion mutants listed in Table S1. Successfully transduced mutants were selected on LB plates supplemented with kanamycine.

Bacteria were grown in LB broth at 37ଌ, to the exponential phase (OD600 =𠂠.2𠄰.3). Viable cell counts were estimated by plating serial dilutions on LB plates, as well as LB plates supplemented with 400 ug/mL kasugamycine (inhibitor of translation initiation), 4 ug/mL nalidixic acid (causes severe DNA damage, including double strand breaks), and 3 ug/mL ampicillin (inhibitor of cell wall synthesis). Plates were incubated overnight at 37ଌ. The concentrations of antibiotics used in this study were selected as the concentrations that lead to �% survival of the wild type E.coli.

Sources of data and software

The orthology and paralogy data from the OMA database, May 2011 version was kindly provided by A. Altenhoff.

The cross-references for the various gene/protein identifiers (UniProt, GenBank, Entrez GeneID) were downloaded from the NCBI FTP site [http://www.ncbi.nlm.nih.gov/Ftp/].

GO annotations were downloaded from the UniProt-GOA FTP site. We used the 2008-01-16 and the 2011-10-17 UniProt-GOA releases to evaluate the consistency of OMA group annotations, 2011-10-17 UniProt-GOA release to create all the annotation models, and 07-02-2012 UniProt-GOA release to estimate the frequency of occurrence of a GO term in the UniProt-GOA database [http://www.ebi.ac.uk/GOA/].

Final dataset files in ARFF format, as given to the Clus-HMC-Ens algorithm (Datasets S1 and S2).

The Clus-HMC-Ens algorithm is available for download as part of the predictive clustering framework Clus [http://www.cs.kuleuven.be/


Abstract

The human cytochrome P450 (CYP) superfamily consisting of 57 functional genes is the most important group of Phase I drug metabolizing enzymes that oxidize a large number of xenobiotics and endogenous compounds, including therapeutic drugs and environmental toxicants. The CYP superfamily has been shown to expand itself through gene duplication, and some of them become pseudogenes due to gene mutations. Orthologs and paralogs are homologous genes resulting from speciation or duplication, respectively. To explore the evolutionary and functional relationships of human CYPs, we conducted this bioinformatic study to identify their corresponding paralogs, homologs, and orthologs. The functional implications and implications in drug discovery and evolutionary biology were then discussed. GeneCards and Ensembl were used to identify the paralogs of human CYPs. We have used a panel of online databases to identify the orthologs of human CYP genes: NCBI, Ensembl Compara, GeneCards, OMA (“Orthologous MAtrix”) Browser, PATHER, TreeFam, EggNOG, and Roundup. The results show that each human CYP has various numbers of paralogs and orthologs using GeneCards and Ensembl. For example, the paralogs of CYP2A6 include CYP2A7, 2A13, 2B6, 2C8, 2C9, 2C18, 2C19, 2D6, 2E1, 2F1, 2J2, 2R1, 2S1, 2U1, and 2W1 CYP11A1 has 6 paralogs including CYP11B1, 11B2, 24A1, 27A1, 27B1, and 27C1 CYP51A1 has only three paralogs: CYP26A1, 26B1, and 26C1 while CYP20A1 has no paralog. The majority of human CYPs are well conserved from plants, amphibians, fishes, or mammals to humans due to their important functions in physiology and xenobiotic disposition. The data from different approaches are also cross-validated and validated when experimental data are available. These findings facilitate our understanding of the evolutionary relationships and functional implications of the human CYP superfamily in drug discovery.


Erkennings

We thank Wim Damen for all his support and mentoring, and for many productive discussions about spider genetics and development.

Funding

This work was supported by NIH grant NHGRI U54 HG003273 to RAG, the National Science Foundation (IOS-0951886 to NAA and DEB-1257053 to JHW), a Leverhulme visiting fellowship for EES (VF-2012-016), funding and PhD studentships (DJL, LG and AS) from Oxford Brookes University, and a Conselho Nacional de Desenvolvimento Científico e Tecnológico (CNPq) scholarship to CLBP. N-MP was funded by the Deutsche Forschungsgemeinschaft (grant numbers PR 1109/4-1, PR 1109/7-1 and PR 1109/6-1 to N-MP). Additional financial backing has been received from the Göttingen Graduate School for Neurosciences, Biophysics and Molecular Biosciences (GGNB), the Göttingen Center for Molecular Biosciences (GZMB), and the University of Göttingen (GAU). NT is supported by a Christiane-Nüsslein-Volhard-Foundation fellowship and a “Women in Science” Award by L'Oréal Deutschland and the Deutsche UNESCO-Kommission. NP has been funded by the Volkswagen Foundation (project number: 85 983) and the Emmy Noether Programme of the Deutsche Forschungsgemeinschaft (grant number: PO 1648/3-1). Funding to RJ was provided by the Swedish Research Council VR grant 621-2011-4703.

Availability of data and material

The raw sequences for P. tepidariorum have been deposited in the NCBI SRA: BioSample ID SAMN01932302. For C. sculpturatus, the raw sequences have been deposited in the NCBI SRA: BioSample SAMN02617800. For P. tepidariorum the assembly has been deposited in the NCBI: BioProject PRJNA167405 (Accession: AOMJ00000000). For C. sculpturatus the final assembly has been deposited in the NCBI: BioProject PRJNA168116.

The annotated P. tepidariorum genome is available at https://i5k.nal.usda.gov/JBrowse-partep.

The annotated C. sculpturatus genome is available at https://apollo.nal.usda.gov/cenexi/jbrowse.


2. Results

2.1. Alignment of 57 Human CYPs

14 amino acid C-terminal. These motifs are functionally essential for the enzymatic activity.

2.2. The Paralogs, Homologs and Orthologs of CYP1A1, 1B1, 1A2, 17A1, and 21A2

2.3. The Paralogs, Homologs and Orthologs of CYP2 Family

10% Caucasian). Based on the identification and characterization of a non-functional CYP2D7 gene and a 2D8P pseudogene, gene duplication events may give rise to CYP2D6 and 2D7 , and that gene conversion events occur later to generate CYP2D8P .

25% of the drugs that are metabolized by CYPs such as tamoxifen, imipramine, codeine, and dextromethorphan. CYP2D6 is conserved in chimpanzee, Rhesus monkey, rat, chicken, and frog. In NCBI HomoloGene 68, CYP2D6 has 8 homologs in 5 species. These include chimpanzee, Rhesus monkey, rat, chicken, and frog. Based on NCBI Annotation Pipeline, 77 organisms have orthologs with CYP2D6 (Table S2). These include non-human primates, rodents, even-toed ungulates and whales, other mammals, birds, fishes, other vertebrates, etc. In Ensembl 84, CYP2D6 has 97 orthologs from 49 species of chordates including 11 species of non-human primates, 8 species of rodents, 12 species of Laurasiatheria, 35 species of placental mammals, 7 species of Sauropsida, and 0 species of fishes (Figure 3 and Table S3). In GeneCards 4.1.1, CYP2D6 has orthologs in 12 species including chimpanzee, mouse, rat, etc. (Table S4).

2.4. The Paralogs, Homologs and Orthologs of CYP3, 4, 5, and 46 Families

231 kb, containing 4 CYP3A genes: CYP3A4 , 3A5 , 3A7 and 3A43 , as well as 2 pseudogenes including ( CYP3A51P/3A5P1 and 3A52P / 3A5P2 ). CYP3A54P and 3A137P are two additional pseudogenes in CYP3 family, which map to chromosome 7q22.1. The human CYP3A subfamily is involved in the oxidative metabolism of a wide range of substrates, including more than 50% of all currently marketed drugs, endogenous steroids and xenobiotics. CYP3A4 and 3A5 are mainly expressed in the liver and intestine, while CYP3A5 appears to be primarily expressed in extrahepatic tissues. CYP3A4 is most abundantly expressed in the liver while CYP3A5 expression at the protein level is only about 10.6% of that of CYP3A4. Both CYP3A4 and 3A5 share substrate specificity and so it is often difficult to identify their relative contribution to the overall metabolism of a substrate. CYP3A4 , 3A5 , 3A7 , and 3A43 share paralogs from human CYP superfamily and orthologs from various species with slight differences only. CYP3A7 is a fetal-specific CYP. CYP3A43 has very low expression in the liver. In GeneCards 4.1.1, CYP3 , 4 , and 5 members are paralogs to each other (Table 1). Ensembl 84 also includes CYP46A1 as the paralog of CYP3 , 4 , and 5 families (Figure 4 and Table 1).