Inligting

32: Persoonlike genome, sintetiese genome, berekening in C vs. Si - Biologie

32: Persoonlike genome, sintetiese genome, berekening in C vs. Si - Biologie


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

32: Persoonlike Genome, Sintetiese Genome, Rekenaar in C vs. Si

Sintetiese biologie, metafore en verantwoordelikheid

Metafore is nie net dekoratiewe retoriese middele wat spraak mooi maak nie. Hulle is fundamentele instrumente om oor die wêreld te dink en op die wêreld op te tree. Die taal wat ons gebruik om 'n beter wêreld te maak maak saak woorde saak metafore maak saak. Woorde het gevolge – etiese, sosiale en wetlike, sowel as politieke en ekonomiese. Hulle moet 'verantwoordelik' gebruik word. Hulle moet ook noukeurig bestudeer word – dit is wat ons deur hierdie hoofartikel en die verwante tematiese versameling wil doen. In die konteks van sintetiese biologie het natuur- en sosiale wetenskaplikes toenemend belanggestel in metafore, 'n golf van belangstelling wat ons wil ontgin en versterk. Ons wil voortbou op opkomende artikels en boeke oor sintetiese biologie, metafore van die lewe en die etiese en morele implikasies van sulke metafore. Hierdie hoofartikel bied 'n kort inleiding tot sintetiese biologie en verantwoordelike innovasie, sowel as 'n omvattende oorsig van literatuur oor die sosiale, kulturele en etiese impak van metafoorgebruik in genomika en sintetiese biologie. Ons doel is om 'n interdissiplinêre en internasionale gesprek te stimuleer oor die impak wat metafore op wetenskap, beleid en publieke in die konteks van sintetiese biologie kan hê.


Inleiding

Poliploïdie verskaf nuwe genetiese grondstof vir evolusionêre diversifikasie, aangesien geenduplisering kan lei tot die evolusie van nuwe geenfunksies en regulatoriese netwerke 1 . Nietemin is heelgenoomduplisering (WGD) 'n relatief seldsame voorkoms by diere in vergelyking met swamme en plante 2 . Twee rondes van antieke WGD het in die laaste gemeenskaplike voorouer van die gewerwelde diere voorgekom, met bykomende rondtes in sommige teleostvis-afstammelinge 2,3,4. Bevestiging van hierdie WGD-gebeure (d.w.s. 'poliploïdisering') word beskou as 'n groot krag in die vorming van die evolusionêre sukses van vertebrate-afstammelinge, deur fundamentele veranderinge in fisiologie en morfologie te fasiliteer, wat lei tot die oorsprong van nuwe aanpassings 5,6. Onder die ongewerwelde diere verteenwoordig hoefysterkrappe 7,8,9, spinnekoppe en skerpioene 10 die enigste geslagsvoortplantende afstammelinge wat bekend is dat hulle WGD ondergaan het (Fig. 1a).

a Skematiese diagram wat die huidige kennis van heelgenoom duplisering (WGD) in diere illustreer. '?R' dui op onbekende rondes van heelgenoom duplisering b prente van hoefysterkrappe C. roundicultata en T. tridentatus c Herhaal inhoud vir die twee hoefyster krap genome, C. rotundicauda en T. tridentatus: Sirkeldiagramme wat herhaalde inhoud as 'n proporsie van totale genomiese inhoud illustreer Herhaal inhoud teenwoordig in geniese verse intergeniese streke en Herhaal landskap plotte wat transponeerbare element aktiwiteit in elke hoefyster krap genoom illustreer. Brondata toon dat hierdie syfers in Aanvullende Data 8 gevind kan word.

Perdeskoenkrappe word as 'lewende fossiele' beskou. Die oudste werklike fossiele van hoefysterkrappe dateer uit die Ordovisiese tydperk

450 miljoen jaar gelede (Mya) 11, en merkwaardig genoeg bly bestaande spesies morpologies relatief onveranderd sedert hierdie uiters antieke datum. Ten spyte van hul lang geskiedenis is daar egter net vier bestaande spesies hoefysterkrappe wêreldwyd: die Atlantiese hoefysterkrap (Limulus polyphemus) van die Atlantiese Ooskus van Noord-Amerika, en die mangrove hoefyster krap (Carcinoscorpius rotundicauda), die Indo-Stille Oseaan hoefyster krap (Tachypleus gigas), en die drie-werwel hoefyster krap (Tachypleus tridentatus), van Suid- en Oos-Asië 12 . Alle bestaande hoefysterkrappe het na raming afgewyk van 'n gemeenskaplike voorouer wat bestaan ​​het

135 Mya 13, en hulle deel 'n voorvaderlike WGD 9. 'n Genoomsamestelling van hoë gehalte is onlangs aangekondig as 'n genomiese hulpbron vir T. tridentatus 14,15 , wat 'n opwindende navorsingsgeleentheid gelaat het om die genome van ander hoefysterkrapspesies te ontleed om te verstaan ​​hoe WGD-gebeure die genoom hervorm en genetiese regulatoriese netwerke in ongewerwelde diere herbedraad.

In die huidige studie verskaf ons die eerste hoë kwaliteit genoom van die mangrove hoefyster krap (C. rotundicauda), en 'n hervolgorde-genoom van die drie-ruggraat hoefyster krap (T. tridentatus). Dit is belangrik dat ons bewyse aanbied vir die aantal rondtes WGD wat in hierdie genome plaasgevind het, en ondersoek of dit 'n gedeelde gebeurtenis met spinnekoppe verteenwoordig. Ons ondersoek ook die evolusionêre lot van gene en mikroRNA's op beide die individuele en bevolkingsvlak in hierdie genome. Gesamentlik beklemtoon hierdie studie die evolusionêre gevolge van 'n unieke ongewerwelde WGD, terwyl dit terselfdertyd gedetailleerde genetiese insigte van bruikbaarheid vir diverse genomiese, biomediese en bewaringstoepassings verskaf.


Bespreking

Die opkoms van genomika en die impak daarvan op menslike gesondheid

Die Menslike Genoomprojek, wat in 1990 gestig is, was een van die duurste en mees samewerkende ondernemings wat nog ooit in die wetenskap aangepak is. Tien jaar sedert die voltooiing daarvan het dit voortgegaan om 'n magdom nuwe inligting te verskaf, waarvan die implikasies nog nie ten volle verstaan ​​word nie [8]. Die oop-toegang-aard van die projek het wetenskaplikes, sowel as wetenskaplike maatskappye, gestimuleer om beter volgorde-instrumente en gepaardgaande analitiese sagteware te ontwikkel. Die daaropvolgende innovasies het gehelp om die prys van heelgenoom-volgordebepaling oor die jare te verlaag, van byna $3 miljard by die ontstaan ​​daarvan tot minder as $3 000, wat dit toeganklik maak vir navorsers van verskillende biomediese dissiplines [14].

Volgorde-instrumente sal 'n belangrike rol speel in die ontwikkeling van persoonlike medisyne. Sommige opeenvolgingstegnologieë word reeds in klinieke gebruik om genetiese toestande te toets, komplekse siektes te diagnoseer of pasiëntmonsters te skerm vir seldsame variante. Hierdie toetse laat gesondheidswerkers toe om 'n siekte akkuraat te diagnoseer en toepaslike medikasie spesifiek vir die pasiënt voor te skryf [15, 16]. Met die onlangse ondersteuning van NIH-toekennings in die VSA, word neonatale volgordebepaling ondersoek om seldsame en komplekse afwykings van pasgebore babas te ondersoek [17, 18]. Daar is tegnologieë in ontwikkeling wat nie-indringende maniere moontlik maak om 'n genoom van 'n ongebore kind te orden [19]. Gepersonaliseerde genoomvolgordebepaling sal die toekoms van die gesondheidsorglandskap transformeer. Die toename in die aantal geselekteerde genome skep egter nuwe probleme. Die manier waarop die genoomontledingsagteware werk, is veral deur vergelyking van die verkrygde rye met 'n verwysing. Omdat die menslike genoom verskil tussen verskillende individue, wat is die verwysingsvolgorde? Wat is die drempel om algemeen van seldsame DNA-variante te onderskei?

Te midde van al hierdie interessante implikasies van genoomvolgordebepaling bly die debat oor die korrekte gebruik van wetenskaplike terminologie voort. Spesifiek, die nomenklatuur “mutation” en “polimorfisme”, en ook “puntmutasie” versus “SNP”, kan onafhanklik gebruik word in die, naam, om 'n verskil te beskryf in vergelyking met die 'n verwysing. Uit 'n streng grammatikale en etimologiese oogpunt is 'n mutasie 'n gebeurtenis (van mutasie) en 'n polimorfisme is 'n toestand of kwaliteit (van polimorfies wees), maar hierdie terme het by uitbreiding vinnig die gevolglike gebeurtenis of toestand self beteken. In beginsel kan 'n punt-DNS-variant as 'n mutasie of SNP gemerk word. Aangesien geen duidelike reëls beskikbaar is nie, maak tans gebruikte sagteware-instrumente wat gebruik word vir genoomvolgordebepaling geen opdrag nie en benoem die verskil bloot as DNA-variant, wat die onderskeid tussen die twee kategorieë vervaag.

“Mutasie” en “polimorfisme”: vroeëre definisies

Die eenvormige en ondubbelsinnige beskrywing van volgordevariante in menslike DNA en proteïenvolgordes (mutasies, polimorfismes) is geïnisieer deur twee referate wat in 1993 gepubliseer is [20, 21]. In hierdie konteks word enige seldsame verandering in die nukleotiedvolgorde, gewoonlik maar nie altyd met 'n siekteveroorsakende eienskap nie, 'n “mutation” [22] genoem. Hierdie verandering in die nukleotiedvolgorde mag of mag nie fenotipiese veranderinge veroorsaak nie. Mutasies kan van ouers geërf word (kiemlynmutasies) of oor die lewe van 'n individu verkry word (somatiese mutasies), laasgenoemde is die hoofdrywer van menslike siektes soos kanker. Kiemlynmutasies kom in die gamete voor. Aangesien die nageslag aanvanklik afkomstig is van die samesmelting van 'n eiersel en 'n sperm, kan kiemlynmutasies van ouers ook in elke kernsel van hul nageslag gevind word. Mutasies ontstaan ​​gewoonlik as gevolg van onherstelbare DNA-skade, replikasiefoute of mobiele genetiese elemente. Daar is verskeie hoofklasse DNA-mutasies. 'n Puntmutasie vind plaas wanneer 'n enkele nukleotied bygevoeg, geskrap of vervang word. Saam met puntmutasies kan die hele struktuur van 'n chromosoom verander word, met chromosomale streke wat omgedraai, geskrap, gedupliseer of getranslokeer word [23]. 'n Ander soort DNA-mutasie word gedefinieer as ȁkopiegetalvariasie”. In hierdie geval word die uitdrukking van 'n geen versterk (of verminder) deur verhoogde (verminderde) kopiegetal van 'n lokus-alleel [24, 25].

'n Variasie in die DNS-volgorde wat in 'n populasie voorkom met 'n frekwensie van 1 % of hoër word 'n polimorfisme genoem [26]. Die hoër voorkoms in die bevolking dui daarop dat 'n polimorfisme natuurlik voorkom, met óf 'n neutrale óf voordelige effek. Polimorfismes kan ook van een of meer nukleotiedveranderinge wees, net soos mutasies. Die SNP is 'n voorbeeld van die algemeenste polimorfisme, wat vermoedelik elke 1 000 basispare in die menslike genoom voorkom, en word gewoonlik gevind in gebiede wat proteïenkoderende gene [27] – streke flankeer wat nou erken word as krities vir mikroRNA-binding en regulering van geen/proteïen uitdrukking [28]. SNP's kan egter ook voorkom in koderende volgordes, introne of in intergeniese streke [27]. SNP's word as genetiese handtekeninge in bevolkings gebruik om die aanleg vir sekere eienskappe, insluitend siektes [29] te bestudeer.

Die anatomie van die probleem

In die era van gevorderde DNS-volgordebepalingsinstrumente en persoonlike genomika, is hierdie vroeëre definisies van mutasie en polimorfisme verouderd. Voordat meervoudige parallelle volgordebepaling ontwikkel is, was dit onmoontlik om verskeie kere die genoom van dieselfde pasiënt te volgorde. Om hierdie redes was dit destyds vereis om 'n verwysingsvolgorde te gebruik wat afkomstig is van die samestelling van veelvuldige genome. In die voorbereiding van die konsensusvolgorde is 'n arbitrêre drempel van 1 % vasgestel om algemene (polimorfisme) van seldsame (mutasie) variante te onderskei [26].

Die 1 % of hoër frekwensie wat met 'n polimorfisme geassosieer word, is 'n arbitrêre getal [30] wat deur wetenskaplikes aanbeveel word voor die era van Next Gen Sequencing. Die drempel is arbitrêr, wat die populasie self herdefinieer kan die klassifikasie beïnvloed, met seldsame variante wat polimorfismes word of polimorfismes wat skaars variante word volgens die populasie wat ontleed is. Vir dekades is die gebruik van hierdie frekwensie om bevolkingsmodelle te ontwikkel verkies bo die gebruik van volgordebepalingsinstrumente, wat op daardie tydstip foutgevoelig en arbeidsintensief was. Met die koms van nuwe volgordebepalingtegnologieë en die daaropvolgende volgordebepaling van individue, het 'n heel ander prentjie van bevolkingsdinamika begin na vore kom. Daar is gevind dat mutasies wat vermoedelik skaars is in 'n populasie die frekwensiedrempel wat op 1 % gestel is, oorskry [31]. Selfs meer verbasend, daar is 'n gebrek aan assosiasie van sommige van hierdie seldsame mutasies met menslike siektes. Wanneer bevolkings wat deur geografiese en fisiese hindernisse geskei word, vergelyk word, word gevind dat 'n siekteveroorsakende mutasie in een bevolking skadeloos is in 'n ander, en omgekeerd [32].

Byvoorbeeld, sekelselanemie word veroorsaak deur 'n nukleotiedverandering (SNP rs334) in 'n geen wat kodeer vir die beta-ketting van die hemoglobienproteïen [33]. Trouens, rs334 word as 'n SNP geklassifiseer, aangesien sy geringe alleelfrekwensie in die bevolking ϡ % is. Die siekte manifesteer in mense wat twee kopieë van die gemuteerde geen (rs334(TT) genotipe) het. Sekelselanemie is gewoonlik skaars (ρ %) in die bevolkings van ontwikkelde lande [34]. Die heterosigotiese vorm van die geen (rs334(AT) genotipe) is egter aanhoudend in bevolkings van Afrika, Indië en ander ontwikkelende lande, waar malaria endemies is [33]. In hierdie geografiese liggings het heterosigote draers van rs334 'n oorlewingsvoordeel teen die malariapatogeen, en daarom word hierdie voordelige mutasie deur die nageslag na opvolgende generasies oorgedra [35�]. Hier kan 'n seldsame variant, wat in een bevolking (ontwikkelde nasies) 'n ernstige siekte in homosigose veroorsaak, in 'n ander bevolking voortduur om 'n oorlewingsvoordeel te verleen as 'n polimorfisme in heterosigose [38]. Sulke uitsonderings neem toe en toon die behoefte om die terme mutasie en polimorfisme te herdefinieer. Die onderskeid tussen mutasie en polimorfisme op grond van hul siekteveroorsakende vermoë is verder ingewikkeld. Alhoewel daar gedink word dat dit natuurlik voorkom, het onlangse navorsing oor SNP's getoon dat hulle met siektes soos diabetes en kanker geassosieer kan word. Daar is getoon dat ten minste 40 SNP's met tipe 2-diabetes alleen assosieer [39]. Kortom, dit is nie moontlik om die funksionele rol van variasies te klassifiseer volgens frekwensie in die populasie of hul vermoë om 'n siekte te veroorsaak nie.

Konteks van persoonlike genomika

Hierdie debat oor “mutasie” en “polimorfisme” moet dringend geëvalueer word in die era van Next Gen Sequencing en presisie medisyne. Veelvuldige internasionale samewerkingsprojekte soos ENCODE (Encyclopedia of DNA elements) en HapMap (Haplotype Map) het gevolg om al die gene, genetiese variasie en regulatoriese elemente van die genoom te karteer, om assosiasies met menslike biologie, persoonlike eienskappe en siektes te vind [40 ].

In hierdie klimaat ontwikkel kommersiële maatskappye soos Illumina en Roche gevorderde en robuuste platforms wat pas by die behoefte van beide klein en groot navorsingsfasiliteite. Die toenemende mededinging tussen hierdie maatskappye het gelei tot baie verskillende tegnologieë, wat nou beskikbaar is om nuwe insigte in genomika te fasiliteer [11]. Net so is gevorderde genomiese gereedskap en analitiese sagteware ontwikkel wat onafhanklik van die betrokke platform kan funksioneer. Navorsers wat instrumente soos CLC-genomika, Next Gene en Geno Matrix gebruik, kan toegang verkry tot volgordebepalingdatastelle en dit aflaai vir hul eie vaartbelynde navorsing. Die primêre doel van sulke navorsing is om na subtiele, komplekse en dinamiese volgordevariasies te soek. Die gebrek aan konsekwente definisies en 'n eenvormige wetenskaplike taal kan hierdie komende veld belemmer, waar genomiese platforms verkeerde hipoteses kan formuleer en navorsers data verkeerd kan interpreteer op grond van vroeëre definisies.

Die probleem is veral belangrik in die geval van presisiemedisyne en persoonlike behandelings. Byvoorbeeld, een van die hoofredes om die genoom van 'n kanker te orden, bestaan ​​uit die identifikasie van unieke genetiese kenmerke van kankerselle wat dan geteiken kan word met 'n persoonlike behandeling [41]. Gevolglik word dit vereis om die somatiese mutasies van die kankerselle te klassifiseer en sodanige kennis te gebruik om terapeuties al die verskille tussen kanker- en niekankerselle te ontgin. Om dus met 'n geteikende middel behandel te word, moet 'n kankerpasiënt die teiken uitdruk wat ontstaan ​​het deur die spesifieke mutasie wat in kankerselle voorkom. Sou 'n verskil egter verkeerd geklassifiseer word, word dit moontlik dat 'n polimorfisme (aanwesig in al die selle van die pasiënt) as 'n somatiese mutasie geneem kan word. Die resultaat kan 'n toksiese effek wees, aangesien die doelgerigte behandeling beide kanker- en nie-kankeragtige selle sal beïnvloed wat dieselfde genetiese variant dra. Hierdie probleem word voorkom as beide kiemlyn- en somatiese kankergenome in dieselfde pasiënt se volgorde gerangskik sou word.

Nog 'n belangrike rede onderliggend aan die behoefte van so 'n onderskeid is dat 'n siekte kan ontstaan ​​met twee daaropvolgende mutasies volgens die twee-treffer hipotese [42]. Binne 'n populasie kan 'n kiemlynmutasie (eerste treffer) 'n subset van pasiënte predisponeer vir 'n tweede, somatiese, mutasie waarvan die effekte die siek fenotipe sal skep [43]. In hierdie konteks sal dit uiters nuttig wees om tussen somatiese en kiemlynmutasies te onderskei om populasies in gevaar te identifiseer. Byvoorbeeld, veelvuldige meningiome kom voor in 㰐 % van meningiomapasiënte. N eerste kiemlyn mutasie in die SMARCB1 geen sal predisponeer vir meningioma, maar dit sal slegs plaasvind wanneer 'n somatiese mutasie in die NF2 geen gryp in [44]. In die afwesigheid van 'n duidelike onderskeid tussen somatiese en kiemlynvariante kan hierdie soort patogeniese ontdekking onmoontlik wees.

Hierdie benadering word nou deur 'n onlangse studie ondersteun. Jones et al. geëvalueer 815 tumor-normale gepaarde monsters afkomstig van 15 verskillende tumor tipes [45] met behulp van Next Gene Sequencing. Biblioteekvoorbereiding is uitgevoer met twee metodes, heel eksoom voorbereiding en geteikende amplifikasie, vir 111 gene. Ontledings is dan uitgevoer asof slegs die kankerweefsel in volgorde gerangskik is (verwysing menslike genoomsamestelling GRch37-lite) of met die kiemlyn DNA van dieselfde pasiënt as verwysing. Met die eerste ontleding het die skrywers 'n baie hoë koers van vals-positiewe variante gerapporteer (31 % en 65 % in eksoom- en geteikende biblioteke, onderskeidelik). Verder het hulle kiemlynmutasies in 3 % van die kankers geïdentifiseer, selfs al kom dit uit 'n kohort sonder familiegeskiedenis (sporadiese kanker). Noudat die nuwe volgordebepalingtegnologie die koste van volgordebepaling dramaties verminder het, vereis presisiemedisyne en persoonlike genomika dat die verwysing van die DNA-volgordebepalingsprojek van die kiemlyn-DNS van dieselfde pasiënt verkry moet word.

Deurlopende debat en HGVS (Human Genome Variation Society) aanbevelings

Die voortdurende debat onder wetenskaplikes om die nomenklatuurmutasie en polimorfisme op te los, is 'n stap in die regte rigting. Die HGVS, 'n alliansie van 600 lede uit 34 lande, inkorporeer bespreking en aanbevelings om konsensusdefinisies en beskrywings van generiese terme te vestig wat wêreldwyd aanvaar word. Sedert die vroeë 1990's was die HGVS instrumenteel in sy strewe om die mutasienomenklatuur te standaardiseer. Die aanbevelings van die HGVS is gebaseer op uitgebreide besprekings onder wetenskaplikes oor die jare.

Die referate wat oor hierdie onderwerp gepubliseer is vir die afgelope 20  jaar toon dat HGVS visioenêr was om nuwe veranderinge en uitbreidings aan te beveel gebaseer op ontdekkings van relatief komplekse variante. In 2002 het verskeie navorsers probeer om hierdie nomenklatuurprobleem aan te spreek en die uitdagings om meer inklusiewe definisies te maak. 'n Spesiale artikel deur Condit et al. gevind dat mutasie al hoe meer negatief in konnotasie geword het sedert die gebruik daarvan in die biologiese wetenskappe, maar veral in die loop van die 20ste eeu [22]. Hierdie negatiwiteit van die term het verskans geraak met bestralingseksperimente en die gebruik van atoomwapens tydens die Tweede Wêreldoorlog, en later met wetenskapfiksieboeke en -flieks. Die referaat het voorgestel dat 'n beter term soos “variation” en 𠇊lteration” nuttig kan wees, maar die inkonsekwente gebruik daarvan in die wetenskaplike wêreld maak dit problematies.

Meer onlangs het bykomende referate die dringendheid beklemtoon van 'n ȁkonsensus” wat die keuse van die volgordebepalingmetodes (data-insameling) en verslagdoening lei. Hierdie studies wys daarop dat die akkurate klassifikasie van patogene variante 'n gestandaardiseerde benadering en die bou van databewaarplekke vereis, insluitend al hierdie data [46]. In hierdie konteks het Richards et al. namens die American College of Medical Genetics and Genomics (ACMG) het opgemerk dat die terme “mutation” en “polymorphism” dikwels lei tot verwarring as gevolg van verkeerde aannames van onderskeidelik patogeniese en benigne effekte. Hulle het dus aanbeveel dat beide terme vervang word deur die term “variant” met die volgende wysigers: (i) patogenies, (ii) waarskynlik patogenies, (iii) onsekere betekenis, (iv) waarskynlik benigne, of (v) benigne [47].


32: Persoonlike genome, sintetiese genome, berekening in C vs. Si - Biologie

Persoonlike genomika is van kritieke belang om ons vermoë om genetiese siektes te behandel en voorkomend te diagnoseer, te bevorder. Ten spyte van die moontlikhede om medisyne te verpersoonlik, bly dit egter grootliks gekoppel aan die gewig van 'n paar beduidende rekenaarprobleme. Dit sluit alles in van berging tot rekenaar tot kode, wat almal kwessies op die tafel was by die Nasionale Sentrum vir Superrekenaartoepassings&rsquo (NCSA) Privaat Sektor Program Jaarvergadering.

Dr. Victor Jongeneel, Senior Navorsingswetenskaplike by NCSA en die Instituut vir Genomiese Biologie aan die Universiteit van Illinois, het tydens die geleentheid sommige van die knelpunte en moontlike oplossings uiteengesit wat verwagtinge vir persoonlike genomika gegrond hou.

In die geval van persoonlike genomika, is die probleem nie die wetenskaplike begrip van die genoom self nie, dit is hoe om die massiewe data van opeenvolgers te rekonstrueer, te vergelyk en sin te maak. Hy beweer dat die ontwrigtende deel van hierdie tegnologie as geheel gewortel is in ons vermoë om werklik die data te bekom. Volgens Jongeneel was die hoeveelheid DNS-volgordedata wat verlede jaar gegenereer is meer as wat oor die hele geskiedenis van volgordebepaling voor dit gegenereer is.

Persoonlike genomika is tans alles behalwe 'n werklikheid, sê Jongeneel. Hy merk op dat die reeks nuwe dienste wat bied om jou genoom vir 'n paar honderd dollar te volgorde, ver van volledige diens is. Hulle neem eenvoudig DNS uit 'n speekselstel, ondersoek 'n sekere aantal posisies in genome waarvan bekend is dat dit veranderlik is en probeer dan persoonlike eienskappe uit daardie inligting aflei. Hy beweer dat dit nie persoonlike genomika is nie, want in so 'n geval is al wat jy wil ondersoek bekende verskille tussen individue in die bevolking en nie jou eie genoom nie. Boonop, om te doen wat nodig is vir 'n opregte blik op 'n mens se persoonlike genomika is baie meer berekeningsintensief en sal veel meer as 'n skamele paar honderd dollar behels.

Om ware persoonlike genomika te realiseer, moet alle verskille tussen individue ontleed word. Jongeneel het verduidelik dat ons beweeg na hierdie meer omvattende genomiese steekproefneming via goed befondsde projekte soos die 1000 Genomes Initiative, wat daarop gemik is om die generering van alle nodige data vir $1000 moontlik te maak. Hy sê dit sal binnekort moontlik wees, maar weer is die rekenkundige knelpunte die hoofbeperking.

Jongeneel noem drie van die belangrikste tegnologieverkopers wat volgende-generasie-volgordebepaling verskaf en sê dat hoewel hul benaderings gemiddeld verskil vir 'n opeenvolgende genoom, loop hulle vir 8 dae vir 200 gigabasisse se inligting. Dit kom neer op meer as een teragreep per menslike genoom.

Wanneer dit&rsquos menslike genome volgordes is die resultaat van 'n paar honderd miljoen (of selfs 'n miljard) lees & mdasha nommer wat afhang van die tegnologie verskaffer. Van daar af moet navorsers bepaal waar hulle vandaan kom in die genoom relatief tot algemene verwysingsgenome. Hierdie eenvoudige belyningsproses waardeur die individuele genoom vergelyk word via belyning met die verwysingsgenoom, is ongelooflik veeleisend op berekening, en is die volgende stap waar 'n mens hierdie belyning moet interpreteer om individuele verskille te dokumenteer en om seker te maak dat daar konsekwentheid is.

Jongeneel sê dat hierdie belyningstap tipies 'n paar dae neem net vir die verwerking van 'n enkele monster aangesien dit in lyn is met die verwysingsgenoom. Om die proses verder te bemoeilik, het ons almal stukkies DNS wat noodwendig in die DNS van ander gevind word. Alhoewel dit klein verskille is, sê hy dit kan 'n baie groot verskil maak. Ontleding van hierdie unieke stukke vereis 'n volledige samestelling van individuele leeswerk om navorsers in staat te stel om te sien hoe die groter struktuur van die genoom kan lyk. En dit word selfs meer veeleisend.

Die herbou van genome vereis die konstruksie van hoogs komplekse grafieke, wat self 'n druk op rekenaarhulpbronne is. Dit is selfs meer veeleisend wanneer 'n mens die grafiek moet ondubbelsinnig maak om sin te maak daarvan in terme van 'n werklike genoomvolgorde. Daar is immers stukke volgorde wat van die masjiene afrol wat in die orde van tussen 75-100 nukleotiede lank is en jy probeer om genome te herkonstitueer wat in die miljoene of biljoene nukleotiede lank is. Dit is die wetenskaplike ekwivalent daarvan om 'n selgrootte stuk in 'n massiewe tafelbladlegkaart te pas.

Meer konkreet as die legkaartbeeld, oorweeg dit: Jongeneel sê dat as jy 'n hele genoom uit hierdie soort inligting wil rekonstrueer, sal jy waarskynlik oor die konstruksie van 'n grafiek praat, waarskynlik meer as 3 miljard nodusse met meer as 10 miljard rande daaraan hê . Dit is natuurlik met die veronderstelling dat daar geen foute in jou data is nie wat, hy vra om verskoning, waarskynlik daar is. Die rou tyd wat geneem word vir 'n algoritme op 'n medium-grootte groepering die samestelling behoorlik neem 'n paar weke vir elke genoom.

Jongeneel sê dit is die soort bottelnek wat keer dat sommige interessante genomiese projekte posvat. Daar is byvoorbeeld tans 'n poging om die hele reeks DNS vir 'n paar honderd gewone gewerwelde diere te volgorde. Om daardie inligting te stoor en 'n paar weke vir elke individuele spesie te spandeer, maak dit egter vir nou buite bereik. Hy sê daar is hoop op die horison, maar dit gaan 'n herbesinning van kode en rekenaar verg.

Hy sê die probleem lê grootliks in die sagteware self. Sy span het 'n toets gedoen op die wydgebruikte genoomsamesteller ABySS, wat 'n wye aantrekkingskrag het aangesien dit MPI gebruik en 'n broodnodige groepsomgewing kan benut. Hulle het die samestelling vir 'n beskeie-grootte genoom van 'n gis onderneem en opgemerk dat dit duidelik was, gebaseer op muurhorlosie en geheuevereistes, dat dit nie 'n skaalbare kode was nie.

Hy sê dit dui op 'n veel dieper probleem en baie van diegene wat genomika-sagteware ontwikkel, is professionele ontwikkelaars. Alhoewel hulle 'n paar komplekse algoritmiese idees integreer, voldoen die kode wat hulle skryf &ldquoisn&rsquot aan die standaarde van die HPC-gemeenskap.&rdquo

Hy het verder hieroor kommentaar gelewer en gesê dat wat die nodigste is 'n hoogs parallelle genoomsamesteller is. Hy het gewys op 'n mate van vordering in die arena van 'n groep by die staat Iowa, maar sê ongelukkig is &rsquot hul sagteware nie in die publieke domein nie, so dit is nie beskikbaar nie, ons kan dit toets en dit is nie in die gemeenskap nie.

'n Verteenwoordiger van Microsoft in die gehoor het Jongeneel gevra oor wat die oplossing vir hierdie probleem kan wees, met die vraag of dit 'n eenvoudige behoefte is aan meer parallelle programmeerders, beter gereedskap of tale om dit te ontwikkel, of 'n ander nuwe tipe skaalbare oplossing. Jongeneel het geantwoord dat aangesien die meeste van die kode wat geproduseer word, navorsingsgraad is en die tegnologie so vinnig beweeg dat dit &ldquonew&rdquo kode binne baie min tyd verouderd maak. Hy sê dat kommersiële pogings om dieselfde rede misluk het en sodra hulle 'n lewensvatbare, skaalbare oplossing opgelewer het, is hulle agtergelaat deur die vinnige beweging na nuwe oplossings.

Jongeneel het gesê dat as jy aan persoonlike genomika dink, as ons selfs na die doelwit van een miljoen mense wil beweeg, sal ons in 'n japtrap die exabyte-reeks bereik. Hy voel dat hierdie datastelle boonop ontleed moet word deur werkvloeie met veelvuldige komplekse stappe te gebruik, dus vereis ons 'n fundamentele herbesinning van rekenaarargitekture wat hierdie soort navorsing kan moontlik maak.

Afgesien daarvan, beweer hy dat een kantvraag is wat ons moet doen met die massiewe hoeveelheid rou data wat waardevol is vir toekomstige navorsing (en soms in elk geval wetlik taai om nou van ontslae te raak). Met hierdie rou data in groot volume sê hy dat onttrekking van &lsquorelevante&rsquo-inligting die probleem is. Jongeneel merk op, Data-analise en patroonontdekking op groot getalle genome sal nodig wees om betekenisvolle resultate te lewer.


Bespreking

Hier bied ons wat tans die oudste byna volledige MIV-genoom is, vanaf 1966 in Kinshasa, DRK. Hierdie DRC66-monster is 10 jaar ouer as die voorheen vroegste gekarakteriseerde volle genoom, 'n 01A1G-stam wat in 1976, ook in DRC, uit bloed geïsoleer is, maar wat selkultuurgange voor volgordebepaling ondergaan het (38). Daar is slegs nege ander MIV-1-genome beskikbaar vanaf die voorontdekkingsfase van VIGS (1978 tot 1982), almal subtipe B van die Verenigde State (25). Die oudste MIV-1 genomiese fragmente is afkomstig van plasma- en FFPE-monsters van 1959 en 1960, weer albei van Kinshasa, DRK (11, 12). Alhoewel dit onbetwisbare bewyse gelewer het van die teenwoordigheid en groot diversifikasie van MIV-1-groep M twee dekades voor die ontdekking daarvan, laat die kort reekse wat herwin is nie volledige karakterisering van die betrokke MIV-1-stam toe nie en bevat slegs 'n fraksie van die filogenetiese inligting wat in volledige genome voorkom.

Om volgorde dekking oor die DRC66 argiefgenoom te bereik, was arbeidsintensiewe amplifikasie van oorvleuelende kort fragmente tussen 54 nt en 106 nt in 'n hoogs sensitiewe jackhammer PCR prosedure nodig. In vergelyking het geen van die >65 miljoen lees van 'n Illumina MiSeq-lopie sonder voorafversterking op dieselfde monster MIV-1-volgordedata bevat nie. Laasgenoemde benadering het egter 'n volle genoom teen 3 000 × dekking van 'n griep A H1N1-stam in 'n FFPE-monster vanaf 1918 verskaf (24). Miskien was die verskil in sukses die gevolg van verskillende bergingstoestande in 'n vogtige tropiese versus 'n gematigde streek, soos blyk uit die meerderheid van ons leeswerk wat afgelei is van omgewingsorganismes wat die monster kon binnegedring het tydens voorbereiding of berging, of, meer waarskynlik, van 'n betreklik lae virale titer in die FFPE limfknoopmonster.

Wêreldwyd word meer MIV-1-groep M-gevalle veroorsaak deur stamme wat aan die subtipe C-klade behoort as enige ander klade, grootliks omdat Suider-Afrika die hoogste MIV-1-las dra en subtipe C daar oorheers (39). Filodinamiese ontledings het na raming in suidoostelike DRK ontstaan ​​en het aangedui dat subtipe C-stamme van daar na suidelike Afrika versprei het via verbindings tussen mynstede (13). By die LANL MIV-volgordedatabasis word tans ongeveer 19% van MIV-1-volgordes van DRK as subtipe C geklassifiseer (meestal gedokumenteer vanaf gedeeltelike geenvolgordes). Die DRC66-volgorde verteenwoordig 'n susterlyn van die subtipe C-klade, en redelik uiteenlopend: ons skat dit het 'n gemeenskaplike voorouer met subtipe C gedeel sowat 20 jaar voor die tyd van die gemeenskaplike voorouer van konvensionele subtipe C. Dele van gag en pol van drie onlangs beskryfde intersubtipe rekombinante genome van Kinshasa en Mbuji-Mayi gemonster in 2008 (17), en deel van 'n gedeeltelike pol sequence sampled in Sweden in 2000 (40), appear to be the only reported contemporary sequences that also belong to this lineage in part of their genomes, although we cannot be certain we did not miss any short sequence stretches of, e.g., complex recombinant forms that would also cluster with this clade. Villabona-Arenas et al. (17) and Rodgers et al. (19) describe additional so-called divergent C lineages sampled between 1997 and 2012 in DRC that are monophyletic with conventional C with respect to the DRC66 lineage, yet form distinct sister lineages to subtype C. Similarly, for most other HIV-1 subtypes, more divergent lineages can be found in DRC (in particular Kinshasa) and other central African countries than in other regions where the more restricted within-subtype diversity arose in a relatively short time after founder events. The DRC66 genome provides a unique insight into the subtype C-like diversity that would have been present in DRC in the 1960s. The fact that particular residues of the translated integrase protein of DRC66 are known to induce resistance to integrase inhibitor drugs, which were obviously developed long after DRC66 was sampled, highlights that the natural 1960s diversity already harbored some genetic basis for anti-HIV therapy failure.

We further investigated whether the phylogenetic information in the suite of HIV-1 genomes sampled across the past decades, almost all after the discovery of HIV-1, reliably captures HIV-1’s evolutionary rates over the longer time frame that includes HIV-1’s long prediscovery phase in humans. Few calibration points from direct biological observations are typically available to test such conclusions for real-world analyses, especially for such a medically important pathogen. Crucially, such ancient DNA calibration points can lead to dramatic changes in evolutionary histories once thought to be definitively established. For example, recently reported hepatitis B virus sequences from the Bronze age and Neolithic suggested a 100-fold slower evolutionary rate for this double-stranded DNA virus than previously thought (41 ⇓ –43), and such data are prompting updates to evolutionary clock models to better accommodate time-dependent rate variation (10). Because it is impossible to completely rule out such biases without complete genomic information from an early evolutionary time point, we believe it is important to attempt to recover such information from surviving HIV-1 specimens.

Reassuringly, in the context of HIV-1 group M, we do not observe that an “ancient” HIV-1 genome significantly changes evolutionary inferences based on phylogenies built from more-recent genomes. Indeed, there is remarkably little difference in key estimates—including the overall age of the pandemic lineage of HIV—when this sequence is included in phylogenomic analyses. Given that it is more than 50 y older than currently circulating HIV-1 strains, this sequence provides direct evidence for the reliability of dating estimates over the last half-century of HIV-1 circulation. This stands in contrast to the disconnection between short-term rates observed in SIVs and the rates at which SIV strains evolve when averaged across centuries or millennia of evolution in natural populations of different primate species, where molecular clock dating theory has difficulties accommodating the rate differences (6).

Interestingly, our analysis highlights an often-overlooked source of uncertainty in evolutionary divergence dating based on any sample of genomes. The suite of HIV-1 genomes sampled from patients and available in public databases is inevitably a very limited subsample of the true diversity of HIV-1 group M. To investigate the degree of variation such an unavoidable sampling process induces, we subsampled the available GenBank sample of nonintersubtype recombinant HIV-1 group M genomes from Africa, only retaining a small set of genome samples before 1990 in each sample. While credible intervals of all dating and rate estimates overlapped substantially, the overall variation between subsamples was larger than that induced in each subsample when DRC66 was either included or excluded. Besides variation in the underlying evolutionary models used in different studies, usage of different HIV-1 genome dataset samples could also explain why our HIV-1 group M TMRCA estimates are somewhat older here than previously reported: 1920 (95% HPD 1909 to 1930) (13), 1930 (1911 to 1945) (44), 1932 (1905 to 1954) (15), 1920 (1902 to 1939) (14), and 1908 (1884 to 1924) (11). Across our five investigated subsamples, HIV-1 group M TMRCA confidence intervals ranged from 1881 to 1918. We did not further explore the sensitivity of TMRCA estimates to various evolutionary model specifications, though it has been shown for example that the choice of coalescent tree prior may influence TMRCA estimates of HIV-1 for Bayesian inferences (11, 45). While a skygrid coalescent model should be appropriate (46), a recent study that was also based on complete HIV-1 genomes but that used a combination of an exponential and logistic growth model as tree prior (47) estimated 1915 to 1925 as the HIV-1 group M TMRCA. Taken together, while most estimates of the origin of the pandemic lineage of HIV-1 indeed converge to around the turn of the 20th century, phylogenetic uncertainty, evolutionary model specifications, and natural variation among samples of HIV-1’s genomic diversity prevent narrowing down the age estimate to less than a few decades.

In conclusion, using a highly sensitive amplification protocol for degraded archival samples, we here present the oldest HIV-1 near-complete genome available to date. While we are careful not to extrapolate to other pathogen–host systems and much deeper time scales evident in SIV, our study indicates that evolutionary rates calibrated from HIV-1 group M sequences sampled across the decades after its discovery can be used reliably to infer the timing of events that occurred during the prediscovery era. We note that in addition to evolutionary model specifications, the inherent stochasticity associated with a sample of the true viral diversity in nature inevitably introduces uncertainty to phylogenetic dating estimates, which is addressable by purposely subsampling datasets.


Erkennings

We thank R. Schlapbach and L. Poveda from Zürich Functional Genomics Center (ZFGC) for sequencing support B. Maier and members from ScopeM for electron microscopy support S. Nath from the Joint Genome Institute (JGI) for DNA synthesis and sequencing support F. Rudolf for assistance with yeast marker design H. Christen for conception of computational algorithms and Samuel I. Miller, Markus Aebi, and Uwe Sauer for critical comments. This work received institutional support from Community Science Program (CSP) DNA Synthesis Award Grants JGI CSP-1593 (to M.C. and B.C.) and CSP-2840 (to M.C. and B.C.) from the US Department of Energy Joint Genome Institute, Swiss Federal Institute of Technology (ETH) Zürich ETH Research Grant ETH-08 16-1 (to B.C.), and Swiss National Science Foundation Grant 31003A_166476 (to B.C.). The work conducted by the US Department of Energy Joint Genome Institute, a Department of Energy Office of Science User Facility, is supported by Office of Science of the US Department of Energy Contract DE-AC02-05CH11231.


Etiekverklarings

Mededingende belange

Gad Getz receives research funds from IBM and Pharmacyclics and is an inventor on patent applications related to MuTect, ABSOLUTE, MutSig, MSMuTect, MSMutSig and POLYSOLVER. Hikmat Al-Ahmadie is consultant for AstraZeneca and Bristol-Myers Squibb. Samuel Aparicio is a founder and shareholder of Contextual Genomics. Pratiti Bandopadhayay receives grant funding from Novartis for an unrelated project. Rameen Beroukhim owns equity in Ampressa Therapeutics. Andrew Biankin receives grant funding from Celgene, AstraZeneca and is a consultant for or on advisory boards of AstraZeneca, Celgene, Elstar Therapeutics, Clovis Oncology and Roche. Ewan Birney is a consultant for Oxford Nanopore, Dovetail and GSK. Marcus Bosenberg is a consultant for Eli Lilly. Atul Butte is a cofounder of and consultant for Personalis, NuMedii, a consultant for Samsung, Geisinger Health, Mango Tree Corporation, Regenstrief Institute and in the recent past a consultant for 10x Genomics and Helix, a shareholder in Personalis, a minor shareholder in Apple, Twitter, Facebook, Google, Microsoft, Sarepta, 10x Genomics, Amazon, Biogen, CVS, Illumina, Snap and Sutro and has received honoraria and travel reimbursement for invited talks from Genentech, Roche, Pfizer, Optum, AbbVie and many academic institutions and health systems. Carlos Caldas has served on the Scientific Advisory Board of Illumina. Lorraine Chantrill acted on an advisory board for AMGEN Australia in the past 2 years. Andrew D. Cherniack receives research funding from Bayer. Helen Davies is an inventor on a number of patent applications that encompass the use of mutational signatures. Francisco De La Vega was employed at Annai Systems during part of the project. Ronny Drapkin serves on the scientific advisory board of Repare Therapeutics and Siamab Therapeutics. Rosalind Eeles has received an honorarium for the GU-ASCO meeting in San Francisco in January 2016 as a speaker, a honorarium and support from Janssen for the RMH FR meeting in November 2017 as a speaker (title: genetics and prostate cancer), a honorarium for an University of Chicago invited talk in May 2018 as speaker and an educational honorarium paid by Bayer & Ipsen to attend GU Connect ‘Treatment sequencing for mCRPC patients within the changing landscape of mHSPC’ at a venue at ESMO, Barcelona, on 28 September 2019. Paul Flicek is a member of the scientific advisory boards of Fabric Genomics and Eagle Genomics. Ronald Ghossein is a consultant for Veracyte. Dominik Glodzik is an inventor on a number of patent applications that encompass the use of mutational signatures. Eoghan Harrington is a full-time employee of Oxford Nanopore Technologies and is a stock holder. Yann Joly is responsible for the Data Access Compliance Office (DACO) of ICGC 2009-2018. Sissel Juul is a full-time employee of Oxford Nanopore Technologies and is a stock holder. Vincent Khoo has received personal fees and non-financial support from Accuray, Astellas, Bayer, Boston Scientific and Janssen. Stian Knappskog is a coprincipal investigator on a clinical trial that receives research funding from AstraZeneca and Pfizer. Ignaty Leshchiner is a consultant for PACT Pharma. Carlos López-Otín has ownership interest (including stock and patents) in DREAMgenics. Matthew Meyerson is a scientific advisory board chair of, and consultant for, OrigiMed, has obtained research funding from Bayer and Ono Pharma and receives patent royalties from LabCorp. Serena Nik-Zainal is an inventor on a number of patent applications that encompass the use of mutational signatures. Nathan Pennell has done consulting work with Merck, Astrazeneca, Eli Lilly and Bristol-Myers Squibb. Xose S. Puente has ownership interest (including stock and patents in DREAMgenics. Benjamin J. Raphael is a consultant for and has ownership interest (including stock and patents) in Medley Genomics. Jorge Reis-Filho is a consultant for Goldman Sachs and REPARE Therapeutics, member of the scientific advisory board of Volition RX and Paige.AI and an ad hoc member of the scientific advisory board of Ventana Medical Systems, Roche Tissue Diagnostics, InVicro, Roche, Genentech and Novartis. Lewis R. Roberts has received grant support from ARIAD Pharmaceuticals, Bayer, BTG International, Exact Sciences, Gilead Sciences, Glycotest, RedHill Biopharma, Target PharmaSolutions and Wako Diagnostics and has provided advisory services to Bayer, Exact Sciences, Gilead Sciences, GRAIL, QED Therapeutics and TAVEC Pharmaceuticals. Richard A. Scolyer has received fees for professional services from Merck Sharp & Dohme, GlaxoSmithKline Australia, Bristol-Myers Squibb, Dermpedia, Novartis Pharmaceuticals Australia, Myriad, NeraCare GmbH and Amgen. Tal Shmaya is employed at Annai Systems. Reiner Siebert has received speaker honoraria from Roche and AstraZeneca. Sabina Signoretti is a consultant for Bristol-Myers Squibb, AstraZeneca, Merck, AACR and NCI and has received funding from Bristol-Myers Squibb, AstraZeneca, Exelixis and royalties from Biogenex. Jared Simpson has received research funding and travel support from Oxford Nanopore Technologies. Anil K. Sood is a consultant for Merck and Kiyatec, has received research funding from M-Trap and is a shareholder in BioPath. Simon Tavaré is on the scientific advisory board of Ipsen and a consultant for Kallyope. John F. Thompson has received honoraria and travel support for attending advisory board meetings of GlaxoSmithKline and Provectus and has received honoraria for participation in advisory boards for MSD Australia and BMS Australia. Daniel Turner is a full-time employee of Oxford Nanopore Technologies and is a stock holder. Naveen Vasudev has received speaker honoraria and/or consultancy fees from Bristol-Myers Squibb, Pfizer, EUSA pharma, MSD and Novartis. Jeremiah A. Wala is a consultant for Nference. Daniel J. Weisenberger is a consultant for Zymo Research. Dai-Ying Wu is employed at Annai Systems. Cheng-Zhong Zhang is a cofounder and equity holder of Pillar Biosciences, a for-profit company that specializes in the development of targeted sequencing assays. The other authors declare no competing interests.


Kyk die video: 42 Other recoded genomes. Genome Engineering Apps. Lecture 17. Metabolic Engineering. SP20 (Oktober 2022).