Inligting

Wat beteken HG en NA in Geuvadis-projek RNAseq monster etikette?

Wat beteken HG en NA in Geuvadis-projek RNAseq monster etikette?


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Ek kyk na RNASeq Data van Geuvadis webwerf bv. die lêer GD660.GeneQuantRPKM.txt.gz.

Die monsters word gemerk deur bv. HG00105.1.M_120209_7 of NA20812.2.M_111216_6

Wat beteken HG en NA? Is hulle etniese agtergronde?

Indien nie, hoe kan ek die etniese kartering na die monsters opsoek?

Dankie!


As jy googleHG00105, Een van die eerste treffers is geo-toetreding GSM649517 met die titelHG00105/NA12878.

Kanaal 1:

Kenmerke geslag: Manlike sellyn: limfoblassellyn HG00105 etnisiteit: Britte van Engeland en Skotland, VK (1000 Genome-kodes: GBR)

Kanaal 2:

geslag: vroulike sellyn: limfoblassellyn NA12878 etnisiteit: Noordwes-Europese Amerikaner van Utah (HapMap-kode: CEU)

So nee, hulle kodeer nie vir die etniese agtergrond nie, maar is deel van die unieke identifiseerder van die steekproef.


Genetiese assosiasie van molekulêre eienskappe: 'n Hulp om veroorsakende variante in komplekse siektes te identifiseer

In die afgelope 15 jaar is groot vordering gemaak in die begrip van die genetiese basis van regulering van geenuitdrukking. Hierdie nuwe insigte het 'n omwenteling in ons benadering om die genetiese variasie onderliggende komplekse siektes op te los. Geentranskripsievlakke was die eerste uitdrukkingsfenotipes wat bestudeer is. Hulle is oorerflik en dus vatbaar vir genoomwye assosiasiestudies. Die genetiese variante wat hulle moduleer word uitdrukking kwantitatiewe eienskap lokusse genoem. Hulle studie is uitgebrei na ander molekulêre kwantitatiewe eienskap loci (molQTLs) wat geenuitdrukking op die verskillende vlakke reguleer, van chromatientoestand tot sellulêre response. Altesaam het hierdie studies 'n magdom basiese inligting oor die genoomwye patrone van geenuitdrukking en hul inter-individuele variasie gegenereer. Die belangrikste is dat molQTL's 'n onskatbare bate geword het in die genetiese studie van komplekse siektes. Alhoewel die identifisering van die siekteveroorsakende variante op grond van hul oorvleueling met molQTLs versigtigheid vereis, kan molQTLs help om die relevante kandidaatgene(s) in die siekte-geassosieerde streke te prioritiseer en 'n funksionele interpretasie van die geassosieerde variante te bring, dus, die gaping tussen genotipes en kliniese fenotipes te oorbrug.


SINOPSIS

  • In scVI word datastelle van verskillende laboratoriums en tegnologieë in 'n gesamentlike latente ruimte geïntegreer.
  • In scANVI word seltipe-aantekeninge tussen datastelle en oor verskillende scenario's oorgedra.
  • Onsekerhede van differensiële geenuitdrukking in veelvuldige monsters word gekwantifiseer.
  • Die werkverrigting van scVI en scANVI in data-integrasie en seltoestand-aantekening is beter as ander verwante metodes.

Inleiding

Die voorkoms van borskanker word beïnvloed deur verskeie faktore wat ouderdom, genetika en voortplantingsgeskiedenis insluit. 'n Begrip van normale weefselbiologie en die inherente heterogeniteit daarvan is 'n belangrike stap in die rigting van dissekteermeganismes wat tot onkogenese lei. Normale borsweefsel bestaan ​​uit 'n komplekse epiteelkanaalstelsel wat in 'n stromale matriks ingebed is wat bestaan ​​uit fibroblaste, adiposiete, endoteel- en immuunselle. In menslike bors lei puberteit-geïnduseerde vertakking tot 'n komplekse vertakte buisstelsel waarin die buise eindig in 'n groep acini wat 'n terminale buis lobulêre eenheid (TDLU) (Fu) genoem word. et al, 2020). Die dinamiese veranderinge wat in die borsepiteel voorkom tydens puberteit, swangerskap en laktasie word aangedryf deur die gesamentlike werking van sistemiese hormone en groeifaktore, waaronder die ovariale hormone estrogeen en progesteroon 'n sleutelrol speel (Brisken & O'Malley, 2010). Oor die leeftyd van 'n vrou is volgehoue ​​blootstelling aan ovariale steroïedhormone 'n goed gevestigde risikofaktor vir borskanker, met 'n duidelike korrelasie tussen die aantal menstruele siklusse en borskankerrisiko (Clemons & Goss, 2001 Hankinson et al, 2004). Inderdaad, vroeë ovariale ablasie is beskermend teen borskanker (Parker et al, 2009a).

Borskanker bestaan ​​uit 'n diverse stel siektes wat gekenmerk word deur heterogeniteit wat behandelingsreaksie en pasiëntuitkoms beïnvloed. Hierdie heterogeniteit kan nie presies gedefinieer word deur die klassieke parameters van histopatologie, tumorgraad en nodale betrokkenheid nie. Uitdrukkingsprofilering het deurslaggewend bewys in die definisie van die intrinsieke subtipes van borskanker: luminale A en luminale B, trippel-negatief (dikwels uitruilbaar gebruik met basaalagtige), HER2-ooruitdrukking en claudin-laag (Perou). et al, 2000 Sorlie et al, 2001). Dit weerspieël waarskynlik duidelike "selle van oorsprong", unieke differensiasieblokkades en verskillende repertoriums van mutasies. Meer onlangse genoomvolgordebepalingspogings het herhalende "drywer"-gene en kopiegetalveranderinge tussen die verskillende borsgewassubtipes gedefinieer (Cancer Genome Atlas, 2012 Alexandrov et al, 2013 Nik-Zainal et al, 2016). Die koms van enkelseltegnologieë het 'n begrip van sellulêre heterogeniteit op 'n ongekende vlak moontlik gemaak. Dit is veral relevant vir gewasse, wat bestaan ​​as ekosisteme wat bestaan ​​uit kwaadaardige selle afgewissel met stromale en immuunselle. Opkomende data van enkelselgenomika dui op beduidende tumorheterogeniteit, terwyl enkelseltranskriptomiese profilering van borsgewasse diverse immuunselpopulasies aandui (Chung) et al, 2017 Azizi et al, 2018 Karaayvaz et al, 2018 Kim et al, 2018 Savas et al, 2018 Qian et al, 2020). Daarbenewens is onlangse evaluering van die proteome van 'n groot aantal gewasse vir tot 70 proteïene (Wagner) et al, 2019) het insigte in die immuunkompartemente van gewasse en potensiële sellulêre kruisgesprek opgelewer. Sellulêre diversiteit tussen die verskillende borskankersubtipes is egter nie sistematies geëvalueer nie. In die konteks van normale borsweefsel het enkelsel-profilering van epiteelselle die teenwoordigheid van drie primêre epiteelpopulasies en voorspelde seltrajekte bevestig (Nguyen) et al, 2018), maar die normale milieu van die buisnetwerk wag op verdere ondersoek.

Hier het ons gepoog om sellulêre heterogeniteit binne normale en neoplastiese borsweefsel (en betrokke LN'e) verder te ondersoek deur middel van enkelsel-transkriptoomanalise. Ons het die volgende vrae gestel: Wat is die kompleksiteit binne die normale bors ductale mikro-omgewing en is hormonale of BRCA1 mutasiestatus molekulêre diversiteit beïnvloed? Wat is die mate van heterogeniteit binne die kankerselkompartement en sy mikro-omgewing oor tumorsubtipes heen? Wat is die verwantskap tussen primêre borsgewasse en kwaadaardige selle wat limfknope saai? Enkelsel-profilering is uitgevoer op weefselmonsters van normaal of preneoplasties BRCA1 +/− weefsel (28 monsters), en gewasse (34 monsters) wat estrogeenreseptor (ER) + , HER2 + en trippel-negatiewe (TNBC) borskanker verteenwoordig, insluitend manlike gewasse en sewe ooreenstemmende pare ER + gewasse en betrokke limf nodusse. Nie verrassend nie, is uitgebreide veranderinge in die immuun/stromale landskap gevind tussen die preneoplastiese versus neoplastiese toestande in BRCA1 mutasie draers. Terwyl alle tumor subtipes intra-tumorale heterogeniteit getoon het, het duidelike veranderinge plaasgevind binne die mikro-omgewing van verskillende kanker subtipes. Verder het ons óf klonale migrasie van genomies afsonderlike ER + borskankerselle na die oksellimfknope óf massamigrasie van tumorselle waargeneem. Saam bied hierdie grootskaalse integrasie van pasiëntmonsters wat die transkriptome van > 340,000 selle insluit 'n raamwerk vir die ontsyfering van die kliniese relevansie van heterogeniteit binne normale weefsel en borsgewasse.


Opkomende uitdagings in kanker immunoterapie

Ten spyte van die aansienlike vordering wat gemaak is op die gebied van kanker-immunoterapie, bly aansienlike uitdagings.

Kanker-immunoterapie vereis verpersoonliking

Tydens tumorgenese verkry kankerselle verskillende getalle en tipes mutasies. Ook, as gevolg van die immunoredigeringsproses, kan mutasies wat 'n antitumor-immuniteit stimuleer verlore gaan, terwyl minder immunogeniese mutasies selektief gehandhaaf kan word. Gevolglik word neo-antigene selde tussen pasiënte gedeel [42], en dus vereis neoantigeen-gebaseerde kanker-immunoterapieë verpersoonliking.

Daarbenewens, hoewel sommige immuun ontsnappingstrategieë, soos die opregulering van PD-L1 uitdrukking, meer algemeen gebruik word as ander [43], mag hierdie waarneming nie die gebruik van 'n enkele immunoterapie-benadering regverdig om alle kankerpasiënte te behandel nie. Inderdaad, vir meer suksesvolle terapeutiese uitkomste, kan dit nodig wees om 'n volledige begrip te hê van hoe 'n gegewe individuele gewas daarin geslaag het om antitumor-immuniteit te ontsnap. Ter ondersteuning van hierdie hipotese is die feit dat slegs 'n klein persentasie pasiënte baat kan vind by immuunkontrolepuntblokkades [44]. Trouens, nivolumab of ipilimumab veroorsaak duursame reaksies in slegs 10-30% van melanoompasiënte wanneer enige middel alleen gebruik word [45, 46].

Die behoefte aan beter biomerkers in kanker immunoterapie

In 'n poging om die proporsie reageerders op immunoterapieë te verhoog, is 'n groot hoeveelheid onlangse pogings gewy om voorspellende biomerkers te identifiseer. Tot op hede is baie biomerkers in prekliniese en kliniese studies geëvalueer. Hierdie biomerkers sluit in PD-1/PD-L1-uitdrukking, tumor-infiltrerende immuunselle, absolute limfosiettellings, TCR-klonaliteit, tumormutasielading, immuunverwante geenuitdrukkingprofiele, MHC klas I epitoopfrekwensie/spesifisiteit en tumorwanpassing-herstelstatus [ 47]. Daarbenewens het serum biomerkers onlangs baie aandag geniet. Hierdie benadering maak staat op die verwagting dat dit moontlik kan wees om molekules te identifiseer wat die reaksie op immunoterapieë met gemak en betroubaarheid kan voorspel [48]. Biomerkerstudies het nietemin getoon dat die voorspelling van watter pasiënte waarskynlik sal reageer met 'n enkele biomerker nogal uitdagend is. As 'n voorbeeld, melanoompasiënte wat hoë PD-L1-uitdrukking het, toon hoër reaksiekoerse in vergelyking met pasiënte met 'n lae PD-L1-uitdrukking. Nietemin reageer nie alle pasiënte met hoë PD-L1-uitdrukking op die behandeling nie, en terselfdertyd is PD1/PD-L1-gerigte terapieë effektief in sommige PD-L1-negatiewe pasiënte [49]. Meer opvallend is dat PD-L1-uitdrukking nie beduidend geassosieer word met anti-PD-1/PD-L1-behandelingsreaksies in sommige ander maligniteite, soos RCC [50]. Gesamentlik illustreer hierdie bevindinge dat daar nog baie werk is om te doen en dat integrerende ontleding van veelvuldige biomerkers nodig mag wees om die voorspelling van terapeutiese respons te verbeter. In ooreenstemming daarmee is die stratifikasie van gewasse gebaseer op beide die teenwoordigheid/afwesigheid van tumor-infiltrerende T-sel benewens PD-L1 uitdrukking voorgestel as 'n beter voorspellende metode om ideale immunoterapieë te ontwerp en te identifiseer, eerder as om hierdie twee faktore te evalueer individueel [51].

Die moeilikheid om die regte kombinasieterapie te kies

Die kombinasie van PD1/PD-L1- en CTLA-4-geteikende immunoterapie is 'n groot deurbraak in kankerbehandeling. Immuunkontrolepunt-inhibeerderkombinasies het die mediaan algehele oorlewing van melanoompasiënte met gevorderde siekte verbeter van <1 jaar [52] tot 37.6 maande met nivolumab, 19.9 maande met ipilimumab en >3 jaar met nivolumab-plus-ipilimumab. Hierdie dramatiese verbetering is gesien in meer as die helfte van nivolumab- en nivolumab-plus-ipilimumab-behandelde pasiënte, en in ongeveer een derde van die ipilimumab-ontvangende groep [53]. Net so het die inhibisie van die ensiem indoleamien 2, 3-dioksigenase (IDO), 'n T-sel-respons onderdrukker, in samewerking met ander immuun kontrolepunt inhibeerders, gelei tot 'n beduidende toename in pasiënte se responskoerse en algehele oorlewingsyfers. Hierdie waarneming lei tot die ontwikkeling van verskeie IDO-inhibeerders wat tans in Fase 1, 2 en 3 kliniese proewe getoets word [54]. Alhoewel dit bemoedigende bevindings is, het nie al die behandelde pasiënte volledige reaksies gehad nie. Hierdie getalle is ook minder dramaties in die geval van ander maligniteite [55]. Daarom bly daar 'n behoefte om kombinasiebehandelingsopsies te identifiseer.

Verder, behalwe om verskillende modaliteite van immunoterapie te kombineer, kan konvensionele kankerbehandelings sinergisties optree met immuniteitsgebaseerde behandelings. Byvoorbeeld, sommige konvensionele kankerbehandelings veroorsaak immunogeniese kankersel-dood. Hierdie effek lei tot die vrystelling van meer tumor antigene, en dus stimuleer dit gasheer antitumor immuniteit [56]. Ondersteunende bewyse kom uit die waarneming dat die kombinasie van ipilimumab met heelbreinbestralingsterapie of stereotaktiese radiochirurgie die gemiddelde algehele oorlewing met 13 maande verhoog het, in vergelyking met diegene wat net bestraling ontvang, by pasiënte met melanoom-breinmetastases. Die risiko van dood is ook aansienlik verminder [57]. Daar is egter duisende moontlike geneesmiddelkombinasies, wat dit uitdagend maak om te weet waar om te begin om die optimale kombinasie van behandelings te stol.

Weerstand teen kanker immunoterapie

Een van die groot struikelblokke vir effektiewe reaksie op kanker immunoterapie is weerstand. Byvoorbeeld, kankerpasiënte wat oorplanting ondergaan, MIV-positiewe individue en bejaardes het reeds bestaande sistemiese intrinsieke weerstand teen immuniteitsgebaseerde behandelings [58]. Boonop het baie individue 'n ongeskonde immuunstelsel, maar kan 'n gebrek aan antitumor-immuunaktiwiteit slegs op die plek van die kanker hê. Trouens, immunologiese faktore, insluitend die digtheid en geografie van tumor-infiltrerende CD8 T-selle (immunotelling) [59-61], en CD4: CD8 T-selle, kan 'n belangrike rol speel in immunoterapie-weerstand [62]. Verder, in die loop van kankerprogressie, verkry tumorselle konsekwent veranderinge in hul genetiese, epigenetiese, transkripsie- en metaboliese profiele, sowel as veranderinge in hul onkogene seinering [63]. Net so verander stromale selle voortdurend die uitdrukking van hul seloppervlakmolekules, die aktiwiteit van hul intrasellulêre seinweë en hul sellulêre metabolisme [64-68]. Soos verwag kan word, kan sommige van hierdie modifikasies immuunweerstand verleen en sodoende die doeltreffendheid van kankerbehandelings verswak [64]. Veral, immunoterapieë kan ook hierdie sellulêre veranderinge bevorder [58]. As gevolg hiervan, om opkomende weerstand teen immunoterapie te oorkom, sou dit nodig wees om 'n omvattende integrerende analise uit te voer om al hierdie faktore te oorweeg.


3 RESULTATE EN BESPREKING

3.1 Genoomopsomming

Veelvuldige biblioteke met verskillende insetgroottes is saamgestel uit DNA wat uit die eiers van die gesuiwerde X12-populasie onttrek is. In totaal is 95.22 Gb se volgorde-data gegenereer, waarvan 13.65 Gb (96.81X dekking) geproduseer is uit Illumina-lesings, 28.48 Gb (201.97X dekking) van PacBio-lesings, 31.32 Gb (222.13X-dekking) biblioteke en 21,77 Gb (154,39X dekking) vanaf die Hi-C-biblioteek (Tabel S1). Die saamgestelde genoom word geskat op 141.01 Mb, met steier- en aaneenlopende N50-groottes van onderskeidelik 16.27 Mb en 330.54 kb (Figuur 2b). Daarbenewens het die volgorde resultate (SCN_Lian) is vergelyk met die nuut vrygestelde volgorde resultate (SCN_Masonbrink) van 2019 (Masonbrink et al., 2019) en die genome van die plantparasitiese nematode M. hapla (Opperman et al., 2008) en die vrylewende nematode C. elegans (Die C. elegans volgordebepaling konsortium, 1998) (Tabel 1). Die genoomgrootte van SCN_Lian is 141.01 Mb, wat amper identies is aan dié van SCN_Masonbrink, op 123 Mb. Veral, SCN_Masonbrink het nie die genoom van vergader nie H. glisiene op die chromosoomskaal egter SCN_Lian het gedoen. Die BUSCO-waarde van SCN_Lian is 53,4% vergeleke met 72% vir SCN_Masonbrink, maar die BUSCO waarde van SCN_Masonbrink is ~54% wanneer ontleed met behulp van die nematode databasis en die genomiese data verskaf deur Masonbrink et al.. Daarom is daar min verskil in samestelling kwaliteit tussen die genome van SCN_Masonbrink en SCN_Lian. Die GC inhoud van SCN_Lian (36.89%) is soortgelyk aan dié van C. elegans (35,4%), terwyl M. hapla het 'n buitengewoon lae GC-inhoud van 27,4%. SCN_Masonbrink geannoteerde 29 769 gene, en SCN_Lian geannoteerde 11 882 gene.

141 Mb met steier en aaneenlopende N50-grootte van 16,27 Mb en 330,54 Kb. Ook gelys in die tabel is die grootte en aantal van N60, N70, N80 en N90 van contigs en steiers. (c) Groepering van steiers met behulp van Hi-C data in pseudochromosoomskaal steiers. Gelys is die 258 steiers van totale lengte

12 Mb gebruik vir groepering. Ook in die tabel gelys is die groepnommers, die aantal contigs en die verwysingslengte van contigs [Kleurfiguur kan gesien word by wileyonlinelibrary.com]

H. glisiene M. hapla C. elegans
SCN-Masonbrink SCN-Lian
Opeenvolging materiaal Ingeteelde populasie TN10 (Hg tipe 1.2.6.7) Natuurlike bevolking X12 (Hg tipe 1.2.3.4.5.6.7)
Genoomgrootte, Mb 123.85 141.01 54 100
Contigs, bp 738 889 3,452 NVT
Contig N50, Kb 304,130 330,544 NVT NVT
Steiers NVT 267 1,523 NVT
Steiers N50, bp NVT 16,265,615 83,645 17,494,000
Saamgestel, bp NVT 141,354,287 53,578,246 100,267,623
Volgorde dekking, % NVT 98.33 99.2 100
Persent voltooi BUSCO, % 72 53.4 59 99.6
G+C, % NVT 36.89 27.4 35.4
Geannoteerde gene 29,769 11,882 14,420 20,060
Herhaal getalle wat verantwoordelik is vir die genoom, % 34 51.10 17 16.5
Geïdentifiseerde SNP's 1,619,134 247,046 NVT NVT
Chromosome NA 18 16 6
Chromosome-vlak samestelling NVT Ja NVT Ja

Die datakwaliteitbeheerresultate word in Tabelle S2–S4 en Figure S1 en S2 getoon. Die volgende is verkry vir assessering van polimerase-lengteverspreiding: leesgetal van 2,080,111, met gemiddelde leeslengte van 13,703 en leeslengte N50 van 23,355. Insetselgrootte lengteverspreiding het die volgende getoon: leesgetal van 2 080 111, met gemiddelde leeslengte van 9 875 en leeslengte N50 van 14 429. Assessering van subleeslengteverspreiding het aan die lig gebring dat die geleesgetal 3 179 171 was, met gemiddelde leeslengte van 8 948 en leeslengte N50 van 12 988. Volgens bwa-sagteware was die karteringtempo van alle klein fragment-lesings na die genoom ongeveer 90.72%, en die dekkingskoers was ongeveer 98.33% (Tabel S5), dus toon die lesings goeie ooreenstemming met die saamgestelde genoom.Nadat chromosoomkoördinate gesorteer is, herhaalde reekse verwyder is en enkelnukleotiedpolimorfisme (SNP) uitgevoer is, wat die BWA-vergelykingsresultate vereis het, is 247 046 SNPs verkry, met 0.213% SNP heterosigositeit en 0.0024% SNP homosigositeit gebaseer op SAM.gesamttoolsbron (http://gesamttoolssource net/) (Tabel S6) dus het die genoomsamestelling hoë enkelbasis-akkuraatheid. Daarbenewens is die GC inhoud en gemiddelde diepte van die saamgestelde genoom bereken en gekarteer deur gebruik te maak van 10k Windows sonder herhaalde berekening. Die resultate het getoon dat die GC-inhoud gekonsentreer is in 'n streek wat 40% van die genoom insluit, sonder oënskynlike skeiding, wat getoon het dat die genoom nie deur vreemde bronne gekontamineer is nie (Tabel S7 en Figuur S3).

Die resultate van CEGMA-analise het getoon dat die samestelling voltooi was, met karteringtempo van 86.29% ('n totaal van 214 gene) (Tabel S8). BUSCO-evalueringsresultate het ook aangedui dat die samestellingsresultaat volledig was, met 53.4% ​​saamgestelde volledige enkelkopie-gene van 978 homoloë enkelkopie-gene (Tabel S9). Merkwaardig genoeg is slegs 53,4% van die gene in die H. glisiene samestelling is enkelkopie volgens die BUSCO-analise, met 3,7% gedupliseer. Ter vergelyking, die BUSCO resultate vir SCN_Masonbrink dui aan dat 56% van die gene in H. glisiene is enkelkopie, met 16% gedupliseer (Masonbrink et al., 2019).

Resultate van herhalingsvoorspelling het getoon dat die X12-genoom 51.10% herhaalreekse bevat. Herhalende volgordestatistieke en klassifikasieresultate word in Tabelle S10 en S11 en Figuur S4 getoon. Die genoom van H. glisiene is diploïed en bestaan ​​uit herhaalde reekse met hoër nukleotied divergensie (19.21%) as die genome van Meloidogiene spesies, wat poliploïed is en bestaan ​​uit gedupliseerde streke met lae nukleotied divergensie (

8%) (Abad et al., 2008 Blanc-Mathieu et al., 2017 Sato et al., 2018 Szitenberg et al., 2017).

Voorspelling van geenstruktuur is uitgevoer, en 11 882 proteïenkoderende gene is voorspel, met 'n gemiddelde van 1 233,92 bp van koderende volgorde (CDS) en 8,3 eksons per geen (Tabel S12 en Figuur S5). Die transkripsielengtes van gene, CDS'e, eksons en introne van SCN is vergelykbaar met dié van die genome wat gebruik word vir homologie-gebaseerde voorspelling (Tabel S13 en Figuur S6). Daarbenewens is nie-koderende RNA-gene in die SCN-genoom voorspel, insluitend 'n totale lengte van 17,688-bp ribosomale RNA (rRNA), 46,685-bp oordrag-RNA (tRNA), 39,375-bp mikroRNA (miRNA) en 21,549-bp snRNA-gene ( Tabel S14). Gebaseer op funksionele annotasie van proteïenkoderende gene, is 64,5% (7 663), 76,5% (9 093), 60% (7 126), 70,7% (8 405), 49,1% (5 840) en 61,5% (7 303) van gene geannoteer Swiss-Prot, Nr, kegg , InterPro, GO en Pfam onderskeidelik. Die vier lewensfases van SCN is geïsoleer en dan gemeng voor volgordebepaling vir genoomannotasie. In totaal is 9 383 proteïenkoderende gene (79.0%) met bewaarde funksionele motiewe en funksionele terme suksesvol geannoteer (Tabel S15 en Figuur S7). Die verspreiding van gene, GC-inhoude, lang terminale herhalings (LTRs), lang interspersed nuclear elements (LYNE), kort interspersed nuclear elements (SINEs), tRNAs, miRNAs, snRNAs en rRNAs in X12 se chromosome word in Figuur 3 getoon.

Daar is 'n paar verskille met betrekking tot die resultate vir SCN_Lian en SCN_Masonbrink, soos die aantal geannoteerde gene. Die moontlike redes is soos volg. Eerstens was daar verskille in die volgordebepalingtegnologieë wat gebruik is. Vir SCN_Masonbrink, PacBio-langleestegnologie is hoofsaaklik gebruik, terwyl gekombineerde Illumina-kortlees- en PacBio-langleestegnologieë gebruik is vir SCN_Lian. Tweedens was daar verskille in die volgorde van die materiaal. Die ingeteelde populasie TN10 (Hg tipe 1.2.6.7) is gebruik vir SCN_Masonbrink, maar die natuurlike populasie X12 (Hg tipe 1.2.3.4.5.6.7), wat die mees virulente SCN populasie is wat tot dusver geïdentifiseer is, is gebruik vir SCN_Lian. Die verskille in die patogenisiteit van hierdie populasies kan ook beoordeel word uit die differensiële proporsies van S-gene (50.4% en 45.3% in SCN_Lian en SCN_Masonbrink, onderskeidelik) en D-gene (2,3% en 8,7% in SCN_Lian en SCN_Masonbrinkonderskeidelik) in die BUSCO-resultate (Tabel 2). Derdens is verskillende annotasiemetodes toegepas. Geen-aantekeninge is uitgevoer met behulp van Braker vir SCN_Masonbrink met 'n ontmaskerde samestelling, wat 29 769 gene geannoteer het, insluitend 12 357 uitgedrukte herhalende elemente en getoon het dat die H. glisiene genoom het 'n aansienlike aantal herhalings, teen 34% van die genoom. Om te verhoed dat die aantal gene te hoog is, wat veroorsaak kan word deur vals positiewe van herhalings tydens geenaantekening, herhaal maskering voordat struktuurannotasie uitgevoer is vir SCN_Lian, soos ook in baie ander studies uitgevoer (Xu et al., 2013 Zhang et al., 2019). Om meer omvattende en akkurate herhalingsreekse te verkry, is homoloë volgordebelyning en ab initio voorspelling uitgevoer. Uiteindelik is 11 882 geannoteerde gene en 51,10% nie-oortollige herhalingsvolgorde verkry.

Wetenskaplike naam Weergawe Genoomgrootte Genenommer BUSCO genoom
Caenorhabditis_elegans ensembl.metazoa.v32 98M C:98.6% (S:98.0%, D0.6%), F:0.8%, M:0.6%, n:982
Caenorhabditis_briggsae ensembl.metazoa.v32 106M C:97.7% (S:97.0%, D0.7%), F:1.5%, M:0.8%, n:982
Ascaris_suum ensembl.metazoa.v32 265M C:89.8% (S:88.0%, D1.8%), F:6.6%, M:3.6%, n:982
Brugia_malayi wormbase.WBPS6 93M C:96.6% (S:96.0%, D0.6%), F:2.4%, M:1.0%, n:982
Onchocerca_volvulus ensembl.metazoa.v32 94M C:97.6% (S:97.3%, D0.3%), F:1.7%, M:0.7%, n:982
Meloidogyne hapla 54M 14420 C:59.9% (S:58.7%, D1.2%), F:9.4%, M:30.7%, n:982
Meloidogyne incognita 184M 43718/45351 C:61.8% (S:25.8%, D36.0%), F:8.1%, M:30.1%, n:982
Heterodera glisiene (SCN-Lian) 135M 11882 C:52.7% (S:50.4%, D2.3%), F:9.6%, M:37.7%, n:982
H. glisiene (SCN-Masonbrink) 129M 29769 C:54.0% (S:45.3%, D8.7%), F:10.4%, M:35.6%, n:982

3.2 Chromosoomwaarneming en Hi-C steierwerk

Die chromosoomgetal van H. glisiene tydens meiose is waargeneem onder 'n fluoressensiemikroskoop met behulp van 450–490 nm opwekking (2n = 18) (Figuur 4). Die Illumina-gebaseerde Hi-C-data is heraangewys na die PacBio-samestelling, wat in nege pseudomolekules saamgevoeg is met behulp van die Proximo Hi-C-steierpyplyn (Figuur 2a). Die Hi-C-steierwerk was in staat om al die 258 steiers met hoë vertroue in nege pseudomolekules te anker en te orden. Die steiergroottes het gewissel van 7,6 tot 185 Mb met 'n N50 van 16,3 Mb (Figuur 2c). Die algehele steiersyfer was 91.2% (Tabel S16).

3.3 Evolusionêre analise

'n Totaal van 25 535 geenfamiliegroepe is gekonstrueer. Die gene wat vir geenfamiliegroepering in elke spesie gebruik word, word in Tabel S17 getoon. In totaal is 482 enkelkopie-geenfamilies algemeen vir al 12 spesies. Die verspreiding van enkelkopie-ortoloë, meervoudige-kopie-ortoloë, gene wat uniek is aan H. glisiene en ander ortoloë in verskillende spesies word in Tabel S18 getoon. Proteïenvolgordes van die 482 enkelkopie-geenfamilies is gebruik vir filogenetiese boomrekonstruksie, en die skatting van divergensietyd is uitgevoer (Figuur 5) met mcmctree sagteware. Sinteny het afgeneem namate filogenetiese verwantskap afgeneem het, en ons resultate het getoon dat die divergensietyd tussen H. glisiene en M. hapla is ongeveer 143,6 miljoen jaar. Dus, die divergensie van H. glisiene het dié van die modelaalwurm voorafgegaan C. elegans. Verder, omdat plantparasitisme 'n leefstyl is wat in drie verskillende klades in die aalwurmboom van die lewe voorkom, het plantparasitisme ten minste drie keer onafhanklik tydens die evolusie van nematodes verskyn (Danchin & Perfus-Barbeoch, 2009). Daar is ook afgelei dat plantparasiete uit swamvoedende aalwurms ontwikkel het, volgens vorige resultate wat konsekwente samegroepering van plantparasiete met swamvreterspesies getoon het (Holterman et al., 2006).


RESULTATE

Die doel van hierdie studie was om die transkripsionele landskap van CD34 + /CD38 - ontploffings te ondersoek deur dit te vergelyk met CD34 + /CD38 + ontploffings en met normale CD34 + /CD38 - selle. Ons het vloeisitometrie gebruik om CD33 + /CD34 + /CD38 - en CD33 + /CD34 + /CD38 + ontploffings populasies van die beenmurg sel suspensies van twee pasiënte met AML (AML1 (M0) en AML2 (M5)) en vier pasiënte te sorteer met normale beenmurg (N) (verwys na die Materiale en Metodes), en ons het toe enkelsel-mRNA-volgordebepaling op 359 gesorteerde selle uitgevoer. Na streng filtering het ons 311 enkelsel-RNA-volgorde-profiele gegenereer met 'n gemiddeld van 7 × 10 6 uniek gekarteerde leeswerk per sel (Figuur 1A en B, sien die Materiale en Metodes). Soos verwag, was die aantal opgespoorde gene per sel vergelykbaar tussen die toestande en veranderlike tussen die selle [19, 20] (Figuur 1). Gemiddeld is 1764 getranskribeerde gene per sel opgespoor (RPKM > 10). In ooreenstemming met vorige verslae [19-21], het ons 'n aansienlike variasie in die sel-tot-sel-transkriptoom waargeneem (Pearson 0,0007 < r < 1, gemiddeld 0,57) (Figuur 1C). Grootmaat-RNA van elke individu is voorberei vir massa-tot-enkelsel-transkriptoomkorrelasies. Soos beskryf, was die grootmaat-transkriptome hoogs gekorreleer met die enkelsel-transkriptome (Pearson 0.38 < r < 0.89, gemiddeld 0.63) (Figuur 1C), wat dus die aanname ondersteun dat grootmaatmonsters die gemiddelde van enkelselpopulasies weerspieël [20, 22 ].

(A) Boxplots wat die aantal uniek gekarteerde lees- en getranskribeerde gene toon wat in 313 enkelselle van 4 gesonde pasiënte (N1, N2, N3, N4) en 2 pasiënte met AML (AML1, AML2) opgespoor is. CD38 - en CD38 + ontploffingselle van pasiënt AML2 is afsonderlik gesorteer (verwys na die Materiale en Metodes). Sien ook Figuur S1. Die regterpaneel toon die kumulatiewe gemiddelde aantal getranskribeerde gene wat per sel vir elke monster en per RPKM-kategorie opgespoor is. (B) Hiërargiese groepering van 267 enkelselmonsters (verwys na die Materiale en Metodes) gebaseer op Pearson-korrelasie. Die seletikette word gekleur volgens die voorbeeldoorsprong (dieselfde kleurkode as die regterpaneel in (A)). CD38 - en CD38 + enkelselle is nie by hierdie plot ingesluit nie. Die korrelasiekoëffisiënt word ook gekleur volgens die skaal wat wissel van 1.0 (blou) tot - 1.0 (rooi). (C) Sel-tot-sel en sel-tot-massa-korrelasiematriks insluitend 7 enkelselmonsters (sc) van N3 en grootmaatmonsters van N3 en N4. Strooidiagramme toon korrelasie met geenuitdrukking (RPKM > 0). Getalle verteenwoordig paarsgewys Pearson se korrelasiekoëffisiënte.

Individuele leukemiese CD34+/CD38-selle veroorsaak weë wat stamheid en kankervordering bevorder

Ons het eers die transkripsieprofiele van 24 CD34+/CD38-selle en 24 CD34+/CD38+-selle van dieselfde pasiënt met AML (AML2) vergelyk, en 'n ontleding van die differensieel uitgedrukte transkripsies het 625 gene geïdentifiseer wat beduidende veranderinge vertoon het (p- waarde < 0,05) (verwys na die aanvullende data, Tabel S1). Soos verwag, het die hiërargiese groeperingskaart van die differensieel uitgedrukte transkripsies twee afsonderlike selpopulasies getoon (Figuur 2A). 'n Analise van die geenontologieterme wat op hierdie stel differensieel uitgedrukte transkripsies uitgevoer is, het aansienlik verrykte terme onthul wat geassosieer word met die gene wat hoofsaaklik in die NOD-agtige reseptorweg geïmpliseer is (bv. CXCL2, CXCL8, NLRP3, en TRAF6) (Figuur 2B). Hierdie term sluit ook chemokiene in wat krities is vir die oorlewing en proliferasie van kankerselle, soos CXC-motiefligand 8 (CXCL8, IL-8) [23, 24]. Kwaadaardige CD34+/CD38-selle het verminderde selsiklusaktiwiteit getoon, en gene wat selproliferasie en selsiklus bevorder (CDK7, CDKN2A, HDAC1, MCM3, PCNA, en MYC) is afgereguleer in vergelyking met die meer gedifferensieerde ontploffings. Interessant genoeg, DNA replikasie gene (POLA2, RFC3, en RNASEH2A) is in daardie selle geaktiveer, terwyl die nukleotied-uitsnyding-herstelweg aansienlik afgereguleer is, wat dus 'n bevorderde DNA-skade voorstel (Figuur 2B), wat voorheen beskryf is in rustige selle [25-27]. 'n Genestelverrykingsanalise (GSEA) is uitgevoer om die teenwoordigheid van goedgekarakteriseerde stamsel-regulerende gene in ons datastel te evalueer (Figuur 2C). Ons het voorafbepaalde geenlyste getoets vanaf gepubliseerde geenuitdrukkingsprofiele van paaie wat in LSC's en HSC's geaktiveer is (verwys na die aanvullende data, Tabel S4) [11, 12, 28, 29] en het bevestig dat die stamgeassosieerde gene uitgedruk deur ons gesorteerde CD33 + /CD34 + /CD38 - leukemiese selle was in ooreenstemming met gepubliseerde data (FDR < 0.01). Verskeie studies het die Wnt/β-catenin-weg in die ontwikkeling van leukemie stamselle geïmpliseer [30]. 'n GSEA van hierdie spesifieke pad het die ooruitdrukking van 49 van 148 gene in CD34 + /CD38 - ontploffings bevestig (Figuur 2C).

(A) Hittekaart en hiërargiese groepering onder toesig van differensieel uitgedrukte gene tussen CD38 - en CD38 + selle (verwys na die aanvullende data, Tabel S1 vir genelys besonderhede). Die rye verteenwoordig gene en kolomme verteenwoordig enkelselle van CD38 - en CD38 + subpopulasies. Kleurkodering dui op log2-getransformeerde RPKM-waardes. (B) GO term analise van CD38 - en CD38 + differensieel uitgedrukte transkripsies (vou verryking DAVID analise). Die staafdiagram toon die betekenisvol verrykte terme (p-waarde < 0.05, Fisher's Exact Test) onder afgereguleerde transkripsies (blou) en opgereguleerde transkripsies (grys). Sien ook Figuur S1. (C) Handtekening verryking plotte van GSEA met behulp van 5 verskillende geen teiken lyste (verwys na die aanvullende data, Tabel S4 vir geen lys besonderhede). Swart vertikale stawe is gene wat gerangskik is volgens hul vouveranderingsuitdrukking. Waardes dui op genormaliseerde verrykingtelling (NES), FDR aangepaste p-waarde en aantal beduidende verrykte gene uit die totale gene wat getoets is. (D) Geennetwerkvisualisering van differensieel uitgedrukte gene tussen leukemiese CD38 - en CD38 + enkelselle. Stam-verwante gene en weë word uitgelig. Sien ook Figuur S2.

Die netwerkkaart illustreer die funksionele konnektiwiteit tussen die differensieel uitgedrukte gene (Figuur 2D). CD34 + /CD38 - leukemiese selle het gene uitgedruk wat verband hou met die volgende 4 afsonderlike seinweë: TNFα/NF-KB, c-Kit-gemedieerde stamselfaktor (SCF), Rb/E2F, ERK/MAPK en AKT. Merkwaardig genoeg is gene wat belangrik is vir hematopoiese en leukemogenese, soos BMI1 (FC CD38-/CD38+: 4.47, p-waarde: 0.00113, Kolmogorov-Smirnov statistiese toets), HOX gene (verwys na die aanvullende data, Figuur S2), en MYB Daar is voorheen berig dat dit gedereguleer is in leukemiese selle [31, 32]. Daarbenewens is hierdie gene omvattend geassosieer met kanker stamsel instandhouding in die algemeen [31, 33-35] en ondersteun die "stamness" en tumorigeniese potensiaal van gesorteerde CD33 + / CD34 + / CD38 - ontploffings. Merkwaardig, uitdrukkingsprofiele gegenereer deur enkelsel RNA-seq op 'n paar aantal selle stel dit in staat om die molekulêre kenmerke van CD33 + /CD34 + /CD38 - van CD33 + /CD34 + /CD38 + ontploffings transkripsie te onderskei.

CD34 + /CD38 - enkelsel transkripsie profiele onderskei leukemiese selle van normale stamselle

Om te bepaal of ons raamwerk geskik was vir die karakterisering van die transkriptoomprofiele van CD34 + /CD38 - ontploffings, het ons 267 individuele CD33 + /CD34 + /CD38 - selle van vier pasiënte met normale beenmurg en twee pasiënte met AML ontleed. Interessant genoeg, SOX4 was onder die top 200 hoogs uitgedrukte gene (verwys na die aanvullende data, Figuur S3) in normale CD34 + /CD38 - selle en in die CD34 + /CD38 - ontploffings van die twee AML monsters, en die teenwoordigheid daarvan was duidelik geassosieer met "stamness" ” eienskappe [36–39], wat dus die voorstel versterk dat al die gevange selle die kenmerke van vermeende stamselle kan besit. Merkwaardig genoeg het ons 5 transkripsie-verskillende trosse op die t-SNE-kaart geïdentifiseer (Figuur 3, Figuur S4) (verwys na die Materiale en Metodes). Vyftien selle is nie toegewys nie en is doelbewus aan groep 1 toegewys. Die oorblywende 219 CD34 + /CD38 - selle is in vier trosse gegroepeer. AML1- en AML2-selle het onderskeidelik in trosse 2 en 4 gegroepeer, terwyl al die nie-AML-selle 'n duidelike en unieke groepie, groepie 3, gevorm het (Figuur 3). Tros 5 het bestaan ​​uit 5 uitskieter selle van normale pasiënte (Figuur 3). Die waargenome groepering het aangedui dat inter-individuele variasie minder impak op mRNA uitdrukkingsprofiele gehad het as die siekte fenotipe en dat geïdentifiseerde groepe siektetoestande weerspieël. Om gene wat verband hou met die siektetoestand te identifiseer, is die D 3 E metode [40] gebruik om differensieel uitgedrukte transkripsies te identifiseer tussen die AML1, AML2 en nie-AML CD34 + /CD38 - selle (Figuur 4A). Ons het onderskeidelik 858 en 763 gene gevind wat differensieel in die AML1- en AML2-selle getranskribeer is in vergelyking met die nie-AML-selle (p-waarde < 0,05), en 185 gene getel wat in wese verband hou met selsiklusregulering en kankerweë in almal seltipes (Figuur 4B). Onder die op- of afgereguleerde gene in die AML1- en AML2-selle was die mees verrykte geenontologiekategorieë verwant aan die selsiklus, DNA-replikasie, DNA-herstel, sellulêre veroudering en selfvernuwing en stamheid, soos die JNK-weg, FOXM1 en PLK1 netwerke, en TGF-beta seinpad (Figuur 4B). 'n GSEA wat uitgevoer is met literatuurgebaseerde geenlyste het bevestig dat die AML1- en AML2-ontploffings beduidende verryking in die gepubliseerde stamsel-geenstelle en leukemie-geaktiveerde weë sowel as in 'n prognostiese geenhandtekening getoon het (verwys na die aanvullende data, Figuur S5). Die oorvleueling van verrykte funksionele-verwante geengroepe in die twee AML-selle het algemene eienskappe van LSC's in "stamness"-verwante seinweë geopenbaar wat oorlewing, tumorgenese en selfvernuwing beheer. Die pasiënte met AML1 en AML2 het aan verskillende subtipes van AML behoort. Die leukemiese selle van pasiënte met AML2 het die algemene FLT3-ITD mutasie gehuisves, wat ooreenstem met 'n interne tandem duplisering (ITD) in die Fms-agtige tyrosine kinase 3 geen (FLT3), wat die reseptor vir die sitokien FLT3-ligand (FLT3L) kodeer. Normaalweg word die FLT3-reseptor op die oppervlak van HSC's uitgedruk en is dit nodig vir die ontwikkeling van myeloïede stamvaders. Die FLT3-ITD-mutasie lei tot 'n hipersensitiwiteit van die FLT3-reseptor, wat onbeheerde selproliferasie bevorder wat deur AKT-, MEK- en ERK-geaktiveerde weë bemiddel word [41, 42]. Inderdaad, ons het waargeneem dat FLT3-transkripsies ooruitgedruk word in AML2-selle in vergelyking met nie-AML- en AML1-selle (verwys na die aanvullende data, Figuur S6). Die paaie wat deur hierdie ooruitdrukking gedereguleer word, dit wil sê RAS, ERK, AKT, TGF-beta en GPCR, word in die netwerkkaart geïllustreer (Figuur 5A).'n Vergelyking met die sellulêre netwerkkaart van die AML1-monster het getoon dat hierdie versteurings spesifiek vir AML2 CD34 + /CD38-ontploffings was (Figuur 5A).

t-SNE kaart met selle gekleur deur groep identiteite (linker plot) of deur individue (regs plot). Selle is in 5 trosse geklassifiseer volgens hul uitdrukkingspatrone deur die SEURAT-algoritme met die verstekparameters te gebruik. Selle wat nie toegewys kon word nie, is by verstek in groep 1 geplaas.

(A) Hittekaarte van die differensieel uitgedrukte gene (D 3 E-analise) wat N-selle van AML-selle onderskei. Gene word in rye getoon. Log2-getransformeerde RPKM-waardes word in die kleurkaart aangedui (verwys na die aanvullende data, Tabel S2 en S3). Die Venn-diagram dui die aantal gene aan wat differensieel uitgedruk word tussen N- en AML1-monsters (858 gene) en tussen N- en AML2-monsters (763 gene). (B) GO term analise van differensieel uitgedrukte gene tussen AML en N monsters (GeneAnalytics instrument, adj. p-waarde < 0,05). Die pers kleur dui op die beduidende verryking van geenontologie-bane in AML1 (673 gene), AML2 (578 gene) en AML1 & 2 (185 gene).

(A) Interaksiekaart van differensieel uitgedrukte gene (D 3 E-analise) vir AML1 (links) en AML2 (regs). Relevante seinpaaie word uitgelig. Gene wat die hoofnodes verteenwoordig, is rooi gekleur. * dui weë aan wat bekend is dat dit versteur word deur FL3-ITD mutasie. (B) Grafiese voorstelling van TFB's verryk in differensieel uitgedrukte geenstelle vir AML1 (links) en AML2 (regs). Sirkels word gegrootte in verhouding tot die aantal differensieel uitgedrukte gene wat vir die gemerkte TFB's verryk is.

Oor die algemeen het ons enkelsel-transkriptoomanalise wat op CD33 + /CD34 + /CD38 - selle van twee AML-monsters uitgevoer is, waardevolle inligting verskaf oor die aard van die AML. Die uitwerking van somatiese mutasies op die kankerselle is waarneembaar en bied waardevolle insig in siekte-geassosieerde en pasiënt-spesifieke geennetwerke.

Kernstel van transkripsiefaktore word mede-geaktiveer in leukemiese CD34+/CD38-selle

Om die regulatoriese netwerke van leukemiese CD34 + /CD38 - selle verder te ondersoek, het ons ondersoek of voorheen geïdentifiseerde differensieel uitgedrukte gene in die AML1 en AML2 selle mede-gereguleer is deur 'n stel transkripsie faktore. Daarom het ons die verryking van transkripsiefaktorbindingsplekke (TFB's) wat met daardie differensieel uitgedrukte geenstelle geassosieer word, geëvalueer (verwys na die Materiale en Metodes). Van die 763 beduidend differensieel uitgedrukte gene in die CD34+ /CD38-AML2-selle, is nege TFB'e (PAX4, CEBP, MEF2, POU3F2, E2F, TATA, NFY, FREAC3 (FOXC1) en HLF) aansienlik verryk (aangepaste p-waarde <) 0.05), en van die 858 differensieel uitgedrukte gene in die CD34 + /CD38 - AML1-selle, 62 TFB's (die nege TFB's wat met die AML2-datastel geassosieer word, asook ander relevante TBF's, soos OCT1, GATA1, EVI1 en MEF2 (Figuur 5B) )) is aansienlik verryk (aangepaste p-waarde < 0,05). Interessant genoeg word nege algemene TFB's gemeen gevind tussen die CD34 + /CD38 - ontploffings van beide AML monsters. Hierdie resultaat dui op 'n verwantskap tussen leukemiese CD33 + /CD34 + /CD38 - selle soos 'n gesamentlike transkripsieprogram of 'n gedeelde sellulêre identiteit.

Transkripsieprofiele van leukemiese CD34 + /CD38 - enkelselle kan gene identifiseer wat verband hou met vermeende oorlewingsuitkomste in die AML-TCGA-kohort

Verslae van AML-pasiënte het aangedui dat die geenuitdrukking-handtekeninge van leukemiese ontploffings by diagnose prognostiese betekenis het [11, 43]. Ons het dus veronderstel dat hierdie handtekeninge opgespoor kan word in leukemiese CD33 + /CD34 + /CD38 - enkelseltranskripsieprofiele. RNA-volgorde data en kliniese uitkoms data van 163 individue met AML toeganklik op The Cancer Genome Atlas (TCGA) openbare webwerf [44] is ondersoek, en dan is die assosiasies tussen 1675 differensieel uitgedrukte gene van ons studie geassesseer teen die kliniese uitkomste in die AML-TCGA-kohort. Spesifiek, ons het die gene gerangskik volgens die p-waardes afgelei van 'n eenveranderlike Cox-regressie. Ses-en-dertig gene van die AML2-geenstel en 22 gene van die AML1-genestel is geïdentifiseer as betekenisvol vir algehele oorlewing gebaseer op 'n vergelyking van die pasiënte in die boonste 50% van geenuitdrukking met dié in die onderste 50% van geenuitdrukking ( p-waarde ≤ 0,05) (verwys na die aanvullende data, Tabel S5). Vyf gene (MPO, ITGAX, RUFY3, FEM1C, en HSF2) was algemeen tussen die AML1- en AML2-geenstelle. Die effek van die relatiewe uitdrukking van geselekteerde gene op die oorlewing van AML-TCGA pasiënte word in Kaplan-Meier plotte in Figuur 6 getoon. Interessant genoeg, die algehele uitdrukking van myeloperoksidase (MPO) was hoër in die normale CD33 + /CD34 + /CD38 - enkelselle in vergelyking met die AML-selle (FC N/AML2=24.77, p-waarde=3.92x10 −10 FC N/AML1=32, p-waarde=3.97x10 −9 ), terwyl hoë vlakke van MPO transkripsies was betekenisvol geassosieer met verbeterde oorlewing in die AML-TCGA monsters (p-waarde=0.0042) (Figuur 6). MPO is 'n myeloïede afkomsmerker wat beskryf is as 'n potensiële prognostiese faktor vir AML [45-48]. Hierdie analise het gene geïdentifiseer wie se enkelsel uitdrukking in leukemiese selle geassosieer is met die oorlewing van AML-TCGA pasiënte (verwys na die aanvullende data, Tabel S5). Verder het ons 'n verryking van voorheen gepubliseerde prognostiese geen-handtekeninge gevind [12, 49] in enkele leukemiese CD34 + / CD38 - selle (verwys na die aanvullende data, Figuur S5). Gesamentlik dui hierdie bevindinge daarop dat die transkripsionele landskap van leukemiese CD33 + /CD34 + /CD38 - selle vermoedelike relevante siekte uitkoms inligting bevat en die enkelsel transkriptomiese strategie wat hier aangebied word, is van potensiële nut in verdere prognostiese evaluasies.

(Links) Kaplan-Meier oorlewingskurwes vir AML-TCGA pasiënte gestratifiseer op grond van transkripsievlakke. Pasiënte is in twee groepe verdeel: 50% laagste geenuitdrukking en 50% hoogste geenuitdrukking. P-waardes is bereken met behulp van 'n eenveranderlike Cox-regressie-analise. (Regs) Box-plotte wat die verspreiding van transkripsievlakke (log2-getransformeerde RPKM) in AML1, AML2 en N enkelselmonsterstelle vertoon. Die groepe selle met die hoogste betekenisvolle uitdrukking word in rooi getoon (p-waarde < 0,05) (verwys na die aanvullende data, Tabel S5). HZ: gevaarverhouding.


Bespreking

Figuur 5. Ondersoek na volgordebepaling gapings en nukleotied-isomere deur MS/MS. (a) Outomatiese volgordebepaling van 'n gemodifiseerde 20-nt RNA met 'n 2'-O-metilering in posisie C11 (R5: AUAGCCCAGUCmAGUCUACGC). 2′-O-modifikasies inhibeer suurhidrolise van die fosfaatruggraat wat lei tot swak of ontbrekende leerfragmente. Die massa van die vermiste fragment in die onderste 3′ leer het ooreengestem met A + C + metiel (grys teks). (b) Struktuur van die ontbrekende dimeer bepaal deur MS/MS-analise, met kenmerkende fragmentione soos gemerk. (c) Fragmentasiespektrum na uitgebreide suurhidrolise (80 °C, 75% (v/v) mieresuur, 2 uur) om die oorvloed van die dimeer te verhoog. MS/MS data is ingesamel vir die gemodifiseerde dimeer en fragmentione is gebruik om te bevestig dat die metilering op die ribose 2' posisie van sitidien is en die volgorde is CmA. Toekenbare fragmente-etikette word op die dimeerstruktuur in paneel (b) aangedui.


Dimensionele vermindering

Hier verteenwoordig ons die transkripsieprofiele van alle selle in die datastel in 'n 2D- of 3D-projeksie, tipies met behulp van die t-SNE- of UMAP-metodes.

SNN grafiek

Die SNN-grafiek is vroeër in die FindNeighbors()-funksie bereken.

Bereken UMAP

Hy ons bereken die UMAP met dieselfde 15 PC's wat ons ook vir groepering gebruik het.

Oorsig

Na die berekening van die UMAP, stip ons dit terwyl ons die selle kleur volgens die aantal transkripsies, monster, groepering en selsiklus.

Monsters

Om te verstaan ​​hoeveel die monsters oorvleuel, plot ons weer die UMAP en verdeel die monsters in verskillende panele. Klaarblyklik oorvleuel hulle baie goed.

Klusters

In plaas daarvan, vir die trosse voeg ons eenvoudig 'n etiket by die geometriese middelpunt van elke groep.

Poincaré-kaart (werk aan die gang)


Kommentaar op hierdie artikel Kommentaar (0)

Al my kommentaar is deur die skrywers aangespreek. Sommige van die voorgestelde verbeterings is ingestel, ander nie, maar die skrywers het verduidelik dat hulle nie met die doelwitte van die artikel oorvleuel nie.

Ek stel net voor om 'n reg te stel. lees verder

Al my kommentaar is deur die skrywers aangespreek. Sommige van die voorgestelde verbeterings is ingestel, ander nie, maar die skrywers het verduidelik dat hulle nie met die doelwitte van die artikel oorvleuel nie.

  • "Normalisasie" in plaas van "Normalisering" kom een ​​keer voor in die hoofstuk "Transformasie na FPKM-waardes en normalisering"
  • "those those" - herhaalde woord in die sin begin vanaf "Figuur 2 toon dat die stel af-gereguleerde gene meer diskriminerende krag het ..."
  • daar is geen kolletjie aan die einde van die laaste sin van die Samevatting hoofstuk nie. Verder stel ek voor om nie 'n term "wild-tipe NPM1c monsters" wat gevorm is as 'n ekwivalent van "NPM1c gemuteerde monsters" te gebruik nie, bv. in die beskrywing van die figuur 3 en 4, aangesien "NPM1c" "sitoplasmiese NPM1" beteken wat tipies is vir monsters met die gemuteerde NPM1 geen. Die term "wild-tipe NPM1 monsters" is meer gepas.

Mededingende belangstellings: Geen mededingende belange is bekend gemaak nie.

Resensentkundigheid: Genomika, transkriptomika, biologie van akute myeloïede leukemie

Mededingende Belangstellings: Geen mededingende belange is bekend gemaak nie.

Resensentkundigheid: Transkriptoomanalise, Geenuitdrukkingregulering

Inleiding
Die artikel bied 'n nuwe pakket aan, wat ontwikkel is uit 'n vorige een ('singscore') wat deur dieselfde skrywers uitgewerk is. Die pakket 'singscore' is 'n enkelmonster geenstel-tellingmetode wat waardevol is vir die ontleding van transkriptome van monsters wat deur die lang tyd versamel is en nie in dieselfde lopie, eksperiment, platform of laboratorium in volgorde gerangskik is nie. Hier pas die skrywers die metode toe vir klassifikasie van TCGA akute myeloïde (AML) monsters met behulp van transkripsionele 'geenhandtekeninge' wat deur ander outeurs (Verhaak en Ross) geïdentifiseer is as tipies vir die NPM1c mutasie, KMT2A (MLL) geenfusies en PML-RARA geen samesmeltings.

AML is 'n heterogene en multi-klonale siekte. Die transkriptoomprentjie van AML is baie kompleks en kan voortspruit uit verskillende mutasies, genomiese herrangskikkings en afwykende regulering van geenuitdrukking op verskillende vlakke (sien my laaste oorsigartikel 1). Soms kan die geenuitdrukkingprofiele oorvleuel tussen monsters met verskillende genetiese letsels. Die voorbeelde is HOX-geen-gebaseerde diskriminerende handtekeninge bepaal deur Verhaak en Ross, nie beperk tot AML met gemuteerde NPM1 nie, maar spesifiek ook vir AML gevalle met 11q23 abnormaliteite en KMT2A (MLL) geen herrangskikkings. Die skrywers is bewus van hierdie feit en onderstreep dit ook in die artikel. Aan die ander kant kan monsters met dieselfde mutasie verskillende uitdrukkingsprofiele aanbied as gevolg van addisionele kenmerke wat ook die transkriptoom beïnvloed. Daarom moet interpretasie van die resultate met omsigtigheid gedoen word. Vir my interpreteer die skrywers die resultate 'n bietjie te optimisties. Die voorgestelde metode is nie voldoende om die mutasie van belang te bepaal nie, maar kan gebruik word as 'n aanvullende benadering, 'n siftingsinstrument of (in die toekoms) 'n gepersonaliseerde medisynehulpmiddel wat pasiënte kan klassifiseer op grond van transkriptomiese profiele, geassosieer met spesifieke behandelingsreaksie.

Toets pakket
Ek het die pakket in R met TCGA-data gebruik en bevestig dat die kode werk, dit is vinnig en genereer dieselfde resultate en plotte as wat in die artikel aangebied word. Verder het ek die hele prosedure op my eie RNA-seq datastel getoets (nog nie gepubliseer nie maar gebruik vir aanvullende uitdrukkingsanalise van NPM1 alternatiewe transkripsies, sien die artikel 2). My datastel bevat 28 AML-monsters, insluitend 8 met NPM1-mutasie (geverifieer met drie onafhanklike benaderings). Die datalading was moeiliker aangesien ek van die csv-tabel met tellings begin het en ek die DESeqDataSet-objek in die RangedSummarizedExperiment-objek moes omskakel. Die beste diskriminasie is behaal met die Verhaak-handtekening, maar slegs met die af-gereguleerde gene. Alle monsters met NPM1 mutasie was duidelik van ander geskei, maar 2 addisionele monsters, sonder NPM1 mutasie, is saam met NPM1c gegroepeer. Dit is moontlik dat hulle KMT2A (MLL) herrangskikkings het, maar ek kan dit nie nou verifieer nie. Die ontleding van die plotte, op-gereguleerde gene en alle gene vorm die handtekening is nie so doeltreffend nie, en skei slegs 2 of 3 NPM1c monsters van die res. In die artikel erken die skrywers ook dat die stel af-gereguleerde gene meer diskriminerende krag het, maar hulle beweer op-gereguleerde gene dra ook by tot die diskriminasie.

Ek het geen monsters met PML-RARA samesmelting in my datastel nie en die status van KMT2A (MLL) geen was onbekend by my pasiënte, so ek kon nie die doeltreffendheid van ander handtekeninge as NPM1c vergelyk nie. APL met PML-RARA is die mees kenmerkende AML-subtipe wat maklik van ander AML-monsters geskei kan word op grond van transkripsieprofiel, so ek sou goeie resultate verwag. Hierdie voorbeeld wys die pakket werk goed vir monsters met 'n baie spesifieke geenuitdrukkingprofiel.

Interpretasie van die resultate
Met inagneming van die resultaat interpretasie, het ek 'n paar twyfel. Die singpartitures is saamgestel uit twee komponente, 'n verrykingtelling en 'n verspreidingsskatting van range. Ek word ingelig dat "hoë uitdrukking van op-gereguleerde gene en lae uitdrukking van af-gereguleerde gene tot hoër tellings sal lei". Dit is logies. Ek ken ook die maksimum reekse ([−1, 1] vir handtekeninge wat op- en af-gereguleerde gene behels). Watter waarde is egter werklik hoog? Byvoorbeeld, is 0.2 genoeg (dit lyk soos uit die plotte in die artikel en uit my eie data ook) of miskien moet ek baie meer verwag, bv. 0,7? Net so, watter waarde van verspreiding moet ek verwag? Ek veronderstel, die laagste, maar wat is laag genoeg of watter reeks is optimaal? Wat moeilik is om te verstaan, is dat “ten spyte van die omvang van tellings wat toeneem, die diskriminerende krag matig daal” (vir op-gereguleerde gene van Verhaak-handtekening, in vergelyking met af-gereguleerde gene). Ek sien dieselfde paradoks in my data - die tellings is hoër vir up-reg. gene, wat baie minder doeltreffend is in diskriminasie tussen NPM1c+ en NPM1c- monsters. Dit lyk asof tellings net nie die neigings weerspieël wat vanaf telling vs verspreidings-plotte waargeneem is nie.

  • Instruksie hoe om die data voor te berei en te laai anders as dié wat in die GDC-databasis gedeponeer is.
  • Annotasie van monsters op die persele met unieke monster ID's (wanneer 'n monster verkeerd geklassifiseer word, 'n gebruiker weet nie watter een dit is nie, sal dit ook nuttig wees om 'n monster op verskeie persele te lokaliseer, bv. gegenereer met 'n handtekening van op- en af- gereguleerde gene) – daar word in die artikel geskryf dat die 'singscore'-pakket verskillende tipes aantekeninge ondersteun ("Belangrike aantekeninge kan op elke plot oorgelê word"), maar ek het slegs kleurkode-aantekening gekry terwyl ek graag kleurkode vir mutasietipe en bykomende teksetikette met voorbeeld-ID's op dieselfde plot.
  • 'n Opdrag wat die monsters lys wat getipeer is as sterk kandidate vir spesifieke mutasie, georden volgens die berekende statistieke.
  • Genereer 'n drempellyn tussen monsters met en sonder mutasie.

Wat ek die meeste sou verwag van 'n pakket wat ontwerp is om mutasies in transkriptome te identifiseer, is 'n direkte identifikasie van mutasies in RNAseq-data. Die resultate van mutasietipering gebaseer op geenuitdrukkingprofiel sal sterk ondersteun word wanneer 'n spesifieke mutasie deur RNAseq-lesings gedek sal word. Uit my eie ervaring weet ek dit is moontlik (vir NPM1 mutasie opsporing, sien 4). Vir gene met hoë en middel-uitdrukkingsvlakke kan die dekking selfs hoër wees as wat verkry word uit genoom- of eksoomvlakdata. En in die geval wanneer DNS-data nie beskikbaar is nie, sal dit regtig fantasties wees. Omdat dit heeltemal ander dataverwerking vereis, kan dit oorweeg word vir toekomstige weergawes van die pakket.

Is die rasionaal vir die ontwikkeling van die nuwe sagteware-instrument duidelik verduidelik?

Is die beskrywing van die sagteware-instrument tegnies goed?

Word voldoende besonderhede van die kode, metodes en analise (indien van toepassing) verskaf om replikasie van die sagteware-ontwikkeling en die gebruik daarvan deur ander moontlik te maak?

Word voldoende inligting verskaf om interpretasie van die verwagte uitsetdatastelle en enige resultate wat met die instrument gegenereer word, moontlik te maak?

Word die gevolgtrekkings oor die instrument en sy werkverrigting voldoende ondersteun deur die bevindinge wat in die artikel aangebied word?

1. Handschuh L: Nie net mutasies maak saak nie: Molekulêre beeld van akute myeloïede leukemie wat uit transkriptoomstudies opduik. Tydskrif vir Onkologie. 2019 2019: 1-36 Uitgewer Volteks
2. Handschuh L, Wojciechowski P, Kazmierczak M, Marcinkowska-Swojak M, et al.: NPM1 alternatiewe transkripsies word opgereguleer in akute myeloïede en limfoblastiese leukemie en hul uitdrukkingsvlak beïnvloed pasiëntuitkoms. Tydskrif vir Translationele Geneeskunde. 2018 16 (1). Uitgewer Volledige teks
3. Alcalay M, Tiacci E, Bergomas R, Bigerna B, et al.: Akute myeloïede leukemie wat sitoplasmiese nukleofosmien (NPMc+ AML) dra, toon 'n duidelike geenuitdrukkingsprofiel wat gekenmerk word deur opregulering van gene betrokke by stamselonderhoud.Bloed. 2005 106 (3): 899-902 PubMed Abstract | Uitgewer Volledige teks
4. Marcinkowska-Swojak M, Handschuh L, Wojciechowski P, Goralski M, et al.: Gelyktydige opsporing van mutasies en kopiegetalvariasie van NPM1 in die akute myeloïede leukemie deur gebruik te maak van multipleksligasie-afhanklike probeamplifikasie.Mutat Res. 2016 786: 14-26 PubMed Abstract | Uitgewer Volledige teks

Mededingende belangstellings: Geen mededingende belange is bekend gemaak nie.

Resensentkundigheid: Genomika, transkriptomika, biologie van akute myeloïede leukemie.

Ons bedank die resensent vir hul tyd en moeite gedoen om ons manuskrip te hersien en vir die nuttige terugvoer wat hulle verskaf het. Waar toepaslik het ons ons manuskrip gewysig na . lees verder Ons bedank die resensent vir hul tyd en moeite gedoen om ons manuskrip te hersien en vir die nuttige terugvoer wat hulle verskaf het. Waar toepaslik het ons ons manuskrip gewysig om die resensent se kommentaar aan te spreek.
Hieronder sluit ons 'n puntsgewyse reaksie op die resensent se kommentaar in en waar toepaslik lys ons ooreenstemmende veranderinge aan die manuskrip.

Inleiding
LH: Die artikel bied 'n nuwe pakket aan, wat ontwikkel is uit 'n vorige een ('singscore') wat deur dieselfde skrywers uitgewerk is. Die pakket 'singscore' is 'n enkelmonster geenstel-tellingmetode wat waardevol is vir die ontleding van transkriptome van monsters wat deur die lang tyd versamel is en nie in dieselfde lopie, eksperiment, platform of laboratorium in volgorde gerangskik is nie.Hier pas die skrywers die metode toe vir klassifikasie van TCGA akute myeloïde (AML) monsters met behulp van transkripsionele 'geenhandtekeninge' wat deur ander outeurs (Verhaak en Ross) geïdentifiseer is as tipies vir die NPM1c mutasie, KMT2A (MLL) geenfusies en PML-RARA geen samesmeltings.

DDB: Ons neem kennis dat die doel van die aanvanklike manuskrip moontlik onduidelik was, deels omdat dit onder die F1000 Sagtewarenutsmiddelartikel-afdeling gelys is. Die doel van hierdie artikel is om 'n werkvloei aan te bied wat die gebruik van singscore demonstreer, en dit is 'n R/Bioconductor-werkvloei wat die gebruik van singscore illustreer, en is dus nie bedoel as 'n nuwe pakket of hulpmiddel nie.
https://www.bioconductor.org/packages/release/workflows/
https://www.bioconductor.org/packages/release/workflows/html/SingscoreAMLMutations.html
Sommige van die resensie-opmerkings hieronder neem aan dat hierdie manuskrip 'n spesifieke sagtewarepakket bied vir die opsporing van NPM1-mutasies, so ons het die manuskrip soos hieronder uiteengesit verduidelik om die doel en bedoeling duideliker te maak (let daarop dat die titel van die manuskrip verander het vanaf 'voorspel mutasies' na 'voorspel mutasiestatus' gebaseer op terugvoer van beoordelaar 1).
Hierdie werk het ontstaan ​​uit 'n waarneming in 'n ander projek dat die Verhaak-handtekening met singscore sterk korreleer met mutasiestatus, en ons het gedink dit sou 'n interessante voorbeeld wees wat navorsers ook kan help om die verbande tussen genetiese letsels en ooreenstemmende transkripsieveranderinge te ondersoek. 'n gebied waarin die resensent duidelik oor kundigheid beskik.

LH: AML is 'n heterogene en multi-klonale siekte. Die transkriptoomprentjie van AML is baie kompleks en kan voortspruit uit verskillende mutasies, genomiese herrangskikkings en afwykende regulering van geenuitdrukking op verskillende vlakke (sien my laaste oorsigartikel 1). Soms kan die geenuitdrukkingprofiele oorvleuel tussen monsters met verskillende genetiese letsels. Die voorbeelde is HOX-geen-gebaseerde diskriminerende handtekeninge bepaal deur Verhaak en Ross, nie beperk tot AML met gemuteerde NPM1 nie, maar spesifiek ook vir AML gevalle met 11q23 abnormaliteite en KMT2A (MLL) geen herrangskikkings. Die skrywers is bewus van hierdie feit en onderstreep dit ook in die artikel. Aan die ander kant kan monsters met dieselfde mutasie verskillende uitdrukkingsprofiele aanbied as gevolg van addisionele kenmerke wat ook die transkriptoom beïnvloed.

LH: Daarom moet interpretasie van die resultate met omsigtigheid gedoen word. Vir my interpreteer die skrywers die resultate 'n bietjie te optimisties. Die voorgestelde metode is nie voldoende om die mutasie van belang te bepaal nie, maar kan gebruik word as 'n aanvullende benadering, 'n siftingsinstrument of (in die toekoms) 'n gepersonaliseerde medisynehulpmiddel wat pasiënte kan klassifiseer op grond van transkriptomiese profiele, geassosieer met spesifieke behandelingsreaksie.

DDB: Ons stem saam met die beoordelaar dat geensteltelling van transkriptomiese data nie die enigste metode moet wees wat gebruik word om pasiëntmonsters wat genetiese letsels dra, te identifiseer nie. Die Bioconductor-werkvloei wat ons aanbied, is bedoel om 'n voorbeeld te verskaf van die toepassing van singscore om mutasie/fusie-gebaseerde genestelle te bestudeer, aangesien ons glo dat singscore 'n relatief buigsame en intuïtiewe benadering bied om verskillende genestelle oor groot datastelle te ondersoek. Ons voel dat 'n besonder nuttige kenmerk die vermoë is om verskillende handtekeninge/geenstelle te kombineer (insluitend fenotipe/selsiklushandtekeninge, ens.) om te verken hoe hierdie transkripsieveranderinge oor verskillende monsters geassosieer word, gedemonstreer in Figure 5-7.
Ons het die "Beskrywing van biologiese relevansie"-afdeling gewysig om die beoordelaar se opmerkings oor die kompleksiteit van AML genomiese letsels en ooreenstemmende transkriptomiese veranderinge aan te spreek. Die resensie wat uitgelig is, is veral relevant vir hierdie werk en daarom noem ons die kompleksiteit van AML en rig die leser na hierdie hulpbron deur die eerste paragraaf uit te brei (nuwe teks onderstreep):
.. 'n Meer onlangse studie wat hoofsaaklik op genomiese data gefokus het, het die klinies beduidende AML-subtipes [Papaemmanuil (2016), NEJM] verder verfyn, wat 'n aantal mede-voorkomende sowel as wedersyds eksklusiewe mutasies beklemtoon. Soos die identifikasie van vermeende drywersamesmeltings/mutasies voortduur, is werk ook gerig op hoe hierdie letsels met mekaar en ander kenmerke in wisselwerking tree (bv. sellulêre proliferasie, veranderinge as gevolg van fenotipiese plastisiteit, of variasie in post-transkripsionele reguleerders soos mikroRNA's) om dryf transkripsieveranderinge aan soos bespreek in 'n onlangse resensie [Hanschuch (2019), J. Oncol.].

Ons het ook 'n paragraaf aan die einde van hierdie afdeling bygevoeg wat sommige van die beperkings vir ons benadering bespreek en meer konteks verskaf waarin dit toegepas kan word:
Terwyl ons demonstreer dat singscore in staat is om mutasiestatus af te lei van die transkripsionele profiel van AML-monsters, let ons daarop dat dit die beste gebruik word om alternatiewe data aan te vul wat 'n meer definitiewe oplossing van hierdie letsels kan verskaf. Verwerking van rou RNA-volgorde-data sal die teenwoordigheid van geenfusieprodukte of mutasies binne proteïenkoderende streke direk identifiseer, alhoewel vir baie groot datastelle die gekwantifiseerde transkripsie-oorvloeddata baie makliker is om te verkry sonder toegangsooreenkomste. Die metode kan ook toegepas word op verouderde mikroskikking-datastelle waar genoom- en RNA-volgordedata nie beskikbaar is nie. As sodanig bied singscore 'n nuttige benadering om gevestigde metodes vir die studie van genetiese letsels in kanker aan te vul. Deur assosiasies tussen verskillende genomiese en fenotipies relevante handtekeninge te ondersoek, kan dit ook help om ware drywermutasies wat konsekwente effekte op die transkripsie van AML-monsters en ander kankers uitoefen, beter te karakteriseer.

Toets pakket
LH: Ek het die pakket in R met TCGA-data gebruik en bevestig dat die kode werk, dit is vinnig en genereer dieselfde resultate en plotte as wat in die artikel aangebied word. Verder het ek die hele prosedure op my eie RNA-seq datastel getoets (nog nie gepubliseer nie maar gebruik vir aanvullende uitdrukkingsanalise van NPM1 alternatiewe transkripsies, sien die artikel 2). My datastel bevat 28 AML-monsters, insluitend 8 met NPM1-mutasie (geverifieer met drie onafhanklike benaderings). Die datalading was moeiliker aangesien ek van die csv-tabel met tellings begin het en ek die DESeqDataSet-objek in die RangedSummarizedExperiment-objek moes omskakel. Die beste diskriminasie is behaal met die Verhaak-handtekening, maar slegs met die af-gereguleerde gene. Alle monsters met NPM1 mutasie was duidelik van ander geskei, maar 2 addisionele monsters, sonder NPM1 mutasie, is saam met NPM1c gegroepeer. Dit is moontlik dat hulle KMT2A (MLL) herrangskikkings het, maar ek kan dit nie nou verifieer nie. Die ontleding van die plotte, op-gereguleerde gene en alle gene vorm die handtekening is nie so doeltreffend nie, en skei slegs 2 of 3 NPM1c monsters van die res. In die artikel erken die skrywers ook dat die stel af-gereguleerde gene meer diskriminerende krag het, maar hulle beweer op-gereguleerde gene dra ook by tot die diskriminasie.

LH: Ek het geen monsters met PML-RARA samesmelting in my datastel nie en die status van KMT2A (MLL) geen was onbekend in my pasiënte, so ek kon nie die doeltreffendheid van ander handtekeninge as NPM1c vergelyk nie. APL met PML-RARA is die mees kenmerkende AML-subtipe wat maklik van ander AML-monsters geskei kan word op grond van transkripsieprofiel, so ek sou goeie resultate verwag. Hierdie voorbeeld wys die pakket werk goed vir monsters met 'n baie spesifieke geenuitdrukkingprofiel.

DDB: Ons bedank die beoordelaar vir die uitsonderlike moeite en tyd wat belê is om ons werkvloei op onafhanklike data te toets - ons hoop dat die resultate van hierdie ontleding insiggewend was om ander kenmerke binne hul data te identifiseer. Ons werkvloei sluit leiding in vir gebruikers wat data van ander bronne wil invoer, soos dié wat deur die beoordelaar gebruik word.

Interpretasie van die resultate
LH: Met inagneming van die resultaat interpretasie, het ek 'n paar twyfel. Die singpartitures is saamgestel uit twee komponente, 'n verrykingtelling en 'n verspreidingsskatting van range. Ek word ingelig dat "hoë uitdrukking van op-gereguleerde gene en lae uitdrukking van af-gereguleerde gene tot hoër tellings sal lei". Dit is logies. Ek ken ook die maksimum reekse ([−1, 1] vir handtekeninge wat op- en af-gereguleerde gene behels). Watter waarde is egter werklik hoog? Byvoorbeeld, is 0.2 genoeg (dit lyk soos uit die plotte in die artikel en uit my eie data ook) of miskien moet ek baie meer verwag, bv. 0,7? Net so, watter waarde van verspreiding moet ek verwag? Ek veronderstel, die laagste, maar wat is laag genoeg of watter reeks is optimaal? Wat moeilik is om te verstaan, is dat “ten spyte van die omvang van tellings wat toeneem, die diskriminerende krag matig daal” (vir op-gereguleerde gene van Verhaak-handtekening, in vergelyking met af-gereguleerde gene). Ek sien dieselfde paradoks in my data - die tellings is hoër vir up-reg. gene, wat baie minder doeltreffend is in diskriminasie tussen NPM1c+ en NPM1c- monsters. Dit lyk asof tellings net nie die neigings weerspieël wat vanaf telling vs verspreidings-plotte waargeneem is nie.

DDB: Interpretasie van singscores word doelbewus gelaat om probleemspesifiek te wees aangesien dit oor die algemeen 'n mate van domeinspesifieke kennis van die biologiese sisteem en ooreenstemmende kenmerkende gene vereis - ideaal gesproke kan die rekenaarbioloog of bioinformatici wat aan elke projek werk, 'n mate van leiding gee.
Die basiese interpretasie van die telling is die genormaliseerde gemiddelde rangorde van gene binne die handtekening relatief tot alle ander gene in die monster. By die uiterste is hierdie interpretasie relatief eenvoudig - naby 1, 'n hoër waarde sal aandui dat gene in die handtekening op hoër vlakke uitgedruk word relatief tot ander gene. Vir tellings na nul kan die interpretasie egter baie moeiliker wees - 'n telling van nul (op die reeks [-1,1]) kan aandui dat die kenmerkende gene styf saamgegroepeer is rondom die monsterwye gemiddelde oorvloed, of dit kan aandui 'n hoogs-verspreide byna eenvormige verspreiding oor die hele oorvloedreeks (met 'n gemiddelde naby die gemiddelde van alle gene). Deur die singtellings saam met verspreidingsberamings te ondersoek, word hierdie inligting opgesom, wat help met die skatting van effekgrootteveranderlikheid.
Interpretasie van tellings hang af van die konteks van die eksperiment en die tipiese gedrag van die genestel. 'n "Hoë" telling word die beste bepaal relatief tot ander monsters. Dit word bereik of deur tellings van ander monsters in groot datastelle soos TCGA te vergelyk, of beter, oor 'n stel monsters van 'n gegewe eksperiment met bekende toestande. Ander metodes normaliseer die data voor die berekening van tellings, en ons let daarop dat 'n onlangse referaat z-telling normalisering toegepas het op resultate van singscore vir vergelyking met ssGSEA [Cui et al (2019) Oncogene, DOI: 10.1038/s41388-019-1026-9 ].
Alle singtellings vir steekproewe bly dieselfde en hoef nie herbereken te word by toevoeging van nuwe steekproewe nie, en interpretasie sal verbeter soos meer steekproewe by die studie gevoeg word. Gaussiese mengselmodellering kan byvoorbeeld gebruik word om die NPM1c-tellings te skei op grond van ons verwagting dat daar twee groepe is. Dit kan omgeskakel word met ander klassifikasie-algoritmes sonder toesig, soos hiërargiese groepering of k-beteken groepering. Ons het 'n voorbeeldanalise by die manuskrip gevoeg om te demonstreer hoe tellings in 'n omgewing sonder toesig geïnterpreteer kan word, onder die afdeling "Transkripsionele handtekeninge om mutasiestatus te voorspel/Ontoesig klassifikasie van mutasies".
Daar kan sommige gevalle wees waar voorbeeldannotasie nie beskikbaar is nie. In sulke scenario's is ons nie in staat om regressiemodelle te bou om tellings te interpreteer nie. 'n Hoër sangtelling sal sterker bewyse vir die handtekening verskaf, maar die grootte is moeilik om te interpreteer sonder 'n verwysing. Een benadering om hierdie situasie te hanteer is om tellings te vergelyk met dié van ander datastelle waar die mutasiestatus bekend is. 'n Alternatiewe benadering sou wees om tellings binne die datastel te vergelyk deur gebruik te maak van leermetodes sonder toesig.
Hier demonstreer ons die gebruik van drie groeperingsmetodes (Gaussiese mengselontbinding, k-beteken groepering en hiërargiese groepering) om monsters te stratifiseer, en soos ons voorheen gedoen het [wang et al (2012) Journal of clinical bioinformatics] gebruik die aangepaste Rand-indeks (ARI) om klassifikasies te vergelyk. Soos verwag, lei klassifikasie onder toesig (GLM) tot die beste voorspelling. Dit word gevolg deur groepering gebaseer op die telling met behulp van Gaussiese mengsel ontbinding. Enige ander klassifikasie-algoritme saam met voorkennis kan gebruik word om tellings in groepe te ontbind. Die belangrike eienskap van singscores is dat hulle die diskriminerende krag van geen-handtekeninge handhaaf, daarom kan dit gekoppel word aan algoritmes onder toesig, semi-toesig of nie-toesig om stratifikasie uit te voer.

#Gaussiese mengsel model
m1 = Mclust(tellingf$telling, G = 2, verbose = ONWAAR)
#k-beteken groepering
m2 = kmeans(tellingf[, 5:6], middelpunte = 2, nbegin = 100)
#hiërargiese groepering
m3 = hclust(afstand(tellingf[, 5:6]))

mutation_inference = cbind(
'GLM' = voorspelling,
'mclust' = m1$klassifikasie,
'k-means' = m2$cluster,
'hclust' = cutree(m3, k = 2)
)
toepas (mutasieafleiding, 2, aangepasRandIndex, scoref$NPM1c.Mut)
```
Moontlike verbeterings
LH: Alhoewel die pakket oor die algemeen nuttig en goed beskryf is, sal die volgende verbeterings dit meer vriendelik maak vir minder gevorderde R-gebruikers, bv.

LH: Instruksie hoe om die data voor te berei en te laai anders as dié wat in die GDC-databasis gedeponeer is.

DDB: Ons het in teks opgemerk dat die rangmatriks bereken kan word deur óf 'n SummarizedExperiment-objek, DGEList-objek, ExpressionSet-objek, numeriese matriks of 'n numeriese dataraam te gebruik. As sodanig sal 'n numeriese matriks met monstername as kolomname en gene as ryname voldoende wees. Puntetelling moet uitgevoer word op lengtevooroordeel gekorrigeerde metings soos RPKM/FPKM of TPM en nie CPM of rou tellings nie.
Transkripsie-handtekeninge om mutasiestatus/telling TCGA AML-monsters te voorspel deur gebruik te maak van die Verhaak-handtekening - uittreksel uit teks: “Die `rankGenes`-funksie sal rangordes van uitdrukkingsdata in die vorm van óf 'n numeriese matriks, numeriese dataraam, ExpressionSet-objek, DGEList-objek bereken of 'n SummarizedExperiment-objek"

LH: Annotasie van monsters op die persele met unieke monster ID's (wanneer 'n monster verkeerd geklassifiseer word, 'n gebruiker weet nie watter een dit is nie, sal dit ook nuttig wees om 'n monster op verskeie persele te lokaliseer, bv. gegenereer met 'n handtekening van op- en af -gereguleerde gene) – daar word in die artikel geskryf dat die 'singscore'-pakket verskillende tipes aantekeninge ondersteun ("Belangrike aantekeninge kan op elke plot oorgelê word"), maar ek het slegs kleurkode-aantekening gekry terwyl ek kleurkode wil hê vir mutasietipe en addisionele teksetikette met monster-ID's op dieselfde plot.

DDB: Voorbeeldetikette kan by landskaperwe gevoeg word, maar is nie in ander visualiserings ondersteun nie. Ons het funksionaliteit by die nuutste weergawe van die singscore-pakket (v1.5.1) gevoeg om die etikettering van monsters in die partituur vs. verspreidingsplotte toe te laat. Ons het die teks gewysig om te verduidelik, en Figuur 6 gewysig om monsters te benoem waar klassifikasie-onsekerheid (NMP1c vs WT) hoog is om hierdie kenmerk te demonstreer. Die veranderinge hieronder is aangebring aan die afdeling: “Transkripsionele handtekeninge om mutasiestatus te voorspel/Diagnostiek van die Verhaak-handtekening”.
Voorbeeldaantekeninge van belang (bv. kliniese aantekeninge) kan op elke plot in kleur gekodeer word. …

Figuur 6:
```
select_aml = !mutated_gene %in% 'Ander'

#label monsters met 'n mclust NPM1c klassifikasie onsekerheid van > 0.3
label_samples = substr(ryname(verhaak_scores), 6, 12) #monster-ID van strepieskodes
label_samples[m1$onsekerheid < 0.3] = NA

#projekteer mutasies op die landskap
p1 = projectScoreLandscape(
p_mll_npm1c,
verhaak_tellings,
rossmll_scores,
submonsters = select_aml,
annot = gemuteerde_geen[selekteer_aml],
sampleLabels = etiket_monsters[select_aml]
)
p1 + tema(legend.box = 'vertikaal')
```
LH: 'n Opdrag wat die monsters lys wat getipeer is as sterk kandidate vir spesifieke mutasie, georden volgens die berekende metrieke.

DDB: Soos bespreek in 'n vroeëre opmerking, beveel ons sulke ontledings aan om probleemspesifiek te wees. Oor die algemeen sal 'n hoër telling 'n sterker effek van gene in die handtekening aandui relatief tot WT-monsters, daarom sal monsters met hoër tellings sterker kandidate vir mutasies wees. Alternatiewelik kan die verdeling wat geskep is met behulp van Gaussiese mengselmodellering gebruik word as 'n gids vir skeiding en monsters met 'n telling baie hoër as die drempel sal die sterkste kandidate vir die mutasie wees.

LH: Genereer 'n drempellyn tussen monsters met en sonder mutasie.

DDB: Sien bespreking/aanbeveling hierbo.

LH: In die toekoms sal dit ook goed wees om ander handtekeninge in te sluit, bv. die handtekening van 369 gene wat deur Alcalay geïdentifiseer is et al. in 2005 3, onderskei AML pasiënte met NPMc+ van pasiënte met NPMc-, selfs in gevalle met seldsame chromosomale abnormaliteite.

LH: Wat ek die meeste sou verwag van 'n pakket wat ontwerp is om mutasies in transkriptome te identifiseer, is 'n direkte identifikasie van mutasies in RNAseq-data. Die resultate van mutasietipering gebaseer op geenuitdrukkingprofiel sal sterk ondersteun word wanneer 'n spesifieke mutasie deur RNAseq-lesings gedek sal word. Uit my eie ervaring weet ek dit is moontlik (vir NPM1 mutasie opsporing, sien 4). Vir gene met hoë en middel-uitdrukkingsvlakke kan die dekking selfs hoër wees as wat verkry word uit genoom- of eksoomvlakdata. En in die geval wanneer DNS-data nie beskikbaar is nie, sal dit regtig fantasties wees. Omdat dit heeltemal ander dataverwerking vereis, kan dit oorweeg word vir toekomstige weergawes van die pakket.

DDB: Soos ons aan die begin van hierdie resensie uiteengesit het, was daar moontlik 'n misverstand oor die doel van hierdie Werkvloei-pakket/-vraestel. Ons stem saam met die beoordelaar dat direkte opsporing van mutasies/samesmeltings vanaf RNA-volgorde-data die beste benadering is, en ons let dit nou in die 'Beskrywing van biologiese relevansie-afdeling' soos hierbo genoem. Die ander geen-handtekeninge hierbo genoem kan in 'n werkvloei geïnkorporeer word aangesien singscore ontleding en vergelyking van veelvuldige geenstelle ondersteun.

Ons bedank die resensent vir hul tyd en moeite gedoen om ons manuskrip te hersien en vir die nuttige terugvoer wat hulle verskaf het. Waar toepaslik het ons ons manuskrip gewysig om die resensent se kommentaar aan te spreek.
Hieronder sluit ons 'n puntsgewyse reaksie op die resensent se kommentaar in en waar toepaslik lys ons ooreenstemmende veranderinge aan die manuskrip.

Inleiding
LH: Die artikel bied 'n nuwe pakket aan, wat ontwikkel is uit 'n vorige een ('singscore') wat deur dieselfde skrywers uitgewerk is.Die pakket 'singscore' is 'n enkelmonster geenstel-tellingmetode wat waardevol is vir die ontleding van transkriptome van monsters wat deur die lang tyd versamel is en nie in dieselfde lopie, eksperiment, platform of laboratorium in volgorde gerangskik is nie. Hier pas die skrywers die metode toe vir klassifikasie van TCGA akute myeloïde (AML) monsters met behulp van transkripsionele 'geenhandtekeninge' wat deur ander outeurs (Verhaak en Ross) geïdentifiseer is as tipies vir die NPM1c mutasie, KMT2A (MLL) geenfusies en PML-RARA geen samesmeltings.

DDB: Ons neem kennis dat die doel van die aanvanklike manuskrip moontlik onduidelik was, deels omdat dit onder die F1000 Sagtewarenutsmiddelartikel-afdeling gelys is. Die doel van hierdie artikel is om 'n werkvloei aan te bied wat die gebruik van singscore demonstreer, en dit is 'n R/Bioconductor-werkvloei wat die gebruik van singscore illustreer, en is dus nie bedoel as 'n nuwe pakket of hulpmiddel nie.
https://www.bioconductor.org/packages/release/workflows/
https://www.bioconductor.org/packages/release/workflows/html/SingscoreAMLMutations.html
Sommige van die resensie-opmerkings hieronder neem aan dat hierdie manuskrip 'n spesifieke sagtewarepakket bied vir die opsporing van NPM1-mutasies, so ons het die manuskrip soos hieronder uiteengesit verduidelik om die doel en bedoeling duideliker te maak (let daarop dat die titel van die manuskrip verander het vanaf 'voorspel mutasies' na 'voorspel mutasiestatus' gebaseer op terugvoer van beoordelaar 1).
Hierdie werk het ontstaan ​​uit 'n waarneming in 'n ander projek dat die Verhaak-handtekening met singscore sterk korreleer met mutasiestatus, en ons het gedink dit sou 'n interessante voorbeeld wees wat navorsers ook kan help om die verbande tussen genetiese letsels en ooreenstemmende transkripsieveranderinge te ondersoek. 'n gebied waarin die resensent duidelik oor kundigheid beskik.

LH: AML is 'n heterogene en multi-klonale siekte. Die transkriptoomprentjie van AML is baie kompleks en kan voortspruit uit verskillende mutasies, genomiese herrangskikkings en afwykende regulering van geenuitdrukking op verskillende vlakke (sien my laaste oorsigartikel 1). Soms kan die geenuitdrukkingprofiele oorvleuel tussen monsters met verskillende genetiese letsels. Die voorbeelde is HOX-geen-gebaseerde diskriminerende handtekeninge bepaal deur Verhaak en Ross, nie beperk tot AML met gemuteerde NPM1 nie, maar spesifiek ook vir AML gevalle met 11q23 abnormaliteite en KMT2A (MLL) geen herrangskikkings. Die skrywers is bewus van hierdie feit en onderstreep dit ook in die artikel. Aan die ander kant kan monsters met dieselfde mutasie verskillende uitdrukkingsprofiele aanbied as gevolg van addisionele kenmerke wat ook die transkriptoom beïnvloed.

LH: Daarom moet interpretasie van die resultate met omsigtigheid gedoen word. Vir my interpreteer die skrywers die resultate 'n bietjie te optimisties. Die voorgestelde metode is nie voldoende om die mutasie van belang te bepaal nie, maar kan gebruik word as 'n aanvullende benadering, 'n siftingsinstrument of (in die toekoms) 'n gepersonaliseerde medisynehulpmiddel wat pasiënte kan klassifiseer op grond van transkriptomiese profiele, geassosieer met spesifieke behandelingsreaksie.

DDB: Ons stem saam met die beoordelaar dat geensteltelling van transkriptomiese data nie die enigste metode moet wees wat gebruik word om pasiëntmonsters wat genetiese letsels dra, te identifiseer nie. Die Bioconductor-werkvloei wat ons aanbied, is bedoel om 'n voorbeeld te verskaf van die toepassing van singscore om mutasie/fusie-gebaseerde genestelle te bestudeer, aangesien ons glo dat singscore 'n relatief buigsame en intuïtiewe benadering bied om verskillende genestelle oor groot datastelle te ondersoek. Ons voel dat 'n besonder nuttige kenmerk die vermoë is om verskillende handtekeninge/geenstelle te kombineer (insluitend fenotipe/selsiklushandtekeninge, ens.) om te verken hoe hierdie transkripsieveranderinge oor verskillende monsters geassosieer word, gedemonstreer in Figure 5-7.
Ons het die "Beskrywing van biologiese relevansie"-afdeling gewysig om die beoordelaar se opmerkings oor die kompleksiteit van AML genomiese letsels en ooreenstemmende transkriptomiese veranderinge aan te spreek. Die resensie wat uitgelig is, is veral relevant vir hierdie werk en daarom noem ons die kompleksiteit van AML en rig die leser na hierdie hulpbron deur die eerste paragraaf uit te brei (nuwe teks onderstreep):
.. 'n Meer onlangse studie wat hoofsaaklik op genomiese data gefokus het, het die klinies beduidende AML-subtipes [Papaemmanuil (2016), NEJM] verder verfyn, wat 'n aantal mede-voorkomende sowel as wedersyds eksklusiewe mutasies beklemtoon. Soos die identifikasie van vermeende drywersamesmeltings/mutasies voortduur, is werk ook gerig op hoe hierdie letsels met mekaar en ander kenmerke in wisselwerking tree (bv. sellulêre proliferasie, veranderinge as gevolg van fenotipiese plastisiteit, of variasie in post-transkripsionele reguleerders soos mikroRNA's) om dryf transkripsieveranderinge aan soos bespreek in 'n onlangse resensie [Hanschuch (2019), J. Oncol.].

Ons het ook 'n paragraaf aan die einde van hierdie afdeling bygevoeg wat sommige van die beperkings vir ons benadering bespreek en meer konteks verskaf waarin dit toegepas kan word:
Terwyl ons demonstreer dat singscore in staat is om mutasiestatus af te lei van die transkripsionele profiel van AML-monsters, let ons daarop dat dit die beste gebruik word om alternatiewe data aan te vul wat 'n meer definitiewe oplossing van hierdie letsels kan verskaf. Verwerking van rou RNA-volgorde-data sal die teenwoordigheid van geenfusieprodukte of mutasies binne proteïenkoderende streke direk identifiseer, alhoewel vir baie groot datastelle die gekwantifiseerde transkripsie-oorvloeddata baie makliker is om te verkry sonder toegangsooreenkomste. Die metode kan ook toegepas word op verouderde mikroskikking-datastelle waar genoom- en RNA-volgordedata nie beskikbaar is nie. As sodanig bied singscore 'n nuttige benadering om gevestigde metodes vir die studie van genetiese letsels in kanker aan te vul. Deur assosiasies tussen verskillende genomiese en fenotipies relevante handtekeninge te ondersoek, kan dit ook help om ware drywermutasies wat konsekwente effekte op die transkripsie van AML-monsters en ander kankers uitoefen, beter te karakteriseer.

Toets pakket
LH: Ek het die pakket in R met TCGA-data gebruik en bevestig dat die kode werk, dit is vinnig en genereer dieselfde resultate en plotte as wat in die artikel aangebied word. Verder het ek die hele prosedure op my eie RNA-seq datastel getoets (nog nie gepubliseer nie maar gebruik vir aanvullende uitdrukkingsanalise van NPM1 alternatiewe transkripsies, sien die artikel 2). My datastel bevat 28 AML-monsters, insluitend 8 met NPM1-mutasie (geverifieer met drie onafhanklike benaderings). Die datalading was moeiliker aangesien ek van die csv-tabel met tellings begin het en ek die DESeqDataSet-objek in die RangedSummarizedExperiment-objek moes omskakel. Die beste diskriminasie is behaal met die Verhaak-handtekening, maar slegs met die af-gereguleerde gene. Alle monsters met NPM1 mutasie was duidelik van ander geskei, maar 2 addisionele monsters, sonder NPM1 mutasie, is saam met NPM1c gegroepeer. Dit is moontlik dat hulle KMT2A (MLL) herrangskikkings het, maar ek kan dit nie nou verifieer nie. Die ontleding van die plotte, op-gereguleerde gene en alle gene vorm die handtekening is nie so doeltreffend nie, en skei slegs 2 of 3 NPM1c monsters van die res. In die artikel erken die skrywers ook dat die stel af-gereguleerde gene meer diskriminerende krag het, maar hulle beweer op-gereguleerde gene dra ook by tot die diskriminasie.

LH: Ek het geen monsters met PML-RARA samesmelting in my datastel nie en die status van KMT2A (MLL) geen was onbekend in my pasiënte, so ek kon nie die doeltreffendheid van ander handtekeninge as NPM1c vergelyk nie. APL met PML-RARA is die mees kenmerkende AML-subtipe wat maklik van ander AML-monsters geskei kan word op grond van transkripsieprofiel, so ek sou goeie resultate verwag. Hierdie voorbeeld wys die pakket werk goed vir monsters met 'n baie spesifieke geenuitdrukkingprofiel.

DDB: Ons bedank die beoordelaar vir die uitsonderlike moeite en tyd wat belê is om ons werkvloei op onafhanklike data te toets - ons hoop dat die resultate van hierdie ontleding insiggewend was om ander kenmerke binne hul data te identifiseer. Ons werkvloei sluit leiding in vir gebruikers wat data van ander bronne wil invoer, soos dié wat deur die beoordelaar gebruik word.

Interpretasie van die resultate
LH: Met inagneming van die resultaat interpretasie, het ek 'n paar twyfel. Die singpartitures is saamgestel uit twee komponente, 'n verrykingtelling en 'n verspreidingsskatting van range. Ek word ingelig dat "hoë uitdrukking van op-gereguleerde gene en lae uitdrukking van af-gereguleerde gene tot hoër tellings sal lei". Dit is logies. Ek ken ook die maksimum reekse ([−1, 1] vir handtekeninge wat op- en af-gereguleerde gene behels). Watter waarde is egter werklik hoog? Byvoorbeeld, is 0.2 genoeg (dit lyk soos uit die plotte in die artikel en uit my eie data ook) of miskien moet ek baie meer verwag, bv. 0,7? Net so, watter waarde van verspreiding moet ek verwag? Ek veronderstel, die laagste, maar wat is laag genoeg of watter reeks is optimaal? Wat moeilik is om te verstaan, is dat “ten spyte van die omvang van tellings wat toeneem, die diskriminerende krag matig daal” (vir op-gereguleerde gene van Verhaak-handtekening, in vergelyking met af-gereguleerde gene). Ek sien dieselfde paradoks in my data - die tellings is hoër vir up-reg. gene, wat baie minder doeltreffend is in diskriminasie tussen NPM1c+ en NPM1c- monsters. Dit lyk asof tellings net nie die neigings weerspieël wat vanaf telling vs verspreidings-plotte waargeneem is nie.

DDB: Interpretasie van singscores word doelbewus gelaat om probleemspesifiek te wees aangesien dit oor die algemeen 'n mate van domeinspesifieke kennis van die biologiese sisteem en ooreenstemmende kenmerkende gene vereis - ideaal gesproke kan die rekenaarbioloog of bioinformatici wat aan elke projek werk, 'n mate van leiding gee.
Die basiese interpretasie van die telling is die genormaliseerde gemiddelde rangorde van gene binne die handtekening relatief tot alle ander gene in die monster. By die uiterste is hierdie interpretasie relatief eenvoudig - naby 1, 'n hoër waarde sal aandui dat gene in die handtekening op hoër vlakke uitgedruk word relatief tot ander gene. Vir tellings na nul kan die interpretasie egter baie moeiliker wees - 'n telling van nul (op die reeks [-1,1]) kan aandui dat die kenmerkende gene styf saamgegroepeer is rondom die monsterwye gemiddelde oorvloed, of dit kan aandui 'n hoogs-verspreide byna eenvormige verspreiding oor die hele oorvloedreeks (met 'n gemiddelde naby die gemiddelde van alle gene). Deur die singtellings saam met verspreidingsberamings te ondersoek, word hierdie inligting opgesom, wat help met die skatting van effekgrootteveranderlikheid.
Interpretasie van tellings hang af van die konteks van die eksperiment en die tipiese gedrag van die genestel. 'n "Hoë" telling word die beste bepaal relatief tot ander monsters. Dit word bereik of deur tellings van ander monsters in groot datastelle soos TCGA te vergelyk, of beter, oor 'n stel monsters van 'n gegewe eksperiment met bekende toestande. Ander metodes normaliseer die data voor die berekening van tellings, en ons let daarop dat 'n onlangse referaat z-telling normalisering toegepas het op resultate van singscore vir vergelyking met ssGSEA [Cui et al (2019) Oncogene, DOI: 10.1038/s41388-019-1026-9 ].
Alle singtellings vir steekproewe bly dieselfde en hoef nie herbereken te word by toevoeging van nuwe steekproewe nie, en interpretasie sal verbeter soos meer steekproewe by die studie gevoeg word. Gaussiese mengselmodellering kan byvoorbeeld gebruik word om die NPM1c-tellings te skei op grond van ons verwagting dat daar twee groepe is. Dit kan omgeskakel word met ander klassifikasie-algoritmes sonder toesig, soos hiërargiese groepering of k-beteken groepering. Ons het 'n voorbeeldanalise by die manuskrip gevoeg om te demonstreer hoe tellings in 'n omgewing sonder toesig geïnterpreteer kan word, onder die afdeling "Transkripsionele handtekeninge om mutasiestatus te voorspel/Ontoesig klassifikasie van mutasies".
Daar kan sommige gevalle wees waar voorbeeldannotasie nie beskikbaar is nie. In sulke scenario's is ons nie in staat om regressiemodelle te bou om tellings te interpreteer nie. 'n Hoër sangtelling sal sterker bewyse vir die handtekening verskaf, maar die grootte is moeilik om te interpreteer sonder 'n verwysing. Een benadering om hierdie situasie te hanteer is om tellings te vergelyk met dié van ander datastelle waar die mutasiestatus bekend is. 'n Alternatiewe benadering sou wees om tellings binne die datastel te vergelyk deur gebruik te maak van leermetodes sonder toesig.
Hier demonstreer ons die gebruik van drie groeperingsmetodes (Gaussiese mengselontbinding, k-beteken groepering en hiërargiese groepering) om monsters te stratifiseer, en soos ons voorheen gedoen het [wang et al (2012) Journal of clinical bioinformatics] gebruik die aangepaste Rand-indeks (ARI) om klassifikasies te vergelyk. Soos verwag, lei klassifikasie onder toesig (GLM) tot die beste voorspelling. Dit word gevolg deur groepering gebaseer op die telling met behulp van Gaussiese mengsel ontbinding. Enige ander klassifikasie-algoritme saam met voorkennis kan gebruik word om tellings in groepe te ontbind. Die belangrike eienskap van singscores is dat hulle die diskriminerende krag van geen-handtekeninge handhaaf, daarom kan dit gekoppel word aan algoritmes onder toesig, semi-toesig of nie-toesig om stratifikasie uit te voer.

#Gaussiese mengsel model
m1 = Mclust(tellingf$telling, G = 2, verbose = ONWAAR)
#k-beteken groepering
m2 = kmeans(tellingf[, 5:6], middelpunte = 2, nbegin = 100)
#hiërargiese groepering
m3 = hclust(afstand(tellingf[, 5:6]))

mutation_inference = cbind(
'GLM' = voorspelling,
'mclust' = m1$klassifikasie,
'k-means' = m2$cluster,
'hclust' = cutree(m3, k = 2)
)
toepas (mutasieafleiding, 2, aangepasRandIndex, scoref$NPM1c.Mut)
```
Moontlike verbeterings
LH: Alhoewel die pakket oor die algemeen nuttig en goed beskryf is, sal die volgende verbeterings dit meer vriendelik maak vir minder gevorderde R-gebruikers, bv.

LH: Instruksie hoe om die data voor te berei en te laai anders as dié wat in die GDC-databasis gedeponeer is.

DDB: Ons het in teks opgemerk dat die rangmatriks bereken kan word deur óf 'n SummarizedExperiment-objek, DGEList-objek, ExpressionSet-objek, numeriese matriks of 'n numeriese dataraam te gebruik. As sodanig sal 'n numeriese matriks met monstername as kolomname en gene as ryname voldoende wees. Puntetelling moet uitgevoer word op lengtevooroordeel gekorrigeerde metings soos RPKM/FPKM of TPM en nie CPM of rou tellings nie.
Transkripsie-handtekeninge om mutasiestatus/telling TCGA AML-monsters te voorspel deur gebruik te maak van die Verhaak-handtekening - uittreksel uit teks: “Die `rankGenes`-funksie sal rangordes van uitdrukkingsdata in die vorm van óf 'n numeriese matriks, numeriese dataraam, ExpressionSet-objek, DGEList-objek bereken of 'n SummarizedExperiment-objek"

LH: Annotasie van monsters op die persele met unieke monster ID's (wanneer 'n monster verkeerd geklassifiseer word, 'n gebruiker weet nie watter een dit is nie, sal dit ook nuttig wees om 'n monster op verskeie persele te lokaliseer, bv. gegenereer met 'n handtekening van op- en af -gereguleerde gene) – daar word in die artikel geskryf dat die 'singscore'-pakket verskillende tipes aantekeninge ondersteun ("Belangrike aantekeninge kan op elke plot oorgelê word"), maar ek het slegs kleurkode-aantekening gekry terwyl ek kleurkode wil hê vir mutasietipe en addisionele teksetikette met monster-ID's op dieselfde plot.

DDB: Voorbeeldetikette kan by landskaperwe gevoeg word, maar is nie in ander visualiserings ondersteun nie. Ons het funksionaliteit by die nuutste weergawe van die singscore-pakket (v1.5.1) gevoeg om die etikettering van monsters in die partituur vs. verspreidingsplotte toe te laat. Ons het die teks gewysig om te verduidelik, en Figuur 6 gewysig om monsters te benoem waar klassifikasie-onsekerheid (NMP1c vs WT) hoog is om hierdie kenmerk te demonstreer. Die veranderinge hieronder is aangebring aan die afdeling: “Transkripsionele handtekeninge om mutasiestatus te voorspel/Diagnostiek van die Verhaak-handtekening”.
Voorbeeldaantekeninge van belang (bv. kliniese aantekeninge) kan op elke plot in kleur gekodeer word. …

Figuur 6:
```
select_aml = !mutated_gene %in% 'Ander'

#label monsters met 'n mclust NPM1c klassifikasie onsekerheid van > 0.3
label_samples = substr(ryname(verhaak_scores), 6, 12) #monster-ID van strepieskodes
label_samples[m1$onsekerheid < 0.3] = NA

#projekteer mutasies op die landskap
p1 = projectScoreLandscape(
p_mll_npm1c,
verhaak_tellings,
rossmll_scores,
submonsters = select_aml,
annot = gemuteerde_geen[selekteer_aml],
sampleLabels = etiket_monsters[select_aml]
)
p1 + tema(legend.box = 'vertikaal')
```
LH: 'n Opdrag wat die monsters lys wat getipeer is as sterk kandidate vir spesifieke mutasie, georden volgens die berekende metrieke.

DDB: Soos bespreek in 'n vroeëre opmerking, beveel ons sulke ontledings aan om probleemspesifiek te wees. Oor die algemeen sal 'n hoër telling 'n sterker effek van gene in die handtekening aandui relatief tot WT-monsters, daarom sal monsters met hoër tellings sterker kandidate vir mutasies wees. Alternatiewelik kan die verdeling wat geskep is met behulp van Gaussiese mengselmodellering gebruik word as 'n gids vir skeiding en monsters met 'n telling baie hoër as die drempel sal die sterkste kandidate vir die mutasie wees.

LH: Genereer 'n drempellyn tussen monsters met en sonder mutasie.

DDB: Sien bespreking/aanbeveling hierbo.

LH: In die toekoms sal dit ook goed wees om ander handtekeninge in te sluit, bv. die handtekening van 369 gene wat deur Alcalay geïdentifiseer is et al. in 2005 3, onderskei AML pasiënte met NPMc+ van pasiënte met NPMc-, selfs in gevalle met seldsame chromosomale abnormaliteite.

LH: Wat ek die meeste sou verwag van 'n pakket wat ontwerp is om mutasies in transkriptome te identifiseer, is 'n direkte identifikasie van mutasies in RNAseq-data. Die resultate van mutasietipering gebaseer op geenuitdrukkingprofiel sal sterk ondersteun word wanneer 'n spesifieke mutasie deur RNAseq-lesings gedek sal word. Uit my eie ervaring weet ek dit is moontlik (vir NPM1 mutasie opsporing, sien 4). Vir gene met hoë en middel-uitdrukkingsvlakke kan die dekking selfs hoër wees as wat verkry word uit genoom- of eksoomvlakdata. En in die geval wanneer DNS-data nie beskikbaar is nie, sal dit regtig fantasties wees. Omdat dit heeltemal ander dataverwerking vereis, kan dit oorweeg word vir toekomstige weergawes van die pakket.

DDB: Soos ons aan die begin van hierdie resensie uiteengesit het, was daar moontlik 'n misverstand oor die doel van hierdie Werkvloei-pakket/-vraestel. Ons stem saam met die beoordelaar dat direkte opsporing van mutasies/samesmeltings vanaf RNA-volgorde-data die beste benadering is, en ons let dit nou in die 'Beskrywing van biologiese relevansie-afdeling' soos hierbo genoem. Die ander geen-handtekeninge hierbo genoem kan in 'n werkvloei geïnkorporeer word aangesien singscore ontleding en vergelyking van veelvuldige geenstelle ondersteun.