Inligting

Blossommatriks met waarskynlikhede in plaas van die positiewe en negatiewe tellings

Blossommatriks met waarskynlikhede in plaas van die positiewe en negatiewe tellings



We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Ek probeer 'n weergawe van die BLOSUM-matriks vind wat die frekwensies het in plaas van die geskaalde log-odds. d.w.s. in plaas van die algemene weergawe wat vir ons sê dat die telling LEU/ASP -4 is, wil ek graag weet wat die waarskynlikheid is dat LEU deur ASP vervang word.


Laai die BLOSUM-data en bronkode van hier af af. Pak die argief uit wat verskeie lêers het. Die lêer het genoemblosum'XX'.qijsal die gelyke-voorkomswaarskynlikhede hê, en die vervangingswaarskynlikhede kan daaruit bereken word.

Kyk ook na hierdie artikel.


Dit is duidelik dat nie alle plekke in homoloë proteïene in dieselfde mate bewaar word nie. Diegene wat noodsaaklik is, sal hoogs behoue ​​bly (onverdraagsaam teenoor verandering), terwyl ander wat minder belangrik is vir struktuur en funksie onder minder evolusionêre beperking (verdraagsaam teenoor verandering) sal wees. Hier beskryf Ng en Henikoff 'n algoritme, SIFT, 'n volgorde-homologie-gebaseerde metode wat onverdraagsame van verdraagsame aminosuurvervangings sorteer. Deur veelvuldige soortgelyke rye in lyn te bring en die waarskynlikheid van substitusie by enige gegewe posisie in die ry te bepaal, help SIFT om die impak van 'n aminosuurvervanging op die struktuur of funksie van 'n proteïen te bepaal. Hierdie metode kan nuttig wees in die volgende omstandighede: tydens mutasiesifting wanneer die status van 'n mutasie wat vermoedelik patogenies is, nie formeel getoon kan word nie (byvoorbeeld in die afwesigheid van ouerlike DNA) om die impak van aminosuurvervangings op fiksheid by te bepaal. 'n genomiese skaal en in bevolkingsgenetika, om te verhoed dat merkers gebruik word wat selektiewe druk kan ondergaan.

SIFT neem 'n navraagvolgorde en soek vir soortgelyke reekse met behulp van bekende gereedskap (PSI-BLAST en MOTIF). Dan word 'n meervoudige volgorde-belyning verkry en die genormaliseerde waarskynlikhede vir alle moontlike vervangings by elke posisie van die belyning word bereken (wat posisie-spesifieke inligting verskaf). As die waarskynlikheid van die vervanging laer is as 'n gespesifiseerde afsnypunt, word die verandering as skadelik beskou. Die werkverrigting van SIFT is getoets met behulp van drie mutasiedatastelle: die onderdrukker van die laktose-operon, LacI die MIV-1-protease en die bakteriofaag T4-lisosiem. Die voorspelling akkuraatheid van SIFT is in die reeks van 60-80%, afhangende van die datastel. In alle gevalle is die prestasie van SIFT vergelyk met die gevolgtrekkings wat gemaak word uit die opsoekpuntmatriks BLOSUM62 (Blokvervangingsmatriks), wat, soos baie ander, gebruik word om die belangrikheid van 'n proteïenvolgordebelyning te bepaal (soos in ONTPLOFFING). BLOSUM62 help om te onderskei tussen 'n 'regte' biologiese resultaat en 'n volgorde-belyning wat toevallig verkry is. In BLOSUM word elke moontlike aminosuurverandering 'n telling toegeken, waar positiewe tellings geassosieer sal word met konserwatiewe veranderinge en negatiewe tellings met minder konserwatiewe veranderinge. Posisiespesifieke inligting gaan verlore in die BLOSUM-matriks, maar word deur SIFT behou, so SIFT presteer beter as BLOSUM62-afgeleide gevolgtrekkings.


Konstruksie van substitusiematrikse

Dit is moontlik om volgordeooreenkomste op baie verskillende maniere te meet, soos om die aantal verskille tussen hulle te tel (Hamming afstand), tel die aantal invoegings, skrappings en vervangings wat nodig is om twee rye identies te maak (Levenshstein afstand), persentasie identiteit of gebruik net 'n arbitrêre puntestelsel vir wedstryde, wanpassings, invoegings en skrappings. Al hierdie metodes lewer 'n maatstaf van 'n verwantskap tussen die rye, maar nie een weerspieël enige biologiese assosiasie tussen hulle nie.

Op die gebied van bioinformatika stel ons belang in 'n evolusionêre verwantskap van DNA- en proteïenvolgordes, behalwe in die geval van volgordesamestelling waar meting van volgordebepalingsfoute en skeiding van herhalings sentraal staan.

Opeenvolgings kan min of meer soortgelyk wees deur pure toevallige toeval, en gevolglik het ons 'n metode nodig om 'n ewekansige ooreenkoms te onderskei van die ooreenkoms wat veroorsaak word deur evolusionêre verwantskap. Met ander woorde, ons wil weet of rye homoloog is, dit wil sê, 'n gemeenskaplike voorouer het en veral of rye dieselfde funksie het ten spyte daarvan dat hulle nie identiese rye het nie. Om te kan bepaal of twee rye dieselfde funksie het, is nuttig om die funksie van 'n onbekende proteïen en geen te bepaal deur vergelyking met 'n bekende een.

Figuur 1. 'n Skematiese beskrywing van die evolusie van homoloë geenvolgordes, dit wil sê rye wat 'n gemeenskaplike voorouer het. Die subset van homoloë rye is paraloog en ortoloë rye.
[Klik op die prent om te verander zoom ◱]

Die aminosuurvolgorde van 'n proteïen is deurslaggewend in die bepaling van sy struktuur, en op sy beurt is die funksie diep afhanklik van die driedimensionele struktuur van 'n proteïen. Baie aminosuurmutasies wat lei tot veranderde aminosure met soortgelyke fisies-chemiese eienskappe mag nie 'n proteïenstruktuur op enige funksioneel kritieke manier verander nie. Daarteenoor kan 'n enkele aminoverandering die funksie verander. Let daarop dat ons slegs die gevalle kan waarneem waar 'n veranderde funksie nie nadelig is nie en dus nie die dood van 'n organisme tot gevolg het nie. Verder, veranderinge wat lei tot 'n veranderde funksie produseer steeds homoloë proteïene, maar hulle is nie meer ortoloog nie aangesien hulle nie dieselfde funksie het nie (Figuur 1).

Gevolglik, deur mutasies tussen ortoloë proteïenvolgordes waar te neem, kan ons bepaal watter aminosuurveranderinge moontlik is sonder om die funksie van 'n proteïen te verander. Verder, deur die frekwensies van hierdie veranderinge op te noem, kan ons puntestelsels bou.

Navorsing wat eers deur Margaret Dayhoff in 1970's en kollegas en later deur Henikoff en Henikoff vroeë 1990's gedoen is, het PAM- en BLOSUM-vervangingsmatrikse tot gevolg gehad en is vandag die algemeenste gebruik. Hierdie handleiding beskryf hul konstruksie en gebruik.

BLOSUM matrikse

Deur 'n wye stel reekse van verskillende spesies te bestudeer, wat bekend is dat hulle homoloog is en dieselfde funksie het, dit wil sê ortoloë rye, kan ons veranderinge in aminosure waarneem wat 'n funksie bewaar.

Om die aminosuurfrekwensies te meet, het Henikoff en Henikoff gekonserveerde streke van verwante proteïenvolgordes ontleed wat hulle vanaf BLOCKS-databasis verkry het. In totaal het hulle 2 000 blokke ondersoek sonder gapings en 500 groepe verwante proteïene deur die aantal passings en wanpassings van elke tipe van die 20 verskillende aminosure te tel.

Uit die tellings van elke tipe het Henikoff en Henikoff 'n frekwensietabel geskep en met behulp van hierdie frekwensies het hulle die waarskynlikheid van elke tipe passing en wanpassing verder bereken en dan die waarskynlikhede in logaritme van kansverhoudings omgeskakel. Op hierdie manier word die belyningtelling nul as die waargenome frekwensies soos verwag is, negatiewe telling as frekwensies minder as verwag is en positiewe telling wanneer die frekwensies oor die verwagte frekwensies is.

Dit is egter nie die finale tellings in die finale BLOSUM-matriks nie. Om die finale tellings in die matriks te kry, het Henikoff en Henikoff die log-kansverhoudings verder in bis-eenhede omgeskakel en elke bistelling vermenigvuldig met 'n skaalfaktor van twee en afgerond tot die naaste heelgetal, wat die finale tellings in BLOSUM-matriks produseer.

'n Familie van matrikse

Sekwensies in 'n hele proteïenfamiliegroepering kan redelik uiteenlopend wees as gevolg van bydraes van verre familielede. Daarom het Henikoff en Henikoff die familiegroepe in subgroepe verdeel volgens hul persentasie ooreenkoms om veelvuldige bydraes tot aminosuurpaarfrekwensies te verminder. Hierdie verdeling het gelei tot BLOSUM-familie van matrikse waar die geassosieerde getal, bv. BLOSUM65 beteken dat tellings van 'n groep rye is waar rye ten minste 65% soortgelyk is, in BLOSUM80 matrikstellings is van trosse met ten minste 80% ooreenkoms, ensovoorts.


Figuur 3. Voorbeeldkolom van volgordebelyning van tien rye van 'n bewaarde blok. Nege D'e en een N.

Die wiskunde

As 'n voorbeeld beskou ons 'n kolom wat uit nege D's en een N bestaan. Daar is nege N-D en nege D-N pare, en 36 (1 + 2 + 3 + . 8) moontlike D-D pare (Figuur 3).

Om 'n frekwensietabel te skep, tel ons die aantal kere, ( n ), elk van die 210 (20, 19 + . 1) moontlike aminosuurpare kom voor in 'n blok van 'n diepte van ( d ) rye as volg: ( wd(d-1)/2=n ), waar ( w ) die aantal kolomme in die blok is. In hierdie voorbeeld ( d = 10 ) en ( w=1 ) Die blok dra dus 1x10x(10-1)/2 = 45 aminosuurpare tot die telling by.

Die waargenome waarskynlikheid van voorkoms ( q_ ) van elke aminosuurpaar ( i ), ( j ) is

Waar ( 1 leq i leq j leq 20 ). Deur die getalle in die bostaande vergelyking in ons voorbeeld in Figuur 2 in te voeg, kry ons die volgende: ( f_

=36 ), ( f_=9 ), ( q_
=36/45=0.8 ), en ( q_=9/45=0.2 ).

Vervolgens skat ons die waarskynlikheid van voorkoms (P(x) ) van elke aminosuur as

In ons voorbeeld het 36 rypare D in beide posisies, en nege pare het D slegs in 'n enkele posisie, dus die verwagte waarskynlikheid (P(D) = frac<[36+(9/2)]> <45> = 0.9) en (P(N)=frac<(9/2)><45>=0.1), met die veronderstelling dat die waargenome frekwensies dieselfde is as in die populasie. Die algemene formule vir die berekening van die waarskynlikheid van die voorkoms ( p_ ) van die (i) de aminosuur in 'n (i), (j) paar is

Die berekening van die verwagte waarskynlikheid van voorkoms van elke aminosuurpaar is (p_p_) vir (i=j) en (p_p_+p_p_=2p_p_) vir (i e j). In ons voorbeeld gee dit DD( =0.9 imes 0.9=0.81) en vir DN+ND(=2 imes (0.9 imes 0.1)=0.18).

Om 'n handige telling te kry (s_), bereken ons eers 'n kansverhoudingstabel waar 'n inskrywing (e_) vir elke aminosuurpaar is (frac<>><>>) en neem dan 'n logaritme van basis twee van elke inskrywing (s_=log_<2>(frac<>><>>) ). Hierdie telling lei tot die belyningstelling (s_) om nul te word as die waargenome frekwensies soos verwag is, na 'n negatiewe telling as frekwensies minder as verwag is en na 'n positiewe telling wanneer die frekwensies meer as verwagte frekwensies is.

Ons vermenigvuldig dan elke telling (s_) met twee en rond tot die naaste heelgetal om die finale tellings in BLOSUM-matrikse te genereer (Figuur 2).

Hoekom het verskillende identiese aminosuurparings nie dieselfde telling nie?

Deur na die BLOSUM62-tellings te kyk, kan ons waarneem dat die identiteitsparing van verskillende aminosure nie dieselfde telling kry nie. Die rede is dat die waargenome oorvloed van aminosure nie dieselfde is nie. Byvoorbeeld, Leucine-Leucine (Leu-Leu)-paring kry telling vier en Tryptofaan-Tryptofaan (Trp-Trp)-paring kry telling 11 omdat daar waargeneem word dat leucine meer volop in die natuur as triptofaan is. Dus is Trp-Trp-paring minder geneig om 'n toevallige een wees.

Hipotese toetsing

Die bogenoemde metode van telling is in werklikheid hipotesetoetsing, en oor die algemeen is die telling (S(a,b)) vir 'n vervanging van aminosuur (a) met aminosuur (b) is

In die bogenoemde vergelyking (P_) is die waarskynlikheid van die hipotese wat ons wil toets: residue gekorreleer omdat hulle homoloog is en (f_f_ ) is die waarskynlikheid van 'n nulhipotese: reste is nie verwant nie.


Aanvullende notas

'n Program om 'n (moontlik arbitrêre) belyningstellingmatriks te neem en die geïmpliseerde teikenfrekwensies terug te bereken blab. (DOC 81 kb)

Om dit te doen vereis die oplossing vir 'n lambda wat nie nul is nie in: sum_ab f_a f_b e = 1 en dit is 'n goeie verskoning om twee metodes van wortel-vinding te demonstreer: tweedelingssoektog en die Newton/Raphson-metode.

Die program is ANSI C, en moet op enige masjien met 'n C-samesteller saamstel: % cc -o lambda lambda.c -lm Enige vrae oor hierdie program moet direk aan die skrywer gerig word.


Begin die generasie van gapende belynings

Figuur 1 toon dat selfs wanneer die oorspronklike een-treffer-metode met drempelparameter gebruik word T = 13, daar is oor die algemeen nie meer as 'n 4% kans om 'n HSP met telling >38 bisse te mis nie. Alhoewel dit voldoende sal lyk vir die meeste doeleindes, is die een-treffer verstek T parameter is tipies so laag as 11 gestel, wat 'n uitvoeringstyd byna drie keer die vir T = 13. Waarom hierdie prys betaal vir wat op sy beste marginale winste in sensitiwiteit voorkom? Die rede is dat die oorspronklike BLAST-program gapende belynings implisiet behandel deur in baie gevalle verskeie afsonderlike HSP's op te spoor wat dieselfde databasisvolgorde behels, en 'n statistiese assessering van die gekombineerde resultaat te bereken (21, 22). Dit beteken dat twee of meer HSP's met tellings ver onder 38 bisse, in kombinasie tot statistiese betekenisvolheid kan styg. As enige een van hierdie HSP's gemis word, kan dit die gekombineerde resultaat wees.

'n Gegapte verlenging gegenereer deur BLAST vir die vergelyking van breëboon-leghemoglobien I (87) en perd-β-globien (88). (a) Die gebied van die padgrafiek wat verken is wanneer dit gesaai is deur die belyning van alanienreste by onderskeie posisies 60 en 62. Hierdie saad kom van die HSP wat gegenereer word deur die links van die twee ongekapte uitbreidings wat in Figuur 2 geïllustreer word. Xg dropoff parameter is die nominale telling 40, gebruik in samewerking met BLOSUM-62 vervanging tellings en 'n koste van 10 + k vir lengte gapings k. (b) Die pad wat ooreenstem met die optimale plaaslike belyning wat gegenereer word, gesuperponeer op die trefslae beskryf in Figuur 2. Die oorspronklike BLAST-program, met behulp van die een-treffer heuristiek met T = 11, is in staat om drie van die vyf HSP's wat by hierdie belyning ingesluit is op te spoor, maar slegs die eerste en laaste behaal 'n telling wat voldoende is om gerapporteer te word. (c) Die optimale plaaslike belyning, met nominale telling 75 en genormaliseerde telling 32,4 bisse. In die konteks van 'n soektog na SWISS-PROT ( 26), stel 34 (21 219 450 residue) vry, deur die leghemoglobienvolgorde (143 residue) as navraag te gebruik, die E-waarde is 0.54 as geen rand-effek-korreksie ( 22) opgeroep word nie. Die oorspronklike BLAST-program vind die eerste en laaste ongekapte segmente van hierdie belyning op. Deur gebruik te maak van somstatistieke met geen randeffek-korreksie nie, het hierdie gekombineerde resultaat 'n E-waarde van 31 ( 21, 22). Op die sentrale lyne van die belyning word identiteite weerklink en substitusies waaraan die BLOSUM-62-matriks ( 18) 'n positiewe telling gee, word deur 'n '+'-simbool aangedui.

'n Gegapte verlenging gegenereer deur BLAST vir die vergelyking van breëboon-leghemoglobien I (87) en perd-β-globien (88). (a) Die gebied van die padgrafiek wat verken is wanneer dit gesaai is deur die belyning van alanienreste by onderskeie posisies 60 en 62. Hierdie saad kom van die HSP wat gegenereer word deur die links van die twee ongekapte uitbreidings wat in Figuur 2 geïllustreer word. Xg dropoff parameter is die nominale telling 40, gebruik in samewerking met BLOSUM-62 vervanging tellings en 'n koste van 10 + k vir lengte gapings k. (b) Die pad wat ooreenstem met die optimale plaaslike belyning gegenereer, gesuperponeer op die trefslae beskryf in Figuur 2. Die oorspronklike BLAST-program, met behulp van die een-treffer heuristiek met T = 11, is in staat om drie van die vyf HSP's wat by hierdie belyning ingesluit is op te spoor, maar slegs die eerste en laaste behaal 'n telling wat voldoende is om gerapporteer te word. (c) Die optimale plaaslike belyning, met nominale telling 75 en genormaliseerde telling 32,4 bisse. In die konteks van 'n soektog na SWISS-PROT ( 26), stel 34 (21 219 450 residue) vry, deur die leghemoglobienvolgorde (143 residue) as navraag te gebruik, die E-waarde is 0.54 as geen rand-effek korreksie ( 22) opgeroep word nie. Die oorspronklike BLAST-program vind die eerste en laaste ongekapte segmente van hierdie belyning op. Deur gebruik te maak van somstatistieke met geen randeffek-korreksie nie, het hierdie gekombineerde resultaat 'n E-waarde van 31 ( 21, 22). Op die sentrale lyne van die belyning word identiteite weerklink en substitusies waaraan die BLOSUM-62-matriks ( 18) 'n positiewe telling gee, word deur 'n '+'-simbool aangedui.

Die benadering wat hier geneem word, laat BLAST toe om gelyktydig gapende belynings te produseer en aansienlik vinniger as voorheen te hardloop. Die sentrale idee is om 'n gapende uitbreiding te aktiveer vir enige HSP wat 'n matige telling oorskry Sg, so gekies dat nie meer as ongeveer een uitbreiding per 50 databasisreekse opgeroep word nie. (Deur vergelyking 2, vir 'n tipiese lengte proteïennavraag, Sg moet op ~22 bisse gestel word.) 'n Gegapte uitbreiding neem baie langer om uit te voer as 'n ongekapte uitbreiding, maar deur baie min daarvan uit te voer, kan die fraksie van die totale looptyd wat hulle verbruik relatief laag gehou word.

Deur na 'n enkele gapende belyning te soek, eerder as 'n versameling van onbenutte, hoef slegs een van die samestellende HSP's opgespoor te word vir die gekombineerde resultaat om suksesvol gegenereer te word. Dit beteken dat ons 'n baie groter kans kan duld om enige HSP met 'n matige telling te mis. Oorweeg byvoorbeeld 'n resultaat wat twee HSP's behels, elk met dieselfde waarskynlikheid P om gemis te word by die trefstadium van die BLAST-algoritme, en veronderstel dat ons die gekombineerde resultaat met waarskynlikheid ten minste 0.95 wil vind. Die oorspronklike algoritme, wat beide HSP's moet vind, vereis 2PP 2 ≤ 0,05, of P minder as ~0,025. Daarteenoor vereis die nuwe algoritme net dit P 2 ≤ 0.05, en kan dus verdra P so hoog as 0,22. Dit laat die T parameter vir die trefstadium van die algoritme om aansienlik verhoog te word terwyl vergelykbare sensitiwiteit behou word—vanaf T = 11 tot T = 13 vir die een-treffer heuristiek. (Die twee-treffer-heuristiek wat hierbo beskryf word, verlaag T terug na 11.) Soos hieronder bespreek sal word, kompenseer die gevolglike toename in spoed meer as vir die ekstra tyd wat nodig is vir die seldsame gapende verlenging.

Ter opsomming, die nuwe gapende BLAST-algoritme vereis ten minste twee nie-oorvleuelende treffers van telling T, binne 'n afstand A van mekaar, om 'n ongekapte verlenging van die tweede treffer op te roep. As die HSP gegenereer het ten minste genormaliseerde telling Sg stukkies, dan word 'n gapende uitbreiding geaktiveer. Die gevolglike gapende belyning word slegs gerapporteer as dit 'n E-waarde laag genoeg om van belang te wees. Byvoorbeeld, in die paarsgewyse vergelyking van Figuur 2, produseer die ongekapte uitbreiding wat deur die trefferpaar aan die linkerkant opgeroep word 'n HSP met telling 23.6 bisse (bereken met behulp van λu en Ku). Dit is voldoende om 'n gapende uitbreiding te aktiveer, wat 'n belyning genereer met telling 32.4 bisse (bereken met behulp van λg en Kg) en E-waarde van 0,5 (Fig. 3). Die oorspronklike BLAST-program vind slegs die eerste en laaste ongekapte segmente van hierdie belyning op (Fig. 3c), en ken aan hulle 'n gekombineerde E-waarde >50 keer groter.


Paarsgewyse volgorde belyning

Hoe soortgelyk is twee rye? Hierdie eenvoudige vraag dryf baie van bioinformatika aan, van samestelling van oorvleuelende volgorde fragmente in contigs, belyning van nuwe rye teen verwysing genome, BLAST soektogte van volgorde databasisse, molekulêre filogenie, en homologie modellering van proteïen strukture.

Om hierdie vraag te beantwoord, vereis dit om die optimale belyning tussen twee verskillende rye te vind, hul ooreenkoms te bepaal op grond van die optimale belyning, en dan die belangrikheid van hierdie telling te assesseer. Die optimale belyning hang natuurlik af van die punteskema.

Laat’s oorweeg 3 metodes vir paarsgewys volgorde belyning: 1) punt plot, 2) globale belyning, en 3) plaaslike belyning.

Punt plot

Die eenvoudigste metode is die puntgrafiek. Een ry word horisontaal uitgeskryf, en die ander ry word vertikaal uitgeskryf, langs die bokant en sykant van 'n m x n rooster, waar m en n die lengtes van die twee rye is. 'n Kol word in 'n sel in die rooster geplaas waar die twee rye ook al ooreenstem. ’n Diagonale lyn in die rooster wys visueel waar die twee rye ry-identiteit het. Nukleïensuurvolgorde-puntplotvergelykings sal 'n baie hoë vlak van agtergrond toon (25% kans op ewekansige passing), dus die parameters moet gewysig word om 'n kolletjie te plaas slegs as daar 'n byna perfekte pasmaat langs 'n gly “venster” van is 10 of meer opeenvolgende nukleotiede (sien wenke hieronder).

Webgebaseerde dot plot implementerings kan hier gevind word:

http://emboss.bioinformatics.nl/cgi-bin/emboss/dotmatcher – vir beide nukleïensuur- en proteïenvolgordes, met standaard EMBOSS-puntmatrikse

Selfstandige dot plot-programme wat via 'n GUI of opdragreël bedryf kan word, kan gevind word in EMBOSS (JEMBOSS is die Java GUI)

Wenke vir DNS (nukleïensuurvolgorde) kolletjies:

  • Gebruik 'n nukleïensuurpuntmatriks: ednafull in EMBOSS
  • Omdat daar net 4 nukleotiede is, verhoog venstergrootte en drempelwaarde totdat die agtergrond verdwyn en jy met duidelike sein gelaat word.
  • Die gebruik van 'n te groot venster, soos 100, met 'n lae drempel sal veroorsaak dat die diagonale oorvleuel en resolusie verloor om klein herhalings of inversies te sien. Gebruik 'n kleiner venster (minder as 30) en verhoog die drempeltelling om byna presiese passings te bevoordeel

V: Wat sal 'n kolletjie-plot wys as daar is

  1. invoegings en skrappings?
  2. 'n Inversie?
  3. ’n Rymotief wat herhaal word?
  4. 'n Homopolimeriese rek?
  5. 'N kolletjie plot wat twee nukleotiedvolgordes vergelyk sal baie agtergrondgeraas hê – hoe kan hierdie agtergrondgeraas verminder of onderdruk word?

Globale belyning: Needleman-Wunsch

Die algoritme gepubliseer deur Needleman en Wunsch in 1970 vir belyning van twee proteïenvolgordes was die eerste toepassing van dinamiese programmering op biologiese volgorde-analise. Die Needleman-Wunsch-algoritme vind die wêreldwye belyning wat die beste behaal het tussen twee rye. 'n Blogplasing deur Chetan het 'n baie duidelike verduideliking van hoe dit werk. Globale belynings is die nuttigste wanneer die twee rye wat vergelyk word van soortgelyke lengtes is, en nie te divergent nie.

Plaaslike belyning: Smith-Waterman

Die werklike lewe is dikwels ingewikkeld, en ons neem waar dat gene, en die proteïene wat hulle kodeer, ekson-skuif, rekombinasie, invoegings, delesies en selfs samesmeltings ondergaan het. Baie proteïene vertoon modulêre argitektuur. In die soeke na databasisse vir soortgelyke rye, is dit nuttig om rye te vind wat soortgelyke domeine of funksionele motiewe het. Smith & Waterman (1981) het 'n toepassing van dinamiese programmering gepubliseer om optimale plaaslike belynings te vind. Die algoritme is soortgelyk aan Needleman-Wunsch, maar negatiewe selwaardes word na nul teruggestel, en die terugspoorprosedures begin vanaf die hoogste telling sel, enige plek in die matriks, en eindig wanneer die pad 'n sel met 'n waarde van nul teëkom.

Puntetelling Matrikse

Die Needleman-Wunsch- en Smith-Waterman-algoritmes vereis 'n puntematriks. Die puntematriks ken 'n positiewe telling toe vir 'n wedstryd, en 'n straf vir 'n wanpassing. Vir nukleotiedvolgordebelynings gee die eenvoudigste puntematriks +1 vir 'n wedstryd en -1 vir 'n wanpassing toe. Die blastn-algoritme by NCBI behaal +5 vir 'n wedstryd en -4 vir 'n wanpassing. Hierdie puntematrikse behandel alle mutasies (wanpassings) gelyk. In werklikheid kom oorgange (pirimidien -> pirimidien en purien -> purien) baie meer gereeld voor as transversies (pirimidien -> purien en omgekeerd). Vir die belyning van nie-proteïenkoderende DNA-volgordes, kan 'n oorgangs-/transversiepuntmatriks meer gepas wees. Vir die belyning van DNA-volgordes wat proteïene kodeer, sal belyning van die proteïen-aminosuurvolgordes byna altyd meer betroubaar wees.

Oorgange en transversies, van Wikipedia

Vir proteïenvolgordebelynings is die puntematrikse meer ingewikkeld. Die doel is om evolusionêre prosesse te weerspieël. Sommige aminosuurvolgordeveranderinge kan voortspruit uit 'n enkele nukleotiedverandering, terwyl ander aminosuurveranderinge twee nukleotiedveranderinge vereis. Sommige aminosuurveranderinge is minder geneig om proteïenstruktuur of -funksie te beïnvloed as ander aminosuurveranderinge. So, hoe kan ons die relatiewe waarskynlikheid van spesifieke aminosuurveranderinge skat?

Dayhoff het belynings van hoogs gekonserveerde proteïene gebruik om te bepaal watter aminosuurveranderinge waarskynlik aanvaar sou word – Punt A geakcepteerde M utasies. Uit hierdie data het sy 'n 20 x 20 aminosuursubstitusiematriks vir PAM-1 bedink, 'n eenheid van evolusionêre verandering wat lei tot 1 aanvaarde mutasie per 100 aminosure. Van daar af het sy ander matrikse soos PAM-2 of PAM-30 of PAM-250 bereken, waar die PAM-n matriks word afgelei deur die PAM-1-matriks met homself te vermenigvuldig n tye. Die substitusiematrikse word omgeskakel na puntetellingmatrikse deur die substitusiewaarskynlikhede om te skakel na log-kansverhoudings vir elke sel.

Die BLOSUM matrikse (BLO cks SU bstitusie M atrix) verkry hul aminosuur substitusie frekwensies van die Blocks databasis van ongedekte plaaslike veelvuldige volgorde belynings. BLOSUM62 word bereken uit rye met 62% identiteit of minder BLOSUM 80 uit rye met 80% of minder.

Die Wikipedia-artikel oor vervangingsmatrikse gee 'n redelike bondige en akkurate beskrywing van die PAM- en BLOSUM-matrikse. http://en.wikipedia.org/wiki/Substitution_matrix

Gaping straf

Volgorde-belynings vereis gewoonlik die invoeging van gapings, wat invoegings- of skrapmutasies weerspieël. As 'n nukleotied of aminosuur in een volgorde belyn is met 'n gaping in die teikenvolgorde, moet dit gepenaliseer word as 'n wanpassing. Maar gapings aan die einde van reekse behoort miskien nie enige straf op te lê nie. Boonop kan 'n enkele invoeging of delesiemutasie 'n aaneenlopende gaping van veelvuldige residue tot gevolg hê. Daarom behoort 'n enkele gaping wat 3 residue lank is minder straf as 3 verskillende gapings, van een residu elk, op te lei. An affine gap penalty skema straf die opening van 'n gaping swaar, maar die uitbreiding van 'n voorafbestaande gaping lei tot 'n baie laer boete per bykomende oorskot.

Evaluering van die belangrikheid van 'n belyning

Die Needleman-Wunsch en Smith-Waterman algoritmes sal altyd die beste belyning tussen twee rye vind, of hulle evolusionêr verwant is of nie.

V: So, hoe kan ons bepaal of 'n gegewe belyning tussen twee rye betekenisvol is, of 'n aanduiding is van homologie (gemeenskaplike afkoms)?

Ons het 'n manier nodig om die statistiese betekenisvolheid van 'n gegewe belyningstelling te skat. Hoe waarskynlik is dit dat twee ewekansige rye van soortgelyke lengte en samestelling sal ooreenstem met 'n telling gelyk aan of beter as ons teikenbelyning?

Vir globale belynings is daar geen voldoende teorie om die verspreiding van belyningstellings van ewekansig gegenereerde rye te voorspel nie. Mens kan eenvoudig tellings genereer uit belynings van rye wat baie keer lukraak geskommel is. As 100 sulke skommelings almal belyningtellings produseer wat laer is as die waargenome belyningtelling, dan kan 'n mens sê dat die p-waarde waarskynlik minder as 0.01 sal wees.

Vir plaaslike belynings, voorspel waarskynlikheidsteorie dat lukraak geskommelde reekse belyningstellings sal produseer met 'n uiterste waarde (tipe I maksimum) verspreiding.


Materiale en Metodes

Reagense en gereedskap tabel

Reagens/hulpbron Verwysing of Bron Identifiseerder of Katalogusnommer
Sagteware
luislang v3.7 https://www.python.org/
skaars v1.4 https://pypi.org/project/scanpy/
tensorvloei v2.0.1 https://pypi.org/project/tensorflow/

Metodes en protokolle

Algemene nota oor datastelle

In hierdie studie het ons gewerk aan datastelle vanaf openbare databasisse IEDB (Vita et al, 2019) en VDJdb (Shugay et al, 2018) en op 'n publieke datastel van 'n enkelsel pMHC-gebaseerde T-sel spesifisiteit eksperiment (10x Genomics, 2019). IEDB en VDJdb bevat pare bindende T-sel reseptore (TCRs) en antigene. In die enkelsel-eksperiment is selle eers behandel met strepieskode pMHC's en is dan fisies in druppels geskei in 'n mikrofluidika-opstelling. pMHC's wat in hierdie druppel- en T-selreseptorreekse geassosieer word wat met die gevange selle geassosieer word, word met 'n druppelspesifieke volgorde gestreep sodat albei na 'n enkele waarneming na volgordebepaling gekarteer kan word (10x Genomics, 2019). Gevolglik kan 'n mens nie net 'n lys van gebonde TCR's en antigene verkry nie, maar ook pMHC-tellings vir elke TCR. Hierdie tellings kan gediskretiseer word in bindende gebeurtenisse en "valse" binding of kan direk gemodelleer word soos voorgestel in die hoofteks. Dit is belangrik dat 'n mens maklik die identiteit van veelvuldige bindende antigene aan 'n enkele TCR-volgorde kan vasstel, gebaseer op sulke pMHC-tellings. Twee van die vier skenkers (skenkers 1 en 2) was HLA-A*02:01 (10x Genomics, 2019 ), wat ook die HLA-tipe was waarvoor in die IEDB- en VDJdb-monsters geselekteer is. 'n Gedetailleerde beskrywing van die HLA-tipes en pMHC-tipes wat in hierdie studie gebruik word, word elders verskaf (10x Genomics, 2019).

Statistiek

Ons bied aan P-waardes vir geselekteerde model prestasie vergelykings. Hierdie P-waardes is bereken op grond van die vergelyking van twee stelle prestasiemaatstawwe. Ons het Welch's gebruik t-toets as ons twee stelle prestasiemaatstawwe van twee afsonderlike kruisvalideringsstelle vergelyk het, wat gelykstaande is aan die geval van beide stelle wat alle modelhiperparameters behalwe kruisvalideringspartisie deel. Ons het die Wilcoxon-toets gebruik as ons metrieke vergelyk het oor stelle modelle wat in hiperparameters verskil, aangesien 'n mens nie meer 'n unimodale prestasiemetriekverdeling in hierdie gevalle sou verwag nie.

Voer voorwaartse netwerkargitekture

Hier beskryf ons voorgestelde argitekture van die modelle wat antigeenspesifisiteit van 'n T-selreseptor (TCR) voorspel gebaseer op die CDR3-lus van beide ɑ- en β-kettings en op selspesifieke kovariate. Let daarop dat spesifisiteitsbepalende invloede van CDR1- en CDR2-lusse (Cole et al, 2009 Madura et al, 2013 Stadinski et al, 2014) en distale streke (Harris et al, 2016a, b) is ook gedemonstreer, maar is nie in die enkelsel pMHC-toets gemeet nie. Alle netwerke wat aangebied word, bevat 'n aanvanklike aminosuur-inbedding, 'n volgorde-data-inbeddingsblok en 'n laaste diggekoppelde laagblok.

Aminosuur inbedding

Die keuse van aanvanklike aminosuur inbedding kan data en parameter doeltreffendheid van die model beïnvloed en kan dus die voorspellende krag van modelle wat opgelei is op datastelle wat tans beskikbaar is, beïnvloed. Ons het eenwarm-gekodeerde aminosuur-inbeddings, evolusionêre substitusie-geïnspireerde inbeddings (BLOSUM) en geleerde inbeddings gebruik. Die aangeleerde inbeddings was 'n 1 × 1 konvolusie bo-op 'n BLOSUM-kodering en is aan die reeksmodellaagstapel gekoppel. Hier is kanale die aanvanklike aminosuurinbeddings (ons het BLOSUM50 gekies) en filters is die aangeleerde aminosuurinbedding. Hierdie aangeleerde inbedding kan die parametergrootte van die reeksmodellaagstapel verminder. Alle passings wat in die manuskrip aangebied word anders as in Bylaag Fig S1 is gebaseer op so 'n aangeleerde inbedding met vyf filters. Ons verwag dat volgorde-gebaseerde inbeddings in die toekoms relevansie sal kry in die konteks van ekstrapolasie oor antigene. Hier sal parameterdoeltreffendheid in die volgordemodelle 'n belangrike rol speel en die 1 × 1 konvolusie wat hier aangebied word, is 'n intuïtiewe eerste stap in hierdie rigting.

Inbedding van reeksdata

Ons het veelvuldige laagtipes in die volgorde-data-inbeddingsblok gekeur: herhalende lae (tweerigting-GRU en LSTM), selfaandag, konvolusionele lae (eenvoudige konvolusies en beginagtige), en digverbonde lae as verwysing. Herhalende laagtipes en selfaandaglae was voorheen nuttig vir modellering van taal (Vaswani et al, 2017) en epitoop (Wu et al, 2019) data. Konvolusionele laagtipes was nuttig vir die modellering van epitoop (Han & Kim, 2017 Vang & Xie, 2017) en beeld (Szegedy) et al, 2015) data. Die volgordemodellae behou posisionele inligting in daaropvolgende lae en kan daardeur 'n toenemend abstrakte voorstelling van die ry bou. Om dit op herhalende netwerke te bereik, het ons die uitset van 'n laag gekies om 'n posisiegewyse netwerktoestand te wees wat lei tot 'n uitsettensor van grootte (batch, posisies × 2, uitsetdimensie) vir 'n tweerigtingnetwerk. Hierdie posisie-gewyse enkodering vind natuurlik plaas in self-aandag en konvolusionele netwerke. Ons het nie kenmerktransformasies met posisionele seine gebruik nie (Vaswani et al, 2017) op die self-aandagnetwerke, sodat die netwerk geen kennis van die oorspronklike volgordestruktuur het nie, maar steeds afgeleide struktuur in daaropvolgende lae kan behou. Ons het modelle aangebied wat pas op die CDR3-lus van beide ɑ- en β-kettings van die TCR (Fig 1B) en modelle pas op die CDR3-lus van die β-ketting en die antigeenvolgorde (Fig 3B). In beide gevalle moes ons twee rye integreer. Vir hierdie doel het ons óf aparte reeks-inbedlaagstapels vir elke reeks gebruik (alle modelle wat in Fig 1 aangebied word en modelle aangedui as "apart" in Fig 3) óf deur die twee opgestopte rye by te voeg en 'n enkele reeks-inbeddinglaagstapel te gebruik (modelle aangedui as "aangeskakel" in Fig 3). Ons het die posisionele enkodering verminder tot 'n latente ruimte van vaste dimensionaliteit in die laaste reeks-inbeddingslaag van herhalende netwerke deur die uitgestraalde toestand van die model op die laaste element van die reeks in elke rigting. Hierdie laaste laag laat die gebruik van dieselfde finale digte lae toe, onafhanklik van die insetvolgordelengte. Konvolusionele en self-aandagnetwerke is nie gebou om onafhanklik van volgordelengte te wees nie. Ons het egter die invoerreekse gevul om hierdie probleem te versag op die data wat in hierdie vraestel hanteer word. Ons het 'n oorblywende verbinding oor alle volgorde-inbeddingslae gebruik. Verdere laagspesifieke hiperparameters kan uit die kode wat saam met hierdie manuskrip voorsien word (Dataset EV1 en EV2) onttrek word.

Finale dig verbind lae

Ons het die aktivering wat in die volgorde-inbeddingsblok gegenereer is, in 'n digte netwerk gevoer wat die volgorde-inligting kan integreer met deurlopende of kategoriese skenker- en selspesifieke kovariate. Ons het die bindingsgebeurtenis gemodelleer as 'n waarskynlikheidsverdeling oor twee toestande (gebonde en ongebonde) en bereken die afwyking van die modelvoorspelling vanaf waargenome bindingsgebeurtenisse via kruisentropieverlies. Eerstens kan 'n mens sulke modelle gebruik om bindingsgebeurtenisse te voorspel op 'n enkele antigeen wat voorgestel word as 'n enkele uitsetknoop met 'n sigmoïed-aktiveringsfunksie. Tweedens kan 'n mens 'n unieke bindingsgebeurtenis modelleer tussen 'n paneel antigene met 'n vektor van uitsetnodusse (een vir elke antigeen en een nodus vir nie-binding) wat met 'n softmax aktiveringsfunksie getransformeer word.

Koveranderlike verwerking

Ons stel 'n ontwerpmatriks op wat deur lineêre modellering geïnspireer is om as 'n ko-veranderlike matriks te gebruik. Ons het die skenker gemodelleer as 'n kategoriese kovariaat, wat gelei het tot 'n een-warm enkodering van die skenker. Ons het totale tellings, negatiewe-kontrole pMHC-tellings en oppervlakproteïentellings as deurlopende kovariate gemodelleer. Ons teken aan (x + 1)-getransformeerde negatiewe-kontrole pMHC-tellings en oppervlakproteïentellings om die stabiliteit van opleiding te verhoog. Ons het totale tellings gemodelleer as die totale telling van mRNA's per sel gedeel deur die gemiddelde totale telling.

Opleiding, validering en toetsverdelings

Ons het opleidingsdata gebruik om parameteropdaterings te bereken, valideringsdata om oorpassing te beheer, en toetsdata om modelle oor hiperparameters te vergelyk. Modelopleiding is beëindig sodra 'n maksimum aantal tydperke bereik is of as die valideringsverlies nie meer afgeneem het nie. In laasgenoemde geval, die model met die laagste validering in 'n skuifvenster van n tydperke totdat die laaste tydperk gekies is n word in die roostersoekskrifte (Dataset EV3) gegee. Die modelmetrieke wat in hierdie manuskrip aangebied word, is maatstawwe wat geëvalueer is op die toetsdata vir modelle wat gekies is op kruisentropie (kategoriese bindingsvoorspelling) of gemiddelde kwadraat logfout (dekstrameertellingvoorspelling) van die valideringsdata. Ons verskaf opleidingskurwes vir alle modelle wat bygedra het tot panele in hierdie manuskrip in Dataset EV3.

Optimalisering

Ons het die ADAM-optimaliseerder deur die hele manuskrip vir alle modelle gebruik. Ons het leertemposkedules gebruik wat die leertempo verminder ten tyde van opleiding sodra plato's in die valideringsmetriek bereik is. Die aanvanklike leertempo en alle oorblywende hiperparameters (joernaalgrootte, aantal epogge, geduld, stappe per epog) is gevarieer soos aangedui in die roostersoek-hiperparameterlys.

Modelpassingsdoelwitte

Ons het kruis-entropieverlies op sigmoïed- of softmax-getransformeerde uitsetaktiveringswaardes gekies om modelle op te lei wat gebinariseerde bindingsgebeurtenisse voorspel en gemiddelde-kwadraat-logaritmiese fout (msle) op eksponensiërende uitsetaktiveringswaardes vir modelle wat deurlopende (tel) bindingsaffiniteite voorspel.

Prestasiemaatstawwe

Ons het AUC ROC, F1-tellings, vals-negatiewe koerse en vals-positiewe koerse in die studie gebruik om modelle te evalueer wat bindingswaarskynlikhede voorspel. AUC ROC is nuttig as die waarnemings die volle reeks klassifikasiedrempels dek en is nuttig omdat dit 'n maatstaf verskaf wat alle skalêre klassifikasiedrempels opsom. F1-tellings kan altyd gebruik word om 'n klassifiseerder te evalueer, maar maak staat op 'n streng drempel. Ons het AUC ROC waar moontlik gebruik, maar aangevul met F1-tellings as die AUC ROC-telling onder 'n onsamehangende ondersteuning van toetsdatastel op die klassifikasiedrempel kan ly. Vals-negatiewe en vals-positiewe koerse word in Bylaag Fig S4 gebruik om te beklemtoon hoe modelle wat op enkelseldata opgelei is, veralgemeen na data van IEBD en VDJdb in beide die negatiewe en die positiewe klasse afsonderlik. Ons het die R 2 om die werkverrigting van modelle wat pMHC-tellings (positiewe heelgetalspasie) voorspel het, te evalueer.

Enkelsel immuunrepertorium (CD8 + T-sel) dataverwerking

Primêre dataverwerking

Ons het die volledige data van al vier skenkers van 'n ander studie afgelaai (10x Genomics, 2019). Alle dataverwerking vir elke modelpassing word in die pakketkode (Dataset EV1) en roostersoekskrifte (Dataset EV2) gedokumenteer. Die aantal T-selklonotipes per antigeen het drasties gewissel tussen die orde van 10 0 en 10 4 (Bylaag Fig S3A en B). Vervolgens het ons die agt mees algemene antigene (ELAGIGILTV, GILGFVFTL, GLCTLVAML, KLGGALQAK, RLRAEAQVK, IVTDFSVIK, AVFDRKSDAK, RAKFKQLL) gekies vir kategoriese paneelmodelpassings om probleme met klaswanbalanse te vermy. Ons het die gebinariseerde bindingsgebeurtenisvoorspelling deur die outeurs van die datastel (10x Genomics, 2019 gemerk "*_binder" in die lêers "*_binarized_matrix.csv") as 'n etiket vir voorspelling gebruik. Vir die deurlopende geval, waarin ons pMHC-tellings voorspel het, het ons die ooreenstemmende teldatakolomme in dieselfde lêer gekies. Vervolgens het ons verskeie lae waarnemingsfiltrering uitgevoer: (i) dubbeletverwydering, (ii) klontipe-afsteekproefneming en (iii) klas-afsteekproefneming. Daar is voorheen getoon dat dublette, naamlik druppels wat twee selle bevat wat met dieselfde strepieskode geteiken is, wat nie in stroomaf-ontledingstappe onderskei kan word nie, geneig is om verryk te word in subsets van transkriptoom-afgeleide trosse (Wolock) et al, 2019).Ons stel voor om die aantal gerekonstrueerde TCR-ketting-allele te gebruik om potensiële dublette te identifiseer en te demonstreer dat die so gekarakteriseerde dublette inderdaad in 'n spesifieke groep in elke skenker verryk is (Bylae Fig S2A-D). Daar is selle wat twee aktiewe allele vir enige TCR-ketting het, maar dit kan nie maklik geskei word van dublette wat in die selskeidingsproses ontstaan ​​nie. Om vooroordeel van die voorgestelde resultate deur potensiële sellulêre dublette te vermy, het ons gekies om alle selle uit te sluit wat meer as een alleel vir óf die ɑ- óf die β-ketting toon. Ons het verder die algehele bydrae van potensieel omgewingsmolekules wat aanleiding gee tot alle waargenome T-selle ondersoek en gevind dat hoëfrekwensiekettings nie die algehele sein oorheers nie (Bylae Fig S2E en F). Hierdie analise bied 'n boonste grens aan die impak van omringende molekules op hierdie eksperiment aangesien evolusionêre effekte waarskynlik ook bydra tot oorverteenwoordiging van bepaalde kettingreekse. Daarna het ons alle sellulêre strepieskodes verwyder wat meer as een ɑ- of β-ketting bevat aangesien daar verwag word dat volwasse CD8+ T-selle slegs 'n enkele funksionele ɑ- en β-ketting alleel sal hê. Vervolgens het ons elke klontipe afgesteek tot 'n maksimum van 10 waarnemings om te verhoed dat die opleiding of toetsdata na groot klone bevooroordeeld word. Hier het ons klontipes gebruik soos gedefinieer deur die outeurs van die datastel in die lêers "*_clonotypes.csv" (10x Genomics, 2019). Laastens het ons die groter klas afgesteek tot 'n maksimum van twee keer die grootte van die kleiner klas toe ons 'n binêre bindingsgebeurtenis vir 'n enkele antigeen voorspel het. Ons het nie hierdie laaste stap op multiklas- en telvoorspellingscenario's uitgevoer nie. Ons het elke CDR3-volgorde tot 'n lengte van 40 aminosure opgevul en hierdie opgestopte kettingwaarnemings saamgevoeg tot 'n reeks van lengte 80 vir modelle wat op beide kettings opgelei is. Ons het laat-een-skenker-uit kruisvalidering uitgevoer op modelle wat nie die skenkeridentiteit as 'n kovariaat geneem het nie. Ons het 25% van die volle data-klonotipes gemonster en al die ooreenstemmende selle aan die toetsstel toegewys vir alle modelle wat wel die skenker-kovariaat gebruik het. Laasgenoemde geval het 68 716 klontipes en 91 495 selle oor al vier skenkers opgelewer. Alle kruisvalidasies wat oor verskillende modelle gewys word, is gebaseer op drievoudige kruisvalidering met gesaaide toets-trein-verdelings wat lei tot dieselfde verdeling oor alle hiperparameters. Ons bied 'n ontleding van die klontipe diversiteit wat in hierdie datastel teëgekom word in Bylaag Fig S6.

Binarisering van enkelsel pMHC tel in gebonde en ongebonde toestande

Ons het die binarisering wat in die oorspronklike publikasie beskryf is (10x Genomics, 2019) gebruik vir die rou tellings om binêre uitkomsetikette te ontvang: 'n Totale pMHC UMI-telling groter as 10 en ten minste vyf keer so hoog as die hoogste waargenome UMI-telling oor alle negatiewe- kontrole pMHC's was nodig vir 'n bindingsgebeurtenis. Indien meer as een pMHC hierdie kriteria geslaag het, is die pMHC met die grootste UMI-telling as die enkelbinder gekies.

Toetsstelsamestelling vir modelle pas op IEDB-data

Hierdie afdeling beskryf hoe die toets wat in Fig 3E en Bylaag Fig S5C beskryf is, voorberei is. Die selle is gefiltreer soos hierbo beskryf. Ons het toe een bindende TCR-antigeenpaar per sel uit hierdie lys onttrek. Ons het die oorblywende TCR-antigeenpare as gevalideerde negatiewe voorbeelde gebruik en dit afgesteek na die aantal positiewe waarnemings om klasbalans te handhaaf. Alle kruisvalidasies wat oor verskillende modelle gewys word, is gebaseer op drievoudige kruisvalidering met gesaaide toets-trein-verdelings wat lei tot dieselfde verdeling oor alle hiperparameters.

IEDB dataverwerking

Primêre verwerking

Ons het die data van die IEDB-webwerf afgelaai (Vita et al, 2019 ) met die volgende filters: lineêre epitoop, MHC-beperking tot HLA-A*02:01 en organisme as mens en enigste mens. Dit het 'n lys van ooreenstemmende TCR (meestal β-ketting CDR3s) met gebonde antigene opgelewer. Ons het TCR-volgordes aan 'n enkele klonotipe toegewys as hulle perfek ooreenstem en alle klontipes afgesteek na 'n enkele waarneming. Ons het slegs die β-ketting- en CDR3-volgordes tot 'n lengte van 40 aminosure onttrek. Ons het die antigeenvolgordes opgevul tot 'n lengte van 25 aminosure. Ons het 10% van alle waarnemings as 'n toetsstel geneem. Ons het negatiewe monsters vir beide oefen- en toetsstelle afsonderlik gegenereer deur ongemerkte pare TCR en antigene te genereer. Hier het ons aanvaar dat alle TCR's 'n unieke antigeen bind uit die stel van alle antigene wat in die databasis teenwoordig is, sodat enige ander paring nie 'n bindingsgebeurtenis tot gevolg sal hê nie. Hierdie prosedure het 9 697 waarnemings vir beide die positiewe en die negatiewe stelle opgelewer voordat die treintoets van 71 antigene verdeel is.

Toetsstelsamestelling vir modelle pas op IEDB-data

Hierdie afdeling beskryf hoe die toets wat in Aanhangsel Fig S5A uitgebeeld word, voorberei is. Om die vermoë van antigeen-insluitende TcellMatch-modelle te verken om na ongesiene antigene te veralgemeen, pas ons so 'n model op die subset van hoëfrekwensie antigene van IEDB met ten minste vyf unieke TCR-volgordes en het die modelle op die oorblywende antigene getoets. Alle kruisvalidasies wat oor verskillende modelle gewys word, is gebaseer op drievoudige kruisvalidering met gesaaide toets-trein-verdelings wat lei tot dieselfde verdeling oor alle hiperparameters.

VDJdb dataverwerking

Primêre verwerking

Ons het 'n verkennende ontleding van hierdie datastel verskaf in Bylaag Fig S3 “exploration_vdjdb_data.*”. Ons het die data van die VDJdb (Shugay et al, 2018 ) webwerf met die volgende filters: Spesie: mens, Geen (ketting): TRB, MHC Eerste ketting alleel(e): HLA-A*02:01. Dit het 3 964 rekords van 40 antigene opgelewer. Ons het TCR-volgordes aan 'n enkele klonotipe toegewys as hulle perfek ooreenstem en alle klontipes afgesteek na 'n enkele waarneming. Ons het slegs die β-ketting- en CDR3-volgordes tot 'n lengte van 40 aminosure onttrek. Ons het die antigeenvolgordes opgevul tot 'n lengte van 25 aminosure.

Toetsstelsamestelling van VDJdb vir modelle wat op IEDB-data pas

Hierdie afdeling beskryf hoe die toets wat in Fig 3D en Bylaag Fig S5B uitgebeeld is, voorberei is. Ons het waarnemings geselekteer met bypassende of nie-ooreenstemmende antigene met betrekking tot die opleidingstel, afhangende van die toepassing (beskryf in die figuurbyskrif of hoofteks). Alle kruisvalidasies wat oor verskillende modelle gewys word, is gebaseer op drievoudige kruisvalidering met gesaaide toets-trein-verdelings wat lei tot dieselfde verdeling oor alle hiperparameters.


Erkennings

Die skrywers is dankbaar teenoor Martin Hess vir nuttige besprekings oor CoverageCalculator-instrument. R.T. erken ook met dankbaarheid verskeie stimulerende gesprekke met sy kollegas mnr. VA Ramesh, mnr. S Suryanarayana en mnr. Rohan Mishra gedurende die loop van hierdie studie. Hierdie werk is ondersteun deur 'n toekenning aan H.A.N (University Grants Commission -University with Potential for Excellence - II-toekenning) en ook deur die kerntoekenning van Sentrum vir DNA-vingerafdrukke en diagnostiek (CDFD). R.T. is 'n ontvanger van University Grants Commission (UGC) Junior en Senior Navorsingsgenootskappe. Ons bedank ook die Departement van Biotegnologie, Regering van Indië, geborgde Bioinformatika Infrastruktuur Fasiliteit (BIF) van Skool vir Lewenswetenskappe, Universiteit van Hyderabad. Laastens, maar nie die minste nie, gee ons dankbaar erkenning aan die INNO Indigo-projektoekenning aan H.A.N van die Departement van Wetenskap en Tegnologie (DWT), die regering van Indië, vir sy finansiële hulp met betrekking tot artikelverwerkingskoste (APC).


Blossommatriks met waarskynlikhede in plaas van die positiewe en negatiewe tellings - Biologie

Abstrakte sintaksisnotasie 1 (ASN.1)

ASN.1 is 'n standaard databeskrywingstaal wat gebruik word vir die enkodering van gestruktureerde data. ASN.1 laat toe dat beide die inhoud en die struktuur van die data gelees kan word deur en uitgeruil word tussen 'n verskeidenheid rekenaarprogramme en -platforms. ASN.1 is die taal wat gebruik word om data by die NCBI te stoor en te manipuleer. Alle NCBI sagteware lees en skryf ASN.1.

Die toegangsnommer is die mees algemene identifiseerder wat in die NCBI-volgordedatabasisse gebruik word. Dit is die identifiseerder wat gebruik moet word wanneer 'n databasisrekord in 'n publikasie aangehaal word. Die toegangsnommer wys na 'n volgorderekord en verander nie wanneer die volgorde gewysig word nie. In die Entrez-stelsel sal die gebruik van die toegangsnommer as 'n navraag die mees onlangse weergawe van die rekord ophaal. Die opdateringsgeskiedenis van 'n spesifieke volgorderekord word deur die accession.version-nommer nagespoor. Veranderinge in weergawenommers vind slegs plaas wanneer die werklike volgorde van 'n rekord gewysig is en reflekteer nie enige veranderinge in die aantekening nie. Die spesifieke weergawe van 'n rekord word ook nagespoor deur 'n ander identifiseerder wat hoofsaaklik vir interne NCBI-gebruik is wat die GI-nommer genoem word.

'n Algoritme is 'n formele stapsgewyse pad om 'n probleem op te los, byvoorbeeld die probleem om hoë-telling plaaslike belynings tussen twee rye te vind. Algoritmes is die basis van rekenaarprogramme.

Die belyningtelling is 'n getal wat toegeken word aan 'n paarsgewyse of meervoudige belyning van rye wat 'n numeriese waarde verskaf wat die kwaliteit van die belyning weerspieël. Belyningstellings word gewoonlik bereken deur na 'n soort vervangingstabel of belyningspuntmatriks te verwys en die waardes vir elke paar of kolom in die belyning op te som. (Sien ook rou telling en bietjie telling). Met sekere puntematrikse, het hoë tellings van plaaslike ongedekte belynings tussen twee ewekansige rye die spesiale eienskap om die uiterste waardeverspreiding te volg. Hierdie eienskap laat toe dat 'n beduidendheidsvlak toegeken word aan plaaslike belyningstellings wat verkry word uit databasissoektogte met behulp van instrumente soos BLAST en FASTA. (Sien ook Verwag waarde.)

'n Puntematriks is 'n tabel van waardes wat gebruik word om 'n numeriese telling toe te ken aan 'n paar of kolom van belynde residue in 'n volgordebelyning. Die eenvoudigste soort, 'n identiteitsmatriks, ken 'n hoë waarde toe aan 'n pasmaat en 'n lae, dikwels negatiewe waarde, vir 'n wanpassing. Die identiteitsmatriks word in die NCBI se nukleotied-nukleotied BLAST-program gebruik. Proteïenbelyningspuntmatrikse is gewoonlik meer ingewikkeld en neem die relatiewe oorvloed van die aminosure in werklike proteïene in ag en die waarneming dat sommige aminosure mekaar makliker vervang in verwante proteïene (bv. Phe en Tyr) en ander nie ( bv. Phe en Asp). Een manier om so 'n matriks te genereer, is om belynings van werklike proteïene te ondersoek wat bekend is dat dit homoloog is (sien Homoloog) en die substitusiefrekwensies van die verskillende aminosuurpare by alle posisies te tabelle. Die resulterende frekwensietabel word dan omgeskakel na 'n log-kans-additiewe matriks deur die log van die verhouding van die waargenome substitusiefrekwensie vir 'n spesifieke paar en die agtergrondvervangingsfrekwensie te neem. Die PAM- en die BLOSUM-reeks is voorbeelde van wyd gebruikte proteïentelling-matrikse wat op hierdie manier afgelei word. Die matrikse wat hierbo beskryf word, neem nie verskille in vervangingsfrekwensies by verskillende posisies in die belynings in ag nie. Meer sensitiewe posisie-spesifieke puntetelling matrikse kan ook gegenereer word. Tellings van plaaslike belynings van ewekansige rye afgelei van hierdie log-odds matrikse word beskryf deur die uiterste waarde verspreiding. Betekenisvlakke kan dus toegeken word aan resultate van databasissoektogte met hierdie matrikse deur nutsmiddels soos BLAST en FASTA te gebruik. (Sien ook Verwag waarde.)

Alus is die mees algemene klas kort, afgewisselde, herhalende element (SINE) in die menslike genoom. Alus kan meer as 10% van die menslike genoom uitmaak. Dit blyk dat dit afgelei is van 'n seinherkenningsdeeltjie-pseudogeen. Die naam Alu is afgelei van die feit dat hierdie elemente gewoonlik 'n AluI beperkingsensiem herkenningsplek.

'n Volgordesamestelling is 'n groot reeks of geordende stel reekse wat afgelei kan word van oorvleuelende kleiner reekse en soms geanker word aan 'n genoom- of chromosoomskaalkaart deur inligting van STS-inhoud en ander bewyse te gebruik.

B

Bakteriële kunsmatige chromosoom (BAC)

'n BAC is 'n groot insetselkloningsvektor wat in staat is om groot segmente van gekloonde DNA te hanteer, tipies ongeveer 150 kb. BAC's kan in laboratoriumstamme van gepropageer word Escherichia coli. Hierdie vektore word gebruik in die konstruksie van genomiese biblioteke vir genoomskaal volgordebepalingsprojekte, insluitend mens, muis, Arabidopsis, en rys.

BankIt is 'n webvorm vir die indiening van reekse aan GenBank.

Basiese Plaaslike Belyning Soek Gereedskap (BLAST)

BLAST is die NCBI se soektog vir ooreenkomste in volgorde. Dit vind plaaslike belynings met 'n hoë telling tussen 'n navraagvolgorde en nukleotied- en proteïendatabasisreekse. Alhoewel BLAST minder sensitief is as die volledige Smith-Waterman-algoritme, bied dit 'n nuttige kompromie tussen spoed en sensitiwiteit, veral om groot databasisse te soek. Omdat BLAST plaaslike belyningstellings teruggee, verskaf dit statistieke wat dit moontlik maak om biologies interessante belynings van toevallige belynings te onderskei.

Die bistelling verteenwoordig die inligtinginhoud in 'n volgordebelyning. Dit word uitgedruk in basis 2 log-eenhede. Die bistelling is in wese 'n genormaliseerde telling wat aangepas word deur databasis- en matriksskaalparameters. Gevolglik kan bistellings vir verskillende soektogte vergelyk word en slegs die soekruimtegrootte is nodig om die betekenisvolheid (Verwag-waarde) van die telling te bereken. Die verband tussen Verwagwaarde (E) en bistelling (S') word in vergelyking 3 hieronder getoon.

Die BLock-vervangingsmatrikse is 'n stel proteïen-log-odds-belyningsmatrikse wat bereken word uit substitusiefrekwensies wat verkry is vanaf ongedekte veelvuldige belynings van werklike proteïene. Elke BLOSUM-matriks word geïdentifiseer met 'n nommer wat die persentasie identiteitsafsnypunt vir insluiting in daardie matriks aandui. Byvoorbeeld BLOSUM62, sluit substitusie-inligting vir proteïene in tot 62% identies in die belyning, BLOSUM90 tot 90% identies. Elke BLOSUM-matriks werk die beste om proteïene op 'n spesifieke vlak van ooreenkoms te vind. Daarom is BLOSUM90 beter om nader verwante proteïene te vind, terwyl BLOSUM62 die beste is om meer ververwante proteïene te vind. Eksperimente het getoon dat BLOSUM62 ook goed werk om soortgelyke proteïene te vind. Om hierdie rede is BLOSUM62 die verstek proteïenpuntmatriks vir NCBI BLAST.

C

In die molekulêre sin is 'n kloon 'n fisiese kopie van 'n stuk DNA. Die term word meestal gebruik om te verwys na die rekombinante kloningsvektor-DNA wat hierdie kopie bevat, soos 'n plasmied, BAC of bakteriofaag-DNS wat in 'n bakteriële of ander mikrobiese gasheer gepropageer kan word.

'n Groepering is 'n groep rye wat met mekaar geassosieer word, gewoonlik deur een of ander prosedure wat staatmaak op volgorde-ooreenkoms. Sulke groepe reekse word gebruik om die UniGene-datastelle en die groepe van ortoloë groepe (COGS) datastel te produseer.

'n COG is 'n groep verwante proteïene of groepe proteïene (paraloge) van verskillende genome wat vermoedelik afkomstig is van 'n gemeenskaplike voorvaderlike geen. COG's word gevorm op grond van volgorde-ooreenkoms met behulp van 'n BLAST-gebaseerde benadering. COG's is oorspronklik gemaak vir die volledige mikrobiese genome, maar die datastel word uitgebrei om meer komplekse organismes in te sluit. Die COGs-data is baie nuttig vir die annotering van gene op mikrobiese genome en kan gebruik word om potensiële funksionele klassifikasie vir ongekarakteriseerde proteïene te verskaf. (Sien ook paralog en ortoloog.)

Cn3D (uitgespreek "sien in drie dee") is NCBI se struktuurkyker. Dit lees Entrez-struktuurdata en gee óf enkele strukture óf strukturele belynings van die NCBI se molekulêre modelleringsdatabasis (MMDB) weer. Cn3D funksioneer as 'n hulptoepassing vir die webblaaier en sal outomaties begin wanneer die blaaier NCBI-struktuurdata aflaai. Cn3D kan ook as 'n alleenstaande kyker funksioneer en kan as 'n netwerkkliënt optree om strukture van NCBI af te laai. Dit het ook 'n ingeboude BLAST en inrygvermoë en kan volgordebelynings skep om soortgelyke rye aan bekende strukture te pas.

CDART bied 'n grafiese blaaier wat 'n mens in staat stel om proteïene met 'n soortgelyke domeinargitektuur (inhoud en rangskikking) te vind wat begin met die resultate van 'n CDD-soektog.

Soek vir behoue ​​domeindatabasis (CDD).

CDD Search gebruik omgekeerde posisie-spesifieke BLAST (RPS-BLAST) om bewaarde domeine wat in 'n proteïennavraag vervat is, te identifiseer. CDD-databasisse is posisie-spesifieke puntematrikse (PSSM's) wat geskep word uit veelvuldige volgordebelynings vanaf drie domeindatabasisse: SMART, PFAM en LOAD.

Contig is kort vir aaneenlopende volgorde. Contigs word saamgestel wat oorvleuelende primêre rye. Die term contig kom in twee verskillende kontekste voor in die NCBI-databasisse. Konsepreekse (HTG-afdeling) sal twee of meer kontiges bevat wat saamgestel is uit opeenvolginglesings gemaak van plasmiedbiblioteke vir daardie kloon. Die NCBI produseer ook kontigs wat gemaak word deur oorvleuelende GenBank-rekords van grootskaalse genoomprojekte, soos die menslike genoomprojek, saam te stel. Hierdie contigs is ingesluit in die NCBI RefSeq-databasisse en kry toegangsnommers wat met die voorvoegsel NT_ begin.

'n Samegestelde databasis is 'n afgeleide databasis wat molekulêre rekords bevat wat saamgestel en geredigeer word uit primêre molekulêre data deur kundiges wat die inhoud van die rekords in stand hou en daarvoor verantwoordelik is. Die Swiss-Prot databasis is 'n belangrike voorbeeld van saamgestelde proteïen volgorde databasis. Die NCBI produseer 'n saamgestelde nie-oortollige RefSeq-datastel van transkripsies en proteïene vir belangrike organismes.

D

In molekulêre biologie bevat 'n afgeleide databasis inligting afgelei en saamgestel uit primêre molekulêre data, maar sluit 'n soort bykomende inligting in wat deur kundige kurators of outomatiese berekeningsprosedures verskaf word.

'n Primêre nukleotiedvolgordedatabasis wat onderhou word as deel van die Sentrum vir Inligtingsbiologie en DNA-databank van Japan (CIB/DDBJ) onder die Nasionale Instituut vir Genetika (NIG) in Japan. DDBJ het in 1986 begin om DNS-volgordevoorleggings te aanvaar en is deel van die Internasionale Nukleotiedvolgordedatabasissamewerking wat ook GenBank en die EMBL-nukleotiedvolgordedatabasis insluit.

'n Domein is 'n diskrete strukturele eenheid van 'n proteïen. In beginsel is proteïendomeine in staat om onafhanklik van die res van die proteïen te vou. Domeine kan dikwels geïdentifiseer word deur nie-strukturele benaderings gebaseer op gekonserveerde aminosuurvolgordes. Die NCBI se CDD-soektog gebruik inligting van saamgestelde veelvuldige volgorde-belynings om domeine in proteïenvolgordes te identifiseer.

Konsepvolgorde is onvoltooide genomiese of cDNA-volgorde. Sien HTG en HTC.

E

e-PCR is 'n analise-instrument wat 'n DNS-volgorde toets vir die teenwoordigheid van volgorde-gemerkte plekke (STS'e). e-PCR soek STS'e in DNA-volgordes deur te soek na subsekwensies wat nou ooreenstem met die PCR-inleiders en die korrekte volgorde, oriëntasie en spasiëring het dat hulle die amplifikasie van 'n PCR-produk van die korrekte lengte waarskynlik kan voorberei.

European Molecular Biology Laboratory (EMBL) Databasis

'n Nukleotiedvolgordedatabasis vervaardig en onderhou by die European Bioinformatics Institute (EBI) in Hinxton, VK, wat saamwerk met GenBank en die DNA-databasis van Japan (DDBJ) om die Internasionale Nukleotiedvolgordedatabasissamewerking te vorm.

Ensembl is 'n gesamentlike projek tussen EBI-EMBL en die Sanger Instituut om outomatiese annotasie van eukariotiese genome te verskaf.

Entrez is 'n geïntegreerde soek- en herwinningstelsel wat inligting vanaf verskeie databasisse by NCBI integreer, insluitend nukleotied- en proteïenvolgordes, 3D-strukture en strukturele domeine, genome, variasiedata (SNP's), geenuitdrukkingdata, genetiese karteringdata, bevolkingstudies, OMIM, taksonomie, boeke aanlyn en die biomediese literatuur.

'n Nie-winsgewende akademiese organisasie wat navorsing in bioinformatika doen en die EMBL-nukleotiedvolgordedatabasis in stand hou.

'n Kenmerk binne die menslike genoom Map Viewer wat 'n grafiese vertoning bied van die molekulêre bewyse wat die bestaan ​​van 'n geenmodel ondersteun. ev vertoon verwysingsvolgordes, GenBank mRNA's, geannoteerde bekende of potensiële transkripsies, en EST's wat in lyn is met die genomiese area van belang.

In BLAST-statistieke is die Verwag-waarde die aantal belynings met 'n spesifieke telling, of 'n beter telling, wat na verwagting per toeval sal plaasvind wanneer twee ewekansige rye vergelyk word. Die verband tussen verwagte waarde en belyningtelling word deur vergelyking 1 gegee

In vergelyking 1, e is die basis van die natuurlike logaritme skaal, n en m is die lengtes van die twee rye, in wese die soekruimtegrootte vir databasissoektog, en K en lambda is skaalfaktore vir die soekruimte en die puntestelsel, onderskeidelik. Die bietjie telling inkorporeer lambda en K sodat tellings sinvol vergelyk kan word wanneer verskillende databasisse en puntestelsels gebruik word.

Uitgedrukte volgordemerker (EST)

'n Kort (300-1000 nukleotied), enkeldeurgang, enkellees DNA-volgorde afgelei van 'n ewekansige geselekteerde cDNA-kloon. EST-reekse bestaan ​​uit die grootste GenBank-afdeling. Daar is talle hoë-deurset-volgordebepalingsprojekte wat voortgaan om groot getalle EST-volgordes vir belangrike organismes te produseer. Baie EST's word in geen-spesifieke trosse in die UniGene-datastel geklassifiseer.

F

'n Volgorde-ooreenkoms soekinstrument ontwikkel deur William Pearson en David Lipman. Die term FASTA word ook gebruik om 'n teksformaat vir reekse te identifiseer wat wyd gebruik word. 'n FASTA-geformateerde volgordelêer kan veelvuldige rye bevat. Elke volgorde in die lêer word geïdentifiseer deur 'n enkele reëltitel voorafgegaan deur die groter as teken (">"). Voorbeeld.

Die kenmerktabel is die gedeelte van die GenBank-rekord wat inligting verskaf oor die biologiese kenmerke wat op die nukleotiedvolgorde geannoteer is, insluitend kodende en nie-koderende streke, gene, variasies en volgorde-gemerkte plekke. Die International Sequence Database Collaboration produseer 'n dokument wat toegelate kenmerke op GenBank-, DDBJ- en EMBL-rekords beskryf en identifiseer.

Lêeroordragprotokol (FTP)

FTP is 'n standaard internetprotokol wat gebruik word om lêers na en van 'n afgeleë netwerkwerf oor te dra.

Fluorescence in Situ Hibridization (FISH) kaart

'n FISH-kaart is 'n sitogenetiese kaart wat afgelei word van die lokalisering van fluorescent-gemerkte probes na chromosome. Gene word gekarteer volgens hul sitogenetiese (bandposisie) ligging op die chromosoom.

G

GenBank is 'n primêre nukleotiedvolgordedatabasis wat by die Nasionale Sentrum vir Biotegnologie-inligting (NCBI) by die National Institutes of Health (NIH) in Bethesda, MD, VSA, vervaardig en onderhou word. GenBank werk saam met EMBL en DDBJ om die International Nucleotide Sequence Database Collaboration te vorm.

GenBank-afdelings is partisies van die GenBank-data in kategorieë gebaseer op die oorsprong van die volgorde. Aanvanklik is die GenBank-afdelings gestig sodat een afdeling een lêer in die GenBank-verspreiding sou wees. Die aantal GenBank-afdelings het egter nie tred gehou met die groei van die volgordedata nie, die EST-afdeling het nou meer as 150 lêers. Daar is tans 17 GenBank-afdelings.

GenBank Flatfile-formaat

Dit is die formaat van die volgorderekords in die GenBank-platlêervrystelling. Dit is 'n slegs-teks-formaat wat veelvuldige inskrywings of rekords bevat. Elke rekord in die groot tekslêer, wat ook 'n platlêer genoem word, begin met 'n LOCUS-reël en eindig met 'n enkele reël wat uit 'n paar voorwaartse skuinsstrepe ("//") bestaan. Die term "GenBank-formaat" word dikwels gebruik om te verwys na die formaat van individuele rekords binne die platlêer. Elke rekord bevat 'n kop wat die databasis identifiseerders, die titel van die rekord, verwysings en indiener inligting bevat. Die kop word gevolg deur die kenmerktabel en dan die volgorde self. Die GenBank-platlêer word in detail beskryf in die GenBank-vrystellingsnotas. In die Entrez-stelsel is die GenBank-formaat die verstekvertoonformaat vir nie-grootmaatreeksinskrywings.

Gene Expression Omnibus (GEO)

GEO is 'n primêre databasis by die NCBI wat 'n geargiveerde bewaarplek is vir geenuitdrukkingsdata afkomstig van verskillende eksperimentele platforms.

'n Geenmodel is 'n kartering van geenkenmerke soos koderende streke en ekson-introngrense op die genomiese DNA van 'n organisme. Geenmodelle verskaf tipies 'n voorspelde transkripsie en proteïenvolgorde. 'n Eenvoudige soort geenmodel kan gemaak word deur 'n uitgedrukte volgorde (cDNA) by die genomiese DNA-volgorde in lyn te bring. Meer presiese ekson-introngrense kan geïdentifiseer word deur die belynde segmente te beperk met behulp van konsensussplytingseine. Hierdie tipe belyning-gebaseerde geenmodel word gebruik om baie van die NCBI RefSeq model transkripsies vir hoër genome te genereer. Geen kenmerke kan ook rekenaarmatig voorspel word in die afwesigheid van belynde uitgedrukte rye. Die eenvoudigste kandidaat-geenvoorspellings kan op mikrobiese genomiese DNA gemaak word deur na lang oop leesrame te soek. Databasisvolgordeooreenkomstesoektogte met die voorspelde vertalings van hierdie ORF's word gebruik om hierdie geenvoorspellings te ondersteun. Rekenkundige geenvoorspelling in hoër eukariotiese genome word bemoeilik deur die onderbreking van geenkoderende streke deur introniese volgordes. Daar is 'n aantal metodes wat gebruik word in eukariotiese geenvoorspelling. Die NCBI gebruik die program GenomeScan om vermeende gene op die mens-, muis- en rotgenome te annoteer.

'n Koppelingskaart is 'n geordende vertoon van genetiese inligting wat verwys word na koppelingsgroepe (uiteindelik chromosome) in 'n genoom. Die karteringseenhede (centiMorgans) is gebaseer op rekombinasiefrekwensie tussen verskeie polimorfiese merkers wat deur 'n stamboom nagespoor word. Een sentiMorgan is gelyk aan een rekombinasiegebeurtenis in 100 meioses.

Genetics Computer Group (GCG)

Die GCG is 'n bioinformatika-sagteware-ontwikkelingsgroep, oorspronklik by die Departement Genetika aan die Universiteit van Wisconsin, wat later as 'n private maatskappy bestaan ​​het, en saamgesmelt het met Oxford Molecular, MSI en Synopsis om gesamentlik Accelerys te vorm. GCG is wyd bekend vir sy reeks analise sagteware pakket behoorlik bekend as die Wisconsin Package. Die voorletters GCG is wyd gebruik as 'n sinoniem vir daardie pakket.

Genome Survey Sequence (GSS)

GSS-reekse bestaan ​​uit 'n grootmaat volgorde-afdeling van GenBank. GSS-volgordes is in wese die genomiese ekwivalent van die EST's. Die GSS-afdeling bevat eerste deurslag, enkellesings van genomiese DNA. Tipiese GSS-rekords is aanvanklike opeenvolgingopnames en eindlesings van groot invoegselklone van genomiese biblioteke, ekson-vasgevange genomiese volgordes en Alu PCR-volgordes.

GenomeScan is geen voorspellingsprogram (algoritme) wat ontwikkel is deur Christopher Burge by die Massachussetts Institute of Technology. Dit is die algoritme wat by die NCBI gebruik word om geenmodelle vir hoër genome te produseer.

Die GI-nommer is 'n identifiseerder wat aan alle rye by die NCBI toegeken word. Die GI-nommer wys na 'n spesifieke weergawe van 'n volgorderekord. Hierdie identifiseerder word grootliks vervang deur die accession.version-nommer vir buitegebruikers. GI staan ​​vir GenInfo, 'n databasisstelsel by NCBI wat die Entrez-stelsel voorafgegaan het.

'n Globale belyning is 'n reeksbelyning wat die volle lengte van die reekse wat vergelyk word, verleng. Globale belyningsprosedures sal gewoonlik 'n belyning produseer wat die hele lengte van alle rye insluit, insluitend streke wat nie soortgelyk is nie, en kan gemaak word om betekenislose belynings tussen onverwante rye te produseer. Vergelyk met plaaslike belyning.

Die Goue Pad verwys na die mens- en muisgenoomannotasie- en samestellingprojekte by die Universiteit van Kalifornië Santa Cruz (UCSC).

H.

Hoë deurset genomiese volgorde (HTG)

HTG-volgordes bestaan ​​uit 'n Genbank-afdeling wat onvoltooide genomiese volgorde bevat. HTG-rekords is tipies onvolledige samestellingsreekse van BAC of ander groot invoegklone. GenBank herken vier stadiums van voltooiing (fases) vir hierdie reekse. Fase 0-rekords bevat een of 'n paar enkele deurlees van 'n gegewe genomiese kloon. Fase 1-rekords bevat twee of meer saamgestelde kontiges van die volgordedata, maar die kontiges is ongeordend en ongeoriënteerd en daar is steeds gapings in die volgorde. Fase 2-rekords bevat ook twee of meer kontiges met gapings, maar die volgorde en oriëntasie is bekend. Sodra die volgordegapings opgelos is, en daar genoeg volgordedekking is om 'n akkuraatheid van 99.99% te gee, skuif die rekord na fase 3 en verlaat die HTG-afdeling vir die toepaslike taksonomiese GenBank-afdeling, 'n menslike volgorde sal na die seerowerafdeling (PRI) beweeg. , 'n muisvolgorde na die knaagdierafdeling (ROD).

Hoë deurset cDNA (HTC)

HTC is 'n GenBank-afdeling wat konsep-cDNA-volgordes bevat. HTC-rekords is soortgelyk aan EST's, maar bevat dikwels meer inligting. Anders as EST's, maar soos die genomiese konsep (HTG) rekords, kan HTC-reekse opgedateer word met bykomende volgordedata en na die toepaslike tradisionele afdeling van GenBank skuif.

Daar word gesê dat twee biologiese entiteite (strukture of molekule) homoloë is (of homoloog is) as daar gemeen word dat hulle van 'n gemeenskaplike voorouerstruktuur of molekule afstam. Korresponderende liggaamsdele en gene in verskillende of dieselfde spesie kan homoloog wees. Die term is dikwels uitgebrei om ook rye in te sluit. Dit is egter verkeerd om 'n relatiewe homologie of persentasie homologie te rapporteer soos soms gesê word van rye wat gene of rye of homoloog is of nie. Sien ook ortoloog en paraloog

Menslike Genoom Nomenklatuurkomitee

Die HGNC is 'n nie-winsgewende organisasie geleë by die University College London wat gesaghebbende en unieke geenname en simbole vir alle bekende menslike gene toeken.

Menslike muis homologie kaarte

Die menslike muishomologiekaarte wys die sinteniese chromosoomstreke tussen die twee organismes en laat toe dat die ooreenstemmende volgordes en ander verwante inligting van een organisme verkry word, gegewe 'n geen of kaartligging in die ander. Die data wat gebruik word om hierdie homologiekaarte te konstrueer is afgelei van UCSC en NCBI menslike genoom samestellings en die muis MGD genoom kaart en Whitehead/MRC bestraling hibriede kaarte.

I-L

Die ISDC behels die drie hoof primêre nukleotiedvolgordebewaarplekke GenBank, die DDBJ (DNA Data Bank of Japan), en die EMBL (European Molecular Biology Laboratory) databasisse. Elke databasis het sy eie stel voorleggings- en herwinningsinstrumente, maar die drie ruil daagliks data uit en het standaarde vir volgorde-indiening en -aantekeninge gedeel. Al drie deel data sodat almal dieselfde stel volgordedata bevat.

Afwisselende herhalende reekse is hoofsaaklik gedegenereerde kopieë van transponeerbare elemente - ook genoem mobiele elemente - wat by mense meer as 'n derde van die genoom uitmaak. Die mees algemene mobiele elemente is LINEs en SINEs (onderskeidelik lang en kort afgewisselde kernelemente). Die Alu-families van herhalings is die primêre SINEs in primate.

Lang afgewisselde kernelemente is 'n klas transponeerbare elemente, ook genoem 'n afgewisselde herhaling. Dit maak ongeveer 20% van die menslike genoom uit. 'n Tipiese LYN is 6KB lank en kodeer 'n omgekeerde transkriptase en 'n DNA-nick-lus-ensiem, wat dit toelaat om outonoom om die genoom te beweeg. LYNE word ook nie-LTR retrotransposons genoem.

LinkOut is 'n registerdiens om skakels van spesifieke artikels, joernale of biologiese data in Entrez na hulpbronne op eksterne webwerwe te skep. Derde partye kan 'n URL, hulpbronnaam, kort beskrywing van hul webwerf en spesifikasie van die NCBI-data verskaf waaruit hulle skakels wil vestig.

LOAD is die biblioteek van antieke domeine, 'n klein aantal bewaarde domeinbelynings wat by NCBI bydra tot die posisie-spesifieke puntetellingmatrikse (PSSM'e of profiele) in die Bewaarde Domeindatabasis (CDD) by NCBI. Die meerderheid domeine in CDD kom uit die databasisse SMART, Simple Modular Architecture Research Tool en Pfam.

'n Plaaslike belyning is 'n hoë telling belyning tussen sub-reekse van twee of meer langer rye. In teenstelling met 'n globale belyning, kan daar verskeie hoë telling plaaslike belynings tussen rye wees. Plaaslike belynings is nuttig vir databasissoektogte omdat hul tellings gebruik kan word om die biologiese betekenis van die belynings wat gevind is, te assesseer. (Sien ook Belyningtelling en Verwagwaarde.) Plaaslike belynings word geproduseer deur die gewilde volgorde-ooreenkoms-soekinstrumente BLAST en FASTA.

LocusLink is 'n NCBI-hulpbron wat 'n enkele navraag-koppelvlak bied na saamgestelde volgorde en beskrywende inligting oor genetiese lokusse. Dit is 'n goeie plek om 'n soektog na inligting oor 'n spesifieke geen te begin. LocusLink bevat tans mens, muis, rot, sebravis, vrugtevlieg en MIV-1 loki.


Lae kompleksiteit volgorde

Lae kompleksiteit volgorde is 'n gebied van aminosuur of nukleied volgorde met 'n bevooroordeelde residu samestelling. Lae kompleksiteit volgorde sluit homopolimeriese lopies, kort periode herhalings en 'n subtieler oorvoorstelling van een of 'n paar residue in. Sulke volgordes lyk dikwels baie oortollig, byvoorbeeld die proteïenvolgorde PADPPPDPPPP of die nukleotiedvolgorde AAATTTAAAAAT. Lae-kompleksiteit streke kan lei tot misleidende hoë tellings in volgorde ooreenkoms soektogte. Hierdie tellings weerspieël komposisionele vooroordeel eerder as betekenisvolle posisie-vir-posisie-belyning. Filterprogramme word gewoonlik gebruik om hierdie potensieel verwarrende passings uit volgorde-ooreenkoms-soekresultate uit te skakel. Die NCBI BLAST-programme het filters gebruik wat lae kompleksiteitstreke in die navraagvolgorde vervang met 'n anonieme oorblyfsel (n vir nukleïensuur, X vir aminosuur) Hierdie streke word dus effektief uit die soektog verwyder omdat hierdie anonieme residu deur die BLAST as wanpassings hanteer word programme.

M.

Die Map Viewer is 'n sagteware-komponent van die NCBI Entrez Genomes wat spesiale blaai-vermoëns vir genome van hoër organismes bied. Dit stel 'n mens in staat om 'n organisme se volledige genoom te bekyk en te deursoek, chromosoomkaarte te vertoon en in toenemende groter vlakke van detail in te zoem, tot by die volgordedata. As veelvuldige kaarte vir 'n chromosoom beskikbaar is, vertoon dit hulle in lyn met mekaar gebaseer op gedeelde merker- en geenname, en, vir die volgordekaarte, gebaseer op 'n gemeenskaplike volgordekoördinaatstelsel. Die aantal en tipes beskikbare kaarte verskil volgens organisme, maar sluit kaarte in vir: gene, contigs, BAC-teëlpad, STS'e, FISH-gekarteerde klone, EST's, GenomeScan-modelle en SNP's.

MEDLINE is die NLM se voorste bibliografiese databasis wat die velde van medisyne, verpleging, tandheelkunde, veeartsenykundige medisyne, die gesondheidsorgstelsel en die prekliniese wetenskappe dek. MEDLINE bevat bibliografiese aanhalings en skrywersopsommings uit meer as 4 600 biomediese joernale wat in die Verenigde State en 70 ander lande gepubliseer is. Die lêer bevat meer as 11 miljoen aanhalings wat uit die middel van 1960 dateer. Dekking is wêreldwyd, maar die meeste rekords is van Engelstalige bronne of het Engelse opsommings. MEDLINE is ingesluit in PubMed, wat bykomende aanhalings bevat.

MegaBLAST is 'n plaaslike paarsgewyse nukleotiedbelyningsinstrument wat geoptimaliseer is om lang belynings tussen byna identiese rye te vind. MegaBLAST is die mees bruikbare vir die vergelyking van volgordes van dieselfde spesie, en is veral geskik vir sulke take soos groepering van EST's, belyning van genomiese klone of belyning van cDNA-volgordes en genomiese DNA. MegaBLAST kan tot 10 keer vinniger wees as baie standaard volgorde ooreenkoms programme, insluitend standaard nukleotied-nukleotied BLAST. Dit hanteer ook baie langer DNS-volgordes doeltreffend. MegaBLAST is die enigste BLAST-program op die NCBI se webwerf wat bondelsoektogte kan uitvoer.

Model Maker is 'n instrument wat geassosieer word met die Map Viewer wat 'n mens in staat stel om die bewyse (mRNA's, EST's en geenvoorspellings) te sien wat in lyn gebring is met die saamgestelde genomiese volgorde om 'n geenmodel te bou. Model Maker laat ook toe om die model te wysig deur vermeende eksons te kies of te verwyder. Model Maker kan dan die mRNA-volgorde en potensiële ORF's vir die geredigeerde model vertoon, en die mRNA-volgordedata stoor vir gebruik in ander programme. Model Maker is toeganklik vanaf volgordekaarte wat in die Map Viewer vertoon word. Om 'n voorbeeld te sien, volg die "mm"-skakel langs enige geen wat op die menslike "Gene_Sequence"-kaart in die Map Viewer geannoteer is.

NCBI se struktuurdatabasis, MMDB, bevat eksperimenteel bepaalde, driedimensionele, biomolekulêre strukture verkry uit die Proteïendatabank (PDB) die PDB se teoretiese modelle word nie ingevoer nie. MMDB is ontwerp vir buigsaamheid, en is as sodanig in staat om konvensionele strukturele data sowel as toekomstige beskrywings van biomolekules, soos dié wat deur elektronmikroskopie (oppervlakmodelle) gegenereer word, te argiveer. Die meeste 3D-struktuur data word verkry uit X-straal kristallografie en KMR-spektroskopie.

'n Motief is 'n kort, goed bewaarde nukleotied- of aminosuurvolgorde wat 'n minimale funksionele domein verteenwoordig. Dit is dikwels 'n konsensus vir verskeie belynde rye. Die PROSITE-databasis is 'n gewilde versameling proteïenmotiewe, insluitend motiewe vir ensiemkatalitiese terreine, prostetiese groepaanhegtingsplekke (heem, biotien, ens.), en streke betrokke by die binding van 'n ander proteïen. Voorbeelde van DNA-motiewe is transkripsiefaktor-bindingsplekke.

N

Die NCBI is 'n afdeling van National Library of Medicine by die National Institutes of Health in Bethesda, MD. Die NCBI is in 1988 gestig om geoutomatiseerde stelsels te skep vir die berging en ontleding van kennis oor molekulêre biologie, biochemie en genetika om die gebruik van sulke databasisse en sagteware deur die wetenskaplike gemeenskap te ondersteun om pogings te koördineer om biotegnologie-inligting beide nasionaal en internasionaal te versamel en om te presteer navorsing in rekenaarbiologie. Tans onderhou die NCBI die GenBank-databasis saam met verskeie verwante databasisse.

Die Nasionale Instituut vir Genetika (NIG) is in 1949 in Mishima, Japan gestig en in 1988 herorganiseer as 'n interuniversitêre navorsingsinstituut in genetika. Die Instituut verskaf tans gegradueerde opleiding in genetika en onderhou ook die DNA Data Bank of Japan.

Nie-oortollig is 'n term wat gebruik word om nukleotied- of aminosuurvolgordedatabasisse te beskryf wat slegs een kopie van elke unieke volgorde bevat. Nie-oortollige databasisse het die voordeel van kleiner grootte en dus korter soektye en meer betekenisvolle statistieke. Die verstek databasis op die meeste protein BLAST webblaaie is gemerk "nr". Dit is 'n nie-oortollige databasis waar veelvuldige kopieë van dieselfde volgorde, soos die ooreenstemmende volgordes van dieselfde proteïen van SWISS-PROT, PIR en GenPept, gekombineer word om een ​​volgorde-inskrywing te maak. Die verstek nukleotied databasis op die standaard nukleotied-nukleotied BLAST webblad is ook gemerk "nr", maar is nie meer 'n nie-oortollige databasis.

O

Aanlyn Mendeliese erfenis in die mens (OMIM)

OMIM is 'n katalogus van menslike gene en genetiese afwykings geskryf en geredigeer deur Dr Victor A. McKusick en sy kollegas by Johns Hopkins en elders, en ontwikkel vir die World Wide Web deur NCBI. Die databasis bevat tekstuele inligting, verwysings en oorvloedige skakels na MEDLINE en volgorderekords in die NCBI se Entrez-stelsel, plus skakels na bykomende verwante hulpbronne by NCBI en elders.


Oop leesraam (ORF)

'n ORF is 'n DNA (of mRNA) volgorde wat potensieel in staat is om 'n polipeptied te kodeer. ORF'e begin met 'n beginkodon (ATG) en word in drieling gelees totdat hulle eindig met 'n STOP-kodon (TAA, TGA of TAG in die standaardkode). Die NCBI ORF-vinder is nuttig vir die identifisering van ORF's in cDNA of in intronlose genomiese DNA.

Ortoloë is gene wat afgelei is van 'n gemeenskaplike voorouer deur vertikale afkoms. Dit word dikwels as dieselfde geen in verskillende spesies genoem. Daarteenoor is paraloge gene binne dieselfde genoom wat deur duplisering ontwikkel het.

Die hemoglobiengene is 'n goeie voorbeeld. Twee afsonderlike gene (proteïene) vorm die molekule hemoglobien (alfa en beta). Die alfa- en beta-DNS-volgordes stem baie ooreen en daar word geglo dat hulle ontstaan ​​het uit duplisering van 'n enkele geen, gevolg deur afsonderlike evolusie in elk van die rye. Alfa en beta word as paraloge beskou. Alfa-hemoglobiene in verskillende spesies word as ortoloë beskou.

P

Die oorspronklike persentasie-aanvaarde mutasie-tellingmatriks (sien M.O. Dayhoff, ed., 1978, Atlas van proteïenvolgorde en struktuur, Vol 15) is afgelei van waarneming hoe dikwels verskillende aminosure ander aminosure in evolusie vervang, en was gebaseer op 'n relatief klein datastel van 1 572 veranderinge in 71 groepe nouverwante proteïene. Verder is matrikswaardes gebaseer op die model dat een volgorde van die ander afgelei word deur 'n reeks onafhanklike mutasies, wat elkeen een aminosuur in die eerste volgorde na 'n ander aminosuur in die tweede verander. PAM250 was 'n baie gewilde matriks, maar word nou dikwels vervang deur die BLOSUM-reeks matrikse, veral wanneer gesoek word na meer ver-verwante proteïene. Laer getal PAM-matrikse stem rofweg ooreen met hoër genommerde BLOSUM-matrikse.

Paraloge word gewoonlik beskryf as gene binne dieselfde genoom wat deur duplisering ontwikkel het. Sien Ortholog.

Pfam is 'n databasis van bewaarde proteïenstreke of -domeine. Dit is een van drie databasisse wat die NCBI se Conserved Domain Database (CDD) uitmaak. Die ander twee is SMART en LOAD.

'n PopSet is 'n stel DNS-volgordes wat versamel is om die evolusionêre verwantskap van 'n populasie te ontleed. Die bevolking kan afkomstig wees van verskillende lede van dieselfde spesie, of van organismes van verskillende spesies. Hulle word aan GenBank voorgelê via die program Sequin, dikwels as 'n volgorde-belyning.


Posisie treffer geïnisieer BLAST (PHI-BLAST)

PHI-BLAST is 'n variasie van BLAST wat ontwerp is om te soek na proteïene wat beide 'n patroon bevat wat deur die gebruiker gespesifiseer is, en soortgelyk is aan die navraagvolgorde in die omgewing van die patroon. Hierdie dubbele vereiste is bedoel om die aantal databasistreffers te verminder wat die patroon bevat en waarskynlik geen ware homologie met die navraag sal hê nie.


Posisiespesifieke Iterated BLAST (PSI-BLAST)

PSI-BLAST is 'n afgeleide van proteïen-proteïen BLAST wat meer sensitief is omdat dit posisie spesifieke substitusietempo's in die puntestelsel insluit. Dit maak PSI-BLAST nuttig vir die vind van baie ver-verwante proteïene. PSI-BLAST werk deur eers 'n posisiespesifieke tellingmatriks (PSSM) te genereer uit die rye wat uit 'n standaard BLAST-soektog gevind is. Die databasis word dan met die PSSM deursoek. PSI-BLAST kan in verskeie iterasies uitgevoer word met 'n nuwe PSSM wat gemaak word van die nuwe inligting wat van die vorige soektog versamel is.


Posisiespesifieke puntetellingmatriks (PSSM)

'n PSSM is 'n belyningspuntmatriks wat substitusietellings vir elke posisie in 'n proteïenvolgorde verskaf. PSSM's is dikwels gebaseer op die frekwensies van elke aminosuurvervanging by elke posisie van proteïenvolgordebelyning. Dit gee aanleiding tot puntematriks wat die lengte van die belyning as een dimensie het en die moontlike vervangings in die ander. In 'n PSSM kan 'n spesifieke vervanging, byvoorbeeld Ser wat Thr vervang, 'n ander telling op verskillende posisies in die belyning hê. Dit is in teenstelling met 'n posisie-onafhanklike matriks soos BLOSUM62, waar die Ser Thr-vervanging dieselfde telling kry, maak nie saak waar dit in die proteïen voorkom nie. PSSM's is meer realistiese modelle vir verwante proteïenvolgordes, aangesien vervangingstempo's na verwagting oor die lengte van 'n proteïen sal wissel, sommige belynde posisies, soos die aktiewe plekresidu, is belangriker as ander.

In die konteks van belynings wat in BLAST-uitset vertoon word, is positiewes daardie nie-identiese vervangings wat by verstek 'n positiewe telling in die onderliggende puntematriks, BLOSUM62, ontvang. Dikwels dui positiewe op 'n konserwatiewe substitusie of substitusies wat dikwels in verwante proteïene waargeneem word.

'n Primêre volgorde databasis bevat rye wat ingedien is deur die navorsers wat oorspronklik die data geproduseer het. In primêre volgorde databasisse beheer die indieners van die volgorde die inhoud en verspreiding van die data. GenBank is 'n voorbeeld van 'n primêre databasis. Die inhoud, akkuraatheid en opdatering van GenBank-reekse is grootliks die verantwoordelikheid van die indiener. Dit is in teenstelling met 'n saamgestelde databasis, soos RefSeq of SWISS-PROT, waar bykomende inligting by elke rekord gevoeg word deur die personeel wat die databasis in stand hou.

ProbeSet is 'n eksperiment-aansig van NCBI se Gene Expression Omnibus (GEO), wat 'n geenuitdrukking en hibridisasie-skikkingbewaarplek is. ProbeSet is bedoel om soektogte van die GEO-databasis te vergemaklik, en waar moontlik die soekresultate aan interne en eksterne hulpbronne te koppel.

Proteïenpassings vir EST's (ProtEST) is die beste proteïenpassings vir translasies van EST-reekse in UniGene. Die nukleotiedvolgordes (mRNA's sowel as EST's) word met moontlike translasieprodukte gekoppel deur volgordevergelyking deur gebruik te maak van BLASTX met 'n verwagte waarde van 1x10-6. Die volgordes word vergelyk met proteïene van agt organismes en die beste pasmaat in elke organisme word aangeteken. UniGene-nukleotiedvolgordes kan dus tot agt passings in ProtEST hê.
Om proteïenvolgordes uit te sluit wat streng konseptuele vertalings of modelle is, is die proteïene wat in ProtEST gebruik word dié wat afkomstig is van die strukturele databasisse SwissProt, PIR, PDB of PRF.

PDB is die bewaarplek vir die verwerking en verspreiding van 3-D biologiese makromolekulêre struktuurdata. Vanaf April 2002 het die PDB byna 18 000 strukture bevat, insluitend meer as 1 000 nukleïensure en 400 teoretiese modelle. Behalwe vir teoretiese modelle, word die PDB-data gebruik om die NCBI se struktuurdatabasis, MMDB, te produseer en word dit by die verstek BLAST-databasisse ("nr") ingesluit.

PIR is 'n saamgestelde proteïenvolgorde databasis wat deur die Nasionale Biomediese Navorsingstigting by Georgetown Universiteit in Washington, D.C. vervaardig en onderhou word. PIR bevat meer as 200 000 inskrywings.

PNS is 'n proteïenvolgordedatabasis wat in Osaka, Japan, onderhou word, en is een van die proteïendatabasisse wat ingesluit is in BLAST "nr" databasissoektogte en in die Entrez proteïenstelsel. Vrystelling 84, Maart 2002, ingesluit
195 660 inskrywings.

PubMed, 'n diens van die Nasionale Biblioteek vir Geneeskunde, bied toegang tot meer as 11 miljoen MEDLINE-aanhalings uit meer as 4 300 biomediese joernale wat in die Verenigde State en 70 ander lande gepubliseer is. Aanhalings dek die velde van medisyne, verpleging, tandheelkunde, veeartsenykundige medisyne, die gesondheidsorgstelsel en die prekliniese wetenskappe en dateer terug na middel-1960. PubMed sluit bykomende lewenswetenskaptydskrifte in wat nie in MEDLINE gevind word nie, sowel as skakels na baie webwerwe wat volteksartikels en ander verwante hulpbronne verskaf.

Q-R

Radiation Hybrid (RH) kaart

'n Bestralingsbasterkaart is 'n STS-gebaseerde fisiese genoomkaart wat geproduseer word deur eers chromosome van 'n skenkersellyn te breek met 'n dodelike dosis bestraling, en dan die selle te red deur samesmelting met 'n ontvangersellyn. Afstande tussen merkers word gemeet in centistrale (cR), met 1 cR wat 'n 1% waarskynlikheid verteenwoordig dat 'n breuk tussen twee merkers plaasgevind het.

RasMol is 'n struktuurweergawe-sagtewarepakket wat by die Universiteit van Massachusetts vervaardig word. RasMol interpreteer die inheemse formaat van struktuurlêers vanaf PDB.

'n Rou telling in BLAST-uitset is die nie-genormaliseerde telling van 'n belyning van 'n navraag en teikenvolgorde. Die rou telling word direk van die tellingmatriks afgelei deur die individuele substitusietellings van die belynde residue in die belyning op te som. Vir gapende BLAST sluit die rou telling ook gapingsstraf in.

Verwysing enkelnukleotied polimorfismes (refSNP) is saamgestel dbSNP rekords wat 'n nie-oortollige stel merkers definieer wat gebruik word vir annotasie van verwysing genoom volgorde en integrasie met ander NCBI hulpbronne. Elke refSNP-rekord verskaf 'n opsommingslys van indienerrekords in dbSNP en 'n lys van eksterne hulpbron- en databasisskakels.

Verwysingsreekse is saamgestelde nukleotied- of proteïenrekords wat deur NCBI-personeel ontwikkel is. Hulle poog om die beskikbare inligting oor 'n gegewe volgorde op te som en om die mees betroubare en bygewerkte volgorde en annotasie te verskaf. RefSeqs sluit saamgestelde transkripsies en proteïene, niekoderende transkribeer-RNA's, contig- en supercontig-samestellings, geenmodelle en chromosoomrekords in.

Omgekeerde posisie-spesifieke BLAST (RPS-BLAST)

RPS-BLAST is 'n variasie van BLAST waarin 'n proteïennavraagvolgorde deursoek word teen 'n databasis van voorafberekende posisie-spesifieke tellingmatrikse soos gebruik in PSI-BLAST. Hierdie soort soektog vorm die basis van die CD-Search.

S-T

'n Volgorde-belyning is 'n res deur residu vergelyking van twee of meer rye. In die belyning word die relatiewe posisies van die rye aangepas om die belyningstelling wat verkry word deur verwysing na een of ander puntematriks te optimaliseer (gewoonlik te maksimeer). In sommige gevalle kan gapings met gepaardgaande strawwe in een of meer reekse ingevoeg word om die belyningstelling te optimaliseer.

Volgorde Tagged Site STS

STS'e is volgorderekords wat 'n kort volgorde van genomiese DNA bevat wat uniek geamplifiseer kan word deur die polimerase kettingreaksie (PCR) met behulp van 'n paar primers. Die primer-volgordes en PKR-toestande word gewoonlik by die rekord ingesluit. Volgorde-gemerkte werwe bestaan ​​uit die STS GenBank-afdeling. Hierdie merkers word gebruik in koppeling en bestraling hibriede kartering tegnieke. Hulle is nuttig om hierdie soort karteringdata met mekaar en ook met die saamgestelde genomiese volgorde te integreer. Die ePCR-instrument is nuttig om bekende STS-merkers in 'n DNA-volgorde te identifiseer.

Sequin is 'n alleenstaande toepassingspakket wat deur NCBI vervaardig word, wat 'n platform is vir die voorbereiding en annotasie van reekse vir voorlegging aan GenBank.

Reeksanalise van geenuitdrukking (SAGE)

SAGE is 'n eksperimentele metode om 'n cDNA-biblioteek te genereer wat aaneengeskakelde kort (gewoonlik tien basis) fragmente bevat, genoem merkers van alle cDNA-spesies wat in die biblioteek teenwoordig is. Hierdie etikette kan getel word om 'n kwantitatiewe maatstaf van geenuitdrukking in die biblioteek te gee. Die NCBI SAGE-kaartbronne pas SAGE-merkervolgordes by UniGene-groepering om gene wat in SAGE-biblioteke uitgedruk word te identifiseer en bied verskeie meganismes vir die ondersoek van relatiewe uitdrukkingspatrone in SAGE-biblioteke.

Haelgeweervolgordebepaling is 'n volgordebepalingsmetode waarin 'n groot genomiese kloon in klein segmente opgebreek word wat dan gesubkloneer en ewekansig georden word. Sodra genoeg ewekansige klone gevolgorde is, word hierdie ewekansige sub-sekwensies dan saamgestel om die groot invoegvolgorde vas te stel. In sommige gevalle kan 'n hele genoom gefragmenteer en in klein invoegingvektore gekloon word sonder om eers gekloon en gerangskik te word in groot invoegvektore. Laasgenoemde tegniek word heelgenoom-haelgeweervolgordebepaling genoem en is suksesvol met baie kleiner genome gebruik en het belangrike voorlopige samestellings vir die mens-, muis- en rysgenome verskaf.

SINEs (Short Interpersed Repeats) is transponeerbare herhalingselemente in die menslike genoom wat tipies 100-400 bp is, 'n interne polimerase III-promotor bevat en geen proteïene kodeer nie.

Enkelnukleotiedpolimorfisme (SNP)

Streng gesproke is 'n SNP 'n variasie of polimorfisme in die genoomvolgorde wat 'n enkele nukleotiedposisie behels. Die NCBI handhaaf dbSNP as 'n primêre bewaarplek van SNP-data. Die SNP-data by die NCBI sluit ook 'n paar variasies in wat veelvuldige posisies behels, soos herhaalde polimorfismes.

Spektrale kariotipering en vergelykende genomiese hibridisering databasis (SKY/CHG databasis)

SKY/CHG is 'n bewaarplek van publiek ingediende data van SKY en CGH, wat komplementêre fluoresserende molekulêre sitogenetiese tegnieke is. SKY fasiliteer identifikasie van chromosomale afwykings. CGH kan gebruik word om 'n kaart van DNA-kopiegetalveranderinge in tumorgenome te genereer.

SMART (Simple Modular Architecture Retrieval Tool) is 'n databasis van bewaarde domeine wat outomatiese identifikasie en annotasie van domeine in gebruikerverskafde proteïenreekse moontlik maak. Die SMART-data wat gebruik word, skep een van die stelle PSSM's wat in die CD-Search gebruik word.

Smith Waterman-algoritme

Die Smith-Waterman algoritme is 'n plaaslike belyning berekeningsprotokol wat dinamiese programmering gebruik om alle moontlike hoë-telling plaaslike belynings tussen 'n paar rye te vind. Dit is die mees sensitiewe plaaslike belyningsalgoritme, maar is rekenaarmatig te duur om oor die algemeen bruikbaar te wees vir hoë deursetsoektogte van groot volgorde databasisse. Die BLAST- en FASTA-programme word oor die algemeen in hierdie soort toepassings gebruik.

SWISS-PROT is 'n hoogs saamgestelde databasis van proteïenvolgordes wat in 1986 gestig is en tans onderhou word deur die Switserse Instituut vir Bioinformatika en die Europese Bioinformatika Instituut (EBI).

Die TaxBrowser is 'n aspek van die Entrez-stelsel wat 'n mens in staat stel om volgorde, genoom en struktuur rekords te blaai gebaseer op die taksonomiese klassifikasie van die bron organisme. Die belastingblaaier laat toegang op alle vlakke van die taksonomiese hiërargie toe en kan gebruik word om rekords by enige taksonomiese nodus te verkry.

TrEMBL (Vertaalde EMBL) is 'n afgeleide proteïendatastel wat 'n outomaties geannoteerde aanvulling tot die SWISS-PROT is. trEMBL bevat al die vertalings van koderende streke van EMBL-nukleotiedvolgorde-inskrywings. Die trEMBL-datastel dien as 'n bron van proteïene wat uiteindelik in SWISS-PROT geïnkorporeer kan word.

U-Z

'n Databasis wat by NCBI geskep en in stand gehou word as 'n eksperimentele stelsel vir die outomatiese verdeling van uitgedrukte nukleotiedvolgordes in 'n nie-oortollige stel geen-georiënteerde trosse. Elke UniGene-kluster bevat rye wat 'n unieke geen verteenwoordig, sowel as verwante inligting soos die kaartligging en weefseltipes waarin die geen uitgedruk is. UniGene is veral belangrik vir die vermindering van die oortolligheid en kompleksiteit van EST-data en is 'n belangrike hulpbron vir gene-ontdekking.

'n Hulpbron geskep en onderhou by NCBI wat inligting oor Sequence Tagged Sites (STS) rapporteer. Vir elke STS vertoon UniSTS die primerreekse, produkgrootte en karteringinligting, sowel as kruisverwysings na ander NCBI-databasisse.

Vektor Belyning Soek Gereedskap (VAST)

'n Algoritme wat by NCBI geskep is wat na driedimensionele strukture soek wat meetkundig soortgelyk is aan 'n navraagstruktuur deur eers die sekondêre struktuurelemente van elke struktuur as vektore voor te stel, en dan te probeer om hierdie stelle vektore in lyn te bring. VAST word by die NCBI gebruik om verhoudings tussen strukture te vestig en strukturele belynings in die Entrez-stelsel te skep.

'n Parameter van die BLAST-algoritme wat die lengte van die residu-segmente (óf nukleotiede of aminosure) bepaal waarin BLAST die navraagvolgorde verdeel. Die resulterende woordeboek van "woorde" word dan gebruik om die geselekteerde volgorde databasis te soek.

Gis kunsmatige chromosoom (YAC)

'n YAC is 'n funksionele (self-repliserende) kunsmatige chromosoom wat wyd gebruik word as 'n vektor vir genomiese klone in volgordebepalingsprojekte wat groot genome behels. Soos die naam aandui, word YAC's in gis gepropageer (Saccharomyces). 'n Tipiese YAC kloon kan fragmente bevat tot

2 Mb. 'n Groot probleem met YAC-klone is die neiging om in die gasheer te herrangskik. YAC-tegnologie is grootliks vervang deur BAC-kloningsvektore.


Resultate

Ons beskryf eers die hoofkenmerke van die so-geskatte LG-matriks, en vergelyk dan sy prestasie in boomafleiding met verskeie ander vervangingsmatrikse met verskillende opsies en datastelle.

LG vervangingsmatriks

Soos hierbo genoem, word die LG-matriks (soos geskat deur die bogenoemde prosedure) gedefinieer deur 3 komponente: die globale tempo (ρ), die aminosuur-ewewigverspreiding (Π) en die uitruilbaarheidsmatriks (R). Ons beskryf elkeen van hierdie komponente op sy beurt.

Die globale koers (ρ) is gelyk aan 1,11 en 1,07 vir die eerste (LG1) en tweede (LG2) iterasies, onderskeidelik. Dit dui daarop dat LG wêreldwyd vinniger as WAG is, maar dit is moeilik om die LG-eienskappe uit hierdie bevindings te ekstrapoleer. Om die LG-tempo in boomafleiding te bestudeer, meet ons dus die boomlengte verkry met die genormaliseerde weergawe van LG en met WAG, beide gebruik met 4 gammakategorieë en onveranderlike terreine. Die resultate word in tabel 1 vir Pfam- en TreeBase-toetsbelynings vertoon. Hierdie tabel verskaf ook 'n vergelyking tussen LG en WAG met betrekking tot die skatting van die gammavormparameter (α). Hierdie resultate beklemtoon 'n duidelike verskil tussen LG en WAG: LG-bome is gemiddeld ~10–15% langer as WAG-bome, en hierdie bevinding word met byna alle toetsbelynings waargeneem. Ons neem ook waar dat die wisselvalligheid van tariewe tussen terreine hoër is (α is laer) met LG as met WAG, en dit word weereens met die meeste belynings waargeneem. Beide bevindinge is konsekwent aangesien evolusionêre afstande en taklengtes verhoog word wanneer die α-waarde afneem. Ons sal sien dat LG-bome ook geneig is om meer geneig te wees as WAG-bome. Al hierdie beteken dat LG die evolusionêre patrone beter kenmerk as WAG en dus meer verborge substitusies vang, wat langer bome tot gevolg het (vir 'n bespreking oor boomlengte en waarskynlikheidswaarde, sien Pagel en Meade 2005).

Vergelyking van WAG en LG met betrekking tot die boomlengte en gammavormparameter

LET WEL—LG en WAG word met PHYML uitgevoer deur die Γ4 + I-opsie op TreeBase- en Pfam-toetsbelynings te gebruik. Die boomlengte is die som van alle taklengtes α dui op die gammavormparameter LG/WAG is die gemiddelde van die verhoudings tussen LG- en WAG-waardes, oor alle belynings. #LG > WAG tel die aantal belynings waar die LG-waarde groter is as die WAG-waarde, onder 59 en 500 belynings vir TreeBase en Pfam, onderskeidelik. Die tekentoets dui aan dat al hierdie tellings hoogs beduidende verskille tussen LG en WAG openbaar (bl-waarde ≈ 0.0).

Vergelyking van WAG en LG met betrekking tot die boomlengte en gammavormparameter