Inligting

Primer -ontwerp en BLAST E -waarde -stringensie

Primer -ontwerp en BLAST E -waarde -stringensie


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

By die soek na foutprimerings is ek meegedeel dat 'n e -waarde wat hoër is as 0,01 ok is en dat dit geen beduidende hoeveelhede verkeerds kan plaasvind nie. Tog het ek 'n paar gesoek en dit wil voorkom asof die grenswaarde vir e -waarde afhang van die 'hoeveelheid inligting' in die databasis. Ek het inderdaad gevind dat sommige artikels dat waardes laer as 0.07 noem, reeds beduidend is.

Wat is die kriteria wat u soms gebruik om hierdie kwessie te beoordeel, en hoe weet ek wanneer ek my strengheid moet verlaag of verhoog as ek 'n roetine -ontploffing gebruik vir die ontwerp van primers?


Ek het nooit BLAST vir onderlaagontwerp gebruik nie, maar dikwels om uit te vind waar 'n volgorde vandaan kom.

Van die FAQ van die NCBI: http://www.ncbi.nlm.nih.gov/blast/Blast.cgi?CMD=Web&PAGE_TYPE=BlastDocs&DOC_TYPE=FAQ

"Hoe laer die E-waarde, of hoe nader dit aan nul is, hoe meer "beduidend" is die passing. Hou egter in gedagte dat feitlik identiese kort belynings relatief hoë E-waardes het. Dit is omdat die berekening van die E-waarde neem die lengte van die navraagreeks in ag. Hierdie hoë E-waardes maak sin omdat korter reekse 'n groter waarskynlikheid het om bloot toevallig in die databasis te voorkom. Vir meer besonderhede sien asseblief die berekeninge in die BLAST-kursus.".

Wat hulle in die koerante sê is waar, die grootte van jou databasis maak saak om te besluit hoe belangrik die wedstryd is. Ek kan my voorstel dat jy vir primer-ontwerp meer versigtig wil wees met die E-waardes, aangesien dit dikwels onder val: "omdat korter rye 'n hoër waarskynlikheid het om bloot toevallig in die databasis te voorkom".

Ek hoop dat dit u kan help om u besluit oor u drempel te neem, anders gee asseblief meer inligting.


Hierdie NCBI-bladsy bied 'n primer-ontwerpinstrument wat blykbaar 'n spesifisiteitskontrole insluit wat via BLAST uitgevoer word. Dit blyk egter dat die stringensie berus op 'n mate van wanverhouding eerder as 'n e -waarde.


Primer ontwerp en BLAST E waarde stringensie - Biologie

Primer-BLAST is ontwerp om primers te maak wat spesifiek is vir 'n PCR-sjabloon, met behulp van Primer3. Dit kan ook die primers wat deur die gebruiker verskaf is, nagaan vir spesifisiteit.

Die "Soek vir kort, byna presiese passings"-nukleotied- en proteïenbladsye bestaan ​​nie meer nie. In plaas daarvan kyk die nukleotied- en proteïenontploffingsprogramme outomaties vir kort navrae en pas die soekparameters dienooreenkomstig aan. Hierdie aanpassing vind plaas wanneer die navraag, nukleotied of aminosuur, 30 of minder lank is. Die vertaal -ontploffingsprogramme of soektogte op die genoomblaasbladsye het nie hierdie outomatiese aanpassingsfunksie nie.

V: Verstek databasis vir nukleotied-nukleotied soektogte

V: Stoor u soekparameters

V: Hoe om 'n soektog tot 'n organisme of taksonomiese groep te beperk of sulke groepe uit te sluit

Gebruik die tekskassie "Organisme" om slegs rye van 'n organisme of taksonomiese groep te soek. Op die nukleotiedblaasbladsye, klik eers op die radioknoppie vir "Ander (nr ens.)". Die "Organisme" tekskassie het 'n outovulfunksie. Begin om 'n organisme se algemene naam (rot, bakterieë, ens.), 'N genus of spesie (elegans, danio, ens.), Of 'n NCBI -taksonomie -ID in te voer, en kies dan 'n naam uit die lys.

Die taksonomiese groep kan ook uitgesluit word deur die boks "Uitsluit" regs van die boks "Organisme" te gebruik.

Meer taksonomiese groepe kan ingesluit of uitgesluit word in die "+" - blokkie regs van die "Organism" - tekskassie.

U kan ook die voorwaardes van Entrez -navraag gebruik. Plaas die in die Entrez Query -boks net onder die veld Organisme, byvoorbeeld rattus norvegicus [organisme] of eenvoudig rat [orgn]. Sien ook die FAQ "Hoe om 'n soektog te beperk tot 'n deelversameling databasisreekse."

U kan in die taksonomie -blaaier na taxa soek.

V: Hoe kan u modelle (XM/XP -toetredings) en ongekweekte omgewingsvolgorde uitsluit?

V: Hoe om 'n soektog te beperk tot 'n subset van databasisreekse?

V: Hoe kan ek 'n groep rye met BLAST soek?

    1.) Selfstandige BLAST-uitvoerbare programme. Dit is opdragreëlprogramme wat BLAST -soektogte uitvoer teen plaaslike, afgelaaide afskrifte van die NCBI BLAST -databasisse, of teen aangepaste databasisse wat vir BLAST geformateer is. Die programme sal óf 'n enkele groot lêer met veelvuldige FASTA-navraagreekse hanteer, óf jy kan 'n skrif skep om veelvuldige lêers een op 'n slag te stuur. Die uitvoerbare programme is beskikbaar vir 'n wye verskeidenheid platforms, insluitend LINUX, Windows en Mac OSX.

V: Hoe om BLAST te gebruik om twee rye sonder 'n databasis -soektog in lyn te bring.

V: Wat is die verwagting (E) -waarde?

Die Verwagwaarde (E) is 'n parameter wat die aantal trefslae beskryf wat 'n mens kan "verwag" om toevallig te sien wanneer jy 'n databasis van 'n spesifieke grootte soek. Dit neem eksponensieel af namate die telling (S) van die wedstryd toeneem. In wese beskryf die E -waarde die ewekansige agtergrondgeraas. Byvoorbeeld, 'n E-waarde van 1 wat aan 'n treffer toegeken word, kan geïnterpreteer word as dat 'n mens in 'n databasis van die huidige grootte kan verwag om 1 wedstryd met 'n soortgelyke telling bloot toevallig te sien.

Hoe laer die E-waarde, of hoe nader dit aan nul is, hoe meer 'betekenisvol' is die pasmaat. Hou egter in gedagte dat feitlik identiese kort belynings relatief hoë E -waardes het. Dit is omdat die berekening van die E -waarde die lengte van die navraagvolgorde in ag neem. Hierdie hoë E -waardes maak sin omdat korter rye 'n groter kans het om bloot toevallig in die databasis voor te kom. Raadpleeg die berekeninge in die BLAST -kursus vir meer besonderhede.

Die Verwag-waarde kan ook gebruik word as 'n gerieflike manier om 'n betekenisdrempel vir die verslagdoening van resultate te skep. Jy kan die Verwag-waarde-drempel op die meeste BLAST-soekbladsye verander. As die verwagte waarde verhoog word vanaf die standaardwaarde van 10, kan 'n groter lys met meer treffers met 'n lae telling gerapporteer word.

Wat is die 'lae-kompleksiteit'-ry?

Streke met 'n lae-kompleksiteitsvolgorde het 'n ongewone samestelling wat probleme kan veroorsaak by die soek na ooreenkomste. Vir aminosuurnavrae word hierdie komposisionele vooroordeel deur die SEG-program bepaal (Wootton en Federhen, 1996). Vir nukleotiednavrae word dit bepaal deur die DustMasker -program (Morgulis, et al., 2006).

Lae-kompleksiteit volgorde kan dikwels herken word deur visuele inspeksie. Byvoorbeeld, die proteïenvolgorde PPCDPPPPPKDKKKKDDGPP het 'n lae kompleksiteit en so ook die nukleotiedvolgorde AAATAAAAAAAAAATAAAAAAT. Filters word gebruik om lae-kompleksiteit volgorde te verwyder omdat dit artefaktiese treffers kan veroorsaak.

In BLAST-soektogte wat sonder 'n filter uitgevoer word, kan trefslae met 'n hoë telling slegs gerapporteer word as gevolg van die teenwoordigheid van 'n lae-kompleksiteit-streek. Meestal is dit onvanpas om hierdie tipe passing as die resultaat van gedeelde homologie te beskou. Dit is eerder asof die gebied met 'n lae kompleksiteit 'taai' is en baie rye uittrek wat nie werklik verband hou nie.

Hoe om (organisme-spesifieke) afgewisselde herhalings uit te filter?


Wat is primers?

Primers is eenvoudige, maar belangrike bestanddele vir DNA -sintese, sowel binne ons liggame as binne wetenskaplike eksperimente. Primers kan ook oligonukleotiede genoem word en is letterlik klein stukkies enkelstrengige nukleotiede, gewoonlik ongeveer 5 – 22 basispare lank. Die hoofeienskap van primers is dat hulle aanvullend tot die DNA-sjabloonstring moet wees, wat dien om die string te "primeer" vir DNA-polimerase om aan DNA-sintese te bind en te begin.

Watter tipe primers is daar? RNA vs DNA primers

Lewende organismes gebruik slegs RNA -primers, terwyl primers wat in die laboratorium gebruik word, gewoonlik DNA -primers is. Wetenskaplikes gebruik DNA-inleiders in plaas van RNA-inleiders vir 'n verskeidenheid of redes. DNA-inleiders is baie meer stabiel en makliker om te stoor, en hulle benodig minder moeilike ensieme om sintese te begin (sien Figuur 1).

DNA Primers RNA Primers
Gebruik In vitro: PCR -versterking, DNA -volgordebepaling, kloning, en meer In vivo: DNA-replikasie
Reaksie Amplifikasie is temperatuurafhanklik, wat minder proteïene benodig Replikasie is 'n ensiemafhanklike katalitiese reaksie wat verskeie proteïene benodig
Lengte 18 – 24 basispare 10 – 20 basispare
Skepping Chemies gesintetiseer deur wetenskaplikes Primase ('n tipe RNA -polimerase)
Lewensvatbaarheid Langer lewe, meer stabiel Korter lewe, meer reaktief

Die binding van DNA- of RNA-primers aan die templaatstreng begin die ensiem wat verantwoordelik is vir DNA-sintese, DNA-polimerase, en begin met die toevoeging van nukleotiede aan die reaktiewe 3'-hidroksiel einde (die '3 prime end' genoem) van 'n bestaande nukleïensuur op die primer, verleng en repliseer die ouerstreng.


Resultate

'n Skema van die ThermoAlign-pyplyn word in Fig. 1 getoon. In die volgende afdelings word resultate aangebied wat betrekking het op elke module van die instrument. 'N Teikengebied van 24 kb van die mieliegenoom (B73 RefGen_v3 Chr3: 33490673..33514673) is gebruik om die pyplyn te demonstreer en kenmerke van ThermoAlign uit te lig. Ses en sestig persent van hierdie streek word in die genoomassemblage geannoteer as herhaalmasker. Deur gebruik te maak van die ontmaskerde volgorde en herhaling wat relevant is vir primerbinding te ondersoek, sou 72% van die primers wat vir hierdie streek ontwerp is, voorspel word om buite-teiken priming gebeure te produseer by 1 tot 215 plekke vir 'n gegewe primer (Fig. 2). Dieselfde streek, saam met ander segmente van die genoom, is gebruik om die amplifikasie -spesifisiteit van primers wat deur ThermoAlign ontwerp is, te toets.

'n Enkelloopparameterlêer word deur alle komponente van die pyplyn gebruik. Gekleurde bokse verteenwoordig die vier kernmodules van ThermoAlign, opgesom in hul volgorde van werking: (1) teikenstreekseleksie, (2) unieke oligonukleotiedontwerp, (3) primerspesifisiteitsevaluering en (4) primerpaarseleksie. Gestreepte blokkies verteenwoordig sub-roetines binne elk van hierdie modules en pyle beeld hul volgorde van werking uit. Die oorblywende elemente is die databasis (verwysingsgenoomvolgorde), eksterne lêers (variantoproepformaat [.vcf] lêers en 'n loop parameters lêer) en funksies (naaste-buurman model vir die Tm van homodimer-, heterodimer- en haarnaald -interaksiefunksies in Primer3). Verbindingslyne vir hierdie oorblywende komponente beeld afhanklikhede vir die gekoppelde komponente uit ('n gevulde kol word gebruik om die bron aan te dui waaruit inligting of 'n funksie getrek word). Vereiste insette vir ThermoAlign word aangedui met 'n asterisk.

Die figuur is gebaseer op die ontleding van elke 25 bp volgorde (26 bp skuifvenster) van die plus string. Vir alle subfigure toon rooi lyne die aantal termo-belynings met 'n off-target Tm binne 10 °C van die ooreenstemmende op-teiken Tm. Geel lyne (oranje wanneer dit met rooi oorvleuel) toon die aantal termo-belyning tussen 'n gegewe primer en buite die teiken terreine met ≥70 persent identiteit (pid). Blou lyne toon die persentasie GC -inhoud. Die soektog na buite-teiken plekke was gebaseer op BLASTn instellings wat in hierdie studie gebruik is vir priming spesifisiteit evaluering (sien Metodes), wat 'n maksimum van 20 potensiële plekke per pseudomolekule of 'n totaal van 260 moontlike plekke gehad het. (a) Kumulatiewe verspreiding van die aantal herhalings en persentasie GC-inhoud. (b) Genomiese verspreiding van herhalingsinhoud en GC -persentasie. Die pseudomolekule koördinaat van die 5'-nukleotied van elke 25 bp volgorde is gebruik om die geplot data te posisioneer. Swart horisontale strepe op die x-as toon die twee gene in hierdie streek [links: GRMZM2G031364 regs: GRMZM2G031239]. Onder 25-mere in die streek sal ≈73% voorspel word om 'n mispriming te hê Tm binne 10 °C van die onderlaag Tm. (c) Die CIRCOS-plot strek vanaf 'n enkele primer in die streek met die grootste aantal (n = 215) voorspelde mispriming-plekke oor die genoom. Rooi lyne van die CIRCOS plot verbind die voorspelde mispriming plekke op die pseudomolekules vir chromosome 1 tot 10, die mitochondria (Mt), die plastied (Pt) en ongekarteerde rye (unkn).

Teikenstreekseleksie (TRS)

ThermoAlign produseer 'n uitvoerlêer met opsommingsinligting vanaf die aanloop (bv. Aanvullende lêer S1). Die uitset vir die 24 kb -teikengebied het getoon dat dit geen leemtes in die verwysingsreeksamestelling bevat nie, 1 073 SNP's, 93 indels en 46% GC -inhoud.

Unieke Oligo -ontwerp (UOD)

Die UOD -algoritme is ontwerp om elke individuele primer (nie primerpare) te identifiseer in 'n teikengebied wat gunstig geag word vir PCR en geen identiese ooreenkomste elders in die genoom het nie. Vir die 24 kb geteikende gebied, onder 184.145 totale moontlike primers, het 82.520 nie op plekke gevind wat polimorfismes in mielies HapMap3 38 bevat nie. Die toepassing van die volledige stel oorblywende UOD -filters (vir instellings, sien Aanvullende lêer S2) het gelei tot die keuse van 877 kandidaat -primers.

Die klassifikasie van die 82 520 primers in UOD filter kategorieë is ondersoek om te sien watter kenmerke die grootste effek op die verwydering van primers gehad het. Dit is in twee dele verdeel, begin met filters vir primer -ry funksies en eindig met filters vir primer interaksies (aanvullende figuur S1). Wat volgordekenmerke betref, is 75.073 primers gefiltreer. Met inagneming van primers wat slegs verband hou met 'n kategorie-funksie-kategorie, het die A/T-eindfilter die grootste aantal primers verwyder (n = 9.217), wat ongeveer 50% van die kollektiewe stel primers bevat wat slegs vir een funksie spesifiek was (aanvullend Fig. S1a). Die A/T-end-funksie is 'n nuttige heuristiek om primers met 'n groter potensiaal vir ondoeltreffende priming 39 uit te skakel. Opsioneel kan die A/T-eindfilter of ander filters uitgesluit of herparameter word om 'n hoër ontdekkingstempo van kandidaat-primers te bereik, maar dit kos die berekeningstyd wat nodig is vir die evaluering van primer-spesifisiteit (PSE volgende afdeling) . Byvoorbeeld, die uitsluiting van die A/T-eindfilter van UOD het tot 1,161 bykomende kandidaat-primers gelei (in vergelyking met 877 wat geïdentifiseer is met die A/T-end-filter toegepas), maar dit het ongeveer vier keer langer geneem in runtime sekondes vir PSE.

Die primer-interaksiefilters, wat toegepas is op die 7 447 primers wat oorgebly het nadat gefiltreer is, gebaseer op volgordekenmerke, het die voorkoms van 'n presiese pasmaat op 'n terrein buite die teiken in die genoom, homodimer, ingesluit Tm, heterodimeer Tm en haarnaald Tm 40 (aanvullende fig. S1b). Dit het gelei tot die filtrering van 'n bykomende 6 570 primers, wat 433 voorwaartse primers en 444 reverse primers verlaat het met 136 wat van dieselfde posisie op die twee stringe was.

Priming Spesifisiteit Evaluering (PSE)

'N Kritiese aspek van ThermoAlign is die algoritmiese en kwantitatiewe benadering wat gebruik word om hibridisasie-terreine buite die teiken te kenmerk. As deel van die algoritme om die potensiaal vir mispriming te bepaal, word BLASTn-belynings vir elke buite-teiken-wedstryd geredigeer in termo-belynings (vollengte, ongebonde primer-template-belynings) wat betekenisvolle en akkurate skattings van die Tm om vir 'n primer bereken te word (Fig. 3). Inheemse BLAST -belynings met ≥70% volgorde -identiteit (wat meestal afgekapte plaaslike belyning is) het 'n gemiddelde Tm dit was 7 °C hoër as hul termo-belyning (Fig. 3b). Die Tm vir 10,8% (n = 18,834) van die BLASTn-belynings was minder as hul termo-belyning (Fig. 3b). Die omvang van die verskil in Tm vir BLASTn-belynings in vergelyking met ooreenstemmende termo-belynings was -14 °C tot 272 °C. Met inagneming van die verband tussen die aantal wanpassings en Tm, Fig. 3c, d het getoon dat die aantal wanpassings, hoewel dit gekorreleer is met termo -uitlijning Tm, is nie 'n geskikte proxy vir die potensiaal van mispriming nie. Selfs in die teenwoordigheid van veelvuldige wanpassings, is die Tm vir binding by off-teiken plekke kan wees by temperature tipies vir PCR (bv. >60 °C Fig. 3c). Boonop is die off-target Tm is moontlik nie altyd voldoende ver van die doelwit nie Tm vir spesifieke priming om plaas te vind (Fig. 3d). Vir die data in Fig. 3d het ≈80% van die termo-belynings 'n op-teiken gehad Tm > 10 °C van die buite-teiken Tm.

(a.1) Voorbeelde van vollengte primer rye. (a.2) Die top-posisie BLASTn hoë-telling segmentpaar (HSP) belyning vir twee afwykings buite die teiken (onderste string) word verwerk tot 'n (a.3) termiese uitlijning deur eindvulling (ongegeurde BLASTn) of die verwydering van gapings en eindvulling (gaping BLASTn) die oorspronklike BLASTn HSP-belyning. (b) Vir 877 kandidaat-primers wat deur die UOD-module uitgevoer word vir die 24 kb-gebied wat in die teks beskryf word, die Tm is bereken vir elke topposisie BLASTn HSP-belyning en die ooreenstemmende termo-belyning. (c) Met behulp van die deelversameling van termo-belynings wat gevorm word uit onbepaalde BLASTn HSP's (n = 169.404 belynings), toon die plot die verband tussen die off-target Tm vir termo -belyning in vergelyking met die totale aantal wanpassings. (d) Die gebruik van dieselfde subset van data in (c) die plot toon die verskil tussen die op-teiken Tm en buite die teiken Tm van termo-belynings in vergelyking met die totale aantal wanpassings.

Primer Pair Selection (PPS)

Uit die 877 oligonukleoltiede wat na verwagting stabiel sou hybridiseer en spesifiek op die teiken in die verwysingsgenoom sou prikkel, is gevind dat 2,818 kombinasies van primerpare geskik is vir standaard PCR. Die parameterinstellings wat vir PPS (aanvullende lêer S2) gebruik is, bevat die vereiste van 'n verskil van +10 ° C in die Tm tussen die primer met die onderste Tm van 'n gegewe paar en die grootste buite-teiken Tm vir een van die twee primers. Deur hierdie drempel te verlaag, kan die ontdekkingsyfer vir primers verhoog word, maar 'n laer perk moet in ag geneem word waarteen amplicons buite die teiken waarskynlik in werklike PCR sou ontstaan. Wanneer dit op +6 °C gestel is, het die aantal primer-pare wat deur die PPS-module vir die 24 kb-streek gekies is, toegeneem tot 4,189. Die aanpassing van hierdie drempel saam met die boonste limiet in die Tm reeks wat vir UOD gebruik word, kan ook die ontdekkingskoers verhoog. Die verhoging van die Tm bereik met +5 ° C ('n verandering van 64-74 ° C na 62-77 ° C), terwyl 'n maksimum verskil van +10 ° C behoue ​​bly, het gelei tot die identifisering van 4 103 primerpare via die UOD → PSE → PPS -pypleiding.

Met die 877 primers van bo, is 'n gerigte grafiekmetode gebruik om die minimum aantal primerpare (kortste pad) te identifiseer wat die maksimum dekking vir die geteikende gebied bied. Die verstelling van die amplicon -grootte was 'n kritieke faktor in die dekking wat bereik kon word vir die gebied wat hier ondersoek word (Aanvullende Tabel S2). Kleiner amplikongroottereekse het tot relatief lae dekking gelei en die grootste groottereekse (≥15 kb) het tot geen dekking gelei nie. Maksimum dekking is bereik vir amplikongroottes tussen 5 en 15 kb. As u egter onthou dat die A/T-eindfilter die verlies van meer as duisend primers tot gevolg gehad het, het hierdie filter uitgesluit, die verwagte dekking verhoog van 'n maksimum van 61.8% (met die filter) tot 88.7% (sonder die filter).

Empiriese evaluering van primingspesifisiteit

Primer-pare wat deur ThermoAlign ontwerp is, is getoets deur gebruik te maak van gestandaardiseerde toestande vir standaard PCR en langafstand PCR (sien Metodes afdeling). Vir standaard PCR is 46 primerpare geassosieer met sewe gene wat op ses chromosome van mielies geleë is, getoets (aanvullende lêer S3). Met behulp van die gerigte grafiek -analise metode in PPS, is hierdie primerpare ontwerp om van 1 kb stroomop na 1 kb stroomaf van elke geen te teël. Agt-en-dertig van hierdie primer-pare het 'n amplikon geproduseer, en vir elk van hierdie is 'n enkele spesifieke amplikon van die verwagte grootte waargeneem, geen off-teiken-amplikone is opgespoor vir enige van die primer-pare wat getoets is nie [Fig. 4a toon die resultate vir 29 van die 46 primerpare, waarvan twee nie versterk het nie (6: 7,048,348 en 7: 128,406,874)].

Die produkte van twee addisionele gene wat versterk is met standaard PCR, maar nie langafstand-PCR (soos beskryf in die teks) word nie getoon nie. Etikette dui die chromosoomnommer van die teikenlokus, die voorwaartse primer-beginplek en die verwagte grootte van die produk aan. Besonderhede oor elke onderlaag is beskikbaar in aanvullende lêer S3. (a) Standaard PCR-produkte is gekwantifiseer sonder suiwering na-PCR en ongeveer .57,5 ng is in elke put gelaai. Vir die twee reaksies wat geen produk gehad het nie, is 'n volume gelykstaande aan die gemiddelde volume gelaai gebruik. Multipleksreaksies saamgestel uit primerpare wat ooreenstem met elke stel vir 'n gegewe geen is gelaai langs die primers wat aan daardie selfde stel behoort. (b) Langafstand-PKR-produkte van reaksies sonder (−) en met (+) betaïen. PCR-produkte is gekwantifiseer sonder suiwering na-PCR en ≈29 ng is in elke put gelaai. Vir die drie reaksies wat geen produk gehad het nie, is dieselfde volume wat vir die ooreenstemmende betaïne -reaksie gebruik is, in die put gelaai. Vir die negatiewe kontrole is die maksimum volume wat onder al die reaksies gebruik is in die put gelaai. Die negatiewe kontrole was saamgestel uit meestermengsel, primerpaar TA_1_25390617_27_F en TA_1_25395472_24_R (Aanvullende Lêer S3) sonder DNS-sjabloon. Bane met agtergrondsmeer is geassosieer met reaksies wat vereis het dat 'n groter volume van die produk gelaai moes word om 'n gestandaardiseerde hoeveelheid produk oor bane te bereik.

ThermoAlign integreer MultiPLX 41 terwyl die invoer en uitset aangepas word om twee groepe veelvoude te verkry wat verenigbaar is met die versterking van oorvleuelende teëlpaaie. Vir elk van die sewe geteikende gene wat getoets is met behulp van standaard PCR, onder die 'normale' stringensie -instellings, het MultiPLX veelvoude met nie meer as twee primerpare geïdentifiseer nie (die moontlikheid bestaan ​​om tot vyf primerpare te kombineer). Die amplikone wat met behulp van multiplex PCR geproduseer is, was oor die algemeen in ooreenstemming met die wat elke primerpaar afsonderlik produseer (een primerpaar in een multiplexstel het misluk in die multiplexreaksie) en geen alternatiewe amplicons is waargeneem nie (Fig. 4a).

Vir vyf van die sewe gene wat hierbo genoem is, is 0,1–5,0 kb amplicon-teëlpaaie ontwerp vir elke geen (onafhanklik van die standaard PCR-primers Aanvullende lêer S3) en getoets met langafstand-PCR. Vir elke geen is twee primerpare geïdentifiseer wat oor die volle lengte van die geen sou kom (een uitsondering: met die gebruikte instellings is daar nie primerpare gevind wat die hele P450 -geen op chromosoom 3 sou dek nie). Net soos standaard PCR, het nie al tien primerpare 'n amplikon opgelewer nie, maar die sewe wat wel 'n enkele prominente amplikon van die verwagte grootte gelewer het (Fig. 4b). Vir langafstand-PCR-amplikone wat nie kon versterk of lae opbrengs gehad het nie, is meer van die reaksieproduk in die jel gelaai om die produkte vir vergelyking te normaliseer. Dit toon 'n mate van agtergrondsmering wat groter was as die negatiewe kontrole, wat daarop dui dat 'n mate van ewekansige versterking buite die teiken plaasgevind het tydens langafstand-PCR (moontlik as gevolg van mega-primer versterking 14).

Vanweë die afhanklikheid van 'n verwysingsgenoom vir primerontwerp en dat sommige standaard PCR- en langafstand-PCR-reaksies nie amplikone kon produseer nie, het ons bevraagteken of hierdie mislukte reaksies te wyte was aan onakkuraathede in die volgorde-samestelling. Onder die aanname dat langafstand-PKR-inleiderpare wat 'n spesifieke amplikon van die verwagte grootte geproduseer het, 'n aanduiding was van 'n akkurate samestelling, is die produksie van standaard PCR-amplikone wat binne hierdie langafstand-PKR-amplikone geneste is gebruik om hierdie vraag aan te spreek.

Nege-en-twintig standaard PCR-primerpare is ontwerp vir dieselfde vyf gene wat met langafstand-PCR getoets is en is geneste binne ten minste een van die verwagte langafstand-PCR-amplikone. Sommige van die standaard PCR-amplikone is geneste binne oorvleuelende gedeeltes van twee langafstand-PCR-amplikone waar een van die primerpare 'n produk vervaardig het en die ander nie. Met die uitsondering van die standaard PCR-primerpare uit oorweging, het een uit 21 van die standaard PCR-primerpare nie 'n amplikon geproduseer in streke waar 'n amplicon deur langafstand-PCR geproduseer is nie. Daarteenoor het al vyf standaard-PKR-inleiderpare 'n amplikon geproduseer in streke waar geen amplikon deur langafstand-PKR geproduseer is nie. Die verband tussen suksesvolle en mislukte reaksies vir standaard- en langafstand-PCR was nie beduidend nie (Fisher's Exact Test, bl = 1.0), wat nie die monteerfoute kon impliseer as die oorsaak van PCR -mislukkings nie.

Met inagneming van die moontlikheid dat die volgorde samestelling van die primers of amplifikasie teiken sukses 14 beïnvloed het, het die byvoeging van betaïne tot die reaksies gelei tot al 10 langafstand PCR primer pare wat 'n spesifieke produk van die verwagte grootte produseer (Fig. 4b). Daaropvolgende toetse van standaard PCR -primerpare met betaïne het gelei tot die herstel van 'n enkele spesifieke amplikon vir die twee geneste pare wat misluk het in die afwesigheid van betaïne, benewens vier primerpare uit die oorspronklike stel van 46. Hierdie produkte versterk egter swak (data word nie getoon nie). Bykomende PCR -optimalisering kan die versterkingsdoeltreffendheid van hierdie primerpare moontlik verbeter. Die amplikone van reaksies wat herwin is deur die toevoeging van betaïne vir langafstand-PCR, het 'n hoër mediaan GC-inhoud met 3,2 persentasiepunte vir die primers en 7,8 persentasiepunte vir die verwagte amplikone (B73-verwysingsgenoom-volgorde). Op dieselfde manier het standaard PCR -reaksies wat met behulp van betaïne herwin is (met inagneming van al 46 die primerpare) 'n hoër mediaan GC -inhoud vir die primers (3,7 persentasiepunte) en verwagte amplikons (19,7 persentasiepunte).

Om te bevestig dat die amplikons ooreenstem met die geteikende lokusse, is nege van die tien langafstand-PCR-produkte in Fig. 4b saamgevoeg en opeenvolgend deur 'n enkele molekule, real-time volgordebepaling. 'N Primer-gebaseerde groepering- en volgorde-analise-benadering het presies nege konsensusreekse gegenereer met 'n perfekte identiteit aan die verwagte volgorde (tabel 1 aanvullende lêer S4).


METODES EN IMPLEMENTERING

Die werkstroom van oli2go word geïllustreer in figuur 1. Die volgende onderafdelings beskryf die hoofkenmerke van elke stap in detail.

'N Oorsig van die oli2go -sagteware. (A) Illustreer die werkstroom wat begin met die invoer van n DNA -rye, gevolg deur die multiplex -ontwerp, wat onafhanklik vir elke invoerreeks uitgevoer word. Vervolgens word 'n primer dimeer kontrole uitgevoer met behulp van alle primers wat in die multiplex ontwerp vervaardig word. Die hoofuitvoer bevat primers en probes vir elke invoervolgorde in FASTA-formaat. (B) Gee meer besonderhede oor die multiplex sonde en primer ontwerp stappe, wat behels k-mer keuses, Tm berekeninge, haarnaaldtoetse, probe- en primerspesifisiteitstoetse sowel as probe- en primer-paring vir elke invoervolgorde onafhanklik. (C) Visualiseer die primer -dimeer -kontrole, waar alle primers wat op alle invoerreekse gerig is, as gevolg van die voorafgaande multiplex -ontwerp, gekontroleer word op primer -dimeervorming.

'n Oorsig van die oli2go-sagteware. (A) Illustreer die werkstroom wat begin met die invoer van n DNS-volgordes, gevolg deur die multipleksontwerp, wat onafhanklik vir elke invoervolgorde uitgevoer word. Vervolgens word 'n primer dimeer kontrole uitgevoer met behulp van alle primers wat in die multiplex ontwerp vervaardig word. Die hoofuitvoer bevat primers en probes vir elke invoervolgorde in FASTA-formaat. (B) Verskaf meer besonderhede oor die multipleks-sonde en onderlaagontwerpstappe, wat behels k-mer keuses, Tm berekeninge, haarnaaldkontroles, sonde- en onderlaagspesifisiteitstoetse sowel as sonde- en onderlaagparing vir elke insetvolgorde onafhanklik. (C) Visualiseer die primer dimeer-kontrole, waar alle primers wat alle invoerreekse teiken, wat voortspruit uit die voorafgaande multipleks-ontwerp, nagegaan word vir primer dimeer-vorming.

Invoer

Die tuisblad van die webgebaseerde hulpmiddel oli2go word gebruik om die invoerreekse op te laai en om die ontwerpparameters te spesifiseer. Die rye moet in FASTA-formaat verskaf word, hetsy deur oplaai of deur 'n aangewese invoerkassie te gebruik. Die data moet 'n minimum van twee rye bevat, aangesien oli2go ontwerp is om meer as een ry vir multiplexreaksies te hanteer. Reekse wat dubbelsinnige nukleotiede bevat word ondersteun, maar moet versigtig gebruik word aangesien elke veranderlike posisie binne die ry die aantal berekeningstappe verhoog. Aangesien spesifisiteitstoetse vir elke moontlike veranderlike posisie uitgevoer word, sal 'n toename in werktyd die gevolg wees. Aangewese invoerparameters is nodig vir primer- en probe-ontwerp en dimerisasiekontroles. Afhangende van die gebruiksgeval, moet die verstekparameters betekenisvol ingestel word. Verskeie referate beskryf in detail die keuse van geoptimaliseerde parameters vir primer en probe-ontwerp (3, 4, 17, 18). Daarbenewens ondersteun oli2go die opsie om tweedelige hibridasieprobe te genereer wat gebruik word in ligasie-gebaseerde eksperimente.

Lêer voorbereiding

Insetvolgorde word eers in lyn gebring met behulp van die selfstandige weergawe van die National Center for Biotechnology Information (NCBI) Basic Local Alignment Search Tool (BLAST) weergawe 2.7.0+ en 'n uitgebreide versameling databasisse (tabel 1). Hierdie databasisse is 'n versameling volgordelêers wat meer as 100 miljoen rye dek van bakterieë, virusse, swamme, argee, ongewerweldes, omgewingsmonsters, protosoë, plante en projekte van die hele genoomgeweer (WGS), afgelaai van die File Transfer Protocol (FTP) bediener van NCBI . Die gebruiker kies databasisse vir die lêervoorbereiding en ondersoek spesifisiteitskontroles. Die BLAST -resultate bestaan ​​uit alle treffers wat ooreenstem met die volgordevolgorde van 90% en die basisvolgorde vir die spesifisiteitsondersoek van die sondes.

NCBI databasisbronne wat gebruik word vir die ondersoek van die sonde -spesifisiteit

Bron . Aantal rye. Databasis breuk.
Bakterieë 7 658 345 7.55%
Omgewingsmonsters 7 276 975 7.18%
Ongewerweldes 27 651 271 27.27%
Gepatenteerde reekse 31 140 928 30.71%
Plante 3 798 824 3.75%
Virusse 1 837 439 1.81%
Archaea 38 310 0.04%
Swamme 3 889 143 3.84%
Protosoë 3 880 518 3.83%
WGS -projekvolgorde 14 220 046 14.02%
Totale hoeveelheid reekse 101 391 799 100.00%
Bron . Aantal rye. Databasis breuk .
Bakterieë 7 658 345 7.55%
Omgewingsmonsters 7 276 975 7.18%
Ongewerweldes 27 651 271 27.27%
Gepatenteerde reekse 31 140 928 30.71%
Plante 3 798 824 3.75%
Virusse 1 837 439 1.81%
Archaea 38 310 0.04%
Swamme 3 889 143 3.84%
Protosoë 3 880 518 3.83%
WGS -projekvolgorde 14 220 046 14.02%
Totale hoeveelheid rye 101 391 799 100.00%

Die aantal reekse en hul deel van die hele datapoel word gelys.

Bron . Aantal rye. Databasis breuk.
Bakterieë 7 658 345 7.55%
Omgewingsmonsters 7 276 975 7.18%
Ongewerweldes 27 651 271 27.27%
Gepatenteerde rye 31 140 928 30.71%
Plante 3 798 824 3.75%
Virusse 1 837 439 1.81%
Archaea 38 310 0.04%
Swamme 3 889 143 3.84%
Protosoë 3 880 518 3.83%
WGS -projekvolgorde 14 220 046 14.02%
Totale hoeveelheid rye 101 391 799 100.00%
Bron . Aantal rye. Databasis breuk .
Bakterieë 7 658 345 7.55%
Omgewingsmonsters 7 276 975 7.18%
Ongewerweldes 27 651 271 27.27%
Gepatenteerde rye 31 140 928 30.71%
Plante 3 798 824 3.75%
Virusse 1 837 439 1.81%
Archaea 38 310 0.04%
Swamme 3 889 143 3.84%
Protosoë 3 880 518 3.83%
WGS -projekvolgorde 14 220 046 14.02%
Totale hoeveelheid rye 101 391 799 100.00%

Die aantal reekse en hul deel van die hele datapoel word gelys.

Seleksie van primer en sonde

Die keuse van primers en probes begin met die skepping van k-mers, wat wissel van die minimum deur die gebruiker gedefinieerde primer en sonde tot die maksimum, met 'n stapgrootte van 1. Daarna word die Tm word vir elkeen bereken k-mer (16, 19). Kandidate waar die Tm binne die gedefinieerde reeks is, word dit dan nagegaan vir die vorming van 'n haarnaald. Die haarnaaldkontrole word geïmplementeer met Primer3 se nukleotied -termodinamiese belyningsinstrument ntthal (12). Hierdie sagteware gebruik die tabelle met termodinamiese parameters wat deur SantaLucia voorgestel word om die sekondêre struktuur te bereken Tm en ΔG waarde van die stabielste dupleks (16). Oligonukleotiede word aanvaar as hul sekondêre struktuur Tm en ΔG waarde is onder die gebruiker-gedefinieerde drempels.

Toets spesifisiteitsondersoek

Die proefspesifisiteitstoets is een van die sleutelkenmerke van oli2go. Hierdie stap ontleed elke moontlike sondekandidaat met BLAST teen die deur die gebruiker gedefinieerde databasisse (tabel 1). Die gevolglike belyningstreffers word vergelyk met die doelwitvolgtreffers wat gegenereer is in die werkstroomstap vir lêervoorbereiding. Slegs probes wat aan dieselfde rye as hul doelreeks bind, sal aanvaar word.

Primerdefinisie en spesifisiteitskontrole

Die spesifieke sondes wat uit die voorafgaande spesifisiteitsondersoek voortspruit, word gebruik om moontlike vorentoe en agtertoe primer kandidate te vind wat die hibridisasie -oligonukleotied flank. Die opsporingsvermoë van die sonde is afhanklik van die spesifisiteit van die gepaardgaande primers en die voorafgaande DNA -amplifikasiereaksie. Oli2go sal kwalifiserende primer-pare (elk met een vorentoe- en reverse primer) uitvoer wat 'n produk binne die gedefinieerde groottereeks genereer, geen sekondêre strukture met mekaar vorm nie, en minimum verskil in Δ toonG waardes. Die primer -spesifisiteitstoets word uitgevoer om die risiko van primerbinding aan menslike agtergrond -DNA tot 'n minimum te beperk. Primer-kandidate word met die Burrows-Wheeler Aligner (BWA) in lyn gebring met die menslike verwysingsgenoom wat van die NCBI FTP-bediener (20) afgelaai is.

Primer dimer tjek

Die kruis dimeer of primer dimeer kontrole is 'n belangrike ontwerp stap om die primer prestasie in multiplex reaksies te optimaliseer. Oli2go gebruik Primer3 se ntthal en die gebruiker-gedefinieerde ΔG en Tm waardes om na te gaan vir kruisdimerisasie. Spesifieke voor- en agtertoe -primerpare wat voortspruit uit die voorafgaande ontwerptaak, vorm die inset vir hierdie laaste werkstroomstap. Dit begin met die invoervolgorde wat die minste spesifieke primers het. Hierdie primers word gekontroleer teenoor alle ander moontlike primers van die ander invoerreekse. Die eerste resultate behels primerpare wat nie die dwars -dimeriseringsdrempels oorskry nie. If the results contain at least one primer pair for each sequence, each one is checked against the other primers in the results. Finally, for each input sequence one primer pair forming no cross dimerization with all other sequences is returned.

Uitset

The output is presented on a separate web-page and includes a table showing the resulting primers and probes, their Tm’s, product sizes, hairpin Tm’s, and ΔG waardes. The table also contains web links to NCBI’s online BLAST and Primer-BLAST to perform additional analysis. This table can also be downloaded as comma-separated values (CSV) file. Furthermore, primer and probe sequences as well as the initial input sequences are available in FASTA format. The used design parameters can be downloaded as text file.

Implementering

The software workflow runs on a Linux server (64 CPUs, 256GB RAM). The main software packages used for the implementation are BLAST 2.7.0+, ntthal (which is part of Primer3 2.3.7), BWA, and Python 2.7 together with the Biopython library ( 21). In order to maximize the utilization of the server resources, most of the workflow steps are running in parallel using multithreading. The highly responsive user interface is implemented using Bootstrap 3.3.7 and enables the user to use oli2go on almost any device capable of entering the internet via browser ranging from Laptops, Tablets to Smartphones. Oli2go is freely accessible to all users at http://oli2go.ait.ac.at/.


A new feature was added to Primer-BLAST.

Tue, 29 Sep 2020 12:00:00 EST

We have added a new function to Primer-BLAST that helps users design primers common for a group of highly similar sequences.

Many users want to test if a gene is expressed but they don’t know or they don't care which transcripts are expressed. However, they do want primers to cover all transcript variants. Additionally, some users would like to have primers to cover a group of highly related bacteria strains.

Given a group of highly similar sequences, Primer-BLAST attempts to generate primers that are common for all sequences in this group. To find such primers, it uses BLAST to align the longest sequence among the group to the rest to find common regions which are then used to limit the locations of primers. The longest sequence is also used as the representative template sequence.

See the NCBI Insights post for an example search and more details.


Family-Specific Degenerate Primer Design: A Tool to Design Consensus Degenerated Oligonucleotides

Designing degenerate PCR primers for templates of unknown nucleotide sequence may be a very difficult task. In this paper, we present a new method to design degenerate primers, implemented in family-specific degenerate primer design (FAS-DPD) computer software, for which the starting point is a multiple alignment of related amino acids or nucleotide sequences. To assess their efficiency, four different genome collections were used, covering a wide range of genomic lengths: Arenavirus (

nucleotides), Baculovirus (

bp), Lactobacillus sp. (

bp), and Pseudomonas sp. ( to

bp). In each case, FAS-DPD designed primers were tested computationally to measure specificity. Designed primers for Arenavirus en Baculovirus were tested experimentally. The method presented here is useful for designing degenerate primers on collections of related protein sequences, allowing detection of new family members.

1. Inleiding

The polymerase chain reaction (PCR), one of the most important analytical tools of molecular biology, allows a highly sensitive detection and specific genotyping of environmental samples, specially important in the metagenomic era [1]. A large list of genome typing applications includes arbitrarily primed PCR [2] (AP-PCR), random amplified primed DNAs [3] (RAPDs), PCR restriction fragment length polymorphism [4] (PCR-RFLP), and direct amplification of length polymorphism [5] (DALP). All of these techniques require a high quality and purity of the specific target template, because any available DNA could be substrate for the amplification step. In view of this, genotyping procedures of large genomes or complex samples are more reliable if they are based on DNA amplification using specific oligonucleotides. Therefore, primer design is crucial for efficient and successful amplification.

Several primer design programs are available (e.g., OLIGO [6], OSP [7, 8], Primer Master [9], PRIDE [10], Primer3 [11], among others). Regardless of each computational working strategy, all of these use a set of common criteria (e.g.,

content, melting temperature, etc.) to evaluate the quality of primer candidates in a specific target region selected by the user. Alternative programs are aimed at more specific purposes, such as selection of primers that bind to conserved genomic regions based on multiple sequence alignments [12, 13], primer design for selective amplification of protein-coding regions [14], oligonucleotide design for site-directed mutagenesis [15], and primer design for hybridization [16]. Usually, the design of truly specific primers requires the information of the complete nucleotide sequence. This is the starting point for most of the programs described in the literature. However, the need of designing specific primers is not always accompanied by the complete knowledge of the target genome sequence.

A primer, or more generally any DNA sequence, is called specific if it represents a unique sequence and is called degenerate if it represents a collection of unique sequences. For example, the amino acid sequence “YHP” could be coded by “TATCATCCC,” “TACCATCCA,” or “TACCACCCG,” among others all of these are unique sequences that can be summarized in a “degenerate” nucleotide sequence “TAYCARCCN,” using IUPAC code. Operatively, the use of a degenerate primer implies the use of a population of specific primers that cover all the possible combinations of nucleotide sequences coding for a given protein sequence. Also, primers including modified bases can be used. Some modified bases can match different bases.

Although the increase in degeneracy rises the chance of unspecific annealing of the designed primers, it also increases the probability of finding unknown divergent variants of a sequence family. This dual behavior must be taken into account during the design. Algorithmic search of primers that include degenerated positions is usually defined as the degenerate primer design (DPD) problem. In recent years, several methods were developed to solve DPD problem. Each one has a specific scope or is designed to solve a variant of the problem, but all of them aim to minimize the number of degenerations of the resulting primers.

The DPD problem was expressed in different ways by many researchers. Linhart and Shamir [17] presented the maximum coverage DPD problem (MC-DPD), with the goal of finding a primer that covers the maximum number of input sequences. The selection of primers is constrained by limiting the maximum degeneracy. They also stated the minimum degeneracy DPD problem (MD-DPD), in which the objective is finding a primer with the minimum degeneracy that covers all the input sequences. To solve MC-DPD they have developed the HYDEN program [18]. Wei et al. [19] developed the DePiCt program that uses hierarchical clustering of protein blocks to design the primers. Rose et al. [20] developed a method for hybrid degenerate-nondegenerate primers, where the 3′ region is degenerated and its 5′ region is a consensus clamp. It was implemented in CODEHOP [21] and iCODEHOP [22] programs and was used to search new members of protein families and for identification and characterization of viral genomes. Balla and Rajasekaran [23] described a method for a variant of MD-DPD that tolerates mismatch errors, implemented in the minDPS program. The programs PT-MIPS and PAMPS address mainly the problem of multiple degenerate primer design. The aim of these programs is finding the minimum number of degenerate primers that cover all the input sequences, taking into account that none of them may be more degenerated than an input value.

In this study a new method for solving the DPD problem is proposed, in which the focus is shifted away from the global minimum degenerated primer in favor of maximizing a score value which contains degeneracy but weighted by its proximity to the 3′ end of the primer. This minimizes the degeneracy at that end while allowing more freedom in the remaining positions. Hereby, the best scoring primers may not be the less degenerated, but take into account a biological restraint that is not so heavily considered in other methods. The 3′ end is the essential anchoring site because it is where the polymerase initiates its activity. From a strategic point of view, a decision must be made whether or not to allow degeneracy at this end. The presence of degeneracy at the 3′ end probably assures a greater diversity of sequences to be detected. However, at the same time, it diminishes the proportion of primer specific for a given sequence. Therefore, we decided to be very strict in the search of conserved regions and minimize the amount of degeneracy incorporated at this end. If the input set of sequences is sufficiently large, it is highly probable that a region identified as conserved among all known sequences will likewise be conserved in any new member of the family.

2. Scoring and Primer Search Strategy

The method presented here can be used starting with DNA or protein sequence alignments (Figure 1(a)). If the input was DNA, sequences were aligned to obtain one global degenerate DNA consensus. If the input was a protein alignment, each protein of the alignment is backtranslated into a degenerate DNA sequence. All the degenerate DNA sequences were combined in one global degenerate DNA consensus. This consensus sequence covers all the putative input sequences that could be the origin of each protein sequence (Figure 1(b)). Also, the consensus sequence may code for amino acids that were not detected in the known sequences. This is inevitable given the kind of degeneracy of the genetic code.


(a)
(b)

Verwysings

Richardson AO, Palmer JD: Horizontal gene transfer in plants. J Exp Bot. 2007, 58 (1): 1-9.

Acuna R, Padilla BE, Florez-Ramos CP, Rubio JD, Herrera JC, Benavides P, Lee SJ, Yeats TH, Egan AN, Doyle JJ: Adaptive horizontal transfer of a bacterial gene to an invasive insect pest of coffee. Proc Natl Acad Sci VSA. 2012, 109 (11): 4197-4202.

Davies J, Davies D: Origins and evolution of antibiotic resistance. Microbiol Mol Biol Rev. 2010, 74 (3): 417-433. 10.1128/MMBR.00016-10.

Ochman H, Lawrence JG, Groisman EA: Lateral gene transfer and the nature of bacterial innovation. Natuur. 2000, 405 (6784): 299-304. 10.1038/35012500.

Dobrindt U, Hochhut B, Hentschel U, Hacker J: Genomic islands in pathogenic and environmental microorganisms. Nat Rev Microbiol. 2004, 2 (5): 414-424. 10.1038/nrmicro884.

Keeling PJ, Palmer JD: Horizontal gene transfer in eukaryotic evolution. Nat Ds Genet. 2008, 9 (8): 605-618. 10.1038/nrg2386.

Feschotte C, Pritham EJ: DNA transposons and the evolution of eukaryotic genomes. Annu ds Genet. 2007, 41: 331-368. 10.1146/annurev.genet.40.110405.090448.

Schaack S, Gilbert C, Feschotte C: Promiscuous DNA: horizontal transfer of transposable elements and why it matters for eukaryotic evolution. Tendense Ecol Evol. 2010, 25 (9): 537-546. 10.1016/j.tree.2010.06.001.

Cho Y, Qiu YL, Kuhlman P, Palmer JD: Explosive invasion of plant mitochondria by a group I intron. Proc Natl Acad Sci VSA. 1998, 95 (24): 14244-14249. 10.1073/pnas.95.24.14244.

Bergthorsson U, Adams KL, Thomason B, Palmer JD: Widespread horizontal transfer of mitochondrial genes in flowering plants. Natuur. 2003, 424 (6945): 197-201. 10.1038/nature01743.

Won H, Renner SS: Horizontal gene transfer from flowering plants to Gnetum. Proc Natl Acad Sci VSA. 2003, 100 (19): 10824-10829. 10.1073/pnas.1833775100.

Bergthorsson U, Richardson AO, Young GJ, Goertzen LR, Palmer JD: Massive horizontal transfer of mitochondrial genes from diverse land plant donors to the basal angiosperm Amborella. Proc Natl Acad Sci VSA. 2004, 101 (51): 17747-17752. 10.1073/pnas.0408336102.

Davis CC, Wurdack KJ: Host-to-parasite gene transfer in flowering plants: phylogenetic evidence from Malpighiales. Wetenskap. 2004, 305 (5684): 676-678. 10.1126/science.1100671.

Mower JP, Stefanovic S, Young GJ, Palmer JD: Plant genetics: gene transfer from parasitic to host plants. Natuur. 2004, 432 (7014): 165-166.

Davis CC, Anderson WR, Wurdack KJ: Gene transfer from a parasitic flowering plant to a fern. Proc Biol Sci. 2005, 272 (1578): 2237-2242. 10.1098/rspb.2005.3226.

Diao X, Freeling M, Lisch D: Horizontal transfer of a plant transposon. PLoS Biol. 2006, 4 (1): e5-10.1371/journal.pbio.0040005.

Barkman TJ, McNeal JR, Lim SH, Coat G, Croom HB, Young ND, Depamphilis CW: Mitochondrial DNA suggests at least 11 origins of parasitism in angiosperms and reveals genomic chimerism in parasitic plants. BMC Evol Biol. 2007, 7: 248-10.1186/1471-2148-7-248.

Goremykin VV, Salamini F, Velasco R, Viola R: Mitochondrial DNA of Vitis vinifera and the issue of rampant horizontal gene transfer. Mol Biol Evol. 2009, 26 (1): 99-110.

Yoshida S, Maruyama S, Nozaki H, Shirasu K: Horizontal gene transfer by the parasitic plant Striga hermonthica. Wetenskap. 2010, 328 (5982): 1128-10.1126/science.1187145.

Sanchez-Puerta MV, Cho Y, Mower JP, Alverson AJ, Palmer JD: Frequent, phylogenetically local horizontal transfer of the cox1 group I Intron in flowering plant mitochondria. Mol Biol Evol. 2008, 25 (8): 1762-1777. 10.1093/molbev/msn129.

Christin PA, Edwards EJ, Besnard G, Boxall SF, Gregory R, Kellogg EA, Hartwell J, Osborne CP: Adaptive evolution of C(4) photosynthesis through recurrent lateral gene transfer. Curr Biol. 2012, 22 (5): 445-449. 10.1016/j.cub.2012.01.054.

Vallenback P, Jaarola M, Ghatnekar L, Bengtsson BO: Origin and timing of the horizontal transfer of a PgiC gene from Poa to Festuca ovina. Mol Phylogenet Evol. 2008, 46 (3): 890-896. 10.1016/j.ympev.2007.11.031.

Hepburn NJ, Schmidt DW, Mower JP: Loss of Two Introns from the Magnolia tripetala Mitochondrial cox2 Gene Implicates Horizontal Gene Transfer and Gene Conversion as a Novel Mechanism of Intron Loss. Mol Biol Evol. 2012, 29 (10): 3111-3120. 10.1093/molbev/mss130.

Park JM, Manen JF, Schneeweiss GM: Horizontal gene transfer of a plastid gene in the non-photosynthetic flowering plants Orobanche and Phelipanche (Orobanchaceae). Mol Phylogenet Evol. 2007, 43 (3): 974-985. 10.1016/j.ympev.2006.10.011.

Xi Z, Bradley RK, Wurdack KJ, Wong KM, Sugumaran M, Bomblies K, Rest JS, Davis CC: Horizontal transfer of expressed genes in a parasitic flowering plant. BMC Genomics. 2012, 13 (1): 227-10.1186/1471-2164-13-227.

Birschwilks M, Haupt S, Hofius D, Neumann S: Transfer of phloem-mobile substances from the host plants to the holoparasite Cuscuta sp. J Exp Bot. 2006, 57 (4): 911-921. 10.1093/jxb/erj076.

Tomilov AA, Tomilova NB, Wroblewski T, Michelmore R, Yoder JI: Trans-specific gene silencing between host and parasitic plants. Plant J. 2008, 56 (3): 389-397. 10.1111/j.1365-313X.2008.03613.x.

Westwood JH, Roney JK, Khatibi PA, Stromberg VK: RNA translocation between parasitic plants and their hosts. Pest Manag Sci. 2009, 65 (5): 533-539. 10.1002/ps.1727.

Louis S, Delobel B, Gressent F, Rahioui I, Quillien L, Vallier A, Rahbe Y: Molecular and biological screening for insect-toxic seed albumins from four legume species. Plant Sci. 2004, 167 (4): 705-714. 10.1016/j.plantsci.2004.04.018.

Louis S, Delobel B, Gressent F, Duport G, Diol O, Rahioui I, Charles H, Rahbe Y: Broad screening of the legume family for variability in seed insecticidal activities and for the occurrence of the A1b-like knottin peptide entomotoxins. Phytochemistry. 2007, 68 (4): 521-535. 10.1016/j.phytochem.2006.11.032.

Gelly JC, Gracy J, Kaas Q, Le-Nguyen D, Heitz A, Chiche L: The KNOTTIN website and database: a new information system dedicated to the knottin scaffold. Nukleïensure Res. 2004, 32 (Database issue): D156-D159.

Clark RJ, Jensen J, Nevin ST, Callaghan BP, Adams DJ, Craik DJ: The engineering of an orally active conotoxin for the treatment of neuropathic pain. Angew Chem Int Ed Engl. 2010, 49 (37): 6545-6548. 10.1002/anie.201000620.

Wang X, Connor M, Smith R, Maciejewski MW, Howden ME, Nicholson GM, Christie MJ, King GF: Discovery and characterization of a family of insecticidal neurotoxins with a rare vicinal disulfide bridge. Nat Struct Biol. 2000, 7 (6): 505-513. 10.1038/75921.

Jackson PJ, McNulty JC, Yang YK, Thompson DA, Chai B, Gantz I, Barsh GS, Millhauser GL: Design, pharmacology, and NMR structure of a minimized cystine knot with agouti-related protein activity. Biochemie. 2002, 41 (24): 7565-7572. 10.1021/bi012000x.

Clark RJ, Daly NL, Craik DJ: Structural plasticity of the cyclic-cystine-knot framework: implications for biological activity and drug design. Biochem J. 2006, 394 (Pt 1): 85-93.

Combelles C, Gracy J, Heitz A, Craik DJ, Chiche L: Structure and folding of disulfide-rich miniproteins: insights from molecular dynamics simulations and MM-PBSA free energy calculations. Proteïene. 2008, 73 (1): 87-103. 10.1002/prot.22054.

Silverman AP, Levin AM, Lahti JL, Cochran JR: Engineered cystine-knot peptides that bind alpha(v)beta(3) integrin with antibody-like affinities. J Mol Biol. 2009, 385 (4): 1064-1075. 10.1016/j.jmb.2008.11.004.

Lewis GP: Legumes of the World. 2005, Kew: Royal Botanic Gardens

Joel DM: The new nomenclature of Orobanche and Phelipanche. Weed Res. 2009, 49: 6-7.

Schneeweiss GM: Correlated evolution of life history and host range in the nonphotosynthetic parasitic flowering plants Orobanche and Phelipanche (Orobanchaceae). J Evol Biol. 2007, 20 (2): 471-478. 10.1111/j.1420-9101.2006.01273.x.

Soltis DE, Smith SA, Cellinese N, Wurdack KJ, Tank DC, Brockington SF, Refulio-Rodriguez NF, Walker JB, Moore MJ, Carlsward BS: Angiosperm phylogeny: 17 genes, 640 taxa. Am J Bot. 2011, 98 (4): 704-730. 10.3732/ajb.1000404.

Parker C: Observations on the current status of Orobanche and Striga problems worldwide. Pest Manag Sci. 2009, 65 (5): 453-459. 10.1002/ps.1713.

Altschul SF, Madden TL, Schaffer AA, Zhang J, Zhang Z, Miller W, Lipman DJ: Gapped BLAST en PSI-BLAST: 'n nuwe generasie proteïendatabasissoekprogramme. Nukleïensure Res. 1997, 25 (17): 3389-3402. 10.1093/nar/25.17.3389.

Westwood JH, Yoder JI, Timko MP, dePamphilis CW: The evolution of parasitism in plants. Tendense Plant Sci. 2010, 15 (4): 227-235. 10.1016/j.tplants.2010.01.004.

Goodstein DM, Shu S, Howson R, Neupane R, Hayes RD, Fazo J, Mitros T, Dirks W, Hellsten U, Putnam N: Phytozome: a comparative platform for green plant genomics. Nukleïensure Res. 2012, 40 (Database issue): D1178-D1186.

Wojciechowski MF, Lavin M, Sanderson MJ: A phylogeny of legumes (Leguminosae) based on analysis of the plastid matK gene resolves many well-supported subclades within the family. Am J Bot. 2004, 91 (11): 1846-1862. 10.3732/ajb.91.11.1846.

Lavin M, Herendeen PS, Wojciechowski MF: Evolutionary rates analysis of Leguminosae implicates a rapid diversification of lineages during the tertiary. Syst Biol. 2005, 54 (4): 575-594. 10.1080/10635150590947131.

Gracy J, Le-Nguyen D, Gelly JC, Kaas Q, Heitz A, Chiche L: KNOTTIN: the knottin or inhibitor cystine knot scaffold in 2007. Nucleic Acids Res. 2008, 36 (Database issue): D314-D319.

Westwood JH: The Parasitic Plant Genome Project: New Tools for Understanding the Biology of Orobanche and Striga. Onkruid Sci. 2012, 60 (2): 295-306. 10.1614/WS-D-11-00113.1.

Schneeweiss GM, Colwell A, Park JM, Jang CG, Stuessy TF: Phylogeny of holoparasitic Orobanche (Orobanchaceae) inferred from nuclear ITS sequences. Mol Phylogenet Evol. 2004, 30 (2): 465-478. 10.1016/S1055-7903(03)00210-0.

Schneeweiss GM, Palomeque T, Colwell AE, Weiss-Schneeweiss H: Chromosome numbers and karyotype evolution in holoparasitic Orobanche (Orobanchaceae) and related genera. Am J Bot. 2004, 91 (3): 439-448. 10.3732/ajb.91.3.439.

Manen JF, Habashi C, Jeanmonod D, Park JM, Schneeweiss GM: Phylogeny and intraspecific variability of holoparasitic Orobanche (Orobanchaceae) inferred from plastid rbcL sequences. Mol Phylogenet Evol. 2004, 33 (2): 482-500. 10.1016/j.ympev.2004.06.010.

Nickrent D: The Parasitic Plant Connection. http://www.parasiticplants.siu.edu/,

Johnson F: Transmission of plant viruses by dodder. Phytopathology. 1941, 31 (7): 649-656.

Bennett CW: Studies of dodder transmission of plant viruses. Phytopathology. 1944, 34 (10): 905-932.

Roney JK, Khatibi PA, Westwood JH: Cross-species translocation of mRNA from host plants into the parasitic plant dodder. Plant Fisiol. 2007, 143 (2): 1037-1043.

David-Schwartz R, Runo S, Townsley B, Machuka J, Sinha N: Long-distance transport of mRNA via parenchyma cells and phloem across the host-parasite junction in Cuscuta. Nuwe Phytol. 2008, 179 (4): 1133-1141. 10.1111/j.1469-8137.2008.02540.x.

Olmstead RG, dePamphilis CW, Wolfe AD, Young ND, Elisons WJ, Reeves PA: Disintegration of the Scrophulariaceae. Am J Bot. 2001, 88 (2): 348-361. 10.2307/2657024.

Edgar RC: MUSCLE: a multiple sequence alignment method with reduced time and space complexity. BMC Bioinformatika. 2004, 5: 113-10.1186/1471-2105-5-113.

Stamatakis A: RAxML-VI-HPC: maximum likelihood-based phylogenetic analyses with thousands of taxa and mixed models. Bioinformatika. 2006, 22 (21): 2688-2690. 10.1093/bioinformatics/btl446.

Drummond AJ, Rambaut A: BEAST: Bayesian evolutionary analysis by sampling trees. BMC Evol Biol. 2007, 7: 214-10.1186/1471-2148-7-214.

Sanderson MJ: r8s: inferring absolute rates of molecular evolution and divergence times in the absence of a molecular clock. Bioinformatika. 2003, 19 (2): 301-302. 10.1093/bioinformatics/19.2.301.

Gracy J, Chiche L: Optimizing structural modeling for a specific protein scaffold: knottins or inhibitor cystine knots. BMC Bioinformatika. 2010, 11: 535-10.1186/1471-2105-11-535.

Pond SL, Frost SD, Muse SV: HyPhy: hypothesis testing using phylogenies. Bioinformatika. 2005, 21 (5): 676-679. 10.1093/bioinformatics/bti079.

Li H, Durbin R: Fast and accurate short read alignment with Burrows-Wheeler transform. Bioinformatika. 2009, 25 (14): 1754-1760. 10.1093/bioinformatics/btp324.

Li H, Handsaker B, Wysoker A, Fennell T, Ruan J, Homer N, Marth G, Abecasis G, Durbin R: The Sequence Alignment/Map format and SAMtools. Bioinformatika. 2009, 25 (16): 2078-2079. 10.1093/bioinformatics/btp352.

Quinlan AR, Hall IM: BEDTools: a flexible suite of utilities for comparing genomic features. Bioinformatika. 2010, 26 (6): 841-842. 10.1093/bioinformatics/btq033.


Materiaal

It is noteworthy that the design of the degenerate primer pair reported in this present study was effectively executed by the synergy of different software programs and web servers. The software programs used here include the open-sourced Highly Degenerate primer (HYDEN) design program accessible from (http://acgt.cs.tau.ac.il/hyden/hyden_license.html) [7], FastPCR v6.7 (http://primerdigital.com/Fastpcr.html) [14], Geneious Prime software version2020.1.2 (www.geneious.com/prime/). The degenerate primer pair reported in this study was designed on a hp personal computer composed of a 64-bit operating system, ×64-based processor, 2 CPUs, and a storage of 500 GB. The material used in this study were 88 catA genes from authentic bacterial strains known to possess the catabolic gene. The gene sequences were downloaded in FASTA format from NCBI database accessible from (https://ncbi.nlm.nih.gov). Files interconversion from the extension .txt to FASTA format was achieved through an open-sourced web server accessible from (http://www.hiv.lanl.gov/content/sequence/FORMAT_CONVERSION/form.html).


Bespreking

We developed and curated a reference database for 67 fish species, belonging to 54 genera that are widespread across the Neotropical realm, and used it to develop a 12S mini-barcode marker and estimate a genetic distance threshold value for Neotropical fish species delimitation. Having a reference database associated with mini-barcode primer sets specific for Neotropical species is an important asset for DNA metabarcoding, especially when analyzing eDNA samples from such megadiverse fauna 21,22 .

The taxonomic resolution of 12S full and mini barcodes libraries provided enough molecular polymorphism to differentiate all 67 morpho-species. Moreover, the 12S full-length barcode (ca. 565 bp) was sufficient to discriminate all 70 MOTUs, which was in accordance with previous molecular (COI based) identifications of the same specimens 28 . Interestingly, the mini-barcode region’s (i.e. 193 bp—NeoFish_3) taxonomic resolution performed similarly to the full-length database, providing the same number of MOTUs when applying the GMYC and genetic distances thresholds analyses (70 MOTUs). The other analyses of the mini-barcode dataset overestimated the number of MOTUs (bPTP with 76) or underestimated it (ABGD with 67 MOTUs).

When performing genetic distance threshold analysis using the full-length library, we obtained a threshold value (0.40%, Fig. 4a) similar to our mini-barcode region (0.55%, Fig. 4b). Fish species delimitation threshold values based on the 12S region are an important reference for future studies using this marker, but they may need to establish a priori reference value when interpreting genetic distance data, such as the 2% widely used for COI 53 . Although we have analyzed several genera from all major Neotropical fish taxa, it is important to note that its value will be more robust and better reflect the real divergence between species when more species are added to our reference database.

Species delimitation and taxonomic resolution analyses revealed the potential of NeoFish_3 amplicons to reliably identify species, since there was no relevant disparity between full-length and mini barcode libraries for these analyses. Similar results were obtained for the COI gene, as a comparison between full-length and mini barcodes, especially when it was used in degraded samples. This demonstrates that the latter is informative for species-level sorting of: (1) major eukaryotic groups and archival specimens 45 (2) moth and wasp museum specimens 54 , and (3) several bird species 55 . However, few congeneric species have been analyzed in this study, and thus, to overcome this putative drawback, future analyses should include a higher number of species from the same genus to provide even more robust results.

SWAN analysis showed that the target NeoFish_3 amplicon would be the best region for taxonomic differentiation of species since it recovered the best indices in all established criteria (Fig. 2). However, we did not analyze the whole 12S gene of all species to proper compare the NeoFish_3 to other previously used amplicons (MifishU and Teleo1) using characteristics such as taxonomic resolution and best primer site. The target 12S rRNA gene region used to build our reference database represents approximately 60% of the 12S full-length gene (952 bp) (Fig. 1a) and includes only a small fragment of the 12S region amplified by the MiFishU marker and also the initial region of the forward Teleo1 (Fig. 1b).

In vitro tests showed that the newly developed NeoFish_3 marker is efficient and thus, was able to amplify the target region of the 12S rRNA gene from 22 tissue DNA extracts and environmental DNA recovered from an aquarium containing one fish species (Supplementary Table S1 Fig. S1). However, further evaluation of amplification success with samples obtained from Neotropical river basins using a DNA metabarcoding approach for a whole fish community is recommended, as different types of environmental samples will vary in patterns of DNA degradation and exposure to inhibitors 33 . Although 67 fish species represent a low percentage of the Neotropical freshwater fish species, they nevertheless account for the main Neotropical orders, since we include DNA of species from Characiformes, Cyprinodontiformes, Gymnotiformes, Perciformes, Siluriformes, and Synbranchiformes.

Amplification of non-target organisms has been previously reported as a drawback of universal eDNA available primer sets that led to the use of human blocking primers to avoid cross amplification. When comparing amplification of non-target taxa to previously designed primers sets (Teleo1 and MiFishU), a better specificity of NeoFish_3 was detected with our in silico PCR analysis. For Teleo1 and MiFishU the amplification rate for Mammalia, including Homo sapiens, was over 1000 sequences (Table 2), while the NeoFish_3 had no cross amplification of these. Moreover, when using the Teleo1 and MiFishU markers to assess fish communities diversity in French Guiana 21 and Japan 31 , both papers report amplification of DNA from insects and mammals when analyzing eDNA samples. Such untargeted amplification and detection in eDNA studies may hamper the identification of rare species since it may consume most of the DNA sequences obtained 29,56 . However, before assuming that NeoFish_3 outperformed other 12S mini-barcode markers, in situ tests would be needed to check if there would indeed be lower amplification of non-targeted species.

Herein, we applied a powerful framework for the development and validation of a fish-specific primer set together with a custom reference database aimed at DNA metabarcoding analysis in the Neotropical realm. Species delimitation analyses strongly suggest that even when using a short region of the 12S mitochondrial region, we could discriminate each taxon to the species level. In addition, we were able to set an interspecific distance-based threshold for species delimitation that would be helpful throughout bioinformatics metabarcoding short reads analysis. Thus, our custom reference database and mini-barcodes markers are an important asset for an ecoregion scale DNA based biodiversity evaluation, such as eDNA metabarcoding, that can help with the complex task of conserving the megadiverse Neotropical ichthyofauna.