Inligting

Kwantifisering van gene -uitdrukking

Kwantifisering van gene -uitdrukking



We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Ek het gevind dat baie studies die mRNA -konsentrasie gebruik as 'n "instaanbediener" vir proteïenaktiwiteit omdat daar 'n verband moet wees tussen mRNA -vlakke en proteïene -uitdrukkingsvlakke. Hoe word proteïenaktiwiteit gekwantifiseer? Watter hoeveelheid word gebruik? Wat is die vlakke van proteïenuitdrukking?

Ek doen 'n statistiese data -analise met behulp van hierdie datastel. Ek sou graag wou verstaan ​​waarom hulle geïnteresseerd was in die meting van mRNA -konsentrasie na die sel -gammastraling (en in die algemeen lyk dit vir my asof bioloë in baie eksperimente daarin belangstel). Ek het op hierdie webwerf die bespreking gevind oor die korrelasie tussen mRNA -konsentrasie (dus die vlak van geenuitdrukking) en die "proteïenuitdrukkingsvlak". Daarom wou ek weet wat laasgenoemde is. Verder, in die artikel wat verband hou met my datastel is geskryf

Baie min DNA -herstelgene vertoon beduidende differensiële uitdrukking in P. furiosus na gammastraling.

En toe

die data wat ons hier aangemeld het, dui daarop DNA herstel proteïene in P. furiosus en verskeie ander archaea word konstitutief uitgedruk en dat hulle in die sel teenwoordig kan wees op 'n voldoende vlak om die integriteit van die sel se genetiese materiaal te behou.

Om saam te stel wat die wetenskaplikes tot die gevolgtrekking kom met wat MattDMo vir my geantwoord het en wat hier bespreek word, dink ek dat ek kan aflei dat 'proteïenuitdrukkingsvlak' 'n maatstaf is van die hoeveelheid proteïene wat eintlik uit die mRNA vertaal is, wat dan (in hierdie geval) sal effektief optree om DNA te herstel. Daarom dui 'proteïen -uitdrukkingsvlak', sowel as 'proteïenaktiwiteit' die proteïene aan wat uit mRNA vertaal word en wat aktief sal reageer op die herstel van DNA -skade (in hierdie geval praat ons van DNA -herstelproteïene en DNA -herstelgene).

Ek moet sê dat ek nie regtig weet wat 'DNA -herstelproteïene konstitutief uitgedruk' beteken nie, maar ek dink dat DNA -herstelproteïene reeds uit die mRNA vertaal is en daarom 'op 'n vlak' in die sel is voldoende om die integriteit van die sel se genetiese materiaal te handhaaf" (soos hulle kort daarna sê).

Dit alles is vir my sinvol as ek dink aan my eerste doel, om die rede vir die meting van mRNA -konsentrasie te verstaan. Ons is geïnteresseerd daarin omdat daar 'n verband moet wees tussen mRNA -konsentrasie (gene -uitdrukkingsvlak) en die proteïene wat eintlik uit mRNA vertaal is uit die spesifieke geen, om te weet watter soort proteïene effektief sal optree in die DNA -herstelprosesse (in hierdie geval ).

Ek wonder of al hierdie interpretasie korrek is...


Wat is proteïenuitdrukkingsvlak?

Dit was die oorspronklike titel van die berig, wat ek self geredigeer het omdat ek die antwoord as onbenullig beskou, maar die vraag as meer substansieel. Om eers die onbenullige te hanteer:

'Vlak' is nie 'n wetenskaplike eenheid nie, en kan slegs ondubbelsinnig gebruik word as 'n wetenskaplike term in sy Engelse sin met betrekking tot vloeistowwe, bv. "Die vlak van kwik in die termometer het gedaal.", "Die land is 10 meter bo seespieël."

Dit word deur sommige mense in informele spraak of skrif gebruik om 'n ongedefinieerde kwantifisering aan te dui, en weens die baie dubbelsinnigheid daarvan moet dit ten sterkste ontmoedig word in wetenskaplike kommunikasie.

So nie ek of enigiemand anders kan sê wat 'proteïen-uitdrukkingsvlak' is sonder om uit te vind wat die oorsprong van die frase bedoel het (as hy dit wel geweet het) in enige individuele geval nie: hoeveelheid of konsentrasie van proteïen, of die tempo van die sintese daarvan.

Kwantitasie

Kom ons oorweeg 'n paar algemene aspekte van 'n sellulêre molekule wat kwantifisering vereis: Hoeveelheid, Tempo van Sintese, Tempo van Degradasie en, waar relevant, Biologiese Aktiwiteit.

Die kwantifisering van molekules op sy mees basiese is die aantal spesies, of, meer prakties, hul totale massa (gram), waar moontlik verwant aan hul molekulêre massa (d.i. mol). Die tempo van hul sintese of agteruitgang word uitgedruk in terme van die verandering van hul hoeveelheid in eenheidstyd.

Om verskillende stelsels te vergelyk 'n verwysing is nodig vir die kwantifisering. Dit kan per volume -eenheid, per sel, per g sellulêre proteïen, per g DNA ens wees (maar vir vergelyking van soortgelyke stelsels of binne een stelsel word die verwysing dikwels weggelaat.)

Die biologiese aktiwiteit van molekules het slegs betekenis as die molekules inderdaad biologies aktief is (bv. ensieme). Dit word uitgedruk in eenhede wat met daardie aktiwiteit verband hou.

Voorbeelde van kwantifisering vir proteïene

Die werklike eenhede wat in kwantifisering gebruik word, word bepaal deur hoe 'n mens die parameter van belang kan meet.

Relatiewe hoeveelheid van proteïen: U kan 'n proteïen opspoor deur die intensiteit van die vlek van 'n band op 'n gel, of deur die mate van neerslag met behulp van 'n ooreenstemmende teenliggaam. Dit sal teen standaarde gekalibreer moet word om rou eksperimentele metings na g- of molproteïen om te skakel. Tipiese eenhede van relatiewe hoeveelheid is g/g totale proteïen, g/g DNA.

Koers van sintese of afbraak van proteïen. U kan die sintese van proteïene opspoor deur die tempo van opname van radioaktiewe aminosure in nie-radioaktiewe proteïene en die tempo van afbraak deur die vrystelling van radioaktiewe aminosure uit voorafgemerkte proteïene. Tipiese sintese -eenhede is mg aminosuur wat per minuut per mg totale proteïen opgeneem is. (Dit kan, indien nodig, omgeskakel word na molekules wat per minuut gesintetiseer of afgebreek word.)

'Proteïenaktiwiteit': Die gebruik van hierdie term is nie aanbeveel. In chemiese terme is die aktiwiteit van 'n molekule 'n maatstaf van sy "effektiewe konsentrasie", en met betrekking tot proteïene sal dit slegs die bekommernis van biofisici en dies meer wees. Ander bioloë sou die term assosieer met die biologiese aktiwiteit wat 'n proteïen soos 'n ensiem kan hê, maar aangesien baie proteïene struktureel is, kan die term 'aktiwiteit' nie algemeen op proteïene toegepas word nie. Waar dit van belang is, sal dit gekwantifiseer word in terme van die aard van die aktiwiteit, bv. 'n ensiem word gekwantifiseer in eenhede wat verband hou met die hoeveelheid substraat wat in 'n gegewe tyd na produk omgeskakel word.

Kwantifisering van gene -uitdrukking met behulp van Oligonucleotide Microarrays

Die twee uiterstes in die kwantifisering van geenuitdrukking is die gedetailleerde studie van die uitdrukking van een spesifieke geen kodering van 'n proteïen waarvoor inligting en gereedskap beskikbaar is; en algemene studie van die uitdrukking van baie gene met behulp van moderne metodes wat die studie van baie molekules gelyktydig moontlik maak. Sulke metodes het massaspektrometrie (vir klein metaboliete), tweedimensionele gelelektroforese (vir proteïene) en mikroskikkings of RNAseq (vir mRNA) ingesluit. Oor die algemeen sou 'n mens in laasgenoemde geval die effek van 'n middel of toestand op die hele spektrum van geenuitdrukking ondersoek.

Kom ons ondersoek mikroskikking tegnologie want dit is die grootste bekommernis van die plakkaat.

Mikroskikking-tegnologie meet die relatiewe hoeveelhede mRNA.

Die metodologie behels die versterking van 'n mengsel -mRNA -spesie deur omgekeerde transkripsie na cDNA's, wat met 'n fluorescerende kleurstof gemerk is. Die cDNA word gehibridiseer met geïmmobiliseerde oligonukleotiede gebaseer op die volgorde van die gene in die organisme, en daar word aanvaar dat die sterkte van die fluoressensie sein eweredig is aan die hoeveelheid individuele mRNA spesies in die monster. Die data wat aan die gebruiker verskaf is, is egter die relatiewe beeldintensiteit binne die eksperiment, eerder as eenhede waarmee 'n mens die werklike hoeveelheid mRNA kan bereken.

Hoe hou hierdie relatiewe hoeveelhede mRNA verband met geenuitdrukking?

  1. Die relatiewe hoeveelhede mRNA is 'n relatiewe maatstaf van die tempo van sintese van proteïene (3 in dig.), As 'n mens veronderstel dat die sintetesnelheid van elke proteïen op dieselfde manier eweredig is aan die hoeveelheid van sy mRNA (a in dig.) Wat beperkend sou wees. Dit is 'n redelike aanname in die meeste gevalle as mRNA gegee word, word dit vinniger as proteïene afgebreek. (Hulle is nie 'n maatstaf van die hoeveelheid proteïen nie - b in dig.)

  2. Die relatiewe hoeveelhede mRNA kan nie geneem word as 'n maatstaf van die tempo van transkripsie van 'n mRNA vanaf sy geen (1 in dig.) as gevolg van die relatief groter effek van mRNA-afbraak (2 in dig.) op die bestendige toestandkonsentrasie van mRNA's , en die feit dat verskillende mRNA's verskillende halfleeftye het.

Naskrif vir die Plakkaat

Ek het probeer om hierdie antwoord algemeen te maak, sodat dit vir meer mense van nut kan wees. Aangesien die plakkaat nie 'n bioloog is nie, kan sy steeds probleme ondervind om die agtergrond van die biologiese eksperimente te verstaan ​​wat die data wat sy ontleed, gegenereer het.

Die biologiese stelsel van belang is geenuitdrukking, wat die hele reeks gebeurtenisse insluit van transkripsie van gene na mRNA en die omskakeling daarvan in proteïene. Die agtergrond hiervoor is dat daar sommige gene is wat (byna) altyd uitgedruk word, ongeag fisiologiese omstandighede omdat dit nodig is om die struktuur en alledaagse funksies van die sel te handhaaf. Dit word genoem konstitutief uitdrukking, voorbeelde is uitdrukking van die gene vir sitoskeletale aktiene of ribosomale proteïene. Ander gene word slegs uitgedruk ('aangeskakel') wanneer dit nodig is (en kan genoem word induseerbaar). Die vraag hier blyk te wees of die gene vir die ensieme wat by DNA-herstel betrokke is, heeltyd (konstitutief) uitgedruk word om normale 'slytasie' van DNA te hanteer, of of hul uitdrukking slegs plaasvind in reaksie op een of ander belediging wat bekend is aan DNA beskadig, soos gamma-bestraling.

Soos ek genoem het, as 'n eksperimentele wetenskaplike, is een benadering wat hier aangeneem kan word, om te kyk na die uitdrukking van een of twee goed gekarakteriseerde proteïene waarvan bekend is dat hulle betrokke is by DNA -herstel. Daar kan egter proteïene betrokke wees by hierdie proses waarvan u nie bewus is nie, dus is die moderne metodes om na die uitdrukking van al die gene in 'n organisme te kyk (as die DNS -volgorde bekend is) - oligonukleotiedmikro -skale of, beter, RNASeq. Hierdie metodes meet relatiewe hoeveelhede mRNA in 'n sel. Dit is nie a gevolmagtigde vir die hoeveelheid proteïene of die tempo van die sintese daarvan (die term 'proteïenaktiwiteit' is betekenisloos en moet nie gebruik word nie), dit is wat dit is, maar is ook 'n refleksie van die uitdrukking van die gene wat die mRNA's kodeer. Geen uitdrukking, geen mRNA.

U kan die mikroarray- en RNASeq -benaderings as visvang -ekspedisies beskou. As u mRNA's vind wat eers teenwoordig is nadat die sel 'n stimulus of belediging ontvang het, het die mRNA -uitdrukking plaasgevind (of die hoeveelhede direk eweredig is aan die sintese). As die mRNA gesintetiseer word, kan u aanvaar dat dit vertaal word in die proteïen wat dit kodeer. In die geval van gamma-bestraling kan jy aanvaar dat enige mRNA wat 'n groot toename in hoeveelheid toon, 'n proteïen kodeer wat betrokke is by die beskerming van die sel teen die bestraling. Dit sal van wetenskaplike belang wees, veral as dit nie is wat 'n mens verwag het nie.


Transkripsiesamestelling verbeter uitdrukkingskwantifisering van transponeerbare elemente in enkelsel-RNA-volgorde-data

Transponeerbare elemente (TE's) is 'n integrale deel van die gasheertranskriptoom. TE-bevattende niekoderende RNAs (ncRNAs) toon aansienlike weefselspesifisiteit en speel belangrike rolle tydens ontwikkeling, insluitend stamselonderhoud en seldifferensiasie. Onlangse vooruitgang in enkel-sel RNA-seq (scRNA-seq) het seltipe-spesifieke geenuitdrukking-analise 'n rewolusie laat ontstaan. Daar ontbreek egter nie effektiewe scRNA-seq-kwantifiseringsinstrumente wat vir TE's aangepas is nie, wat ons vermoë beperk om TE-uitdrukkingsdinamika by enkelselresolusie te ontleed. Om hierdie probleem aan te spreek, het ons 'n TE-uitdrukking-kwantifiseringspyplyn opgestel wat versoenbaar is met scRNA-volgorde-data wat oor verskeie tegnologieplatforms gegenereer word. Ons het TE-bevattende ncRNA-verwysings saamgestel met behulp van grootmaat RNA-seq data en het getoon dat die kwantifisering van TE-uitdrukking op die transkripsievlak geraas effektief verminder. As beginselbewys het ons hierdie strategie toegepas op embrioniese stamselle van die muis en die ekspressieprofiel van endogene retrovirusse in enkele selle suksesvol vasgelê. Ons het ons analise verder uitgebrei na scRNA-seq-data uit die vroeë stadiums van muisembryogenese. Ons resultate het die dinamiese TE-uitdrukking in pre-inplantingsfases geïllustreer en 146 TE-bevattende ncRNA-transkripsies onthul met aansienlike weefselspesifisiteit tydens gastrulasie en vroeë organogenese.


Kwantifisering van geenuitdrukking - Biologie

Alle artikels wat deur MDPI gepubliseer word, word onmiddellik wêreldwyd beskikbaar gestel onder 'n ooptoeganglisensie. Geen spesiale toestemming word vereis om die hele of 'n gedeelte van die artikel wat deur MDPI gepubliseer is, te hergebruik nie, insluitend syfers en tabelle. Vir artikels wat onder 'n ooptoegang Creative Common CC BY-lisensie gepubliseer is, mag enige deel van die artikel sonder toestemming hergebruik word, mits die oorspronklike artikel duidelik aangehaal word.

Feature Papers verteenwoordig die mees gevorderde navorsing met 'n groot potensiaal vir 'n groot impak in die veld. Speelvraestelle word op individuele uitnodiging of aanbeveling deur die wetenskaplike redakteurs ingedien en ondergaan ewekniebeoordeling voor publikasie.

Die artikel kan óf 'n oorspronklike navorsingsartikel wees, 'n aansienlike nuwe navorsingsstudie wat dikwels verskeie tegnieke of benaderings behels, óf 'n omvattende oorsigstuk met bondige en presiese opdaterings oor die nuutste vordering op die gebied wat stelselmatig die opwindendste vooruitgang in wetenskaplike stelsels ondersoek. literatuur. Hierdie tipe papier bied 'n vooruitsig op toekomstige navorsingsrigtings of moontlike toepassings.

Editor's Choice-artikels is gebaseer op aanbevelings deur die wetenskaplike redakteurs van MDPI-tydskrifte van regoor die wêreld. Redakteurs kies 'n klein aantal artikels wat onlangs in die tydskrif gepubliseer is, wat volgens hulle besonder interessant sal wees vir skrywers, of belangrik is op hierdie gebied. Die doel is om 'n momentopname te verskaf van van die opwindendste werk wat in die verskillende navorsingsareas van die joernaal gepubliseer is.


Ander lêers en skakels

  • APA
  • Standaard
  • Harvard
  • Vancouver
  • Skrywer
  • BIBTEX
  • RIS

Navorsingsuitset: Bydrae tot tydskrif ›Artikel› ewekniebeoordeling

T1 - Kwantifisering van geenuitdrukking

T2 - die belangrikheid om subtiel te wees

AU - Silva, Gustavo Monteiro

N1 - Uitgewer Kopiereg: © 2016 The Authors. Gepubliseer onder die voorwaardes van die CC BY 4.0 lisensie

N2-Genuitdrukking word gereguleer op beide die mRNA- en proteïenvlak deur aan-af-skakelaars en fyn ingestelde beheer. In hul onlangse studie gebruik Edfors et al (2016) hoogs akkurate, geteikende proteomika-metodes en ondersoek in watter mate die hoeveelheid proteïen wat per mRNA-transkripsie geproduseer word oor verskillende weefsels verskil. Hulle vind dat die grootste deel van die proteïenkonsentrasies op 'n per-gene-vlak vasgestel is: hierdie verhouding, die proteïen/mRNA-verhouding, is konstant oor seltipes en weefsels, maar wissel in verskillende ordes van grootte oor gene.

AB - Geenuitdrukking word op beide die mRNA- en proteïenvlak gereguleer deur aan-af-skakelaars en fyn ingestelde beheer. In hul onlangse studie gebruik Edfors et al (2016) hoogs akkurate, doelgerigte proteomika -metodes en ondersoek hulle in watter mate die hoeveelheid proteïen wat per mRNA -transkripsie geproduseer word, oor verskillende weefsels wissel. Hulle vind dat die grootste deel van die proteïenkonsentrasies op 'n per-gene-vlak vasgestel is: hierdie verhouding, die proteïen/mRNA-verhouding, is konstant oor seltipes en weefsels, maar wissel in verskillende ordes van grootte oor gene.


Geenuitdrukking geraas kan stamseldifferensiasie veroorsaak

Tydens selontwikkeling kom noodsaaklike gene, soos transkripsiefaktore, dikwels swak tot uiting in seldifferensiasie en kan dit baie veranderlik wees. Dit word 'biologiese geraas' genoem. Daar word geglo dat gene -uitdrukking geraas 'n deurslaggewende faktor is vir selbestemming, maar dit is moeilik om verskille in die uitdrukking van hierdie gene in die data op te spoor.

Nou het Dominic Grün, 'n navorser van die Max Planck -navorsingsgroep aan die Universiteit van Freiburg (Duitsland), 'n metode ontwerp om geraas van gene -uitdrukking te meet in groepe baie soortgelyke of verwante seltoestande. Hy hoop dat dit 'n groter insig sal gee in watter mate geraas selontwikkeling reguleer.

“Tans beskikbare ontledingsmetodes is byna uitsluitlik gefokus op die kwantifisering en interpretasie van geenuitdrukkingsvlakke binne ’n individuele sel. Maar die biologiese implikasies van gene -uitdrukking geraas tydens seldifferensiasie en seldoestandoorgange is nie in diepte ondersoek nie, ”het Grün gesê.

Die nuwe berekeningsmetode, bekend as VarID, behels 'n algoritme wat die dinamika van gene-uitdrukking veranderlikheid kan kwantifiseer uit enkel-sel RNA-volgorde data. Daarom identifiseer dit plaaslik homogene buurte met differensiële variasie in gene -uitdrukking.

Met die VarID -metode is dit moontlik om die dinamika van gene -uitdrukkinggeraas te ondersoek tydens die differensiasie van stamselle in volwasse selle. Dit kan aantoon hoeveel ontwikkeling deur die gene -uitdrukking geraas beheer word en of dit selfs nodig is vir sellulêre differensiasie.

'Baie siektes, soos kanker, ontstaan ​​omdat selle nie heeltemal van die stamsel tot volwassenheid ontwikkel nie. In plaas daarvan bly hulle in 'n voorloperfase en vermeerder hulle onbeheerd, 'verduidelik Grün. “Ons wil verstaan ​​wat in die sel gebeur wanneer ontwikkeling op so 'n manier versteur word. Daarom het ons unieke algoritmes gekry vir die verwerking en ontleding van enkelselle data. ”

Grün het die VarID -metode gebruik om die aktiwiteit van noodsaaklike transkripsiefaktore tydens die ontwikkeling van rooibloedselle by muise op te spoor. Hy het gevind dat hierdie noodsaaklike transkripsiefaktore laag uitgedruk word, maar hoogs veranderlik in bloedstamselle, wat daarop dui dat hulle verantwoordelik is vir die sneller van differensiasie.

“Die VarID -metode maak die deur oop om lig te werp op die rol van gene -uitdrukking geraas tydens stamsel differensiasie. Aangesien ons nou die geraas van stamseldifferensiasie kan lees, hoop ons om te ontdek hoe hierdie proses beheer word om beter te verstaan ​​hoe geraas selbesluite reguleer, ”het Grün afgesluit.


Toekomstige vooruitsigte

Soos volgordebepalingtegnologie vorder, sal rekenaargereedskap parallel moet ontwikkel om nuwe tegniese uitdagings op te los en nuwe toepassings te ondersteun. Byvoorbeeld, aangesien die vermoë van opeenvolgende platforms om langer leeswerk te produseer 'n werklikheid word, word nuwe karteringmetodes vereis om lang leesstukke akkuraat en doeltreffend in lyn te bring. Omdat langer lesings verskeie ekson -aansluitings kan dek, sal die identifisering en kwantifisering van alternatiewe isoforme aansienlik verbeter met die ekstra inligting wat in langer lesings gekodeer word. Verder, soos laboratoriummetodes volwasse word om volgordebepaling van klein hoeveelhede RNA moontlik te maak, sal komplekse statistiese benaderings nodig wees om tussen tegniese geraas en betekenisvolle biologiese variasie te onderskei. Hierdie vordering sal die ontleding van transkriptome in seldsame seltipes en seltoestande fasiliteer, wat navorsers in staat stel om biologiese netwerke wat op sellulêre vlak aktief is, te rekonstrueer. Boonop sal hierdie vordering dit moontlik maak om transkriptome analise in die veld van kliniese diagnostiek in te voer, byvoorbeeld: vroeëre monitering van kankersifting en swangerskap kan bereik word deur die opeenvolging van kanker -RNA of fetale RNA in die moeder se bloed. Verder sal die integrasie van heelgenoomvolgordebepaling met RNA-Seq in groter monsters groter insig gee in genetiese regulatoriese variasie. Hierdie eksperimentele en bioinformatiese vooruitgang sal 'n kragtige gereedskapskis bied om die transkripsie ten volle te karakteriseer soos dit verband hou met basiese biologiese vrae, sowel as die toenemende impak daarvan op persoonlike medisyne.


Alle kodes van die Science Journal Classification (ASJC)

  • APA
  • Standaard
  • Harvard
  • Vancouver
  • Skrywer
  • BIBTEX
  • RIS

Navorsingsuitset : Bydrae tot tydskrif › Artikel › ewekniebeoordeling

T1 - Metodes vir die kwantifisering van geenuitdrukking in eko-immunologie

AU - Fassbinder-Orth, Carol A.

N1 - Befondsingsinligting: Hierdie werk is ondersteun deur die Society for Integrative and Comparative Biology (DAB, DCE, DCPB) en die National Science Foundation Research Coordination Network in Ecoimmunology [NSF ISO 094177].

N2 - Synopsis Histories is die gebruik van nuutste molekulêre tegnieke om immunologiese gene -uitdrukking en verwante sellulêre weë te bestudeer, grootliks beperk tot modelorganismes. Daar is min studies uitgevoer wat die molekulêre immunologiese reaksies van nie-model spesies kwantifiseer, veral in reaksie op omgewingsfaktore, lewensgeskiedenis of blootstelling aan parasiete. Hierdie gebrek aan inligting het grootliks plaasgevind as gevolg van die gebrek aan beskikbare nie-model spesiespesifieke geenvolgordes en immunologiese reagense en ook as gevolg van onbetaalbaar duur tegnologie. Met die vinnige ontwikkeling van verskeie volgordebepaling en transkriptomiese tegnologieë, het profilering van die geenuitdrukking van nie-model organismes egter moontlik geword. Tegnologieë en konsepte wat hier ondersoek word, bevat 'n oorsig van huidige tegnologieë vir die kwantifisering van geenuitdrukking, insluitend: qPCR, multiplex vertakte DNA-toetse, mikroskikkings en profilering van gene-uitdrukking (RNA-volgorde [RNA-Seq]) gebaseer op volgorde van volgende generasie. Voorbeelde van die vordering van hierdie tegnologieë in nie-modelstelsels word bespreek. Daarbenewens word toepassings, beperkings en haalbaarheid van die gebruik van hierdie metodologieë in nie-modelstelsels spesifiek aangespreek.

AB - Opsomming Histories is die gebruik van die nuutste molekulêre tegnieke om immunologiese geenuitdrukking en verwante sellulêre weë te bestudeer grootliks beperk tot modelorganismes. Min studies is uitgevoer wat die molekulêre immunologiese response van nie-model spesies kwantifiseer, veral in reaksie op omgewingsfaktore, lewensgeskiedenis gebeure of blootstelling aan parasiete. Hierdie gebrek aan inligting het grootliks plaasgevind as gevolg van die gebrek aan beskikbare nie-model spesie-spesifieke geenvolgordes en immunologiese reagense en ook as gevolg van buitensporig duur tegnologie. Met die vinnige ontwikkeling van verskillende opeenvolgings- en transkriptomiese tegnologieë, is die profilering van die gene -uitdrukking van nie -model -organismes egter moontlik. Tegnologieë en konsepte wat hier ondersoek word, sluit 'n oorsig in van huidige tegnologieë vir die kwantifisering van geenuitdrukking, insluitend: qPCR, multipleks vertakte DNA-toetse, mikroskikkings en profilering van geenuitdrukking (RNA-volgordebepaling [RNA-Seq]) gebaseer op volgende-generasie volgordebepaling. Voorbeelde van die vordering van hierdie tegnologieë in nie-modelstelsels word bespreek. Daarbenewens word toepassings, beperkings en haalbaarheid van die gebruik van hierdie metodologieë in nie-modelstelsels spesifiek aangespreek.


Gevormde enkelvoudige spektrumanalise vir die kwantifisering van geenuitdrukking, met toepassing op die vroeë Drosophila Embrio

Met die ontwikkeling van outomatiese mikroskopietegnologieë het die afgelope paar jaar die volume en kompleksiteit van beelddata oor geenuitdrukking geweldig toegeneem. Die enigste manier om sulke biologiese data kwantitatief en omvattend te ontleed, is deur nuwe gesofistikeerde wiskundige benaderings te ontwikkel en toe te pas. Hier bied ons uitbreidings aan van 2D enkelvoudige spektrumanalise (2D-SSA) vir toepassing op 2D- en 3D-datastelle van embriobeelde. Hierdie uitbreidings, sirkelvormig en gevormd 2D-SSA, word toegepas op geenuitdrukking in die kernlaag net onder die oppervlak van die Drosophila (vrugtevlieg) embrio. Ons kyk na die algemeen gebruikte silindriese projeksie van die ellipsoïdale Drosophila embrio. Ons demonstreer hoe sirkelvormige en gevormde weergawes van 2D-SSA help om uitdrukkingsdata te ontbind in identifiseerbare komponente (soos tendens en geraas), asook om seine van verskillende gene te skei. Opsporing en verbetering van onder- en oorkorreksie in multikanaalbeeldvorming word aangespreek, asook die ekstraksie en ontleding van 3D-kenmerke in 3D geenuitdrukkingspatrone.

1. Inleiding

Alhoewel die beskikbaarheid van genoomvolgorde biologiese en biomediese navorsing drasties verander het, is ons begrip van hoe gene vir reguleringsmeganismes kodeer, nog steeds beperk. Embrionale ontwikkeling is krities afhanklik van sulke reguleringsmeganismes sodat selle in die regte posisies en op die regte tye kan differensieer. Wêreldwye begrip van geenregulering in ontwikkeling vereis om in sellulêre resolusie in vivo te bepaal wanneer en waar elke geen uitgedruk word. Nuwe dinamiese, sellulêre resolusie-atlasse sal die vraag aanspreek oor hoe geentranskripsiefaktore uitdrukkingspatrone beïnvloed [1].

Met die ontwikkeling van outomatiese mikroskopietegnologieë in die afgelope jaar het die volume en kompleksiteit van beelddata toegeneem tot die vlak dat dit nie meer haalbaar is om inligting te onttrek sonder om rekenaars te gebruik nie. Bioloë maak toenemend staat op rekenaarwetenskaplikes om met nuwe oplossings en sagteware [2] vorendag te kom. Sulke rekeninstrumente was noodsaaklik vir die verwerking van die beelde wat gegenereer word deur 'n hoë deursettingsmikroskopie van groot getalle en variëteite biologiese monsters onder 'n verskeidenheid omstandighede. Onlangse vooruitgang in etikettering, beeldvorming en rekenaarbeeldanalise maak dit moontlik om kwantitatiewe metings makliker en in baie meer detail in 'n reeks organismes te maak (bv. Arabidopsis, Ciona, Drosophila, C. elegans, muise, Platynereis, en sebravis) [1, 3-6]. In die besonder, beelding van enkele ongeskonde klein organismes, soos Drosophila en C. elegans, is nou haalbaar met hoë resolusie in twee dimensies, drie dimensies en oor tyd, wat lei tot massiewe beelddatastelle beskikbaar vir omvattende rekenaaranalise.

Hierdie grootskaalse kwantitatiewe datastelle verskaf nuwe insigte om baie fundamentele vrae in ontwikkelingsbiologie aan te spreek. Die aanvanklike insette vir die afleiding van kwantitatiewe inligting oor geenuitdrukking en embrionale morfologie is gewoonlik rou beelddata van gekleurde fluorescerende merkers in vaste materiaal. Hierdie rou beeldstelle word dan geanaliseer deur berekeningalgoritmes wat funksies soos selligging, selvorm en konsentrasie van geenprodukte onttrek. Uiteindelik is die kragtigste manier om 3D-ruimtelike data in biologie te ontleed deur nuwe gesofistikeerde wiskundige benaderings te ontwikkel en toe te pas, wat voorsiening maak vir die streng vergelyking van veelvuldige kwantitatiewe kenmerke [8, 9].

In hierdie publikasie stel ons nuwe berekeningshulpmiddels bekend om geenpatrone te ontleed vir drie ruimtelike dimensies datastelle, waarop vroeg toegepas is Drosophila embrio's. Hierdie instrumente is 'n uitbreiding van tweedimensionele enkelvoudige spektrumanalise (2D-SSA).

Inleiding tot die metode. Singulêre spektrumanalise [10–15] is oorspronklik voorgestel as 'n metode vir ontbinding van tydreekse in 'n som van identifiseerbare komponente soos tendens (of patroon), ossillasies en geraas. Een voordeel van hierdie metode is dat dit nie 'n ruismodel nodig het om a priori gegee te word nie. Ons ontbind die datareekse in 'n stel elementêre reekse, ontleed dit, kies gepaste komponente en som uiteindelik die identifiseerbare komponente saam in klasse. As voorbeeld kan die keuse van gladde komponente 'n aanpasbare gladheid veroorsaak. SSA is baie handig vir verkennende analise, aangesien die metode gemoduleerde geraas kan hanteer, dit wil sê geraas wat van tendenswaardes kan afhang (byvoorbeeld 'n vermenigvuldiging).

Onlangs is SSA uitgebrei vir die ontleding van tweedimensionele voorwerpe (2D-SSA), byvoorbeeld digitale beelde [16, 17]. Ontbinding van beelde is meer ingewikkeld in vergelyking met tydreeksanalise as gevolg van veranderlikheid van 2D-patrone. Maar metodes wat maklik beheer en aanpasbaar is, soos 2D-SSA, kan breed toegepas word.

2D-SSA het baie in gemeen met die 2D-ESPRIT-metode (sien [18]), wat gebaseer is op die parametriese vorm van beelde en baie toepassings het. 2D-SSA en verwante subruimte-gebaseerde metodes word toegepas in tekstuuranalise [19], seismologie [20], ruimtelike geenuitdrukking data [21], en mediese beeldvorming [22].

Die koerant [23] het 2D-SSA toegepas op die ontleding van digitale terreine in geologie en het getoon dat 2D-SSA 'n nuttige hulpmiddel is om verskillende vlakke van besonderhede in oppervlaktedata te ontleed. Later, gebaseer op die teorie wat in [17] gegee is, is 2D-SSA toegepas op geenuitdrukkingsdata om kerngeraas van ekspressietendens [21] te skei.

Die koerante [24, 25] bevat uitbreidings van 2D-SSA wat die omvang van SSA-toepassings vergroot. In hierdie artikel demonstreer ons hoe hierdie uitbreidings toegepas kan word op die ontleding van geenuitdrukkingsdata.

Hierdie vraestel is soos volg opgestel. Afdeling 2 beskryf die datastelle wat ontleed is. Afdeling 3 beskryf die nuwe metodologie, en Afdelings 4 en 5 demonstreer die benadering op verskeie voorbeelde.

Die nuwe benaderings wat hier beskryf word, sirkelvormig en gevormd 2D-SSA, is veral van toepassing op silindriese oppervlaktes (soos gebruik vir Drosophila embrio's), om randeffekte en patrone van onreëlmatige vorm te vermy. Die gebied van data van goeie gehalte in 'n beeld (byvoorbeeld sonder oorversadiging) kan byvoorbeeld nie -reghoekig wees en selfs gapings hê. Sedert die vlakke projeksie van a Drosophila die embrio byna ellipties is, kan die vermoë om nie -reghoekige vorms te ontleed, nuttig wees.

Afdeling 4 handel oor die probleem van opsporing en verbetering van onder- en oorkorreksie in multikanaalbeeldvorming, terwyl afdeling 5 die probleem van ontleding van streepvorms vir die ewe oorgeslaan geen behandel. Afdeling 6 bevat 'n kort bespreking en gevolgtrekkings.

2. Materiaal

Data is geneem uit die Berkeley Drosophila Transcription Network Project (BDTNP) [4], wat driedimensionele (3D) metings bevat van relatiewe mRNA-konsentrasie vir 95 gene in vroeë ontwikkeling (insluitend slak (sna)) en die proteïenuitdrukkingspatrone vir vier gene (bicoid, giant, hunchback (hb) en Krüppel (Kr)) tydens kernsplytingsiklusse 13 (C13) en 14 (C14A). BDTNP Release 2 bevat individuele datastelle (PointCloud-lêers) vir 2830 embrio's (http://bdtnp.lbl.gov/Fly-Net/bioimaging.jsp). Hierdie data is geregistreer by die koördinate van 6078 kerne op die embrio -korteks en aangebied as 'n geïntegreerde datastel (VirtualEmbryo -lêer, met gereedskap vir visualisering en analise). Embrio's is gefixeer en fluoresserend gekleur om die mRNA-uitdrukkingspatrone van twee gene plus kern-DNS te merk. Een van die bevlekte gene is óf selfs oorgeslaan (vooraand) of fushi tarazu (ftz), wat gebruik is as vertrouensmerkers vir latere ruimtelike registrasie.

3. Metodes

3.1. 2D enkelvoudige spektrumanalise

Ons volg die algemene struktuur van 2D-SSA-algoritmes wat in [24, 25] beskryf word. Hierdie algemene struktuur bestaan ​​uit die inbedding, ontbinding, groepering en rekonstruksie stappe. Invoer vir 'n 2D-SSA algoritme bestaan ​​uit 'n beeld

en die vorm van 'n bewegende venster (wat die hoofalgoritmeparameter is). Die uitset van 'n 2D-SSA-algoritme is die ontbinding van in identifiseerbare komponente van die vorm

Algemene skema van SSA-agtige algoritmes

(1) Inbedstap. Konstruksie van die trajekmatriks

, waar is 'n ruimte met gestruktureerde Hankel-agtige matrikse. Die struktuur van die matriks (en die spasie) hang af van die algoritme-modifikasie en van die bewegende venster. Oor die algemeen bestaan ​​die kolomme van die trajekmatriks uit die vensters wat langs die beeld beweeg, getransformeer na vektore deur 'n vaste volgorde van vensterelemente. In 'n sekere sin weerspieël die venstergrootte die resolusie van die metode, groter vensters lei tot meer gedetailleerde ontbinding.

(2) Ontbindingstap. Enkelvoudige waarde-ontbinding (SVD) van die trajekmatriks

is sogenaamde eigentriples (afgekort as ET) en bestaan ​​uit enkelvoudige waardes, links en regs enkelvoudsvektore van. Die eievektore kan weer na die venstervorm getransformeer word. Dit beteken dat ons eievektore as beelde kan beskou en dit eiebeelde kan noem.

(3) Groeperingstap. Partisie

en groepering van opsommings in die SVD -ontbinding om 'n gegroepeerde matriksontbinding te verkry

word elementêr genoem. Die doel van hierdie stap is om die SVD-komponente te groepeer om 'n interpreteerbare ontbinding van die aanvanklike voorwerp te verkry. Dit kan uitgevoer word met behulp van die ontleding van die egentriples.

(4) Rekonstruksiestap. Ontbinding van die aanvanklike beeld , waar

is die operateur van projeksie op die ruimte (bv. hankelisering in die 1D geval) hou.

Laat ons die gevoel van die inbeddingsoperateur vir die 1D -saak verduidelik, aangesien dit eenvoudiger is en die algemene metodiek toon. Vir 'n eendimensionele reeks

, neem ons bewegende 1D vensters van lengte

en konstrueer die kolomme van die trajekmatriks in die vorms

vertraagde vektore versamel ons 'n Hankel-matriks met gelyke getalle op antidiagonale wat die trajekmatriks genoem word

Dit is welbekend dat Hankel-matrikse verwant is aan reekse wat bestaan ​​uit somme van produkte van polinome, eksponensiële en sinusgolwe en die probleem is om hierdie som in addendes te skei. As ons eksponensiële en polinoom benaderings van die res kan skei, kan ons tendense en patrone onttrek. If we are able to separate sine waves with different frequencies, then we can construct a decomposition on components with different frequency ranges.

The singular value decomposition (SVD) of the trajectory matrix constructs a sequence of elementary matrices, which provides the best approximations of the initial matrix and, in a sense, of the initial series: , , and so on. Thus, we obtain the optimal decomposition, which is adaptive to the initial series. Note that the maximal number of the decomposition elements is equal to

. SSA theory explains why we can group the elementary components in the SVD expansion to solve such problems as, for example, smooth approximation and extraction of regular oscillations.

After a proper grouping, we obtain a matrix , which is close to a Hankel matrix, but not exactly Hankel. We can find the Hankel matrix closest to

by hankelization, that is, by averaging values by antidiagonals. Thus, we obtain the series consisting of ,

, en so aan. Die mth term is determined as

The role of is as follows. Small provides a decomposition to a small number of components, which mostly differ by frequency, and where the leading components present slowly varying series like the trend. Larger leads to more detailed decomposition. This gives more chance to extract a component however, some components can mix. Therefore, if the data series has a trend with a complex form or has periodicities with complex modulation, then window lengths should be moderate.

These generalities also hold for the case of 2D-SSA. In practice, the difference between 1D and 2D is in the construction of the trajectory matrices, which are quasi-Hankel, in particular Hankel-block-Hankel. The moving window is two-dimensional, for example, a rectangle. In this paper, we introduce circular SSA, for treating rectangles with periodic boundary conditions, for example, data sets on cylindrical geometries. Small window size corresponds to smoothing. We can take into consideration the structure of the image in different directions by choosing different sizes in different directions. The trajectory matrix is constructed from vectorized windows of arbitrary shape moving within the whole image (including circular domains, for periodic boundary conditions).

3.2. Particular Cases

For a rectangular image, with a rectangular window which moves within the image boundaries, we obtain the standard 2D-SSA method. If the image and the window are of arbitrary shape, the shaped version of 2D-SSA is applied [25]. If the window can cross the boundary of the image, we obtain a circular version of 2D-SSA.

For example, let us take an image (a matrix in the mathematical sense)

. Then we have a set of 4 windows in the ordinary version,

, and two additional windows, , , in the circular case. For the circular case, the trajectory matrix will have the form

One can see that the 2D trajectory matrix consists of trajectory matrices from each matrix’s row.

3.3. Choice of Parameters, Separability, and Component Identification

Approach to the choice of window size for one-dimensional time series is thoroughly described in [13, 26]. Recommendations for 2D objects are more complicated. For extraction of so-called objects of finite rank (sums of products of polynomials, exponentials, and sinusoids), which satisfy linear recurrence relations (LRRs), windows should be large, up to half of the object size. However, real-world patterns usually have complex form and satisfy LRRs only approximately and locally. The window needs to agree with this local character. In particular, sine waves are exactly governed by an LRR. However, if a 2D-sine wave has a slowly changing location, then only its local parts satisfy an LRR. The window sizes need to be in accordance with the scale of this locality. Choice of window size is always a balance between the local and the global scales of the data.

Generally, SSA can separate smooth patterns from noise for a wide variety of patterns. For regular patterns, 2D-SSA can be applied whether the pattern varies smoothly or sharply. However, if the pattern is not regular, variation needs to be smooth in order to use 2D-SSA for signal separation. Irregular pattern with sharp variation is poorly separated by 2D-SSA. If, however, the sharp change occurs in narrow area, this can be cut out, and the remaining data analyzed by shaped SSA, which is a version of 2D-SSA with a nonrectangular shape of the image or the window.

Elementary components are grouped based on their similarity to the data components being extracted. For regular components like sine waves, the number of elementary components can be calculated from theory. Also, patterns usually have a limited frequency range (usually lacking high frequencies). In general, therefore, leading elementary components with the appropriate frequency characteristics are ascribed to pattern.

In this paper we show how 2D-SSA can be used to remove noise, to separate regular oscillations from slowly varying patterns (for correcting erroneous unmixing procedures), and to extract stripes for their further analysis. Shaped SSA allows for the analysis of complex patterns by splitting images into several parts.

Drosophila early gene expression (before the midblastula transition) produces smooth and simple patterns suitable for 2D-SSA processing. A number of web resources have such datasets (BDTNP BID [4], Fly-FISH http://fly-fish.ccbr.utoronto.ca [27], FlyEx http://urchin.spbcas.ru/flyex [28] see also [29, 30]). Shaped SSA can also be useful for a common subset of this data, in which patterns fall sharply to zero. In these cases, subregions can be excised or analyzed separately from the whole image. Die geen sna is a typical Drosophila example seen in the BDTNP BID such compact patterns are also seen in other experimental organisms, such as the nine zebrafish genes [31]. We expect 2D-SSA and shaped SSA to therefore have broad applicability to image processing in developmental biology.

The problem of unmixing expression patterns from two different genes in one image [32] requires additional conditions. Specifically, information is needed on the unmixed expression of each gene (i.e., data from one gene in the absence of the other gene). If the two genes have slowly varying patterns, they cannot readily be separated by SSA. In such cases, SSA cannot be used to detect or correct errors in mixed images. However, SSA is an effective unmixing method for cases in which one gene has an approximately regular structure, and this differs from the structure of the other gene. In this paper, we apply SSA to signal unmixing and image correction for such cases from Drosophila data.

3.4. Data Preprocessing

Initially, the data for 2D-SSA analysis should be measured on a regular grid. Data for gene expression are measured at nuclei, which are not regularly located on a 3D surface of embryo (which is roughly ellipsoidal in shape). The first step of preprocessing is a cylindrical projection of the data (centred on the major axis of the ellipsoid the major axis of the embryo is found by principal component analysis). We then interpolate the data to a regular grid on this cylinder. We analyze a central region of the cylinder, in order to avoid corruptions near the poles from the ellipsoid to cylinder transformation. After 2D-SSA decomposition, we interpolated the data back onto the nuclear centers. This interpolation is performed for smooth components residuals are calculated as the difference between the initial data and interpolated smooth components.

Interpolation involves Delaunay triangulation followed by linear interpolation of nuclear centers to the triangulation.

3.5. Implementering

The algorithms are implemented in the Rssa and BioSSA packages in R. Rssa is a general-purpose package containing effective implementation of singular spectrum analysis and its 2D extensions. 2D-SSA algorithms are time- and memory-consuming and therefore it is very important to have an effective implementation. A description of Rssa with examples can be found in [24, 33]. Die R-package BioSSA is an addition to Rssa for application to fly embryo gene expressions data and is briefly described at http://biossa.github.io/.

4. Periodic Patterns Produced by Unmixing Algorithms

Different emission spectra for fluorescent probes allows for the simultaneous staining for 3-4 gene products in embryonic tissues. Quantitative imaging projects [4, 30] use the same gene in one of these channels in all embryos, for reliable quantitative comparisons, registration, and so forth. The gene used for this marking in Drosophila embryos is commonly one of the pair-rule genes (such as eve of ftz), which have a characteristic periodic 7-stripe expression pattern.

Multichannel imaging suffers from an inherent problem of overlapping emission spectra (when the fluorescent markers are simultaneously excited (e.g., [34])), where light from more than one fluorescent dye is collected by a given acquisition channel. To computationally reduce this “crosstalk,” an automated channel unmixing method was developed and applied to the BDTNP data [32].

The problem with this approach in large scale projects with automatic data processing is that the unmixing parameters can end up being too high or too low. If the parameters are overestimated, unmixing produces an overcorrection, which is manifest as a partial subtraction of the common, reference pattern from the pattern of the second gene (the gene under study for the embryo). With periodic reference patterns (eve, ftz), this produces periodic grooves in the “unmixed” pattern. Figure 1 shows the effects of such overcorrection in one of the BDTNP embryos.


Inleiding

In the presence of genetic or environmental perturbations, differential expression of genes, orchestrated by dedicated regulatory circuits, shapes the physiological responses of the cell. Common physiological responses to perturbations, e.g. in response to stress or during oncogenic transformation, often include changes in the cell growth rate and metabolism. In turn, both growth rate and metabolic parameters of the cell can exert global influences on gene expression, as demonstrated by landmark studies in E coli (1–4) and in yeast (5–8). Thus, the gene expression program following a perturbation reflects a joint effect of the specific regulatory circuits that are induced (or repressed) by the perturbation, as well as the global influence on gene expression by an altered physiological state (Fig 1A). Further complexities arise as gene expression and cell physiology operate in mutual feedback (4, 9), which can lead to the emergence of complex behaviours (10). Currently, a quantitative framework to understand the global effects of cell physiology on gene expression is lacking. Development of such a framework would allow perturbation-specific gene regulation mechanisms to be uncoupled from global gene expression control, and allow synthetic gene circuits with complex behaviours to be designed (9, 10).

A. Gene expression profiles of a cell depends on both specific gene expression programs induced by specific perturbations, as well as the global influence on gene expression by the physiological state of the cell.

B. Experimental design to orthogonally probe the effects of growth rate and amino acid metabolism on gene expression. Cells were grown in chemostats at controlled growth rates and media composition. GR, growth rate AA, amino acid XIA, Xia et al (22,23). In AA experiments, carbon-limited conditions (blue rows), the “Gln” condition and the “Gln*” condition differ in the concentration of Gln and glucose in the chemostat feed media see Table S1 for full details.

C. Number of differentially expressed (DE FDR < 0.01) genes at mRNA and protein (prot) levels in the GR experiments, AA experiments, and XIA experiments, showing that a large number of genes are regulated by growth rate and metabolic parameter.

Seminal studies in the field (11–13) have previously examined the interaction between growth rate, metabolic parameters, and gene expression, using microarrays and relative-quantitative metabolomics, in the eukaryal model organism Saccharomyces cerevisiae. Herein we revisit these interactions using RNAseq-based absolute-quantitative transcriptomics, showing substantial changes in absolute quantities of mRNA between different growth conditions which cannot be captured with relative-quantitative data. We further provide absolute-quantitative proteomics and intracellular amino acid abundance, in a total of 22 steady-state yeast cultures in biological triplicates, as a high-quality resource to the community. The 22 steady-state conditions were designed to orthogonally probe the effects of growth rate and metabolic parameters related to amino acids on gene expression (Fig 1B). Ons het dit gevind

90% of genes are globally influenced by the cell growth rate and/or metabolic parameters. The growth rate-induced gene expression changes were coordinated at the transcript and protein levels, and were associated with the availabilities of the transcription and translation machineries. In contrast, gene expression control by metabolic parameters were not associated with the availability of transcription and translation machineries, but were likely regulated by the availabilities of amino acids and nucleotides. We found that genes related to central carbon metabolism (CCM) were distinctly regulated, reflecting unique control mechanisms to ensure robust expression of this metabolic pathway. Finally, by re-analyzing gene expression profiles of a distantly related yeast, Schizosaccharomyces pombe, and of the human Burkitt’s lymphoma cell line P493-6, we demonstrated that our findings can be broadly applied to uncouple global gene expression control from regulation by specific transcriptional and translational circuits, allowing novel biological insights in gene regulation to be uncovered.


Quantifying Gene Co-Expression Heterogeneity in Cancer Towards Efficient Network Biomarker Design

It is well known that cancer is a highly heterogeneous disease, and the predictive capability of targeted gene signature approach suffers from the inter-tumor heterogeneity. Here we propose a framework to quantify the molecular heterogeneity of tumors from gene-gene relational perspective using co-expression networks and interactome data. We believe that to understand individualized gene behavior across patients, relational status of genes needs to be considered because complex disease phenotype is often caused by failures of genetic interactions in cancer cells.

We quantified gene-gene relational heterogeneity from a benchmark data set using co-expression networks inferred from Microarray data, and showed that genes related to breast cancer metastasis can be stratified to different classes based on their relational status obtained from pair-wise comparisons of co-expression networks. Further we used the relational heterogeneity information to predict patient survival and found that relationally heterogeneous gene set is less predictive than relatively conserved cancer genes. We explored heterogeneity gene sets using interactome data and identified densely connected components that are causal to inter-tumor heterogeneity. We independently validated our approach with two patient cohorts. Our results demonstrated the efficiency of using heterogeneity information to design network markers.

Current Bioinformatics

Titel:Quantifying Gene Co-Expression Heterogeneity in Cancer Towards Efficient Network Biomarker Design

VOLUME: 10 UITGAWE: 3

Skrywer (s):Shang Gao, Abdullah Sarhan, Reda Alhajj, Jon Rokne, Doug Demetrick and Jia Zeng

Affiliasie:College of Computer Science and Technology, Jilin University, Changchun, Jilin, China.

Opsomming:It is well known that cancer is a highly heterogeneous disease, and the predictive capability of targeted gene signature approach suffers from the inter-tumor heterogeneity. Here we propose a framework to quantify the molecular heterogeneity of tumors from gene-gene relational perspective using co-expression networks and interactome data. We believe that to understand individualized gene behavior across patients, relational status of genes needs to be considered because complex disease phenotype is often caused by failures of genetic interactions in cancer cells.

We quantified gene-gene relational heterogeneity from a benchmark data set using co-expression networks inferred from Microarray data, and showed that genes related to breast cancer metastasis can be stratified to different classes based on their relational status obtained from pair-wise comparisons of co-expression networks. Further we used the relational heterogeneity information to predict patient survival and found that relationally heterogeneous gene set is less predictive than relatively conserved cancer genes. We explored heterogeneity gene sets using interactome data and identified densely connected components that are causal to inter-tumor heterogeneity. We independently validated our approach with two patient cohorts. Our results demonstrated the efficiency of using heterogeneity information to design network markers.