Inligting

15.3: Groeperingsalgoritmes - Biologie

15.3: Groeperingsalgoritmes - Biologie


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Om die geenuitdrukkingdata te ontleed, is dit algemeen om groeperingsanalise uit te voer. Alternatiewelik lewer agglomeratiewe groeperingsmetodes 'n stel geneste groepe wat georganiseer is as 'n hiërargie wat strukture verteenwoordig van breër tot fyner detailvlakke.

K-Beteken groepering

Die k-beteken algoritme groepeer n voorwerpe gebaseer op hul eienskappe in k partisies. Dit is 'n voorbeeld van partisionering, waar elke punt aan presies een groep toegewys word sodat die som van afstande vanaf elke punt na sy ooreenstemmende benoemde middelpunt tot die minimum beperk word. Die motivering onderliggend aan hierdie proses is om die mees kompakte groepe moontlik te maak, gewoonlik in terme van 'n Euclidiaanse afstandsmeter.

Die k-middel-algoritme, soos geïllustreer in figuur 15.8, word soos volg geïmplementeer:

  1. Veronderstel 'n vaste aantal trosse, k
  2. Inisialisering: Initialiseer lukraak die k beteken μk wat met die trosse verband hou en ken elke datapunt x toei na die naaste groep, waar die afstand tussen xi en μk word gegee deur dek, k = (xi - μk)2 .
  3. Iterasie: Herbereken die sentroïed van die groep, gegewe die punte wat daaraan toegeken is: ( mu_ {k} (n+1) = sum_ {x_ {i} in k} frac {x_ {i}} { links | x^{k} regs |} ) waar xk is die aantal punte met etiket k. Herken datapunte aan die k nuwe sentroïede deur die gegewe afstandmetriek. Die nuwe sentrums word effektief bereken as die gemiddelde van die punte wat aan elke groepering toegeken is.
  4. Beëindiging: Itereer tot konvergensie of totdat 'n gebruiker-gespesifiseerde aantal iterasies bereik is. Let daarop dat die iterasie by sommige plaaslike optima vasgevang kan wees.

Daar is verskeie metodes om te kies k: kyk bloot na die data om potensiële groepe te identifiseer of om waardes vir n iteratief te probeer, terwyl die kompleksiteit van die model gepenaliseer word. Ons kan altyd beter groepe maak deur k te verhoog, maar op 'n sekere punt begin ons die data oorpas.

Ons kan ook aan k-betekens dink as 'n poging om 'n kostekriterium wat verband hou met die grootte van elke groepering te minimaliseer, waar die koste toeneem namate die trosse minder kompak word. Sommige punte kan egter amper halfpad tussen twee middelpunte wees, wat nie goed pas by die binêre behoortende k-middelgroepering nie.

Fuzzy K-Beteken groepering

In vaag groepering, elke punt het 'n waarskynlikheid om aan elke groep te behoort, eerder as om net aan een groep te behoort. Fuzzy k-means probeer spesifiek om die probleem te hanteer waar punte ietwat tussen middelpunte of andersins dubbelsinnig is deur afstand te vervang met waarskynlikheid, wat natuurlik een of ander funksie van afstand kan wees, soos om waarskynlikheid relatief tot die omgekeerde van die afstand te hê. Fuzzy k-middele gebruik 'n geweegde sentroïde gebaseer op die waarskynlikhede. Inisialiserings-, iterasie- en beëindigingsprosesse is dieselfde as in k-middele. Die gevolglike groepe word die beste geanaliseer as waarskynlikheidsverdelings eerder as 'n harde toewysing van etikette. 'N Mens moet besef dat k-middele 'n spesiale geval van fuzzy k-middele is wanneer die waarskynlikheidsfunksie wat gebruik word eenvoudig 1 is as die datapunt die naaste aan 'n sentroïde is en 0 andersins.

Die fuzzy k-middel-algoritme is die volgende:

  1. Aanvaar 'n vaste aantal trosse k
  2. Inisialisering: Inisialiseer ewekansig die k beteken μk wat met die trosse geassosieer word en bereken die waarskynlikheid dat elke datapunt xi 'n lid van 'n gegewe groep k is, P(punt xi het etiket k|xi,k).
  3. Iterasie: Herbereken die sentroïed van die groep as die geweegde sentroïed gegewe die waarskynlikheid van lidmaatskap van alle datapunte xi: [ mu_ {k} (n+1) = frac { sum_ {x_ {i} in k} x_ {i} keer P links ( mu_ {k} mid x_ {i} regs)^{b}} { sum_ {x_ {i} in k} P links ( mu_ {k} mid x_{i} ight)^{b}} onumber ] En herbereken opgedateerde lidmaatskappe P (μk|xi)(daar is verskillende maniere om lidmaatskap te definieer, hier is net een voorbeeld): [Pleft(mu_{k} mid x_{i} ight)=left(sum_{j=1}^{ k}left(frac{d_{ik}}{d_{jk}} ight)^{frac{2}{b-1}} ight)^{-1} onumber ]
  4. Beëindiging: Itereer totdat lidmaatskapmatriks konvergeer of totdat 'n gebruikergespesifiseerde aantal iterasies bereik is (die iterasie kan vasgevang word by sommige plaaslike maksimums of minima)

Die b hier is die gewigseksponent wat die relatiewe gewigte op elke partisie beheer, of die graad van fuzzie. Wanneer b− > 1, is die partisies wat die kwadraatfoutfunksie minimaliseer al hoe moeiliker (nie-vaag), terwyl as b− > ∞ die lidmaatskappe almal 1 nader, wat die vaagste toestand is. Daar is geen k teoretiese bewyse van hoe om 'n optimale b te kies nie, terwyl die empiriese bruikbare waardes onder [1, 30] is, en in die meeste van die studies het 1.5 (leqslant ) b (legslant ) 3.0 gewerk wel.

K-beteken as 'n generatiewe model

A generatiewe model is 'n model vir die lukraak generering van waarneembare datawaardes, gegewe 'n paar verborge parameters. Terwyl 'n generatiewe model 'n waarskynlikheidsmodel van alle veranderlikes is, verskaf 'n diskriminatiewe model slegs 'n voorwaardelike model van die teikenveranderlike(s) deur die waargenome veranderlikes te gebruik.

Om van k-middel 'n generatiewe model te maak, kyk ons ​​nou op 'n waarskynlikheidsgrondslag, waar ons aanneem dat datapunte in tros k gegenereer word met behulp van 'n Gauss-verspreiding met die gemiddelde in die middel van die groep en 'n afwyking van 1, wat gee

[P links (x_ {i} mid mu_ {k} right) = frac {1} { sqrt {2 pi}} exp left {- frac { left (x_ { i}- mu_ {k} regs)^{2}} {2} regs }. ]

Dit gee 'n stogastiese voorstelling van die data, soos getoon in figuur 15.10. Nou gaan dit oor na 'n maksimum waarskynlikheidsprobleem, wat, ons sal hieronder wys, presies gelykstaande is aan die oorspronklike k-gemiddelde algoritme hierbo genoem.

In die genereringsstap wil ons 'n waarskynlikste partisie of toewysing van etiket vind vir elke xi gegewe die gemiddelde μk. Met die aanname dat elke punt onafhanklik geteken word, kan ons die maksimum waarskynlikheid-etiket vir elke punt afsonderlik soek:

[ arg max _ {k} P links (x_ {i} mid mu_ {k} right) = arg max _ {k} frac {1} { sqrt {2 pi} } exp left {- frac { left (x_ {i}- mu_ {k} right)^{2}} {2} right } = arg min _ {k} left (x_ {i}- mu_ {k} regs)^{2} nonumber ]

Dit is heeltemal gelykstaande aan die vind van die naaste groepsentrum in die oorspronklike k-middel-algoritme.

In die skattingstap soek ons ​​na die maksimum waarskynlikheidskatting van die groepgemiddelde μk, gegewe die partisies (etikette):

[ links. arg max _ { mu} links { log prod_ {i} P links (x_ {i} mid mu regs) regs } = arg max _ { mu} sum_ {i} left {- frac {1} {2} left (x_ {i}- mu right)^{2}+ log left ( frac {1} {sqrt{2 pi}} ight) ight) ight}=arg min _{mu} sum_{i}left(x_{i}-mu ight)^{2 } onumber ]

Let daarop dat die oplossing van hierdie probleem presies die middelpunt van die x isi, wat dieselfde prosedure is as die oorspronklike k-middelalgoritme.

Aangesien k-middele onafhanklik is tussen die asse, word kovariansie en variansie ongelukkig nie deur die k-middel verantwoord nie, dus is modelle soos langwerpige verdelings nie moontlik nie. Hierdie probleem kan egter opgelos word as u hierdie probleem veralgemeen in 'n maksimaliseringsprobleem.

Verwagting Maksimalisering

K-gemiddelde kan gesien word as 'n voorbeeld van EM (algoritmes vir die maksimalisering van verwagtinge), soos getoon in figuur 15.11, waar verwagting bestaan ​​uit die skatting van verborge etikette, Q, en die maksimalisering van die verwagte waarskynlikheid, gegewe data en Q. Deur elke punt toe te ken, kom die etiket van die naaste sentrum ooreen met die E -stap om die mees waarskynlike etiket wat gegee word, te bereken die vorige parameter. Gebruik dan die data wat in die E-stap geproduseer word as waarneming, en skuif die sentroïed na die gemiddelde van die byskrifte wat aan daardie sentrum toegeken is, stem ooreen met die M-stap om die waarskynlikheid van die middelpunt te maksimeer gegewe die byskrifte. Hierdie geval is analoog aan Viterbi-leer. 'n Soortgelyke vergelyking kan gemaak word vir fuzzy k-gemiddeldes, wat analoog is aan Baum-Welch van HMMs. Figuur 15.12 vergelyk clustering, HMM en motiefontdekking met betrekking tot verwagtingsminimaliseringsalgoritme.

Daar moet op gelet word dat met behulp van die EM -raamwerk die k -middelbenadering veralgemeen kan word in groepe langwerpige vorms en verskillende groottes. Met k beteken, word datapunte altyd aan die naaste groepsentrum toegewys. Deur 'n kovariansiematriks aan die Gauss -waarskynlikheidsfunksie bekend te stel, kan ons groepe van verskillende groottes moontlik maak. Deur die variansie op verskillende asse anders te maak, kan ons selfs langwerpige verdelings skep.

EM kom verseker bymekaar en verseker die beste antwoord, ten minste vanuit 'n algoritmiese oogpunt. Die opvallende probleem met hierdie oplossing is dat die bestaan ​​van die plaaslike maksimum van waarskynlikheidsdigtheid kan voorkom dat die algoritme konvergineer na die globale maksimum. Een benadering wat hierdie komplikasie kan vermy, is om verskeie inisialisering te probeer om die landskap van waarskynlikhede beter te bepaal.

Die beperkings van die K-Means-algoritme

Die k-middel-algoritme het 'n paar beperkings wat belangrik is om in gedagte te hou wanneer u dit gebruik en voordat u dit kies. In die eerste plek vereis dit 'n maatstaf. Ons kan byvoorbeeld nie die k-beteken algoritme op 'n stel woorde gebruik nie, aangesien ons geen metrieke sou hê nie.

Die tweede belangrikste beperking van die k-middel-algoritme is die sensitiwiteit daarvan vir geraas. Een manier om die geraas te probeer verminder, is om vooraf 'n beginsel-komponent-analise uit te voer. Nog 'n manier is om elke veranderlike te weeg om minder gewig te gee aan die veranderlikes wat deur beduidende geraas geraak word: die gewigte sal dinamies bereken word by elke iterasie van die algoritme K-gemiddelde [3].

Die derde beperking is dat die keuse van aanvanklike sentrums die resultate kan beïnvloed. Daar bestaan ​​heuristieke om die aanvanklike groepsentrums te kies, maar nie een van hulle is perfek nie.

Laastens moet ons vooraf die aantal klasse ken. Soos ons gesien het, is daar maniere om hierdie probleem te omseil, in wese deur die algoritme 'n paar keer uit te voer terwyl u k wissel of die duimreël (k approx sqrt {n / 2} gebruik as ons te min aan die rekenkant is. en.Wikipedia.org/wiki/Determining_ the_number_of_clusters_in_a_data_set vat die verskillende tegnieke goed saam om die aantal trosse te kies.

Hiërargiese groepering

Alhoewel die groepering wat tot dusver bespreek is, dikwels waardevolle insig bied in die aard van verskillende data, kyk dit oor die algemeen uit na 'n noodsaaklike komponent van biologiese data, naamlik die idee dat ooreenkoms op verskeie vlakke kan bestaan. Om meer presies te wees, ooreenkoms is 'n intrinsiek hiërargiese eienskap, en hierdie aspek word nie aangespreek in die groeperingsalgoritmes wat tot dusver bespreek is nie. Hiërargiese groepering spreek dit spesifiek op 'n baie eenvoudige manier aan, en is miskien die mees gebruikte algoritme vir uitdrukkingsdata. Soos geïllustreer in figuur 15.13, word dit soos volg geïmplementeer:

1. Inisialisering: Inisialiseer 'n lys wat elke punt as 'n onafhanklike groepering bevat.
2. Iterasie: Skep 'n nuwe groep wat die twee naaste groepe in die lys bevat. Voeg hierdie nuwe groep by

die lys en verwyder die twee samestellende clusters van die lys.

Een van die belangrikste voordele van die gebruik van hiërargiese groepering en die opsporing van die tye waarop ons sekere groepe saamsmelt, is dat ons 'n boomstruktuur kan skep wat die tye waarop ons by elke groep aangesluit het, beskryf, soos gesien kan word in figuur 15.13. Om 'n aantal groepe te kry wat by u probleem pas, sny u eenvoudig op 'n snyvlak van u keuse, soos in figuur 15.13, en dit gee u die aantal groepe wat ooreenstem met die snitvlak. Wees egter bewus daarvan dat een potensiële slaggat met hierdie benadering is dat elemente wat redelik naby in die ruimte is (soos e en b in figuur 15.13) op sekere snyvlakke dalk nie in dieselfde groep is nie.

Uiteraard is 'n metode nodig om afstande tussen groepe te bepaal. Die spesifieke metriek wat gebruik word, wissel met die konteks, maar (soos gesien kan word in figuur 15.14, sluit 'n paar algemene implementerings die maksimum in,

minimum en gemiddelde afstande tussen samestellende trosse, en die afstand tussen die sentroïede van die trosse.

Opgemerk dat die berekening van alle afstande baie tyd en ruimte in beslag neem by die keuse van die naaste trosse, daarom dat 'n beter skema nodig is. 'N Moontlike manier om dit te doen is: 1) definieer 'n aantal omskakelingskassies wat die funksieruimte in verskeie subruimtes verdeel 2) bereken twee-afstandsafstande binne elke vak 3) skuif die grens van die bokse in verskillende rigtings en herbereken twee-afstande 4 ) kies die naaste paar gebaseer op die resultate in alle iterasies.

Evaluering van groepprestasie

Die geldigheid van 'n spesifieke groepering kan op verskillende maniere geëvalueer word. Die oorverteenwoordiging van 'n bekende groep gene in 'n groep, of, meer algemeen, korrelasie tussen die groepering en bevestigde biologiese assosiasies, is 'n goeie aanduiding van geldigheid en betekenis. As daar egter nog nie biologiese data beskikbaar is nie, is daar maniere om geldigheid te beoordeel met behulp van statistieke. Byvoorbeeld, robuuste trosse sal uit groepering verskyn, selfs as slegs onderafdelings van die totale beskikbare data gebruik word om trosse te genereer. Daarbenewens kan die statistiese betekenisvolheid van 'n groepering bepaal word deur die waarskynlikheid te bereken dat 'n bepaalde verspreiding ewekansig vir elke groepering verkry is. Hierdie berekening maak gebruik van variasies op die hipergeometriese verspreiding. Soos uit figuur 15.15 blyk, kan ons dit doen deur die waarskynlikheid te bereken dat ons meer as r +s het wanneer ons k elemente uit 'n totaal van N elemente kies. http://en.Wikipedia.org/wiki/Cluster...tering_results gee verskeie formules om die kwaliteit van die groepering te assesseer.


Inleiding

Klusteringsanalise is 'n opkomende navorsingsvraagstuk in data -ontginning vanweë die verskeidenheid toepassings daarvan. Met die koms van baie algoritmes vir die groepering van data in die afgelope paar jaar en die uitgebreide gebruik daarvan in 'n wye verskeidenheid toepassings, insluitend beeldverwerking, berekeningsbiologie, mobiele kommunikasie, medisyne en ekonomie, het hierdie algoritmes gewild geword. Die grootste probleem met die datagroeperingsalgoritmes is dat dit nie gestandaardiseer kan word nie. Algoritme wat ontwikkel is, kan die beste resultaat met een tipe datastel lewer, maar kan misluk of 'n swak resultaat gee met datastelle van ander tipes. Alhoewel daar baie pogings was om die algoritmes te standaardiseer wat in alle gevalle goed kan presteer, maar tot dusver is geen groot prestasie behaal nie. Baie groeperingsalgoritmes is tot dusver voorgestel. Elke algoritme het egter sy eie voordele en nadele en kan nie vir alle werklike situasies werk nie. Voordat u verskillende groeperingsalgoritmes in detail ondersoek, moet u 'n kort oorsig hê van wat groepering is.

Clustering is 'n proses wat 'n gegewe datastel in homogene groepe verdeel op grond van gegewe kenmerke, sodat soortgelyke voorwerpe in 'n groep gehou word, terwyl verskillende voorwerpe in verskillende groepe is. Dit is die belangrikste leerprobleem sonder toesig. Dit handel oor die vind van struktuur in 'n versameling ongemerkte data. Vir beter begrip verwys asseblief na Fig I.


Agtergrond

Enkelsel-RNA-volgordebepaling (scRNA-seq) stel navorsers in staat om heterogeniteit tussen individuele selle te bestudeer en seltipes vanuit 'n transkriptomiese perspektief te definieer. Een prominente probleem in scRNA-seq data-analise is die voorkoms van uitvalle, wat veroorsaak word deur mislukkings in versterking tydens die omgekeerde transkripsiestap in die RNA-seq-eksperiment. Die voorkoms van uitsakkings manifesteer as 'n oormaat van nulle en byna nul tellings in die datastel, wat getoon is dat dit probleme in scRNA-seq data-analise skep [1, 2].

Verskeie pakkette is onlangs ontwikkel vir die verskillende aspekte van scRNA-seq data-analise, insluitend selsiklus (sikloon [3] en scLVM [4]), normalisering (scran [5]), differensiële uitdrukking analise (scde [2] en MAST) [6]) en tydelike analise (Monocle [7]), maar min voer voorafverwerkingsstappe uit, soos dimensionaliteitsvermindering en groepering, wat kritieke stappe is om sel-tipe heterogeniteit te bestudeer.

Die nuutste dimensionaliteit-verminderingspakket vir scRNA-volgorde-data is ZIFA [1]. Dit implementeer 'n gewysigde probabilistiese hoofkomponent-analise (PCA) metode wat 'n nul-opgeblaasde model insluit om rekening te hou met uitvalgebeurtenisse. ZIFA gebruik 'n iteratiewe algoritme vir verwagting-maksimalisering vir afleiding, wat dit berekeningsintensief maak vir groot scRNA-seq datastelle.

Nog 'n pakket t-SNE [8] is gewild onder bioloë, maar dit is nie spesifiek ontwerp vir scRNA-volgorde-data nie en spreek nie die kwessie van uitsakkings aan nie. Ander onlangs ontwikkelde gereedskap, soos BackSPIN [9], pcaReduce [10], SC3 [11], SNN-Cliq [12], RaceID [13], en BISCUIT [14], is ontwerp om optimale groepering van enkelselle te hanteer in betekenisvolle groepe of hiërargieë. Net soos ZIFA behels hierdie algoritmes gewoonlik statistiese modellering, wat ramings van parameters vereis. Hierdie algoritmes maak dikwels gebruik van herhalende metodes om plaaslike of globale optimale oplossings te bewerkstellig, en daarom kan dit traag wees by die verwerking van groot datastelle van meer as 'n paar honderd enkele selle.

In baie praktiese situasies stel navorsers belang in vinnige en intuïtiewe groeperingsresultate wat hulle maklik kan visualiseer. PCA is 'n algemene analitiese benadering vir data -visualisering vir monster -heterogeniteit, en word dikwels gebruik om dimensionaliteit te verminder voor groepering. Baie weergawes van PCA, soos die implementeringsprcomp in R, is baie vinnig en word gereeld gebruik vir die ontleding van groot genuitdrukkingsdatastelle. Die standaard PCA is egter nie ontwerp om rekening te hou met die uitval van scRNA-seq-data nie. In hierdie werk beoog ons om 'n vinnige PCA-agtige algoritme te ontwikkel wat uitvalle in ag neem.


Metodes

Die ensemble groepeer transformasie na kategoriese ruimte

Hierdie afdeling beskryf die ensemble clustering (EC) transformasie wat die oorspronklike data van die oorspronklike kenmerk omskep in kategoriese ruimte soos geïllustreer in Fig. 2. Die basiese algoritme veronderstel dat punte wat tot dieselfde groep behoort, meer ooreenstem as punte wat in verskillende groepe val. . In die werklike wêreld kan hierdie aanname nie altyd geld nie, soos geïllustreer in die voorbeeld wat in Fig. 1 aangebied word. In hierdie voorbeeld sluit die data twee klasse in (sirkels en diamante). As ons die data in twee groepe groepeer, sal die linker groep twee tipes klasse insluit en die regte een sal steeds al die punte van dieselfde klas hê.

Voorbeeld van groepering van data

As gevolgtrekking het ons besluit om die groeperingsalgoritme verskeie kere uit te voer. Punte wat aan dieselfde groep behoort in die veelvuldige lopies word as identiese punte beskou en sal 'n (groep) definieer wat in dieselfde klas geklassifiseer sal word.

Laat, (D ) 'n stel gemerkte punte wees wat as opleidingsdata gebruik word, en A 'n stel ongemerkte data. Eerstens, die GrpClassifierEC algoritme skep 'n nuwe dataset (E ), waar (E ) 'n dataset is wat (D ) en (A ) (d.w.s. (E = D cup A )) kombineer, dan die GrpClassifierEC hardloop die k-beteken groeperingsalgoritme verskeie kere met verskillende waardes van (k) (ons verwys dit na nmc = aantal trosse) en skep die groeperingsmatriks (cMat) . (cMat ) is 'n matriks waar die (^) ry bestaan ​​uit die groeperingsresultate van die (^) wys in (E ). Sien tabel 1 vir 'n voorbeeld van cMat met 20 punte en 10 dimensies van kategoriese kenmerke. Die eerste kolom is die resultate van lopende k-gemiddelde met k = 2 terwyl die laaste kolom die resultate is van lopende k-gemiddelde met k = 11. Die waardes is die indeks van die groep wat deur k-gemiddelde toegeken is. Ons teken die resultate van k = 2.

Die toepassing van die EG -transformasie op (_in E) sal 'n nuwe punt skep (_^<*> in cMat ) met kategoriese waardes. Die dimensie van die xi * is (k-1) . Die toepassing van die EC-transformasie op die hele data sal dus 'n nuwe kategoriese data (EC-data) genereer wat bestaan ​​uit l punte met nmc-1 kategoriese kenmerke.

Die nuwe dimensie nmc-1, is gewoonlik baie minder as die oorspronklike datadimensie (nmc-1N. in Fig. 2). Meer interessant, die nuwe EG-datapunt kan ook verminder word aangesien die nuwe EC-data identiese punte bevat. Ons sal dit in meer besonderhede verduidelik in die afdeling “Vermindering van die data”. Identiese punte wat dieselfde groepe oor die hele iterasie van k-gemiddelde word voorgestel as 'n dieselfde punt in cMat gevolglik is daardie punte oorweeg om een ​​punt te wees, sal al die identiese punte 'n groep definieer. Byvoorbeeld, in tabel 1 het punt 11, punt 12 en punt 20 dieselfde kategoriese waardes. Dit beteken, die vektorruimte wat daardie 3 punte verteenwoordig, is = (g) (c0,c2,c2,c2,c4,c5,c6,c5,c5,c4). Gevolglik beskou ons daardie 3 punte as 'n enkele punt (g) waarna ons verwys as 'n unieke punt. Met ander woorde, elke groep word deur 'n unieke punt voorgestel.

Die werkstroom vir die skep van die EC-kategoriese ruimte gebaseer op die k-middel-groeperingsalgoritme. Die oorspronklike data is die invoer van die werkstroom. Die uitkoms is 'n nuwe dataset met die naam EC -data in 'n kategoriese ruimte met dimensie k. die teken ≪ dui dit aan k is dramaties kleiner as die oorspronklike data -dimensie N

Let daarop dat die stel (E ) gemerkte en ongemerkte punte bevat, en gevolglik kan die groepe gemerkte en ongemerkte punte bevat. Oor die algemeen is daar drie moontlike gevalle vir die identiese punte in dieselfde groep:

Die gemerkte punte het dieselfde klasetiket, die ongemerkte punte sal met hierdie etiket geklassifiseer word.

Die gemerkte punte het verskillende klasetikette: hier word die groepspunte as die meerderheidsklas geklassifiseer.

Al die punte is nie benoem nie: in hierdie geval sal die groep 'n ongeklassifiseerde groep wees en die algoritme klassifiseer dit op grond van benoemde naaste groep.

Vir hierdie doel definieer ons 'n suiwerheidsmeting vir 'n gegewe groep om die suiwerheid van die groeperingsproses te evalueer. Die suiwerheidsmeting is hoofsaaklik gebaseer op die waarskynlikhede van die gemerkte voorwerpe soos volg:

waar (_) dui groep (i ) aan wat deur vektor (_) in die matriks (G), (#klasse) dui die nommer van die klasse in (_) en (

_) dui die waarskynlikheid van klas (j) in groep (i) aan. Soos gesien kan word, (reinheid(_)) is gelyk aan 1 wanneer die groep suiwer is en (frac<1><#classes>) vir die laagste suiwerheid, wat sal afneem soos die aantal klasse toeneem.

Die k-middelalgoritme het 'n tydskompleksiteit van O(n 2 ) waar n is die waar n is die insetdatagrootte. Dan is die kompleksiteit van die EG-transformasie O (k.n 2 ) waar k is die aantal kere wat ons k-middele gebruik. Hierdie deel is eintlik die swaarste deel van die berekening van die GrpClassifierEC algoritme.

GrpClassifierEC—ensemble-groepering-gebaseerde klassifiseerder

Die GrpClassifierEC pseudo-kode word aangebied in Algoritme 2. Die invoer na die klassifiseerder is die cMat-matriks wat gegenereer word deur die EC-transformasie wat in Algoritme 1 beskryf word. Die eerste stap van die GrpClassifierEC is die skep van die groepe onttrek uit cMat. groepe = < (groep

_) > waar i = 1,..., s. s is aantal groepe. Die aantal groepe word beïnvloed deur nmc, die aantal iterasie wat ons k-beteken. Byvoorbeeld, as ons k-beteken met nmc = 1 dan word al die punte aan een groep toegewys, wat beteken dat ons net een groep het wat al die datapunte bevat. Soos ons gesien het uit Tabel 2 vir die data Cercopithecidae vs Malvacea het ons 449 groepe met nmc = 30 terwyl met dieselfde data met nmc = 50 ons het 593 groepe (Tabel 3 #EC_Samples is gelyk aan die aantal groepe). Die aantal groepe neem toe namate nmc neem toe en kan die aantal punte in die data bereik, wat beteken dat elke groep een punt in kategoriese waardes sal huisves.

Groepe kan verskillende groottes hê (grootte is die aantal kategoriese punte wat daarby behoort). Soos uit tabel 2 gesien kan die groep eintlik net een punt hê, ons sien dat 305 verskillende groepe (unieke punte) met grootte 1, terwyl 68 groepe (unieke punte) met grootte 2. Ons sien ook dat ons een groep met grootte 31 het wat is die maksimum grootte in hierdie spesifieke data.

Na die stap om die groepe, stel ons ons nuwe benadering vir klassifikasie voor deur lukraak te selekteer een punt van elke groep. Die etiket van die geselekteerde punt sal die etiket wees van alle punte wat tot die groep behoort. Die proses om 'n ewekansige punt te kies en die etiket aan die groep toe te ken, word herhaal r tye. Die GrpClassifierEC klassifiseerder maak 'n lys met die naam prd_set wat vir die voorspellingsresultate bevat. Om dan die prestasies te bereken, voer ons 'n puntemakerfunksie uit. Die puntemakerfunksie vergelyk die toegekende etiket en oorspronklike etiket vir elke punt om die verwarringsmatriks te kry. Akkuraatheidstatistieke soos Waar-positiewe, vals-positiewe, waar-negatiewe, vals-negatiewe, herroeping, akkuraatheid, sensitiwiteit, spesifisiteit, F-maat, sowel as die algehele akkuraatheid en Cohen se kappa, word bereken.

Vermindering van die data

Tabel 2 toon die uitset van die EC-prosedure met k = 30 toegepas op die data Cercopithecidae vs Malvacea wat 894 voorbeelde (punte) bevat. Die tabel toon ook aan dat die EG -data 449 unieke punte of groepe bevat, 'n vermindering van die oorspronklike data met 50% (449/894 = 0,5).

Vir elke groep (unieke punt), meet ons sy grootte, gelykstaande aan die aantal kere wat hierdie unieke punt in die EC-data verskyn. In tabel 2 het ons byvoorbeeld 305 unieke punte met grootte 1. Al hierdie punte verskyn een keer in die nuwe dataruimte. Boonop het ons 68 unieke punte. As elkeen twee keer in die data verskyn, dan is elkeen grootte 2. Daar is 22 punte met grootte 3—elkeen van hierdie 22 unieke punte verskyn 3 keer in die data. Let daarop dat die etikette nie by die EG -data ingesluit is nie. Dit beteken dat die groep punte by die EC -ruimte verskillende etikette kan hê wat verband hou met die oorspronklike punte en steeds dieselfde groep kan deel.

Figuur 3, toon die verspreiding van die groepgrootte vir nmc = 30 en nmc = 50, en dui duidelik aan dat as nmc neem toe, die aantal groepe met grootte 1 neem ook toe. Die verwagting is dat die aantal groepe van grootte 1 dieselfde moet wees as die oorspronklike aantal punte, namate ons die waarde van nmc. Met ander woorde, elke punt sal in een groep gehuisves word. Dit laat eintlik 'n wetenskaplike vraag ontstaan: wat is die optimale waarde van nmc wat sal lei tot die verbetering van die prestasie van die klassifiseerder, of meer spesifiek, die aard van die data in terme van groepe vaslê. Om hierdie vraag te beantwoord, verg addisionele toekomstige navorsing.

Verspreiding van die groepe punte (punte) grootte vergelyk nmc = 30 en nmc = 50

Eksperimente met numeriese datastelle

Om die prestasie van die nuwe klassifiseerder te evalueer GrpClassifierEC ons het die resultate daarvan vergelyk met die k-naaste bure, besluitnemingsbome en willekeurige bosklassifikasie-algoritmes. Ons het dit oor 10 biologiese datastelle getoets en die prestasie vir elke algoritme vergelyk. Die resultate toon dat die nuwe algoritme wat die ensemble -groepering gebruik, beter was en beter presteer as die ander basislynalgoritmes op die meeste datastelle.

Datastelle

Die data bestaan ​​uit mikroRNA voorloper rye, en elke ry bestaan ​​uit 4 nukleotied letters . Die lengte van elke voorlopervolgorde is ongeveer 70 nukleotiede. Die bron van hierdie data is miRbase [18]. 'N Deel van die data wat ons gebruik het, kom uit ander verskillende studies [19,20,21], insluitend ons studie [16].

Een eenvoudige manier om rye voor te stel wat uit 4 nukleotiedletters bestaan, is deur die k-mers-frekwensie te gebruik. Die (k ) -mer tellings in 'n gegewe ry is genormaliseer deur die lengte van die ry.

Ons kenmerke sluit in k-mer frekwensies, ander afstandseienskappe wat onlangs deur Yousef et al voorgestel is. [19] en sekondêre kenmerke wat deur [22] voorgestel word. Baie addisionele funksies wat pre-miRNA's beskryf, is ook voorgestel [23] en is ingesluit in die funksieset wat 1038 funksies bevat.

Die hoofdata bestaan ​​uit inligting van 15 klades (Tabel 4). Die Homo sapiens rye is uit die data van sy clade Hominidae geneem. Die homologiese rye is uit die datastel verwyder en slegs een verteenwoordiger is gehou. Elke klade kan dien as 'n positiewe voorbeeld of as 'n negatiewe voorbeeld. Met inagneming van al die verskillende kombinasies van paar klades (positief/negatief) is dit moontlik om 256 datastelle te genereer. Ons het 10 datastelle ewekansig gekies wat in Tabel 5 aangebied word.

Implementering

Ons het die GrpClassifierEC in Knime [24] geïmplementeer. Ons het besluit om die gratis en open source platform Knime te gebruik vanweë die eenvoud en baie nuttige grafiese aanbiedings. Boonop is Knime ook 'n baie integrerende hulpmiddel. Die Knime -werkstroom bestaan ​​uit twee dele; die eerste deel voer die EC -transformasie uit soos beskryf op algoritme 1. Hierdie deel is eintlik tydrowend, waar dit byvoorbeeld 13 minute geneem het om die EC -matriks te genereer vir die invoerlêer wat bestaan ​​uit 1038 funksies ad 1068 punte. Die hardloop is uitgevoer op 'n skootrekenaar met Intell® Core ™ i7 7600U CPU @2.80 GHz 2.90 GHz met 16GM RAM.

Modelprestasie -evaluering

Ons het 'n ander aantal EC-groepe getoets met behulp van die k-middel-groeperingsalgoritme nmc waardes van 10 tot 50. Vir elke vlak het ons 100 iterasies met gelyke steekproefgrootte uitgevoer, en dan die gemiddelde van elke prestasiemetings wat hieronder beskryf word, bereken.

Vir elke gevestigde model het ons 'n aantal prestasiemaatstawwe vir die evaluering van die klassifiseerder bereken soos sensitiwiteit, spesifisiteit en akkuraatheid volgens die volgende formules (TP: Waar Positief, FP: Vals Positief, TN: Waar Negatief en FN Vals Negatief klassifikasies):


DropClust: doeltreffende groepering van ultra-groot scRNA-seq data

Druppelgebaseerde enkelseltranskriptomika het onlangs parallelle sifting van tienduisende enkelselle moontlik gemaak. Klusteringsmetodes wat vir sulke hoë -dimensionele data skaal sonder om die akkuraatheid in te boet, is skaars. Ons gebruik Locality Sensitive Hashing, 'n geskatte soektog naaste naaste buurman om 'n de novo-groeperingsalgoritme vir grootskaalse enkeldata te ontwikkel. Op 'n aantal werklike datastelle presteer dropClust beter as die bestaande beste praktyk-metodes in terme van uitvoeringstyd, akkuraatheid van die groep en waarneembaarheid van klein sel-subtipes.

Syfers

( A ) 2D -inbedding van 20K PBMC -transkriptome, willekeurig gekies uit die ...

Barplot wat die aantal ...

Barplot wat die aantal geraamde Gauss -komponente vir elk van die top ...

Bars toon die ARI -indekse ...

Bars toon die ARI-indekse wat verkry word deur die vergelyking van groeperingsuitkomste met sel-tipe annotasies.

Lokalisering van PBMC-transkriptome van ...

Lokalisering van PBMC -transkriptome van dieselfde tipe (gebaseer op annotasie) op die 2D ...

Groepering van ~68K PBMC-data.…

Groepering van ~68K PBMC-data. dropClust-gebaseerde visualisering ('n gewysigde weergawe van tSNE) ...

Tendens van toename in analise ...

Tendens van toename in analise (voorafverwerking, groepering en visualisering)) tyd vir verskillende pypleidings ...

Opspoorbaarheid van geringe seltipes ...

Opspoorbaarheid van geringe seltipes. Kroeë wat gemiddeld van F 1 -tellings, behaal ...

( A ) Boxplots wat uitbeeld ...

( A ) Kasplots wat gemiddeld uitbeeld Silhoeët tellings bereken op 100 selflaai-monsters ...


Die baie verskillende groeperingsalgoritmes

There are several variants of clustering algorithms family: K-means, hierarchical, DBSCAN, spectral, gaussian, birch, mean shift and affinity propagation are some of them. Below I am highlighting some key points on the first three algorithms— the most commonly applied ones.

K-means: First, “K” refers to the number of clusters you want. Dit wil sê, K = n beteken n number of clusters to be identified. Then there’s something called “centroid”, which is an imaginary/artificial data point (an average of data points) around which each cluster of data is partitioned. So K = 2 means that the algorithm will partition the observations (data) into 2 clusters such that the distances between the centroids and observations are minimized.

Voordele: simple to understand, easy to implement

Disadvantages: sometimes difficult to choose the K outliers can drag the centroid in their direction scaling data can change the clusters

Hierarchical clustering: Hierarchical clustering works in two different ways: the first one is called a “bottom-up” or agglomerative clustering, where each observation gets its own cluster, then each pair of clusters are merged together to form another cluster, and so on. The other one (a.k.a. “top-down” or divisive clustering) works in the opposite direction, m.a.w., all observations start with one cluster, then repeatedly divided into smaller cluster sizes.

Voordele: easy to implement number of clusters is easy to identify by looking at the dendrogram more informative than K-means clustering

Disadvantages: highly sensitive to outliers can be time consuming for large datasets

DBSCAN: Proposed in 1996, it is a density-based algorithm, where observations are clustered based on how close they are to each other given a minimum number of points. It takes two parameters: (i) ε (epsilon) — determining the radius within which the points should be in one cluster and (ii) minPts — specifying a minimum number of points to form a dense space/cluster. Interesting enough, the 1996 paper that proposed this algorithm won the “ Test of Time Award” in the 2014 KDD conference.

Voordele: unlike K-means and hierarchical clustering, DBSCAN is robust in the presence of outliers thus can be used in anomaly (i.e. outliers) detection.

Disadvantages: it is sensitive to parameter values (ε en minPts) fails to identify any clusters appropriately in varying data density.


Clustering Challenges in Biological Networks

This volume presents a collection of papers dealing with various aspects of clustering in biological networks and other related problems in computational biology. It consists of two parts, with the first part containing surveys of selected topics and the second part presenting original research contributions. This book will be a valuable source of material to faculty, students, and researchers in mathematical programming, data analysis and data mining, as well as people working in bioinformatics, computer science, engineering, and applied mathematics. In addition, the book can be used as a supplement to any course in data mining or computational/systems biology.

  • Surveys of Selected Topics:
    • Fixed-Parameter Algorithms for Graph-Modeled Data Clustering (Hüffner et al.)
    • Probabilistic Distance Clustering: Algorithm and Applications (C Iyigun & A Ben-Israel)
    • Analysis of Regulatory and Interaction Networks from Clusters of Co-expressed Genes (E Yang et al.)
    • Graph-based Approaches for Motif Discovery (E Zaslavsky)
    • Statistical Clustering Analysis: An Introduction (H Zhang)
    • Diversity Graphs (P Blain et al.)
    • Identifying Critical Nodes in Protein-Protein Interaction Networks (V Boginski & C W Commander)
    • Faster Algorithms for Constructing a Concept (Galois) Lattice (V Choi)
    • A Projected Clustering Algorithm and Its Biomedical Application (P Deng & W Wu)
    • Graph Algorithms for Integrated Biological Analysis, with Applications to Type 1 Diabetes Data (J D Eblen et al.)
    • A Novel Similarity-based Modularity Function for Graph Partitioning (Z Feng et al.)
    • Mechanism-based Clustering of Genome-wide RNA Levels: Roles of Transcription and Transcript-Degradation Rates (S Ji et al.)
    • The Complexity of Feature Selection for Consistent Biclustering (O E Kundakcioglu & P M Pardalos)
    • Clustering Electroencephalogram Recordings to Study Mesial Temporal Lobe Epilepsy (C-C Liu et al.)
    • Relating Subjective and Objective Pharmacovigilance Association Measures (R K Pearson)
    • A Novel Clustering Approach: Global Optimum Search with Enhanced Positioning (M P Tan & C A Floudas)

    Updated pub date on 29/1/2008

    Updated pub date on 10/4/2008

    Updated price on 28/05/2008

    Updated pub date on 18/6/2008

    Updated pub date on 5/8/2008

    Updated descrip, eds & in-hse ed on 18/12/2008

    Updated contents, pp & pub date on 13/2/2009

    VOORMAAK
    Fixed-Parameter Algorithms for Graph-Modeled Data Clustering

    Fixed-parameter algorithms can efficiently find optimal solutions to some NP-hard problems, including several problems that arise in graph-modeled data clustering. This survey provides a primer about practical techniques to develop such algorithms in particular, we discuss the design of kernelizations (data reductions with provable performance guarantees) and depth-bounded search trees. Our investigations are circumstantiated by three concrete problems from the realm of graph-modeled data clustering for which fixed-parameter algorithms have been implemented and experimentally evaluated, namely CLIQUE, CLUSTER EDITING, and CLIQUE COVER.

    Probabilistic Distance Clustering: Algorithm and Applications

    The probabilistic distance clustering method of the authors [2, 8], assumes the cluster membership probabilities given in terms of the distances of the data points from the cluster centers, and the cluster sizes. A resulting extremal principle is then used to update the cluster centers (as convex combinations of the data points), and the cluster sizes (if not given.) Progress is monitored by the joint distance function (JDF), a weighted harmonic mean of the above distances, that approximates the data by capturing the data points in its lowest contours. The method is described, and applied to clustering, location problems, and mixtures of distributions, where it is a viable alternative to the Expectation–Maximization (EM) method. The JDF also helps to determine the “right” number of clusters for a given data set.

    Analysis of Regulatory and Interaction Networks from Clusters of Co-expressed Genes

    Extracting biological insight from high-throughput genomic studies of human diseases remains a major challenge, primarily due to our inability to recognize, evaluate and rationalize the relevant biological processes recorded from vast amounts of data.

    We will discuss an integrated framework combining fine-grained clustering of temporal gene expression data, selection of maximally informative clusters, based of their ability to capture the underlying dynamic transcriptional response, and the subsequent analysis of the resulting network of interactions among genes in individual clusters. The latter are developed based on the identification of common regulators among the genes in each cluster through mining literature data. We characterize the structure of the networks in terms of fundamental graph properties, and explore biologically the implications of the scale-free character of the resulting graphs. We demonstrate the biological importance of the highly connected hubs of the networks and show how these can be further exploited as targets for potential therapies during the early onset of inflammation and for characterizing the mechanism of action of anti-inflammatory drugs. We conclude by identifying two possible challenges in network biology, namely, the nature of the interactions and the potentially limited information content of the temporal gene expression experiments, and discuss expected implications.

    Graph-based Approaches for Motif Discovery

    Sequence motif finding is a very important and long-studied problem in computational molecular biology. While various motif representations and discovery methods exist, a recent development of graph-based algorithms has allowed practical concerns, such as positional correlations within motifs, to be taken into account. This survey provides an overview of the multi-partite graph formulation of motif finding, and focuses on algorithmic aspects of various motif discovery methodologies.

    Motif finding has been recast as a number of different graph substructure identification problems. First we review a formulation as a maximum-weight clique finding problem, and examine two different integer linear programs to model it. The motif finding algorithms use graph pruning techniques and a cutting planes approach in conjunction with linear programming relaxations. Secondly, we discuss a formulation of motif discovery as that of maximum density subgraph finding, and review a maximum flow based algorithm in an appropriately augmented flow network. Finally, we mention the ‘subtle’ motifs formulation, and define its corresponding graph problem of maximal clique identification. We discuss two different approaches to tackle this problem, one based on winnowing spurious edges and the other on divide-and-conquer sub-clique finding.

    Statistical Clustering Analysis: An Introduction

    Clustering analysis is to segment objects in a dataset into meaningful subsets such that objects with high similarity are segmented into the same subset, and objects with low similarity are segmented into different subsets. This chapter introduces three fundamental but core topics in clustering analysis: the definition of similarity and dissimilarity measure, the clustering algorithm, and determining the number of clusters. For each topic, we introduce the ones that are most popularly used, and emphasize their statistical backgrounds.

    Diversity Graphs

    Bipartite graphs have long been used to study and model matching problems, and in this paper we introduce the bipartite graphs that explain a recent matching problem in computational biology. The problem is to match haplotypes to genotypes in a way that minimizes the number of haplotypes, a problem called the Pure Parsimony problem. The goal of this work is not to address the computational or biological issues but rather to explore the mathematical structure through a study of the underlying graph theory.

    Identifying Critical Nodes in Protein-Protein Interaction Networks

    In recent years, the study of biological networks has increased dramatically. These problems have piqued the interest of researchers in many disciplines from biology to mathematics. In particular, many problems of interest to biological scientists can be modeled as combinatorial optimization problems and studied by operations researchers. In this chapter, we consider the problem of identifying the critical nodes of a network and its potential applications to protein-protein interaction networks. More specifically, we are interested in determining the smallest set of nodes whose removal from the graph maximally disconnects the network. Recent techniques for identifying critical nodes in telecommunication networks are applied to the study of protein-protein interaction graphs and the results are analyzed.

    Faster Algorithms for Constructing a Concept (Galois) Lattice

    In this paper, we present a fast algorithm for constructing a concept (Galois) lattice of a binary relation, including computing all concepts and their lattice order. We also present two efficient variants of the algorithm, one for computing all concepts only, and one for constructing a frequent closed itemset lattice. The running time of our algorithms depends on the lattice structure and is faster than all other existing algorithms for these problems.

    A Projected Clustering Algorithm and Its Biomedical Application

    Projected clustering is concerned with clustering data in high dimensional space where data is more likely correlated in subspaces of full dimensions. Recently, several projected clustering algorithms that focus on finding specific projection for each cluster have been proposed. We find that, besides distance, the closeness of points in different dimensions also depends on the distributions of data along those dimensions. Based on this, we propose a projected clustering algorithm, IPROCLUS (Improved PROCLUS), which is efficient and accurate in handling data in high dimensional space. According to the experimental results on randomly generated synthetic data, our algorithm shows much higher accuracy for the scaled datasets and lower dependence on one of user inputs than PROCLUS. We also apply IPROCLUS on real biomedical data and show that it can achieve much better accuracy than PROCLUS.

    Graph Algorithms for Integrated Biological Analysis, with Applications to Type 1 Diabetes Data

    Graph algorithms can be effective tools for analyzing the immense data sets that frequently arise from high-throughput biological experiments. A major computational goal is to identify dense subgraphs, from which one can often infer some form of biological meaning. In this paper, new techniques are devised and analyzed in an effort to improve the quality and relevance of these subgraphs, and to extend the utility of clique-centric methods that may produce them. Using non-obese diabetic mice as a target organism, the paraclique algorithm is tested on transcriptomic data under various parameters in order to determine how it can best be tuned to applications. The use of proteomic anchors is also discussed in an effort to help guide subgraph selection in the presence of inhomogeneous data, which is an important but notoriously difficult problem in its own right.

    A Novel Similarity-based Modularity Function for Graph Partitioning

    Graph partitioning, or network clustering, is an essential research problem in many areas. Current approaches, however, have difficulty splitting two clusters that are densely connected by one or more “hub” vertices. Further, traditional methods are less able to deal with very confused structures. In this paper we propose a novel similarity-based definition of the quality of a partitioning of a graph. Through theoretical analysis and experimental results we demonstrate that the proposed definition largely overcomes the “hub” problem and outperforms existing approaches on complicated graphs. In addition, we show that this definition can be used with fast agglomerative algorithms to find communities in very large networks.

    Mechanism-based Clustering of Genome-wide RNA Levels: Roles of Transcription and Transcript-Degradation Rates

    DNA array techniques invented over a decade ago enable biologists to measure tens of thousands of mRNA levels in cells simultaneously as functions of environmental perturbations. In a few cases the same technique has been employed to measure not only genome-wide transcript levels (TL) but also the associated transcription rates (TR) simultaneously. Sedert TL is determined by the balance between two opposing processes, m.a.w., transcription and transcript degradation, simple theoretical considerations indicate that it would be impossible to determine TR gebaseer op TL data alone. This conclusion is supported by the finding that TL en TR do not always vary in parallel. In fact, the genome-wide measurements of TL en TR in budding yeast undergoing glucose-galactose shift indicate that TL can decrease even though TR increases and TL can increase despite the fact that TR afneem. These counter-intuitive findings cannot be accounted for unless transcript-degradation rates (TD) are also taken into account. One of the main objectives of this contribution is to derive a mathematical equation relating TL aan TR en TD. Based on this equation, it was predicted that there would be 9 different mechanisms by which TL can be altered in cells. Die TL en TR data measured in budding yeast demonstrate that all of the 9 predicted mechanisms are found to be activated in budding yeast during glucose-galactose shift, except Mechanisms 5 (i.e., decreasing TL with no change in TR) and 9 (i.e., no change in TL nor in TR). It was also shown that the opposite changes in the mRNA levels of glycolytic and respiratory genes observed between 5 and 360 minutes following the glucose-galactose shift could be quantitatively accounted for in terms of what is referred to as the transcript-degradation/transcription (D/T) ratios calculated here for the first time. Our results suggest that the predicted 9 mechanisms of controlling TL may be employed to cluster the genome-wide measurements of mRNA levels as a means to characterize the functional states of both normal and diseased cells.

    The Complexity of Feature Selection for Consistent Biclustering

    Biclustering is simultaneous classification of the samples and features in a way that samples from the same class have similar values for that class' characteristic features. A biclustering is consistent if in each sample (feature) from any set, the average expression of features (samples) that belong to the same class is greater than the average expression of features (samples) from other classes. Supervised biclustering uses a training set to classify features whose consistency is achieved by feature selection. The worst case complexity of this feature selection process is studied.

    Clustering Electroencephalogram Recordings to Study Mesial Temporal Lobe Epilepsy

    The brain connectivity is known to have substantial influences over the brain function and its underlying information processes. In this chapter, a novel graphtheoretic approach is introduced to investigate the connectivity among brain regions through electroencephalogram (EEG) recordings acquired from a patient with mesial temporal lobe epilepsy (MTLE). The first step of the proposed approach is to transform the brain connectivity behavior into a complete graph. The connectivity for each pair of the brain regions is first quantified by the cross mutual information (CMI) measure, and then the maximum clique algorithm is subsequently applied to find the clique that contained a group of highly connected brain regions that is represented by a clique with maximum size. The CMI is known to have the ability to capture the connectivity between EEG signals. The adopted maximum clique algorithm can reduce the complexity of the clustering procedure for finding the maximum connected brain regions. The proposed graph-theoretic approach offers better assessments to visualize the structure of the brain connectivity over time. The results indicate that the maximum connected brain regions prior to seizure onsets were where the impending seizure was initiated. Furthermore, the proposed approach may be used to improve the outcome of the epilepsy surgery by identifying the seizure onset region(s) correctly.

    Relating Subjective and Objective Pharmacovigilance Association Measures

    The field of pharmacovigilance is concerned with the detection and interpretation of associations between drugs and adverse medical events that may be related to the use of those drugs. These assocations can be measured in various ways, and this paper considers five: two are aggregate statistical measures derived from an entire adverse event database, two are case-specific objective measures, and one is a subjective measure related to the way adverse events are reported. Examination of the available data suggests that these measures are all interrelated, but in a complicated manner. This finding motivates the use of cluster analysis to explore these relationships, with the ultimate objective of constructing an index of blame that quantifies the tendency for some drugs to be subjectively blamed for adverse events even in the absence of objective evidence for an association with those events.

    A Novel Clustering Approach: Global Optimum Search with Enhanced Positioning

    Cluster analysis of genome-wide expression data from DNA microarray hybridization studies is a useful tool for identifying biologically relevant gene groupings. It is hence important to apply a rigorous yet intuitive clustering algorithm to uncover these genomic relationships. In this study, we describe a novel clustering algorithm framework based on a variant of the Generalized Benders Decomposition, denoted as the Global Optimum Search [2, 19, 21, 23, 51] which includes a procedure to determine the optimal number of clusters to be used. The approach involves a pre-clustering of data points to define an initial number of clusters and the iterative solution of a Linear Programming problem (the primal problem) and a Mixed-Integer Linear Programming problem (the master problem), that are derived from a Mixed Integer Nonlinear Programming problem formulation. Badly-placed data points are removed to form new clusters, thus ensuring tight groupings amongst the data points and incrementing the number of clusters until the optimum number is reached. We apply the proposed clustering algorithm to experimental DNA microarray data centered on the Ras signaling pathway in the yeast Saccharomyces Cerevisiae and compare the results to that obtained with some commonly-used clustering algorithms. Our algorithm comes up favorably against these algorithms in the aspects of intra-cluster similarity and inter-cluster dissimilarity, often considered two key tenets of clustering. Furthermore, our algorithmcan predict the optimal number of clusters, and the biological coherence of the predicted clusters is analyzed through gene ontology.


    Chapter 8 Classification

    Imagine you have RNA-seq of a collection of labeled normal lung and lung cancer tissues. Given a new sample of RNA-seq from the lung with unknown diagnosis, will you be able to predict based on the existing labeled samples and the expression data whether the new sample is normal or tumor? This is a sample classification problem, and it could be solved using unsupervised en supervised learning approaches.

    Leer sonder toesig is basically clustering or dimension reduction. You can use hierarchical clustering, MDS, or PCA. After clustering and projection the data to lower dimensions, you examine the labels of the known samples (hopefully they cluster into separate groups by the label). Then you can assign label to the unknown sample based on its distance to the known samples.

    Leer onder toesig considers the labels with known samples and tries to identify features that can separate the samples by the label. Cross validation is conducted to evaluate the performance of different approaches and avoid over fitting.

    StatQuest has done an amazing job with machine learning with a full playlist of well organized videos. While the full playlist is worth a full course, for the purpose of the course, we will just highlight a number of widely used approaches. They include logistic regression (this is considered statistical machine learning), K nearest neighbors, random forest, and support vector machine (these are considered computer science machine learning).


    TimesVector: a vectorized clustering approach to the analysis of time series transcriptome data from multiple phenotypes

    Motivering: Identifying biologically meaningful gene expression patterns from time series gene expression data is important to understand the underlying biological mechanisms. To identify significantly perturbed gene sets between different phenotypes, analysis of time series transcriptome data requires consideration of time and sample dimensions. Thus, the analysis of such time series data seeks to search gene sets that exhibit similar or different expression patterns between two or more sample conditions, constituting the three-dimensional data, i.e. gene-time-condition. Computational complexity for analyzing such data is very high, compared to the already difficult NP-hard two dimensional biclustering algorithms. Because of this challenge, traditional time series clustering algorithms are designed to capture co-expressed genes with similar expression pattern in two sample conditions.

    Resultate: We present a triclustering algorithm, TimesVector, specifically designed for clustering three-dimensional time series data to capture distinctively similar or different gene expression patterns between two or more sample conditions. TimesVector identifies clusters with distinctive expression patterns in three steps: (i) dimension reduction and clustering of time-condition concatenated vectors, (ii) post-processing clusters for detecting similar and distinct expression patterns and (iii) rescuing genes from unclassified clusters. Using four sets of time series gene expression data, generated by both microarray and high throughput sequencing platforms, we demonstrated that TimesVector successfully detected biologically meaningful clusters of high quality. TimesVector improved the clustering quality compared to existing triclustering tools and only TimesVector detected clusters with differential expression patterns across conditions successfully.

    Beskikbaarheid en implementering: The TimesVector software is available at http://biohealth.snu.ac.kr/software/TimesVector/.

    Kontak: [email protected]

    Aanvullende inligting: Aanvullende data is beskikbaar by Bioinformatics aanlyn.


    15.3: Clustering Algorithms - Biology

    Localized Multiple Kernel k-Means Clustering

    Use Git or checkout with SVN using the web URL.

    Work fast with our official CLI. Leer meer.

    Launching GitHub Desktop

    If nothing happens, download GitHub Desktop and try again.

    Launching GitHub Desktop

    If nothing happens, download GitHub Desktop and try again.

    Launching Xcode

    If nothing happens, download Xcode and try again.

    Launching Visual Studio Code

    Your codespace will open once ready.

    There was a problem preparing your codespace, please try again.



Kommentaar:

  1. Nek

    Verskoning, het ek gedink en 'n vraag verwyder

  2. Machair

    Ek hoop, jy sal tot die regte besluit kom. Moenie wanhoop nie.

  3. Tolman

    Ek dink dat jy nie reg is nie. Ek is verseker. Kom ons bespreek dit.

  4. Ami

    Hierdie onderwerp is net onvergelykbaar :), ek hou daarvan.

  5. Kordell

    Dit moet meer beskeie wees



Skryf 'n boodskap