Inligting

5.4: Toetsing vir evolusionêre korrelasies - Biologie

5.4: Toetsing vir evolusionêre korrelasies - Biologie


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Daar is baie maniere om te toets vir evolusionêre korrelasies tussen twee karakters. Ek sal dan aan die einde van die hoofstuk terugkeer na "standaard" metodes vir evolusionêre regressie.

Afdeling 5.4a: Toetsing vir karakterkorrelasies deur maksimum waarskynlikheid en AIC te gebruik

Om te toets vir 'n evolusionêre korrelasie tussen twee karakters, stel ons regtig belang in die elemente in die matriks R. Vir twee karakters, x en y, R kan geskryf word as:

(vgl. 5.8)

$$ mathbf{R} = egin{bmatrix} sigma_x^2 & sigma_{xy} sigma_{xy} & sigma_y^2 end{bmatrix} $$

Ons is geïnteresseerd in die parameter σxy - die evolusionêre kovariansie - en of dit gelyk is aan nul (geen korrelasie) of nie. Een eenvoudige manier om hierdie hipotese te toets, is om twee mededingende hipoteses op te stel en met mekaar te vergelyk. Een hipotese (H.1) is dat die eienskappe onafhanklik van mekaar ontwikkel, en 'n ander (H.2) dat die eienskappe met 'n mate van kovariansie ontwikkel σxy. Ons kan hierdie twee koersmatrikse skryf as:

(vergelyk 5.9)

$$ egin{array}{lcr} mathbf{R}_{H_1} = egin{bmatrix} sigma_x^2 & 0 0 & sigma_y^2 end{bmatrix} & mathbf{ R}_{H_2} = egin{bmatrix} sigma_x^2 & sigma_{xy} sigma_{xy} & sigma_y^2 end{bmatrix} end{skikking} $$

Ons kan 'n ML -skatting van die parameters in bereken RH.2 gebruik vergelyking 5.4. Die maksimum waarskynlikheid skatting van RH.1 kan verkry word deur op te let dat, as karakterontwikkeling onafhanklik is tussen alle karakters, beide σx2 en σy2 kan verkry word deur elke karakter afsonderlik te behandel en vergelykings uit hoofstuk 3 te gebruik om vir elk op te los. Dit blyk dat die ML skat vir σx2 en σy2 is altyd presies dieselfde vir H.1 en H.2.

Om hierdie twee modelle te vergelyk, bereken ons die waarskynlikheid dat elkeen met behulp van vergelyking 5.4. Ons kan dan hierdie twee waarskynlikhede vergelyk deur óf 'n waarskynlikheidsverhoudingstoets óf deur AICc -tellings te vergelyk (sien hoofstuk 2).

Figuur 5.3. Die verwantskap tussen soogdierliggaamsmassa en tuisgebiedgrootte. Om die effek van die boekhouding van 'n boom te illustreer, teken ek 'n soliede lyn vir die regressielyn uit 'n standaardanalise en 'n stippellyn van PGLS, wat die filogenetiese boom gebruik. Hierdie metodes word in meer besonderhede in die volgende afdeling bespreek. Beeld deur die outeur, kan hergebruik word onder 'n CC-BY-4.0-lisensie.

Vir die soogdiervoorbeeld kan ons die twee eienskappe van (ln-getransformeerde) liggaamsgrootte en tuisafstandgrootte (Garland 1992) oorweeg. Hierdie twee karakters het 'n positiewe korrelasie met behulp van standaard regressie -analise (r = 0.27), en 'n lineêre regressie is betekenisvol (P = 0,0001; Figuur 5.3). As ons 'n multivariate Brown -bewegingsmodel by hierdie data pas, met inagneming van tuisafstand as eienskap 1 en liggaamsmassa as eienskap 2, kry ons die volgende parameterberamings:

(vgl. 5.10)

$$ begin {array} {cc} hat { mathbf {a}} _ {H_2} = begin {bmatrix} 2.54 4.64 end {bmatrix} & hat { mathbf {R}} _ {H_2} = begin {bmatrix} 0.24 & 0.10 0.10 & 0.09 end {bmatrix} end {array} $$

Let op die positiewe buite-diagonale element in die geskatte R matriks, wat dui op 'n positiewe evolusionêre korrelasie tussen hierdie twee eienskappe. Hierdie model stem ooreen met hipotese 2 hierbo, en het 'n log-waarskynlikheid van lnL = −164,0. As ons 'n model pas met geen korrelasie tussen die twee eienskappe nie, kry ons:

(vgl. 5.11)

$$ begin {array} {cc} hat { mathbf {a}} _ {H_1} = begin {bmatrix} 2.54 4.64 end {bmatrix} & hat { mathbf {R}} _ {H_1} = begin {bmatrix} 0.24 & 0 0 & 0.09 end {bmatrix} end {array} $$

Dit is weer die moeite werd om op te let dat slegs die ramings van die evolusionêre korrelasie deur hierdie modelbeperking beïnvloed is; alle ander parameterberamings bly dieselfde. Hierdie model het 'n kleiner (meer negatiewe) waarskynlikheid van lnL = −180.5.

'n Waarskynlikheidsverhouding toets gee Δ = 33.0, en P <<0,001, verwerp die nulhipotese. Die verskil in AekCc tellings is 30,9, en die Akaike-gewig vir model 2 is effektief 1,0. Alle maniere om hierdie twee modelle te vergelyk, bied sterk ondersteuning vir hipotese 2. Ons kan tot die gevolgtrekking kom dat daar 'n evolusionêre korrelasie bestaan ​​tussen liggaamsmassa en grootte van tuisafstand by soogdiere. Wat dit in evolusionêre terme beteken, is dat evolusionêre veranderinge in liggaamsmassa oor soogdiere geneig is om positief te verander met veranderinge in huisreeks.

Afdeling 5.4b: Toetsing vir karakterkorrelasies deur Bayesiaanse modelkeuse te gebruik

Ons kan ook 'n Bayesiese benadering tot toetsing vir die gekorreleerde evolusie van twee karakters implementeer. Die eenvoudigste manier om dit te doen is om net die standaardalgoritme vir Bayesiaanse MCMC te gebruik om 'n gekorreleerde model by die twee karakters te pas. Ons kan die algoritme wat in hoofstuk 2 aangebied word soos volg verander:

  1. Voorbeeld van 'n stel beginparameterwaardes σx2, σy2, σxy, $ bar {z} _1 (0) $ en $ bar {z} _2 (0) $ uit vorige uitkerings. Vir hierdie voorbeeld kan ons ons vorige verspreiding as uniform stel tussen 0 en 1 vir σx2 en σy2, uniform van -1 tot +1 vir σxy, uniform van 1 tot 9 vir $ bar {z} _1 (0) $ (lnMass), en -3 tot 5 vir $ bar {z} _1 (0) $ (lnHomerange).
  2. Gegewe die huidige parameterwaardes, kies nuwe voorgestelde parameterwaardes deur die voorsteldigtheid te gebruik V(bl′|bl). Hier sal ons vir al vyf parameterwaardes 'n eenvormige voorsteldigtheid met breedte 0,2 gebruik, sodat V(bl′|bl)∼U(bl − 0.1, bl + 0.1).
  3. Bereken drie verhoudings:
  • Die vorige kans verhouding, Rblrekor. Dit is die verhouding tussen die waarskynlikheid om die parameterwaardes p en p 'van die vorige te trek. Aangesien ons priors uniform is, Rblrekor = 1.
  • Die voorstel digtheid verhouding, Rblroblosal. Dit is die verhouding van waarskynlikheid van voorstelle wat van p na p' gaan en die omgekeerde. Ons voorsteldigtheid is simmetries, sodat V(bl′|bl)=V(bl|bl') En Rblroblosal = 1.
  • Die waarskynlikheidsverhouding, Rlekkelekhood. Dit is die verhouding van waarskynlikhede van die data gegewe die twee verskillende parameterwaardes. Ons kan hierdie waarskynlikhede bereken uit vergelyking 5.6 hierbo (vgl. 5.12).
    $$ R_{waarskynlikheid} = frac{L(p'|D)}{L(p|D)} = frac{P(D|p')}{P(D|p)} $$
  1. Soek Racceblt, die produk van die vorige kans, die verhouding van die voorsteldigtheid en die waarskynlikheidsverhouding. In hierdie geval is beide die vorige kans en die voorsteldigtheid verhoudings 1, dus Racceblt = Rlekkelekhood.
  2. Teken 'n ewekansige getal x uit 'n eenvormige verdeling tussen 0 en 1. As x < Racceblt, die voorgestelde waarde van alle parameters aanvaar; andersins verwerp, en behou die huidige parameterwaardes.
  3. Herhaal stappe 2-5 'n groot aantal kere.

Ons kan dan die posterior verspreiding ondersoek of die parameter aansienlik groter is as (of minder as) nul. As 'n voorbeeld, ek het hierdie MCMC vir 100 000 generasies bestuur en die eerste 10 000 generasies weggegooi as inbrand. Ek het die posterior verspreiding elke 100 generasies geneem en die volgende parameterberamings verkry: $ hat { sigma} _x^2 = 0.26 $ [95% geloofwaardige interval (CI): 0.18 - 0.38], $ hat { sigma } _y^2 = 0.10 $ (95% CI: 0.06 -0.15), en $ hat { sigma} _ {xy} = 0.11 $ (95% CI: 0.06 - 0.17; sien Figuur 5.4). Hierdie resultate is vergelykbaar met ons ML -ramings. Verder het die 95% CI vir σxy oorvleuel nie met 0 nie; in werklikheid, nie een van die 901 posterior monsters van σxy is minder as nul. Weereens kan ons met vertroue tot die gevolgtrekking kom dat daar 'n evolusionêre korrelasie tussen hierdie twee karakters is.

Afdeling 5.5c: Toets vir karakterkorrelasies met behulp van tradisionele benaderings (PIC, PGLS)

Die benadering hierbo uiteengesit, wat toets vir 'n evolusionêre korrelasie tussen karakters deur modelkeuse te gebruik, word nie tipies toegepas in die vergelykende biologieliteratuur nie. In plaas daarvan maak die meeste toetse van karakterkorrelasie staat op filogenetiese regressie deur een van twee metodes te gebruik: filogenetiese onafhanklike kontraste (PIC's) en filogenetiese algemene kleinste kwadrate (PGLS). PGLS is eintlik wiskundig identies aan PIC's in die eenvoudige geval wat hier beskryf word, en meer buigsaam as PIC's vir ander modelle en tipes karakters. Hier sal ek beide PIC's en PGLS hersien en verduidelik hoe dit werk en hoe dit verband hou met die modelle hierbo beskryf.

Filogenetiese onafhanklike kontraste kan gebruik word om 'n regressietoets uit te voer vir die verhouding tussen twee verskillende karakters. Om dit te doen, bereken 'n mens gestandaardiseerde PIC's vir eienskap x en eienskap y. 'N Mens gebruik dan standaard lineêre regressie wat deur die oorsprong gedwing is om te toets vir 'n verband tussen hierdie twee stelle PIC's. Dit is nodig om die regressie deur die oorsprong te dwing, omdat die rigting van aftrekking van kontraste oor enige knoop in die boom willekeurig is; 'n weerspieëling van al die kontraste gelyktydig oor beide asse behoort geen invloed op die ontledings te hê nie3.

Vir soogdier-homerange en liggaamsmassa toon 'n PIC-regressietoets 'n beduidende korrelasie tussen die twee eienskappe (P < <0,0001; Figuur 5.5).

Figuur 5.4. Regressie gebaseer op onafhanklike kontraste. Die regressielyn word deur die oorsprong gedwing. Beeld deur die outeur, kan hergebruik word onder 'n CC-BY-4.0-lisensie.

Daar is egter een nadeel aan PIC-regressie-analise - 'n mens kry nie 'n skatting van die sny van die regressie van y op x – dit wil sê die waarde van y mens sou verwag wanneer x = 0. Die maklikste manier om hierdie parameterskatting te kry, is om eerder Filogenetiese Veralgemeende Kleinste Kwadrate (PGLS) te gebruik. PGLS gebruik die algemene statistiese masjinerie van veralgemeende kleinste kwadrate, en pas dit toe op filogenetiese vergelykende data. In normale veralgemeende kleinste kwadrate, konstrueer 'n mens 'n model van die verband tussen y en x, as:

(vgl. 5.13)

y = XDb + ϵ

Hier, y is 'n n × 1 vektor van eienskapwaardes en b is 'n vektor van onbekende regressiekoëffisiënte wat uit die data bereken moet word. XD is 'n ontwerpmatriks, insluitend die eienskappe waarmee 'n mens wil korreleer y en – indien die model 'n snysnit insluit – 'n kolom van 1'e. Om te kyk vir korrelasies, gebruik ons:

(vergelyk 5.14)

$$ mathbf {X_D} = begin {bmatrix} 1 & x_1 1 & x_2 dots & dots 1 & x_n end {bmatrix} $$

In die geval van een voorspeller en een responsveranderlike, b is 2 × 1 en die gevolglike model kan gebruik word om korrelasies tussen twee karakters te toets. Maar, XD Dit kan ook meerveranderlik wees en kan meer as een karakter insluit wat verband hou met y. Dit stel ons in staat om die ekwivalent van meervoudige regressie in 'n filogenetiese konteks uit te voer. Uiteindelik, ϵ is die res-die verskil tussen die y-waardes wat deur die model voorspel word en die werklike waardes daarvan. In tradisionele regressie word aanvaar dat die residue almal normaalverdeel is met dieselfde variansie. Daarenteen, met GLS, aanvaar 'n mens dat die residue dalk nie onafhanklik van mekaar is nie; in plaas daarvan is hulle meerveranderlik normaal met die verwagte gemiddelde nul en 'n mate van variansie-kovariansie Ω.

In die geval van Brownse beweging, kan ons die residue modelleer as met afwykings en kovariansies wat die struktuur van die filogenetiese boom volg. Met ander woorde, ons kan ons filogenetiese variansie-kovariansie matriks vervang C as die matriks Ω. Ons kan dan standaard GLS -ontledings uitvoer om modelparameters te skat:

(vgl. 5.15)

$$ hat { mathbf {b}} = ( mathbf {X} _D ^ intercal mathbf { Omega} ^ {-1} mathbf {X} _D ^ intercal) ^ {-1} mathbf {X} _D ^ intercal mathbf { Omega} ^ {-1} mathbf {y} = ( mathbf {X} _D ^ intercal mathbf {C} ^ {-1} mathbf {X} _D ^ intercal)^{-1} mathbf{X}_D ^ intercal mathbf{C}^{-1} mathbf{y} $$

Die eerste term in $ hat { mathbf {b}} $ is die filogenetiese gemiddelde $ bar {z} (0) $. Die ander term in $ hat { mathbf {b}} $ is 'n skatting van die helling van die verhouding tussen y en xwaarvan die berekening die effek van filogenetiese verwantskappe statisties bepaal.

Die toepassing van PGLS op soogdiere se liggaamsmassa en tuisbereik lei tot 'n identiese skatting van die helling en P-waarde soos verkry met behulp van onafhanklike kontraste. PGLS gee ook 'n skatting van die afsnypunt van hierdie verhouding, wat nie by die PIC's verkry kan word nie.

'N Ander verskil is natuurlik dat PIC's en PGLS regressie gebruik, terwyl die benadering wat hierbo uiteengesit is, 'n verband toon. Hierdie twee tipes statistiese toetse verskil. Korrelasietoetse vir 'n verband tussen x en y, terwyl regressie die beste manier om te voorspel probeer vind y van x. Vir korrelasie maak dit nie saak watter veranderlike ons noem nie x en wat ons noem y. In regressie sal ons egter 'n ander helling kry as ons voorspel y gegee x in plaas daarvan om te voorspel x gegee y. Die model wat deur filogenetiese regressiemodelle aanvaar word, verskil ook van die model hierbo, waar ons aanvaar het dat die twee karakters onder 'n gekorreleerde Brownse bewegingsmodel ontwikkel. Daarteenoor neem PGLS (en implisiet PIC's) aan dat die afwykings van elke spesie vanaf die regressielyn onder 'n Brownse bewegingsmodel ontwikkel. Ons kan ons byvoorbeeld voorstel dat spesies vrylik langs die regressielyn kan gly, maar dat die ontwikkeling rondom die lyn vasgelê kan word deur 'n normale Brown -model. 'N Ander manier om oor 'n PGLS -model te dink, is wat ons behandel x as 'n vaste eiendom van spesies. Die afwyking van y van wat deur voorspel word x is wat ontwikkel onder 'n Brown -bewegingsmodel. As dit vreemd lyk, is dit omdat dit so is! Daar is ander, meer komplekse modelle vir die modellering van die gekorreleerde evolusie van twee karakters wat aannames maak wat meer evolusionêr realisties is (bv. Hansen 1997); ons sal later in die boek terugkeer na hierdie onderwerp. Terselfdertyd is PGLS 'n goed gebruikte metode vir evolusionêre regressie, en is dit ongetwyfeld nuttig ondanks sy ietwat vreemde aannames.

PGLS-analise, soos hierbo beskryf, veronderstel dat ons die foutstruktuur van ons lineêre model kan modelleer soos dit ontwikkel onder 'n Brownse bewegingsmodel. ’n Mens kan egter die struktuur van die foutvariansie-kovariansiematriks verander om ander evolusiemodelle, soos Ornstein-Uhlenbeck, te weerspieël. Ons keer terug na hierdie onderwerp in 'n latere hoofstuk.


Kyk die video: Сравнение двух списков в Excel Различия u0026 Сходства (Oktober 2022).