Inligting

Is $F_{ST}$ 'n waarskynlikheid en 'n korrelasiekoëffisiënt?

Is $F_{ST}$ 'n waarskynlikheid en 'n korrelasiekoëffisiënt?


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

$F_{ST}$ is een van die bekendste en belangrikste statistieke van die hele evolusionêre biologie. Tog verstaan ​​baie mense dit verkeerd of misbruik die klassieke resultate uit die literatuur oor $F_{ST}$ (Whitlock en McCaughley, 1999).

Fiksasie-indeks in oneindige eilande-model

In 'n panmiktiese populasie is die waarskynlikheid van identiteit deur afkoms $F(t)$ in generasie $t$ die waarskynlikheid om dieselfde alleel twee keer te monster plus die waarskynlikheid om nie dieselfde alleel te steekproef nie vermenigvuldig met die waarskynlikheid van identiteit deur afkoms in die vorige generasie

$$F(t) = frac{1}{2N} + left(1-frac{1}{2N} ight) F(t-1)$$

, waar $N$ die bevolkingsgrootte is. Hier neem ek aan diploïede populasie en geen mutasie nie. In 'n oneindige alleelmodel moet hierdie waarskynlikhede geweeg word deur die waarskynlikheid dat nie een van die ouer in die vorige generasie migreer het nie.

$$F(t) = (1-m)^2left(frac{1}{2N} + left(1-frac{1}{2N} ight) F(t-1) ight )$$

, waar $m$ die migrasiekoers tussen enige twee demes is. Stel $F(t) = F(t-1) = hat F = F_{ST}$, met die veronderstelling dat $m$ laag is en los op vir $F_{ST}$ opbrengs na die klassieke resultaat van Sewall Wright

$$F_{ST} = frac{1}{1+4Nm}$$

Definisies van $F_{ST}$

$F_{ST}$ is deur S. Wright gedefinieer as

$$F_{ST} = frac{var(p)}{ar p(1-ar p)}$$

, waar $var(p)$ die variansie van alleelfrekwensie tussen populasie is en $ar p$ die algehele gemiddelde alleelfrekwensie is.

Uit Nei (1973)

Wright het gewys dat die variasie in geenfrekwensie onder subpopulasies deur die fiksasie-indekse of F-statistieke ontleed kan word. Hy het die formule $$1 - F_{IT}= (1 - F_{IS}) (l-F_{ST})$$ afgelei waar FIT en F1s die korrelasies tussen twee verenigende gamete is om die individue relatief tot die totale populasie te produseer en relatief tot die subpopulasies, onderskeidelik, terwyl $F_{ST}$ die korrelasie is tussen twee gamete wat ewekansig uit elke subpopulasie getrek is. $F_{IT}$ en $F_{IS}$ kan negatief word, maar $F_{ST}$ is nienegatief.

Vraag

In die afleiding van die fiksasie-indeks in oneindige eilandmodel, $F_{ST}$ is 'n waarskynlikheid van identiteit. In die aanhaling van Nei (1973) (en ander bronne) word $F_{ST}$ as 'n korrelasiekoëffisiënt aangebied. In Wright en Nei se definisie sien ek nie die verband van die vergelykings tot óf 'n waarskynlikheid óf 'n korrelasiekoëffisiënt nie. Kan jy help om dit vir my uit te klaar?

Ek sou byvoorbeeld verwag dat $Eleft[frac{var(p)}{ar p (1-ar p)} ight] ≈ frac{1}{4Nm+1}$, waar $ E[X]$ is die verwagte waarde van die veranderlike $X$. Kan jy aantoon dat dit waar is?


Spearman se rangkorrelasiekoëffisiënt

Die Spearman se rangkorrelasiekoëffisiënt word gebruik om die sterkte van 'n skakel tussen twee stelle data te ontdek. Hierdie voorbeeld kyk na die sterkte van die verband tussen die prys van 'n geriefsitem ('n 50cl bottel water) en afstand vanaf die Kontemporêre Kunsmuseum in El Raval, Barcelona.

Voorbeeld: Die hipotese wat getoets is, is dat pryse moet daal met afstand vanaf die sleutelarea van gentrifikasie rondom die Kontemporêre Kunsmuseum. Die lyn wat gevolg word is Transect 2 in die kaart hieronder, met deurlopende monsterneming van die prys van 'n 50cl bottel water by elke geriefswinkel.

Kaart om die ligging van omgewingsgradiënte vir dwarslyne in El Raval, Barcelona te wys

Ons kan verwag om te vind dat die prys van 'n bottel water afneem namate afstand vanaf die Kontemporêre Kunsmuseum toeneem. Hoër eiendomshure naby die museum moet in hoër pryse in die winkels weerspieël word.

Die hipotese kan soos volg geskryf word:

Die prys van 'n geriefsitem neem af namate afstand vanaf die Kontemporêre Kunsmuseum toeneem.

Die meer objektiewe wetenskaplike navorsingsmetode is altyd om te aanvaar dat daar nie so 'n prys-afstand verhouding bestaan ​​nie en om die nulhipotese as:
daar is geen noemenswaardige verband tussen die prys van 'n geriefsitem en afstand vanaf die Kontemporêre Kunsmuseum nie.

Nadat u op die bewoording van die hipotese besluit het, moet u oorweeg of daar enige ander faktore is wat die studie kan beïnvloed. Sommige faktore wat pryse kan beïnvloed, kan insluit:

  • Die tipe kleinhandelwinkel. Jy moet konsekwent wees in jou keuse van kleinhandelwinkel. Kroeë en restaurante vra byvoorbeeld dikwels aansienlik meer vir water as 'n geriefswinkel. Jy moet besluit watter tipe uitlaat om te gebruik en daarby hou vir al jou data-insameling.
  • Sommige winkels het verskillende pryse vir dieselfde item: 'n hoë toeriste- en laer plaaslike prys, afhanklik van die winkelier se persepsie van die kliënt.
  • Winkels naby hoofpaaie kan meer vra as winkels in minder toeganklike agterstrate, as gevolg van die hoër huurgeld wat vir hoofweg-kleinhandelpersele vereis word.
  • Die positiewe verspreidingseffekte van ander nabygeleë gebiede van gentrifikasie of van mededingende gebiede van toeriste-aantreklikheid.
  • Die negatiewe verspreidingseffekte van nabygeleë gebiede van stedelike verval.
  • Hoër pryse kan gedurende die somer gehef word wanneer die vraag minder buigsaam is, wat seisoenale vergelykings minder betroubaar maak.
  • Kumulatiewe steekproefneming kan die verwagte prys-afstand-gradiënt verwring as verskeie winkels in 'n kort area langs die transeklyn groepeer, gevolg deur 'n aansienlike gaping voor die volgende groep kleinhandelafsetpunte.

Jy moet sulke faktore in jou ondersoek noem.

Data wat ingesamel is (sien datatabel hieronder) dui op 'n redelik sterk negatiewe verwantskap soos in hierdie spreidingsgrafiek getoon:

Strooigrafiek om die verandering in die prys van 'n geriefsitem met afstand vanaf die Kontemporêre Kunsmuseum te wys. Rol oor prent om tendenslyn te sien.

Die spreidingsgrafiek toon die moontlikheid van 'n negatiewe korrelasie tussen die twee veranderlikes en die Spearman se rangkorrelasietegniek moet gebruik word om te sien of daar wel 'n korrelasie is, en om die sterkte van die verband te toets.

Spearman se rangkorrelasiekoëffisiënt

'n Korrelasie kan maklik as 'n spreidingsgrafiek geteken word, maar die mees presiese manier om verskeie te vergelyk pare data is om 'n statistiese toets te gebruik - dit bepaal of die korrelasie werklik betekenisvol is en of dit die gevolg van toeval alleen kon gewees het.

Spearman se rangkorrelasiekoëffisiënt is 'n tegniek wat gebruik kan word om die sterkte en rigting (negatief of positief) van 'n verwantskap tussen twee veranderlikes op te som.

Die resultaat sal altyd tussen 1 en minus 1 wees.

Metode - berekening van die koëffisiënt

  • Skep 'n tabel uit jou data.
  • Rangskik die twee datastelle. Rangorde word verkry deur die rangorde '1' aan die grootste getal in 'n kolom te gee, '2' aan die tweede grootste waarde ensovoorts. Die kleinste waarde in die kolom sal die laagste posisie kry. Dit moet vir beide stelle metings gedoen word.
  • Gebonde tellings word die gemiddelde (gemiddelde) rangorde gegee. Byvoorbeeld, die drie gelyke tellings van 1 euro in die voorbeeld hieronder is vyfde in volgorde van prys, maar beklee drie posisies (vyfde, sesde en sewende) in 'n rangordehiërargie van tien. Die gemiddelde rang in hierdie geval word bereken as (5+6+7) ÷ 3 = 6.
  • Vind die verskil in die range (d): Dit is die verskil tussen die range van die twee waardes op elke ry van die tabel. Die rang van die tweede waarde (prys) word afgetrek van die rang van die eerste (afstand vanaf die museum).
  • Kwadreer die verskille (d²) Om negatiewe waardes te verwyder en dan op te som (d²).
Geriefswinkel Afstand vanaf CAM (m) Rangafstand Prys van 50cl bottel (€) Rang prys Verskil tussen range (d) d²
1 50 10 1.80 2 8 64
2 175 9 1.20 3.5 5.5 30.25
3 270 8 2.00 1 7 49
4 375 7 1.00 6 1 1
5 425 6 1.00 6 0 0
6 580 5 1.20 3.5 1.5 2.25
7 710 4 0.80 9 -5 25
8 790 3 0.60 10 -7 49
9 890 2 1.00 6 -4 16
10 980 1 0.85 8 -7 49
d² = 285,5

Datatabel: Spearman se rangkorrelasie

  • Bereken die koëffisiënt (Rs) deur die formule hieronder te gebruik. Die antwoord sal altyd tussen 1.0 ('n perfekte positiewe korrelasie) en -1.0 ('n perfekte negatiewe korrelasie) wees.

Wanneer dit in wiskundige notasie geskryf word, lyk die Spearman Rank formule soos volg:

  • Vind die waarde van al die d² waardes deur al die waardes in die Difference² kolom by te tel. In ons voorbeeld is dit 285.5. Vermenigvuldig dit met 6 gee 1713.
  • Nou vir die onderste lyn van die vergelyking. Die waarde n is die aantal plekke waar jy metings geneem het. Dit is in ons voorbeeld 10. Deur hierdie waardes in n³ - n te vervang, kry ons 1000 - 10
  • Ons het nou die formule: Rs = 1 - (1713/990) wat 'n waarde gee vir Rs:

Wat beteken dit Rs waarde van -0.73 gemiddeld?

Hoe nader Rs is na +1 of -1, hoe sterker die waarskynlike korrelasie. 'n Perfekte positiewe korrelasie is +1 en 'n perfekte negatiewe korrelasie is -1. Die Rswaarde van -0.73 dui op 'n redelik sterk negatiewe verwantskap.

'n Verdere tegniek word nou benodig om die betekenis van die verhouding.

  • Werk die 'grade van vryheid' uit wat jy moet gebruik. Dit is die aantal pare in jou steekproef minus 2 (n-2). In die voorbeeld is dit 8 (10 - 2).
  • Plot nou jou resultaat op die tabel.
  • As dit onder die lyn gemerk 5% is, dan is dit moontlik dat jou resultaat die produk van toeval was en jy moet die hipotese verwerp.
  • As dit bo die 0.1% betekenisvlak is, dan kan ons 99.9% seker wees dat die korrelasie nie toevallig plaasgevind het nie.
  • As dit bo 1% is, maar onder 0,1%, kan jy sê jy is 99% vol vertroue.
  • As dit bo 5% is, maar onder 1%, kan jy sê dat jy 95% selfversekerd is (dit wil sê statisties is daar 'n 5% waarskynlikheid dat die resultaat toevallig plaasgevind het).

In die voorbeeld gee die waarde 0,73 'n betekenisvlak van effens minder as 5%. Dit beteken dat die waarskynlikheid dat die verhouding wat jy gevind het 'n toevallige gebeurtenis is ongeveer 5 uit 'n 100. Jy is 95% seker dat jou hipotese korrek is. Die betroubaarheid van jou steekproef kan gestel word in terme van hoeveel navorsers wat dieselfde studie as joune voltooi dieselfde resultate sal kry: 95 uit 100.

Grafiek van betekenisvlakke vir Spearman's Rank-korrelasiekoëffisiënte deur Student's te gebruik t verspreiding

  • Die feit dat twee veranderlikes korreleer, kan niks bewys nie - net verdere navorsing kan eintlik bewys dat een ding die ander affekteer.
  • Databetroubaarheid hou verband met die grootte van die steekproef. Hoe meer data jy insamel, hoe meer betroubaar is jou resultaat.

Klik Spearman's Rank Signifance Graph vir 'n leë kopie van die bogenoemde betekenisgrafiek.


Stappe vir berekening r

Ons sal begin deur die stappe vir die berekening van die korrelasiekoëffisiënt te lys. Die data waarmee ons werk is gepaarde data, waarvan elke paar aangedui sal word deur (xek,yek).

  1. Ons begin met 'n paar voorlopige berekeninge. Die hoeveelhede van hierdie berekeninge sal gebruik word in die daaropvolgende stappe van ons berekening van r:
    1. Bereken x̄, die gemiddelde van al die eerste koördinate van die data xek.
    2. Bereken ȳ, die gemiddelde van al die tweede koördinate van die data
    3. yek.
    4. Bereken s x die steekproefstandaardafwyking van al die eerste koördinate van die data xek.
    5. Bereken s y die steekproefstandaardafwyking van al die tweede koördinate van die data yek.

    Hierdie proses is nie moeilik nie, en elke stap is redelik roetine, maar die versameling van al hierdie stappe is baie betrokke. Die berekening van die standaardafwyking is op sy eie vervelig genoeg. Maar die berekening van die korrelasiekoëffisiënt behels nie net twee standaardafwykings nie, maar 'n menigte ander bewerkings.


    Bereken ρ

    Die kovariansie van die twee veranderlikes ter sprake moet bereken word voordat die korrelasie bepaal kan word. Vervolgens word elke veranderlike se standaardafwyking vereis. Die korrelasiekoëffisiënt word bepaal deur die kovariansie te deel deur die produk van die twee veranderlikes se standaardafwykings.

    Standaardafwyking is 'n maatstaf van die verspreiding van data vanaf die gemiddelde daarvan. Kovariansie is 'n maatstaf van hoe twee veranderlikes saam verander. Die omvang daarvan is egter onbeperk, dus is dit moeilik om te interpreteer. Die genormaliseerde weergawe van die statistiek word bereken deur kovariansie te deel deur die produk van die twee standaardafwykings. Dit is die korrelasiekoëffisiënt.


    Korrelasies kan verskillende vlakke van sterkte hê

    Ons het 'n paar algemene korrelasies as óf gedek

    Alhoewel daardie beskrywings goed is, is alle positiewe en negatiewe korrelasies nie almal dieselfde nie.

    Hierdie beskrywings kan ook na getalle vertaal word. 'n Korrelasiewaarde kan enige desimale waarde aanneem tussen negatiewe een, (-1), en positiewe een, (+1).

    Desimale waardes tussen (-1) en (0) is negatiewe korrelasies, soos (-0.32).

    Desimale waardes tussen (0) en (+1) is positiewe korrelasies, soos (+0.63).

    'n Volmaakte nulkorrelasie beteken daar is geen korrelasie nie.

    Vir elke tipe korrelasie is daar 'n reeks sterk korrelasies en swak korrelasies. Korrelasiewaardes nader aan nul is swakker korrelasies, terwyl waardes nader aan positiewe of negatiewe een is sterker korrelasie.

    Sterk korrelasies toon meer ooglopende tendense in die data, terwyl swakkes meer morsig lyk. Byvoorbeeld, die sterker hoë, positiewe korrelasie hieronder lyk meer soos 'n lyn in vergelyking met die swakker en laer, positiewe korrelasie.

    Verskillende vlakke van positiewe korrelasies. R kode.

    Net so het sterk negatiewe korrelasies 'n meer ooglopende tendens as die swakker en laer negatiewe korrelasie.

    Verskillende vlakke van negatiewe korrelasies. R kode


    Statistieke Sakrekenaar: Korrelasiekoëffisiënt

    Hierdie sakrekenaar kan gebruik word om die monster korrelasiekoëffisiënt.

    Voer die x,y-waardes in die blokkie hierbo in. Jy kan data in een van die volgende twee formate invoer:

    Druk die "Dien data in"-knoppie om die berekening uit te voer. Die korrelasiekoëffisiënt sal vertoon word as die berekening suksesvol is. Om die sakrekenaar skoon te maak en nuwe data in te voer, druk "Herstel".

    Wat is die korrelasiekoëffisiënt

    Die korrelasie koëffisiënt, of Pearson produk-oomblikkorrelasiekoëffisiënt (PMCC) is 'n numeriese waarde tussen -1 en 1 wat die uitdruk sterkte van die lineêre verband tussen twee veranderlikes.Wanneer r nader aan 1 is, dui dit op 'n sterk positiewe verwantskap. 'n Waarde van 0 dui aan dat daar geen verwantskap is nie. Waardes naby aan -1 dui op 'n sterk negatiewe verwantskap tussen die twee veranderlikes. Jy kan die lineêre regressie sakrekenaar gebruik om hierdie verwantskap op 'n grafiek te visualiseer.

    Korrelasiekoëffisiëntformule

    Daar is baie formules om die korrelasiekoëffisiënt te bereken (almal wat dieselfde resultaat lewer). Hierdie sakrekenaar gebruik die volgende:

    waar n is die totale aantal monsters, xek (x1, x2, . ,xn) is die x-waardes en yek is die y-waardes.


    Is $F_{ST}$ 'n waarskynlikheid en 'n korrelasiekoëffisiënt? - Biologie

    Variansie-analise (ANOVA) vir die vergelyking van gemiddeldes van drie of meer veranderlikes.

    Gebruik hierdie toets om gemiddeldes van 3 of meer monsters/behandelings te vergelyk, om die fout te vermy wat inherent is aan die uitvoering van veelvuldige t-toetse

    Agtergrond. As ons byvoorbeeld 3 behandelings het om te vergelyk (A, B, C), dan sal ons 3 aparte nodig hê t-toetse (vergelyk A met B, A met C en B met C). As ons sewe behandelings gehad het, sou ons 21 apart nodig hê t-toetse. Dit sal tydrowend wees, maar, meer belangrik, dit sal inherent gebrekkig wees, want in elkeen t-toets aanvaar ons 'n 5% kans dat ons gevolgtrekking verkeerd is (wanneer ons toets vir bl = 0.05). So, in 21 toetse sou ons verwag (na waarskynlikheid) dat een toets vir ons 'n vals resultaat sal gee. Analysis Of Variance (ANOVA) oorkom hierdie probleem deur ons in staat te stel om beduidende verskille tussen die behandelings op te spoor as 'n geheel. Ons doen 'n enkele toets om te sien of daar verskille tussen die gemiddeldes op ons gekose waarskynlikheidsvlak is.

    Ideaal gesproke sou ons vir hierdie toets die dieselfde aantal herhalings vir elke behandeling, maar dit is nie noodsaaklik nie. Gevorderde rekenaarprogramme kan die probleem van ongelyke herhalings oorkom deur "ontbrekende waardes" in te voer.

    'n Belangrike aanname onderlê die Variansieanalise: dat alle behandelings het soortgelyke variasie. As daar sterk redes is om dit te betwyfel, sal die data dalk getransformeer moet word voordat die toets gedoen kan word. In die praktyk is daar 'n eenvoudige manier om te kyk vir "homogeniteit van variansie". Ons hanteer dit by stap "3" in die prosedure hieronder.

    Moenie hieroor skrik nie! Dit lyk ingewikkeld, maar dit is eintlik baie maklik. Jy behoort dit te verstaan, en dan kan jy 'n eenvoudige statistiese program (bv. Microsoft "Excel") gebruik om die hele toets uit te voer.

    Aanvaar dat ons die biomassa van 3 bakterieë in flesse glukose sous aangeteken het, en ons het 3 replikaat flesse vir elke bakterie gebruik. [Maar die toets kan ewe op enige soort veranderlike van toepassing wees]

    Stap 1. Teken die data in kolomme op:

    Stap 2. Vir elke kolom, voer S in x, n, , S x 2, en S d 2 (kliek hier vir metode)

    Stap 3. ['n Kontrole vir gelyke variansie - die onderliggende aanname van hierdie toets] Vir elke kolom verdeel S d 2 deur n-1 om die variansie te verkry, s 2 . Deel die hoogste waarde van s 2 deur die laagste waarde van s 2 om 'n variansieverhouding (F) te verkry. Soek dan 'n tabel van F opmaks vir die aantal behandelings in ons tabel van data en die vryheidsgrade (aantal herhalings per behandeling -1). As ons variansieverhouding oorskry nie die Fmaks waarde, dan is ons veilig om voort te gaan. Indien nie, sal die data dalk getransformeer moet word.

    Stap 4. Som al die waardes van S x 2 en noem die som A.

    Stap 5. Som al die waardes vir en noem die som B.

    Stap 6. Som al die waardes vir S x om die te bekom groot totaal.

    Stap 7. Kwadreer die groottotaal en deel dit deur die totale aantal waarnemings noem dit D.

    Stap 8. Bereken die Totale som van vierkante (S van S) = A - D

    Stap 9. Bereken die Tussen-behandelings som van vierkante = B - D

    Stap 10. Bereken die Oorblywende som van vierkante = A - B [Dit word soms die Fout som van vierkante]

    Stap 11. Konstrueer 'n tabel soos volg, waar *** items verteenwoordig wat ingevoeg moet word, en waar u = aantal behandelings en v = aantal herhalings.

    Bron van afwyking Som van vierkante
    (S van S)
    Grade van vryheid (df) Gemiddelde vierkant
    = S van S / df
    Tussen behandelings *** u - 1 ***
    Oorblywende *** u(v-1) ***
    Totaal *** (uv)-1

    [Die totale df is altyd een minder as die totale aantal data-inskrywings]

    Stap 12. Gebruik die beteken vierkante in die laaste kolom van hierdie tabel, doen a variansieverhouding toets om 'n F waarde:

    F = Tussen behandelings gemiddelde vierkant / Residuele gemiddelde vierkant

    Stap 13. Gaan na 'n tabel van F (bl = 0.05) en lees die waarde waar af n1 is die df van die tussen behandelings gemiddelde vierkant en n2 is df van die res gemiddelde vierkant. Indien die berekende F-waarde die getabuleerde waarde oorskry, is daar beduidende verskil tussen behandelings. Indien wel, kyk dan na die getabuleerde F-waardes vir bl = 0,01 en dan 0,001, om te sien of die behandelingsverskille meer betekenisvol is.

    As jy na baie van die stappe hierbo kyk, moet hulle jou herinner aan die stappe in a t-toets. Byvoorbeeld, in 'n t-toets ons bereken S x, S x 2, en S d 2 (wat die som van vierkante), dan verdeel ons S d 2 by n-1, net soos ons in stap 11 (hierbo) gedoen het. Dus, die Variansie-analise gebruik dieselfde tipe prosedure, maar vir meer as 2 monsters. As jy jouself hiervan wil oortuig, probeer dan die Variansie-analise doen vir net twee monsters (bv. Bakterium A en Bakterium B). Jy sal presies dieselfde resultaat kry as in a t-toets.

    Repliseer Bakterium A Bakterium B Bakterium C Rytotale
    1 12 20 40 72
    2 15 19 35 69
    3 9 23 42 74
    S x 36 62 117 215 (Groottotaal)
    n 3 3 3
    12 20.7 39
    S x 2 450 1290 4589 6329 (noem dit A)
    432 1281.3 4563 6276.3 (noem dit B)
    S d 2 18 8.7 26 52.7 (A - B)
    s 2 (= S d 2 /n-1) 9.4 35 13

    Fmaks toets: F = 13/4,35 = 2,99. Dit is laer as die Fmaks van 87,5 (vir 3 behandelings en 2 df, by bl = 0.05) dus is die afwykings homogeen en ons kan voortgaan met variansieanalise. As ons waarde die getabuleerde F oorskry hetmaks dan sal ons die data moet transformeer.

    D = (Groottotaal) 2 totale waarnemings = 2152 9 = 5136.1

    Totale som van vierkante (S van S) = A - D = 1192.9

    Tussen-behandelings S van S = B - D = 1140.2

    Oorblywende S van S = A - B = 52.7

    Bron van afwyking Som van vierkante
    (S van S)
    Grade van vryheid * Gemiddelde vierkant
    (= S van S df)
    Tussen behandelings 1140.2 u - 1 (=2)* 570.1
    Oorblywende 52.7 u(v-1) (=6)* 8.78
    Totaal 1192.9 (uv)-1 (=8)*

    [* Vir u behandelings (3 in ons geval) en v herhaal (3 in ons geval) die totale df is een minder as die totale aantal datawaardes in die tabel (9 waardes in ons geval)]

    F = Tussen behandelings gemiddelde vierkant / Residuele gemiddelde vierkant = 570.1 / 8.78 = 64.93

    Die getabuleerde waarde van F (bl = 0.05) waar u is df van tussen behandelings gemiddelde vierkant (2) en v is df van residuele gemiddelde vierkant (6) is 5.1. Ons berekende F-waarde oorskry dit en oorskry selfs die getabuleerde F-waarde vir bl = 0,001 (F = 27,0). Daar is dus 'n baie groot verskil tussen behandelings.

    [Let daarop dat die term "gemiddelde vierkant" in 'n Variansieanalise is eintlik 'n variansie - dit word bereken deur die som van vierkante deur die vryheidsgrade te deel. In 'n t-toets sal ons dit s 2 noem, verkry deur S te deel d 2 deur n-1. Variansie-analise behels die verdeling van die totale variansie in (1) variansie wat met die verskillende behandelings/steekproewe geassosieer word en (2) ewekansige variansie, bewys deur die variasie binne die behandelings. Wanneer ons die F-waarde bereken, vra ons in werklikheid "is daar 'n groot hoeveelheid variansie wat verband hou met die verskillende behandelings in vergelyking met die hoeveelheid ewekansige variansie?".]

    Die Variansie-analise het ons vertel enigste dat daar verskille tussen behandelings is in die eksperiment as geheel. Soms is hierdie inligting nuttig in sy eie reg. Maar dit sê nie vir ons watter behandelings van mekaar verskil nie.

    Ons het nou 'n probleem, want elke keer as ons een behandeling met 'n ander vergelyk (byvoorbeeld deur bakterie A met bakterie B te vergelyk), doen ons die ekwivalent van 'n t-toets, met 'n waarskynlikheid om 'n verkeerde interpretasie te maak. Ons het een of ander manier nodig om hierdie probleem te vermy.

    Metode 1. Bereken die minste betekenisvolle verskil tussen enige twee middele. [Dit is nie algemeen bevoordeel nie, maar dit kan gebruik word met versigtigheid.]

    Ons maak gebruik van die feit dat ons berekeninge vir Variansieanalise soortgelyk was aan dié van a t-toets (sien vroeër) in die besonder, die residuele gemiddelde vierkant is 'n skatting van s 2 vir elke behandeling, omdat die variansie vir alle behandelings aanvaar word om gelyk te wees in 'n Variansie-analise.

    In die t-toets, ons bereken s d 2 soos volg:

    In die variansie-analise word aanvaar dat s 2 vir elke behandeling dieselfde is, en as n want elke behandeling is dieselfde, dan kan ons vergelyk enige twee middele deur s te bereken d 2 soos volg:

    s d 2 = 2 x residuele gemiddelde vierkant / n

    Ons kan dan s d as die vierkantswortel van s d 2 en bereken t as:

    As ons dit vir twee spesifieke middele gedoen het, kan ons die berekende vergelyk t daarmee in 'n t-tafel, gebruik die df van die oorblywende gemiddelde vierkant (omdat dit die oorblywende variansie in die hele eksperiment weerspieël).

    Daar is 'n eenvoudiger manier om dit te doen enige twee middele:

    As ons die vergelyking neem en elke kant met s vermenigvuldig d ons kry: t (s d) = 1 - 2

    Met ander woorde, enige twee middele sal aansienlik van mekaar verskil as hulle met meer verskil as "t vermenigvuldig met s d& quot

    Dus t( s d) verteenwoordig die minste betekenisvolle verskil (LSD) tussen enige twee middele.

    In wetenskaplike referate kan jy data sien wat soos volg aangebied word:

    Hier sou die skrywer vir ons die middele vir die 3 behandelings (bakterieë) gee en ons vertel dat variansieanalise gebruik is om die minste betekenisvolle verskil tussen enige van die middels by te vind bl = 0.05 (die vlak van waarskynlikheid wat gekies is vir die t waarde).

    Trouens, die tabel hierbo gebruik die data vir bakteriese biomassa in ons uitgewerkte voorbeeld.

    Vir 5% LSD vind ons s d 2 (= 2 x residuele gemiddelde vierkant / n). Dit is 17.56 /3 = 5.85.

    Ons vierkantswortel dit om s te vind d = 2.42.

    Die getabuleerde waarde van t vir 6 df (van die oorblywende gemiddelde vierkant) is 2,45 (bl = 0.05).

    So die 5% LSD is t(s d ) = 2,45 x 2,42 = 5,92.

    Ons tabel van data dui aan dat elke bakterie 'n aansienlik verskillende biomassa as elke ander een geproduseer het.

    'n Woord van waarskuwing: Ons kan baie meer selfversekerd wees oor beduidende verskil tussen bakterieë 1 en 3 of tussen bakterieë 2 en 3 as wat ons kan oor die verskil tussen bakterieë 1 en 2. Onthou dat elke keer as ons so 'n vergelyking maak, ons die risiko loop van 5% fout. Maar as ons die gebruik het t waarde vir bl = 0.01 dan kan ons meer veilig vyf vergelykings maak en steeds net 'n 1 uit 20 kans hê om verkeerd te wees.

    Statistici beveel dit aan die LSD moet nooit onoordeelkundig gebruik word nie, maar slegs om vergelykings te toets tussen behandelings wat ons met die ontwerp van die eksperiment "nominated". Elke behandeling kan byvoorbeeld met 'n kontrole vergelyk word, maar elke behandeling moet nie noodwendig met mekaar vergelyk word nie.

    Metode 2. Baie mense gebruik nou variante van die LSD, soos a Meervoudige reeks toets, wat ons meer veilig in staat stel om enige behandelings in 'n tabel te vergelyk. Hierdie toets is baie verkieslik bo die LSD. Dit word apart op 'n ander bladsy verduidelik.

    Die voorbeeld wat ons hierbo gebruik het (bakteriële biomassa) word hieronder getoon as 'n uitdruk van "Excel".

    Nadat ons die data op die sigblad ingevoer het, kies ons Anova: enkelfaktor van die analise-instrumente, klik OK, en voer al 9 selle data in Invoer veranderlike reeks. Die tabel toon die bron van variansie as "Tussen groepe" (= tussen behandelings) en "binne groepe" (= oorblywende). Ons word ook vertel van die berekende F-waarde (64.949..), die F-waarde wat ons sal moet oorskry (F krities) om 'n beduidende verskil tussen behandelings te hê, en die waarskynlikheid (p-waarde) dat ons berekende F-waarde sou slegs deur toeval (toevallige fout) verkry word. Hierdie waarskynlikheid is baie klein (8.61 x 10 -5 ) so ons het 'n hoogs beduidende verskil tussen behandelings in ons tabel. Ons kan dan die oorblywende (binne groepe) gemiddelde kwadraat (MS) gebruik om LSD te bereken, soos vroeër verduidelik.


    Korrelasie

    Op 'n spreidingsdiagram, hoe nader die punte aan 'n reguit lyn lê, hoe sterker is die lineêre verwantskap tussen twee veranderlikes. Om die sterkte van die verwantskap te kwantifiseer, kan ons die korrelasiekoëffisiënt bereken. In algebraïese notasie, as ons twee veranderlikes x en y het, en die data neem die vorm aan van n pare (d.w.s. [x)1, y1], [x2, y2], [x3, y3] . [xn, yn]), dan word die korrelasiekoëffisiënt gegee deur die volgende vergelyking:

    waar is die gemiddelde van die x-waardes, en is die gemiddelde van die y-waardes.

    Dit is die produkmomentkorrelasiekoëffisiënt (of Pearson-korrelasiekoëffisiënt). Die waarde van r lê altyd tussen -1 en +1. 'n Waarde van die korrelasiekoëffisiënt naby aan +1 dui op 'n sterk positiewe lineêre verwantskap (m.a.w. een veranderlike neem toe met die ander Fig. ​ Fig.2). 2). 'n Waarde naby aan -1 dui op 'n sterk negatiewe lineêre verwantskap (m.a.w. een veranderlike neem af soos die ander toeneem Fig. ​ Fig.3). 3). 'n Waarde naby aan 0 dui op geen lineêre verwantskap nie (Fig. ​ (Fig.4) 4), daar kan egter 'n nie-lineêre verwantskap tussen die veranderlikes wees (Fig. ​ (Fig.5 5).

    Korrelasiekoëffisiënt (r) = +0.9. Positiewe lineêre verhouding.

    Korrelasiekoëffisiënt (r) = -0.9. Negatiewe lineêre verwantskap.

    Korrelasiekoëffisiënt (r) = 0.04. Geen verhouding nie.

    Korrelasiekoëffisiënt (r) = -0.03. Nie-lineêre verhouding.

    Vir die Aɮ data is die korrelasiekoëffisiënt 0.62, wat 'n matige positiewe lineêre verband tussen die twee veranderlikes aandui.

    Hipotese toets van korrelasie

    Ons kan die korrelasiekoëffisiënt gebruik om te toets of daar 'n lineêre verband tussen die veranderlikes in die populasie as 'n geheel is. Die nulhipotese is dat die populasiekorrelasiekoëffisiënt gelyk is aan 0. Die waarde van r kan vergelyk word met dié wat in Tabel ​ Tabel2, 2 gegee word, of alternatiewelik presies P waardes kan verkry word uit die meeste statistiese pakkette. Vir die Aɮ data is r = 0.62 met 'n steekproefgrootte van 20 groter as die waarde wat vetgedruk is in Tabel ​ Tabel 2 2 vir P = 0.01, wat 'n aandui P waarde van minder as 0,01. Daarom is daar voldoende bewyse om voor te stel dat die ware populasiekorrelasiekoëffisiënt nie 0 is nie en dat daar 'n lineêre verband tussen ln ureum en ouderdom is.

    Tabel 2

    5% en 1% punte vir die verspreiding van die korrelasiekoëffisiënt onder die nulhipotese dat die populasiekorrelasie 0 is in 'n tweesterttoets

    r waardes vir tweekantige waarskynlikhede (P) Tweekantige waarskynlikhede (P)
    Steekproefgrootte0.050.01Steekproefgrootte0.050.01
    31.001.00230.410.53
    40.950.99240.400.52
    50.880.96250.400.51
    60.810.92260.390.50
    70.750.87270.380.49
    80.710.83280.370.48
    90.670.80290.370.47
    100.630.76300.360.46
    110.600.73400.310.40
    120.580.71500.280.36
    130.550.68600.250.33
    140.530.66700.240.31
    150.510.64800.220.29
    160.500.62900.210.27
    170.480.611000.200.26
    180.470.591100.190.24
    190.460.581200.180.23
    200.440.561300.170.23
    210.430.551400.170.22
    220.420.541500.160.21

    Gegenereer deur die standaardformule [2] te gebruik.

    Vertrouensinterval vir die populasiekorrelasiekoëffisiënt

    Alhoewel die hipotesetoets aandui of daar 'n lineêre verwantskap is, gee dit geen aanduiding van die sterkte van daardie verwantskap nie. Hierdie bykomende inligting kan verkry word vanaf 'n vertrouensinterval vir die populasiekorrelasiekoëffisiënt.

    Om 'n vertrouensinterval te bereken, moet r getransformeer word om 'n normale verspreiding te gee deur gebruik te maak van Fisher se z-transformasie [2]:

    Die standaardfout [3] van zr is ongeveer:

    en dus 'n 95% vertrouensinterval vir die ware populasiewaarde vir die getransformeerde korrelasiekoëffisiënt zr word gegee deur zr - (1.96 × standaardfout) tot zr + (1.96 × standaardfout). Omdat zr is Normaalverdeel, 1,96 afwykings van die statistiek sal 'n 95% vertrouensinterval gee.

    Vir die Aɮ data is die getransformeerde korrelasiekoëffisiënt zr tussen ureum en ouderdom is:

    Die standaardfout van zr is:

    Die 95% vertrouensinterval vir zr is dus 0,725 - (1,96 × 0,242) tot 0,725 + (1,96 × 0,242), wat 0,251 tot 1,199 gee.

    Ons moet die inverse van Fisher se transformasie op die onderste en boonste grense van hierdie vertrouensinterval gebruik om die 95% vertrouensinterval vir die korrelasiekoëffisiënt te verkry. Die onderste limiet is:

    gee 0.25 en die boonste limiet is:

    gee 0.83. Daarom is ons 95% vol vertroue dat die bevolkingskorrelasiekoëffisiënt tussen 0.25 en 0.83 is.

    Die breedte van die vertrouensinterval hang duidelik af van die steekproefgrootte, en daarom is dit moontlik om die steekproefgrootte wat benodig word vir 'n gegewe vlak van akkuraatheid te bereken. Vir 'n voorbeeld, sien Bland [4].

    Misbruik van korrelasie

    Daar is 'n aantal algemene situasies waarin die korrelasiekoëffisiënt verkeerd geïnterpreteer kan word.

    Een van die mees algemene foute in die interpretasie van die korrelasiekoëffisiënt is versuim om in ag te neem dat daar 'n derde veranderlike kan wees wat verband hou met albei die veranderlikes wat ondersoek word, wat verantwoordelik is vir die oënskynlike korrelasie. Korrelasie impliseer nie oorsaaklikheid nie. Om die saak vir kousaliteit te versterk, moet oorweging gegee word aan ander moontlike onderliggende veranderlikes en of die verwantskap in ander populasies geld.

    'n Nie-lineêre verwantskap kan bestaan ​​tussen twee veranderlikes wat onvoldoende beskryf sal word, of moontlik selfs onopgespoor sal word, deur die korrelasiekoëffisiënt.

    'n Datastel kan soms uit verskillende subgroepe bestaan, byvoorbeeld mans en vrouens. Dit kan lei tot groepe punte wat lei tot 'n opgeblaasde korrelasiekoëffisiënt (Fig. ​ (Fig.6). 6). 'n Enkele uitskieter kan dieselfde soort effek produseer.

    Subgroepe in die data wat lei tot 'n misleidende korrelasie. Alle data: r = 0,57 mans: r = -0,41 vroue: r = -0,26.

    Dit is belangrik dat die waardes van een veranderlike nie vooraf bepaal of tot 'n sekere reeks beperk word nie. Dit kan lei tot 'n ongeldige skatting van die ware korrelasiekoëffisiënt omdat die proefpersone nie 'n ewekansige steekproef is nie.

    Nog 'n situasie waarin 'n korrelasiekoëffisiënt soms verkeerd geïnterpreteer word, is wanneer twee metodes van meting vergelyk word. 'n Hoë korrelasie kan verkeerdelik aanvaar word dat daar ooreenstemming tussen die twee metodes is. ’n Analise wat die verskille tussen pare waarnemings ondersoek, soos dié wat deur Bland en Altman geformuleer is [5], is meer gepas.


    Die Spearman se rangkorrelasiekoëffisiënt is 'n nieparametriese maatstaf van rangkorrelasie (statistiese afhanklikheid van rangorde tussen twee veranderlikes).

    Vernoem na Charles Spearman, word dit dikwels met die Griekse letter aangedui ‘ρ’ (rho) en word hoofsaaklik vir data-analise gebruik.

    Dit meet die sterkte en rigting van die assosiasie tussen twee gerangskik veranderlikes. Maar voordat ons oor die Spearman-korrelasiekoëffisiënt praat, is dit belangrik om eers Pearson se korrelasie te verstaan. 'n Pearson-korrelasie is 'n statistiese maatstaf van die sterkte van 'n lineêre verwantskap tussen gepaarde data.

    Vir die berekening en beduidendheidstoetsing van die rangorde-veranderlike, vereis dit dat die volgende data-aanname waar is:

    As jou data nie aan die bogenoemde aannames voldoen nie, sal jy Spearman's Coefficient nodig hê. It is necessary to know what monotonic function is to understand Spearman correlation coefficient. A monotonic function is one that either never decreases or never increases as it is an independent variable increase. A monotonic function can be explained using the image below:

    The image explains three concepts in monotonic function:

    1. Monotonically increasing: When the ‘x’ variable increases and the ‘y’ variable never decreases.
    2. Monotonically decreasing: When the ‘x’ variable increases but the ‘y’ variable never increases
    3. Not monotonic: When the ‘x’ variable increases and the ‘y’ variable sometimes increases and sometimes decreases.

    Monotonic relation is less restrictive when compared to a linear relationship that is used in Pearson’s coefficient. Although monotonicity is not the ultimate requirement for Spearman correlation coefficient, it will not be meaningful to pursue Spearman’s correlation without actually determining the strength and direction of a monotonic relationship if it was already known that the relationship between the variable is non-monotonic.

    Spearman correlation coefficient: Formula and Calculation with Example

    Hier,

    n= number of data points of the two variables

    di= difference in ranks of the “ith” element

    The Spearman Coefficient,⍴, can take a value between +1 to -1 where,

    • A ⍴ value of +1 means a perfect association of rank
    • A ⍴ value of 0 means no association of ranks
    • A ⍴ value of -1 means a perfect negative association between ranks.

    Closer the ⍴ value to 0, weaker is the association between the two ranks.

    We must be able to rank the data before proceeding with the Spearman’s Rank Coefficient of Correlation. It is important to observe if increasing one variable, the other variable follows a monotonic relation.

    At every level, you will need to compare the values of the two variables. Here is how the calculations work:

    The scores of 9 students in History and Geography are mentioned in the table below.

    Step 1- Create a table of the data obtained.

    Step 2- Start by ranking the two data sets. Data ranking can be achieved by assigning the ranking “1” to the biggest number in the column, “2” to the second biggest number and so forth. The smallest value will usually get the lowest ranking. This should be done for both sets of measurements.

    Step 3- Add a third column d to your data set, d here denotes the difference between ranks. For example, if the first student’s physics rank is 3 and the math rank is 5 then the difference in the rank is 3. In the fourth column, square your d waardes.

    Geskiedenis Ranglys Aardrykskunde Ranglys d d square
    35 3 30 5 2 4
    23 5 33 3 2 4
    47 1 45 2 1 1
    17 6 23 6 0 0
    10 7 8 8 1 1
    43 2 49 1 1 1
    9 8 12 7 1 1
    6 9 4 9 0 0
    28 4 31 4 0 0
    12

    Step 4- Add up all your d square values, which is 12 (∑d square)

    Step 5- Insert these values in the formula

    The Spearman’s Rank Correlation for this data is 0.9 and as mentioned above if the value is nearing +1 then they have a perfect association of rank.

    How to Conduct a Spearman correlation coefficient with QuestionPro

    In this section, you will learn how you can run Spearman’s Rank Coefficient of Correlation for your survey.

    Stap 1: Go to My Surveys →Select Survey→Analytics

    Stap 2: Click on Correlational Analysis under Analysis


    Stap 3: Click on Generate Spearman Coefficient button to get a detailed report


    In the above example, the Spearman coefficient of correlation is used to find out the relationship between the two variables, Work experience and Monthly income. A general notion is, monthly income should increase with the work experience, which means there should be a positive association between the two variables which is proved by the rs value which is 0.97


    Erkennings

    We thank the Ministère de la Région Wallonne for capture licences, nature conservation associations for granting site access, L Dhondt and A Snirc for help with lab work, and three anonymous reviewers for improving the manuscript through their constructive comments. SV and MB acknowledge grant BELSPO-PADDII EV10/26A and SV acknowledges grant FRFC 2.4595.07 for support. SV is postdoctoral researcher and NS research associate of the Fund for Scientific Research – FNRS. This is publication BRC125 of the Biodiversity Research Centre at Université catholique de Louvain.