gtemata.com

Cum se calculează Covariance

Covariance este un termen statistic care ajută la înțelegerea corelării între două seturi de date. De exemplu, să presupunem că antropologii studiază înălțimea și greutatea unui anumit populațional pentru fiecare individ luat în considerare, valorile relative de înălțime și greutate sunt exprimate ca o pereche de date (x-y). Aceste numere pot fi introduse într-o formulă standard pentru a calcula relația lor de covarianță. Acest articol descrie mai întâi procesul matematic pentru a ajunge la această valoare și apoi se ocupă de două metode automate de obținere a rezultatului.

paşi

Partea 1

Calculați Covariance de mână folosind Formula standard
1
Aflați formula standard și componentele acesteia. Ecuația pentru calcularea covarianței este: Σ(x-xavg)(y-yavg)/(n-1){ displaystyle Sigma (x_ {i} -x _ { text {avg}}) (y_ {i} -y _ { text {avg}}) /- pentru ao folosi, trebuie să cunoașteți semnificația variabilelor și simbolurilor:
  • Σ{ displaystyle Sigma}: acest simbol este scrisoarea greacă "sigma" care în matematică reprezintă suma tuturor variabilelor care urmează. În formula de covarianță, simbolul Σ indică faptul că trebuie să calculați valorile care apar în numerotatorul fracțiunii și să le adăugați împreună înainte de a le împărți de numitor.
  • x{ displaystyle x_ {i}}: această variabilă este citită "x din i", indicele este un contor și înseamnă că trebuie să efectuați calculele luând în considerare fiecare valoare a lui x prezentă în seria de date.
  • xlavg{ displaystyle x_ {avg}}: abrevierea "avg" indică valoarea medie a tuturor datelor "x"- uneori, media este indicată de litera x cu o linie orizontală deasupra ei. Simbolul citește "valoarea medie a lui x".
  • y{ displaystyle y_ {i}}: în acest caz, trebuie să citiți "y din i" iar indicele reprezintă un contor indicând că trebuie să efectuați calculele luând în considerare fiecare valoare a y prezentă în seria de date.
  • ylavg{ displaystyle y_ {avg}}: abrevierea "avg" indică valoarea medie a tuturor datelor "y"- uneori, media este indicată cu litera y cu o linie orizontală deasupra ei. Simbolul citește "valoarea medie a y".
  • n{ displaystyle n}: reprezintă numărul de date prezente în colecție. Rețineți că pentru a rezolva o problemă legată de covarianță trebuie să luați în considerare elementele statistice ca o pereche de valori (x-y). Valoarea lui n este egală cu numărul de perechi și nu cu cel al datelor individuale.
  • 2
    Organizați un tabel de date. Înainte de a începe calculele, merită să colectați toate valorile. Ar trebui să desenați un tabel format din cinci coloane care să eticheteze fiecare în funcție de aceste criterii:
  • x{ displaystyle x}: completați această coloană cu toate valorile "x" set;
  • y{ displaystyle y}: scrieți toate valorile din "y" din seria din această coloană. Aveți grijă să faceți o pereche corectă între fiecare valoare a y cu x corespunzătoare. În problemele legate de covarianță, perechile de ordine și de date sunt importante;
  • (x-xavg){ displaystyle (x_ {i} -x {{text {avg}}}}: lăsați această coloană goală, atunci veți scrie media valorilor lui x;
  • (y-yavg){ displaystyle {y} {y} -y _ { text {avg}}}}}: nu scrie nimic la început, o veți termina mai târziu cu media valorilor lui y;
  • produs{ displaystyle { text {Produs}}}: pentru moment, când nu trebuie să scrie nimic, o veți completa în timpul procedurii.
  • 3
    Calculați valoarea medie a lui x. Setul descris mai jos este alcătuit din nouă numere - pentru a găsi cifra medie pe care trebuie să o adăugați și împărțiți rezultatul cu 9. Aceasta înseamnă că: 1 + 3 + 2 + 5 + 8 + 7 + 12 + 2 + 4 = 44. Împărțiți suma cu 9 și obțineți valoarea medie de 4,89. Acestea sunt datele medii pentru x pe care le utilizați în locul variabilei x (avg) în timpul următoarelor calcule.
  • 4
    Calculați valoarea medie a y. Procedați în mod similar. Coloana corespunzătoare datelor din y constă din nouă numere asociate cu cele ale lui x - constată media acestor date. Pentru exemplul considerat se procedează cu: 8 + 6 + 9 + 4 + 3 + 3 + 2 + 7 + 7 = 49. Împărțiți suma cu 9 și obțineți 5.44. Aceasta este valoarea medie pe care o utilizați în locul variabilei y (avg) în calculele următoare.
  • 5
    Găsiți valorile pentru (x-xavg){ displaystyle (x_ {i} -x {{text {avg}}}}. Pentru fiecare dată x indicată în coloana corespunzătoare, trebuie să găsiți diferența cu valoarea medie. Acesta este un calcul simplu, adică trebuie să scadeți 4,89 din fiecare valoare x din set. Dacă valoarea este mai mică decât media, obțineți un număr negativ - dacă este mai mare, obțineți un număr pozitiv. Aveți grijă să nu uitați semnele.
  • De exemplu, prima valoare din coloana x este 1. Introduceți-o în primul rând al coloanei (x-xavg){ displaystyle (x_ {i} -x {{text {avg}}}} și obțineți 1-4.89 = -3.89.
  • Repetați procedura pentru fiecare bucată de x. Ca rezultat, al doilea rând este 3-4.89 = -1.89. Al treilea rând este 2-4.89, adică -2.89. Continuați în acest fel pentru toate valorile lui x, cele nouă numere pe care le obțineți ar trebui să fie: -3,89 -1,89 -2,89, 0,11 - 3,11 - 2,11 - 7,11 - -2,89- -0,89.
  • 6
    Calculați valorile pentru (y-yavg){ displaystyle {y} {y} -y _ { text {avg}}}}}. În această coloană trebuie să raportați rezultatele unei scăderi similare, utilizând toate valorile y și media y (avg). Dacă valoarea inițială este mai mică decât media, obțineți un rezultat negativ - în caz contrar, rezultatul este pozitiv. Aveți grijă să nu uitați semnele.
  • Astfel, pentru prima linie calculele sunt: ​​8-5,44 = 2,56.
  • A doua linie este: 6-5.44 = 0.56.
  • Continuați să scăpați până la sfârșitul listei de numere. La sfârșit, cele nouă diferențe pe care le-ați găsit ar trebui să fie: 2.56- 0.56- 3.56-1.44-2.44-2.44-3.44-1.56-1, 56.
  • 7
    Calculați produsul pentru fiecare rând de date. Completați casetele din ultima coloană prin înmulțirea numerelor pe care le-ați scris în cele două anterioare și care sunt etichetate ca (x-xavg){ displaystyle (x_ {i} -x {{text {avg}}}} și (y-yavg){ displaystyle {y} {y} -y _ { text {avg}}}}}. Aveți grijă să lucrați linia în linie, înmulțind două numere care corespund perechilor de date - nu uitați semnele negative când mergeți.
  • În primul rând, în coloana pentru (x-xavg){ displaystyle (x_ {i} -x {{text {avg}}}}, ați scris numărul -3.89, în timp ce în coloană (y-yavg){ displaystyle {y} {y} -y _ { text {avg}}}}} ați raportat 2,56. Produsul acestor numere este -3,89 * 2,56 = -9,96.
  • Pe a doua linie, multiplicați cele două numere: -1,88 * 0,56 = -1,06.
  • Continuați astfel, linia de linie, până când ați epuizat toate perechile - la sfârșit, cele nouă numere ar trebui să fie: -9.96 -1.06- -10.29- -0.16- -7.59 - -5,15- -24,46-4,51-1,39.
  • 8
    Adăugați datele afișate în ultima coloană între ele. Aceasta este faza în care simbolul Σ "vine în acțiune". Odată ce toate calculele au fost efectuate, trebuie să adăugați rezultatele. Pentru setul simplu de date considerat ca un exemplu, ar trebui să obțineți nouă numere în coloana finală, rezumând-o prin atenția la simbolurile negative.
  • În acest caz, valoarea finală este -64.57. Scrieți-o în caseta de la baza coloanei - acesta este numărul pe care trebuie să-l scrieți numeratorului în formula standard a covarianței.
  • 9
    Calculează numitorul ecuației. De fapt, această valoare a fost deja găsită în timpul procedurii descrise mai sus - este de fapt reprezentată de (n - 1), adică de numărul de perechi de valori minus 1.
  • În exemplul considerat până acum, există 9 perechi de date, deci n = 9- în consecință n-1 = 8.
  • 10
    Împărțiți numitorul cu numitorul. Ultimul pas în procesul de calculare a covarianței este împărțirea numărătorului - Σ(x-xavg)(y-yavg){ displaystyle Sigma (x_ {i} -x _ { text {avg}}) {y_ {i} -y _ { text {avg}}}} - pentru numitor, adică (n-1){ displaystyle (n-1)}. Cotația este covarianța setului de date.
  • Luând în considerare întotdeauna exemplul anterior, operația este: -64.75 / 8 = -8.07.
  • Partea 2

    Utilizați o foaie de calcul Excel pentru a calcula Covariance
    1
    Luați notă de calculele repetate. Aceasta a covarianță este o procedură matematică pe care ar trebui să efectuați manual de câteva ori, în scopul de a înțelege sensul risultato- Cu toate acestea, dacă utilizați în mod constant acest instrument statistic pentru interpretarea datelor, este util să se găsească un mod mai rapid, mai automatizat pentru a obține rezultate. Ar trebui să realizeze că semnarea pentru seria de date relativ mici, care a fost considerat până acum, a trebuit să găsească două valori medii, efectua scădere opt single-uri, nouă multiplicare separată, o adunare și o divizie finală. Acestea sunt cele 31 de calcule elementare necesare pentru a obține o dată - de-a lungul căii, ați putea risca să uitați semnele negative sau să copiați cifrele în mod eronat, modificând astfel rezultatul.
  • 2
    Creați o foaie de calcul pentru a găsi covarianța. Dacă aveți posibilitatea să utilizați programul Excel (sau o altă foaie de calcul cu același potențial), puteți configura cu ușurință o masă. Etichetați cele cinci coloane așa cum ați proceda pentru calculele manuale: x, y, (x (i) -x (avg)), (y (i) -y (avg)) și produsul.
  • Pentru a simplifica nomenclatura, puteți eticheta a treia coloană ca "diferența de x" și al patrulea cum ar fi "diferența dintre y"atâta timp cât vă amintiți semnificația datelor.
  • Dacă începeți să desenați tabelul în colțul din stânga sus al foii de calcul, celula A1 conține eticheta "x", ceilalți merg ca o consecință până la celula E1.
  • 3
    Notați seria numerică. Introduceți valorile lui x și y în coloanele corespunzătoare - rețineți că ordinea punctelor este importantă și că trebuie să împerecheați fiecare valoare a lui y cu x corespunzătoare.
  • Lista valorilor x începe în celula A2 și continuă în jos pentru toate casetele necesare.
  • Lista valorilor y începe în celula B2 și continuă în jos pentru toate casetele necesare.
  • 4
    Găsiți media lui x și y. Programul Excel poate calcula foarte repede valoarea medie. În prima celulă goală a fiecărei coloane de date, tastați formula = MEDIA (A2: A ___). În spațiul alb, introduceți numărul corespunzător celulei ocupate de ultimele date.
  • De exemplu, dacă lista conține 100 de valori, acestea ocupă celulele de la A2 la A101, astfel încât formula este: = MEDIA (A2: A101).
  • Pentru lista de date y, formula este = MEDIA (B2: B101).
  • Amintiți-vă că trebuie să începeți să scrieți formula cu un semn de egalitate (=).


  • 5
    Introduceți formula pentru coloana (x (i) -x (avg)). În celula C2, trebuie să introduceți funcția care vă permite să calculați prima scădere care este: = A2 -____. În spațiul alb trebuie să raportați celula care conține valoarea medie a lui x.
  • În exemplul celor 100 de date, media este în căsuța A102, astfel formula este: = A2-A102.
  • 6
    Repetați aceeași funcție pentru coloană (y (i) -y (avg)). În urma exemplului de mai sus, trebuie să introduceți formula în celula D2 ca = B2-B102.
  • 7
    Introduceți formula pentru coloana produsului. În caseta E2 din coloana a cincea trebuie să tastați formula care vă permite să calculați produsul celor două celule anterioare - în acest caz scrieți doar: = C2 * D2.
  • 8
    Copiați diferitele funcții din celulele de sub fiecare coloană. Până acum ați programat calcule numai pentru primele două numere care ocupă linia 2. Folosind mouse-ul, evidențiați celulele C2, D2 și E2-mai târziu, plasați cursorul pe piață mică, situată în partea din dreapta jos până nu devine un semn "+". Faceți clic cu butonul stâng al mouse-ului și glisați cursorul în jos pentru a extinde casetele evidențiate pe întregul tabel. Această acțiune copiază automat cele trei formule din C2, D2 și E2 în celulele de mai jos. Trebuie să rețineți că calculele sunt efectuate automat prin completarea tabelului cu numere.
  • 9
    Setați suma pentru ultima coloană. Trebuie să calculați suma tuturor valorilor din coloană "produs". În prima celulă goală de mai jos lista de valori, introduceți formula = SUM (E2: E ___) și umple spațiul gol cu ​​numărul de celule care conține ultimele date ale listei.
  • Pentru exemplul celor 100 de serii de date, formula trebuie să fie scrisă în celula E102 în conformitate cu această sintaxă: = SUM (E2: E101).
  • 10
    Găsiți covarianța. Foaia de calcul vă permite să efectuați ultima operație. Ultimul număr a constatat că, în exemplul de mai sus este în E102, este numărătorul cu formula covarianza- aveți posibilitatea să tastați funcția de direct sub această celulă: = E102 / ___ scris, în loc de spațiu alb, numărul de date aflate în posesia dumneavoastră minus 1. În exemplul considerat până acum, datele sunt 100, deci trebuie să tastați 99 - coeficientul obținut este valoarea covarianței.
  • Partea 3

    Utilizați un Calculator online
    1
    Faceți o căutare online pentru a găsi calculatoare de covarianță. Mai multe școli, companii de programare sau alte surse au creat pagini web care vă permit să calculați cu ușurință datele de covarianță - puteți utiliza orice motor de căutare tastând cuvinte cheie "calculator de covariate".
  • 2
    Introduceți datele. Citiți cu atenție instrucțiunile site-ului pentru a introduce corect seria numerică. Este important ca perechile de date să fie comandate, altfel veți obține rezultate greșite. Diferitele pagini online oferă diferite metode de introducere a datelor.
  • De exemplu, acest lucru loc propune o casetă orizontală pentru valorile lui "x" și o a doua cutie orizontală pentru cele de "y". Instrucțiunile (în limba engleză) indică faptul că trebuie să tastați cei doi termeni separați doar printr-o virgulă - prin urmare, valorile "x" considerate în prima parte a articolului ar trebui să fie introduse în acest fel: 1,3,2,5,8,7,12,2,4, în timp ce seria de valori "y" ar trebui să arate astfel: 8,6,9,4,3,3,2,7,7.
  • celălalt website, întotdeauna în limba engleză, necesită introducerea seriei de valori "x" în prima casetă, respectând o tendință verticală și scriind un număr în fiecare rând - în consecință, setul de valori "x" el arată astfel:
  • 1
  • 3
  • 2
  • 5
  • 8
  • 7
  • 12
  • 2
  • 4
  • 3
    Calculați rezultatele. Aspectul interesant al acestor pagini este că, după introducerea datelor, trebuie doar să faceți clic pe buton "Calculeaza" pentru a obține valoarea covarianței imediat - majoritatea calculatoarelor online oferă, de asemenea, rezultate intermediare pentru media lui x, y și a valorii lui n.
  • Partea 4

    Interpretați rezultatele Covariance
    1
    Căutați o relație pozitivă sau negativă. Covariance este un instrument statistic care reprezintă relația dintre două seturi de date. În exemplul dat în introducere, vom examina înălțimea și greutatea unei populații, v-ați aștepta ca, pe măsura creșterii înălțimii, să crească și greutatea, ceea ce înseamnă că există un raport de covarianță pozitiv. Un alt exemplu este setul de ore pe care un individ îl antrenează în golf și scorurile pe care le primește - în acest caz, trebuie să vă așteptați la o covarianță negativă, deoarece, în timp ce persoana se antrenează, Scorul Gara_Stroke_Play ar trebui să scadă (în jocul de golf jucătorul cu cel mai mic scor câștigă).
    • Luați în considerare proba de date descrisă mai sus. Cotația finală este -8.07, care este un număr negativ, ceea ce înseamnă că, pe măsură ce x crește, y scade. Puteți verifica dacă acest fenomen este adevărat, prin observarea unor perechi de a datelor, de exemplu, pentru valorile lui x 1 și 2 vor avea, respectiv, a valorilor 7, 8 și 9. Valorile x egal cu 8 și 12 sunt cuplate, respectiv, cu y = 3 și -y = 2.
  • 2
    Interpretează semnificația valorii absolute a covarianței. Dacă numărul este mare, fie pozitiv, fie negativ, înseamnă că cele două serii numerice sunt puternic corelate între ele atât pozitiv, cât și negativ.
  • În exemplul considerat, covarianța este egală cu -8,07, care este o valoare destul de mare. Datele se situează între 1 și 12, deci 8 reprezintă un număr destul de mare - aceasta înseamnă că fiecare pereche numerică este legată printr-o corelare puternică.
  • 3
    Înțelegeți absența unei relații. Dacă găsiți o valoare de covarianță egală sau apropiată de 0, puteți ajunge la concluzia că perechile de date sunt practic independente - în acest caz, creșterea sau scăderea unei valori nu schimbă cealaltă: cei doi termeni sunt cuplați în mod aleatoriu .
  • De exemplu, să presupunem că comparați măsurătorile de încălțăminte cu grade de absolvire. Deoarece există mulți factori care afectează nota finală a unui student, trebuie să vă așteptați o aproape de zero-covarianță acest lucru înseamnă că nu există nici o relație între cele două seturi.
  • 4
    Observați relația din punct de vedere grafic. Pentru a înțelege covarianța vizual, poate aduce perechile de valori pe un sistem cartezian de a face acest lucru, este destul de simplu pentru a realiza că, deși ele nu formează o linie dreaptă perfectă, diferitele puncte sunt distribuite de-a lungul unei dur pe diagonală, care merge de la din stânga sus în dreapta jos - aceasta este descrierea diagramă a unei covarianțe negative. În plus, valoarea -8.07 covarianță este faptul că, în comparație cu seturile de date, este un număr destul de mare-acest lucru sugerează că raportul dintre cele două serii numerice este destul de îngust și se poate observa în căutarea liniară distribuirea punctelor.
  • Pentru a examina cum să inserați perechi de valori într-un grafic cartezian, citiți acest articol.
  • Avertismente

    • Covarianța are o aplicare limitată în statistici - calculul său este adesea un pas intermediar pentru a găsi indici de corelare sau alți termeni. Aveți grijă să nu trageți concluzii bazate prea mult pe acest fapt.
    Distribuiți pe rețelele sociale:

    înrudit