gtemata.com

Cum se calculează valorile anomale

O valoare anormală este o valoare numerică semnificativ diferită de celelalte date dintr-un eșantion. Acest termen este utilizat în studii statistice și poate indica anomalii în datele studiate sau erori în măsurători. Cunoașterea modului în care trebuie abordate depășirile este importantă pentru a asigura o înțelegere adecvată a datelor și va permite obținerea unor concluzii mai precise din studiu. Există o procedură destul de simplă care vă permite să calculați valorile anormale dintr-un set dat de valori.

paşi

1
Învățați să recunoașteți valorile potențiale anormale. Înainte de a calcula dacă o anumită valoare numerică este o valoare anormală, este util să examinați setul de date și să alegeți valorile potențiale anormale. De exemplu, luați în considerare un set de date care reprezintă temperatura a 12 obiecte diferite care se află în aceeași cameră. Dacă 11 dintre obiectele au o temperatură într-un anumit interval de temperaturi apropiate de 21 de grade Celsius, dar a douăsprezecea obiect (probabil un cuptor) are 150 de grade Celsius, o examinare superficială ar putea conduce la concluzia că măsurarea temperaturii cuptorului este o valoare potențială anormală.
  • 2
    Aranjați valori numerice în ordine crescătoare. Continuând cu exemplul anterior, luați în considerare următorul set de numere reprezentând temperaturile anumitor obiecte: {21, 20, 23, 20, 20, 19, 20, 22, 21, 150, 21, 19}. Acest set trebuie ordonat după cum urmează: {19, 19, 20, 20, 20, 20, 21, 21, 21, 22, 23, 150}.
  • 3
    Calculează valoarea mediană a setului de date. Mediana este numărul de la care se găsește jumătate din date și sub care se află cealaltă jumătate. În cazul în care setul are chiar cardinalitate, trebuie să fie medie între cei doi termeni intermediari. În exemplul anterior, cei doi termeni intermediari sunt 20 și 21, deci mediana este ((20 + 21) / 2), care este de 20,5.
  • 4
    Calculați prima quartilă. Această valoare, numită Q1, reprezintă numărul sub care se află 25% din datele numerice. Referindu-se din nou la exemplul de mai sus, în acest caz va fi necesar să se facă o medie între două numere, în acest caz 20 și 20. Media lor este ((20 + 20) / 2), adică 20.


  • 5
    Calculați a treia cartelă. Această valoare, numită Q3, este numărul de la care se află 25% din date. Continuând cu același exemplu, medierea între 2 valori 21 și 22 dă o valoare Q2 de 21,5.
  • 6
    Găsiți "gard interior" pentru toate datele. Primul pas este multiplicarea diferenței între Q1 și Q3 (numită deviație interquartilată) cu 1,5. În exemplu, diferența intercutilă este (21,5 - 20), adică 1,5. Înmulțind acest decalaj cu 1,5 veți obține 2,25. Adăugați acest număr la Q3 și extrageți-l din Q1 pentru a construi gardurile interioare. În exemplul nostru gardurile interioare ar fi 17.75 și 23.75.
  • Orice date numerice din afara acestui interval sunt considerate o valoare ușor anormală. În setul de valori al exemplului nostru, numai temperatura cuptorului, de 150 de grade, este considerată o valoare anormală ușoară.
  • 7
    Găsiți "gard exterior" pentru setul de valori. Le puteți găsi exact cu aceeași procedură pe care ați folosit-o pentru gardurile interioare, cu excepția faptului că diferența intercuartilă este înmulțită cu 3 mai degrabă decât cu 1,5. Înmulțirea decalajului intercutilat obținut în exemplul nostru cu 3 obține (1,5 * 3) 4,5. Gardurile exterioare sunt deci 15.5 și 26.
  • Orice date numerice care se află în afara gardurilor exterioare sunt considerate o valoare anormală extremă. În exemplul nostru, temperatura cuptorului de 150 de grade este de asemenea considerată o valoare anormală extremă.
  • Sfaturi

    • Odată ce s-au găsit valorile anormale, încercați să le explicați prezența înainte de a le elimina din setul de date detectate - acestea ar putea indica atât erori de măsurare, cât și anomalii în distribuția datelor.

    Lucruri de care ai nevoie

    • calculator
    Distribuiți pe rețelele sociale:

    înrudit