Fandom

Math Wiki

Statistică

1.029pages on
this wiki
Add New Page
Comments0 Share

Ad blocker interference detected!


Wikia is a free-to-use site that makes money from advertising. We have a modified experience for viewers using ad blockers

Wikia is not accessible if you’ve made further modifications. Remove the custom ad blocker rule(s) and the page will load as expected.

Caracterizarea repartiţiilor de frecvenţă Edit

Datele (care se referă la diferite domenii ale cunoaşterii) odată aranjate într-o repartiţie de frecvenţe, scot în evidenţă trăsăturile commune ale tuturor curbelor de repartiţie şi care se supun unor legi generale. Acest lucru ne permite ca experienţa câştigată într-un anumit domeniu al cunoaşterii să poată fi extinsă şi în alt domeniu.

La toate curbele însă trebuie să observăm variabilitatea mărimilor care se obţin ca rezultat al unor măsurători. Cu toate că există variabilitate, se observă o tendinţă a datelor de a se grupa în centrul curbei (tendinţa centrală). Dacă se măsoară mărimea abaterii de la punctul de concentrare maximă a frecvenţelor, se constată că sunt mai frecvente abaterile mici decât cele mari, că abaterile în ambele părţi faţă de punctul de concentrare maximă se echilibrează aproape complet şi că abaterile foarte mari sunt foarte rare. Deoarece frecvenţa variază, vom alege acea mărime care se întâlneşte cel mai des. Ea va fi măsura tendinţei centrale a repartiţiei. Această mărime, ca şi altele asemănătoare se numesc indicatori (sau parametrii) de poziţie, deoarece arată poziţia elementelor principale ale repartiţiei pe axa absciselor.

Caracterul reprezentativ al oricărui indicator de poziţie depinde de cât de strîns i se alătură celelalte valori, sau cu alte cuvinte, de gradul de concentrare a datelor în jurul tendinţei centrale.

Indicatorii tendinţei centrale Edit

Atenuarea datelor, care accidental sunt prea mari sau prea mici dintr-o populaţie statistică se face prin calcularea unor medii, în felul acesta făcându-se o compensare a valorilor individuale. Acest calcul ne arată o anumită tendinţă a fenomenului studiat, media statistică fiind o valoare ce sintetizează într-o singură expresie numerică toate valorile din seria măsurători sau observaţii. Termenii seriei diferă de medie deoarece au fost influenţaţi de diferiţi factori.

Media aritmetică Edit

Media aritmetică simplă exprimă un nivel mediu, anihilând abaterile individuale, netipice. Ea este cuprinsă între valoraea cea mai mare şi cea mai mică. Definiţia 1. Dacă în urma unei selecţii apar valorile distincte x_1, x_2, \cdots , x_n, \! atunci media aritmetică este dată de formula:

\overline x = \frac{x_1+ x_2+ \cdots + x_n}{n}= \frac1 n \sum_{i=1}^n x_i \!

În cazul datelor centralizate (în care avem repartiţia de frecvenţă (2)):

\overline x = \frac{n_1 \nu_1+ n_2 \nu_2+ \cdots + n_n \nu_n}{n}= \frac1 n \sum_{i=1}^n n_i \nu_i \!

care se mai numeşte medie aritmetică ponderată. Numărul care arată de câte ori se repetă fiecare valoare (nj) este "ponderea" valorii respective.

Observaţia 1. Media aritmetică are dezavantajul că este sensibilă la valori extreme, iar dacă termenii sunt prea "împrăştiaţi", tinde să devină o valoare nereprezentativă. Media aritmetică este o valoare lipsită de conţinut dacă elementele sunt deosebite din punct de vedere calitativ, caz în care este mai util să se facă medii parţiale pentru fiecare tip de colectivitate.

Observaţia 2. Dacă avem mai multe medii, fiecare referindu-se la o anumită categorie, fiecare medie va fi ponderată în funcţie de importanţa categoriei sale.

Media geometrică Edit

Media geometrică este mai puţin sensibilă la valorile extreme decât celelalte medii, deci se întrebuinţează când dorim să atenuăm divergenţele mari dintr-o serie de determinări cu frecvenţe egale, fiind după o expresie "cea mai exactă medie".

Se utilizează când valorile au o evoluţie (de creştere sau scădere) permanentă, neîntreruptă, sau o raţie din ce în ce mai mare, termenii fiind legaţi între ei printr-o relaţie de produs. De asemenea se mai întrebuinţează când vrem să dăm o importanţă mai mare termenilor mai mici, în valoare absolută, sau când diferenţele între termeni sunt foarte mari. Are dezavantajul că nu se poate întrebuinţa când avem valori nule sau negative.

Definiţia 2. Dacă x_1, x_2, \cdots, x_n \! sunt n valori, media geometrică se defineşte prin

M_g = \sqrt[n]{x_1 x_2 \cdots x_n} \!

Calculul se face mai uşor cu ajutorul logaritmilor:

\lg M_g = \frac 1 n \sum_{i=1}^n \lg x_i \!

Datorită faptului că se calculează mai uşor cu ajutorul logarimilor, se mai numeşte "medie logaritmică". Ea se utilizează şi la calcularea ritmului (de creştere sau descreştere) numindu-se astfel şi "medie de ritm". În rezumat, se întrebuinţează când: - seria are o mare dinamicitate; - termenii au variaţii mari; - distribuţia are un caracter pronunţat de asimetrie.

Observaţia 3. Media geometrică se foloseşte atunci când prezintă importanţă variaţiile relative. De asemenea media geometrică poate fi folositoare pentru calculul unor rapoarte.

Media pătratică Edit

Media pătratică se întrebuinţează când valorile prezintă creşteri din ce în ce mai mari. Ea constituie modelul matematic pentru abaterea medie pătratică. Media este sensibilă la valori extreme, din care cauză este întotdeauna mai mare decât celelalte medii. Are avantajul că se poate aplica şi în cazul valorilor nule sau negative (care prin ridicare la pătrat devin pozitive). Se întrebuinzează când dăm importanţă valorilor mari.

Definiţia 3. Media pătratică este definită prin formula:

\overline x_{patrat} = \frac 1n \sum_{i=1}^n x^2_i \!

sau în cazul datelor centralizate (media ponerată):


\overline x_{patrat, p} = \frac 1n \sum_{i=1}^n n_i \nu^2_i \!


Definiţia 4. Media armonică este valoarea inversă a mediei aritmetice ale valorilor inverse datelor de observaţie:


M_h = \frac{n}{\sum_{i=1}^n \frac{1}{x_i}} \!

Exprimă caracterul sintetic al unor valori ce se află în raport invers. Se utilizează când frecvenţele sunt egale. Pentru o repartiţie de frecvenţă, media armonică se foloseşte rar. Se utilizează cu predilecţie în economie.

Media glisantă Edit

Media glisantă numită şi "medie mobilă", se utilizează în cazul în care şirul valorilor prezintă fluctuaţii mari, bruşte şi e greu de apreciat tendinţa (trendul). Se presupune că media glisantă corespunde mijlocului intervalului sintetic. Calculul se face mediind 3 sau 5 valori alăturate.

Definiţia 5. Media glisantă pentru 3, respectiv 5 valori alăturate sunt date de formulele


\overline{x_{glis, 3}} = \frac{x_{i-1} + x_i + x_{i+1}}{3} \!


\overline{x_{glis, 5}} = \frac{x_{i-2} + x_{i-1} + x_i + x_{i+1} + x_{i+2}}{3} \!


Definiţia 6. Mediana este elementul dintr-un şir de date statistice care ar împărţi intervalul în două grupe egale ca număr, după ce acestea au fost ordonate după mărimea lor. Dacă seria are 2n+1 elemente, atunci mediana este elementul n+1, iar dacă are 2n elemente mediana este media aritmetică a celor doi termini din mijloc.

Indicatorii variaţiei Edit

O medie este reprezentativă numai atunci când se calculează din valori omogene între ele. Cu cât fenomenele sunt mai complexe (dependente de mai multi factori), cu atât variaţia este mai mare şi utilizarea mărimilor medii devine insuficientă. De aceea este important de cunoscut cât de ‘departe’ sunt valorile sumei statistice faţă de medie. Comparaţia se face cu media seriei, considerată ca fiind valoarea cea mai reprezentativă pentru populaţia statistică. Analiza statistică a unei repartiţii poate fi aprofundată prin calculul indicatorilor de variaţie. Acesti indicatori trebuie să servească la :

  • verificarea reprezentativităţii mediei ca valoare tipică a unei populaţii statisatice;
  • verificarea gradului de omogenitate a seriei;
  • caracterizarea statistică a formei şi gradului de variaţie a unui indicator;
  • cunoasterea gradului de influenţă a factorilor după care s-a facut gruparea unităţilor observate.

Indicatorii simpli ai variaţiei Edit

Indicatorii simpli ai variaţiei servesc la caracterizarea gradului de împraştiere a mărimilor seriei statistice. Se pot exprima atât în mărimi absolute cât şi în mărimi relative. Din aceasta grupa fac parte :

  • amplitudinea variaţiei (absolută şi relativă);
  • abaterile individuale (absolute şi relative).

Amplitudinea absolută se calculeaza ca diferenţa dintre valoarea maximă şi valoarea minimă al caracteristicii :

A_a = x_{max} - x_{min} \!

Amplitudinea relativa se exprima de regulă în procente şi se calculează ca un raport între amplitudinea absolută şi media aritmetică :

A_r= \frac{A_a}{\overline x} \cdot 100  \!

Abaterile individuale absolute (d_i \!) se calculează ca diferenţa între fiecare valoare şi media aritmetică :

d_i = x_i - \overline x \; \;    , i = 1,...,n \!

Abaterile individuale relative (d_r \!) se calculează ca raportul dintre abaterile individuale absolute şi media aritmetică (se exprima în procente) :


d_r = \frac{d_i}{\overline x}  \;   , i = 1, \cdots ,n \!

Gradul de variaţie al unei caracteristici depinde de toate abaterile variantelor înregistrate şi de frecventa lor de apariţie şi prin urmare indicatorii simpli ai variaţiei nu pot exprima întreaga variaţie a unei populaţii statistice. De aceea a fost necesară introducerea indicatorilor sintetici ai variaţiei.

Indicatorii sintetici ai variaţiei Edit

Indicatorii sintetici ai variaţiei, la fel ca şi indicatorii tendintei centrale trebuie să se bazeze pe toate observaţiile, sa fie usor de calculat, uşor de înteles şi să fie cât mai puţin afectaţi de fluctuaţiile de selecţie.

Indicatorii sintetici ai variaţiei sunt :

  • abaterea medie liniară ;
  • abaterea medie patratică;
  • dispersia;
  • coeficientul de variaţie.

Abaterea medie liniară se calculează ca o medie aritmetică simplă sau ponderată, luate în valoare absolută :

Pentru o serie simplă

\overline d = \frac{\sum_{i=1}^n |x_i - \overline x|}{n} \!


Abaterea medie liniară prezintă dezavantajul că nu ţine seama de faptul că abaterile mai mari în valoare absolută influentează în mai mare masură gradul de variaţie a unei caracteristici, în comparaţie cu abaterile mici. În plus, nu este indicat să se renunţe în mod arbitrar la semnul valorilor din care se calculează o valoare medie. Din aceste considerente se foloseşte ca principal indicator sintetic al variaţiei abaterea medie patratică.

Abaterea medie patratică sau abaterea standard (\sigma \!) se calculează ca o medie patratică din abaterile tuturor elementelor seriei de la media lor aritmetică:

\sigma =  \sqrt {\frac{\sum (x_i - \overline x)^2}{n}} \!

Acest indicator este mai concludent decât abaterea medie liniară. Prin ridicarea la pătrat se dă o importanţă mai mare abaterilor mari în valoare absolută, acestea influenţând într-o măsura mai mare gradul de variatie al variabilelor analizate. În literatura de specialitate se apreciază ca pentru o serie de distribuţie normală abaterea medie liniară este egală cu 4/5 din valoarea abaterii medii pătratice.

Abaterea medie pătratică este un indicator de bază, care se foloseşte la analiza variaţiei, la estimarea erorilor de selecţie în calculul de corelaţie.

La fel ca abaterea medie liniară, abaterea medie pătratică se exprimă în unitatea de masură a variabilei a carei variaţie o caracterizează. Prin urmare cei doi indicatori nu se pot folosi pentru compararea gradului de variaţie şi în aceasta situaţie se recurge la un alt indicator de variaţie : coeficientul de variaţie.

Coeficientul de variatie (\nu \!) se calculeaza ca un raport între abaterea medie pătratică şi media aritmetică. De obicei se exprimă sub formă de procente :

\nu =  \frac{\sigma}{\overline x} \cdot 100 \!

Semnificaţie. Cu cât valoarea lui v este mai aproape de zero cu atât variaţia este mai slabă, colectivitatea este mai omogenă, media având un grad ridicat de reprezentativitate. Cu cât valoarea lui v este mai mare cu atât variaţia este mai intensă, colectivitatea este mai eterogenă, iar media are un nivel de semnificaţie scăzut.

Se apreciază că la un coeficient de peste 35-40%, media nu mai este reprezentativă şi datele trebuie separate în serii de componente, pe grupe, în funcţie de variaţia unei alte caracteristici de grupare.

Se poate afirma că acest indicator poate fi folosit ca un test în aplicarea metodei grupării. Dacă media aritmetică este aproape de zero, coeficientul de variaţie nu are semnificaţie.

Dispersia (\sigma^2 \!) este media pătratelor abaterilor de la media aritmetică :

\sigma^2 = \frac 1 n \sum (x_i - \overline x)^2 \!

Măsura dispersiei se referă la « împrăştierea » valorilor dintr-un set de date. Media nu are semnificaţie dacă se aplică pe un set de date foarte dispersate. De exemplu dacă luăm valoarea medie a oraşelor mari (peste 200.000 locuitori) va da o valoare de peste 400.000 datorită Bucureştiului care are 2.000.000. Însă rezultatul nu are nici o semnificaţie (nici un oraş nu area această valoare). Măsurile dispersiei, exprimate sub forma unităţilor de măsură ale fenomenului cercetat, nu sunt întotdeauna utile atunci când se compară dispersiile a două sau mai multe serii. Compararea dispersiilor a două sau mai multe serii dă rezultate în următoarele 2 situaţii:

a) şirurile care se compară pot fi exprimate în aceleaşi unităţi, iar mediile pot fi aceleaşi sau au dimensiuni aproape egale.

b) şirurile care se compară pot fi exprimate în aceleaşi unităţi, însă mediile diferă.

Dacă seriile se exprimă în unităţi diferite, dispersiile nu pot fi comparate direct. De aceea de multe ori se foloseşte abaterea medie pătratică în loc de dispersie.

În unele lucrări această mărime se numeşte varianţă (din l. engl. variance). Varianţa este o măsură importantă în special când se studiază variaţia a două sau mai multe eşantioane. O tehnică statistică foarte puternică este cunoscută sub numele de analiza de varianţă şi utilizează dispersia pentru a decide dacă un număr de eşantioane diferă semnificativ unul de altul.



Also on Fandom

Random Wiki