Creeaza.com - informatii profesionale despre


Cunostinta va deschide lumea intelepciunii - Referate profesionale unice
Acasa » referate » matematica » statistica

Statistica descriptiva - Reprezentarea grafica, Parametri numerici ai unei serii cantitative


Statistica descriptiva - Reprezentarea grafica, Parametri numerici ai unei serii cantitative


Statistica descriptiva are scopul, utilizand diferite metode specifice, sa rezume un mare numar de observatii privind un grup (lot) de obiecte/subiecti, punand astfel in evidenta principalele lor caracteristici. Exista doua mari metode de a atinge acest scop: fie utilizand reprezentarea grafica, care este mai sugestiva dar mai saraca in informatii, fie utilizand tabele care cuprind principalele caracteristici statistice ale populatiei respective. Indiferent de modul de prezentare, este vorba de reprezentarea variabilitatii unor date statistice. Aceasta variabilitate poate fi una cu cauze cunoscute, o variabilitate ‚determinista’ care este descrisa statistic pentru a o pune mai bine in evidenta si a o cuantifica precis, sau poate fi o variabilitate cu cauze doar banuite sau chiar necunoscute –variabilitatea ‚aleatorie’ si care, folosind statistica, se spera a fi clarificata cauzal.




1. Reprezentarea grafica


Indiferent de tipul de date, putem uza de reprezentarea lor grafica pentru a le ilustra vizual cu un foarte mare impact asupra celui caruia ii este prezentata, cu toate ca aceasta reprezentare este mai saraca in informatii decat tabelele numerice. Totusi, privita ca o prima luare de contact cu analiza datelor si permitand identificarea rapida a anumitor caracteristici sau relatii ale acestora, reprezentarea grafica ramane un mijloc eficient in statistica descriptiva. Reprezentarea grafica se poate face utilizand diferite diagrame, asa cum aratam mai jos.

Sa consideram, mai intai, cazul datelor calitative. Astfel de date pot fi reprezentate grafic cu ajutorul diferitelor diagrame formate din bastoane verticale sau orizontale (gresit considerate ca histograme), cercuri, elipse, etc., bi- sau tri-dimensionale, plecand de la partitia populatiei pe care acesta o induce. Sa consideram, de exemplu, ca avem o anumita populatie si ne intereseaza culoarea ochilor indivizilor componenti. Presupunem ca multimea culorilor ochilor este si ca din studiul facut a rezultat ca 37% din populatie are ochii negri, 39% are ochii caprui, 8% are ochii albastri si 16% are ochii verzi. Vom prezenta doua tipuri de diagrame pentru acest caracter: reprezentarea circulara (numita si ‘pie’ ~ placinta in engleza) si reprezentarea tip histograma (prin bastoane dreptunghiulare).


Fig. 1. Reprezentarea circulara a culorii ochilor



Fig. 2. Reprezentarea prin bastoane a culorii ochilor


La reprezentarea grafica in cazul unor date numerice, intalnim cele doua moduri corespunzatoare felului datelor: discrete sau continue. In cazul datelor discrete, reprezentarea grafica este asemanatoare cazului datelor calitative, cu toate ca exista o diferenta fundamentala. In acest caz, daca consideram diagramele cu bastoane, lungimea acestora are o semnificatie numerica precisa. Concret, in diagrama de mai jos, pe axa ordonatelor sunt reprezentate valorile variabilei (datei) discrete, in timp ce pe axa absciselor este reprezentata frecventa relativa a aparitiei fiecarei valori. Este ceea ce numim o histograma a frecventei relative cu bastoane orizontale.



Fig. 3. Histograma de reprezentare a datelor discrete


Problema se complica atunci cand este vorba de date numerice continue. Aici, pentru trasarea unei histograme, este necesara impartirea datelor numerice in anumite clase (intervale), carora sa le corespunda pe cealalta axa frecventa relativa de aparitie (sau numarul de observatii), corespunzatoare fiecarei clase. In diagrama de mai jos, pe axa absciselor sunt reprezentate clasele (i.e. intervale de valori) iar pe cea a ordonatelor este reprezentat numarul corespunzator de observatii.


Fig. 4. Histograma de reprezentare a datelor continue


Exista si in acest caz posibilitatea reprezentarii cu diagrame circulare (2D sau 3D) asa cum se poate observa in figura de mai jos.

Fig. 5. Reprezentare tip ‚pie’ de date continue


2. Parametri numerici ai unei serii cantitative


Vom numi serie statistica ansamblul observatiilor numerice definit de o anumita data sau caracter al unei multimi de obiecte/subiecti analizata statistic, cu alte cuvinte valorile variabilei statistice corespunzatoare datei respective. Asa cum am aratat mai inainte, in afara de primul contact vizual realizat de reprezentarea grafica a unei serii statistice, al doilea pas, ce este cu adevarat propriu statistic, se refera la prezentarea unor caracteristici (parametri) ce descriu statistic data respectiva.

Asa cum am spus anterior, o data statistica sau caracter statistic (variabila statistica) corespunde din punct de vedere probabilist unei variabile aleatoare. Este normal, asadar, sa consideram si in acest caz parametrii numerici ce caracterizau o variabila aleatoare, deosebit de utili in descrierea dinamicii acesteia.


La fel ca si in cazul unei variabile aleatoare, in cazul unei variabile statistice putem defini notiunea de functie de repartitie. Astfel, prin functia de repartitie sau functia cumulativa (frecventa cumulata) a variabilei statistice X, definita de seria statistica i = 1, n, intelegem aplicatia F: R [0, 1], data de:


,


unde fx reprezinta numarul observatiilor strict mai mici decat x. Asa cum este de asteptat, functia F este o functie in scara, monoton crescatoare, continua pentru valorile xxi, continua la stanga pentru valorile x = xi, nula pe intervalul
(-, x1] si egala cu 1 pe intervalul (xn,

In figura de mai jos ilustram grafic o astfel de functie.



Fig. 6. Reprezentarea grafica a unei functii de repartitie


Remarca. Se observa ca o functie de repartitie corespunde, asa cum indica si denumirea alternativa de frecventa cumulata, cumularii frecventelor reprezentate in histograma frecventelor relative. De cele mai multe ori sunt prezentate impreuna, asa cum se arata mai jos.


Tabel 1 Valorile frecventei relative si a frecventei cumulate

Interval

Frecventa

relativa

Frecventa

cumulata

Frecventa

relativa (%)

Frecventa

cumulata (%)

, 0]

0

0

0

0

(0, 2]

6

6

30

30

(2, 4]

7

13

35

65

(4, 6]

4

17

20

85

(6, 8]

1

18

5

90

(8, 10]

2

20

10

100


0

20

0

100


Pentru crearea unui asemenea tabel, cuprinzand valorile frecventei relative (i.e. numarul valorilor seriei statistice din fiecare interval) si ale frecventei cumulate, se face o partitie a axei reale intr-un anumit numar de intervale, convenabil alese astfel incat sa avem, pe de-o parte, un numar rezonabil de asemenea intervale si, pe de alta parte, partitia sa fie suficient de fina (i.e. nu prea multe valori in anumite intervale). Din fericire, programele statistice fac automat o asemenea operatie, cu rezultate multumitoare.

 

Fig. Reprezentarile grafice ale frecventei relative si frecventei cumulative


Functia de repartitie sau frecventa cumulata are importanta mai ales datorita faptului ca astfel putem compara, pe de-o parte, repartitia valorilor seriei statistice studiate cu o repartitie teoretica data si, pe de alta parte, putem compara repartitiile valorilor pentru doua sau mai multe grupuri de date. In primul caz putem vedea care este repartitia teoretica cea mai apropiata de datele studiate si astfel putem considera ca seria statistica reprezinta un esantion al valorilor variabilei aleatoare teoretice corespunzatoare. Din aceasta cauza, functia de repartitia F mai este cunoscuta in statistica si ca functia empirica de repartitie, dar despre contextul concret in care o consideram in acest mod vom vorbi in capitolul corespunzator sondajelor. In cel de-al doilea caz, pe baza analizei grafurilor frecventelor cumulate corespunzatoare la doua sau mai multe date, putem trage concluzia daca acestea se supun sau nu aceleiasi legi de probabilitate, deci vor avea aceiasi comportare stochastica.


La fel ca si in cazul clasic probabilist, putem defini si aici cuantila de ordin a a variabilei statistice X ca fiind numarul qa astfel incat F(qa a. Totusi, in statistica descriptiva cuantilele nu sunt totdeauna considerate in general, practic considerandu-se doar cuartilele Q1, Q2, Q3. In acest context, este timpul sa amintim valorile tipice corespunzatoare unei analize a datelor:


masuri tipice ale tendintei centrale: mod, mediana si medie;

masuri tipice ale imprastierii: dispersie si deviatie standard.


Cel mai comun parametru ce masoara ‚tendinta centrala’ a unei serii statistice este media, care reprezinta practic media aritmetica a tuturor observatiilor, fiind data de formula:


.

O alta masura folosita uzual in studiile statistice descriptive este mediana, definita ca numarul real care imparte in doua efective egale seria statistica data, observatiile fiind ordonate crescator. Daca efectivul seriei statistice este un numar impar n = 2k + 1, atunci mediana este a (k + 1)-a valoare a seriei, iar daca efectivul este un numar par n = 2k, atunci mediana se inlocuieste cu intervalul median dat de valorile a k-a si a (k + 1)-a (mediana se poate considera astfel ca mijlocul acestui interval). Mediana este in mod special folositoare atunci cand exista posibilitatea ca unele valori extreme ale seriei statistice sa fie cenzurate. Atunci cand exista observatii care se gasesc fie sub un anumit prag de jos fie deasupra unui anumit prag de sus si, din diferite motive, nu sunt suficient de exact precizate, nu putem folosi media, inlocuind-o prin mediana daca avem valori exacte pentru mai mult de jumatate din observatii. Trebuie sa intelegem ca ambele masuri sunt la fel de eficiente si, cu toate ca media este mai frecvent folosita decat mediana, aceasta din urma poate fi mai valoroasa in anumite circumstante.

Ultima masura pe care o prezentam aici este modul care reprezinta, pur si simplu, cea mai frecventa valoare a seriei, fiind rareori folosita in cazul datelor continue.


Exemplu.

(Altman, 1991) Sa consideram un lot de 25 pacienti cu fibroza cistica pentru care s-au inregistrat varsta (ani) si functia pulmonara (PImax cm2 H2O), valori prezentate in tabelul urmator.


Tabelul 2 Varsta si PImax pentru 25 pacienti cu fibroza cistica

Subiect

Varsta

PImax

Subiect

Varsta

PImax

1

7

80

14

15

100

2

7

85

15

16

120

3

8

110

16

17

110

4

8

95

17

17

125

5

8

95

18

17

75

6

9

100

19

17

100

7

11

45

20

19

40

8

12

95

21

19

75

9

12

130

22

20

110

10

13

75

23

23

150

11

13

80

24

23

75

12

14

70

25

23

95

13

14

80





In tabelul urmator prezentam cei trei parametri statistici (media, mediana si modul) atat pentru variabila varsta cat si pentru variabila PImax.



Tabelul 3 Masurile tendintei centrale (varsta si PImax)


Medie

Mediana

Mod

Varsta

14,48

14

17

PImax

92,60

95

75/95


Se poate observa din acest exemplu ca, asa cum am mentionat mai sus, daca pentru datele discrete (varsta) valoarea modului prezinta importanta, pentru datele continue (PImax) folosirea modului nu prezinta un interes practic prea mare.

Abordarea complementara masurilor tendintei centrale este reprezentata de masurarea imprastierii, adica masurarea distantei fiecarei valori a seriei statistice fata de medie. Plecand de la cazul probabilist clasic al dispersiei, vom defini aici dispersia (termen introdus de Fisher, 1918) corespunzatoare unei serii statistice i = 1, n cu ajutorul formulei:


,


unde m este media cunoscuta a variabilei statistice. Deoarece, de obicei, consideram ca seria statistica cu care lucram nu reprezinta toata populatia ci este doar un esantion al ei mai mic si astfel media m nu este cunoscuta ci putem calcula doar media esantionului , vom folosi in locul formulei de mai sus o formula de aproximatie (o estimatie, asa cum vom vedea in capitolul despre estimatii) a dispersiei inlocuind media m cu media seriei si impartind prin
(n – 1) in loc de n, deci:


.


Remarcam aici ca pentru serii statistice de dimensiuni mari, diferenta dintre valoarea data de formula de mai sus si formula:



este neglijabila. Asa cum am mai spus si cand am vorbit despre dispersia unei variabile aleatoare, vom folosi in locul dispersiei o marime care este masurata in aceiasi unitate ca si seria statistica si anume deviatia standard, data de:


Deviatia standard este folosita in statistica descriptiva mai ales pentru definirea unor intervale in care se gasesc marea majoritate a observatiilor. Astfel, in cazul unor repartitii rezonabil de simetrice, marea majoritate a observatiilor ce compun seria statistica (aproximativ 95% din ele) se gasesc in intervalul definit de: medie deviatia standard. Subliniem inca odata ca este absolut necesar sa avem repartitii relativ simetrice, altfel cele spuse mai sus nu mai au semnificatie. In cazul in care repartitia variabilei statistice este departe de o repartitie suficient de simetrica exista alte metode de descriere statistica a variabilitatii, de exemplu considerarea unei transformari matematice a seriei originale (e.g. logaritmand seria originala). Nu intram aici in amanunte privind acest context. Un exemplu pentru asertiunea de mai sus este cel referitor la variabila PImax. Astfel, deoarece media este 92,60 cm2H2O iar deviatia standard 24,92 cm2H2O, intervalul definit de 92,60 24,92 adica (42.76, 142.44) este intervalul cautat. Ne asteptam ca doar o observatie din cele 25 (i.e. aproape 5%) sa fie inafara acestui interval.


Remarca. Vom aminti aici o notiune importanta in inferenta statistica –intervalul de incredere. Plecand de la faptul ca, in principiu, orice serie statistica provine dintr-o populatie statistica mult mai mare, rezulta ca diferitii parametri statistici pe care ii calculam pentru o serie statistica sunt de fapt estimatii ale „adevaratilor” parametrii ai intregii populatii. Putem defini, in acest context, intervalul de incredere ca fiind un interval in care se gaseste adevarata valoare a parametrului considerat, cu o anumita probabilitate sau grad de incredere. De exemplu, intervalul de incredere 95% pentru medie este interpretat ca intervalul in care, cu probabilitatea de 95%, se gaseste adevarata medie a populatiei, un asemenea interval avand forma (in anumite ipoteze):


,


unde media este media seriei statistice iar SD reprezinta deviatia sa standard.  



Politica de confidentialitate


creeaza logo.com Copyright © 2024 - Toate drepturile rezervate.
Toate documentele au caracter informativ cu scop educational.