Creeaza.com - informatii profesionale despre


Cunostinta va deschide lumea intelepciunii - Referate profesionale unice
Acasa » referate » matematica » statistica
Statistica inferentiala, notiuni de baza - scorurile z si curba normala

Statistica inferentiala, notiuni de baza - scorurile z si curba normala


STATISTICA INFERENTIALA, NOTIUNI DE BAZA

Scorurile z si curba normala

Utilizarea tehnicilor de prezentare si descriere a datelor ne ofera, asa cum am vazut, informatii asupra caracteristicilor fiecareia dintre variabilele supuse masurarii. Statistica descriptiva se ocupa de analiza datelor sub aspectul caracteristicilor lor intrinseci (frecventa valorilor, indicatorii tendintei centrale, ai imprastierii sau formei distributiilor). Dar scopul ultim al metodei stiintifice nu se limiteaza la descrierea datelor, ci vizeaza evidentierea relatiilor dintre variabile si, pe aceasta baza, predictia si intelegerea fenomenelor psihice. Cercetarea stiintifica in psihologie consta in a identifica probleme, a emite ipoteze si teorii si a testa validitatea lor cu ajutorul unor proceduri statistice adecvate. Aceste proceduri fac parte din ceea ce se numeste statistica inferentiala. Pentru abordarea acesteia, vom introduce succesiv o serie de concepte si proceduri analitice fundamentale.

Scoruri standard (z)



In psihologie, atunci cand masuram o anumita caracteristica a unui individ (timp de reactie, anxietate, inteligenta, nivel de performanta etc.) scopul implicit este acela de a efectua comparatii. Pentru aceasta insa, simpla expresie numerica a caracteristicii respective nu este suficienta. Sa presupunem ca efectuam interviuri in cadrul unui examen de angajare si intrebam un candidat daca stie limba engleza, iar acesta ne raspunde "am sustinut, de curand, un examen de limba engleza la care am obtinut 70 de puncte". Daca examenul si modul de evaluare ne sunt total necunoscute, informatia nu ne spune mare lucru. Desigur, bazandu-ne pe experienta anterioara, putem face niste presupuneri, dar acestea nu tin loc de certitudini.


Pentru a ne lamuri, ar trebui sa-i punem candidatului punem cateva intrebari suplimentare: Care este maximum si minimum de puncte posibil la acel examen? (daca maximul este intr-adevar 100, iar minimul este 0, atunci putem spune ca 70 este un scor mai aproape de 100 decat de 0); Care este rezultatul mediu obtinut la acel examen? (daca raspunsul ar fi 60, inseamna ca 70 este o valoare peste medie cu 10 unitati); In fine, daca am dori sa apreciem cu maxima precizie semnificatia cifrei 70, ar trebui sa stim care este "imprastierea" rezultatelor obtinute de participantii la examen. Figura de mai jos plaseaza valoarea comunicata de candidatul nostru (70) in doua distributii ipotetice, avand, ambele, media 60, dar imprastieri diferite, sa spunem 5, respectiv 20.

> In cazul distributiei I, mai omogena, scorul 70 se plaseaza catre extrema valorilor, in timp ce, in contextul distributiei II, cu imprastiere mai mare, este mai aproape de medie decat de valorile superioare.


Modalitatea de a exprima semnificatia unei anumite valori dintr-o distributie prin raportare la parametrii distributiei (medie si abatere standard) este scorul standardizat z (numit si nota z sau scor z). Aceasta masoara distanta dintre o anumita valoare si media distributiei, in abateri standard:


Semnul "-" la rezultat ne arata ca performanta este mai mica decat media, mai precis, se afla la 0.75 abateri standard sub medie. Semnul "+" indica o valoare standardizata peste medie, indicand, in exemplul de mai sus, ca se plaseaza la o jumatate de abatere standard deasupra mediei.

Scorul z se numeste "scor standardizat" (nota standardizata), deoarece exprima distanta unei valori fata de media distributiei din care face parte in unitati ale abaterii standard. De aici decurge unul din avantajele lui importante, acela de a putea fi utilizat pentru a compara valori care provin din distributii diferite, indiferent de unitatea de masura a fiecareia.

Exemplu: Daca un subiect obtine un scor echivalent cu z=+0.2 la un test de calcul aritmetic si un scor echivalent cu z=+0.1, la un test de reprezentare spatiala, se poate spune ca are o performanta mai buna la primul test decat la al doilea.

Calcularea valorii atunci cand cunoastem parametrii scorului z

Daca am calcula scorurile (notele) z pentru fiecare dintre valorile unei distributii, am obtine o "distributie in scoruri z" a acelei distributii. In tabelul urmator, distributia X a fost transformata in distributie z.

X

z

N=5

∑X=64

m=12.8 s=2.38

N=5

∑Z=0

m=0 s=1


Utilizand proprietatile de transformare a formulei de definitie a scorului z, putem calcula o anumita valoare atunci cand cunoastem valoarea lui z si parametrii distributiei, astfel:x=z*s+m adica, pentru ultimul exemplu, x=-0,75*2,38+12,8=11

Proprietatile scorurilor z

Media unei distributii z este intotdeauna egala cu 0. Aceasta rezulta din proprietatea mediei de a se diminua corespunzator daca se extrage o constanta din fiecare valoare a unei distributii. Formula de calcul pentru z implica scaderea unei constante din fiecare valoare a distributiei. Aceasta inseamna ca si media noii distributii (z) se va reduce cu constanta respectiva. Dar aceasta constanta este insasi media distributiei originale, ceea ce inseamna ca distributia z va avea media egala cu zero, ca rezultat al diminuarii mediei cu ea insasi.

Abaterea standard a unei distributii z este intotdeauna 1. Acest fapt decurge prin efectul cumulat al proprietatilor abaterii standard. Prima proprietate afirma ca in cazul scaderii unei constante (in cazul scorurilor z, media) din valorile unei distributii, abaterea standard a acesteia nu se modifica. A doua proprietate afirma ca in cazul impartirii valorilor unei distributii la o constanta, noua abatere standard este rezultatul raportului dintre vechea abatere standard si constanta. Dar constanta de care vorbim este, in cazul distributiei z, chiar abaterea standard. Ca urmare, noua abatere standard este un raport dintre doua valori identice al carui rezultat, evident, este 1.

Alte tipuri de scoruri standardizate

Scorurile z prezinta un avantaj important, permit compararea valorilor unei distributii si a valorilor provenind din distributii diferite, ca urmare a faptului ca se exprima in abateri standard de la medie. Totusi se impune o anumita precautie in comparatia pe baza scorurilor z atunci cand distributiile au forme diferite si, mai ales, asimetrii opuse.

Notele z au insa si unele dezavantaje: se exprima prin numere mici, cu zecimale, (greu de manipulat intuitiv) si, in plus, pot lua valori negative. Aceste dezavantaje pot fi usor inlaturate printr-un artificiu de calcul care sa conduca la note standardizate convenabile, ce corespund anumitor nevoi practice specifice. In tabelul de mai jos sunt descrise cateva tipuri de note standard calculate pe baza notelor z.

Tipuri de scoruri  STAN

Formula bazata pe notele "z"

Formula desfasurata

m

s

Note z

Note z

z  = x - m /s

Note T (Thurstone)

50+10*z

T = 50 +10* x - m /s

Note H(Hull)

50+14*z

H = 50 +14* x - m /s

QI (Binet)

100+16*z

QI =100 +16* x - m /s

QI (Wechsler)

100+15*z

QI =100 +15* x - m /s

SAT (Scholast

Assessment Test)

500+100*z

SAT = 500 +100* x - m/ s

Observatii:

>Toate variantele sunt obtinute prin transformarea operata pe distributia de note z.

>La nici una dintre variante nu mai avem valori negative (cu conditia ca distributia sa nu aiba o variabilitatea aberanta).

>Zecimalele nu mai sunt semnificative (ele rezulta din calcule, dar sunt ignorate).

>Distributiile variantelor oscileaza in jurul unei valori medii specifice, sub care se afla 50% din valori, si peste care se afla restul de 50% dintre valori.

>Scorurile standard mari indica valori mari, iar scorurile standard mici indica valori mici. Acest fapt poate crea dificultati in unele cazuri. Sa luam urmatorul exemplu: Un subiect realizeaza 145 raspunsuri corecte la un test de calcul aritmetic (m=120, s=12) si un timp de reactie de 0.15 sec, la un test de reactivitate (m=0,11, s=0,05). In acest caz, notele T corespunzatoare celor doua performante sunt: T1=50+10*(145-120)/12=70, respectiv T2=50+10*(0,15-0,11)/0,05=58. Cu alte cuvinte, ar rezulta ca la ambele teste subiectul nostru a obtinut un rezultat peste medie. Dar aceasta concluzie este falsa, daca tinem cont ca la testul de reactivitate un timp mai mare inseamna o performanta mai scazuta. Solutia problemei consta in modificarea semnului expresiei de calcul, in functie de semnificatia calitativa a valorilor distributiei. In acest mod, rezultatul transformarii in nota standard la testul de reactivitate devine: T2=50-10*(0,15-0,11)/0,05=42, ceea ce indica exact semnificatia de performanta sub medie. Raportata la valoarea medie a distributiei T, scorul 58 este echivalent cu 42, sub aspectul distantei fata de medie (8 unitati). Diferenta consta in faptul ca valoarea 42 exprima si in mod intuitiv, nu doar cantitativ, evolutia performantei la test. O asemenea transformare nu este obligatorie, se poate utiliza oricare dintre formule, cu semnul plus, sau minus. In orice caz, trebuie sa precizam semnificatia valorilor mari si mici pentru distributiile cu care operam.

Curba normala (Gauss)

Reprezentarea grafica a rezultatelor masurarilor reale poate lua diverse forme, curba distributiei putand fi unimodala sau multimodala, aplatizata sau inalta, simetrica sau asimetrica. In statistica exista insa un tip special de distributie, numita "distributie normala", care corespunde reprezentarii grafice a unei caracteristici pentru care exista un mare numar de masurari, tinzand spre infinit. Aceasta distributie este numita "teoretica" pentru ca nu este rezultatul unui proces real de masurare, ci reprezinta un model teoretic. Conceptul de "curba normala" (expresia grafica a "distributiei normale") se refera la un anumit tip de distributie teoretica care are cateva proprietati caracteristice:

>are forma de "clopot". Cea mai mare parte a valorilor se concentreaza in zona centrala (medie);

>este perfect simetrica pe ambele laturi ale sale;

>linia curbei se apropie la infinit de axa OX (orizontala), fara a o atinge vreodata;

>in conformitate cu proprietatea 2, de fiecare parte a mediei se afla exact jumatate dintre valorile distributiei.

Exemple de curbe normale:

Imaginea de mai sus ilustreaza diferite variante ale familiei de curbe normale, care respecta, fiecare dintre ele, conditiile de mai sus, chiar daca au medii si abateri standard diferite.

Curba normala standardizata

Curba normala in care valorile sunt exprimate in scoruri z se numeste curba normala standardizata. Ea are toate proprietatile enuntate mai sus, avand insa si parametrii oricarei distributii z: m=0 si s=1. Rezulta astfel ca distributia normala standardizata (z) este este simetrica in jurul lui 0.

Curba normala standardizata are cateva caracteristici care sunt figurate in imaginea de mai sus si pe care este important sa le retinem:

Aproximativ 34% dintre scorurile distributiei normale se afla intre medie si o abatere standard deasupra mediei (z=+1)

Intre - 1z si +1z se afla aproximativ 68% dintre valorile distributiei

Aproximativ 96% dintre scoruri se afla intre -2z si +2z

Avand in vedere distributia scorurilor z pe o curba normala standardizata, aceasta poate fi utilizata pentru a afla raspuns la intrebari precum: Care este procentajul de valori care se afla sub/peste o anumita nota z; intre anumite note z; ori intre medie si o nota z? Care este nota z corespunzatoare unui anumit procentaj de valori? Pentru a raspunde la aceste intrebari, se utilizeaza o tabela speciala care contine, sub forma de probabilitati, frecventele valorilor de sub curba normala z (Anexa 1).

Asa cum vom vedea mai departe, curba normala are o importanta aparte pentru analiza statistica. Aceasta, deoarece se accepta faptul ca variabilele statistice s-ar distribui mai ales sub aceasta forma daca ar fi efectuate un numar mare (tinzand spre infinit) de masurari.

Exemple:

Sa ne raportam la distributia valorilor QI,  pentru care media este egala cu 100 si abaterea standard 16

Exemplul 1 Care este procentajul oamenilor al caror scor QI este intre 100 si 110?

Pentru a raspunde la aceasta intrebare, convertim valorile QI in scoruri z. 100(QI)=0(z). Pentru 110(QI) se aplica formula:

z=

Aria de sub curba normala cuprinsa intre valorile QI si 100 si 110 este reprezentata pe figura urmatoare:

Citim tabela ariilor la intersectia celulelor 0.6 cu 0.03. Valoarea este 0.2357 ceea ce, exprimat in procente, este 23.57%

Conchidem ca 23.57% din oameni au un QI cuprins intre 100 si 110)

Exemplul 2 Care este procentul oamenilor al caror QI este mai mare decat 125? Convertim in note z:

z= =+1.56

Aria de sub curba normala pentru scoruri QI mai mari decat 125 este reprezentata mai jos:

Citim valoarea din tabel care corespunde intersectiei celulei 1.5 cu 0.06, pentru a afla procentajul dintre medie si nota z +1.56. Gasim valoarea, exprimata in procente, 44.06%. Acesta este procentajul dintre medie si z=+1.56.

Stim ca procentajul peste medie este 50%, ca urmare, procentajul celor peste QI=125 va fi 50-44.06=5.94.

Conchidem ca 5.94% dintre oameni au un QI mai mare de 125 (z=1.56)

Exemplul 3 Care este scorul minim pe care trebuie sa l obtina o persoana pentru a fi intre primii 5% din populatie?

Ne reprezentam aria de sub curba care delimiteaza cele mai mari 5% dintre valorile z, trebuind sa aflam valoarea corespunzatoare z, respectiv QI:

Aria dintre medie si linia noastra este 50%-5%=45%. Cautam in tabel valoarea cea mai apropiata de 0.45 si o gasim la intersectia celulelor 1.6 cu 0.04. Deci, z=1.64 pentru limita procentului de 5%.

Convertim scorul z=1.64 in valoare bruta: X=m+z*s=100+ (+1.64)*16=126.24 Conchidem ca pentru a fi in primii 5% trebuie sa obtinem un QI=126.24

Exemplul 4 Care este scorul care indica cei mai slabi 33%?

Ne reprezentam limita de 33% in zona valorilor de sub medie:

Cautam scorul z corespunzatoare acestui procent.

Mai intai, scadem 33% din 50% cat reprezinta aria din partea inferioara a curbei. Obtinem 17% Cautam nota z corespunzatoare procentului de 17% de sub medie.

Valoarea 0.1700 (17%) se gaseste la intersectia celulelor 0.4 cu 0.04, ceea ce indica nota z=-0.44 (cu minus, pentru ca ne aflam in partea stanga a curbei).

Convertim nota z in valoare bruta: X=m+z*s=100+(-0.44)*16=92.96.

Conchidem ca este necesar un scor de cel mult 92.96 pentru a avea un QI intre ultimii 33%.

Aria de sub curba normala vazuta ca probabilitate

Valorile reprezentate pe curba normala nu reprezinta valori reale, rezultate in urma unui proces de masurare. Ele reprezinta valori ipotetice, distribuite astfel pe baza unui model matematic (legea numerelor mari). Nimic nu ne impiedica sa consideram ca valorile de sub curba normala sunt rezultatul unei ipotetice extrageri aleatoare. Pe masura ce "extragem" mai multe valori, curba de distributie a acestora ia o forma care se apropie de forma curbei normale.

Extragand "la infinit" valori aleatoare, vom obtine o distributie normala perfecta, exprimabila printr-o curba normala perfecta.

Din cele spuse mai sus, rezulta faptul ca valorile din zona centrala a curbei sunt mai "frecvente" (mai multe), pentru ca aparitia lor la o extragere aleatoare este mai "probabila". In acelasi timp, valorile "mai putin probabile", apar mai rar si populeaza zonele laterale, din ce in ce mai extreme, ale distributiei (curbei). Probabilitatea inseamna "frecventa relativa a aparitiei unui eveniment". Subiectiv, se traduce prin "cat de siguri putem fi ca acel eveniment apare". Daca probabilitatea reprezinta raportul dintre evenimentul favorabil si toate evenimentele posibile, atunci valoarea ei variaza intre 0 si 1. Ea poate fi exprimata si in procente. De exemplu, probabilitatea de 0.05 corespunde unui procentaj de aparitie de 5%

Utilizand simbolul p (de la "probabilitate"), spunem ca daca p<0.05 inseamna ca evenimentul are mai putin de 5% sanse sa apara, in conditiile unei distributii corespunzatoare curbei normale. Procentajul ariilor de sub curba normala poate fi citit deci, si ca probabilitate a distributiei. De exemplu, probabilitatea de a avea un scor intre medie si z=+1 este de p=0.34, iar probabilitatea de avea un scor z=+1.65 sau mai mare, este mai mica de 0.05 (p<0.05).


Distributii reale si distributii normale z

Caracteristicile curbei normale si frecventa cu care se face apel la aceasta in studiile statistice determina adesea interpretari gresite. De aceea se cuvine sa insistam asupra faptului ca distributia normala reprezinta un model teoretic care se considera ca aproximeaza de o maniera multumitoare cele mai multe dintre distributiile caracteristicilor naturale, incluzandu-le si pe cele psihice. Cu toate acestea, distributiile reale pe care le descopera psihologii in studiile lor nu au niciodata parametrii unei curbe normale perfecte. Acest lucru este practic imposibil daca ne gandim ca o curba normala are limitele deschise, mergand spre infinit, in timp ce distributiile reale sunt intotdeauna finite. In ciuda acestui neajuns, aproximarea oferita de modelul teoretic al curbei normale este considerata acceptabila din punct de vedere stiintific.

Un alt aspect care poate conduce la interpretari eronate este exprimarea valorilor curbei normale in scoruri z. Acest fapt este inteles adesea cu sensul ca transformarea in scoruri z a unei distributii o transforma automat intr-o distributie normala, ceea ce este o concluzie profund gresita. Convertirea valorilor unei distributii in scoruri z nu modifica forma distributiei. Distributia normala z este o distributie teoretica, in timp ce o distributie z oarecare are forma distributiei valorilor originale.

Exercitii

La o scoala de aviatie a fost evaluata preferinta pentru risc a studentilor care au avut incidente de zbor. Unul dintre studenti a obtinut scorul 60 la preferinta pentru risc. Presupunand ca preferinta pentru risc a populatiei de studenti piloti ar avea o distributie normala, cu media 50 si abaterea standard 8, calculati raspunsul la urmatoarele intrebari:

Care este scorul z corespunzator studentului respectiv?

Care este procentajul valorilor posibile intre valoarea 60 si medie?

Care este procentajul valorilor mai mari decat 60?

Care este procentajul scorurilor mai mici de 60?

Care este probabilitatea de avea un scor mai mare de 53?

Care este probabilitatea de a avea un scor mai mic de 30?

Care este probabilitatea de a avea un scor cuprins intre 35 si 42?

Care este scorul minim pe care il poate avea o persoana pentru a intra in primii 10% dintre subiecti?

Care este scorul maxim pe care trebuie sa il obtina cineva pentru a se afla printre ultimii

Tabela ariilor de sub curba normala. Valorile din tabel reprezinta ariile de sub curba normala intre 0 (medie) si o anumita nota z. De exemplu, daca vrem sa aflam aria cuprinsa intre notele z 0 si 2,36, ne uitam la intersectia celulei de pe linie cu eticheta 2,30 si in coloana etichetata 0,06. Aria de sub curba (probabilitatea) intre cele doua valori este in acest caz: 0.409. Asta se poate exprima in procente astfel: 40,9% dintre valorile unei distributii normale se afla intre z=0 si z=2,36 (Tabela este partiala, fiind intrerupta la valoarea z=3,09)

Aria dintre 0 si z2

Tabel preluat din Electronic Textbook, STATSOFT, Copyright StatSoft, Inc., 1984-1999





Politica de confidentialitate


creeaza logo.com Copyright © 2024 - Toate drepturile rezervate.
Toate documentele au caracter informativ cu scop educational.