Creeaza.com - informatii profesionale despre


Cunostinta va deschide lumea intelepciunii - Referate profesionale unice
Acasa » referate » matematica » statistica
DESCRIEREA STATISTICA A TENDINTEI CENTRALE: STATISTICILE DE POZITIE

DESCRIEREA STATISTICA A TENDINTEI CENTRALE: STATISTICILE DE POZITIE


DESCRIEREA STATISTICA A TENDINTEI CENTRALE: STATISTICILE DE POZITIE

Descrierea statistica a tendintelor: cuantilele

Scopurile cercetarii impun deseori descrieri statistice nu doar la nivelul intregii colectivitati statistice studiate, ci si la nivelul unor subcolectivitati semnificative din punct de vedere statistic. Poate interesa, de exemplu, descrierea statistica a celor mai mari 10% dintre valorile inregistrate. Pentru stabilirea unor asemenea subcolectivitati semnificative din punct de vedere statistic, se dovedesc utile cuantilele.

Cuantilele sunt statistici care descriu pozitii specifice, semnificative pentru analiza statistica a unui sir de valori inregistrate. Prin pozitiile ocupate in urma ordonarii valorilor, cuantilele impart sirul de valori intr-un anumit numar de parti egale. Prin urmare, cuantilele sunt definite de numarul de parti egale in care ele impart sirul de valori statistice, prin pozitia pe care o ocupa in urma ordonarii acestuia. Astfel:

mediana este cuantila care imparte un sir ordonat de valori in doua parti egale;



cuartilele sunt cele 3 cuantile care impart un sir ordonat de valori in 4 parti egale;

decilele sunt cele 9 cuantile care impart un sir ordonat de valori in 10 parti egale;

centilele sunt cele 99 cuantile care impart un sir ordonat de valori in 100 parti egale.

Mediana

Mediana este considerata in unele lucrari de specialitate ca 'cea mai centrala valoare', fiind valoarea care cade la mijloc atunci cand sirul studiat este ordonat dupa marimea valorilor.

Cu alte cuvinte, mediana este acea valoare pentru care numarul valorilor inferioare ei este egal cu numarul valorilor superioare ei, din punctul de vedere al marimii lor. Mediana (Me) poate fi definita si probabilistic. Astfel, ea reprezinta valoarea care satisface relatia:

Determinarea medianei pentru un sir de valori

Daca numarul valorilor seriei studiate este impar, atunci mediana se determina dupa relatia:

unde:

rMe reprezinta rangul valorii mediane;

N = volumul populatiei statistice.

De exemplu, pentru sirul (2, 10, 15, 7, 23, 17, 9) mediana este valoarea din care cade la mijloc in urma ordonarii crescatoare a sirului: (2, 7, 9, 10, 15, 17, 23), adica 10.

Folosind formula de mai sus: Me = X(N+1)/2 = X(7+1)/2 = x4, deci al patrulea termen in ordine crescatoare (sau descrescatoare), acesta fiind, conform seriei ordonate, 10.

Daca numarul valorilor seriei este par, atunci mediana se va calcula ca medie a celor 2 valori din mijlocul seriei:

Pentru exemplificare, adaugam un termen la seria anterioara: (2, 10, 15, 7, 23, 17, 9, 25). Ordonand aceasta serie, obtinem seria (2, 7, 9, 10, 15, 17, 23, 25) cu un numar de 8 termeni. Cei doi termeni din mijlocul seriei sunt XN/2 = 10 si x(N/2)+1 = 15. Ca atare, mediana va fi = (10 + 15)/2 = 12,5.

Datorita efectelor exagerate pe care le are asupra mediei aritmetice extremele unei serii, mediana ar trebui sa fie preferata mediei aritmetice ca marime de pornire in negocierile de salarii. Sa luam ca exemplu seria de salarii (in mii lei): (1400, 1500, 1300, 1800, 1750, 3000, 1600). Pentru a stabili mediana acestei serii, aranjam, mai intai seria in ordine crescatoare: (1300, 1400, 1500, 1600, 1750, 1800, 3000). Deoarece N = 9, care este o valoare impara, rangul termenului din mijlocul seriei este (N + 1)/2 = (7 + 1)/2 = 4, deci mediana este cel de-al patrulea termen al seriei ordonate, care are valoarea 1600. Se observa ca salariul de 1.600.000 de lei este mult mai reprezentativ pentru seria de salarii data, decat ar fi media aritmetica a acesteia, = (1300 + 1400 + 1500 + 1600 + 1750 + 1800 + 3000)/7 = 12350/7 = 1764,285 mii lei (influentata prea tare de valoarea extrema 3000).

Mediana este utilizata mai des pentru caracterizarea tendintei centrale a seriilor de date calitative aranjate in ranguri (de exemplu, ordini de preferinte carora li se acorda ranguri).

Calculul medianei pentru date grupate.

Daca datele sunt grupate, calculul medianei este ceva mai complex, si presupune ca si calcule suplimentare pe cele ale frecventelor cumulate.

Pornind de la definitia medianei (valoarea care imparte in doua parti egale valorile unei serii ordonate), rezulta ca mediana, in cazul distributiilor de frecvente, este acea valoare pentru care frecventa cumulata crescator este egala cu frecventa cumulata descrescator.

Pentru variabile discrete

Exemplu:

Sa consideram datele din Tabelul 4‑ , privind numarul de copii ce revin la o familie.

Tabelul ‑

Numar de copii

Numar de familii

Frecventa cumulata crescator

Frecventa cumulata descrescator

peste 5

TOTAL

N = 100

Figura ‑

In Figura ‑ este reprezentata grafic distributia de frecvente pentru variabila noastra, putandu-se intui ca valoarea mediana este varianta 'familii cu 2 copii', deoarece in stanga ei se afla un numar de valori egal cu cel de valori din dreapta ei (intrucat intervin frecventele de aparitie, pe grafic se vor considera suprafetele variantelor din stanga, respectiv din dreapta).

Totodata, in Tabelul ‑ se observa ca pentru varianta a treia a variabilei ('familii cu 2 copii') frecventa cumulata crescator este egala cu frecventa cumulata descrescator. Ca atare Me = 2.

De altfel, se observa ca numarul de familii cu un numar de copii mai mic decat 2 este egal cu numarul de familii cu un numar de copii mai mare decat 2 (si anume 35 de familii).

Pentru variabile definite pe intervale.

Exemplu:

Sa consideram distributia de frecvente pe intervale din Tabelul ‑ .

Tabelul ‑

Grupe de salarii

(lei)

Numar de muncitori (frecvente - f)

Frecvente cumulate

3

15

19


20

Total

N = 100

Deoarece numarul total de muncitori este 100, inseamna ca mediana trebuie sa fie acel salariu localizat intre a 50-a si a 51-a inregistrare. Astfel, rangul medianei se va determina ca medie a valorilor N si N + 1: rMe = media[(N/2, (N/2)+1] = (N + 1)/2 = (100 + 1)/4 = 50,5. Se observa ca frecventa cumulata a primelor 3 grupe este de 37, iar a primelor 4 grupe depaseste rangul valorii mediane (58 >

Prin urmare, mediana ar trebui sa fie o valoare cuprinsa in cel de-al patrulea interval (intervalul median), iar valoarea sa exacta o aflam prin interpolare, presupunand ca salariile celor 21 de muncitori din acest grupa sunt distribuite uniform in intervalul respectiv (de la 1.750.000 la 2.000.000 lei). Astfel, valoarea mediana este mai mare decat 1.750.000 de lei cu suma obtinuta prin ponderarea distantei intervalului (di = 2.000.000 - 1.750.000 = 250.000) cu raportul (50,5 - 37)/21 = 13,5/21. Prin urmare, mediana va fi egala cu 1.750.000 + 250.000 x 13,5/21 lei

Formula generala de calcul a medianei pentru astfel de cazuri ar fi prin urmare:

unde:

Me reprezinta valoarea mediana a unei distributii de frecvente pe intervale;

liMe= limita inferioara a intervalului median;

rangul valorii mediane;

Sfca = frecventa cumulata a intervalelor anterioare intervalului median;

fMe = frecventa intervalului median;

dMe = distanta intervalului median (diferenta dintre limita superioara si limita inferioara a intervalului median).

In concluzie, pentru calculul medianei in cazul unei distributii de frecvente pe intervale, valoarea mediana se determina printr-un procedeu de interpolare liniara bazat pe ipoteza repartizarii uniforme a valorilor in intervalul median, parcurgandu-se urmatorii pasi:

Se calculeaza frecventele cumulate pe intervale;

Se determina rangul median, folosind relatia:

unde:

N reprezinta numarul de valori ale seriei (sau volumul populatiei statistice);

Se determina intervalul median. Intervalul median este cel care corespunde primei frecventei cumulate crescator care depaseste rangul valorii mediane.

Se calculeaza valoarea mediana, aplicandu-se relatia de calcul:

Exemplu:

Pentru exemplificare vom considera din nou distributia de frecvente a celor 50 de angajati pentru care s-au colectat datele din Tabelul 2.5. Aceasta este reluata in Tabelul ‑ , in care sunt redate in plus: coloana centrelor de interval si coloana frecventelor cumulate crescator.

Tabelul ‑

Intervale de vechime in munca (ani)

Centre de interval,

C

Frecvente absolute,

f

Frecvente cumulate crescator,

fc

Total

N =

Parcurgem pasii necesari:

Frecventele cumulate pe intervale sunt calculate in tabel;

Se determina rangul median, folosind relatia cunoscuta:

Se determina intervalul median. Intervalul median este cel care corespunde primei frecventei cumulate crescator care depaseste rangul valorii mediane. Pentru exemplul nostru, acesta este cel de-al 3-lea interval, intrucat frecventa cumulata pentru primele 3 intervale este egala cu 26 >

Se calculeaza valoarea mediana, aplicandu-se relatia de calcul:

Calculul cuantilelor de ordin mai mare decat patru reprezinta o generalizare a metodologiei de calcul a medianei.

Proprietati ale medianei

1. Ca expresie a tendintei centrale, mediana prezinta avantajul ca nu este afectata de valorile aberante ale variabilei.

Modul

Modul reprezinta acea varianta a variabilei statistice studiate, careia ii corespund cele mai multe inregistrari la nivelul unitatilor statistice. De aceea, modul se mai numeste si valoare dominanta sau - in termeni probabilistici - valoarea cea mai probabila.

Intr-o exprimare foarte plastica, modul sau valoarea modala reprezinta cea mai 'la moda' observatie.

Exemplu:

Managerul unui magazin de imbracaminte a observat ca cele 10 perechi de pantaloni vandute in ziua anterioara au avut urmatoarele marimi:

Valoarea modala a acestor marimi este, dupa cum se observa, marimea 3 Media aritmetica este de 33,4, iar mediana este egala cu 33,5. Daca managerul ar utiliza aceste din urma valori in luarea deciziei viitoare de aprovizionare, el va fi tentat sa se aprovizioneze cu mai multe perechi la marimea 33, caz in care vanzarile vor scadea la o cerere identica celei din ziua anterioara (din 10 perechi, doar una s-a vandut la marimea 33). Folosind, in schimb, valoarea modala, egala cu 34, vanzarile pot chiar sa creasca.

Cazul variabilelor calitative

In cazul studiilor statistice dupa variabile calitative, media aritmetica si mediana nu au sens. In schimb, in aceste situatii se poate utiliza, ca si parametru al tendintei centrale, valoarea modala.

Exemplu:

Sa consideram datele din Tabelul 4‑ , referitoare la repartizarea pe domenii a angajatilor cu studii superioare ai unei firme.

Variabila 'domeniul', cu variantele sale - contabilitate, finante, management, marketing si "altele" - este o variabila atributiva calitativa.

Deoarece, pentru varianta 'contabilitate' se inregistreaza cea mai mare frecventa, rezulta ca modul, in exemplul luat, este varianta 'contabilitate', sau, cu alte cuvinte, cei mai multi angajati cu studii superioare se afla la contabilitate.

Tabelul ‑

Domeniul

Numarul angajatilor cu studii superioare (frecvente absolute)

Frecvente relative

Contabilitate

Finante

Management

Marketing

Altele

TOTAL

Cazul variabilelor cantitative

Modul pentru variabile cantitative cu variatie discreta

Pentru variabilele cantitative cu variatie discreta, valoarea modala poate fi usor sesizata cu ajutorul diagramelor.

Figura ‑

Sa consideram, de pilda, variabila 'numar de copii ce revin la o familie', cu variantele X1, X2, , Xk (de exemplu, X1 = 0 copii, X2 = 1 copil s.a.m.d.).

In Figura ‑ este reprezentata, cu ajutorul unei diagrame prin coloane, o distributie dupa aceasta variabila. Valoarea modala, adica valoarea pentru care se inregistreaza o frecventa maxima, este valoarea pe care am notat-o cu XMo.

Din grafic rezulta ca pentru grupul de familii analizat valoarea modala este XMo = 4 copii, varianta pentru care se inregistreaza 70 de observatii.

Pot exista si cazuri cand seriei ii sunt tipice mai multe moduri (exista doua sau mai multe variante ale variabilei pentru care se inregistreaza frecventa maxima, vezi Figura ‑ ).

In cazul in care pentru toate variantele unei caracteristici se inregistreaza aceeasi frecventa, nu putem vorbi de mod.

Se poate vorbi si despre moduri relative ale unei serii. Modurile relative sunt acele variante ale variabilei Xi, pentru care sunt satisfacute simultan relatiile: fi > fi-1 si fi > fi+1 (adica frecventa acelei variante este mai mare decat frecventele invecinate). In diagrama din Figura ‑ se poate observa faptul ca varianta X2 reprezinta un mod relativ.

Bineinteles ca cel mai mare dintre modurile relative este modul absolut al seriei.

Figura ‑

Figura ‑

Modul pentru variabile cantitative cu variatie continua

Avem doua cazuri:

cand variabila este definita pe intervale egale;

cand variabila este definita pe intervale neegale.

Pentru seriile cu variabile cantitative cu variatie continua, definite pe intervale egale, pentru determinarea modului se parcurg 2 pasi:

se determina intervalul modal, care este intervalul pentru care se inregistreaza frecventa cea mai mare;

se determina valoarea modala, utilizandu-se una dintre urmatoarele 3 modalitati:

modalitatea algebrica, aplicandu-se atunci cand intereseaza doar o valoare aproximativa a modului, formula de calcul fiind:

unde:

limo reprezinta limita inferioara a intervalului modal;

lsMo = limita superioara a intervalului modal.

Prin urmare, o prima modalitate consta in determinarea valorii modale ca medie aritmetica a valorilor care limiteaza intervalul modal.

modalitatea grafica, prezentata in Figura ‑ .

Figura ‑

atunci cand intereseaza o valoare foarte exacta a modului, se aplica relatia:

unde:

liMo reprezinta limita inferioara a intervalului modal;

dMo = distanta intervalului modal;

da = diferenta dintre frecventa intervalului modal si frecventa intervalului imediat anterior lui;

du = diferenta dintre frecventa intervalului modal si frecventa intervalului imediat urmator lui.

Exemplu

Sa determinam modul pentru seria de date din Tabelul ‑ .

Am marcat in tabel intervalul modal. Ramane sa aplicam relatia:

Pentru seriile cu variabile cantitative cu variatie continua, definite pe intervale inegale, in calculul valorii modale se parcurg urmatorii pasi:

se calculeaza distantele tuturor intervalelor, d;

se calculeaza, pentru toate intervalele, frecventele corectate, ca raporturi intre frecventele absolute ale intervalelor si distantele acestora: fc= f/d. Se poate obtine astfel intervalul modal, ca fiind acela care are frecventa corectata cea mai mare;

se calculeaza valoarea modala prin una din urmatoarele 2 modalitati:

ca o medie a limitelor intervalului modal:

unde:

limo reprezinta limita inferioara a intervalului modal;

lsMo = limita superioara a intervalului modal.

aplicandu-se relatia , in care da si du sunt calculate cu frecventele corectate.

Tabelul ‑

Variabila X - grupe de varsta pentru o populatie supusa studiului

Frecvente absolute, f

5

8

6

TOTAL

Exemplu:

Sa calculam valoarea modala pentru variabila 'numar de carti vandute in librarii', pornind de la datele din Tabelul ‑ .

Dupa cum se observa in tabel, intervalul modal este 30 - 50, deoarece frecventa corectata a acestui interval este cea mai mare. Valoarea modala va fi deci:

daca aplicam prima relatie:   de carti vandute;

daca aplicam cea de-a doua relatie:

Tabelul ‑

Variabila X - gruparea librariilor dupa numarul de carti vandute

Frecventa absoluta - numarul de librarii (f)

Distanta intervalului (d)

Frecvente corectate (fc)

Total

Caracteristici ale modului

In decizia de alegere a modului ca parametru de pozitie, precum si in calculul acestuia, este utila cunoasterea urmatoarelor caracteristici ale modului:

modul este cel mai reprezentativ parametru de pozitie pentru cunoasterea comportamentului pe piata al unui produs;

modul este util atunci cand distributia statistica este asimetrica;

exista in practica si distributii multimodale. In astfel de situatii, se determina mai multe valori modale, dar ele nu pot fi sintetizate pentru a se obtine o singura valoare modala pentru intreaga colectivitate;

pe graficul distributiei statistice (histograma, poligonul frecventelor), valoarea modala corespunde punctului de pe abscisa, in care graficul isi atinge maximul.

Relatii intre media aritmetica, mediana si mod

In functie de forma distributiei unei serii, intre cei 3 parametri ai tendintei centrale pot exista urmatoarele relatii:

daca variabila este una cantitativa continua si distributia ei este una simetrica fata de media aritmetica (vezi Figura 4‑6), modul este egal cu mediana si cu media aritmetica. Majoritatea seriilor statistice insa nu respecta o asemenea distributie, prezentand un anumit grad de asimetrie;

Figura ‑

Figura ‑

pentru seriile cu asimetrie la stanga sau, in termenii literaturii anglo-saxone, "cu coada la dreapta" (vezi Figura ‑ ), se verifica relatia XMo < XMe < ;

pentru seriile cu asimetrie la stanga sau, in termenii literaturii anglo-saxone, "cu coada la dreapta" (vezi Figura ‑ ), se verifica relatia XMo > XMe > ;

in cazul unei distributii unimodale usor asimetrice, frecventele sunt usor deplasate intr-o parte sau alta, putandu-se verifica urmatoarea relatie aproximativa intre cei trei indicatori sau parametri ai tendintei centrale:





Politica de confidentialitate


creeaza logo.com Copyright © 2024 - Toate drepturile rezervate.
Toate documentele au caracter informativ cu scop educational.