Gli argomenti
I materiali
I link utili
Le calcolatrici
Download
professione progetto

Matematica finanziaria e Statistica

Unità didattiche

Regressione e correlazione per le distribuzioni doppie di frequenze Versione PDF

di Rocco Fazio

Obiettivo : studio della regressione e della correlazione per variabili statistiche di cui sia nota la distribuzione doppia di frequenze.

Prerequisiti

Sviluppo dell'unità.

Se i dati rilevati delle variabili statistiche X ed Y sono espressi mediante una tabella a doppia entrata, detto  il numero delle unità (frequenze) che presentano contemporaneamente le modalità  ed, si può rappresentare la situazione con lo schema seguente:

I numeri  e  sono i totali, rispettivamente, della riga i -esima e della colonna k -esima e indicano quante unità della popolazione rilevata hanno valore  e quante valore.

Associando i totali  ai valori  e i totali  ai valori  si ottengono due distribuzioni a semplice entrata, dette distribuzioni marginali.

Riferiamo, per comodità, il nostro studio ad un esempio: la seguente tabella mostra infatti la distribuzione dei voti in italiano e in matematica degli allievi di quattro classi di un liceo scientifico:

Voto in matematica

Voto in italiano

3

4

5

6

7

8

9

Totali

3

1

2

1

0

0

0

0

4

4

1

2

2

2

0

0

0

7

5

1

3

4

6

2

0

0

16

6

1

4

10

25

8

1

0

49

7

0

0

1

5

10

4

1

21

8

0

0

0

2

5

3

2

12

9

0

0

0

0

1

0

1

2

Totali

4

11

18

40

26

8

4

11


Assegniamo i valori delle  agli elementi della lista datix e quelli delle  agli elementi della lista datiy :

Utilizziamo l'ambiente DATA/MATRIX EDITOR per riempire la matrice matfreq[i,k] con le frequenze  :

Inseriamo i valori delle distribuzioni marginali  e  nelle liste xmarg ed ymarg :

Calcoliamo ora i valori medi di x e di y; per farlo realizziamo la funzione medpes che calcola la media pesata di un insieme di valori e che può essere utile in molte occasioni:

medpes(valori,pesi)
Func
 (valori[i]*pesi[i],i,1,dim(pesi))/(  (pesi[i],i,1,dim(pesi)))
EndFunc

Si noti l'uso del comando dim, che fornisce le dimensioni di una lista o di una matrice.
Occorre adesso determinare le distribuzioni delle medie condizionate  e, ottenute facendo corrispondere ad ogni valore  di X il valore medio pesato
() e ad ogni valore  il valore medio pesato  ().

Allo scopo si modifica la funzione medpes in modo tale da fornire la lista dei valori medi ponderati delle x e delle y :

medpes1(mat,val,tot,variab)
Func
Local mmp,i,k
If variab="x" Then
For k,1,dim(tot)
 (val[i]*mat[i,k],i,1,dim(val))/(tot[k])  mmp[k]
EndFor
Else
For i,1,dim(tot)
 (val[k]*mat[i,k],k,1,dim(val))/(tot[i])  mmp[i]
EndFor
EndIf
Return mmp
EndFunc

Ecco la relativa schermata ottenuta con la TI 92:

La rappresentazione grafica delle due distribuzioni delle medie pesate si può realizzare definendo innanzitutto le due distribuzioni nell'ambiente Data/Matrix Editor:

e tracciando poi il grafico delle spezzate che costituiscono le due linee di regressione:

Le due rette di regressione hanno equazioni:

ed i coefficienti di regressione si possono esprimere in funzione dei dati iniziali, in modo da ridurre al minimo gli errori di arrotondamento che in questi casi diventano particolarmente pesanti:

L'implementazione delle formule precedenti è realizzato con la funzione coreg, che calcola le equazioni delle due rette di regressione:

coreg(xx,yy,mat,variab)
Func
Local i,k,xm,ym,tot,totx,toty,b
dmargx(mat)  totx:dmargy(mat)  toty
medpes(xx,totx)  xm:medpes(yy,toty)  ym:sum(totx)  tot
If variab="x" Then
 (  (xx[i]*yy[k]*mat[i,k],k,1,dim(yy)),i,1,dim(xx))- tot*xm*ym)/(  (xx[i]^2*totx[i], i, 1, dim(xx))-tot*xm^2)  b
Return {expand(y-ym=b*(x-xm)),b}
Else
(  (  (xx[i]*yy[k]*mat[i,k],k,1,dim(yy)),i,1,dim(xx))-tot*xm*ym)/(  (yy[k]^2*toty[k], k, 1, dim(yy))-tot*ym^2)  b
Return {expand(x-xm=b*(y-ym)),b}
EndIf
EndFunc

Si possono quindi determinare le equazioni delle due rette e i relativi coefficienti:

I grafici delle rette di regressione si possono sovrapporre a quelli delle linee di regressione ottenendo una stima "ad occhio" dell'adattamento delle rette ai dati:

Individuiamo infine gli altri elementi che consentono di completare l'analisi della dipendenza, ossia:
- il coefficiente di correlazione lineare di Bravais-Pearson  (il segno è "+" o "-" a seconda che i due coefficienti - che hanno sempre lo stesso segno - siano entrambi positivi o negativi);
- il coefficiente di determinazione.

Possiamo anche verificare che le due rette si intersecano nel baricentro della distribuzione utilizzando lo strumento Math/Intersection fornito dalla calcolatrice.

Dai calcoli si ottiene per r il valore di 0.6652, che indica una discreta correlazione lineare fra il voto di italiano e quello di matematica, mentre il coefficiente di determinazione  risulta uguale a 0.4452.

 

Icona
Commenti sull'argomento

Se sei un iscritto a Cartesio puoi lasciare il tuo commento su questo argomento. Per iscriverti, clicca qui.

Al momento non ci sono commenti.



Questo sito Credits