Matematica finanziaria e Statistica
Unità didattiche
Regressione e correlazione per le distribuzioni doppie di frequenze 
di Rocco Fazio
Obiettivo : studio della regressione e della correlazione per variabili statistiche di cui sia nota la distribuzione doppia di frequenze.
Prerequisiti
- variabili statistiche;
- geometria analitica della retta;
- statistica descrittiva univariata;
- regressione a minimi quadrati.
Sviluppo dell'unità.
Se i dati rilevati delle variabili statistiche X ed Y sono espressi mediante una tabella a doppia entrata, detto
il numero delle unità (frequenze) che presentano contemporaneamente le modalità
ed, si può rappresentare la situazione con lo schema seguente:

I numeri
e
sono i totali, rispettivamente, della riga i -esima e della colonna k -esima e indicano quante unità della popolazione rilevata hanno valore
e quante valore.
Associando i totali
ai valori
e i totali
ai valori
si ottengono due distribuzioni a semplice entrata, dette distribuzioni marginali.
Riferiamo, per comodità, il nostro studio ad un esempio: la seguente tabella mostra infatti la distribuzione dei voti in italiano e in matematica degli allievi di quattro classi di un liceo scientifico:
Voto in matematica Voto in italiano |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
Totali |
3 |
1 |
2 |
1 |
0 |
0 |
0 |
0 |
4 |
4 |
1 |
2 |
2 |
2 |
0 |
0 |
0 |
7 |
5 |
1 |
3 |
4 |
6 |
2 |
0 |
0 |
16 |
6 |
1 |
4 |
10 |
25 |
8 |
1 |
0 |
49 |
7 |
0 |
0 |
1 |
5 |
10 |
4 |
1 |
21 |
8 |
0 |
0 |
0 |
2 |
5 |
3 |
2 |
12 |
9 |
0 |
0 |
0 |
0 |
1 |
0 |
1 |
2 |
Totali |
4 |
11 |
18 |
40 |
26 |
8 |
4 |
11 |
Assegniamo i valori delle
agli elementi della lista datix e quelli delle
agli elementi della lista datiy :

Utilizziamo l'ambiente DATA/MATRIX EDITOR per riempire la matrice matfreq[i,k] con le frequenze
:


Inseriamo i valori delle distribuzioni marginali
e
nelle liste xmarg ed ymarg :

Calcoliamo ora i valori medi di x e di y; per farlo realizziamo la funzione medpes che calcola la media pesata di un insieme di valori e che può essere utile in molte occasioni:
medpes(valori,pesi)
Func
(valori[i]*pesi[i],i,1,dim(pesi))/(
(pesi[i],i,1,dim(pesi)))
EndFunc

Si noti l'uso del comando dim, che fornisce le dimensioni di una lista o di una matrice.
Occorre adesso determinare le distribuzioni delle medie condizionate
e, ottenute facendo corrispondere ad ogni valore
di X il valore medio pesato 
() e ad ogni valore
il valore medio pesato
().
Allo scopo si modifica la funzione medpes in modo tale da fornire la lista dei valori medi ponderati delle x e delle y :
medpes1(mat,val,tot,variab)
Func
Local mmp,i,k
If variab="x" Then
For k,1,dim(tot)
(val[i]*mat[i,k],i,1,dim(val))/(tot[k])
mmp[k]
EndFor
Else
For i,1,dim(tot)
(val[k]*mat[i,k],k,1,dim(val))/(tot[i])
mmp[i]
EndFor
EndIf
Return mmp
EndFunc
Ecco la relativa schermata ottenuta con la TI 92:

La rappresentazione grafica delle due distribuzioni delle medie pesate si può realizzare definendo innanzitutto le due distribuzioni nell'ambiente Data/Matrix Editor:


e tracciando poi il grafico delle spezzate che costituiscono le due linee di regressione:




Le due rette di regressione hanno equazioni:
![]()
ed i coefficienti di regressione si possono esprimere in funzione dei dati iniziali, in modo da ridurre al minimo gli errori di arrotondamento che in questi casi diventano particolarmente pesanti:

L'implementazione delle formule precedenti è realizzato con la funzione coreg, che calcola le equazioni delle due rette di regressione:
coreg(xx,yy,mat,variab)
Func
Local i,k,xm,ym,tot,totx,toty,b
dmargx(mat)
totx:dmargy(mat)
toty
medpes(xx,totx)
xm:medpes(yy,toty)
ym:sum(totx)
tot
If variab="x" Then
(
(xx[i]*yy[k]*mat[i,k],k,1,dim(yy)),i,1,dim(xx))- tot*xm*ym)/(
(xx[i]^2*totx[i], i, 1, dim(xx))-tot*xm^2)
b
Return {expand(y-ym=b*(x-xm)),b}
Else
(
(
(xx[i]*yy[k]*mat[i,k],k,1,dim(yy)),i,1,dim(xx))-tot*xm*ym)/(
(yy[k]^2*toty[k], k, 1, dim(yy))-tot*ym^2)
b
Return {expand(x-xm=b*(y-ym)),b}
EndIf
EndFunc
Si possono quindi determinare le equazioni delle due rette e i relativi coefficienti:

I grafici delle rette di regressione si possono sovrapporre a quelli delle linee di regressione ottenendo una stima "ad occhio" dell'adattamento delle rette ai dati:




Individuiamo infine gli altri elementi che consentono di completare l'analisi della dipendenza, ossia:
- il coefficiente di correlazione lineare di Bravais-Pearson
(il segno è "+" o "-" a seconda che i due coefficienti - che hanno sempre lo stesso segno - siano entrambi positivi o negativi);
- il coefficiente di determinazione.
Possiamo anche verificare che le due rette si intersecano nel baricentro della distribuzione utilizzando lo strumento Math/Intersection fornito dalla calcolatrice.


Dai calcoli si ottiene per r il valore di 0.6652, che indica una discreta correlazione lineare fra il voto di italiano e quello di matematica, mentre il coefficiente di determinazione
risulta uguale a 0.4452.
Commenti sull'argomento
Se sei un iscritto a Cartesio puoi lasciare il tuo commento su questo argomento. Per iscriverti, clicca qui.
Al momento non ci sono commenti.



