Gli argomenti
I materiali
I link utili
Le calcolatrici
Download
professione progetto

Matematica finanziaria e Statistica

Unità didattiche

Regressione e Correlazione Versione PDF

di Aurelia Orlandoni

Premessa per l'insegnante
Lo scopo di questa unità didattica è mostrare come l'uso di una calcolatrice grafica (in particolare la TI83) consenta, in modo semplice ed immediato, di determinare diverse funzioni interpolanti per una serie di dati, analizzarne il grado di accostamento, fare previsioni e individuare il modello più adeguato ad interpretare la situazione in esame.
Gli aspetti teorici sono ridotti, quasi sempre, a semplici enunciazioni, lasciando i necessari chiarimenti e gli eventuali approfondimenti all'insegnante.
E' utile sottolineare che l' esempio presentato è praticamente inaffrontabile in classe, senza supporti informatici.

Obiettivi:

- Prevedere dal grafico quale funzione meglio approssima l'andamento dei dati sperimentali
- Costruire e rappresentare vari tipi di funzioni di regressione lineare e non
- Analizzare la "bontà" del modello utilizzando diversi indicatori: indice di determinazione, grafico degli scarti residui, …
- Fare previsioni sullo sviluppo del fenomeno

Prerequisiti:

- Metodo dei minimi quadrati e calcolo dei coefficienti per le funzioni esaminate ·
- Utilizzo dei logaritmi per ricondurre a funzioni lineari alcune funzioni non lineari

Sviluppo dell'unità
Eseguire un'interpolazione fra punti, significa determinare la curva che meglio si adatta all'andamento dei dati sperimentali (curva di regressione).
Con il metodo dei minimi quadrati la curva di regressione individuata è quella che rende minima la somma dei quadrati degli scarti tra i valori osservati e quelli teorici. Se y = f(x) è l'equazione della curva teorica scelta, allora i suoi coefficienti sono determinati in modo che sia minima la somma, dove  rappresentano i valori osservati.
Il metodo dei minimi quadrati è utilizzabile per la ricerca di qualunque tipo di dipendenza, lineare e non, tra due variabili.
I modelli teorici di regressione che analizzeremo sono:
- Lineare
- Polinomiale
- Logaritmico
- Esponenziale
- Potenza
- Logistica

La serie utilizzata per questa attività è quella relativa ai dati del censimento degli Stati Uniti (in milioni di persone) della tabella seguente:

Anno 1810 1820 1830 1840 1850 1860 1870 1880 1890
L1 X 1 2 3 4 5 6 7 8 9
POPUS Y 7.24 9.64 12.87 17.07 23.19 31.44 39.82 50.16 62.95
Anno 1900 1910 1920 1930 1940 1950 1960 1970 1980
X 1 0 1 1 1 2 1 3 1 4 1 5 1 6 1 7 1 8
Y 75.99 91.97 105.71 122.78 131.67 151.33 179.32 203.21 226.5

Il valore per il 1990 è di 249.63 milioni di persone, ma non lo includeremo nella lista perché ce ne serviremo per verificare con quale precisione l'equazione interpolante è in grado di prevederlo.

1. Costruzione della tabella e rappresentazione dei dati iniziali
La prima operazione necessaria è quella di memorizzare i dati relativi alla popolazione in una lista ( POPUS), e quelli relativi agli anni in un'altra ( L1) utilizzando i valori da 1 a 18 per gli anni dal 1810 al 1980 e rappresentarli in un diagramma a dispersione.

Premete  1:Edit. Osservate che ci sono sei nomi di lista da L1 a L6. Inserite nella colonna L1 i valori relativi a X.
Evidenziate L2 e premete   per spostare la lista L1 sulla destra. Per inserire il nome della seconda lista mettetevi in modalità alphalock () e scrivete POPUS. Premete   e inserite i dati relativi alla popolazione.

(1)

Per rappresentare i dati in un grafico a punti è necessario predisporre la TI83. Premete  Plot () e selezionate la modalità come nella schermata 2.

(2)

Premete  9:ZoomList  per ottenere il grafico mostrato nella schermata 3.

(3)

Osservate che in cima alla schermata del grafico viene mostrata l'impostazione con P1:L1,POPUS.
I punti sembrano giacere più su di una curva che non su di una linea retta, ma noi cominceremo interpolando i dati con una curva di regressione lineare.

2. Retta di regressione lineare secondo i minimi quadrati
Determinare i coefficienti della retta dei minimi quadrati significa determinare il minimo della funzione.
Risolvendo il sistema delle derivate prime poste uguali a zero si ottengono i coefficienti:

Per calcolare i coefficienti della retta interpolante premete  CALC 4: LinReg(ax+b) L1  L POPUS  Y1, con Y1 selezionato da  Y-VARS 1:Function 1:Y1 (schermata 4). Per vedere i risultati premete  (schermata 5).

(4)  (5)

Oltre all'equazione della retta di regressione vengono automaticamente calcolati sia il coefficiente di determinazione sia quello di correlazione lineare come indicatori della bontà della funzione scelta.

Il coefficiente di determinazione è dato da, dove  rappresenta il valore teorico, corrispondente al dato  il valore medio dei dati sperimentali. Se la funzione si accosta in modo perfetto ai dati, cioè  per ogni i, allora la frazione assume il valore 0 e il coefficiente di determinazione il valore 1. Viceversa, più il coefficiente di determinazione si avvicina a 0, meno adatta è la funzione a rappresentare la serie di dati statistici.
Nel caso della retta si può anche calcolare il coefficiente di correlazione lineare, che varia fra -1 e 1; r = -1, indica una perfetta correlazione inversa, r = 0 indica che non vi è correlazione e r = +1 indica una perfetta correlazione diretta.
Premete  9:ZoomStat  per visualizzare la il grafico della retta di regressione sovrapposta al diagramma dei dati sperimentali (schermata 6).

(6)

La TI83, quando vengono calcolati i parametri della retta dei minimi quadrati, costruisce automaticamente una lista ( RESID) in cui vengono inseriti gli scarti residui, cioè le differenze fra i valori sperimentali e i valori teorici.
Se la funzione interpolante approssima in modo perfetto i dati, gli scarti residui sono tutti nulli, altrimenti assumono valori diversi. Quindi possiamo utilizzarli per avere un'informazione sulla "bontà" dell'interpolazione scelta. Rappresentiamo quindi il grafico degli scarti residui.
Per ottenerlo, dovremo prima disattivare gli altri grafici, poi impostare Plot2 sul diagramma a punti, dove Xlist:L1 e Ylist:RESID, come nella schermata 7.
( Per disattivare il grafico della retta di regressione premete, utilizzando il cursore posizionatevi sul segno = e premete. Osservate che il segno = cambia forma)

(7)

La disposizione non casuale del grafico degli scarti residui conferma che la retta di regressione non interpola molto bene i dati.
Poiché gli scarti residui risultano alcuni positivi, altri negativi ed altri ancora uguali a zero, ci serviremo della Somma dei Quadrati degli Scarti Residui per una valutazione di quanto i punti si adattino alla curva; infatti questo valore sarebbe zero se tutti i punti giacessero sulla curva. Il valore che si ottiene è 4651.51534, confermando il fatto che la retta non sia la funzione più adatta in questo caso (  [LIST] MATH 5:sum , poi  [LIST RESID).
Proviamo anche a "prevedere" il valore per l'anno1990:  Y-VARS 1:Function 1:Y1
Nella schermata 8 è stato anche calcolato l'errore relativo sulla previsione, che risulta piuttosto grande (17%).

(8)

3. Regressione polinomiale
Il diagramma a dispersione dei dati ci consente di ipotizzare che si possa ottenere una buona approssimazione utilizzando una funzione quadratica.
Premete  CALC 5 e procedete come per la retta per ottenere le schermate 9 e 10

(9)  (10)

Possiamo osservare che viene (giustamente) calcolato solo il coefficiente di determinazione e che il suo valore è più vicino a 1 del precedente. Questo ci fa supporre che la funzione quadratica si adatti meglio ai dati.
In modo analogo a prima rappresentiamo il grafico della curva di regressione e quello degli scarti residui :

(11)  (12)

Questa volta il grafico degli scarti residui ha un andamento molto più casuale e i punti si trovano più vicino all'asse delle x.
Anche in questo caso calcoliamo la Somma dei Quadrati degli Scarti Residui, il valore previsto per la popolazione del 1990 e l'errore relativo sulla previsione. I risultati sono riportati sotto:

(13)  (14)

e confermano l'ipotesi che questa curva si adatti meglio ai dati.

4. Regressione logaritmica, esponenziale e potenza
Premete  CALC e poi alcune volte  per visualizzare la schermata seguente:

(15)

9:LnReg
Interpola i dati con la funzione y = a + b (ln x), che si può scrivere come y = a + bX (dove X = ln x). Si calcolano a e b con una retta dei minimi quadrati utilizzando però ln x anzichè x.

0:ExpReg
Interpola i dati con la funzione esponenziale. Anche questa volta si può utilizzare la funzione lineare trasformando  in (ln y) = (ln a) + (ln b) x = A + B x
Si calcolano A e B con una retta dei minimi quadrati utilizzando x e ln y anzichè x e y, dopodiché si ricavano.

A:PwReg
Interpola i dati con la funzione potenza. La trasformazione che consente di utilizzare la funzione lineare è: (ln y) = (ln a) + b (ln x) =A + b* X
Si calcolano A e b con una retta dei minimi quadrati utilizzando ln x e ln y anzichè x e y, dopodiché si ricava.

Analizzeremo solo il caso della curva esponenziale: il procedimento è lo stesso dei casi precedenti. E' opportuno però disattivare il calcolo di r ed  in quanto non avrebbero alcun significato in questo caso:  CATALOG D DiagnosticOff.

Le schermate seguenti riportano i risultati:

(17)  (18)

(19)  (20)

(21)

Come si può vedere nelle schermate 20 e 21 la curva esponenziale non interpola bene i dati e il grafico degli scarti residui evidenzia un andamento crescente degli scarti al passare del tempo.
Dalla schermata 19 si può vedere che la Somma dei Quadrati degli Scarti Residui è un valore molto grande e il valore previsto per la popolazione del 1990 si discosta molto dal valore reale, infatti l'errore relativo sulla previsione è -48.3%.

5. Interpolazione con la curva logistica
La curva logistica ha equazione:  e, anche se è molto importante, non viene usualmente affrontata in classe per le difficoltà legate alla determinazione dei coefficienti.
Premete  CALC B:Logistic L1 ….. per ottenere le schermate seguenti:

(22)  (23)

Questa volta il calcolo non è immediato, come si può notare dal simbolo di "occupato" nell'angolo in alto a destra del video. La tecnica usata tenta di stimare ricorsivamente a, b, e c in modo da rendere la Somma dei Quadrati degli Scarti Residui il più piccolo possibile.

(24)  (25)

La curva logistica di interpolazione sembra ondeggiare fra i dati come mostra la schermata 24, ciò è confermato dal grafico degli scarti residui mostrato nella schermata 25.

Dopo aver fatto il primo grafico (schermata 24) premete  3:Zoom Out, otterrete la visualizzazione mostrata nella schermata 26. La curva logistica si appiattisce. Non continua a crescere così velocemente come la curva quadratica o l'esponenziale.

(26)  (27)

La previsione per il 1990 ha un errore di appena 2.85%.

6. Confronto fra le interpolazioni usate
Abbiamo riportato in una tabella i risultati delle analisi fatte e dei calcoli svolti, in modo da poterli confrontare meglio:

Interpolazione SQSR % errore Grafico dei residui Lungo periodo
su X=19
lineare 4652 17.1 schema delineato crescita lineare
quadratica 131 0.4 sembra casuale " in prop. a x^2
esponenziale 9849 -48.3 schema delineato " esponenz.
logistica 307 2.9 schermata 25 si appiattisce

L'interpolazione quadratica sembra la migliore nel breve periodo, ma la logistica non si discosta di molto e, ha il vantaggio di una proiezione a lunga scadenza più realistica (almeno speriamo sia così!).

Questo esempio è tratto da EXPLORATIONS:Statistics Handbook for the TI-83 - Texas Instruments

Icona
Commenti sull'argomento

Se sei un iscritto a Cartesio puoi lasciare il tuo commento su questo argomento. Per iscriverti, clicca qui.

Al momento non ci sono commenti.



Questo sito Credits