Πέμπτη 26 Νοεμβρίου 2015

Πρόβλεψη στο πολυδιάστατο μοντέλο παλινδρόμησης

Από Quantitative


Ας θεωρήσουμε ότι έχουμε δύο ανεξάρτητες μεταβλητές x1,x2 και θέλουμε να προβλέψουμε την τιμή της Y, με \hat{Y}, όταν x1 = x10 και x2 = x10.

Τότε μπορεί να δειχθεί οτι:

var(Y-\hat{Y})=s2\left(1+\frac{1}{n}\right)+(x_{10}-\bar{x_1})^2var(\hat{b_1})+2(x_{10}-\bar{x_1})(x_{20}-\bar{x_2})Cov(\hat{b_1},\hat{b_2})+(x_{20}-\bar{x_2})^2var\hat{b_2}

Αν s2 αντικατασταθεί με τον εκτιμητή του S2=\frac{SSE}{n-3}, λαμβάνουμε τον εκτιμητή S_{Y-\bar{Y}} για την var_{Y-\bar{Y}} και το διάστημα εμπιστοσύνης για την πρόβλεψη του y είναι το
[\bar{y}-t_{n-3;a/2} S_{Y-\bar{Y}},\bar{y}+t_{n-3;a/2} S_{Y-\bar{Y}}]

Αν είχαμε k ανεξάρτητες μεταβλητές τότε κάτω από κατάλληλες αλλαγές, όπως αντικαθιστώντας το tn − 3;a / 2 με tn − (k + 1);a / 2, έχουμε το αντίστοιχο διάστημα εμπιστοσύνης για την πρόβλεψη του yi.

Ανάλυση διακύμανσης και έλεγχοι υποθέσεων


Στην μελέτη της Πολυδιάστατης γραμμικής παλινδρόμησης μπορούμε να χρησιμοποιήσουμε και μεθόδους ανάλυσης διακύμανσης έχοντας υπ' όψιν την ιδιότητα:

SS = SSE+SSR,
όπου
  • SSE = \sum_{i=1}^{n}(Y_i-\hat{Y_i})^2 = Άθροισμα Τετραγώνων Σφαλμάτων (μη ερμηνεύσιμος),
  • SSR = \sum_{i=1}^{n}(\hat{Y_i}-\bar{Y})^2 = Άθροισμα Τετραγώνων λόγω Παλινδρόμησης (ερμηνεύσιμος όρος),
και
  • SS = \sum_{i=1}^{n}(Y_i-\bar{Y})^2 = Άθροισμα Τετραγώνων (ολικό)
Οι μέσοι των τετραγώνων που δημιουργούνται από τις δύο πηγές των διακυμάνσεων υπολογίζονται αν τις διαιρέσουμε με τους αντίστοιχους κατάλληλους βαθμούς ελευθερίας.
Οι βαθμοί ελευθερίας του SSE είναι n-k+1, οι βαθμοί ελευθερίας λόγω παλινδρόμησης k, και έτσι το (ολικό) άθροισμα έχει n-1 βαθμούς ελευθερίας.
Μπορούμε να χρησιμοποιήσουμε τα MSR (Μέσο Τετραγώνων λόγω Παλινδρόμησης) και MSE (Μέσο Τετραγώνων λόγω σφάλματος) για τον έλεγχο της υπόθεσης
Η: b1 = b2 = ... = bk = 0
(Καμία από τις μεταβλητές x1,x2,...,xk)δεν μας δίνει πληροφορίες για το Υ)
Έναντι της εναλλακτικής Α: τουλάχιστον ένα από τα b_i\neq0 (τουλάχιστον μία από τις μεταβλητές μας δίνει στατιστικά σημαντικές πληροφορίες για το Υ).
Έτσι αποδεχόμαστε την Α αν
F = \frac{MSR}{MSE} είναι μεγαλύτερο από κάποια αριθμητική τιμή, C.
Επειδή μπορεί να αποδειχθεί οτι η F ακολουθεί την F_{n_1,n_2}-κατανομή, με n1=k και n2=n-(k+1) και εφόσον επιλέξουμε το επίπεδο σημαντικότητας του ελέγχου μας α, τότε c = f_{n_1,n_2;a}. Δηλαδή
αποδεχόμαστε την υπόθεση Α, αν F = \frac{MSR}{MSE}>f_{n_1,n_2;a}


Πίνακας Ανάλυσης Διακύμανσης στην Πολυδιάστατη Παλινδρόμηση

Θεωρούμε ένα μοντέλο γραμμικής παλινδρόμησης με k παραμέτρους (α, β1, …,βκ) οι οποίες είναι συντελεστές των ανεξάρτητων μεταβλητών (και την παράμετρο α) και n παρατηρήσεις.
Y = α + β1X1 + β2X2 + ... + βkXk + ε
Για να διερευνηθεί η σχέση µεταξύ της Y και των X1, X2,…,Xκ, λαµβάνεται δείγµα µεγέθους n και για κάθε άτοµο του δείγµατος καταγράφονται οι τιµές των συγκεκριµένων µεταβλητών. Π.χ. για το i-άτοµο του δείγµατος καταγράφονται οι τιµές (Υi, Xi1Xi1, …, Χi,κ), i = 1, 2, …, n. Εφαρµόζουµε λοιπόν το µοντέλο Yi = α + β1Xi1 + β2Xi2 + ... + βkXik + εi , i = 1, 2, …, n, όπου τα «σφάλµατα» ε1, ε2, …, εn θεωρούνται ανεξάρτητες, τυχαίες μεταβλητές από την N(0,1) ,ενώ οι ερµηνευτικές µεταβλητές X1, X2,…,Xκ, όπως και στο απλό γραµµικό µοντέλο, δεν θεωρούνται τυχαίες.

 Παλινδρόμηση (β.ε.=k)              SSR     MSR=\frac{SSR}{SST} 
 Σφάλματα     (β.ε.=n-k-1)          SSE     MSE=\frac{SSE}{SST}
 Συνολική διακύμανση (β.ε.=n-1)     SST     

Η πρώτη στήλη δείχνει τις πηγές της διακύμανσης, σε παράθεση οι βαθμοί ελευθερίας, στην επόμενη στήλη τα τετραγωνικά αθροίσματα για κάθε πηγή διακύμανσης και στην επόμενη στήλη τα μέσα τετραγωνικά αθροίσματα αντίστοιχα.
Στο τέλος, αναφέρεται η τιμή F_{0}=\frac{MSR}{MSE} όπου είναι η τιμή της ελεγχοσυνάρτησης με την οποία ελέγχουμε την υπόθεση:
H01 = β2 = ... = βk = 0 έναντι της
H1: τουλάχιστον ένα \beta_{i}\neq 0, i=1,...,k
έλεγχος γίνεται με τη βοήθεια της κατανομής F και η H0 απορρίπτεται άν F0 > F1 − α,k − 1,nk. (Την ελέγχουμε την υπόθεση στο α επίπεδο σημαντικότητας).
Άν η μηδενική υπόθεση απορρίπτεται είναι ένδειξη οτι κάποια (ή κάποιες) απο τις μεταβλητές του υποδείγματος, επηρεάζουν την εξαρτημένη μεταβλητή.

Έλεγχος Υπόθεσης για κάθε μεταβλητή ξεχωριστά
Εκτός απο τον έλεγχο στην παλινδρόμηση γενικά, με την βοήθεια της κατανομής t ελέγχουμε για κάθε παράμετρο ξεχωριστά για το αν είναι στατιστικά σημαντικά διάφορη του μηδενός, κάτι το οποίο είναι ένδειξη οτι επηρεάζει την εξαρτημένη μεταβλητή και ορθώς χρησιμοποιήθηκε στο υπόδειγμα.
η ελεγχοσυνάρτηση είναι t_{0}=\frac{\widehat{\beta_{1}}}{S_{\widehat{\beta_{1}}}} ,
όπου S_{\widehat{\beta_{1}}} η εκτιμούμενη τυπικά απόκλιση του εκτιμητή του β1. Ο έλεγχος είναι:
H0i = 0 έναντι της υπόθεσης
H_{1}: \beta_{i}\neq 0
Η H0 απορρίπτεται άν t0 > tn − k − 1.

Μπορεί για κάθε μεταβλητή ξεχωριστά να μην απορρίπτεται η μηδενική υπόθεση, δηλαδή να υπάρχει ένδειξη οτι καμμία μεταβλητή δεν επηρεάζει το Y, όμως ο συνολικός έλεγχος F να απορρίπτει την μηδενική υπόθεση, κάτι το οποίο σημαίνει οτι η συνδυασμένη επίδραση των ανεξάρτητων μεταβλητών επηρεάζει την εξαρτημένη μεταβλητή Y.

Παράδειγμα

Στην αξία ενός σπιτιού (Y) ξέρουμε οτι βασικό ρόλο παίζουν η επιφάνεια (X1) και η παλαιότητα (X2). Απο ένα ενδεικτικό δείγμα 10 σπιτιών, θα μελετήσουμε κατά πόσον εξαρτάται η αξία τους απο τις ανεξάρτητες μεταβλητές εφαρμόζοντας ένα μοντέλο παλινδρόμησης 2 μεταβλητών.
> y=c(102,89,82,91,128,65,80,88,65,51)
> x1=c(95,67,72,83,104,46,82,93,77,54)
> x2=c(12,8,17,14,13,5,28,32,40,26)
>   problem=lm(y~x1+x2)
>   problem
Call:
lm(formula = y ~ x1 + x2)
Coefficients:
(Intercept)           x1           x2  
     19.967        1.084       -1.009  

Ακολουθεί ο πίνακας ανάλυσης διακύμανσης για τις μεταβλητές του μοντέλου και για το σφάλμα.
>  anova(problem)
Analysis of Variance Table
Response: y
          Df  Sum Sq Mean Sq F value    Pr(>F)    
x1         1 2829.36 2829.36  99.330 2.187e-05 ***
x2         1 1152.15 1152.15  40.449 0.0003816 ***
Residuals  7  199.39   28.48                      
Βλέπουμε το πως διασπάται η συνολική διακύμανση στην διακύμανση την οποία εξηγείται απο τις ανεξάρτητες μεταβλητές και ποιό μέρος της οφείλεται σε τυχαία σφάλματα.
Ακολουθεί η ανάλυση της παλινδρόμησης:
> summary(problem)
Call:
lm(formula = y ~ x1 + x2)
Residuals:
    Min      1Q  Median      3Q     Max 
-8.8519 -1.1200 -0.1528  1.7059  8.3999 
Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) 19.96725    7.93417   2.517 0.040008 *  
x1           1.08407    0.09923  10.925 1.19e-05 ***
x2          -1.00851    0.15857  -6.360 0.000382 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 
Residual standard error: 5.337 on 7 degrees of freedom
Multiple R-squared: 0.9523,     Adjusted R-squared: 0.9387 
F-statistic: 69.89 on 2 and 7 DF,  p-value: 2.369e-05 

Απο τον έλεγχο t φαίνεται οτι και οι 2 μεταβλητές είναι στατιστικά σημαντικές και επηρεάζουν σχεδόν σε όλα τα επίπεδα σημαντικότητας. Το R2 = 0.9523 και φαίνεται οτι απο τις 2 μεταβλητές επεξηγείται το 95.23% της διακύμανσης της μεταβλητής Y, ενώ και με βάση τον συνολικό έλεγχο F η υπόθεση για ταυτόχρονο μηδενισμό των συντελεστών των μεταβλητών απορρίπτεται σχεδόν σε όλα τα επίπεδα σημαντικότητας.

Δεν υπάρχουν σχόλια:

Δημοσίευση σχολίου