Analyse statistique

Next: Conclusion Up: Le dessert: une Previous: Description du jeu

Analyse statistique

Nous sommes intéressés à modéliser la date d'un phénomène en fonction des températures et précipitations. Il s'agit maintenant de trouver lesquelles des 10 variables ( T.JANVIER à T.MAI et P.JANVIER à P.MAI) influencent vraiment la date du déploiement des feuilles, respectivement de la pleine floraison. Une technique possible est de générer toutes les régressions possibles et d'en choisir les ``meilleures'' en utilisant comme critère par exemple le Cp de Mallows. Nous utilisons la fonction S-PLUS leaps(). Voici une illustration pour la variable X12, la pleine floraison du lilas. La commande est:

: X12.Cp <- leaps(versoix[,9:18],X12,nbest=4)

Puis nous trouvons les modèles les plus intéressants d'une manière graphique en dessinant le Cp versus le nombre de paramètres du modèle. Nous conservons les modèles qui ont une valeur Cp petite et qui sont proches de la droite y=x. On peut construire le graphique suivant : La partie en haut à droite est un agrandissement des modèles ayant une valeur Cp plus petite que 20. Pour produire ce dessin, il faut utiliser; la commande split.screen() (voir chapitre Quelques paramètres graphiques ). Nous constatons clairement que les températures en Mars et en Avril sont les deux variables les plus importantes. Si nous voulons une troisième variable, nous devrions prendre soit les précipitations en Février soit les températures dans ce même mois. Nous avons effectué les mêmes procédures pour les 7 autres variables. Le tableau suivant contient pour chacune des 8 variables les meilleures régressions (signifiant plus petite valeur Cp) pour deux et trois régresseurs :

Variable
2 régresseurs
3 régresseurs

X3

T.MARS, T.AVRIL et T.MARS, P.AVRIL
T.MARS, T.AVRIL, T.MAI et T.MARS, T.AVRIL, P.MAI

X4

T.FEVRIER, T.MARS et T.MARS, P.MARS
T.FEVRIER, T.MARS, P.MARS et T.JANVIER, T.FEVRIER, T.MARS

X9

T.FEVRIER, T.MARS et T.MARS, T.AVRIL
T.FEVRIER, T.MARS, T.AVRIL et T.JANVIER, T.FEVRIER, T.MARS

X12

T.MARS, T.AVRIL et T.FEVRIER, T.AVRIL
T.MARS, T.AVRIL, P.FEVRIER et T.FEVRIER, T.MARS, T.AVRIL

X13

T.FEVRIER, T.MARS et T.MARS, T.AVRIL
T.FEVRIER, T.MARS, P.FEVRIER et T.FEVRIER, T.MARS, T.AVRIL

X16

T.MARS, T.AVRIL et T.AVRIL, P.FEVRIER
T.MARS, T.AVRIL, P.FEVRIER et T.MARS, T.AVRIL, P.MAI

X17

T.MARS, T.AVRIL et T.JANVIER, T.AVRIL
T.MARS, T.AVRIL, P.JANVIER et T.JANVIER, T.MARS, T.AVRIL

X18

T.FEVRIER, T.MARS et T.MARS, P.FEVRIER
T.MARS, T.AVRIL, P.FEVRIERet T.FEVRIER, T.MARS, P.JANVIER

On remarque que ce sont surtout les températures qui influencent les phénomènes et assez rarement les précipitations. En plus, nous voyons clairement que les mois de Mars, Avril et Février sont déterminants. Pour mieux discerner ces dépendances, on peut representer à l'aide de ``scatterplot'' nos 8 variables versus les différentes températures, les points représentant des années. Nous ajoutons un lissage par la méthode `` LOESS'' (en utilisant la fonction S-PLUS scatter.smooth()) pour visualiser plus clairement la forme du nuage des points. Référez-vous au chapitre 8 du ``White Book'' pour une description plus détaillée de scatter.smooth() et loess().

Généralement, la tendance est que, plus la température moyenne est haute, plus le phénomène se passe tôt dans l'année; c'est en fait ce à quoi il fallait s'attendre. Or, on voit très bien que cette tendance n'est pas forcément linéaire; la courbure de certaines courbes de lissage est évidente. Il est maintenant important d'estimer la variabilité du lissage. La fonction loess() incorpore une option qui calcule et dessine des intervalles de confiance pour la courbe estimée. Nous allons présenter une autre approche, celle du ``bootstrap''. L'idée est de rééchantillonner les résidus d'un modèle donné, de reconstruire une nouvelle variable dépendante et de refaire le lissage avec loess(). La fonction suivante, appelée loess.boot, montre une façon de programmer ceci dans S-PLUS.

loess.boot <- function(x, y, B = 50, var.nom)
{
	x.nom <- deparse(substitute(x))
	y.nom <- deparse(substitute(y))
	loess.original <- loess(y ~ x)
	plot(loess.original, ylim = range(y), xlab = x.nom, ylab = y.nom, main = var.nom)
	points(x, y)
	residus <- residuals(loess.original)
	for(i in 1:B) {
         res.bootstrap <- sample(residus, replace = T)
         y.bootstrap <- res.bootstrap + fitted(loess.original)
         par(new = T)
         plot(loess(y.bootstrap ~ x), xaxt = "n", yaxt = "n", ylim = 
              range(y), xlab = x.nom, ylab = y.nom, main = var.nom)
	    }
	invisible(par(new = F))
}

Vous pouvez également présenter les ``scatterplots'' des figures précédentes, en ajoutant 50 lissages obtenus en rééchantillonnant les résidus de l'ajustement original. Ces lissages fournissent une fois réunis une sorte d'intervalles de confiance.

Vous Noterez alors la dépendance particulière entre la variable X4 (Pleine floraison de l'Anémone Sylvie) et la température en Avril: les régressions multiples linéaires n'ont pas tenu compte de cette température, certainement du fait de la non linéarité de la dépendance. Des effets de multicolinéarité entre variables peuvent être exclus car les températures ne sont pas significativement corrélées (voir le tableau ci-dessous des corrélations pour les variables météorologiques):

          T.JANVIER T.FEVRIER T.MARS T.AVRIL T.MAI P.JANVIER P.FEVRIER P.MARS P.AVRIL P.MAI 
T.JANVIER      1.00      0.06   0.21   -0.16  0.09      0.23     -0.04  -0.14   -0.01  0.17
T.FEVRIER      0.06      1.00   0.22    0.12  0.07     -0.15      0.57  -0.14   -0.12 -0.22
   T.MARS      0.21      0.22   1.00   -0.03  0.02     -0.29      0.08  -0.21    0.01 -0.12
  T.AVRIL     -0.16      0.12  -0.03    1.00 -0.05     -0.05     -0.21  -0.02   -0.25  0.05
    T.MAI      0.09      0.07   0.02   -0.05  1.00     -0.17     -0.02  -0.04    0.18 -0.15
P.JANVIER      0.23     -0.15  -0.29   -0.05 -0.17      1.00      0.14   0.12    0.04  0.22
P.FEVRIER     -0.04      0.57   0.08   -0.21 -0.02      0.14      1.00  -0.25    0.06 -0.12
   P.MARS     -0.14     -0.14  -0.21   -0.02 -0.04      0.12     -0.25   1.00    0.10 -0.01
  P.AVRIL     -0.01     -0.12   0.01   -0.25  0.18      0.04      0.06   0.10    1.00 -0.10
    P.MAI      0.17     -0.22  -0.12    0.05 -0.15      0.22     -0.12  -0.01   -0.10  1.00

Prenons le modèle avec X4, la Pleine floraison de l'Anémone Sylvie et la température en Avril. On peut représenter les résidus de différentes manières (qqnorm, acf ...)
Ces graphiques ne revèlent rien de particulier. Les autocorrélations estimées ne sont pas significatives.
Nous avons mentionné que la fonction loess() permet de calculer et de visualiser des intervalles de confiance approximatifs de la courbe ajustée. Vous pourrez alors comparer ces intervalles (avec seuil de confiance 0.95) (La commande est la suivante: scatter.smooth(X4 ~ T.AVRIL, confidence=20, coverage=0.95)) avec la représentation de la variabilité obtenue par le ``bootstrap''.

Vous constaterez que les deux représentations sont très similaires.

Next: Conclusion Up: Le dessert: une Previous: Description du jeu

Marcel Baumgartner

Analyse statistique

Variable 2 régresseurs 3 régresseurs

X3

X4

X9

X12

X13

X16

X17

X18

Variable
2 régresseurs
3 régresseurs