Post

TP2 Quanti Quanti

Télécharger le TP2 Quanti Quanti en pdf

Pages : 1 2 3 4

Page 1 : Ingénieurs 1ère année Data exploration T.P.2. Croisement Quantitatif-Quantitatif 1 TP2 : Analyse bivariée : Croisement Quantitatif-Quantitatif Durée : 3h L’objectif de ce TP est d’étudier un lien éventuel entre deux variables quantitatives et de construire un modèle décrivant ce lien le cas échéant. Exercice 1 Un peu de géométrie Dans une population Ω de taille n, on observe deux variables quantitatives continues, x=xkk=1,…,n, et y=ykk=1,…,n, de moyennes x et y et de variances 2xs et 2ys . On définit le produit scalaire, ==n1kkkyxn1y,x. 1 Montrez que la covariance est le produit scalaire entre les vecteurs centrés x- x et y- y . Puis exprimez le produit scalaire en fonction de Cxy et les moyennes. 2 Déterminez la norme du vecteur centré x- x puis la norme de x en fonction de sa variance et sa moyenne. 3 Comment peut-on écrire la moyenne x à l’aide du produit scalaire ? 4 D’un point de vue géométrique à quoi correspond le coefficient de corrélation linéaire ? 5 On dit que les deux variables x et y sont non corrélées si rxy=0 et entièrement corrélées si rxy=±1. Qu’est-ce que cela signifie géométriquement ? 6 A l’aide du produit scalaire, montrez que : a la moyenne des valeurs prédites est égale à la moyenne de la série observée y, b les résidus sont de moyenne nulle, c les résidus sont non corrélés avec la série observée x. Exercice 2 Chômage en 1982 On donne pour les six premiers mois de l’année 1982 les nombres d’offres d’emploi concernant des emplois durables à temps plein et de demandes d’emploi déposées par des personnes sans emploi, immédiatement disponibles, à la recherche d’un emploi durable à plein temps. Les nombres sont exprimés en milliers. Offres xi 61 66,7 75,8 78,6 82,8 87,2 Demandes yi20342003,81964,51928,21885,31867,1 ..

page 1

Page 2 : Ingénieurs 1ère année Data exploration T.P.2. Croisement Quantitatif-Quantitatif 2 On a les résultats suivants 35,75x = 15,1947y = 49,97s2x = 14,4329s2y = 90,639cxy= 1 Calculer le coefficient de corrélation linéaire. Conclusion 2 Déterminer la droite de régression. 3 Calculer la prévision de la demande d’emploi s’il y a 61 milliers d’offres. Comparer avec la demande réelle. 4 Vérifier la formule de la décomposition de la variance. En déduire le coefficient de détermination. Exercice 3 Données : DepensesEduData.xls Le fichier DepensesEduData.csv recense les dépenses publiques de certains états pour l’éducation ainsi que le nombre d’élèves donnée Eurostat 2008. tab - read.table"DepensesEduData.csv",header=T,sep=";",dec="," summarytab boxplottabnbEleves,tabDepenses 1 Tracer le nuage de points des dépenses en fonction du nombre d’élèves. nuage de points plottabnbEleves,tabDepenses,main="Budget en fonction du nombre d'élèves en Europe", xlab="nombre d'étudiants en milliers",ylab="Budget K€" texttabnbEleves,tabDepenses,row.namestab,cex=0.8 cex=taille de la police 2 Calculer le coefficient de corrélation linéaire. Conclusion cortab calcule la corrélation entre les variables 3 Déterminer la droite de régression. Tracer la droite sur le graphique. construit le modèle de régression linéaire / lm = linear model modele - lmDepenses nbEleves, data=tab summarymodele résume toutes les caractéristiques du modèle attributesmodele donne tous les attributs de l’objet « lm » modelecoef donne les coefficients de la droite trace la droite sur le nuage de points ablinemodelecoef1,modelecoef2,col="red",lwd=2 4 Vérifier les hypothèses sur les résidus. Quel pays semble atypique par rapport au modèle ?

page 2

Page 3 : Ingénieurs 1ère année Data exploration T.P.2. Croisement Quantitatif-Quantitatif 3 modelefitted affiche les prévisions données par le modèle aux points du tableau modeleresiduals affiche les résidus restd - rstandardmodele affiche les résidus standardisés X11 ouvre une nouvelle fenêtre graphique plotmodelefitted, restd ,ylim=range-2,2,restd, main="Résidus standardisés" range donne le min et le max d’une série de nombres ablineh=2,col="red",lwd=2 ajoute les lignes pour détecter les observations atypiques ablineh=-2,col="red",lwd=2 textmodelefitted, restd ,row.namestab ajoute le nom des pays 5 Supprimer le pays atypique et refaire la même chose. 6 Quel pourcentage de variabilité des dépenses est expliqué par la droite de régression ? Est-ce que vous validez le modèle ? 7 Calculer les budgets prédits par le modèle pour 1000, 6000 et 9500 milliers d’étudiants. Placer les sur le graphique. newx - data.framec1000,6500,9000 nouveaux points namesnewx= "nbEleves" prev - predictmodele,newdata=newx calcul les prévisions aux nouveaux points plottabnbEleves,tabDepenses,main="Budget en fonction du nombre + d'élèves en Europe", xlab="nombre d'étudiants en + milliers",ylab="Budget K€" pointstnewx,prev,col="green",lwd=2 t pour transposer le vecteur newx Exercice 4 Ventes PY Bernard, exercices corrigés de statistique descriptive, ed. economica Une étude a été menée auprès d’entreprises afin d’établir le lien entre les quantités commandés d’un bien, Y, et son prix, X et on obtient les observations suivantes Commandes.csv. Prix de vente € Quantités commandées9510413058148422101225083305

page 3

Page 4 : Ingénieurs 1ère année Data exploration T.P.2. Croisement Quantitatif-Quantitatif 4 1 Tracer le nuage de points. 2 Calculer le coefficient de corrélation linéaire entre X et Y. Conclusion 3 Déterminer la droite de régression de Y en fonction de X. 4 Quel est le pourcentage de variation des quantités de commande expliquée par la droite de régression ? 5 Calculer les résidus et vérifier les hypothèses sur les résidus. Conclusion. 6 On pose u=logx et v=logy. Quelle est la relation entre u et v ? 7 Calculer le coefficient de corrélation linéaire entre u et v. 8 Trouver la droite de régression de v sur u. 9 Quel est le pourcentage de variation des quantités de commande expliquée par la droite de régression ? 10 Valider le modèle. 11 En déduire la quantité qui serait commandée si le prix était fixé à 75€. Exercice 1 suite facultative 7 Montrer que les résidus sont non corrélés avec la série X. Qu’est-ce que cela signifie ? 8 Montrer la formule de décomposition de la variance 2R2E2ysss+= où 2Es est la variance expliquée par la droite de régression, et 2Rs est la variance résiduelle. On peut alors montrer que le coefficient de détermination 2y2E2ssR =, qui donne le taux de variance expliquée par la droite de régression, est égale au coefficient de corrélation linaire au carré, 2xy2rR =.

page 4

Pages : 1 2 3 4

Le contenu de cet article est la propriété exclusive de son auteur.