Post

DS 2024 2025 GIM

Télécharger le DS 2024 2025 GIM en pdf

Pages : 1 2 3 4

Page 1 : ExamenData Exploration - ING1 MathématiquesAppliquéesDate : 17 décembre 20242 feuilles R/V manuscrites autorisées, Calculatrice autoriséeDurée : 2hNombre de pages : 4Il sera tenu compte de la qualité de la rédaction et de la précision desjustications.Le jeu de données Avocado Prices ou Prix des Avocats contient des informations sur les prixdes avocats vendus aux États-Unis sur une période de 130 jours, ainsi que d'autres caractéristiquesliées à leur vente. Nous nous intéressons particulièrement aux variables quantitatives et aux variablesqualitatives suivantes : Price : Le prix moyen d'un kg d'avocat en dollars. Volume : Le volume total d'avocats vendus en tonnes. Hass : Le volume d'avocats de variété Hass vendus en tonnes. Fuerte : Le volume d'avocats de variété Fuerte vendus en tonnes. Bacon : Le volume d'avocats de variété Bacon vendus en tonnes. Year : L'année de la vente de l'avocat. Total Bags : Le nombre total de sacs vendus. Type : Le type d'avocat, généralement soit conventional ou organic. Region : La région géographique aux États-Unis où l'avocat a été vendu Center, North,South, West.AStatistiques univariéesOn commence par étudier la variable Price. On obtient avec le logiciel R les résultats suivants : summaryDatasetPriceMin. 1st Qu.MedianMean 3rd Qu.Max.2.6003.9304.5804.7235.2007.7601. Donner et interpréter les quartiles.2. Calculer l'étendue et l'écart interquartile.3. Calculer les moustaches m et M du boxplot.4. Y a-t-il des valeurs atypiques pour cette variable ? Justier.5. Comparer la moyenne et la médiane de la variable Price.BStatistiques BivariéesB - 1Analyse Quantitative x QuantitativeOn s'intéresse au lien entre les variables X = Price et Y = Volume. On donne les résultats suivants :¯Y = 522.7787,¯X = 4.723,s2X = 1.151,s2Y = 423428,CovX, Y = 324.61

page 1

Page 2 : 1. Calculer et interpréter le coecient de corrélation linéaire entre X et Y .2. Déterminer l'équation de la droite de régression de Y en fonction de X.3. Pour un prix X = 3.92, la volume de vente était de 27.357 tonnes.a Donner la valeur de Y estimé pour X = 3.92.b Calculer l'erreur de l'estimation.4. Calculer et interpréter le coecient de détermination R2.On donne les résumés numériques de la variable des résidus centrés : summaryrstandardRegressionMin.1st Qu.MedianMean3rd Qu.Max.-1.3518229 -0.8825172 -0.38470210.00082270.96502272.57253425. Y a-t-il des valeurs atypiques ? Justier.6. Que pensez-vous de ce modèle ? Peut-on l'améliorer ? Justier.B - 2Analyse Quantitative x QualitativeOn s'intéresse maintenant au lien entre les variables Price et Region.1. Y a-t-il une diérence de prix des avocats entre les régions ? Justiez votre réponse en vousbasant sur le boxplot. Resultat- lm DatasetPriceas.factorDatasetRegion anovaResultatAnalysis of Variance TableResponse: DatasetPriceDfSum Sq Mean Sq F value PrFas.factorDatasetRegion32.3830.794230.685 0.5628Residuals126 146.1011.159532. Calculer les variances inter-groupes, intra-groupes et la variance totale.3. Calculer et interpréter le rapport de corrélation entre les variables.2

page 2

Page 3 : B - 3Analyse Qualitative x QualitativeLe tableau de contingence suivant donne la répartition des avocats selon leur type ainsi que leurrégion de vente.CenterNorthSouthWestConventional8202234Organic447311. Donner les eectifs marginaux des deux variables Type et Région.2. Calculer et interpréter les valeurs suivantes : f12, f·1, f21.3. Donner le prol moyen ligne prol marginal ligne4. Etude des prols lignes.a Donner le tableau des prols lignes.b Comparer le tableau des prols lignes avec le prol moyen ligne.c Que pouvez-vous en conclure sur le lien entre les deux variables ? Justier.5. An de valider la conclusion de la partie précédente sur le lien entre le type des avocats et larégion géographique où les avocats ont été vendus, on réalise un test statistique spécique :a Quel est le nom du test à eectuer pour étudier le lien ?b Donner le tableau des eectifs théoriques.c La distance de khi deux est de 9.6106. Les variables sont-elles liées ?d Faites-vous conance à votre test ? Justier.d.d.l12345678910Seuil3.845.997.829.4911.07512.5914.0715.5116.9218.31CStatistiques multivariées - Analyse en Composantes PrincipalesOn cherche maintenant à étudier le lien entre toutes les variables quantitatives à l'aide d'une analyseen composantes principales normalisée. En appliquant cette méthode avec R, les résultats sont donnésà la n de cet exercice. ACPeigeigenvalueof variancecumulative of variancecomp 14.3669336.238476e+0162.38476comp 21.4924012.132001e+0183.70478comp 31.035451e+0194.05928comp 43.676847e+0097.73613comp 50.11924181.703455e+0099.43959comp 60.039228945.604134e-01100.00000comp 71.221348e-131.744783e-12100.00000 ACPvarcos2Dim.1Dim.2Dim.3Dim.4Price0.2871584 0.09814368 0.6065980400 8.075501e-03Volume0.9346742 0.04145943 0.0226223177 1.315876e-05Hass0.8041365 0.08876011 0.0350229083 1.224349e-02Fuerte0.8440085 0.08467719 0.0004123339 4.828304e-02Bacon0.6894436 0.23385914 0.0056258958 5.220754e-02Total.Bags0.5741803 0.31016398 0.0542149242 7.925708e-03year0.2333320 0.63533737 0.0003191980 1.286309e-013

page 3

Page 4 : 1. Combien y-a-t-il de points dans le nuage de points ? En quelle dimension sont représentés cespoints ?2. Comment est dénie la quantité d'information contenue dans le nuage de points ? A partir dequelle matrice peut-on la calculer et comment la calcule-t-on ?3. Donner les deux valeurs propres manquantes dans le tableau en justiant vos calculs.4. Quel pourcentage de l'inertie totale contiennent les deux premières composantes principales ?5. Donner le poids en moyenne de chaque variable ainsi que de chaque observation.6. Toutes les variables sont-elles bien représentées en dimension 2. Justier.7. Interpréter la liaison entre les variables.8. Expliquer sans faire de calculs, comment les nouveaux axes composantes principales C1 et C2sont calculés ?4

page 4

Pages : 1 2 3 4

Le contenu de cet article est la propriété exclusive de son auteur.