DS 2023 2024 GM Correction
Télécharger le DS 2023 2024 GM Correction en pdf
Page 1 : Correction de l’examen de Data Exploration de ING1 GIExercice 1Question 1. 1ptVariables etudiees et les moyens de les repesenter• Quantitatives discretes : Price ; Minimum nights; Number of reviews; Availability. Par un diagramme en bˆatons.• Quantitatives continues : Latitudes, Longitudes; Price. Par un histogramme.• Qualitatives ordinales : none.• Qualitatives nominales : Arrondissements; Room type. Par des diagrammes en secteurs.Question 2. 0.5ptPopulation etudiee : logements dans la ville.Taille de l’echantillon : 500 logements.Partie A : Analyse univarieeQuestion 3. 1pt1er quartile : 85. Un quart des logements a un prix en-dessous de 85 dollars.Mediane : 125. La moitie des logements a un prix en-dessous de 125 dollars.3eme quartile : 186; 3 logements sur 4 ont un prix en dessous de 186 dollars.Maximum : 2000 dollars, prix du logement le plus cher. Question 4. 0.5ptEcart inter-quartile : 186 - 85 =101 dollars.Etendue : max-min=2000-33=1967 dollars.Question 5. 0.5ptMoyenne : 152 Mediane, donc beaucoup de valeurs extrˆemes, de logements tres chers.Valeurs des prix ne sont pas reparties de maniere symetrique par rapport a la mediane et la moyenne est un indicateursensible aux valeurs extrˆemes.Question 6. 0.5ptIndicateurs de position : Q1, mediane, Q3, moyenne, min, max.Indicateurs de dispersion : etendue, ecart inter-quartile.Question 7. 1.5pta Extremites des moustaches :max Q1 - 1,5 x ecart interquartile, min =max 85 - 1,5 x 101,33 =33min Q3 + 1,5 x ecart interquartile, max =min 186 + 1,5 x 101,2000 = 337,5b On voit sur le boxplot qu’il y a au moins une valeur aberrante. Beaucoup de valeurs sont extrˆemes au-dessus du secondde la deuxieme moustache, mais une valeur, le maximum, est tres eloignee du reste des donnees. On peut se demander, sien tra¸cant un boxplot sans cette valeur, le nouveau maximum est aussi une valeur aberrante.Partie B : Analyse bivariee : Prix et NeighbourhoodQuestion 8. 1ptVariance inter-groupe : vinter = 1253070 / 500 = 2506,14Variance intra-groupe : vintra = 6791083 / 500 = 13582,17Variance totale= vinter + vintra =16088,31Question 9. 0.5ptRapport de correlation:vintervtotale = 0,156. Environ 16 de la variabilite du prix est explique par le quartier, ce qui est faible.Partie C : Analyse bivariee : type de chambre et arrondissementQuestion 10. 1pt1
Page 2 : 2Entire Home; aptPrivate RoomShared roomSommeBronx3407Brooklyn139980237Manhattan139864229Queens1012022Staten Island0505Somme2912054500Question 11. 1.5ptn·,1 = 291 : effectif de maisons ou appartements a louer en entierf22 =98205 = 0, 478 proportion, parmi tous les private room, de ceux situes a Brooklynouf22 =98237 = 0, 414 Proportion de private room parmi tous les logements de BrooklynQuestion 12. 1.5ptTableau des profils colonnesEntire Home; aptPrivate RoomShared roomProfil colonne moyenBronx0,010,0200,01Brooklyn0,480,4800,47Manhattan0,480,4210,46Queens0,030,0600,04Staten Island00,0200,01Il y a un lien fort entre les deux variables. En effet, le profil colonne associe a Shared room est tres eloigne du profil colonnemoyen. Cette remarque est a nuancer avec l’effectif tres faible de chambres partagees. Les deux autres profils colonnes sonten revanche tres proches du profil moyen.Question 13. 1ptEffectif theorique : Frequence marginale de la ligne × Frequence marginale de la colonne × Effectif totalShared room et Brooklyn : 237 × 4 1500 = 1, 896Staten Island et Private Room : 205 × 5 1500 = 2, 05Question 14. 0.5ptCalcul de la distance du khi-deux:Dχ2 =5Xi=13Xj=1ni,j ti,j2ti,jou ni,j est l’effectif observe et ti,j est l’effectif theoriqueQuestion 15. 1ptNombre de degres de libertes : 5 13 1 = 8 d.d.l, d’ou un seuil de 16, 92. Puisque la distance du khi deux est pluspetite que le seuil, cela signifie que les variables ne sont pas liees. Ceci confirme l’observation des profils colonnes avec lefaible effectif sur la modalite shared room.Question 16. 0.5ptDans le tableau des effectifs theoriques, les valeurs des lignes Bronx et Staten Island et de la colonne Shared Room sontplus petites que 5, le resultat n’est pas tres fiable.Partie D : AFCQuestions 17 . 0.5ptCette fois-ci, puisque l’effectif total est 28590 logements, les effectifs theoriques devraient tous ˆetre plus grands que 5. Leresultat sera plus fiable. En particulier 675, 85 15, 51, donc les variables sont tres liees.Question 18. 0.5ptChaque axe contient le pourcentage de khi-deux explique.Le nuage de points represnte les modalites et vit dans un espace de dimension min5, 3 1 = 2. Toute l’informationfournit par le khi-deux est donc representee par ces deux axes.Question 19. 0.5pt
Page 3 : 3L’attiranece entre modalites est explique par l’angle qu’elles forment avec 0. Par exemple, Manhattan et Entire Room/apts’attirent; Brooklyn et Provate Room s’attirent; Queens et Shared room n’interagissent pas; Manhattan et Private room serepoussent.De plus le Bronx est eloigne du profil moyen.Exercice 2Question 1. 0.5ptIl y a 11 colonnes, donc 11 axes. L’ACP consiste a projeter le nuage de 36 points observations dans un espace dedimension 11 variables quantitatives.Question 2. 1ptLe pourcentage de variance nous donne le graphique de la variance sur chaque axe en fonction du numero de la valeurpropre :123456Il faut s’arrˆeter au dernier grand saut de pente. Par la elbow rule, il faut s’arrˆeter au troisieme axe.Les 3 premiers axes fournissent 81, 6 de la variance cumulee, donc 81, 6 de l’inertie totale du nuage de points estexpliquee par ces trois axes.La somme des trois premieres valeurs propres correspond a l’inertie du nuage de points projete sur les 3 premiers axes.OULa somme des valeurs propres correspond a l’inertie totale du nuage de points.Question 3. 1ptPuisqu’elles ont toutes le mˆeme poids, chaque variable contribue a111 = 9 de la construction globale des axes.Le deuxieme axe est majoritairement construit par l’altitude 27, le tmean 15, le tmax 12, le tmin 11 et la latitude10.Question 4. 0.5ptOn identifie trois groupes de variables correlees dans leur representation dans le cercle de correlation.Un premier groupe de variables correlees positivement est constitue des trois variables de temperature : en haut a droiteon retrouve les villes les plus chaudes alors que les villes les plus froides sont situees en bas a gauche.Un second groupe de variables fortement correlees positivement est compose de lat, relhumidity et rainydays. Le troisiemegroupe est constitue du nb d’heures d’ensoleillement, de pmax24h et dans une moindre mesure de la longitude. Ces deuxderniers groupes sont correles negativement.On en deduit qu’en longeant le premier axe, on passe des villes pluvieuses et froides a des villes ensoleillees et chaudes,alors que le long du second axe on passe des villes froides et ensoleillees a des villes chaudes et pluvieuses.Question 5. 0.5ptLa variable pmean est loin du cercle de correlation et proche de 0. Elle est mal representee, mais elle contribue a 56 a laconstruction du troisieme axe.Question 6. 1ptBrest est une ville temperee et pluvieuse avec peu d’ensoleillement.La temperature et l’ensolsillement a Lyon sont un peu plus eleves que la moyenne.Pic-du-Midi est une ville en haute altitude ou il fait froid. L’ensoleillement est dans la moyenne.On est en droit de se demander si Pic-du-Midi est une valeur aberrante.


