Post

DS 2023 2024 GM

Télécharger le DS 2023 2024 GM en pdf

Pages : 1 2 3 4 5

Page 1 : ExamenData Exploration - ING1 GM-MIMDate : 22 décembre 20232 feuilles R/V manuscrites autorisées, Calculatrice autoriséeDurée : 2hNombre de pages : 5Il sera tenu compte de la qualité de la rédaction et de la précision desjustications.Exercice 1Le jeu des données Airbnb se compose d'informations publiques sur les annonces et les mesuresAirbnb à New York. Les données ouvertes Airbnb de la ville de New York 2019 comprennent des in-formations sur environ 28590 logements Airbnb dans la ville et sont mises à la disposition du publicpar le gouvernement de la ville de New York pour promouvoir la transparence et la compréhension del'impact des locations sur la ville. Dans la suite, on prendra que les 500 premiers logements et voici unextrait :IdNeighbourhoodLatitudeLongitudeRoom typePriceMinimum nightNumber of reviewsAvailability2539Brooklyn40.64747-73.9724Private room12551493242595Manahattan40.15792-73.5896Entire home2253451943647Brooklyn40.76489-73.965Shared room53152149...........................1. Préciser les variables étudiées, donner leur type et un moyen de les représenter graphiquement2. Quelle est la population étudiée ? Quelle est la taille de l'échantillon ?Analyse Univariée : Étude de la variable prix en dollarsLe logiciel R nous fournit les résultats suivants :quantile Airbnbprice0255075100338512518620003. Donner et interpréter les quartiles.4. Calculer l'écart inter-quartiles et l'étendue.5. La moyenne de prix par nuit est de 152.3. Comment interprétez-vous la diérence entre lamoyenne et la médiane ?6. Parmi les indicateurs numériques calculés avant, lesquels sont des indicateurs de dispersion etlesquels sont des indicateurs de positions ?7. Voici le Boxplot boite à moustache pour la variable prix'.1

page 1

Page 2 : a Calculer les extrémités des moustaches.b Y a-t-il des valeurs aberrantes ? Justier votre réponse.Analyse Bivariée : Etude entre Prix et Neighbourhood arrondissementLa ville de New York compte 5 arrondissements neighbourhood. On s'intéresse maintenant àétudier le lien entre les deux variables arrondissements et le prix des locations dans ces arrondissements.Le logiciel R nous fournit les résultats suivants : model - lm priceas.factorneighbourhood,data=Airbnb anovamodelAnalysis of Variance TableResponse: priceDfSum SqMean SqF value PrFas.factorneighbourhood68 1253070184281.1695 0.1819Residuals431 6791083157578. Donner la variance inter groupes et la variance intra groupes. En déduire la variation totale.9. Calculer le rapport de corrélation et interpréter cette valeur.Analyse Bivariée : Etude entre Room-Type type de chambre et NeighbourhoodarrondissementOn donne le tableau de contingenceEntire home/aptPrivate roomShared roomBronx340Brooklyn139980Manhattan139864Queens10120Staten Island05010. Etablir le tableau complet des eectifs observés en ajoutant les eectifs marginaux.11. Calculer et interpréter les valeurs suivantes n·1, f22.12. Donner le tableau de prols colonnes. Comparer le tableau de prols colonnes avec le prolmoyen colonne. Que pouvez-vous prédire sur le lien entre ces deux variables ?On donne le tableau des eectifs théoriques2

page 2

Page 3 : Entire home/aptPrivate roomShared roomBronx4.0742.870.056Brooklyn137.93497.17?Manhattan133.27893.891.832Queens12.8049.020.176Staten Island2.910?0.0413. Compléter les valeurs manquantes dans le tableau des eectifs théoriques, en détaillant lescalculs.14. Le calcul de la distance du khi-deux nous donne la valeur 15.139. Expliquer comment cettedistance est calculée.15. Y a-t-il un lien entre l'arrondissement et le type de chambre ? Justiez votre réponse.d.d.l.4567891015Seuil9.4911.07512.5914.0715.5116.9218.3124.9916. Faites vous conance à ce résultat ? Justiez votre réponse.AFCMaintenant, on eectue le calcul sur tout le data 28590 logements, et on trouve résultat suivant res = chisq.testtableairbnbneighbourhoodgroup,airbnbroomtypePearson's Chi-squared testdata:AX-squared = 675.85, df = 8, p-value 2.2e-1617. Est-ce que la réponse de question 15 va changer ? Justier votre réponse.On eectue un AFC res.caeigeigenvaluepercentage of variancecumulative percentage of variancedim 1 0.02263691995.75881595.75881dim 2 0.0010025964.241185100.0000018. Que représente le pourcentage aché sur les axes ? Expliquez pourquoi la somme des trois axesfait exactement 100.19. Interprétez le graphique.3

page 3

Page 4 : BronxBrooklynManhattanQueensStaten IslandEntire home/aptPrivate roomShared room0.10.00.10.20.30.20.00.20.4Dim 1 95.76Dim 2 4.24CA factor mapExercice 2On considère data : Climfrance.txt. Ces données se composent de 36 lignes observations et 11colonnes caractéristiques/variables. Les caractéristiques sont : l'altitude, la latitude, la longitude, latempérature annuelle moyenne, la température annuelle maximale, la température annuelle minimale,l'humidité relative, les précipitations annuelles moyennes, les précipitations maximales en 24 heures,le nombre de jours de pluie et le nombre d'heures d'ensoleillement par an.clim = read.table"Climfrance.txt", header = T, sep = ";", dec = "."install.packages"FactoMineR"libraryFactoMineRres.PCA.clim - PCAclimheadres.PCA.climeigeigenvaluepercentage of variancecumulative percentage of variancecomp 14.698556442.71414942.71415comp 22.942702026.75183769.46599comp 31.340164712.18331681.64930comp 40.78153007.10481888.75412comp 50.55140825.01280293.76692comp 60.23853312.16848395.93540 res.PCA.climvarcontrib,1:4Dim.1Dim.2Dim.3Dim.4altitude2.84792993 27.3803710.17885911.15421895lat9.97555726 10.4212594.71061161.84063577lon6.020508552.025628 17.3696828 36.95051294tmean10.14368290 15.8695711.80207560.07607592tmax7.13248282 12.4612420.1501642 14.19652610tmin9.22985599 11.5264182.45170418.83405789relhumidity11.699895496.9932223.09854833.20138110pmean0.016800454.448227 56.76721949.42186140pmax24h12.575351763.4766648.37291412.68703808rainydays16.590682091.3386144.89838724.76582364sunshinehperyrs 13.767252774.0587850.1998335 16.871868204

page 4

Page 5 : res.PCA.climvarcos2,1:4Dim.1Dim.2Dim.3Dim.4altitude0.1335494714 0.81604125 0.002265643 0.009432545lat0.4677890372 0.31059394 0.059670231 0.015042103lon0.2823228641 0.06037157 0.220025144 0.301968164tmean0.4756730411 0.47297476 0.022827241 0.000621710tmax0.3344672570 0.37139335 0.001902159 0.116017305tmin0.4328204769 0.34353196 0.031056211 0.072193971relhumidity0.5486493340 0.20842513 0.039249913 0.026162429pmean0.0007878324 0.13257442 0.719081386 0.076997637pmax24h0.5897025642 0.10361807 0.106061328 0.021959099rainydays0.7779955548 0.03989588 0.062048822 0.038947416sunshinehperyrs 0.6455950031 0.12096755 0.002531330 0.137880821plotres.PCA.clim, choix="var"altitudelatlontmeantmaxtminrelhumiditypmeanpmax24hrainydayssunshinehperyrs1.00.50.00.51.01.00.50.00.51.0Dim 1 42.63Dim 2 27.09PCA graph of variablesplotres.PCA.clim, choix="ind"MarseilleNiceBastia KorsikaPerpignanMonacoMontelimarSèteBrestStrasbourg ToulouseLyonNancyGrenobleLimogesMillauBelfortLe PuyenVelayMontVentouxPicduMidi963033036Dim 1 42.63Dim 2 27.09PCA graph of individualsEn regardant le résultat de la fonction PCA, répondre aux questions suivantes :1. Combien y-a-t-il d'axes au total ? Justiez votre réponse.2. Combien d'axes peut-on choisir pour interpréter le résultat ? Pourquoi ? A quoi correspond lasomme des valeurs propres ?3. Quelle est la contribution moyenne d'une variable contribuent à la construction des axes ?Quelles variables contribuent majoritairement à la deuxième axe ?4. Interpréter les axes, la liaison entre les variables.5. Y a-t-il des variables qui sont mal représentées sur le plan principale ? Justiez vos réponse. Sioui, elles sont bien représentées sur quels axes ?6. Interpréter les caractéristiques de ville "Brest" et "Lyon" et "Pic-du-Midi".5

page 5

Pages : 1 2 3 4 5

Le contenu de cet article est la propriété exclusive de son auteur.