Rattrapage 2022 2023 GM
Télécharger le Rattrapage 2022 2023 GM en pdf
Page 1 : ING1-GM RATTRAPAGE DE DATA EXPLORATION 2022-2023 Durée : 2h00 Examen papier 2 feuilles R/V manuscrites autorisées Calculatrice autorisée Exercice 1 : On étudie le jeu de données bodylight.csv constitué 5 variables quantitatives et 20 observations à l’aide d’une analyse en composantes principales dont les résultats se trouvent ci-dessous. 1 Quelle est la dimension de l’espace de représentation du nuage de points ? 2 Quelle est l’inertie du nuage de point ? 3 Comment sont calculés les pourcentages d’inertie expliqué sur chaque axe composante principale ? 4 Comment sont calculés les nouveaux axes composantes principales ? 5 Combien d’axes faut-il retenir pour avoir une bonne représentation ? 6 Que pouvez-vous dire du lien entre les variables « height » et « waist.g » ? 7 Comment pouvez-vous caractériser l’individu « I7 » ? Justifiez chacune de vos réponses. 5 dimensions3.65+0.783+.... =5chaque valeur propre divisé par l'inertie totale qui est 5Les deux premiers fournissent 88.7 des informations donc suffisantscorrelé positivementil a l'absice le plus élevé donc elle a pris les valeurs les plus elevées pour les variables.Ci=X' Ui, X' matrice de donnes centree et reduite, et Ui le iéme vecteur propore.0.510.511116 points
Page 2 : Exercice 2 : Le fichier JeuxVideo.csv sur Arel décrit 2066 jeux vidéo suivant plusieurs variables. Pour les questions suivantes, on retient les variables : • Plateforme : MICROSOFT, NINTENDO, PC et SONY • Genre : Action, Racing, Role-Playing, Shooter et Sports • Taux des ventes en Europe : 0 ;1 Partie 1 : Etude de l’impact de la plateforme sur le taux des ventes en Europe. 1 A partir du graphique suivant répondez aux questions suivantes : a Quel est le taux médian des ventes en Europe pour la plateforme NINTENDO ? b Pour quelles plateformes 25 des jeux ont un taux de vente en Europe supérieur 40 ? c Le taux moyen des ventes en Europe pour la plateforme NINTENDO est-il à peu-près égal au taux moyen ? Justifiez. d Que pouvez-vous dire sur le lien entre les deux variables ? 2 Quel indicateur numérique permet de mesurer le lien entre les variables ? Quelle est la formule qui permet de le calculer ? 0.2rapport de correlationLiees0.50.50.50.50.5 + 0.53 points14 points
Page 3 : Partie 2 : Etude de l’impact de la plateforme sur le genre. 1 Lecture des tableaux a Quel est le pourcentage de jeux de sport sur plateforme SONY ? b Quel est le pourcentage de plateformes SONY ? c Quel est le pourcentage de plateformes SONY pour les jeux de sports ? d Quel est le pourcentage de jeux de sport ? e Quel pourcentage de jeux de sport SONY développe-t-il ? 2 Analyse des profils lignes et colonnes a Dans le tableau des profils lignes à quoi correspond la dernière ligne « Profil moyen » ? b Quelles sont les plateformes qui s’éloignent le plus du profil moyen ? Donnez des exemples et commentez. c Quels sont les genres qui s’éloignent le plus du profil moyen ? Donnez des exemples et commentez. d Pensez-vous que les deux variables sont liées ? Tableau de contingence Tableau des fréquences Tableau des profils lignes Tableau des profils colonnes 3 Afin de déterminer numériquement si les variables sont liées, on calcule la distance du chi-deux. a Rappelez à quoi correspond le tableau des effectifs théoriques. b Expliquez le calcul qui permet d’obtenir l’effectif théorique des jeux d’action sur plateforme Microsoft. Tableau des effectifs théoriques c Dans la sortie R ci-dessous, expliquez à quoi correspondent «X-squared » et « df » et comment ils sont calculés on ne demande pas de faire les calculs. 13413033PCEffectif dans le cas d'independance671638/2066X-squared=tij-nij²/tij et df=5-14-1=12Role playing et shooterOui0.50.50.50.50.52.5 pts 3 points0.5110.50.5113 points
Page 4 : d Expliquez pourquoi on peut conclure que les deux variables sont liées. 4 Afin de faire une analyse plus fine du lien entre les deux variables, on met en place une AFC. a Pourquoi n’y a-t-il que trois valeurs propres ? b A quoi correspond le pourcentage dans la colonne du milieu du tableau des valeurs propres ? c Sur quels axes allez-vous analyser les résultats de l’AFC ? Justifiez. d Interprétez le graphique de l’AFC. p-value 0.05... donc variables liéesp=5, q=4, donc dimension de AFC est 4-1=3. donc 3 valeurs propores de khi deux explique par le deuxieme axe Les deux premiers axes, ils expliquent tous les deux 93.5de la quantité du khi deux.0.510.512.5 pts



