Statistiques - Analyses Multivariées

  • Stage
  •   Actions régionales
  •   Techniques spécifiques

Objectifs

Cette formation s'adresse à des personnes souhaitant maîtriser les concepts et la mise en œuvre des analyses factorielles multivariées. Ces analyses ont pour objectif d’extraire des informations de données
• volumineuses en nombre de variables,
• volumineuses en nombre d'individus,
• non structurées,
• comportant des variables redondantes (confusions entre variables),

La formation conviendra tout à fait à un public venant chercher du savoir statistique sur :
• Les concepts des différentes méthodes descriptives d'analyses factorielles multivariées et de classification
• Les contextes d’application de chaque méthode
• Les fondements mathématiques (méthodologiques) de ces analyses
• La mise en œuvre et l’interprétation des résultats des différentes méthodes

A l’issue de cette formation, l’apprenant sera capable de :
• Identifier quelle méthode d’analyse multivariée ou de classification utiliser selon le contexte
• Décrire les concepts mathématiques inhérents à ces méthodes
• Mettre en œuvre les analyses factorielles multivariées suivantes : ACP, AFC, AFCM, AFD
• Interpréter les résultats et les graphiques qui découlent des analyses ci-dessus
• Maitriser les coefficients et les paramètres permettant d’estimer la qualité des analyses statistiques ci-dessus
• Expliquer la différence entre les notions de contribution et de cosinus carré
• Expliquer les distances et les méthodes d'agrégation les plus adaptées à l'objectif de classification

Public

Chercheurs, ingénieurs et techniciens souhaitant maîtriser les concepts et l’application des méthodes d’analyses multifactorielles (multivariées) descriptives. C’est-à-dire des méthodes permettant d’observer et trier le contenu de grands tableaux de données.

Pré-requis

IL EST INDISPENSABLE que les participants aient de bonnes connaissances sur les outils statistiques de base : corrélation, écart-type, variance, intervalles de confiance, tests d'hypothèses.
Dans la mesure où le logiciel R est l’outil recommandé pour cette formation, la connaissance de base du logiciel et de son interface est recommandée

Programme

OBJECTIFS OPERATIONNELS ET CONTENU DE LA FORMATION
Généralités sur les différentes méthodes d'analyses multidimensionnelles
• Limites des statistiques classiques
• Champs d'application des différentes méthodes d'analyses multidimensionnelles
• Introduction sur le data mining - Les objectifs
 Objectifs de description
 Objectifs de prédiction
• Structure des jeux de données
• Présentation de l'éventail des méthodes
 Analyse en composantes principales
 Analyse factorielle des correspondances simples et multiples
 Analyse canonique des corrélations
 Analyse factorielle discriminante
 Méthodes de classification : classification ascendante hiérarchique, k-means
• Principes généraux des différentes méthodes - Notions de :
 distance,
 inertie et variance
 axes factoriels

Notion de corrélation
• Définition du coefficient de corrélation
• Interprétation de la valeur du coefficient de corrélation
• Les confusions : corrélation, causalité, pente…
• Les différents coefficients de corrélation
 Coefficient de Pearson
 Coefficient de Spearman
Mise en œuvre de l’ACP
• Structure du jeu de données et contexte d’application
• Objectifs détaillés de l'ACP
• Choix des axes de représentation (choix du nombre de composantes principales)
• Interprétation des sorties graphiques : cercle factoriel et graphique des individus
• Interprétation des axes factoriels
• Contribution des individus et des variables aux axes
• Qualité de représentation des individus et des variables sur les axes : les cosinus carrés
• Les différentes ACP :
 ACP normée et non normée
 ACP non paramétrique
• Positionnement d’une variable illustrative catégorielle
• Les confusions et erreurs à ne pas commettre

Mise en œuvre de l’AFC
• Structure du jeu de données : tableau de contingence, données individuelles (variables qualitatives)
• Contexte d’application et objectifs détaillés de l'AFC
• Différence entre ACP et AFC
• Méthodologie de l'AFC
 Distance du Chi²
 Profils lignes
 Profils colonnes
• Choix des axes de représentation (choix du nombre d'axes)
• Interprétation des sorties graphiques : graphique des modalités
• Contributions et cosinus carrés des modalités aux axes
• Les confusions et erreurs à ne pas commettre
Mettre en œuvre et interpréter les résultats d'une AFCM
• Structure du jeu de données
• Contexte d’application et objectifs détaillés de l'AFCM
• Différence entre AFC et AFCM
• Méthodologie de l'AFCM
• Choix des axes de représentation (choix du nombre d'axes)
• Correction de Benzecri : valeurs propres et taux d'inertie expliquée corrigés
• Interprétation des sorties graphiques :
 graphique des modalités
 graphique des variables
• Contributions et cosinus carrés des modalités aux axes
• Les confusions et erreurs à ne pas commettre
Mettre en œuvre et interpréter les résultats d'une ACC
• Structure du jeu de données
• Contexte d’application et objectifs détaillés de l'ACC
• Analogie avec l’ACP, la régression linéaire et les autres méthodes d’analyse factorielle
• Méthodologie de l'ACC
• Notion de proximité entre 2 groupes de variables quantitatives
• Vocabulaire spécifique : variables canoniques, coefficients de corrélation canonique
• Interprétation des sorties logiciel : graphiques et données chiffrées
• Les confusions et erreurs à ne pas commettre
Mettre en œuvre et interpréter les résultats d'une CAH
• Structure du jeu de données
• Contexte d’application et objectifs détaillés de la CAH
• Lecture d’un dendrogramme
• Choix du nombre de classes
• Classification sur les individus
• Classification sur les variables
• Classification sur les modalités
• Choix de la distance selon le contexte : classification sur les individus, les variables ou les modalités
• Choix du linkage (saut, critère de « rapprochement » entre les classes) : méthode de Ward, lien simple, lien complet…
• Interprétation des sorties logiciel

Mettre en œuvre et interpréter les résultats d'une AFD
• Structure du jeu de données et contexte d’application
• Objectifs détaillés de l'AFD
• Notions de classement et de discrimination
• Méthodologie de l’AFD
• Comparaison avec l’ACP
• Interprétation des sorties logiciel : cercle factoriels, corrélations variables x axes
• Qualité de l'AFD (de la discrimination obtenue)
 Tests univariés et multivariés (lambda de Wilks)
 Graphique des individus
 Matrice de confusion (et éventuellement courbe ROC)
• Les confusions et erreurs à ne pas commettre
• Comparaison avec les outils de classification type CAH et k-means (Ouverture)

Méthodes pédagogiques

Explications théoriques suivies de pratiques guidées puis mises en autonomie avec des exemples accompagnés d’une problématique liée à l’application de méthodes d’analyses multifactorielles descriptives.

Cette formation n’est pas strictement dédiée à un logiciel. Les exercices et les illustrations se feront autour du logiciel R par le biais du mode console ou de couche type R-Commander.
L’accent sera mis sur l’usage des fonctions packages appropriés (ade4) ainsi que de FactoMiner

Sessions passées 4

Mercredi 22 Novembre 2017
Mardi 24 Novembre 2020
Mardi 08 Juin 2021
Mardi 26 Avril 2022

Partenaires

CNRS

Informations pratiques

Formation DR20 CNRS
250 RUE ALBERT EINSTEIN - BÂTIMENT 3
06 905 SOPHIA ANTIPOLIS CEDEX
  04 92 96 03 39