Traitements des données multifactorielles : décider et prédire

  • Stage
  •   Actions régionales
  •   Techniques spécifiques

Objectifs

· Sélectionner les modèles le plus adaptés à la problématique et aux données
· Comparer des modèles
· Sélectionner des variables permettant d’avoir le modèle le mieux ajusté aux données
· Mettre en œuvre et interpréter une régression linéaire multiple
· Mettre en œuvre et interpréter une régression logistique
· Mettre en œuvre et interpréter une analyse discriminante linéaire
· Mettre en œuvre et interpréter une régression PLS
· Juger la qualité d’un modèle
· Faire des prédictions pour de nouveaux individus

Public

Chercheurs, ingénieurs et techniciens souhaitant réaliser des modèles décisionnels et prédictifs lorsqu’elles ont testés l’effet de plusieurs variables qualitatives et/ ou quantitatives sur une autre variables dite variable à expliquer, qui peut elle aussi être qualitative ou quantitative.

Les agents non CNRS doivent demander au préalable l’accord de leur employeur pour la prise en charge financière (entre 300 € et 450 € HT selon le nombre de participants).

Pré-requis

Il est indispensable d’avoir des connaissances de base en statistique et connaitre à minima l’analyse de variance et la régression linéaire. Si la formation est commandée avec le logiciel R, il est nécessaire que les bases de ce logiciel soient acquises.

Programme

Présentation
· Objectifs et de l’intérêt de la modélisation
· Présentation de l'éventail des méthodes, champs d'application et des évolutions
· Structure des jeux de données

La régression linéaire Multiple
· Rappels : principe, mise en œuvre
· Validation d’un modèle : analyse des résidus : graphiques et tests d’hypothèses
· Recherche de redondances, de multicolinéarité
· Estimer l’ajustement du modèle : R², AIC, BIC
· VIF (Variable Inflation Factor)
· Sélection de modèles pas à pas : méthode du stepwise
· Graphique des effets
· Les limites de la régression linéaire

L’analyse discriminante linéaire (AFD)
· Contexte d'utilisation de l’analyse factorielle discriminante
· Structure du jeu de données
· Notions de classement et de discrimination
· Méthodologie de l’AFD
· Comparaison avec l’ACP
· Interprétation des sorties logicielles
· Matrice de confusion
· Validation (échantillon test, validation croisée, bootstratp, etc.)
· Utilisation du modèle à des fins de prédiction

Le modèle linéaire généralise (GLM)
· Présentation
· Le maximum de vraisemblance
· Rapprochement avec les modèles linéaire utilisant les moindres carrés
· Présentation du panel des GLM
· Application avec la régression logistique

La régression PLS et PLS-DA
· Présentation, principe
· Avantages et inconvénients
· Notion de variable latente
· Interpréter les indices de qualité du modèle
· Identifier les composantes importantes
· Comprendre la relation entre les composantes, la variable à expliquer et les variables explicatives
· Interprétation du graphique multifactoriel
· Interprétation des paramètres du modèle
· Interprétation des variables et de leur importance pour le modèle
· Qualité du modèle

Méthodes pédagogiques

Explications théoriques suivies de pratiques guidées puis mises en autonomie avec des exemples accompagnés
d’une problématique issue du groupe

Sessions passées 1

Lundi 18 Décembre 2017

Partenaires

CNRS

Informations pratiques

Formation DR20 CNRS
250 RUE ALBERT EINSTEIN - BÂTIMENT 3
06 905 SOPHIA ANTIPOLIS CEDEX
  04 92 96 03 39