Exploration Save

Science des Données Saison 2: Exploration statistique multidimensionnelle, ACP, AFC, AFD, Classification non supervisée

Project README

This repository is no longer maintained and has moved to plmlab.math.cnrs.fr/wikistat/Exploration.



INSA | Mathématiques Appliquées, Science des Données

Science des Données & Statistique

Un buzz word: big data, data science, machine learning en chasse un autre et les battages médiatiques se succèdent jusqu'au dernier en date: intelligence artificielle (IA). Appellation ancienne remise au premier plan par les succès d'AlphaGo, des véhicules autonomes et aussi, surtout, de la rencontre de la croissance exponentielle des masses de données avec les algorihtmes d'apprentissage statistique, dont le deep learning, pour les exploiter, les valoriser.

Lire plus...

Schématiquement, la Science des Données est définie autour d'une agrégation de compétences en Informatique (langage comme R et Python , gestion des données, calcul parallèle...), Statistique (exploration, estimation test, modélisation, prévision) Apprentissage Machine (prévision), Mathématiques (probabilités, optimisation, analyse fonctionnelle, graphes...).

Son apprentissage est acquis par l'intermédiaire de scénarios d'analyse de données réelles, ou tutoriel, présentés sous forme de calepins (jupyter notebooks) en R ou Python. Voir à ce sujet le livre de référence du cours Fondations of Data Science de l'UC Berkley.

Cette pratique est indispensable mais masque les aspects théoriques (mathématiques, statistiques): une formule est remplacée par un commande ou fonction en Python ou R, une démonstration par l'exécution d'exemples dans un calepin.

Pour offrir de la profondeur, plus de compréhension, à cette (auto)-formation, les calepins renvoient (liens hypertextes) systématiquement à des vignettes "théoriques" du site wikistat.fr exposant (cours) les méthodes et algorithmes concernés.

Il ne s'agit pas simplement de pouvoir exécuter une méthode, un algorithme, il est important d'en comprendre les propriétés, conditions d'utilisation et limites.

Saison 2 Exploration Statistique

Introduction plus détaillée

Objectifs

Cette saison est consacrée à l'apprentissage des méthodes exploratoires multidimensionnelles indispensables à la préparation des données (data munging): analyse en composantes principales, factorielle discriminante, des correspondances, postionnement multidimensionnel, factorisaiton non négative, classification non-supervisée (clustering) par k-means, CAH, DBSCAN, mélanges gaussiens.

Prérequis

Avoir acquis les compétences afférentes ou revenir sur des épisodes précédents:

<FONT COLOR="Red"> Déroulement de l'UF: Logiciels et Méthodes d'Exploration Statistique

Cette saison est découpée en une séquence de six épisodes constitués de cours et travaux dirigés ou pratiques avec un ordinateur.

Les cours présentent les différentes méthodes développées dans les vignettes de wikistat.fr

Les séances de travaux dirigés mettent en application les différentes méthodes d'exploration et de classification supervisée sur des données de plus en plus réalistes donc volumineuses et complexes.

Les séances de travaux pratiques sont consacrées à l'apprentissage des langages: R et Python. Pour de nombreuses raisons, le logiciel SAS a été laissé de côté mais de nombreux tutoriels en permettent l'auto-apprentissage.

Utiliser au mieux le temps de chaque séance:

  • Réaliser au fur et à mesure les différentes étapes du projet sur l'analyse des données de courriels, qui constitue un fil rouge tout au long de cette saison 2,
  • consultant les autres cas d'usage (sujets d'examen) disponibles.

N.B. Le cas d'usage de gestion de la relation client: GRC Visa Premier permet d'illustrer presque toutes les méthodes (ACP, AFCM, classification) sur des données réelles. Il existe des tutoriels en SAS, R et Pyhton, réalisant les traitements équivalents. S'inspérer de celui en python pour la réalisation du projet.

Evaluation: contrôle sur table analogue aux cas d'usage ci-dessous et rendu du projet sous la forme d'un calepin introduite par une synthèse détaillée.

Pour aller plus loin

Épisodes

Les épisodes alternent apprentissage des méthodes et initiations aux langages (R, Python). L'introduction à SAS est accessible en auto-apprentissage.

Épisode 1 Introduction

Épisode 2 Analyse en Composantes Principales

Épisode 3 Analyse Factorielle Discriminante

Épisode 4 Analyse des Correspondances simple et Multiple

Épisode 5 Classification non supervisée et Positionnement Multidimensionnel

Épisode 6 Mélanges gaussiens et Factorisation de Matrice

Projet

  • TP Explo 14 & 15
  • Rendre avant le 27/05/2019 18h.
  • Reproduire en Python le calepin R d' exploration de courriels. S'inspirer du cas d'usage GRC Visa Premier dont un calepin est réalisé en python. Rendre le calepin en Python avec une synthèse subtantielle de la démarche et des principaux résultats obtenus; répondre aux différentes questions.

Cas d'usage (sujets d'examen)

Chaque dossier concerne un jeu de données et contient un calepin (notebooks) au format .ipynb à télécharger et ouvrir dans Jupyter. Ceux-ci suivent le déroulement (questions) d'un examen passé.

  • GRC-carte_Visa. Exemple de Gestion de la Relation Client (GRC). Exploration multidimensionnelle: ACP, AFCM, segmentation de clientèle: classification non supervisée par CAH et réallocation dynamique; représentation, interprétation des classes.
  • Patrim-Insee. Analyse des données d'une enquête INSEE sur le patrimoine des français. Exploration multidimensionnelle: AFCM, segmentation: classification non supervisée par CAH; représentation, interprétation des classes.
  • DiagCoro Exploration en R. ACP, AFCM, CAH, k plus proches voisins. Interprétration et représentation des classes de 270 patients ayant consulté pour douleur thoracique et présentant ou pas une insuffisance coronarienne.
  • AdultCensus Exploration en R. ACP, AFCM, CAH, k plus proches voisins. Interprétration et représentation des classes de 32561 citoyens américains.
  • Encours-Boursiers Exploration en R (ACP, CAH, k plus proches voisins) d'un ensemble de 252 encours boursiers observés à Paris de 2000 à 2009.
  • Cachets-Hittites Exploration avec R d'un corpus de 118 cachets hittites décrits par 12 variables plus la présence de hiéroglyphes. Peut-on prévoir la datation?
  • Pourriels exploration et caractérisation d'un corpus de courriels afin d'identifier les pourriels.
  • Mars Segmentation d'un image de mars par classifications non supervisées. Représentation de la carte géologique de la surface de Mars.
Open Source Agenda is not affiliated with "Exploration" Project. README Source: wikistat/Exploration
Stars
41
Open Issues
1
Last Commit
3 months ago
License

Open Source Agenda Badge

Open Source Agenda Rating