Exploration Save

Science des Données Saison 2: Exploration statistique multidimensionnelle, ACP, AFC, AFD, Classification non supervisée

Project README

This repository is no longer maintained and has moved to plmlab.math.cnrs.fr/wikistat/Exploration.

$INSA$ | Mathématiques Appliquées, `Science des Données`

Science des Données & Statistique

Un buzz word: big data, data science, machine learning en chasse un autre et les battages médiatiques se succèdent jusqu'au dernier en date: intelligence artificielle (IA). Appellation ancienne remise au premier plan par les succès d'AlphaGo, des véhicules autonomes et aussi, surtout, de la rencontre de la croissance exponentielle des masses de données avec les algorihtmes d'apprentissage statistique, dont le deep learning, pour les exploiter, les valoriser.

Lire plus...

Schématiquement, la Science des Données est définie autour d'une agrégation de compétences en Informatique (langage comme R et Python , gestion des données, calcul parallèle...), Statistique (exploration, estimation test, modélisation, prévision) Apprentissage Machine (prévision), Mathématiques (probabilités, optimisation, analyse fonctionnelle, graphes...).

Son apprentissage est acquis par l'intermédiaire de scénarios d'analyse de données réelles, ou tutoriel, présentés sous forme de calepins (jupyter notebooks) en R ou Python. Voir à ce sujet le livre de référence du cours Fondations of Data Science de l'UC Berkley.

Cette pratique est indispensable mais masque les aspects théoriques (mathématiques, statistiques): une formule est remplacée par un commande ou fonction en Python ou R, une démonstration par l'exécution d'exemples dans un calepin.

Pour offrir de la profondeur, plus de compréhension, à cette (auto)-formation, les calepins renvoient (liens hypertextes) systématiquement à des vignettes "théoriques" du site wikistat.fr exposant (cours) les méthodes et algorithmes concernés.

Il ne s'agit pas simplement de pouvoir exécuter une méthode, un algorithme, il est important d'en comprendre les propriétés, conditions d'utilisation et limites.

Saison 2 Exploration Statistique

Introduction plus détaillée

Objectifs

Cette saison est consacrée à l'apprentissage des méthodes exploratoires multidimensionnelles indispensables à la préparation des données (data munging): analyse en composantes principales, factorielle discriminante, des correspondances, postionnement multidimensionnel, factorisaiton non négative, classification non-supervisée (clustering) par k-means, CAH, DBSCAN, mélanges gaussiens.

Prérequis

Avoir acquis les compétences afférentes ou revenir sur des épisodes précédents:

Outils Statistiques de base

<FONT COLOR="Red"> Déroulement de l'UF: Logiciels et Méthodes d'Exploration Statistique

Cette saison est découpée en une séquence de six épisodes constitués de cours et travaux dirigés ou pratiques avec un ordinateur.

Les cours présentent les différentes méthodes développées dans les vignettes de wikistat.fr

Les séances de travaux dirigés mettent en application les différentes méthodes d'exploration et de classification supervisée sur des données de plus en plus réalistes donc volumineuses et complexes.

Les séances de travaux pratiques sont consacrées à l'apprentissage des langages: R et Python. Pour de nombreuses raisons, le logiciel SAS a été laissé de côté mais de nombreux tutoriels en permettent l'auto-apprentissage.

Utiliser au mieux le temps de chaque séance:

Réaliser au fur et à mesure les différentes étapes du projet sur l'analyse des données de courriels, qui constitue un fil rouge tout au long de cette saison 2,
consultant les autres cas d'usage (sujets d'examen) disponibles.

N.B. Le cas d'usage de gestion de la relation client: GRC Visa Premier permet d'illustrer presque toutes les méthodes (ACP, AFCM, classification) sur des données réelles. Il existe des tutoriels en SAS, R et Pyhton, réalisant les traitements équivalents. S'inspérer de celui en python pour la réalisation du projet.

Evaluation: contrôle sur table analogue aux cas d'usage ci-dessous et rendu du projet sous la forme d'un calepin introduite par une synthèse détaillée.

Pour aller plus loin

Apprentissage automatique / Statistique
Technologies des grosses data (Spark, XGBoost, Keras...)

Épisodes

Les épisodes alternent apprentissage des méthodes et initiations aux langages (R, Python). L'introduction à SAS est accessible en auto-apprentissage.

Épisode 1 Introduction

Introduction De la Stat à l'IA, quels logiciels et langages
Description unidimensionnelle
Description bidimensionnelle
TP 1
- Consulter le document (README) pour installer le noyau IRkernel afin de pouvoir utiliser R dans Jupyter.
- Pratique de R: 4 calepins
TP 2
- Python Tuto1 Introduction

Épisode 2 Analyse en Composantes Principales

Introduction à l'exploration multidimensionnelle et aux logiciels, langages statistiques
Analyse en Composantes Principales
TP 3
- ACP en R : SVD, jouet, températures
- Données GRC de banque: data muning en R
TP 4
- Python Tuto2: data munging avec pandas
- GRC: data munging en python.
TP 5
- ACP en Python initiation
- GRC: ACP en R
TP 6
- Python Tuto3 graphes
- GRC: ACP en python

Épisode 3 Analyse Factorielle Discriminante

Analyse Factorielle Disciminante
TP 7
- AFD en R: iris, départements
- AFD en Python: human activity recognition
TP 8
- Python Tuto 4 programmation avancée

Épisode 4 Analyse des Correspondances simple et Multiple

Analyse Factorielle simple des Correspondances
Analyse Factorielle multiple des Correspondances
TP 9
- AFC en R: SVD, vacances
- AFCM en R: chiens, cancer
TP 10:
- AFCM en python titanic
- GRC: AFCM en R
- GRC: AFCM en python

Épisode 5 Classification non supervisée et Positionnement Multidimensionnel

Classification non supervisée (k-means, CAH, DBSCAN)
Positionnement Multidimensionnel (MDS)
TP 11
- Classification avec R: villes, OCDE, chiens
- GRC: Classification avec R
TP 12
- Classification avec Python
- GRC: Classification avec python

Épisode 6 Mélanges gaussiens et Factorisation de Matrice

Mélanges gaussiens
Factorisation non négative de matrice
TP 13
- Mélanges gaussiens avec python, cartographie de Mars
- NMF avec R apéro

Projet

TP Explo 14 & 15
Rendre avant le 27/05/2019 18h.
Reproduire en Python le calepin R d' exploration de courriels. S'inspirer du cas d'usage GRC Visa Premier dont un calepin est réalisé en python. Rendre le calepin en Python avec une synthèse subtantielle de la démarche et des principaux résultats obtenus; répondre aux différentes questions.

Cas d'usage (sujets d'examen)

Chaque dossier concerne un jeu de données et contient un calepin (notebooks) au format .ipynb à télécharger et ouvrir dans Jupyter. Ceux-ci suivent le déroulement (questions) d'un examen passé.

GRC-carte_Visa. Exemple de Gestion de la Relation Client (GRC). Exploration multidimensionnelle: ACP, AFCM, segmentation de clientèle: classification non supervisée par CAH et réallocation dynamique; représentation, interprétation des classes.
Patrim-Insee. Analyse des données d'une enquête INSEE sur le patrimoine des français. Exploration multidimensionnelle: AFCM, segmentation: classification non supervisée par CAH; représentation, interprétation des classes.
DiagCoro Exploration en R. ACP, AFCM, CAH, k plus proches voisins. Interprétration et représentation des classes de 270 patients ayant consulté pour douleur thoracique et présentant ou pas une insuffisance coronarienne.
AdultCensus Exploration en R. ACP, AFCM, CAH, k plus proches voisins. Interprétration et représentation des classes de 32561 citoyens américains.
Encours-Boursiers Exploration en R (ACP, CAH, k plus proches voisins) d'un ensemble de 252 encours boursiers observés à Paris de 2000 à 2009.
Cachets-Hittites Exploration avec R d'un corpus de 118 cachets hittites décrits par 12 variables plus la présence de hiéroglyphes. Peut-on prévoir la datation?
Pourriels exploration et caractérisation d'un corpus de courriels afin d'identifier les pourriels.
Mars Segmentation d'un image de mars par classifications non supervisées. Représentation de la carte géologique de la surface de Mars.

Open Source Agenda is not affiliated with "Exploration" Project. README Source: wikistat/Exploration

Stars

Open Issues

Last Commit

3 months ago

Repository

wikistat/Exploration

License

GPL-3.0

Open Source Agenda Badge

<a href="https://www.opensourceagenda.com/projects/exploration"><img src="https://www.opensourceagenda.com/projects/exploration/reviews/badge.svg" alt="Open Source Agenda"></a>

Submit Review Review Your Favorite Project

Submit Resource Articles, Courses, Videos

Submit Article Submit a post to our blog