Analyse et Science des </>

PUBLIC VISÉ

Vous êtes développeur ou analyste et souhaitez vous initier à la mise en oeuvre de techniques d'exploration de données et d'apprentissage automatique.

PRÉ-REQUIS

Connaissances dans un des langages suivants : Python, Java, Scala, R.

DURÉE

La formation est composée de 50% théorie et 50% pratique, répartis sur 2 jours, soit 14 heures.

</ Jour 1 >

Programme de la journée

Echantillon , population.

Tableau individus-variables.

Variable qualitatives

  • dichotomique
  • nominale
  • ordinale
  • classe ou intervalle

Variable quantitatives

  • discrète
  • continue
  • échelle

La distribution des variables

  • présence valeurs
  • aberrantes,
  • ou manquantes

Paramètres descriptifs uni variés

  • paramètres de tendance et de position
  • paramètres de dispersion

Paramètres bidimensionnels

  • covariance
  • corrélations

Représentations graphiques

  • Unidimensionnelle
  • Bidimensionnelle
  • Multidimensionnelle
</ Jour 2 >

Programme de la journée

Comprendre le type de la base de données

  • Données numériques temporelles et  spatiales
  • Données catégorielles
  • Données mixtes
  • Données textuelles.

Données supervisées

  • Identifier et définir la variable objective ou à expliquer Y et son type.
  • Identifier et recenser les variables utiles pour l’objectif.
  • Détecter les variables explicatives les plus influentes sur Y
  • Découper les données : Apprentissage+Test.
  • Méthode paramétrique: Régression logistique.
  • Méthodes non paramétriques:Arbre de décision / Random Forest.

Données non supervisées

  • Méthodes de classification de données textuelles
    • nuage des mots
    • découpage en mots: tokenization,
    • lemmatisation: stemming,
    • élimination des mots fréquents: stop words,

Infos pratiques

horaires
de la formation

8/12h - 14h/17h

adresse

23 rue Vernet
75008 Paris

Les intervenants

Andry Njato Randriamanamihaga

Data Scientist