Big & Fast Data avec </>

PUBLIC VISÉ

Vous souhaitez utiliser le framework Spark pour des besoins d'exploration de données ou dans un objectif de Data Engineering.

PRÉ-REQUIS

Connaissance d'un des langages de programmation suivants : Scala, Java, Python, R.

DURÉE

La formation est composée de 50% théorie et 50% pratique, répartis sur 2 jours, soit 14 heures.

</ Jour 1 >

Programme de la journée

Les concepts

  • Le positionnement dans l’écosystème Hadoop
  • Les concepts de Spark et de son DSL
  • Les Resilients Distributed Dataset (RDDs)
  • Le graphe acyclique dirigé (DAG)
  • Le Spark shell

Le concept de RDD

  • Qu’est-ce qu’un RDD
  • Les opérations
  • Les transformations
  • Les actions

Chargement / sauvegarde des données sur HDFS

  • Les différents formats
  • Chargement stockage HDFS
  • Traitement des données au format ASCII : CSV /JSON
  • Traitement des données au format binaire : Sequence Files / Avro / Parquet
</ Jour 2 >

Programme de la journée

Datasets et DataFrames

  • Opérations sur les DataFrames
  • SQL et les DataFrames
  • SQL typé avec les Datasets
  • Interoperability avec les RDDs
  • Source de données Hive / Parquet / JSON / JDBC

 

Fast Data avec Spark (Strutured) Streaming

  • DStream & Microbatch / Structured Streaming & Temps-réel
  • DataFrames et Datasets en mode streaming
  • Les opérations de transformation
  • Le fenêtrage glissant
  • La gestion d’état

Tuning des performances

  • Les composants d’exécution : Jobs / Tâches / Stages
  • Analyse des métriques
  • Analyse des logs d’exécution
  • Optimisation des algorithmes
  • Résolution des goulots d’étrangement CPU / mémoire / Réseau
  • Dimensionnement du cluster

Infos pratiques

horaires
de la formation

8/12h - 14h/17h

adresse

23 rue Vernet
75008 Paris

Les intervenants

Hayssam Saleh

CTO & Architecte

Stéphane Manciot

Architecte - DevOps

Christophe Galant

Architecte FullStack Web

Martin Menestret

Data Engineer

Andry Njato Randriamanamihaga

Data Scientist

Aurélie Salmon

Data Engineer