Mise en œuvre des traitements Big Data avec Spark

THBI2042

3 jours (21 heures) – Initiation / Fondamentaux

3 jours (21 heures)
Initiation / Fondamentaux

Mise en œuvre des traitements Big Data avec Spark

Domaine : Informatique

Présentiel

Distanciel

2175€ HT

Objectifs pédagogiques

Concevoir le fonctionnement de Spark et son utilisation dans un environnement Hadoop
Intégrer Spark dans un environnement Hadoop
Traiter des données Cassandra, HBase, Kafka, Flume, Sqoop et S3

Niveau requis

Garantir avoir des connaissances sur Java ou Python
Garantir avoir les bases Hadoop Notions de calculs statistiques

Public concerné

Chefs de projet Data Scientists Développeurs

Moyens pédagogiques et techniques

Salles de formation (les personnes en situation de handicap peuvent avoir des besoins spécifiques pour suivre la formation. N’hésitez pas à nous contacter pour en discuter) équipée d’un ordinateur de dernière génération par stagiaire, réseau haut débit et vidéo-projection
UHD Documents supports de formation projetés Apports théoriques, étude de cas concrets et exercices
Mise à disposition en ligne de documents supports à la suite de la formation

Dispositif de suivi de l'éxécution de l'évaluation des résultats de la formation

Feuilles d’émargement (signature électronique privilégiée)
Evaluations formatives et des acquis sous forme de questions orales et/ou écrites (QCM) et/ou mises en situation
Questionnaires de satisfaction (enquête électronique privilégiée)

Dates de formations

Sur demande à Toulouse
Sur demande à Pau

Contacter-nous

Formateur

Les formateurs intervenants pour Themanis sont qualifiés par notre Responsable Technique Olivier Astre pour les formations informatiques et bureautiques et par Didier Payen pour les formations management.

Conditions d’accès à la formation

Délai : 3 mois à 1 semaine avant le démarrage de la formation dans la limite des effectifs indiqués.

Programme de formation

Télécharger le programme

3 jours (21 heures)

Initiation / Fondamentaux

Mise à jour le 12/02/2021

Introduction

Présentation de Spark, origine du projet
Apports et principes de fonctionnement
Langages supportés

Premiers pas

Utilisation du shell Spark avec Scala ou Python
Modes de fonctionnement
Interprété, compilé
Utilisation des outils de construction
Gestion des versions de bibliothèques

Règles de développement

Mise en pratique en Java, Scala et Python
Notion de contexte Spark
Différentes méthodes de création des RDD : depuis un fichier texte, un stockage externe
Manipulations sur les RDD (Resilient Distributed Dataset)
Fonctions, gestion de la persistance

Cluster

Différents cluster managers : Spark en autonome, avec Mesos, avec Yarn, avec Amazon EC2
Architecture : SparkContext, Cluster Manager, Executor sur chaque noeud
Définitions : Driver program, Cluster manager, deploy mode, Executor, Task, Job
Mise en oeuvre avec Spark et Amazon EC2
Soumission de jobs, supervision depuis l’interface web

Traitement

Lecture/écriture de données : Texte, JSon, Parquet, HDFS, fichiers séquentiels
Jointures
Filtrage de données, enrichissement
Calculs distribués de base
Introduction aux traitements de données avec map/reduce
Travail sur les RDDs
Transformations et actions
Lazy execution
Impact du shuffle sur les performances
RDD de base, key-pair RDDs
Variables partagées : accumulateurs et variables broadcast

Intégration Hadoop

Présentation de l’écosystème Hadoop de base : HDFS/Yarn
Travaux pratiques avec YARN
Création et exploitation d’un cluster Spark/YARN
Intégration de données sqoop, kafka, flume vers une architecture Hadoop
Intégration de données AWS S3

Support Cassandra

Description rapide de l’architecture Cassandra
Mise en oeuvre depuis Spark
Exécution de travaux Spark s’appuyant sur une grappe Cassandra

Dataframes

Spark et SQL
Objectifs : traitement de données structurées
L’API Dataset et DataFrames
Optimisation des requêtes
Mise en oeuvre des Dataframes et DataSet
Comptabilité Hive
Travaux pratiques : extraction, modification de données dans une base distribuée
Collections de données distribuées
Exemples

Streaming

Objectifs , principe de fonctionnement : stream processing
Source de données : HDFS, Flume, Kafka, …
Notion de Streaming
Contexte, DStreams, démonstrations
Traitement de flux DStreams en Scala

Machine Learning

Fonctionnalités : Machine Learning avec Spark, algorithmes standards, gestion de la persistance, statistiques
Support de RDD
Mise en oeuvre avec les DataFrames

Spark Graphx

Fourniture d’algorithmes, d’opérateurs simples pour des calculs statistiques sur les graphes
Exemples d’opérations sur les graphes

Mise à jour le 12/02/2021

Trouver la formation qui vous correspond.

Trouver la formation qui vous correspond.

Mise en œuvre des traitements Big Data avec Spark

Mise en œuvre des traitements Big Data avec Spark

Objectifs pédagogiques

Niveau requis

Public concerné

Moyens pédagogiques et techniques

Dispositif de suivi de l'éxécution de l'évaluation des résultats de la formation

Dates de formations

Formateur

Conditions d’accès à la formation

Programme de formation

3 jours (21 heures)