Trouver la formation qui vous correspond.

Plus de 500 formations dans les domaines informatique, bureautique et développement professionnel
Generic selectors
Exact matches only
Search in title
Search in content
Search in posts
Search in pages
Filter by Categories
Actus
Financement
Formations
Non classé

Ex. : ExcelWordPhotoshopJavaAgile

Centre de formation Informatique et Ressources Humaines

Trouver la formation qui vous correspond.

Plus de 500 formations dans les domaines informatique, bureautique et développement professionnel
Generic selectors
Exact matches only
Search in title
Search in content
Search in posts
Search in pages
Filter by Categories
Actus
Financement
Formations
Non classé

Ex. : ExcelWordPhotoshopJavaAgile

Formation Spark – Python

THBI1112

3 jours (21 heures) – Perfectionnement / Avancé

3 jours (21 heures)
Perfectionnement / Avancé

Formation : Formation Spark – Python

Domaine : Informatique

Présentiel
Présentiel
Online
En ligne
Coût
1500€ HT

Objectifs pédagogiques

  • Maîtriser les concepts fondamentaux de Spark
  • Développer des applications avec Spark en Python
  • Exploiter des données avec Spark SQL
  • Implémenter des algorithmes de Machine Learning

Niveau requis

  • Connaissances en Python

Public concerné

  • Chef de projets, Développeur, Consultant

Dates de formations

  • Aucune session est planifiée actuellement pour cette formation.

Programme de formation

3 jours (21 heures)

Perfectionnement / Avancé

Présentation d’Apache Spark

  • Historique du Framework. Sa place dans les technologies Big Data
  • Les différentes versions de Spark (Scala, Python et Java)
  • Les différents modules de Spark
  • Travaux pratiques : Installation et configuration de Spark, Scala et les librairies Python sur un PC Windows

Resilient Distributed Dataset (RDD)

  • Présentation des RDD
  • Créer, manipuler et réutiliser des RDD
  • Utiliser des partitions
  • Travaux pratiques : Manipulation des RDD en python, Création de programmes avec pyspark

Spark sur un Cluster

  • Les différents types d’architecture : Standalone, Apache Mesos ou Hadoop YARN
  • Déployer des applications avec Spark-submit
  • Dimensionner un cluster
  • Travaux pratiques : Mise en place d’un cluster Spark dans le Cloud (Amazon aws et Databricks), Exécution d’un programme Python sur un cluster Spark (Amazon aws)

Manipuler des données structurées avec Spark SQL

  • SQL, DataFrames vs Datasets
  • Les différents types de sources de données
  • JDBC/ODBC server et Spark SQL CLI
  • Travaux pratiques : Manipulation de Datasets via des requêtes SQL. Connexion avec une base externe via JDBC

Spark Streaming : Analyser des flux en temps réel

  • Principe de fonctionnement.Gestion du cache
  • Présentation des Discretized Streams (DStreams)
  • Les différents types de sources
  • Flume vs Kafka vs Storm
  • Travaux pratiques : Consommation de logs avec Spark Streaming. Analyse de flux avec Spark et Kafka

Spark et les technologies Big Data

  • Utiliser Spark avec des bases de données NoSQL (MongoDb, Cassandra, Neo4j)
  • Spark vs Hadoop
  • Spark et les Notebooks (Jupyter, Zeppelin)

Machine Learning avec Spark

  • Introduction au Machine Learning
  • Les principaux algorithmes
  • Présentation de SparkML et MLlib
  • Implémentations des différents algorithmes dans MLlib
  • Travaux pratiques : Utilisation de SparkML et MLlib

Optimisation de Spark

  • Gestion des variables partagées
  • Données broadcastées
  • Accumulateurs

Qualité et certification

Rejoignez-nous