Apache Spark : traiter les données




DESCRIPTION

Cette formation vous apporte les compétences nécéssaires pour mener à bien des analyses de données en tirant parti de l'écosystème Spark : bases de Spark et Hadoop, dataframes et des schémas, transformer et agréger les données avec RDD, applications Spark, traitement distribué et persistance, introduction à Spark Structured Streaming. Python (PySpark) est utilisé dans ce cours.

Pré-requis :
  • Programmation Python.
  • Analyse de données en Python.
  Télécharger le plan






DETAILS DE LA FORMATION

  •   Syllabus complet
  • Introduction à Hadoop
    Le monde Big Data
    Hadoop : architecture et composants
    Le système HDFS
    MapReduce et YARN

    Le framework Spark
    Spark : historique, principe
    Spark comparé à MapReduce
    Spark : SQL, Streaming, MLlib, GraphX
    RDD, DataFrames et Data Sets
    Spark : CLI ou stand alone
    Programmation de Spark
    Utiliser Spark en Python : PySpark

    Installation
    Spark en local
    Sur un environnement distribué
    En Cloud : AWS, Azure

    Comprendre et utiliser RDD
    Contextes, sessions.
    RDD, qu'est-ce que c'est?
    RDD : créer, manipuler, réutiliser
    Principales fonctions/transformations
    Algorithmes de type map/reduce
    Utiliser des partitions.
    Soumission de travaux.

    Manipuler les données, Spark SQL
    DataFrames et Data Sets
    Créer des DataFrames, PySpark Pandas
    Charger les données : Hadoop, CSV, JSON,..
    Transformer avec les DataFrames
    Le tockage de données
    Interopérabilité avec les RDD
    Spark SQL : prise en main
    TP : mise en oeuvre.

    Machine Learning avec Spark.ML
    Introduction au ML
    Différentes classes d'algorithmes
    Apprentissage supervisé
    Forêts aléatoires avec Spark
    Mise en place d'un outil de recommandation
    Traitement de données textuelles
    Créer des pipelines et automatiser

    Spark Streaming
    Introduction et architecture
    Discretized Streams (DStreams)
    Les sources de données
    Utilisation de l'API
    Manipulation des données
    Machine learning en temps réel.

    Spark et les graphes
    GraphX : présentation
    Principe de création des graphes
    API GraphX
    Présentation de GraphFrames
    GraphX vs GraphFrames

  •   Ce qui est inclus
  • + Formateur expérimenté
    + Support du cours
    + Notes de cours divers
    + Rappels

  •   Public concerné
  • + Débutants en programmation
    + Quiconque veut apprendre la programmation

  •   Certification et évaluation
  • En cours de formation, des travaux pratiques et études de cas sont proposés. Cette formation ne propose pas encore de certification.



AVANTAGES. TEMOIGNAGES

  • Votre coach Reconvert.
  • Pédagogie orientée pratique.
  • Echanges interactifs.
  • Communautés.

La qualité est excellente, l'enseignant crée un espace de confiance et rend la formation très agréable. J'ai adoré, le professeur et son cours sont très complets. La formation a été facile à comprendre et très dynamique. Le formateur est un excellent professeur.
J. Ruiz
The Moneytizer, Mexico

La formation avec vous était géniale. C'est super intéressant et très formateur. Actuellement je suis chez Micropole, en tant que Cloud & Big Data Engineer. Merci.
A. Chuttoo
Micropole, France

Ces 4 jours ont été enrichissants. Suite à la formation HTML puis CSS, celle de Javascript m'a apporté encore plus de connaissances et de compétences sur le sujet.
J. Salgueiro
The Moneytizer, Brazil



Autres références :

Cliquez sur le logo.


Capgemini Atos Allianz TheMoneytizer CPAM M2iFormation Global Knowledge Ikea Hewlett Packard Ministère de la Défense AKKA Ministère de l'intérieur AFP Enedis Viveris Titeflex Autres




DUREE (H)



Durée : 21 heures.



PRIX. DATES. RESERVER

  •   Suivre en LIVE TRAINING+


  • Votre formation est diffusée en LIVE Training+, en associant des contenus Live, vidéo, texte variés. Ces contenus sont diffusés en streaming et en sessions interactives avec chat, partage écran, quiz, sondages, etc. Vous devez être présent (en ligne) lors de la session.

    Prix : 684 €
    Prochaine date : 10/03/2025

    Accès à la formation : 10/03/2025
    Durée de l'accès : 120 jours.


        
  •   Suivre en CLASSE VIRTUELLE

  • Diffusée en Classe Virtuelle, cette formation regroupe au minimum 3 stagiaires de votre entreprise. Réservez un RDV téléphonique avec un conseiller en cliquant ci-dessous.

    Prix indicatif HT : 2052 €




Autres formations

Python par la pratique
Apprendre par la pratique à programmer en langage Python.

Django : développement web en Python
Apprendre à développer des applications web en Python avec le framework Django.

MYSQL : prise en main et langage SQL
Ecrire et tester du SQL pour les données de votre application web.

PostgreSQL
Apprendre le langage SQL à travers le serveur de bases de données PostgreSQL.

Certification Python TOSA
Se préparer en pratique à passer la certification TOSA Python3.

Scraping Web en Python
Apprendre à extraire des données depuis un site web en utilisant des modules Python.