Apache Spark : traiter les données
Pré-requis :
- Programmation Python.
- Analyse de données en Python.
DETAILS DE LA FORMATION
- Syllabus complet
-
Introduction à Hadoop
Le monde Big Data
Hadoop : architecture et composants
Le système HDFS
MapReduce et YARN
Le framework Spark
Spark : historique, principe
Spark comparé à MapReduce
Spark : SQL, Streaming, MLlib, GraphX
RDD, DataFrames et Data Sets
Spark : CLI ou stand alone
Programmation de Spark
Utiliser Spark en Python : PySpark
Installation
Spark en local
Sur un environnement distribué
En Cloud : AWS, Azure
Comprendre et utiliser RDD
Contextes, sessions.
RDD, qu'est-ce que c'est?
RDD : créer, manipuler, réutiliser
Principales fonctions/transformations
Algorithmes de type map/reduce
Utiliser des partitions.
Soumission de travaux.
Manipuler les données, Spark SQL
DataFrames et Data Sets
Créer des DataFrames, PySpark Pandas
Charger les données : Hadoop, CSV, JSON,..
Transformer avec les DataFrames
Le tockage de données
Interopérabilité avec les RDD
Spark SQL : prise en main
TP : mise en oeuvre.
Machine Learning avec Spark.ML
Introduction au ML
Différentes classes d'algorithmes
Apprentissage supervisé
Forêts aléatoires avec Spark
Mise en place d'un outil de recommandation
Traitement de données textuelles
Créer des pipelines et automatiser
Spark Streaming
Introduction et architecture
Discretized Streams (DStreams)
Les sources de données
Utilisation de l'API
Manipulation des données
Machine learning en temps réel.
Spark et les graphes
GraphX : présentation
Principe de création des graphes
API GraphX
Présentation de GraphFrames
GraphX vs GraphFrames
- Ce qui est inclus
-
+ Formateur expérimenté
+ Support du cours
+ Notes de cours divers
+ Rappels - Public concerné
-
+ Débutants en programmation
+ Quiconque veut apprendre la programmation - Certification et évaluation
-
En cours de formation, des travaux pratiques et études de cas sont proposés. Cette formation ne propose pas encore de certification.
AVANTAGES. TEMOIGNAGES
- Votre coach Reconvert.
- Pédagogie orientée pratique.
- Echanges interactifs.
- Communautés.
La qualité est excellente, l'enseignant crée un espace de confiance et rend la formation très agréable. J'ai adoré, le professeur et son cours sont très complets. La formation a été facile à comprendre et très dynamique. Le formateur est un excellent professeur.
J. Ruiz
The Moneytizer, Mexico
La formation avec vous était géniale. C'est super intéressant et très formateur. Actuellement je suis chez Micropole, en tant que Cloud & Big Data Engineer. Merci.
A. Chuttoo
Micropole, France
Ces 4 jours ont été enrichissants. Suite à la formation HTML puis CSS, celle de Javascript m'a apporté encore plus de connaissances et de compétences sur le sujet.
J. Salgueiro
The Moneytizer, Brazil
Autres références :
Cliquez sur le logo.
Capgemini Atos Allianz TheMoneytizer CPAM M2iFormation Global Knowledge Ikea Hewlett Packard Ministère de la Défense AKKA Ministère de l'intérieur AFP Enedis Viveris Titeflex Autres
DUREE (H)
Durée : 21 heures.
PRIX. DATES. RESERVER
- Suivre en LIVE TRAINING+
-
Votre formation est diffusée en LIVE Training+, en associant des contenus Live, vidéo, texte variés. Ces contenus sont diffusés en streaming et en sessions interactives avec chat, partage écran, quiz, sondages, etc. Vous devez être présent (en ligne) lors de la session.
Prix : 684 €
Prochaine date : 10/03/2025
Accès à la formation : 10/03/2025
Durée de l'accès : 120 jours.
- Suivre en CLASSE VIRTUELLE
Autres formations
Django : développement web en Python
Apprendre à développer des applications web en Python avec le framework Django.
MYSQL : prise en main et langage SQL
Ecrire et tester du SQL pour les données de votre application web.
Scraping Web en Python
Apprendre à extraire des données depuis un site web en utilisant des modules Python.