Développeur Big Data Hadoop et Spark - eLearning

Type de cours: E-Learning

Développeur Big Data Hadoop et Spark - eLearning

Adding Value Consulting (FR)

Réserver maintenant

Note du fournisseur:

Astuce: besoin de plus d'informations sur la formation? Téléchargez la brochure!

Réserver maintenant Recevoir une brochure

Description

Développeur Big Data Hadoop et Spark - e-learning

Le cours Développeur Big Data Hadoop et Spark est conçu pour vous fournir une compréhension approfondie des principes fondamentaux d'Apache Spark et du framework Hadoop, vous dotant ainsi des compétences nécessaires pour exceller en tant que développeur Big Data. Grâce à ce programme, vous acquerrez des connaissances pratiques sur l'écosystème Hadoop et son intégration avec Spark, ce qui vous permettra de traiter et d'analyser efficacement des ensembles de données massifs. Découvrez comment les multiples composants de Hadoop, tels que HDFS et MapReduce, s'intègrent parfaitement dans le cycle de traitement du Big Data, vous préparant ainsi à …

Lisez la description complète ici

Foire aux questions (FAQ)

Il n'y a pour le moment aucune question fréquente sur ce produit. Si vous avez besoin d'aide ou une question, contactez notre équipe support.

Vous n'avez pas trouvé ce que vous cherchiez ? Voir aussi : Big data, Développeur / Developer, Data privacy, Business plan et Data management.

Développeur Big Data Hadoop et Spark - e-learning

QU'EST-CE QUI EST INCLUS ?

Le cours et le matériel sont en anglais
Niveau intermédiaire pour les aspirants ingénieurs de données
Accès pendant 1 an à la plateforme d'e-learning à votre rythme, 24h/24 et 7j/7
11 heures de contenu vidéo
50 heures d'étude recommandées
Test de simulation, laboratoire virtuel et projet de fin de cours
Pas d'examen pour le cours, mais les étudiants recevront une attestation de formation

OBJECTIFS DU COURS

Apprendre à naviguer dans l'écosystème Hadoop et comprendre comment optimiser son utilisation
Ingérer des données à l'aide de Sqoop, Flume et Kafka.
Mettre en œuvre le partitionnement, le bucketing et l'indexation dans Hive
Travailler avec RDD dans Apache Spark
Traitez des données en streaming en temps réel et effectuez des opérations DataFrame dans Spark à l'aide de requêtes SQL
Implémentez des fonctions définies par l'utilisateur (UDF) et des fonctions d'attribut définies par l'utilisateur (UDAF) dans Spark

Public cible

Idéal pour un large éventail de professionnels et de particuliers qui souhaitent faire progresser leur carrière dans l'analyse de mégadonnées, l'ingénierie des données et la science des données.

Prérequis : Il est recommandé d'avoir des connaissances en Core Java et SQL

Professionnels de l'analyse
Professionnels informatiques seniors
Professionnels des tests et des mainframes
Professionnels de la gestion des données
Professionnels de la veille économique
Chefs de projet
Diplômés souhaitant débuter une carrière dans l'analyse de mégadonnées

Prérequis : Il est recommandé d'avoir des connaissances en Java et SQL de base.

Contenu

Introduction aux mégadonnées et à Hadoop

- Introduction aux mégadonnées et à Hadoop
- Introduction aux mégadonnées
- Analyse des mégadonnées
- Qu'est-ce que les mégadonnées ?
- Les quatre caractéristiques des mégadonnées
- Étude de cas : Royal Bank of Scotland
- Défis des systèmes traditionnels
- Systèmes distribués
- Introduction à Hadoop
- Composants de l'écosystème Hadoop, première partie
- Composants de l'écosystème Hadoop, deuxième partie
- Composants de l'écosystème Hadoop, troisième partie
- Distributions commerciales de Hadoop
- Démonstration : présentation de Simplilearn Cloudlab
- Points clés à retenir
- Vérification des connaissances

Architecture Hadoop Stockage distribué (HDFS) et YARN

- Architecture Hadoop Stockage distribué (HDFS) et YARN
- Qu'est-ce que le HDFS ?
- Nécessité du HDFS
- Système de fichiers classique vs HDFS
- Caractéristiques du HDFS
- Architecture et composants du HDFS
- Implémentations de clusters à haute disponibilité
- Composant du HDFS Espace de noms du système de fichiers
- Division des blocs de données
- Topologie de réplication des données
- Ligne de commande HDFS
- Démonstration : commandes HDFS courantes
- Projet pratique : ligne de commande HDFS
- Introduction à Yarn
- Cas d'utilisation de Yarn
- Yarn et son architecture
- Gestionnaire de ressources
- Fonctionnement du gestionnaire de ressources
- Maître d'application
- Comment Yarn exécute une application
- Outils pour les développeurs Yarn
- Démonstration : présentation du cluster, première partie
- Démonstration : présentation du cluster, deuxième partie
- Points clés à retenir Vérification des connaissances
- Projet pratique : architecture Hadoop, stockage distribué (HDFS) et Yarn

Ingestion de données dans les systèmes Big Data et ETL

- Ingestion de données dans les systèmes Big Data et ETL
- Présentation de l'ingestion de données, première partie
- Présentation de l'ingestion de données, deuxième partie
- Apache Sqoop
- Sqoop et ses utilisations
- Traitement Sqoop
- Processus d'importation Sqoop
- Connecteurs Sqoop
- Démonstration : importation et exportation de données depuis MySQL vers HDFS
- Projet pratique : Apache Sqoop
- Apache Flume
- Modèle Flume
- Évolutivité dans Flume
- Composants de l'architecture Flume
- Configuration des composants Flume
- Démonstration : ingestion de données Twitter
- Apache Kafka Agrégation de l'activité des utilisateurs à l'aide de Kafka
- Modèle de données Kafka
- Partitions
- Architecture Apache Kafka
- Démonstration : configuration d'un cluster Kafka
- Exemple d'API côté producteur
- API côté consommateur
- Exemple d'API côté consommateur
- Kafka Connect
- Démonstration : création d'un exemple de pipeline de données Kafka à l'aide d'un producteur et d'un consommateur
- Points clés à retenir
- Vérification des connaissances
- Projet pratique : ingestion de données dans des systèmes Big Data et ETL

Traitement distribué Cadre MapReduce et Pig

- Traitement distribué Cadre MapReduce et Pig
- Traitement distribué dans Mapreduce
- Exemple de comptage de mots
- Phases d'exécution de Map
- Exécution de Map dans un environnement distribué à deux nœuds
- Tâches Mapreduce
- Interaction entre les tâches Hadoop Mapreduce
- Configuration de l'environnement pour le développement Mapreduce
- Ensemble de classes
- Création d'un nouveau projet
- Mapreduce avancé
- Types de données dans Hadoop
- Formats de sortie dans Mapreduce
- Utilisation du cache distribué
- Jointures dans MapReduce
- Jointure répliquée
- Introduction à Pig
- Composants de Pig
- Modèle de données Pig
- Modes interactifs Pig
- Opérations Pig
- Diverses relations effectuées par les développeurs
- Démonstration : analyse des données de journaux Web à l'aide de Mapreduce
- Démonstration : analyse des données de ventes et résolution des KPI à l'aide de Pig Projet pratique : Apache Pig
- Démonstration : comptage de mots
- Points clés à retenir
- Vérification des connaissances
- Projet pratique : traitement distribué - Cadre MapReduce et Pig

Apache Hive

- Apache Hive
- Hive SQL sur Hadoop MapReduce
- Architecture Hive
- Interfaces pour exécuter des requêtes Hive
- Exécution de Beeline à partir de la ligne de commande
- Métastore Hive
- DDL et DML Hive
- Création d'une nouvelle table
- Types de données Validation des données
- Types de formats de fichiers
- Sérialisation des données
- Table Hive et schéma Avro
- Optimisation Hive Partitionnement, bucketing et échantillonnage
- Table non partitionnée
- Insertion de données
- Partitionnement dynamique dans Hive
- Bucketing
- À quoi servent les buckets ?
- Hive Analytics UDF et UDAF
- Autres fonctions de Hive
- Démo : analyse en temps réel et filtrage des données
- Démonstration : problème concret
- Démonstration : représentation et importation des données à l'aide de Hive
- Points clés à retenir
- Vérification des connaissances
- Projet pratique : Apache Hive

Bases de données NoSQL HBase

- Bases de données NoSQL HBase
- Introduction à NoSQL
- Démonstration : réglage de Yarn
- Présentation de HBase
- Architecture de HBase
- Modèle de données
- Connexion à HBase
- Projet pratique : shell HBase
- Points clés à retenir
- Vérification des connaissances
- Projet pratique : bases de données NoSQL - HBase

Notions de base sur la programmation fonctionnelle et Scala

- Notions de base sur la programmation fonctionnelle et Scala
- Introduction à Scala
- Démonstration : installation de Scala
- Programmation fonctionnelle
- Programmation avec Scala
- Démonstration : littéraux de base et programmation arithmétique
- Démonstration : opérateurs logiques
- Classes d'inférence de types Objets et fonctions dans Scala
- Démonstration : fonctions d'inférence de types Fonctions anonymes et classes
- Collections
- Types de collections
- Démonstration : cinq types de collections
- Démonstration : opérations sur une liste Scala REPL
- Démonstration : fonctionnalités de Scala REPL
- Points clés
- Vérification des connaissances
- Projet pratique : Apache Hive

Apache Spark, le framework Big Data de nouvelle génération

- Apache Spark, le framework Big Data de nouvelle génération
- Historique de Spark
- Limites de Mapreduce dans Hadoop
- Introduction à Apache Spark
- Composants de Spark
- Application du traitement en mémoire
- Écosystème Hadoop vs Spark
- Avantages de Spark
- Architecture Spark
- Cluster Spark dans le monde réel
- Démonstration : exécution d'un programme Scala dans Spark Shell
- Démonstration : configuration de l'environnement d'exécution dans l'IDE
- Démonstration : interface utilisateur Web Spark
- Points clés à retenir
- Vérification des connaissances
- Projet pratique : Apache Spark, le framework Big Data de nouvelle génération

Traitement de base de Spark RDD

- Introduction à Spark RDD
- RDD dans Spark
- Création d'un RDD Spark
- RDD par paires
- Opérations RDD
- Démonstration : exploration détaillée de la transformation Spark à l'aide d'exemples Scala
- Démonstration : exploration détaillée de l'action Spark à l'aide de Scala
- Mise en cache et persistance
- Niveaux de stockage
- Lignage et DAG
- Nécessité du DAG
- Débogage dans Spark
- Partitionnement dans Spark
- Planification dans Spark
- Mélange dans Spark
- Tri, mélange et agrégation de données avec des RDD appariés
- Démonstration : application Spark avec réécriture des données dans HDFS et interface utilisateur Spark
- Démonstration : modification des paramètres de l'application Spark
- Démonstration : gestion de différents formats de fichiers
- Démonstration : RDD Spark avec une application concrète
- Démonstration : optimisation des tâches Spark
- Points clés à retenir
- Vérification des connaissances
- Projet pratique : traitement Spark Core RDD

Traitement Spark SQL des cadres de données

- Traitement Spark SQL des cadres de données
- Introduction à Spark SQL
- Architecture Spark SQL
- Cadres de données
- Démonstration : gestion de différents formats de données
- Démonstration : mise en œuvre de différentes opérations sur les cadres de données
- Démonstration : UDF et UDAF
- Interopérabilité avec les RDD
- Démonstration : traitement d'un cadre de données à l'aide d'une requête SQL
- RDD vs DataFrame vs Dataset
- Projet pratique : traitement des DataFrames
- Points clés à retenir
- Vérification des connaissances
- Projet pratique : Spark SQL - Traitement des DataFrames

Spark MLib Modélisation du Big Data avec Spark

- Spark Mlib Modélisation du Big Data avec Spark
- Rôle du data scientist et du data analyst dans le Big Data
- Analytique dans Spark
- Apprentissage automatique
- Apprentissage supervisé
- Démonstration : classification des SVM linéaires
- Démonstration : régression linéaire avec des études de cas concrets
- Apprentissage non supervisé
- Démonstration : clustering non supervisé K-means
- Apprentissage par renforcement
- Apprentissage semi-supervisé
- Présentation de Mlib
- Pipelines Mlib
- Points clés à retenir
- Vérification des connaissances
- Projet pratique : Spark Mlib - Modélisation du Big Data avec Spark

Cadres de traitement de flux et Spark Streaming

- Présentation du streaming
- Traitement en temps réel du Big Data
- Architectures de traitement des données
- Démonstration : traitement des données en temps réel avec Spark Streaming
- Démonstration : écriture d'une application Spark Streaming
- Introduction à DStreams
- Transformations sur DStreams
- Modèles de conception pour l'utilisation de Foreachrdd
- Opérations d'état
- Opérations de fenêtrage
- Opérations de jointure Stream-dataset Join
- Démonstration : fenêtrage du traitement des données en temps réel Sources de streaming
- Démonstration : traitement des données de streaming Twitter
- Spark Streaming structuré
- Cas d'utilisation : transactions bancaires
- Modèle d'architecture de streaming structuré et ses composants
- Destinations de sortie
- API de streaming structuré
- Construction de colonnes dans le streaming structuré
- Opérations de fenêtrage sur le temps d'événement
- Cas d'utilisation
- Démonstration : pipeline de streaming
- Projet pratique : Spark Streaming
- Points clés à retenir
- Vérification des connaissances
- Projet pratique : frameworks de traitement de flux et Spark Streaming

Spark GraphX

- Spark GraphX
- Introduction aux graphes
- GraphX dans Spark
- Opérateurs GraphX
- Opérateurs de jointure
- Système parallèle GraphX
- Algorithmes dans Spark
- API Pregel
- Cas d'utilisation de GraphX
- Démonstration : prédicat de sommet GraphX
- Démonstration : algorithme de classement de pages
- Points clés à retenir
- Vérification des connaissances
- Projet pratique : Spark GraphX Assistance pour les projets

Rester à jour sur les nouveaux avi

Pas encore d'avis.

Demander des informations à propos de cours. Dorénavant, nous recevrez aussi une notification lorsque qu'un autre utilisateur partage son avis. C'est un bon moyen de vous encourager à continuer d'apprendre!
Voir les produits similaires avec des avis: Big data et Développeur / Developer.

Partagez vos avis

Avez-vous participé à cours? Partagez votre expérience et aider d'autres personnes à faire le bon choix. Pour vous remercier, nous donnerons 1,00 € à la fondation Stichting Edukans.

Il n'y a pour le moment aucune question fréquente sur ce produit. Si vous avez besoin d'aide ou une question, contactez notre équipe support.

Développeur Big Data Hadoop et Spark - eLearning

Développeur Big Data Hadoop et Spark - eLearning

Développeur Big Data Hadoop et Spark - e-learning

Développeur Big Data Hadoop et Spark - e-learning

Contenu

Recevoir une brochure d'information (gratuit)

Vous avez des questions?