Passer au contenu
30 h

Gestion de données

Spark pour le traitement de données massives

Préalables

• Avoir suivi les cours Info17 et Info41. • Expérience basique en ligne de commande Linux. • Connaissances basiques SQL. • Connaissances de base en programmation ou en scripting (Python/Java/Scala) est un atout.

Objectif :

Spark est un framework qui offre un modèle de programmation plus simple que celui du MapReduce d’Hadoop et surtout plus rapide avec des temps d’exécution jusqu’à 100 fois plus courts. Avec Spark, les développeurs peuvent écrire simplement des applications distribuées complexes qui permettent de prendre des meilleures décisions plus rapidement et des actions en temps réel, appliquées à une grande variété de cas d’utilisations, d’architecture et de secteurs d’activités.

Cette formation de s’adresse aux développeurs Big Data qui souhaitent créer et déployer des applications d’analyse de données Big Data complètes et uniques en combinant batchs, le streaming et analyses interactives sur l’ensemble des données.

Contenu

• Appréhender le fonctionnement de Spark
• Développer des applications avec Apache Spark
• Optimiser une application Spark
• Utiliser Spark SQL et les dataframes
• Faire de l’analyse en temps réel avec Spark streaming
• Découvrir MLLib pour du machine learning sur Spark
• Explorer, manipuler et visualiser votre donnée avec Zeppelin