24 h
Informatique
5$/h – Sciences des données (datascience) – Niveau 1
Objectif général:
Acquérir des compétences pratiques en science des données (data science) et plus spécifiquement, en fouilles de données – data mining.
Contenu du cours:
Introduction à la science de données
- Objectifs de l’exploration des données
- Approches de l’apprentissage automatique : supervisé, non supervisé et semi supervisé.
- Données prétraitées vs données brutes
- Matériels : CPU vs GPU
- Logiciels spécialisés : Jupyter notebook, Spyder, Python, Pycharm
- Bibliothèques à source ouverte disponibles : Numpy, Pandas, SciPy, Matplotlib
- Applications de la science de données
- Vision par ordinateur : reconnaissance faciale, analyse d’images médicale, télédétection.
- Traitement naturel du langage
- Reconnaissance automatique de la parole
- Robotique
Langage de programmation Python : partie 1
- Variable et affichage
- Structures des données et structures algorithmiques
- Fonctions, classes.
Langage de programmation Python : partie 2
- La bibliothèque Numpy
- La bibliothèque Panda
- La bibliothèque Matplotlib
Analyse des données de type image et texte
- Analyse des données de type image : Sources, extraction, préparation, visualisation des images.
- Bibliothèques pour la préparation et la manipulation des images.
- Analyse des données de type texte : Sources, normalisation du texte, vectorisation des mots (word embedding).
- Application en vision par ordinateur
- Application en traitement automatique du langage naturel
Apprentissage machine : apprentissage supervisé
- Étapes d’un algorithme d’apprentissage supervisé : préparation des données, ingénierie des caractéristiques, choix de l’algorithme, teste et validation
- Algorithmes d’apprentissage supervisé : Classification Bayésienne, Réseaux de neurones artificiels, Machine à vecteurs de support (SVM), Arbre de décision.
- Application des algorithmes d’apprentissage supervisé : Vision par ordinateur, Reconnaissance de formes, Reconnaissance vocale, Traitement automatique du langage.
Apprentissage machine : apprentissage non supervisé
- Étapes d’un algorithme d’apprentissage non supervisé : préparation des données, choix de l’algorithme, métriques d’évaluation, teste et validation.
- Algorithmes d’apprentissage non supervisé ; K-means, Réduction de la dimensionnalité, Analyse de la composante principale, Réseaux de neurones artificiels.
- Application des algorithmes d’apprentissage non supervisé : Détection des anomalies, le regroupement, réduction de la dimensionalité.
Analyse des données massives (Big data)
- Données massives : disponibilité des données, données structurées vs non structurées, capacité de stockage et d’analyse.
- Propriétés des données massives : Volume, Vélocité et Variété.
- Outils des données massives :
- Systèmes d’orchestration (Kubernetes, Docker swarm)
- Traitement distribué (Apache Spark)
- Stockage distribué (Apache Hadoop)
- Bases de données (SQL vs No SQL)
- Application des données massives : Apprentissage machine, science et recherche, détection des fraudes, santé, IoT.
Préalables
Connaissances de base en programmation et mathématiques de base.