5$/h - Sciences des données (datascience) - Niveau 1

Retour

24 h

5$/h – Sciences des données (datascience) – Niveau 1

Acquérir des compétences pratiques en science des données (data science) et plus spécifiquement, en fouilles de données – data mining.

Introduction à la science de données

Objectifs de l’exploration des données
Approches de l’apprentissage automatique : supervisé, non supervisé et semi supervisé.
Données prétraitées vs données brutes
Matériels : CPU vs GPU
Logiciels spécialisés : Jupyter notebook, Spyder, Python, Pycharm
Bibliothèques à source ouverte disponibles : Numpy, Pandas, SciPy, Matplotlib
Applications de la science de données
- Vision par ordinateur : reconnaissance faciale, analyse d’images médicale, télédétection.
- Traitement naturel du langage
- Reconnaissance automatique de la parole
- Robotique

Langage de programmation Python : partie 1

Langage de programmation Python : partie 2

Analyse des données de type image et texte

Analyse des données de type image : Sources, extraction, préparation, visualisation des images.
Bibliothèques pour la préparation et la manipulation des images.
Analyse des données de type texte : Sources, normalisation du texte, vectorisation des mots (word embedding).
Application en vision par ordinateur
Application en traitement automatique du langage naturel

Apprentissage machine : apprentissage supervisé

Étapes d’un algorithme d’apprentissage supervisé : préparation des données, ingénierie des caractéristiques, choix de l’algorithme, teste et validation
Algorithmes d’apprentissage supervisé : Classification Bayésienne, Réseaux de neurones artificiels, Machine à vecteurs de support (SVM), Arbre de décision.
Application des algorithmes d’apprentissage supervisé : Vision par ordinateur, Reconnaissance de formes, Reconnaissance vocale, Traitement automatique du langage.

Apprentissage machine : apprentissage non supervisé

Étapes d’un algorithme d’apprentissage non supervisé : préparation des données, choix de l’algorithme, métriques d’évaluation, teste et validation.
Algorithmes d’apprentissage non supervisé ; K-means, Réduction de la dimensionnalité, Analyse de la composante principale, Réseaux de neurones artificiels.
Application des algorithmes d’apprentissage non supervisé : Détection des anomalies, le regroupement, réduction de la dimensionalité.

Analyse des données massives (Big data)

Données massives : disponibilité des données, données structurées vs non structurées, capacité de stockage et d’analyse.
Propriétés des données massives : Volume, Vélocité et Variété.
Outils des données massives :
- Systèmes d’orchestration (Kubernetes, Docker swarm)
- Traitement distribué (Apache Spark)
- Stockage distribué (Apache Hadoop)
- Bases de données (SQL vs No SQL)
Application des données massives : Apprentissage machine, science et recherche, détection des fraudes, santé, IoT.

Connaissances de base en programmation et mathématiques de base.