Passer au contenu
24 h

Informatique

5$/h – Sciences des données (datascience) – Niveau 1

Objectif général:

Acquérir des compétences pratiques en science des données (data science) et plus spécifiquement, en fouilles de données – data mining.

Contenu du cours:

Introduction à la science de données

  • Objectifs de l’exploration des données
  • Approches de l’apprentissage automatique : supervisé, non supervisé et semi supervisé.
  • Données prétraitées vs données brutes
  • Matériels : CPU vs GPU
  • Logiciels spécialisés : Jupyter notebook, Spyder, Python, Pycharm
  • Bibliothèques à source ouverte disponibles : Numpy, Pandas, SciPy, Matplotlib
  • Applications de la science de données
    • Vision par ordinateur : reconnaissance faciale, analyse d’images médicale, télédétection.
    • Traitement naturel du langage
    • Reconnaissance automatique de la parole
    • Robotique 

Langage de programmation Python : partie 1

  • Variable et affichage
  • Structures des données et structures algorithmiques
  • Fonctions, classes.

Langage de programmation Python : partie 2

  • La bibliothèque Numpy
  • La bibliothèque Panda
  • La bibliothèque Matplotlib

Analyse des données de type image et texte

  • Analyse des données de type image : Sources, extraction, préparation, visualisation des images.
  • Bibliothèques pour la préparation et la manipulation des images.
  • Analyse des données de type texte : Sources, normalisation du texte, vectorisation des mots (word embedding).
  • Application en vision par ordinateur
  • Application en traitement automatique du langage naturel

Apprentissage machine : apprentissage supervisé

  • Étapes d’un algorithme d’apprentissage supervisé : préparation des données, ingénierie des caractéristiques, choix de l’algorithme, teste et validation
  • Algorithmes d’apprentissage supervisé : Classification Bayésienne, Réseaux de neurones artificiels, Machine à vecteurs de support (SVM), Arbre de décision.
  • Application des algorithmes d’apprentissage supervisé : Vision par ordinateur, Reconnaissance de formes, Reconnaissance vocale, Traitement automatique du langage.

Apprentissage machine : apprentissage non supervisé

  • Étapes d’un algorithme d’apprentissage non supervisé : préparation des données, choix de l’algorithme, métriques d’évaluation, teste et validation.
  • Algorithmes d’apprentissage non supervisé ; K-means, Réduction de la dimensionnalité, Analyse de la composante principale, Réseaux de neurones artificiels.
  • Application des algorithmes d’apprentissage non supervisé : Détection des anomalies, le regroupement, réduction de la dimensionalité.

Analyse des données massives (Big data)

  • Données massives : disponibilité des données, données structurées vs non structurées, capacité de stockage et d’analyse.
  • Propriétés des données massives : Volume, Vélocité et Variété.
  • Outils des données massives :
    • Systèmes d’orchestration (Kubernetes, Docker swarm)
    • Traitement distribué (Apache Spark)
    • Stockage distribué (Apache Hadoop)
    • Bases de données (SQL vs No SQL)
  • Application des données massives : Apprentissage machine, science et recherche, détection des fraudes, santé, IoT.

Préalables

Connaissances de base en programmation et mathématiques de base.