Passer au contenu
24 h

Informatique

2$/h – Sciences des données (datascience) – Niveau 1

Objectif général:

Cette formation pratique vise à acquérir les notions de base en sciences des données et plus spécifiquement en fouilles de données – data mining. À la fin de ce cours, les étudiants seront capables de mettre en place un processus de fouille de données selon un besoin exprimé, en langage Python, en réalisant un projet intégrateur. Décrire et exécuter le processus de fouille de données. Appliquer une technique descriptive et une technique prédictive.

Contenu du cours:

Introduction à la science de données

  • Objectifs de l’exploration des données
  • Approches de l’apprentissage automatique : supervisé, non supervisé et semi supervisé.
  • Données prétraitées vs données brutes
  • Matériels : CPU vs GPU
  • Logiciels spécialisés : Jupyter notebook, Spyder, Python, Pycharm
  • Bibliothèques à source ouverte disponibles : Numpy, Pandas, SciPy, Matplotlib
  • Applications de la science de données
  • Vision par ordinateur : reconnaissance faciale, analyse d’images médicale, télédétection.
  • Traitement naturel du langage
  • Reconnaissance automatique de la parole
  • Robotique 

Langage de programmation Python : partie 1

  • Variable et affichage
  • Structures des données et structures algorithmiques
  • Fonctions, classes.

Langage de programmation Python : partie 2

  • La bibliothèque Numpy
  • La bibliothèque Panda
  • La bibliothèque Matplotlib

Analyse des données de type image et texte

  • Analyse des données de type image : Sources, extraction, préparation, visualisation des images.
  • Bibliothèques pour la préparation et la manipulation des images.
  • Analyse des données de type texte : Sources, normalisation du texte, vectorisation des mots (word embedding).
  • Application en vision par ordinateur
  • Application en traitement automatique du langage naturel

Apprentissage machine : apprentissage supervisé

  • Étapes d’un algorithme d’apprentissage supervisé : préparation des données, ingénierie des caractéristiques, choix de l’algorithme, teste et validation
  • Algorithmes d’apprentissage supervisé : Classification Bayésienne, Réseaux de neurones artificiels, Machine à vecteurs de support (SVM), Arbre de décision.
  • Application des algorithmes d’apprentissage supervisé : Vision par ordinateur, Reconnaissance de formes, Reconnaissance vocale, Traitement automatique du langage.

Apprentissage machine : apprentissage non supervisé

  • Étapes d’un algorithme d’apprentissage non supervisé : préparation des données, choix de l’algorithme, métriques d’évaluation, teste et validation.
  • Algorithmes d’apprentissage non supervisé ; K-means, Réduction de la dimensionnalité, Analyse de la composante principale, Réseaux de neurones artificiels.
  • Application des algorithmes d’apprentissage non supervisé : Détection des anomalies, le regroupement, réduction de la dimensionalité.

Analyse des données massives (Big data)

  • Données massives : disponibilité des données, données structurées vs non structurées, capacité de stockage et d’analyse.
  • Propriétés des données massives : Volume, Vélocité et Variété.
  • Outils des données massives :
  • Systèmes d’orchestration (Kubernetes, Docker swarm)
    Traitement distribué (Apache Spark)
    Stockage distribué (Apache Hadoop)
    Bases de données (SQL vs No SQL)
  • Application des données massives : Apprentissage machine, science et recherche, détection des fraudes, santé, IoT.

Préalables

Connaissances de base en programmation et mathématiques de base.