Passer au contenu
24 h

Gestion de données

2$/h – Science des données (datascience) – Niveau 1 (anglais)

Objectif:

Ce cours est le premier d’une série de trois cours portant sur la science des données. Le cours initiera le participant aux concepts d’extraction, de transformation et de chargement de données à l’aide du langage Python et du module Pandas.

Le cours explorera également les concepts de stockage de données dans des bases de données relationnelles (SQL), de l’utilisation d’API, de JSON et de moissonnage Web de base. Au-delà des concepts ETL (extraction, transformation et chargement de données), le cours présentera également les bases de la visualisation des données et des concepts statistiques. Le cours se conclura par une initiation à la régression linéaire simple et au partitionnement en k-moyennes.

Contenu:

Sujets couverts dans ce cours

  • Initiation aux processus ETL et à la préparation préalable des données (data wrangling) en utilisant Python
  • Utilisation du module Pandas pour explorer les données
  • Utilisation des bases de données et de SQL
  • Initiation aux API
  • Initiation au moissonnage statique du Web
  • Initiation à la visualisation des données à l’aide de Matplotlib
  • Aperçu de la régression linéaire simple et des techniques de partitionnement en k-moyennes

Préalables

Avoir une expérience en programmation Python.

Ce cours est un cours intensif de programmation. Les participants doivent être à l’aise avec les commandes de la programmation et le travail avec les fichiers (ouverture, lecture, écriture de fichiers textes) La connaissance des conditionnels, des boucles, des fonctions, de l’indexation, du découpage, des listes, des dictionnaires et des tableaux est essentielle.