Blogue

Restez à jour dans le monde de la visualisation de données avec nous

Check-list : contrôlez la qualité d’une base de données

La qualité d’une base de données est primordiale. Avant d’entamer un projet autour de vos données et d’utiliser les bases de données, internes ou externes, que vous avez à disposition, il est important de commencer par les examiner.

Si les données sont tronquées, inexactes ou dans des formats variables le résultat que vous obtiendrez sera erroné et vous aurez perdu du temps et de l’argent.

EconomiQ par 04h11

Exemple d’un projet réalisé par 04h11 nommé EconomiQ

Utilisez cette check-list afin de vous assurer de la qualité d’une base de données avant de l’utiliser.

  • Certaines données sont manquantes : votre base de données comporte des zéros ou séries de zéros, des “null” ou tout simplement des cases vides. Parfois une donnée manquante est une donnée en tant que telle, dans d’autres cas c’est une erreur. Pour chaque situation, il faut donc se demander ce que signifie cette absence de donnée.
  • Certaines données, lignes ou colonnes sont en double.
  • La base de données comporte des fautes d’orthographe : c’est une erreur très commune notamment si les données ont été entrées par des humains. Vérifiez également que les mêmes termes sont toujours orthographiés de la même manière.
  • Le format des données est variable : il est important de vérifier que vos données sont toujours au même format, notamment les dates, les adresses, les numéros de téléphone et les noms.
  • Les unités sont manquantes
  • Certaines données sont suspicieuses : il faut se méfier de certaines données comme une suite de “0” ou de “9” ; “123456”
  • Votre chiffrier comporte 65 536 rangs : ce fût longtemps le nombre maximal de rang autorisé par Excel, cela peut donc vouloir dire que vos données sont tronquées.
  • Quelle est la source des données ? Les données seront à envisager de différentes manières selon leur provenance : leur source est-elle fiable ? Comment ont-elles été collectées ? Ont-elles été manuellement éditées ou modifiées ? À quand remonte leur dernière modification ?
  • Le libellé de la colonne est manquant : des données sont stockées, mais elles ne sont pas attachées à un libellé. Les données sont donc difficilement exploitables par la suite.
  • Les données présentent une subite variation : si les données sont collectées automatiquement, avant d’imaginer les raisons d’une hausse ou d’une baisse, assurez-vous qu’il n’y a pas eu de problème dans la collecte des données. Les principales raisons sont un changement d’API, une panne serveur ou s’il s’agit d’une collecte manuelle, un arrêt maladie, un remplacement ou encore un congé.

Lorsque vous examinez une base de données, faites confiance en votre intuition. Si quelque chose vous semble anormal, n’hésitez pas à en rechercher les raisons et à demander l’aide d’un expert.

Source : The Quartz Guide to bad data