Blogue

Restez à jour dans le monde de la visualisation de données avec nous

Le Cycle des données : de la collecte à la visualisation

Cette neuvième édition du VISQuébec qui avait pris place au Camp le 19 Juin 2017. Toujours organisée par 04h11 et  la Chambre Blanche en partenariat avec Québec Numérique, la conférence avait pour thème le “Cycle des données : de la collecte à la visualisation”.

 

Quel est le défi pour les entreprises aujourd’hui ?

 

Eliot Jacquin, fondateur de 04h11, a ouvert la conférence sur les perspectives et enjeux des entreprises avec la visualisation de données, en introduisant le concept de “Carré magique de la visualisation de données”.

 

Le carré magique de la visualisation de données : collecter, organiser, interpréter et raconter

Le carré magique de la visualisation de données : collecter, organiser, interpréter et raconter

 

Selon le créateur de l’agence spécialiste des données à Québec, il y a actuellement 3 défis auxquels font face les entreprises.

 

– Le premier défi : comment trouver les bonnes données ? Il est toujours compliqué de cibler et identifier quelles sont les données claires et partageables.

Pour cela, 5 conseils applicables à toutes entreprises :

  • Tolérer l’imperfection de vos données
  • Commencer petit dans votre analyse
  • Rester aligné avec les stratégies organisationnelles
  • Viser le descriptif avant de se lancer dans le prédictif
  • Bien tester avant de publier vos données.

 

– Le second défi : connaître les objectifs de chacun. Pour cela, Eliot Jacquin préconise de faire un état des lieux de la situation de votre entreprise : qui sont les utilisateurs ? Comment utilisent-ils les données ? Dans quel but ? 04h11 a développé un outil de pré-audit (le Data-Score) qui pourrait vous aider dans cette phase de votre projet.

 

– Le dernier défi : visualiser simplement. Comment passer de la donnée brute à une information pertinente ? Pour cela, il faut de rendre ces dernières accessibles, simples et ludiques par le biais de site web interactif ou de tableau de bord par exemple.

 

Comment automatiser la création de rapports de données à l’aide d’API et de PhantomJS ?

 

Le second intervenant était Frédéric Roussel, directeur technique de 04h11. Ce dernier a voulu expliquer à l’audience comment utiliser les API et le PhantomJS pour générer des rapports automatiquement. Après une courte introduction sur son expertise, Frédéric Roussel a ciblé les nombreux problèmes qu’il a pu rencontrer lors de ses expériences professionnelles avec les clients : décalage générationnel et technologique, travaux sur Excel, dashboard peu ergonomique etc…

Puis, il a exposé les pré-requis pour avoir une génération de PDF efficace comme produire des rapports attractifs avec des formes variées et adaptées (sous D3.js), avoir un gabarit standard et créer des PDFs accessibles à tous et pour tous (pour plus d’informations, veuillez consulter l’une de nos solutions : http://04h11.com/products/report)

En dehors des diverses technologies spécifiques utilisées, il y a aussi des étapes propres à 04h11 pour la création de dashboards interactif : la récupération des données (requête SQL, prélèvement de fichiers CSV et XLSX), le traitement des données (via la technologie Ruby on Rails ou PHP) et enfin la mise en page des données (bibliothèques JavaScript et D3.js ou encore du jQuery).

 

Schéma récapitulatif d'une génération automatique des PDF

Schéma récapitulatif d’une génération automatique des PDF

 

Enfin, Frédéric a fini son intervention sur les différentes étapes de créations d’un rapport PDF automatique. Tout d’abord, les technologies utilisées sont du PhantomJS, Node.js et du Wicked PDF.

1/ La première étape est la demande d’impression via un dépôt de parcours réalisé en JSON dans un file bucket.

2/ Le nouveau parcours est détecté.

3/ Le parcours est ensuite transmis au back-office pour la génération de graphs.

4/ Les graphs générés sont déposés sous forme de JPEG directement le file bucket.

5/ Le moteur de génération de PDF commence sa génération après avoir détecté les graphs.

6/ Il y a ensuite un dépôt de fichier PDF généré dans le file bucket.

7/ Le dashboard est prévenu que le PDF est prêt à être téléchargé.

 

Un exemple de rapport PDF généré automatiquement réalisé par 04h11

Voici un exemple de rapport PDF généré automatiquement réalisé par 04h11

 

L’acquisition et la transformation des données


Les deux derniers intervenants furent Samuel Cossette et Guillaume Carbonneau, fondateurs d’Adventice. Ces derniers ont voulu montrer comment les entreprises acquièrent et transforment leurs données.

Tout d’abord, il faut savoir que 80 % des spécialistes de données passent près de 80 % de leur temps à acquérir et transformer de l’information. Les données proviennent de plusieurs sources :  elles peuvent être structurées (fichiers Excel, XML ou autres bases de données), dites rendues (en provenance de formulaires ou d’annuaires en ligne par exemple) ou tout simplement physiques. Ensuite, il y a différents moyens d’acquérir ces données selon les sources. Pour les données structurées, il peut y avoir plusieurs sites internet d’Open-Data, comme les sites gouvernementaux par exemple. Pour ce qui est des données dites ‘rendues” cela peut être par des robots qui auront pioché et rassemblé plusieurs données en un seul point pour les fournir sur demande. Et enfin pour les données physiques, accessibles soit par l’achat ou sur demande respectant les lois de confidentialité.

Adventice est spécialisée dans le deuxième item à savoir le prélèvement des données par des “robots”. Mais comment cela fonctionne ?

 

Le processus et le flux des données respectent aussi un schéma très précis. Pour venir prélever des données dans un site d’open-data, il y en a 4 distinctes et très importantes :

  • La structuration de la donnée brute qui doit respecter un certain format et qui sera compilée dans un fichier JSON.
  • La modélisation de l’information consiste condenser toutes les données récupérées en un seul fichier JSON unique à partir de diverses données. Ce fichier peut ensuite être décliné en plusieurs JSON spécifiques. Comme par exemple un fichier lobbying.json peut être décliné en personne.json (avec le nom des différentes personnes venant de lobby), adresse.json (leur adresse) etc…
  • Il y a bien entendu une phase de test pour tester la stabilité lors des requêtes pour valider la structuration et le format du JSON.
  • Et enfin il y a republication des données sous forme d’API ou de PDF par exemple, grâce à de nombreuses technologies (Elasticsearch, PostgreSQL, Neo4j ou encore Apache Spark).

 

Pour en savoir un peu plus sur le détail de la conférence, nous vous invitons à regarder cette vidéo : 

f