Vous pouvez facilement stocker la donnée et la manipuler. Mais comment restituer ces résultats au travers d’un dashboard ?

Pour répondre à ce besoin, Redash, projet avec une forte communauté open source, a rejoint la famille de Databricks début 2020.

 

Un outil interactif de dashboarding

Avec Redash, Databricks complète son offre de Lakehouse en proposant un outil interactif de dashboarding pour les utilisateurs SQL.

Redash permet de :

  • créer des requêtes SQL via un éditeur avec autocomplétion ;
  • visualiser les résultats de ces requêtes ;
  • construire tout type de visualisation (chart, pie, map etc.) ;
  • assembler et partager ces requêtes sur des dashboards partageables au sein de l’entreprise pour tout type de use-case (financier, business, technique) ;
  • requêter n’importe quelle source de données (spark, mysql, postgre, no-sql database etc.) ;
  • créer des alertes sur la base de ces requêtes.

Etudions cela de plus près !

Pour notre exemple, nous allons explorer une table de petite taille contenant des statistiques COVID situées dans un workspace Azure Databricks.

Après nous être inscrits sur le site de Redash ou avoir installé la version locale (en attendant l’intégration native avec Databricks), nous voilà prêts à l’utiliser.

 

Connexion à Azure Databricks

La connexion à Azure Databricks est aisée grâce au connecteur natif :

Connecteur natif Azure Databricks

Sur notre workspace Azure Databricks, nous devons créer un Personal Access Token et récupérer les informations Server Host Name et HTTP Path de Advanced Options/JDBC/ODBC du cluster :

Cluster Azure Databricks

Renseignons ces informations dans le connecteur Databricks :

Informations connecteur Databricks

 

Création de la requête dans Redash

Une fois le cluster Databricks allumé, on peut créer une requête dans Redash via Create/New Query.

Pour les utilisateurs des éditeurs SQL, on retrouve un univers familier au niveau de l’éditeur par rapport à SSMS par exemple :

Création requête dans Redash

Attention, le langage de la requête est le langage SPARK SQL, donc par exemple, pour avoir 10 lignes de résultats, on utilise LIMIT 10 au lieu de TOP 10 de T-SQL.

Une fois la requête enregistrée, pour avoir les données à jour, on peut créer un refresh en cliquant sur Refresh Schedule en bas à droite :

Refresh schedule Databricks

Créons un rafraichissement automatique une fois par jour jusqu’au 3 novembre à minuit quinze :

Rafraichissement automatique Databricks

Le refresh est bien créé :

Refresh Databricks

Tips : cela nous sera utile pour les alertes 😃.

 

Création d’un graphique pour visualiser les données

Pour visualiser les données, un graphique de type Map correspond à notre besoin : on le sélectionne grâce au bouton +Add Visualization à côté de l’onglet Table :

Visualisation des données sur un graphique de type map

Visualisation des données à l'aide d'un graphique de type map

Nos données peuvent aussi être représentées différemment via un graphe de type Bar :

Databricks Visualisation des données dans un graphique de type bar

En sauvegardant ces visualisations, on les utilisera pour créer un Dashboard.

 

Création d’un rapport

Après avoir cliqué sur Create/New Dashboard, ajoutons nos visualisations créées précédemment :

Et voilà, le tour est joué : le rapport réunit l’ensemble des graphes et la table !

Dashboard de visualisation des données

 

Création d’une alerte

Redash possède un moteur d’alerting pouvant être utile selon les besoins. Pour créer une alerte, il suffit de cliquer sur Create/New Alert et de remplir les conditions :

Création d'une alerte sur Redash

Pour le test, nous créons une alerte qui se déclenche quand le seuil des cas COVID dépasse 1000. L’analyse de cette condition sera effectuée à chaque refresh de la requête.

Voici le résultat de l’évaluation :

Résultat évaluation alerte Redash

Et le mail d’alerte reçu formaté par défaut :

Mail d'alerte formaté par défaut Redash

 

Notre avis sur Redash

Après une première manipulation, voici nos impressions sur cet outil de visualisation :

  • Redash est un outil très intuitif avec une prise en main rapide. Les analystes SQL retrouvent un univers familier pour l’éditeur de requête.
  • En très peu de temps, on peut explorer, visualiser la donnée et créer un dashboard.
  • La simplicité du module d’alertes peut se révéler très utile.

Notons toutefois que le temps entre les chargements de pages est assez long quand on utilise la version web.

C’est un outil clairement à destination des analystes SQL qui ne vise pas à se substituer à PowerBI. Si votre SI possède PowerBI, vous n’aurez pas besoin d’un Redash : si on est à l’aise avec PowerBI, on aura déjà tous ces services.
En revanche, si vous souhaitez explorer rapidement votre donnée sans vous lancer dans PowerBI, Redash sera un atout de taille. D’autant plus qu’avec le rachat de Redash par Databricks, on peut imaginer une évolution des produits. Vivement les annonces du Data/AI Summit (ancien Spark Summit) 😊

Dans cet article, nous avons abordé des éléments assez simples. On peut avoir plus de complexité dans les requêtes, comme par exemple en créant des vues, de multiple sous requêtes ou agrégeant des données à partir de deux data sources différentes. N’hésitez pas à suivre notre blog : un prochain article vous apprendra comment faire !

 

✍️ Cet article a été co-rédigé par Larysa Sudas (Cellenza) et Quentin Ambard (Databricks)

 

Assurer la réussite des projets data : les 7 clefs du succès