Redash : l’outil de visualisation pour les analystes SQL

Vous pouvez facilement stocker la donnée et la manipuler. Mais comment restituer ces résultats au travers d’un dashboard ?
Pour répondre à ce besoin, Redash, projet avec une forte communauté open source, a rejoint la famille de Databricks début 2020.
Un outil interactif de dashboarding
Avec Redash, Databricks complète son offre de Lakehouse en proposant un outil interactif de dashboarding pour les utilisateurs SQL.
Redash permet de :
- créer des requêtes SQL via un éditeur avec autocomplétion ;
- visualiser les résultats de ces requêtes ;
- construire tout type de visualisation (chart, pie, map etc.) ;
- assembler et partager ces requêtes sur des dashboards partageables au sein de l’entreprise pour tout type de use-case (financier, business, technique) ;
- requêter n’importe quelle source de données (spark, mysql, postgre, no-sql database etc.) ;
- créer des alertes sur la base de ces requêtes.
Etudions cela de plus près !
Pour notre exemple, nous allons explorer une table de petite taille contenant des statistiques COVID situées dans un workspace Azure Databricks.
Après nous être inscrits sur le site de Redash ou avoir installé la version locale (en attendant l’intégration native avec Databricks), nous voilà prêts à l’utiliser.
Connexion à Azure Databricks
La connexion à Azure Databricks est aisée grâce au connecteur natif :
Sur notre workspace Azure Databricks, nous devons créer un Personal Access Token et récupérer les informations Server Host Name et HTTP Path de Advanced Options/JDBC/ODBC du cluster :
Renseignons ces informations dans le connecteur Databricks :
Création de la requête dans Redash
Une fois le cluster Databricks allumé, on peut créer une requête dans Redash via Create/New Query.
Pour les utilisateurs des éditeurs SQL, on retrouve un univers familier au niveau de l’éditeur par rapport à SSMS par exemple :
Attention, le langage de la requête est le langage SPARK SQL, donc par exemple, pour avoir 10 lignes de résultats, on utilise LIMIT 10 au lieu de TOP 10 de T-SQL.
Une fois la requête enregistrée, pour avoir les données à jour, on peut créer un refresh en cliquant sur Refresh Schedule en bas à droite :
Créons un rafraichissement automatique une fois par jour jusqu’au 3 novembre à minuit quinze :
Le refresh est bien créé :
Tips : cela nous sera utile pour les alertes 😃.
Création d’un graphique pour visualiser les données
Pour visualiser les données, un graphique de type Map correspond à notre besoin : on le sélectionne grâce au bouton +Add Visualization à côté de l’onglet Table :
Nos données peuvent aussi être représentées différemment via un graphe de type Bar :
En sauvegardant ces visualisations, on les utilisera pour créer un Dashboard.
Création d’un rapport
Après avoir cliqué sur Create/New Dashboard, ajoutons nos visualisations créées précédemment :
Et voilà, le tour est joué : le rapport réunit l’ensemble des graphes et la table !
Création d’une alerte
Redash possède un moteur d’alerting pouvant être utile selon les besoins. Pour créer une alerte, il suffit de cliquer sur Create/New Alert et de remplir les conditions :
Pour le test, nous créons une alerte qui se déclenche quand le seuil des cas COVID dépasse 1000. L’analyse de cette condition sera effectuée à chaque refresh de la requête.
Voici le résultat de l’évaluation :
Et le mail d’alerte reçu formaté par défaut :
Notre avis sur Redash
Après une première manipulation, voici nos impressions sur cet outil de visualisation :
- Redash est un outil très intuitif avec une prise en main rapide. Les analystes SQL retrouvent un univers familier pour l’éditeur de requête.
- En très peu de temps, on peut explorer, visualiser la donnée et créer un dashboard.
- La simplicité du module d’alertes peut se révéler très utile.
Notons toutefois que le temps entre les chargements de pages est assez long quand on utilise la version web.
C’est un outil clairement à destination des analystes SQL qui ne vise pas à se substituer à PowerBI. Si votre SI possède PowerBI, vous n’aurez pas besoin d’un Redash : si on est à l’aise avec PowerBI, on aura déjà tous ces services.
En revanche, si vous souhaitez explorer rapidement votre donnée sans vous lancer dans PowerBI, Redash sera un atout de taille. D’autant plus qu’avec le rachat de Redash par Databricks, on peut imaginer une évolution des produits. Vivement les annonces du Data/AI Summit (ancien Spark Summit) 😊
Dans cet article, nous avons abordé des éléments assez simples. On peut avoir plus de complexité dans les requêtes, comme par exemple en créant des vues, de multiple sous requêtes ou agrégeant des données à partir de deux data sources différentes. N’hésitez pas à suivre notre blog : un prochain article vous apprendra comment faire !
✍️ Cet article a été co-rédigé par Larysa Sudas (Cellenza) et Quentin Ambard (Databricks)