Les données temps réel de l’épidémie de Coronavirus mises à disposition des data scientists

Les données temps réel de l'épidémie de Coronavirus mises à disposition des data scientists Je suis un spécialiste des données et, si vous lisez ceci, vous l’êtes probablement aussi. J’aime être informé et garder le contrôle sur les situations. Les données m’aident dans le premier cas et me donnent au moins l’illusion d’atteindre le second. Bien que la crise du Coronavirus/COVID-19 crée la peur, les chiffres à ce sujet et leur analyse permet une meilleure compréhension de l’épidémie.

publicité

L’université Johns Hopkins fournit des données sur le Coronavirus

Dans cette optique, vous savez peut-être que le Center for Systems Science and Engineering (CSSE) de l’université Johns Hopkins (JHU) tient un tableau de bord constamment mis à jour de la propagation du virus, sur la base du nombre de cas officiellement signalés dans le monde entier, et illustrés dans la figure ci-dessus. Bien que ce tableau de bord soit utile en soi, il peut être un peu délicat d’extraire les données de la base de données GitHub de Hopkins pour faire sa propre analyse.C’est pour ce faire que Tableau a examiné ces données, a effectué son propre travail d’ingénierie des données et d’ETL et a publié les résultats de cet effort sous le nom de COVID-19 Data Resource Hub. Sur le site du centre de ressources, les données consolidées sont disponibles dans les formats .hyper et .tde de Tableau, ainsi que dans les formats Google Sheet et CSV, ce qui les rend compatibles avec les outils de BI autres que Tableau.

Tableau rend les données plus accessibles

Vendredi, je me suis entretenu avec Steve Schwartz et Sarah Goehri, tous deux de Tableau. Chacun d’entre nous travaillant à domicile et se parlant au moyen de casques et de webcams, Steve Schwartz m’a expliqué qu’avec la création de la Fondation Tableau, la société a désormais l’habitude de travailler avec des ensembles de données sur des sujets de santé mondiale (plus d’informations à ce sujet ici). Pour cette raison, et parce qu’elle a trouvé les données de santé brutes sur le Coronavirus difficiles à utiliser, Tableau a décidé de faire le travail d’ingénierie des données et de rendre les données disponibles à tous.

Tableau a publié un “tableau de bord pour les débutants” assez simple basé sur les données et l’a mis à disposition sur Tableau Public. Il a également mis à disposition les versions .hyper, .tde et CSV de son dataset par le biais de la plateforme de catalogue de données en ligne data.world. Bien que cela crée une “étape supplémentaire” pour accéder aux données, l’accès est encore relativement simple et améliore leur disponibilité sur toutes les plateformes – et pas seulement sur Tableau. Cela facilite également la collaboration et la discussion autour de l’utilisation de l’ensemble de données lui-même, ce sur quoi data.world se concentre explicitement.

Choisir un catalogue avec data.world

Lorsque vous visitez le dépôt de données data.world pour la version des données Tableau du Coronoavirus JHU, vous devez vous connecter. Si vous n’avez pas encore de compte data.world, vous pouvez vous connecter via Google, Facebook, GitHub ou Twitter, puis changer le mot de passe de votre compte data.world pour un mot de passe unique et sécurisé.

Une fois cela fait, vous pouvez activer l’intégration avec votre plateforme de BI via l’option “Open in App”, puis utiliser le connecteur data.world pour l’une des plateformes prises en charge (y compris Microsoft Power BI, Excel, MicroStrategy, Google Data Studio, Plot.ly, Jupyter notebooks, RStudio et bien d’autres) pour accéder aux données. Ce processus de connexion vous demandera de fournir des identifiants et des informations de requête.

Comme mes propres compétences en matière de Microsoft Power BI sont beaucoup plus étendues que sur d’autres outils, j’ai choisi d’analyser les données via cet outil. Power BI Desktop est disponible en téléchargement gratuit et comprend un connecteur data.world ebn version bêta. Power BI Desktop fonctionne uniquement sous Windows, bien qu’il puisse être hébergé dans d’autres systèmes d’exploitation via certaines plateformes de virtualisation. (Par exemple, les utilisateurs de Mac peuvent exécuter Power BI Desktop en utilisant Parallels).

Mesures, dimensions et granularité

Une fois que vous êtes connecté aux données, vous verrez que leur schéma est relativement simple. La granularité des données se situe au niveau de la date, par zone géographique – soit pays_region ou, pour certains pays, province_state (dans certains cas, la granularité peut descendre encore un peu plus bas – voir détails ci-dessous).

Les mesures de l’ensemble de données sont les “cas” et les “différences”, qui fournissent les totaux cumulés et quotidiens des cas, respectivement, par jour, pour chaque region géographique suivie. Case_type est une dimension importante, car elle vous permet de filtrer ou de ventiler par cas actifs, décès, récupérations et total des cas confirmés. Pour éviter un double comptage, vous devez soit ne regarder que les cas confirmés, soit ne regarder qu’un seul ou tous les autres types (puisque les lignes avec les cas “confirmés” représentent essentiellement la somme des lignes correspondantes avec case_type de “Actif”, “Décès” et “Récupéré”).

Les noms de pays_region et de province_state vous permettront de cartographier les données, mais si vous préférez ne pas utiliser de noms de lieux, les colonnes “lat” et “long” fournissent des données de latitude et de longitude qui peuvent également être utilisées. Une autre colonne, simplement appelée “localisation”, fournit des données lat/long au format POINT (long, lat). La colonne “last_date” indique les données les plus récentes de l’ensemble de données et la colonne “prep_flow_runtime” semble fournir la date et l’heure auxquelles le processus de préparation des données du tableau a été exécuté.

Étonnamment, j’ai constaté que l’utilisation du format lat/long fournit parfois plusieurs points de données par province_state, comprenant apparemment un point de données générique et pour l’ensemble de la zone ainsi que quelques points plus spécifiques à un lieu, ces derniers ayant souvent un nombre de cas nul ou relativement faible. Je conseille de faire preuve de prudence quant à cette caractéristique de la granularité de l’ensemble de données.

Visualisation des données

Une fois que vous vous êtes connecté et que vous avez chargé les données, leur visualisation est relativement simple. J’ai filtré les données pour exclure les lignes avec case_type = Confirmed afin de pouvoir effectuer une analyse sur les données avec les valeurs de case_type de Actif, Décès et Guéris.

Source : “ZDNet.com”

Leave a Reply

Discover more from Ultimatepocket

Subscribe now to keep reading and get access to the full archive.

Continue reading