Big Data ou données massives, une définition en un clic

Spread the love

Le Big Data, ou mégadonnées, est le terme désignant les très gros volumes de données dont disposent les organisations au sein de leur SI. Hétérogènes et collectées en continu, ces données restent souvent à valoriser.

Big Data ou données massives, une définition en un clic

Avec l’accélération de la digitalisation, le volume de données généré chaque année progresse à un rythme effréné. En 2018, IDC estimait ces données à 33 zettaoctets (Zo). Mais l’étude Data Age 2025 prévoit que ce chiffre atteindra 175 Zo, ou 175 milliards de téraoctets, d’ici 2025. La promesse du Big Data et de ses technologies, c’est donc de permettre le stockage et le traitement de ces données pour en tirer de la valeur pour l’entreprise.

Toutefois, les catégories de données sont très diverses. En effet, est associée au concept de Big Data la règle des 3V – voire aussi des 4V ou des 5V. Au départ, le Big Data se décrit au travers de trois caractéristiques que sont le volume, la variété et la vitesse.

publicité

Les 3V du Big Data

Ainsi, les données sont collectées massivement. Elles sont également hétérogènes, car pouvant être de nature structurée, semi-structurée ou non structurée. Quant à la vitesse ou vélocité, elle désigne à la fois la rapidité de création de ces données (grâce à l’IoT notamment), mais aussi de leur traitement, qui peut aller jusqu’au temps réel.

Des experts ont depuis complété cette liste des 3V pour y intégrer les notions de volatilité et de validité. Si le Big Data est la science de l’exploitation des données, encore faut-il que les données soient toujours exploitables, c’est la volatilité, mais aussi de qualité (Validity). Ces caractéristiques complémentaires sont intervenues pour corriger les errements des premiers projets Big Data.

Au départ, les entreprises collectaient et déversaient des masses de données en considérant que leur traitement permettrait naturellement d’extraire des informations précieuses ou “insights”. Les lacs de données ou datalakes ont alors fleuri… pour déboucher dans bien des cas sur des Data Swamps, des marécages de données.

Du Data Lake au Data Swamp

Stocker des volumes croissants de données ne suffit pas pour dégager de la valeur, et ce malgré l’apparition de technologies d’infrastructure à même de traiter le Big Data. L’ère du Big Data est ainsi marquée par l’émergence de solutions comme Hadoop, mais aussi les bases NoSQL et les systèmes de calcul distribué Spark.

Mais les technologies ne sont qu’un volet des projets Big Data. Il importe également de définir une gouvernance des données, de disposer de compétences et surtout d’identifier des cas d’usage précis. Entre 2010 et 2015, les investissements dans le Big Data aboutissaient par conséquent majoritairement sur des PoC, des expérimentations.

En 2015, Gartner estimait ainsi que près des deux tiers des projets Big Data ne franchissaient pas le stade du pilote et étaient finalement abandonnés à terme. Les organisations ont depuis gagné en maturité, en particulier en ce qui concerne les cas d’application métier des données. Pour cela, elles ont dû au préalable acculturer en interne afin de développer une culture des données et des usages possibles.

Des cas d’usage métier pour la Data

Le Big Data ne présente un intérêt pour une entreprise ou un métier que si les données disponibles sont exploitables dans le cadre d’un projet bien défini. Il pourra par exemple s’agir de collecter et traiter les données de fonctionnement d’un outil industriel dans le but de prévenir les pannes et donc des arrêts de production. C’est la finalité de la maintenance prédictive.

Les croisements de données et les historiques interviendront pour détecter les signaux faibles suggérant une panne. Les interventions de maintenance pourront être planifiées au mieux pour accroître la disponibilité de l’outil de production.

Le Big Data trouve aussi de nombreux usages dans les domaines du marketing et de la relation client. Les données sont exploitées pour identifier les clients les plus susceptibles de résilier leur contrat. C’est le churn, ou l’attrition. L’analyse des données comportementales joue un rôle dans la lutte contre l’attrition. Mais elle contribue aussi à la personnalisation des offres ou des e-mailing pour améliorer le taux de conversion et le panier moyen, dans le cas du e-commerce.

Dans l’univers bancaire, les premiers cas d’usage du Big Data portaient eux sur la lutte contre la fraude. A chaque métier et processus correspondent des projets. Et si les débuts du Big Data étaient centrés sur l’infrastructure, s’y sont ajoutés depuis des enjeux liés aux compétences comme la Data Science et l’intelligence artificielle. Le machine learning, dont les modèles sont entraînés grâce aux données, est en quelque sorte l’intelligence du Big Data.

Leave a Reply