Big Data est le terme utilisé pour décrire un ensemble de données si vaste en termes de volume, de vitesse et de variété qu’il nécessite des technologies et des méthodes d’analyse spécifiques pour en extraire de la valeur.

L’augmentation progressive de la taille des ensembles de données est liée au besoin d’analyse sur un seul ensemble de données, dans le but d’extraire des informations supplémentaires par rapport à celles que l’on pourrait obtenir en analysant de petites séries, même avec la même quantité totale de données. Par exemple, l’analyse pour sonder les « humeurs » des marchés et du commerce, et donc la tendance globale de la société et du flux d’informations qui circulent et transitent via Internet.

Avec les Big Data, le volume de données est de l’ordre du Zettaoctet, soit des milliards de Téraoctets. Cela nécessite donc une puissance de calcul parallèle et massive, avec des outils dédiés fonctionnant sur des dizaines, des centaines ou même des milliers de serveurs.

On parle de Big Data lorsqu’un ensemble de données est si grand qu’il faut des outils non conventionnels pour extraire, gérer et traiter les informations dans un délai raisonnable. Il n’existe pas de taille de référence précise, car celle-ci évolue constamment avec la vitesse croissante des machines et l’augmentation continue de la taille des datasets.
Selon une étude de 2001, l’analyste Doug Laney a synthétisé les caractéristiques des Big Data selon un modèle de croissance tridimensionnel appelé le modèle des « 3V » :

  • Volume : représente la taille réelle de l’ensemble de données ; le grand volume de données que l’on peut collecter aujourd’hui pourrait sembler problématique. En réalité, le volume n’est pas un problème majeur, car le cloud et la virtualisation aident à gérer cet important volume de données, en simplifiant les processus de collecte, de stockage et d’accès.

  • Vélocité : fait référence à la vitesse de génération des données ; on cherche à effectuer des analyses en temps réel, ou presque.

  • Variété : se réfère aux différents types de données provenant de sources diverses (structurées et non structurées).

Le modèle initial s’arrêtait là. Avec le temps, d’autres caractéristiques ont été ajoutées :

  • Variabilité : cette caractéristique peut être problématique ; elle désigne l’incohérence potentielle des données.

  • Complexité : plus l’ensemble de données est vaste, plus sa gestion devient complexe ; la tâche la plus difficile consiste à relier les informations entre elles pour en extraire des connaissances pertinentes.

Enfin, certaines organisations utilisent une quatrième « V » pour désigner la Véracité des données, c’est-à-dire la qualité des données, entendue comme la valeur informationnelle que l’on peut en tirer.