Introduction
Les données constituent la matière première de toute activité numérique, leur codage est le premier enjeu mais leur gestion en est également un, les structurer correctement garantit que l'on puisse les exploiter facilement pour produire de l'information, cependant les données non structurées peuvent aussi être exploitées.
Ces deux expressions – données structurées et données non structurées – sont aujourd'hui répandues et acceptées. C'est la première et principale façon de caractériser les données dans la société de l'information, dans les entreprises et leurs directions des systèmes d'information (DSI) mais aussi, de plus en plus, pour les responsables métiers, pour les juristes et pour les professionnels de l'information. Même les métadonnées (les données sur les données) sont réparties entre métadonnées structurées et métadonnées non structurées.
Le sens est clair:
Données structurées: informations (mots, signes, chiffres...) contrôlées par des référentiels et présentées dans des cases (les champs d'une base de données) qui permettent leur interprétation et leur traitement par des machines.
Données non structurées: le reste, tout ce qui n'est pas organisé en base de données, c'est-à-dire la bureautique, la messagerie, les images, les vidéos, etc.
La famille éclatée des « données non structurées » recouvre des quantités de réalités qu'on ne saurait réduire à une anti-définition, cette existence encombrante de données non structurées (créées par tout un chacun, échappant aux règles du management comme aux logiques des outils) commence à préoccuper sérieusement un nombre croissant d'acteurs, alertés en quelque sorte par le RGPD[1]. On parle aussi de données semi-structurées quand une partie du fichier est codifiée selon certaines règles d'écriture ou de présentation : formulaire, feuille de style, organisation structurée d'éléments textes non structurés dans des pages web, etc.