Conclusion
« Traduction » de données non structurées en données structurées :
Pour une meilleure maîtrise des données, les professionnels de l'information font des efforts pour indexer les écrits et les images, avec l'intelligence humaine, avec parfois le renfort du public (cf le crowdsourcing / l'indexation participative) mais ces efforts, éminemment louables, restent ténus face à la puissance des princes de la technologie qui s'attaquent à la question avec l'intelligence artificielle.
L'enjeu, pour les maîtres du monde technologico-commercial qui est le nôtre, est de transformer les données non structurées en données structurées, pour qu'elles puissent être exploitées et rentables (sans parler des autres enjeux de contrôle des fuites de données et de destruction des données périmées).
Un bon exemple est la démarche de Google qui crée des données structurées en analysant les vidéos, le Big Data c'est bien évidemment des données non structurées : des images, des sons, et des vidéos. Mais l'extraction de connaissances à partir des vidéos est un domaine encore exploratoire. Google semble avoir beaucoup progressé et vient d'annoncer Google Cloud Video Intelligence, une solution en Beta qui permet d'analyser des vidéos et d'en extraire de l'information structurée.
Ce n'est qu'un début ...
Cependant, le résultat d'une intervention de l'intelligence artificielle sur des « données non structurées » dépend, d'une part, de la façon dont on alimente l'algorithme au départ, d'autre part, de la façon dont sont produits les écrits et les images analysés. Or, la qualité du texte initial est une notion subjective: on peut trouver des textes d'apparence très carrée mais dénué d'intérêt voire de sens, tandis que d'autres documents portent des idées fortes mais dans une langue élaborée et pleine de subtilités. Et les images, plus encore que les textes, peuvent être « lues » différemment selon la préoccupation du lecteur ou son degré d'expertise.
Le risque est que l'humanité abandonne complètement le regard humain sur un texte ou une image pour se contenter de l'interprétation machine qui, toute puissante qu'elle soit, sera différente de l'interprétation humaine. Il y a donc une réflexion « humaine » à promouvoir pour construire des modèles de connaissances, dans le but à la fois de nourrir les algorithmes et de créer un vertueux contrepoids à l'intelligence artificielle, histoire de ne pas perdre ses racines et la mémoire de pensée des générations qui nous ont précédés.