BIG DATA – Le nouvel Or

Le terme « big data » est apparu vers 2012 et est rapidement devenu une expression courante dans le journalisme économique. À l’époque, on ne savait pas à quel point les big data allaient devenir importantes. Le magazine The Economist affirme que la ressource la plus précieuse du monde n’est plus une matière première, mais plutôt de la donnée. (1) Mais avant d’expliquer comment cela peut être le cas, nous devons définir ce que l’on entend par « big data ». Le terme en soi indique qu’il s’agit de grandes quantités de données, ce qui est exact. Mais de quelle taille ? La réponse est : extrêmement grande. Plus les données disponibles sont nombreuses, plus les modèles, les liens et les tendances sont complexes, ce qui est particulièrement intéressant lorsqu’il s’agit des préférences d’achat des personnes et des entreprises. Il s’agit de comprendre le client, grâce aux données qu’il a générées précédemment.

Sans « big data », vous êtes aveugle et sourd au milieu d’une autoroute. 

Geoffrey Moore, consultant en gestion et écrivain

Faisons une comparaison pour avoir une idée de la quantité de données dont nous parlons. Les données sont stockées en octets (un octet est constitué de huit bits, c’est-à-dire une combinaison de huit uns et de zéros). Si chaque octet symbolise un grain de riz, un ordinateur portable moderne avec un disque dur de 500 gigaoctets contient l’équivalent de 1 500 camions remplis de riz. (2) Cela peut sembler beaucoup par rapport aux premiers ordinateurs domestiques, dont la mémoire était généralement équivalente à une tasse de thé de riz, mais ce n’est rien comparé à ce que font certains acteurs d’aujourd’hui.

L’incroyable quantité d’information que les sociétés Internet comme Google, Facebook et Amazon collectent sur leurs utilisateurs correspond à d’énormes quantités de riz. Chaque recherche sur Google, chaque mise à jour de statut et chaque achat en ligne génère de nouvelles données qui sont enregistrées et peuvent être analysées. Des estimations qualifiées indiquent qu’elles ont atteint des niveaux exabytes (1018), et Google au moins se rapproche du niveau de zettabyte (1021). Exprimé en grains de riz, cela remplirait tout l’océan Pacifique. Au taux de croissance actuel – l’IDC affirme que la quantité de données double environ tous les deux ans – nous atteindrons le niveau du yottabyte (1024) d’ici à dix ans. (3) Cela correspond à une boule de riz aussi grande que notre planète entière. Le mot « big » dans « big data » a donc son explication :

Octet : un grain de riz
Kilobyte : une tasse de riz
Mégaoctet : huit sacs de riz
Gigaoctet : trois camions
Téraoctet : deux porte-conteneurs
Petabyte : couvre une petite ville
Exabyte : couvre un petit pays
Zettabyte : remplit tout l’océan Pacifique
Yottabyte : une boule de riz aussi grosse que la Terre

Une question naturelle se pose : que vont-ils faire de toutes ces données ? Brian Krzanich, le PDG du fabricant de processeurs Intel, répond bien à cette question. « Ceux qui disposent des meilleures données peuvent développer les meilleurs outils d’IA, des algorithmes intelligents et des analyses de données ». (4) La raison en est, dans une large mesure, que les solutions modernes d’IA et de learning machine d’aujourd’hui nécessitent beaucoup de données pour la formation. Plus les systèmes sont précis et sophistiqués, plus ils ont accès à des données.

En accumulant d’énormes quantités d’utilisateurs de sites web et d’applications, certaines entreprises accèdent à d’énormes quantités de données qui peuvent être utilisées pour affiner les systèmes d’IA afin d’être encore meilleures. Être numéro deux, c’est comme être au centième rang – il sera incroyablement difficile de rattraper le retard et de créer des performances équivalentes sans disposer d’une grande quantité de données. C’est aussi la raison pour laquelle tant d’applications sont gratuites aujourd’hui. En collectant des données uniques, on espère pouvoir utiliser plus tard ces nouvelles connaissances – ou les vendre.

La vente de données est devenue un immense marché en soi. Il est probablement vrai que l’information la plus importante est celle que l’on n’a pas. Il est de plus en plus courant d’acheter des données de tiers qui peuvent être combinées avec les siennes. La société Q Data, qui a créé un marché pour les acheteurs et les vendeurs de données, en est un exemple. On peut par exemple y acheter des données sur des sites que 90 millions d’allemands ont visités en 2017, ou des données sur 100 000 patients victimes d’une attaque cérébrale pendant un mois en 2018. Ces dernières coûtent 400 000 dollars US. Un autre exemple est celui d’Oracle, qui propose à ses clients cinq milliards de profils de clients et un milliard d’identités d’entreprises. Iota et Fetch sont d’autres plateformes de marché pour l’achat de données qui sont en train d’émerger.

Il est évident que l’intégrité des personnes peut souffrir de cette vaste collecte de données. Nous laissons constamment des traces numériques derrière nous lorsque nous utilisons des applications et des sites web. Chaque recherche sur Google, chaque achat par carte de crédit, chaque appel téléphonique, chaque film sur Netflix, chaque navigation GPS et chaque tour de piste avec RunKeeper génère des données qui peuvent avoir une valeur sur un marché. Si un service est gratuit, ce sont généralement vous et vos données qui sont les produits. Il y a toujours du fromage gratuit dans un piège à rats, comme on dit. Le cas récent d’intrusion dans l’intégrité le plus médiatisé est peut-être celui de Cambridge Analytica, qui, en violation des règles de Facebook, a détourné 50 millions de profils d’utilisateurs appartenant à des électeurs américains avant l’élection présidentielle de 2016.(5) Une certaine prudence et une certaine sensibilité semblent être nécessaires lors de la collecte et de la gestion de données importantes.

Quel que soit le secteur d’activité ou la taille de l’acteur, cette tendance montre clairement l’importance de commencer à collecter des données. Ceux qui commencent tôt peuvent avoir une longueur d’avance sur la concurrence qu’il peut être difficile de rattraper. Même s’il est difficile aujourd’hui d’en comprendre toute la valeur, l’ampleur de ce changement est énorme, ce qui deviendra plus évident avec le temps. Et bien sûr, explorer la valeur des données que l’on possède déjà peut aussi être une analyse précieuse.

References 

The Economist (2017, 6 May). The world’s most valuable resource is no longer oil, but data. Available: https://www.economist.com/leaders/2017/05/06/the-worlds-most-valuable-resource-is-no-longer-oil-but-data 

Moughal, J. (2017, 14 July). What is big data?. [blog post]. Downloaded 2018-10-22 from: https://www.c-sharpcorner.com/article/what-is-big-databig-data/ 

IDC (2014). Executive Summary: Data growth, business opportunities, and the IT imperatives. Downloaded 2018-10-22 from https://www.emc.com/leadership/digital-universe/2014iview/executive-summary.htm 

Krzanich, B. (2018, 15 November). Data is the new oil in the future of automated driving. [blog post]. Downloaded 2018-10-22 from https://newsroom.intel.com/editorials/krzanich-the-future-of-automated-driving/ 

Svenska Dagbladet (2018, 4 April). Facebook: 55 000 svenska användare drabbade. Available: https://dfw.cbslocal.com/2018/03/17/data-analytics-firm-harvested-50-million-facebook-profiles/ 

Un article signé Prosales écrit par Henrik Larsson-Broman