Le Big Data : les données générées par les utilisateurs de la toile
Chacun d’entre nous génère dorénavant toute une série d’informations qui peuvent être échangées sur les réseaux. C’est ce qui explique le fameux Big Data : cette avalanche de données qui est annoncée comme une révolution économique et sociétale majeure.
Alors que nous nous interrogeons sur la manière dont ces données peuvent être analysées, le livre Science avec Conscience d’Edgar Morin nous donne des clés pour mieux appréhender cette problématique. Le concept de Pensée Complexe s’intéresse à la complexité « au sens de son étymologie ‘complexus’ qui signifie ‘ce qui est tissé ensemble’ dans un enchevêtrement d'entrelacements (plexus) », et unit l’un et le multiple. C’est donc l’outil conceptuel idéal pour analyser un système où des individus interagissent grâce à un enchevêtrement de connections…
Dans ce contexte, Edgar Morin nous dit que le système doit être analysé dans son ensemble : « La complexité logique de l'Unitas Multiplex nous demande de ne pas dissoudre le multiple dans l'un, ni l'un dans le multiple. »
La partie et le tout : l’internaute et le réseau comme « Unitas Multiplex »
D’après le philosophe, dans un système complexe, il est « impossible de connaître les parties sans connaître le tout.» On ne comprend pas l’internaute si on ne comprend pas Internet, et il n’est pas possible de comprendre Internet sans comprendre les comportements individuels des internautes.
Mais nous sommes alors devant deux contraintes majeures : technologiques et méthodologiques.
D’une part, technologiquement, aucun ordinateur au monde n’est, pour le moment, capable de traiter l’entièreté de l’information qui est générée au fil du temps. Quand chaque appareil électroménager, téléphone, compteur biométrique, instrument de mesure scientifique, etc. génère chaque seconde de la donnée, il est impensable de vouloir traiter l’entièreté des données à notre disposition.
D’autre part, les méthodes statistiques classiques, basées sur l’échantillonnage d’une population, ne sont que rarement appropriées dans ce contexte. Echantillonner un réseau est très compliqué, puisqu’il faudrait pouvoir échantillonner les individus, mais aussi les connections entre ces individus. Et le caractère complexe des comportements observés rend quasi impossible d’assurer la représentativité des échantillons ainsi prélevés…
L’individualité multiple de l’internaute
Dans un environnement où chaque internaute peut exprimer le caractère multiple de son individualité, des mesures simples ne permettent pas de capturer la complexité de l’individu observé. « Le principe d’identité est, en fait, complexe. Il comporte de l’hétérogénéité et de la pluralité dans l’unité. »
Prenons un exemple très concret : celui du ciblage marketing. Imaginons que je travaille pour une compagnie aérienne et que je cherche à comprendre le comportement de mes clients potentiels. Un certain voyageur peut faire des trajets réguliers en classe affaire entre l’Asie et la France dans le cadre de son travail, et, par ailleurs, prendre des tickets moins chers (économie) quand il voyage à titre privé.
Dès lors, si je cherche à lui proposer une offre sur base de son historique d’achats, son comportement peut sembler paradoxal : la même personne prend des tickets chers (classe affaire), et d’autres à bas prix (classe économique.) Je ne sais pas identifier ce qu’il faut lui proposer… Mais, si j’utilise par ailleurs des informations sur son réseau social, tout est plus clair : Son réseau familial (Facebook) m’indique qu’il est parti avec sa famille en Espagne, et son réseau professionnel (Linkedin) indique un séjour à Shanghai. Grâce aux interactions d’un individu avec son réseau, je comprends mieux la situation…
Mais tout ceci serait encore relativement aisé à analyser si l’observateur lui-même n’avait pas d’impact sur l’objet observé…
La causalité en boucle
Le sujet et l’objet ont en effet une relation causale qui n’est pas unilatérale : c’est en fait une causalité « en boucle ». Ce qu’Edgar Morin appelle une Boucle Dialogique.
Prenons l’exemple ou je travaillerais à la tarification de tablettes tactiles. Si ma société annonce le lancement d’une nouvelle version de tablette, mes clients qui pensaient auparavant acheter mon produit dans un futur proche, vont sans doute attendre la nouvelle version pour déterminer leur choix. Dès lors, puisque j’anticipe une baisse de mes volumes de vente pour mon ancien produit, je vais proposer à ma société de diminuer le prix de l’ancienne version…
Ce phénomène, bien connu de l’économétrie, amène souvent à des corrélations contre-intuitives. Dans le cas cité ci-dessus, le nouveau produit est plus cher que l’ancien mais se vend mieux…
On observe une « boucle dialogique » : mes clients anticipent mes actions, et agissent en conséquence. A son tour, l’observateur anticipe les comportements et agit en conséquence. En réalité, il n’y a pas vraiment de sujet et d’objet. C’est le principe d’Ecologie de l’Action : quand « un acte d'individu ou de groupe entre dans un complexe d'inter-rétroactions qui le font dériver, dévier et parfois inverser son sens… »
La réponse de la Pensée Complexe à la complexité du Big Data : la mise en action du Paradigme de Complexité
On le voit, les phénomènes liés à l’analyse des données sont complexes, et ne peuvent pas être réduits à quelques principes simples, au risque de passer à coté de la compréhension des phénomènes observés.
En tant que data scientist, le Pensée Complexe nous fait comprendre que plutôt que de chercher à contourner cette complexité comme un obstacle, ou à la décomposer en quelques principes partiels, il faut au contraire l’accepter comme une richesse, et l’embrasser dans son ensemble.
Du point de vue méthodologique, des techniques modernes nous permettent d’appréhender la complexité observée. Premièrement, les techniques d’analyse de réseaux permettent d’identifier le rôle des « nœuds » (les individus) d’un réseau. Non en tant qu’éléments isolés, mais en tant qu’éléments constituant le réseau. C’est le Paradigme de la Complexité mis en action : la partie n’est plus dissociée du tout. De plus, les modèles hiérarchiques bayesiens permettent de traiter le caractère poly-identitaire des individus en tenant compte des variations au sein même du comportement individuel. Enfin, les modèles économiques récents (par ex : les Modèles Structurels), tiennent compte de l’anticipation des acteurs et des leur inter-connectivité (Boucle Dialogique.)
Enfin, du point de vue de l’approche, l’intégration des apports conceptuels d‘Edgar Morin nous invite à aborder ces problématiques dans leur ensemble, en tentant d’obtenir une vision holistique de la situation.
Cet article est issu d’une collaboration entre la Chaire Edgar Morin de la complexité et la Chaire Accenture Strategic Business Analytics de l’ESSEC.