Podcast : Le paradoxe de la supervision par l'humain de l'IA

Podcast : Le paradoxe de la supervision par l'humain de l'IA

Avec ESSEC Knowledge Editor-in-chief

Julia Smith, rédactrice en chef d’ESSEC Knowledge : Bonjour à toutes et à tous, et bienvenue dans Be in the Know, le podcast d’ESSEC Knowledge qui met en avant les travaux de recherche et l’expertise des professeurs de l’ESSEC. Aujourd’hui, je suis avec Charles Ayoubi, professeur assistant en management, pour parler de ses recherches sur l’intelligence artificielle et la prise de décision. Alors Charles, peux-tu nous dire quelques mots sur ta recherche ? 

Charles Ayoubi, professeur assistant en management : Merci Julia, c’est un réel plaisir d’être ici. Je suis ravi de pouvoir parler de mes travaux de recherche. Je suis un ancien étudiant de l’ESSEC, et j’ai toujours eu un double intérêt pour l’ingénierie et le management. C’est donc assez naturellement que je me suis intéressé à l’innovation, qui fait le lien entre ces deux univers : d’un côté les enjeux business, et de l’autre les dimensions technologiques.

Le processus d’innovation peut être décomposé en trois étapes :

  •  Première étape : la génération d’idées.

  •  Deuxième étape : l’évaluation de ces idées, c’est-à-dire considérer celles qui méritent un investissement, la mobilisation de ressources et de les porter  vers les étapes suivantes.
    Troisième étape : la diffusion des idées dans l’économie.

Ces trois étapes sont fondamentales, et ma recherche considère l’impact de l’intelligence artificielle sur chacune d’entre elles.

Julia Smith : C’est particulièrement intéressant, surtout quand on sait que nous utilisons tous aujourd’hui l’IA, d’une façon ou d’une autre, dans notre travail. Cela amène forcément à s’interroger sur son impact réel.J’ai vu que l’un de tes articles récents s’intitule Narrative AI and the Human-AI Oversight Paradox que l’on pourrait traduire par “L’IA Narrative et le Paradoxe de la supervision humaine. Que signifie ce titre ?

Charles Ayoubi : C’est une excellente question. Comme je le disais, l’évaluation est une étape clé du processus d’innovation. Nous avons tous des idées - mais la vraie question est de savoir si ces idées peuvent être réellement impactantes. 

Le moment où l’on décide quelles idées méritent un investissement est donc crucial.
Avec mes co-auteurs — Jacqueline Lane (Harvard Business School), Leonard Boussioux, Ying Hao Chen et Camila Lin (Université de Washington), Rebecca Spens et Pooja Wagh (MIT Solve), ainsi que Pei-Hsin Wang (Université de Washington) — nous avons mené une expérimentation de terrain. Je travaille principalement à partir d’expériences randomisées avec groupe de contrôle (RCTs). C’est une méthode qui reproduit  celle utilisée pour les essais cliniques : certains participants reçoivent un « traitement », d’autres un placebo.

Dans notre cas, nous avons demandé à des participants d’évaluer des projets de start-up. Le groupe de contrôle dans notre expérience le faisait de manière traditionnelle, en lisant les dossiers des startups en détail. Ensuite, nous avions deux groupes de “traitement” qui recevaient une recommandation de l’IA indiquant s’il fallait poursuivre ou non le projet. Un de ces deux groupes recevait à la fois une recommandation de l’IA et un texte explicatif, ce que nous appelons une IA narrative. On parle d’IA narrative parce qu’aujourd’hui, les modèles de langage génèrent du texte. On peut leur demander d’expliquer leur décision. Ce n’est pas réellement une explication dans le sens humain avec  l’IA qui se justifie, mais une rationalisation post-hoc de sa décision.

Mais quel est le paradoxe ? Il vient du fait que nous pensions, intuitivement, que plus d’information mènerait à de meilleures décisions. Avoir une explication supplémentaire aurait dû aider les individus à mieux juger. Or, ce n’est pas exactement ce que nous observons.

Julia Smith : Alors comment avez-vous fait pour étudier ce paradoxe ?

Let’s see what happens when you give people some support, either by just an AI recommendation telling them, 'Well, this is what AI thinks,' or an AI recommendation with this narrative. That’s how we proceeded to do this field experiment to see the impact of AI on evaluation. 

Charles Ayoubi : Nous avons mené une expérimentation de terrain, ce qui est nécessaire si l'on veut obtenir des données révélatrices sur une situation. Nous avons collaboré avec MIT Solve, une grande plateforme internationale d’entrepreneuriat qui reçoit chaque année des centaines de candidatures de start-up venant du monde entier — des centaines de start-up qui viennent du monde entier proposent leur solution en compétition au MIT Solve.

Chaque année, MIT Solve doit décider quels projets passent à l’étape suivante, puis sélectionner les finalistes et les lauréats. Ils nous ont expliqué que ce processus devenait de plus en plus complexe face à l’augmentation du nombre de projets. Ils se demandaient donc si l’IA pouvait les aider. C’est alors que nous nous sommes posés, en réalisant que nous avions là paramètres parfaits pour mettre en place notre expérimentation.   

Nous avons décidé de comparer ce qu’il advenait lorsqu’on apportait un peu de soutien aux personnes chargées de faire le tri via une évaluation classique, en comparant deux formes d’assistance par l’IA : une simple recommandation, et une recommandation accompagnée d’un récit “explicatif”.

Julia Smith : La question clé : qu’avez-vous découvert ?

Charles Ayoubi : Qu’avons-nous trouvé ? C’est justement ce à quoi je faisais référence en parlant de paradoxe. L’une de nos hypothèses était que le récit allait stimuler les individus, les amener à mieux réfléchir et, par conséquent, à prendre de meilleures décisions lorsqu’ils disposaient de cette narration, dans cette dernière condition expérimentale. Pour commencer par les éléments positifs, disons qu’il y a à la fois de bonnes et de mauvaises nouvelles concernant l’IA et l’évaluation.

La bonne nouvelle, c’est que nous avons demandé à des experts d’évaluer l’ensemble des solutions afin d’avoir une mesure indépendante de leur qualité. Cela nous permet de comparer la capacité des participants à sélectionner les solutions qui s’avèrent réellement bonnes, par rapport à celles qui le sont moins. Ce que nous observons, c’est que lorsque les participants disposent de recommandations de l’IA, leurs décisions sont globalement meilleures. Les projets qu’ils font passer obtiennent en général de meilleures évaluations de la part des experts, tandis que ceux qu’ils décident de ne pas faire passer au tour suivant reçoivent des évaluations plus faibles. Leurs performances sont donc meilleures par rapport aux participants qui n’utilisent pas l’IA. À première vue, l’IA semble donc aider.

Le paradoxe apparaît lorsque l’on s’intéresse à la différence entre les recommandations accompagnées d’un récit et ce que nous appelons les recommandations « boîte noire ». Lorsqu’un récit explicatif est fourni, certaines solutions que l’IA recommande de rejeter — c’est-à-dire de ne pas poursuivre — s’avèrent en réalité très bien évaluées par les experts. Cela montre que l’IA n’est pas parfaite et qu’elle peut passer à côté de solutions potentiellement très impactantes. Autrement dit, certaines solutions auraient dû être retenues par l’IA, mais ne l’ont pas été. Ce que nous constatons alors, c’est que les individus ont tendance à suivre l’IA un peu trop. En revanche, lorsqu’ils ne disposent que de la recommandation de l’IA, ils sont beaucoup plus enclins à la contredire. Dans la condition « boîte noire », c’est-à-dire celle sans narratif, l’IA peut recommander: « Écarter cette solution », alors même que celle-ci est plutôt bonne. 

Mais lorsque les participants n’ont que cette recommandation, ils conservent une forme d’esprit critique humain et se disent : « Non, l’IA n’a pas raison. » Dans 80 % des cas, les évaluateurs ont contredit l’IA dans la condition boîte noire. Lorsque le récit explicatif est présent, ce taux tombe à 40 %. Cela montre que, lorsqu’un récit est fourni, l’IA peut convaincre les individus de faire quelque chose qu’ils ne devraient pas faire — en l’occurrence, écarter une solution qui aurait dû être retenue. Cela met en évidence l’un des grands risques associés à cette nouvelle forme d’IA, notamment les modèles de langage : leur capacité à générer des textes très persuasifs. C’est un risque majeur, et nous devons réfléchir à ce que cela implique. L’IA peut nous convaincre de faire des choses que nous ne voulons pas nécessairement faire, ou que nous ne devrions pas faire.

Julia Smith : Oui, c’est un peu inquiétant ! Qu’est-ce que cela signifie pour l’utilisation de l’IA, en particulier pour ceux qui l’emploient dans le cadre professionnel ?

Charles Ayoubi : Comme je l’ai mentionné, il y a de bonnes nouvelles. L’IA peut beaucoup aider. Nos partenaires chez MIT Solve ont expliqué qu’il était très positif, pour les participants, d’avoir le sentiment de bénéficier d’un second avis. Mais c’est une bonne chose tant que cela reste un second avis.

Il faut y penser comme lorsque l’on demande conseil à un collègue : on ne va pas forcément croire tout ce qu’il dit, on va simplement en tenir compte. Ou encore comme lorsqu’on consulte un médecin et que l’on souhaite parfois obtenir un second avis.

Le deuxième point, qui est vraiment important, c’est que nous devons tous être conscients du pouvoir de persuasion de ces algorithmes. Un article de recherche récent qui suggère que l’IA est très efficace pour convaincre les individus de sortir de théories complotistes. Ou… d’y adhérer.  Elle est très performante pour vous convaincre qu’une théorie du complot est vraie, ou au contraire pour vous amener à ne plus y croire. Elle possède ce pouvoir de persuasion très fort, ce qui peut être positif. Mais cela signifie aussi que nous devons veiller à l’utiliser de manière appropriée, et à des fins bénéfiques.

Julia Smith : Oui, effectivement de bonnes et de mauvaises nouvelles. Pour toi, quels sont les principaux enseignements de cet article ? Quelle serait la suite de tes recherches, ainsi que les pratiques dans le monde du travail ?

Charles Ayoubi : C’est une excellente question. Ce que je dis généralement lorsque je présente cet article, c’est : « Nous devons être très conscients de ce qui se passe. » Nous ne disons pas que tout le monde devrait utiliser l’IA, ni que personne ne devrait l’utiliser. En recherche, nous adoptons ce que l’on appelle une approche positive, qui est différente d’une approche normative. Nous ne disons pas aux gens ce qu’ils doivent faire ; nous cherchons à comprendre ce qui se passe lorsqu’ils le font.

Ce que nous observons — et comme tu le disais, à toutes les étapes du travail et de la société — et ce que nous voyons aussi dans le monde académique, c’est que les gens utilisent l’IA pour relire des articles, évaluer des travaux de recherche… On voit des personnes utiliser l’IA pour résumer un travail, donner un avis, ou même faire le travail à leur place.

Ce dont nous devons être conscients, c’est que l’IA a ses propres biais. Elle peut nous entraîner dans ses biais à elle et nous convaincre d’aller dans une certaine direction. Il est essentiel de garder à l’esprit que le jugement humain est nécessaire à chaque étape où l’IA est utilisée.

Julia Smith : C’est très rassurant d’entendre que l’IA est avant tout un outil et qu’elle ne va pas encore nous remplacer, et que nous avons toujours un rôle critique essentiel à jouer dans le processus. Merci beaucoup, Charles, d’avoir partagé tes réflexions aujourd’hui. J’ai hâte de lire la suite de tes travaux.

Charles Ayoubi : Merci, Julia. Ce fut un plaisir.

Pour en savoir plus

N. Lane, Jacqueline and Boussioux, Leonard and Ayoubi, Charles and Chen, Ying Hao and Lin, Camila and Spens, Rebecca and Wagh, Pooja and Wang, Pei-Hsin, Narrative AI and the Human-AI Oversight Paradox in Evaluating Early-Stage Innovations (August 02, 2024). Harvard Business School Technology & Operations Mgt. Unit Working Paper No. 25-001, Harvard Business School Working Paper No. 25-001, ESSEC Business School Research Paper, Available at SSRN: https://ssrn.com/abstract=4914367

Suivez nous sur les réseaux