Quand l’IA prend la parole : des prouesses aux dangers

Thierry Poibeau, DR CNRS, École normale supérieure (ENS) – PSL

January 25, 2021 at 1:02 p.m.·8 min read

<span class="caption">Il est parfois difficile de savoir si c'est une IA au bout du fil.</span> <span class="attribution"><a class="link " href="https://www.shutterstock.com/fr/image-vector/artificial-intelligence-robot-speaks-human-vintage-571421626" rel="nofollow noopener" target="_blank" data-ylk="slk:studiostoks, Shutterstock;elm:context_link;itc:0;sec:content-canvas">studiostoks, Shutterstock</a></span> — Il est parfois difficile de savoir si c'est une IA au bout du fil. studiostoks, Shutterstock

La démission forcée d’une cadre de Google, Timnit Gebru, a récemment fait polémique. Elle travaillait sur les risques associés aux capacités de cette catégorie d’intelligences artificielles qui excellent désormais à manipuler le langage, sans le comprendre.

Ces applications de « traitement automatique des langues », populaires et très impressionnantes – pour vous suggérer la fin de vos phrases par exemple – sont parfois aussi un peu inquiétantes. Par exemple, GPT-3, sorti en juin 2020 par OpenAI (Microsoft), peut générer des textes si naturels qu’ils sont souvent impossibles à distinguer de « vrais » textes (produits par des humains). BERT, sorti en 2018 par Google, est un autre type de modèle, fournissant l’analyse sémantique nécessaire à de très nombreuses applications, de la recherche d’information à la traduction automatique.

Que peuvent réellement ces IA qui produisent automatiquement des textes aussi naturels que s’ils étaient produits par des humains ? Comment fonctionnent-elles ? Quels sont les risques aujourd’hui identifiés de ces applications ?

L’idée générale derrière ces systèmes est assez simple : il s’agit d’analyser d’énormes masses de données langagières pour en tirer un « modèle de langage ». Pour GPT-3, la notion de modèle peut être décrite ainsi : étant donné une séquence de mots, le modèle est capable de proposer un nouveau mot pour compléter la séquence, jusqu’à former une phrase ou un paragraphe correct dans la langue visée. Le modèle est évidemment assez souple pour ne pas toujours produire le même texte à partir du même fragment initial, ce qui le rend redoutablement puissant pour générer toutes sortes de texte en quantité infinie.

Ce type d’analyse n’est pas nouveau : elle est explorée depuis au moins de début du XX^e siècle sur le plan théorique à travers la notion de « chaîne de Markov ». Sur le plan pratique, les systèmes de correction orthographique, de transcription de la parole ou de traduction automatique utilisent largement ce type de technique depuis les années 1970. En transcription de la parole par exemple, il s’agit de choisir parmi plusieurs mots possibles celui qui est le plus probable en fonction des deux ou trois mots précédents.

Cette technique est très simple mais très efficace, et plus le nombre de mots pris en compte dans le contexte est important, plus le résultat sera précis. Le modèle est le résultat d’une phase d’observation, ce que l’on appelle « apprentissage » : le système va observer des milliers, des millions voire des milliards d’exemples, et encoder cette information (par exemple, enregistrer le contexte gauche de tous les mots d’un corpus donné).

Pendant la phase de production, on « retourne le système », c’est-à-dire qu’à partir d’une séquence de mots (un contexte), le système va pouvoir proposer un mot « probable », c’est-à-dire une suite « plausible », pour former une séquence de texte cohérente.

Une IA « lit » (beaucoup) plus qu’un rat de bibliothèque

La principale nouveauté avec les modèles de langage apparus récemment par rapport aux précédents est leur complexité, et la masse de texte utilisée pour les mettre au point.

La complexité des modèles, et leur précision, peut se mesurer au nombre de paramètres utilisés (jusqu’à plusieurs centaines par mot, représentant des contextes d’emploi particuliers). Pour GPT-3, il est question de 175 milliards de paramètres. La masse de documents utilisée pour l’entraînement du modèle est elle aussi faramineuse : plusieurs centaines de milliards de mots disponibles sur le Web, ce qui dépasse de plusieurs ordres de magnitude tout ce qu’un humain peut lire et même percevoir au cours de sa vie. Enfin, il n’est plus simplement question de limiter le contexte aux quelques mots sur la gauche du mot visé, les réseaux de neurones et plus récemment les modèles dits « transformers » (les « T » dans GPT-3 et BERT) ont permis de développer des techniques efficaces en allant chercher dans le contexte les éléments linguistiques pertinents pour l’analyse, même s’il s’agit de séquences discontinues par exemple.

Lire la suite: Une intelligence artificielle pour mieux analyser les appels au SAMU

Ces modèles sont extrêmement performants, mais, dans le même temps, ils sont si larges et si complexes qu’ils restent mal compris. Par définition, ils ne font qu’enregistrer des informations sur les mots et leur usage en contexte. Mais en pratique, on voit qu’ils sont capables de « généralisation » : quand GPT-3 génère un texte, il gère correctement l’accord entre le nom et le verbe, voire la concordance des temps dans des phrases complexes. Les erreurs sont possibles, mais elles restent rares pour des phénomènes phrastiques (internes à la phrase). Comment cela est-il possible ? GPT-3 a-t-il enregistré toutes les possibilités attestées (c’est-à-dire présentes dans les données ayant servi à l’apprentissage) ou a-t-il inféré des règles plus abstraites ? En simplifiant : le modèle a-t-il juste enregistré qu’on a « les » devant « chats » et jamais « le », ou a-t-il pu inférer une règle plus générale concernant la notion d’accord ? Ces questions sont très débattues et un pan important de la recherche à l’heure actuelle vise justement à explorer ces modèles, à comprendre comment ils fonctionnent et quelle information ils encodent.

Tels des perroquets qui ne comprennent pas ce qu’ils répètent

Ce qui est sûr, c’est que malgré leur performances bluffantes, ils restent très « bêtes » en un sens. Ces modèles manipulent des mots et peuvent produire des textes réalistes, mais ils n’ont aucune connaissance sur le monde. Ce sont en quelque sorte des perroquets super performants. Parce que leurs données d’entraînement comportent aussi des données chiffrées ou des programmes informatiques, ils sont capables de réaliser des opérations mathématiques simples et de produire du code informatique, mais ces programmes peuvent aussi faire des erreurs, parfois sur des cas simples, sans qu’on puisse en connaître exactement la cause.

Lire la suite: Les IA comprennent-elles ce qu’elles font ?

Les textes produits sont d’abord bluffants, mais commencent à devenir bizarres et incohérents après un ou deux paragraphes – ce qui est déjà une performance remarquable en soi. Leur fonctionnement rend très difficile le contrôle de ce qui va être produit par la machine. Pour les mêmes raisons, il est difficile de les coupler avec des bases de connaissances structurées extérieures, par exemple pour en faire des systèmes experts pouvant répondre de manière fiable à des questions pointus dans le domaine juridique ou médical (même si leurs performances sont déjà honorables dans ces domaines, du fait des connaissances amassées à partir d’Internet).

Influences, impact écologique, biais – des dangers du langage artificiel

Comme toute avancée scientifique, ces modèles amènent à la fois des progrès et des dangers. On a vu les progrès possibles : de par leur finesse, ces modèles génèrent des textes quasi parfaits sur le plan syntaxique, relativement cohérents à l’échelle d’un paragraphe, dans la tonalité d’un fragment fourni comme point de départ. Ces modèles sont aussi assez simples d’un certain point de vue pour qu’ils puissent être adaptés à de multiples contextes, par exemple la génération de texte, de questions-réponses, la traduction automatique, qui sont des sujets de recherche très actifs à l’heure actuel.

Les dangers sont tout aussi nombreux. Le danger le plus direct de GPT-3 est la possibilité d’inonder le monde de milliards de textes factices ou de fake news. Les concepteurs de GPT-2 (le prédécesseur de GPT-3) n’avaient déjà pas rendu leur code public, car celui-ci était potentiellement trop dangereux (« too dangerous to be released »). Voici un exemple cité par Forbes (comme toujours avec ce modèle, un utilisateur fourni un début de texte que la machine doit compléter) :

Amorce fournie par l’utilisateur : « Recycling is good for the world. NO ! YOU COULD NOT BE MORE WRONG ! »
Suite générée par GPT–2 : « Recycling is NOT good for the world. It is bad for the environment, it is bad for our health, and it is bad for our economy. I’m not kidding. Recycling is not good for the environment. It is destructive to the earth and it is a major contributor to global warming. »

Au-delà, d’autres questions seraient à évoquer. La recherche mais aussi l’usage à large échelle de ces modèles fait exploser l’empreinte carbone du numérique dans des proportions inquiétantes. Le numérique a d’ores et déjà un impact écologique majeur, que les promesses de modèles plus parcimonieux ne sauraient faire oublier. Un autre problème, bien connu mais sans réel solution à l’heure actuelle, est le fait que les modèles reflètent les données sur lesquels ils sont entraînés, et reproduisent donc, voire amplifient les biais présents au sein de la société.

On a aussi souligné que seules les grandes entreprises (les GAFA et au-delà quelques grandes entreprises du numérique) étaient capables de produire ces modèles. C’est donc à nouveau toute la question des relations entre les États et ces sociétés, leur puissance et leur régulation qui est posée.

La version originale de cet article a été publiée sur La Conversation, un site d'actualités à but non lucratif dédié au partage d'idées entre experts universitaires et grand public.

Lire la suite:

HuffPost
Trump Throws Absolute Fit In Late Night Rant For The Strangest Possible Reason
The former president delivered a scathing response to a critic who just endorsed him.
8 hours ago
People
“Call Her Daddy'”s Alex Cooper Models Her Wedding Night Lingerie in Instagram Reveal: See the Racy Look
Cooper wore a sexy lacy bodysuit from SKIMS' Wedding Shop collection after marrying Matt Kaplan in Mexico
16 hours ago
BANG Showbiz
Megan Thee Stallion being sued for ‘forcing cameraman watch her having lesbian sex!’
In a suit being brought by her ex-cameraman, Megan Thee Stallion is being sued for allegedly creating a hostile work environment and forcing her former videographer to watch her having lesbian sex.
2 days ago
The Canadian Press
New York appeals court overturns Harvey Weinstein’s 2020 rape conviction from landmark #MeToo trial
NEW YORK (AP) — New York’s highest court on Thursday overturned Harvey Weinstein ’s 2020 rape conviction, finding the judge at the landmark #MeToo trial prejudiced the ex-movie mogul with “egregious” improper rulings, including a decision to let women testify about allegations that weren’t part of the case. “We conclude that the trial court erroneously admitted testimony of uncharged, alleged prior sexual acts against persons other than the complainants of the underlying crimes," the court's 4-3
43 minutes ago
Cosmo
Sabrina Carpenter looks practically naked in completely see-through lace mini dress
Sabrina Carpenter went braless wearing the Mirror Palais Anemone Dress in butter featuring illusion tulle adorned with lace appliqués along the neckline and hem
3 hours ago
The Canadian Press
Photographer alleges he was forced to watch Megan Thee Stallion have sex and was unfairly fired
LOS ANGELES (AP) — A photographer who worked for Megan Thee Stallion said in a lawsuit filed Tuesday that he was forced to watch her have sex, was unfairly fired soon after and was abused as her employee. In the suit filed in Los Angeles Superior Court, Emilio Garcia said that after a night out in 2022 in Ibiza, Spain, he was in an SUV with the hip-hop star when she began having sex with another woman right next to him. He was unable to get out of the moving car, and would have been in the middl
2 days ago
HuffPost
'How Embarrassing': Trump Mocked For 'Pretending To Be President' In Strange Ceremony
The former president gave a truly bizarre "White House" gift to a visitor.
7 hours ago
BANG Showbiz
'I'm not a millionaire anymore': Charlotte Church's fortune has gone
She was worth £25 million by the time she was 11 years old but Charlotte Church has revealed her fortune has gone.
a day ago
Hello!
Princess Charlotte's secret hidden talent revealed by mum Princess Kate
Princess Charlotte will be celebrating her 9th birthday next week, and she has a cool hidden talent! Her mum Kate Middleton recently opened up about her hobby...
5 hours ago
ABC News
'So appalled': What witnesses told special counsel about Trump's handling of classified info while still president
In the summer of 2019, only hours after an Iranian rocket accidentally exploded at one of Iran's own launch sites, senior U.S. officials met with then-President Donald Trump and shared a sharply detailed, highly classified image of the blast's catastrophic aftermath. Worried that the image becoming public could hurt national security efforts, intelligence officials urged Trump to hold off until more knowledgeable experts were able to weigh in, the sources said.
18 hours ago
People
Joan Collins, 90, Wears Sheer, Embellished Top and Oversize Bow for London Date Night with Her Husband Percy Gibson
The couple, who wed in 2002, supported their friend Gabriela Peacock’s book launch at the Broadwick Soho
20 hours ago
INSIDER
I tried Gordon Ramsay's favorite 10-minute pasta and now I know why he makes it every week
Gordon Ramsay swears by this easy 10-minute pasta dish, which he said has become a "regular midweek family meal" in his house.
17 hours ago
InStyle
Prince Edward and Duchess Sophie Feel Disappointed by King Charles Royal Title "Snub"
The "chosen ones" are reportedly sad they didn't get new roles after Prince William and Kate Middleton's latest appointments.
2 hours ago
HuffPost
Donald Trump Will Hate What Mitt Romney Just Said About The Hush Money Trial
"So far as I know, you don't pay someone $130,000 not to have sex with you," the Utah senator remarked about the ex-president's payments to Stormy Daniels.
2 days ago
People
Kourtney Kardashian's Sexy Bikini Photo from Her 45th Birthday Leaves Husband Travis Barker Melting
Kardashian enjoyed a vacation in paradise with her husband and four kids in honor of "45 trips around the sun"
2 days ago
People
'My Drink Tasted Funny': Pregnant Woman's Last Words Revealed After Alleged Fatal Poisoning by Boyfriend
Jade Benning died on her 25th birthday on March 6 after she was rushed to the hospital the week before
2 days ago
HuffPost
'I Shouldn't Have Said That': Joe Biden Mocks 1 Of Trump's Most Cherished Traits
The president took aim at one of his predecessor's personal trademarks -- and the audience loved it.
10 hours ago
The Daily Beast
How Putin’s Whirlwind Bromance Could End in a Kremlin Tragedy
Sputnik/Alexei Nikolsky/Kremlin via ReutersThe Kremlin is reportedly scrambling to find a successor to Ramzan Kadyrov following reports that the Chechen leader has been diagnosed with necrotizing pancreatitis, a terminal illness, according to Russian media reports.Kadyrov, also known as “Putin's attack dog” or “Putin’s soldier” for his loyalty to Russian President Vladimir Putin, has visited Moscow Central Clinical Hospital regularly through the years to undergo procedures. He was allegedly diag
2 days ago
People
Florida Man Runs Over 11-Foot Alligator with Truck to Save Neighbor from Attack
"We pulled over and I got out of the car and saw that an alligator had him by the leg," Walter Rudder recalled to a local news outlet about the scary incident
a day ago
The Daily Beast
‘Big Scandal’ Behind Russian Deputy Defense Minister’s Arrest
Moscow City Court Press Office/Handout via Reuters Russia’s deputy defense minister was arrested Wednesday just hours after attending a meeting of top military brass, according to federal investigators. Timur Ivanov is officially charged with accepting a massive bribe—but some sources say that’s just for show.“The bribe–that’s for the public. So far they don’t want to talk publicly about treason, it’s a big scandal. After all, it’s the deputy minister of defense,” one unnamed source close to the
a day ago

Une IA « lit » (beaucoup) plus qu’un rat de bibliothèque

Tels des perroquets qui ne comprennent pas ce qu’ils répètent

Influences, impact écologique, biais – des dangers du langage artificiel

Latest Stories