Le fonctionnement de chatGPT

ChatGPT, l’IA de OpenAI qui est sorti en fin d’année 2022, est très utilisé et par plus d’un demi-milliard de personnes, dans tous les métiers du digital et bien entendu par les particuliers.

Beaucoup de personne font confiance à ChatGPT, vous et peut-être que vous aussi, mais savez-vous qu’elle est très convaincante pour, vous affirmez que 1+1=3 ?!

En effet, l’IA ne sait absolument pas ce que signifie tel ou tel mot, elle arrive à prédire les prochains mots grâce au contexte que vous lui avez donné en amont (les questions que vous lui écrivez dans le prompt), on appelle ça, la “Fenêtre de contexte“. Elle a une taille prédéfinie, qui est délimitée par ses créateurs, en l’occurrence ici, OpenAI. Toutes les IA actuelles sont similaires, vous devez leur écrire quelque chose (le prompt) pour qu’elles puissent vous répondre.

Prédiction des mots

Ce qu’il faut savoir c’est que, chaque mot donné et expression dans le prompt / dans la “Fenêtre de contexte”, correspond à une suite de numéro appelé “token” (jeton en anglais), c’est la seule solution qui lui permette de définir quel “token” il va définir pour la suite de la phrase.

Par exemple, ChatGPT 3.5 (la version de novembre 2022) a une taille délimitée à 4 096 “tokens” et ChatGPT-4 a une taille délimitée à 32 000 “tokens”, ce qui signifie qu’on peut lui donner 25 000 mots (dans le prompt) – en format standard, c’est équivalent à une centaine de pages – et que potentiellement chacun d’entre eux seront pris en compte pour générer des “tokens” de sortie (quand l’IA nous répond) et avoir des phrases complètes qui se suivent. Cela signifie aussi que ChatGPT-4 peut se rappeler une information si besoin, qui est située 25 000 mots, plus tôt dans le texte.

La réponse de chatGPT

Lorsqu’on cherche le prochain mot d’une phrase ou d’un texte, il n’y a jamais qu’une seule réponse possible, en effet, ChatGPT va déterminer quel est le mot le plus probable dans une liste de mot qu’il aura défini et vous affichera celui qu’il estime avoir la plus forte probabilité.

Sur le site de OpenAI, il est possible de visualiser la liste des différents mots qu’il pourrait afficher en jouant avec le “playground”, par exemple, on peut lui donner la phrase suivante :

La souris est mangée par le … “, et voici la liste de mots qu’il a choisi avec leur probabilité de sortie :

  • Chat (90%)
  • Chien (7%)
  • Corbeau (1%)
  • Serpent (0.8%)

Il affiche donc le “chat” puisque la probabilité est la plus élevée.

Pour bien comprendre, voici un autre exemple de phrase, nous allons l’écrire en anglais puisque le modèle a été entrainé avec beaucoup plus de contenu anglais que français, ce qui signifie que les résultats ne seront pas biaisés :

Christopher Columbus discovered America in“, il va répondre “1492“, mais il faut bien comprendre pourquoi il a répondu cela, même si c’est vrai. Ce n’est pas parce qu’il a un concept de vérité sur cette question, pour lui ce n’est même pas une question, c’est parce que les textes qui lui ont été fournis pendant l’entrainement, les mots “Christopher Columbus“, “discovered“, “America” sont généralement associés au mot “1492“. Et donc pour la machine, le mot “1492” est de loin la suite la plus naturelle à ce début de phrase. Comme dit précédemment, le mot “1492” n’était pas le seul désigné :

Un autre concept à bien comprendre, lorsqu’on utilise GPT, on ne va pas forcément générer des vraies choses. Voici un exemple pour illustrer :

Si je lui donne la phrase “Guillaume Auriacombe discovered America in“, on est d’accord, que cela n’a aucun lien avec la réalité, mais GPT va quand même donner une réponse, et ne va pas s’attarder sur le fait que ça soit faux. Il fait donc la seule chose qu’il sache faire, il propose une réponse la plus probable pour compléter la phrase : “1492“. Il essaye de générer un mot qui semble le plus approprié par rapport à l’entrainement qu’il a eu.

Même si le début de la phrase est totalement fausse, il associe fortement les mots “discovered” et “America” au mot “1492“.

Un autre exemple, si je tape comme prompt “In the James Bond movie “Betrayal never hides”, James Bond is played by actor”, il n’y a pas de notion de vraie ou fausse, puisque j’ai inventé le nom du film. Mais GPT ne regarde pas si ce qu’on lui donne est juste et propose une suggestion “Daniel Craig” qui pourrait être le plus plausible. Même si le film n’existe pas, la réponse donnée aurait pu être possible et en concordance dans la réalité et donc dans l’entrainement initial.

À RETENIR : Il faut bien comprendre que ChatGPT n’a aucun raisonnement, aucune conscience, ne cherche pas à savoir si c’est véridique, et ne comprends pas les sens des mots qu’il emploie. Il suggère les prochains mots qui auraient pu être possible et raisonnable vis-à-vis de son corpus d’entrainement. Les mots qu’il a proposés dans les exemples que je vous ai donné auraient pu être plausible et véridique, dans le sens où, ça n’aurait pas été absurde de lire ces mots-là, associés ensemble et de cette façon dans le corpus initial. GPT ne considère pas qu’on s’adresse à lui et qu’on lui pose une question, il considère qu’il faut compléter le texte. Son seul objectif est de prédire le prochain mot dans un texte !

Une IA que l’on utilise au quotidien

Vous utilisez tous les jours une IA sans le savoir, vous ne devinez pas ? Non… vraiment ? On l’appelle souvent le “correcteur orthographique”. Hé oui ! C’est exactement le même fonctionnement que ChatGPT. Il vous aide à trouver le prochain mot selon vos habitudes. Que ce soit les gros modèles de langages (ChatGPT entre autres) ou votre correcteur orthographique, ils ont le même objectif, mais ne fonctionne pas de la même façon pour réaliser ce même objectif. Mais ils fonctionnent beaucoup mieux, car ils sont entrainés sur une quantité astronomique de données récupérées sur internet bien fréquemment ou dans des livres numérisés, comme Wikipédia et des millions d’autres sites officiels plus ou moins filtrés. Pour que le modèle améliore ses prédictions pendant sa phase d’entrainement, c’est-à-dire que ses prédictions soient les plus probables possibles, il peut ajuster ses propres paramètres lui-même. Par exemple, ChatGPT 3.5 est composé de 175 milliards de paramètres, qui lui permettent de définir les prochains mots dans un texte.

Google VS chatGPT

La différence entre Google et ChatGPT, quand vous posez une question à Google, il vous donne des sources sans rien dire et c’est à vous de trouver la réponse là-dedans ; a contrario, ChatGPT, va vous donner une réponse sans rien sourcer, une réponse très vraisemblable, mais loin d’être toujours correcte.

chatGPT aux échecs

Il y a beaucoup d’articles sur internet qui révèle que ChatGPT à un très bon QI. Par exemple, prenons un exemple aux échecs, il est de 83, ce qui est vraiment pas mal. On peut tenter de jouer avec lui et il se débrouille très bien, du moins à chaque début de partie.

Mais pourquoi qu’au début ?

En fait, même s’il n’a pas été entrainé pour ça, il fait des coups permis et il est plutôt bon dans les ouvertures, puisqu’il peut répéter directement plusieurs coups qu’il a déjà eus dans ses données d’entrainement. Mais au bout d’un certain temps, dans les parties, il commence à faire des coups complètement mauvais et aléatoires. Au début d’une partie d’échec, il y a beaucoup de possibilité possible à jouer et ce sont souvent les mêmes qui se répètent, c’est pour cela que l’on peut se dire qu’il fait des coups “incroyables” – lorsque l’on a jamais vu d’IA jouer aux échecs – et plus la partie dure dans le temps, plus les coups à jouer sont moins communs puisque chaque partie d’échec est toujours différentes.

En fin de compte, ChatGPT va être capable d’imiter les coups déjà joués par des joueurs dans d’autres parties d’échecs, et qui ont été donnés dans les sources d’entrainement. Autrement dit, il va jouer comme un joueur typique d’échiquier. Si vous preniez du recul, on aurait du mal à dire qu’il “joue” aux échecs pour cette raison, dans le sens où son objectif n’est pas de gagner, c’est-à-dire de jouer des coups qui maximise sa probabilité de victoire, l’objectif du modèle (GPT) à chaque coup est encore et toujours de prédire la suite du prochain coup. ChatGPT serait donc un joueur très différent des IA qui sont spécialisées dans les échecs (Alphazero, Stockfish, etc.), dont le seul objectif est de gagner et de maximiser leur chance de victoire. C’est pour cela qu’une IA ne pourra JAMAIS être multitâche, elle sera TOUJOURS parfaite dans un domaine bien spécifique, l’objectif étant bien spécifique, il n’est pas possible de donner plusieurs objectifs à une IA et donc, elle ne sera jamais multitâche comme un être humain.

Tout cela pour dire que c’est exactement ce qu’il se passe pour toutes les demandes que vous faites réaliser à chatGPT, il faut se souvenir qu’il ne cherche pas à les réaliser, il cherche juste à prédire d’une façon la plus cohérente par rapport à leur donnée d’entrainement, la suite d’un texte qui décrit cette demande.

Conclusion

Pour conclure, si vous l’utilisez, vous devez ABSOLUMENT connaitre le sujet que vous lui donnez, la seconde solution, est d’accorder une grande importance à sa réponse et de TOUJOURS vérifier les informations qu’il donne. On ne peut pas le croire sur parole, que ce soit ChatGPT ou tout autre IA. Le texte généré ne doit pas être considéré comme une réponse, mais comme une prédiction, une complétion crédible à partir d’un contexte. Même s’il dit vrai, il prédit TOUJOURS et simplement la suite la plus probable d’un texte qui commencerait par votre prompt.

Lorsqu’il dit vrai, c’est simplement un effet secondaire, sa fonction n’étant pas de donner ces informations, mais d’inventer une suite crédible à votre texte. Puisque je le rappelle, son objectif principal, et il y en a qu’un seul, c’est de compléter le texte. On peut avoir l’impression qu’il va chercher les informations dans une base de données, mais ce n’est pas du tout comme cela que ça fonctionne, il est toujours en train de prédire un texte.

Enfin, lorsque vous annoncez que c’est la fin des recherches Google parce qu’il suffit de poser les questions à ChatGPT, je trouve cela très problématique de diffuser cette idée (même avec les plugins existants). On ne peut jamais savoir si une réponse de ChatGPT est véridique, et c’est très difficile de le détecter, si on ne connait pas le sujet que l’on aborde avec lui.

Toujours pas convaincu ?

Voici d’autres exemples complètement absurdes :


Source : https://www.sales-hacking.com/post/statistiques-chatgpt

Source : https://towardsdatascience.com/gpt-3-play-chess-d123a96096a9

Source : https://www.capital.fr/entreprises-marches/bloom-lintelligence-artificielle-made-in-france-na-rien-a-envier-a-chatgpt-1459927

Notre Newsletter

Adhérez au Club Cyber et recevez l'actualité directement dans votre boite mail ! Profitez également de nos offres exclusives d'e-learning et de nos webinaires privés !

spot_img

Dans la même catégorie