Comment une IA générative fabrique une réponse ?

ÉTAPE 01 Découper le texte

L'IA ne travaille pas avec nos mots — elle commence par des tokens

Un ordinateur ne manipule pas les mots comme nous. Le texte est d'abord découpé en tokens, puis transformé en nombres. Un token peut être un mot très courant, un morceau de mot, un signe, un espace ou même un emoji. En moyenne, on retient souvent l'ordre de grandeur 1 token ≈ 3 à 4 caractères, mais le découpage exact dépend du modèle : chaque IA a son propre tokenizer. Essayez :

1 · Tokenscliquer pour dérouler

Un mot très long, un prénom rare ou un emoji donnera-t-il forcément un seul token ?

Avant d'ouvrir la suite : formule ta réponse en une phrase, puis vérifie avec l'indice.

Voir l'expérience avec le tokenizer

Chaque token reçoit un numéro dans un dictionnaire géant (≈ 100 000 entrées). La phrase devient une suite de nombres :

# « On révise au lycée »
"On" → 4127 "révise" → 9043 "au" → 145 "lycée" → 16320

💡 À retenir : l'IA ne manipule pas directement les phrases comme nous : elle les découpe en tokens, puis les convertit en identifiants numériques. Les morceaux marqués « ## » sont des suites du mot précédent.

🔬 Notre découpage ici est une simulation pédagogique. Pour voir le vrai découpage d'un grand modèle, testez platform.openai.com/tokenizer : selon les langues et les mots choisis, le nombre de tokens peut beaucoup varier.

Afficher la solution

Pas forcément. Un mot courant peut tenir en un seul token, mais un mot long, rare, mal orthographié ou dans une autre langue est souvent découpé en plusieurs morceaux. Un emoji peut aussi compter comme un ou plusieurs tokens selon le tokenizer.

À tester dans l'expérience : saisis un prénom, une faute volontaire ou un emoji, puis regarde si le nombre de tokens augmente.

ÉTAPE 02 Apprendre le sens

Le sens d'un mot vient de ses voisins

Comment une machine devine-t-elle le sens d'« lycée » sans dictionnaire ? Elle lit des milliards de phrases d'Internet et repère quels mots apparaissent juste à côté — et lesquels n'apparaissent jamais à côté. « Dis-moi qui tu fréquentes, je te dirai qui tu es. »

2 · Voisinagecliquer pour dérouler

1 · Observer la grille

Mots rencontrés (ou pas) au voisinage d'« lycée » :

apparaît souvent près d'« lycée » jamais près d'« lycée »

💡 Un mot employé dans les mêmes contextes qu'un autre a sûrement un sens proche. C'est tout le pari : le sens se déduit des fréquentations, pas d'une définition écrite à la main.

2 · Répondre à la question

Après avoir observé la grille, quels mots semblent très éloignés du mot « lycée » ? Et quels mots imaginerais-tu plutôt autour de « pizza » ?

Avant d'afficher la solution : réponds en une phrase. L'objectif n'est pas de trouver une définition, mais de repérer des fréquentations de mots.

Afficher la solution

Autour de « lycée », on attend plutôt professeur, cours, élèves, classe, bac ou contrôle. Des mots comme requin, galaxie, tournevis ou volcan sont beaucoup plus éloignés.

Autour de « pizza », on verrait plutôt fromage, tomate, four, restaurant, pâte, livraison ou dîner. L'idée centrale : un mot prend une partie de son sens grâce aux mots qu'il fréquente souvent.

ÉTAPE 03 Mettre le sens en nombres

Un embedding, c'est transformer un mot en nombres pour le comparer

À l'étape précédente, on a vu qu'un mot prend son sens grâce aux mots qui l'entourent. Maintenant, l'IA rend cette idée calculable : elle associe à chaque token une suite de nombres. On peut l'imaginer comme une fiche d'identité numérique : elle ne donne pas une définition en français, mais elle aide la machine à repérer quels tokens se ressemblent et lesquels sont éloignés.

3A · Fiche numériquecliquer pour dérouler

1 · Voir la maquette des jauges

Idée simple : des mots proches par le sens auront des suites de nombres proches.

1 · MotlycéeUn humain pense à un établissement, des élèves, des cours.

→

2 · Fiche numériquedes jaugesEst-ce plutôt un lieu ? un animal ? une personne ? un objet ?

→

3 · Nombres

embedding(lycée) = [0.03, 0.05, 0.05, 0.03, 0.85, ...]

Pour rendre l'idée visible, on utilise ici seulement 5 jauges. Une jauge, c'est une petite mesure : 0 veut dire « pas du tout », 1 veut dire « beaucoup ». Par exemple, si la jauge Animal est haute, le mot ressemble fortement à un animal. Ce n'est pas encore une vraie IA, c'est une maquette pédagogique pour comprendre le principe.

0.00 → ce trait ne correspond presque pas au mot.

1.00 → ce trait correspond fortement au mot.

🔒 Tu peux déjà cliquer sur « roi », « reine », « Paris » et « lycée ». Le bouton « chat » est bloqué pour que tu essaies d’abord de prévoir sa fiche.

⚠ Ici, les axes ont des noms faciles à comprendre : Royauté, Animal, Lieu… Dans un vrai modèle, il y a souvent des centaines ou des milliers d'axes, et leurs significations sont mélangées : on ne peut pas toujours les nommer proprement.

2 · Répondre à la question

Dans cette maquette, chaque mot a plusieurs jauges. Pour le mot « chat », quelle jauge devrait monter le plus haut : animal, lieu ou royauté ?

Maintenant tu peux cliquer sur « chat ». Compare sa fiche avec celles de « roi », « reine », « Paris » et « lycée ».

Afficher la solution

Animal devrait être très haut. « Chat » n'est normalement ni un lieu, ni un mot de royauté.

Cette démo est volontairement simplifiée : dans un vrai modèle, les dimensions ne s'appellent pas clairement « animal » ou « lieu ». Ce sont des dimensions numériques apprises automatiquement.

3B · Empreinte du senscliquer pour dérouler

1 · Observer les trois empreintes

Voici trois suites de nombres transformées en couleurs pour nos yeux. L'IA, elle, garde les nombres : les couleurs servent seulement à visualiser rapidement la forme du profil.

lycée

collège

pizza

Chaque petite case représente un nombre. Deux lignes qui se ressemblent beaucoup correspondent souvent à deux mots proches par le sens.

2 · Répondre à la question

En regardant seulement les trois empreintes, lequel semble le plus proche de « lycée » : collège ou pizza ?

Avant d'ouvrir l'explication : choisis une réponse et justifie-la par la forme des lignes, pas seulement par ton intuition.

3 · Comprendre l'astuce des couleurs

Pourquoi transformer les nombres en couleurs ?

Une liste comme [0.03, 0.05, 0.05, 0.03, 0.85], on peut encore la lire. Mais une vraie IA manipule souvent des centaines ou des milliers de nombres pour un seul token. À cette taille, la liste devient illisible pour nous.

On transforme donc chaque nombre en couleur, comme un code-barres visuel du sens. Le calcul ne change pas : l'IA utilise les nombres, pas les couleurs. Les couleurs sont une astuce utilisée par les humains — notamment les chercheurs — pour voir rapidement les ressemblances, comme dans une carte de chaleur.

0 = bleu

1 = rouge

0.50

Déplace le curseur : 0.50 devient cette couleur.

Avec la maquette à 5 jauges, le mot « lycée » donne ce mini-profil :

La dernière case ressort nettement : dans notre maquette, la jauge Lieu est haute. Le mot « lycée » est donc placé du côté des lieux.

Afficher la solution

« Collège » ressemble beaucoup plus à « lycée » que « pizza ». Les deux mots appartiennent au monde scolaire : cours, élèves, professeurs, classes, examens.

Vérification avec un score :

lycée

collège

0 %

💡 À retenir : l'embedding n'est pas une phrase cachée dans la machine. C'est une suite de nombres. Deux suites proches permettent à l'IA de faire des rapprochements : lycée ↔ collège, roi ↔ reine, Paris ↔ France.

ÉTAPE 04 Voir le sens

Une carte où le sens des mots devient une distance

Impossible de visualiser des centaines ou milliers de dimensions. En les projetant à 2, on peut obtenir une carte : les mots dont le sens est proche se retrouvent proches sur la carte. Ici, la carte est illustrative : elle sert à comprendre l’idée que la distance représente une proximité de sens entre les mots.

4 · Carte du senscliquer pour dérouler

1 · Observer la carte

↔ Faites glisser la carte pour la parcourir.

🔒 Pour l’instant, observe la carte. Les clics sur les mots serviront à vérifier après l’ouverture de la solution.

Transports Lieux Verbes de déplacement Pronoms Petits mots

💡 Dans une vraie IA, ces familles ne sont pas rangées à la main : elles émergent des textes observés. Dans cette page, elles sont dessinées pour rendre visible l’idée de distance entre les sens des mots.

2 · Répondre à la question

Repère « bus », « collège », « courir » et « avec » sur la carte. À quelle famille de mots appartient chacun d'eux ?

Avant d'afficher la solution : utilise la position et la couleur des groupes. L'idée est de comprendre qu'une distance sur la carte représente une proximité de sens.

Afficher la solution

Bus irait avec les transports. Collège irait près des lieux scolaires. Courir irait avec les verbes de déplacement. Avec irait plutôt avec les petits mots grammaticaux.

La carte est une image simplifiée : dans un vrai modèle, on part de centaines ou milliers de dimensions, puis on les compresse en 2D pour les rendre visibles.

Maintenant, clique sur les mots de la carte pour vérifier leur famille de sens.

ÉTAPE 05 Le cœur du réacteur · Google, 2017

L'attention : chaque mot regarde toute la phrase

En juin 2017, huit chercheurs de Google publient « Attention Is All You Need » et proposent le transformer. Cette architecture devient ensuite une brique centrale des grands modèles de langage modernes. Sa nouveauté pédagogique à retenir : mieux comparer les mots d'une phrase grâce à l'attention.

5 · Attentioncliquer pour dérouler

1 · Lire les deux expressions

1. « J'ai un centre d'intérêt. »

2. « La banque augmente son taux d'intérêt. »

2 · Répondre à la question

Dans ces deux expressions, pourquoi le mot « intérêt » ne veut-il pas dire la même chose ?

Avant d'ouvrir la démonstration : cherche quels mots autour de « intérêt » changent son sens.

3 · Voir la démonstration sur l'attention

Avant 2017

Mot après mot

Beaucoup d'anciens systèmes traitaient le texte séquentiellement, mot après mot. C'était plus difficile de garder loin le contexte.

Transformer

Tout en même temps

Le transformer compare tous les mots simultanément. Chaque mot « pèse » l'importance des autres pour fixer son sens.

Prenons le mot « intérêt ». Curiosité ou argent ? Tout dépend du contexte. Changez la phrase et voyez sur quels mots l'IA porte son attention :

Et quand « intérêt » apparaît deux fois dans la même phrase :

Je n' ai aucun intérêt à entendre parler de la hausse des taux d' intérêt de la banque.

L'attention garde les deux sens séparés : le 1ᵉʳ intérêt = curiosité, le 2ᵈ intérêt = financier. Un résumé n'irait donc jamais remplacer le premier par « enthousiasme », ni le second par « dividendes ».

Plus fort encore : dans une même phrase, l'attention sait à quoi se rapporte un petit mot comme « il ». Changez un seul mot :

💡 À retenir : le sens d'un mot n'est pas figé. Il est recalculé à chaque phrase selon le voisinage. Sans cette capacité, l'IA confondrait « centre d'intérêt » et « taux d'intérêt ». C'est l'idée clef popularisée par l'architecture transformer.

Afficher la solution

Le mot seul ne suffit pas. Dans centre d'intérêt, les mots autour orientent vers l'idée de curiosité ou de passion. Dans taux d'intérêt, les mots autour orientent vers l'argent, la banque, le crédit.

L'attention sert précisément à cela : chaque mot « regarde » les autres mots de la phrase pour fixer son sens dans ce contexte précis.

ÉTAPE 06 La machine à parier

Générer, c'est deviner le mot suivant

Une fois le contexte représenté, le modèle attribue à chaque token possible une probabilité d'être le suivant. Il en choisit un, l'ajoute au texte, puis recommence. Token après token, jusqu'au bout.

6 · Mot suivantcliquer pour dérouler

Après « Le week-end, je traîne avec mes… », quel mot te semble le plus probable ?

Avant d'ouvrir la suite : formule ta réponse en une phrase, puis vérifie avec l'indice.

Voir la machine à prédire

1 · Tokenisation

Lechienmordl'homme

↓

2 · Embeddings + position

↓

3 · Attention

↓

4 · Sortie encodée

Le modèle encode aussi la position de chaque mot — car « le chien mord l'homme » n'a pas le même sens que « l'homme mord le chien ». Au bout de cette chaîne, il dispose d'un bloc de données qui résume sens, position et relations. Son seul but, désormais : prédire le mot suivant.

🔒 Tu peux tester les autres débuts de phrase. Celui du défi — « Le week-end, je traîne avec mes… » — reste bloqué jusqu’à la solution.

🔁 ChatGPT n'écrit pas une phrase « d'un coup ». Il génère un token à la fois, en bouclant des milliers de fois. Une réponse entière, c'est « prédire le prochain token » répété des centaines ou milliers de fois.

Comment choisir parmi les tokens probables ?

Gloutonne

Le plus probable, à chaque coup

Simple et rapide : à chaque étape, on prend le token numéro 1. Mais la réponse peut devenir plate ou répétitive.

Échantillonnage

Piocher selon les probabilités

À chaque étape, le modèle peut piocher un token parmi les tokens probables. La température règle le niveau de prudence ou d'audace.

Recherche en faisceau

Comparer plusieurs suites

Autre stratégie : on garde plusieurs continuations possibles et on retient celle qui paraît la meilleure dans son ensemble.

Exemple séparé : recherche en faisceau. Ici, on ne tire pas au hasard : on compare plusieurs suites candidates et on retient celle qui semble la plus cohérente globalement.

option A… un examen.

★ retenue… la dernière ligne droite avant la fac.

option C… en juin.

Pourquoi la même question donne des réponses différentes

Le modèle peut jouer la sécurité (toujours le mot le plus probable) ou oser piocher un mot moins évident. Ce réglage s'appelle la température :

Début imposé : « Le samedi soir, j'aime… »

0.2

prudentcréatif

Basse → sûr et prévisible (bien pour une définition, un calcul). Haute → varié et surprenant (bien pour inventer une histoire)… mais plus risqué. La température ne rend pas l'IA plus intelligente : elle change seulement sa façon de choisir parmi les tokens probables, étape par étape.

Afficher la solution

Une suite très probable serait amis. On pourrait aussi imaginer copains, potes, cousins ou parents selon le contexte.

Un modèle de langage fait exactement ce type de pari, mais à très grande échelle : il donne une probabilité à beaucoup de tokens possibles, en choisit un, puis recommence.

ÉTAPE 07 La limite à connaître

Pourquoi l'IA invente parfois avec aplomb

Une IA générative n'est pas un moteur de recherche qui va chercher des faits. C'est une machine à repérer des motifs et à parier sur la suite la plus plausible. Or « plausible » n'est pas « vrai ». Quand elle invente, on parle d'hallucination.

7 · Hallucinationcliquer pour dérouler

Le « téléphone à eau » est volontairement une fausse invention : il n’existe pas. Alors pourquoi une réponse d’IA à son sujet peut-elle tout de même paraître crédible au premier coup d’œil ? Comment la vérifier ?

Avant d’ouvrir la suite : retiens bien le piège : la question porte sur quelque chose d’inventé. Cherche pourquoi le style peut quand même donner une impression de sérieux.

Voir l’exemple et le vrai/faux

Question : « Qui a inventé le téléphone à eau en 1881 ? »

Réponse de l'IA :
« Le téléphone à eau fut mis au point par l'ingénieur français Henri Duval, en 1881, à Lyon… »

⚠ Ni ce savant ni cet objet n'ont jamais existé.
L'IA a simplement assemblé des mots crédibles pour « faire une phrase qui sonne juste ».

Elle peut fabriquer des chiffres, des dates, des citations, des sources entièrement faux — avec la même assurance que lorsqu'elle dit vrai. Ce n'est pas un bug rare : en 2023, dans l'affaire Mata v. Avianca, des avocats new-yorkais ont déposé un mémoire contenant des décisions de justice totalement inventées par ChatGPT. Le tribunal les a sanctionnés.

Source discrète pour vérifier l'exemple : Reuters · décision du tribunal.

« Une réponse très bien écrite est probablement vraie. »

Faux. Le style peut être impeccable même quand les faits sont inventés.

« Une IA peut inventer une source ou une citation. »

Vrai. Les noms, dates, liens et citations doivent être vérifiés.

« Si l'enjeu est important, je dois recouper. »

Vrai. Santé, droit, argent, sécurité, orientation : on vérifie toujours.

🧭 La règle d'or : une IA générative est un formidable assistant, jamais une source de vérité. On vérifie toujours les faits, les chiffres, les citations. Les laboratoires l'améliorent (recoupement avec des recherches web, corrections humaines), mais le risque ne disparaît jamais complètement.

Afficher la solution

Elle paraît crédible parce qu'elle contient des éléments qui font sérieux : un nom propre, une date, une ville, un ton assuré. Mais ces signes de sérieux ne prouvent rien.

Pour vérifier, la première étape est de se demander : l’objet existe-t-il vraiment ? Ensuite seulement on cherche une source fiable et indépendante : encyclopédie reconnue, article historique sérieux, source institutionnelle, ou plusieurs sources concordantes. Une belle phrase n’est pas une preuve.

POUR ALLER PLUS LOIN Images · code · biologie

Et ce n'est pas que du texte : images, code, biologie

Cette partie est un prolongement : elle peut être lue après la séance. Le texte n’est qu’un cas particulier. Dès qu’on peut représenter quelque chose par des nombres — mots, pixels, lignes de code, acides aminés — une IA peut apprendre des régularités et générer du nouveau. Le principe général reste proche, mais les modèles utilisés ne sont pas toujours les mêmes.

🖼️

ImagesDu bruit vers une image

Beaucoup de générateurs d’images utilisent la diffusion : on part d’une image brouillée, presque du bruit, puis le modèle la nettoie étape par étape en suivant le texte demandé. Il ne prédit donc pas simplement « le pixel suivant » : il transforme progressivement un brouillard numérique en image cohérente.

ChatGPT Images Midjourney Adobe Firefly Stable Diffusion

💻

CodeDu langage vers un programme

Pour le code, l’IA lit le contexte : le fichier, les fonctions déjà écrites, l’erreur affichée, la consigne. Elle propose ensuite une suite plausible : une ligne, une fonction, un test ou une correction. Très utile, mais à vérifier comme un travail d’élève ou de collègue.

GitHub Copilot Cursor OpenAI Codex Replit Agent

🧬

BiologieDes molécules comme des séquences

Une protéine peut être vue comme une chaîne d’acides aminés, un peu comme une phrase écrite avec un alphabet biologique. Certaines IA prédisent la forme 3D d’une protéine à partir de sa séquence ; d’autres aident à imaginer de nouvelles protéines ou molécules candidates.

AlphaFold Server AlphaFold RFdiffusion NVIDIA BioNeMo

💡 À retenir : le transformer n’explique pas absolument toute l’IA. Mais la grande idée — transformer le monde en nombres, apprendre des relations, générer une suite plausible — se retrouve dans beaucoup de domaines.

Pour continuer la discussion

6 questions ouvertes — sans réponse unique. Clique sur une question pour afficher des pistes : elles servent à lancer la discussion, pas à donner une vérité définitive.

Si une IA ne fait que « deviner le mot suivant », peut-on dire qu'elle comprend ce qu'elle écrit ? Qu'est-ce que « comprendre », au fond ?

▸ afficher des pistes
- Camp « non » : elle manipule des formes (statistiques de mots) sans lien avec le monde réel, sans intention ni expérience vécue. C'est l'idée de la « chambre chinoise » de Searle : aligner des symboles selon des règles ≠ saisir leur sens.
- Camp « oui, en partie » : bien prédire la suite oblige à capturer de vraies régularités (grammaire, logique, relations de sens). Certains parlent de « compréhension fonctionnelle » : si ça se comporte comme une compréhension, quelle est la différence observable ?
- À ouvrir : « comprendre » mélange plusieurs choses — manipuler du sens, avoir une intention, être conscient. L'IA peut exceller à la première sans les autres. Aucun consensus scientifique.
Elle a appris en lisant Internet. Quels préjugés et erreurs du web risque-t-elle de recopier ?

▸ afficher des pistes
- Stéréotypes : elle reproduit ce qui est surreprésenté dans les données — clichés de genre ou d'origine, point de vue dominant (anglophone, occidental), opinion majoritaire présentée comme un fait.
- Fausses infos : elle hérite aussi des erreurs, rumeurs et théories complotistes présentes en ligne.
- Amplification : en générant à très grande échelle, elle peut renforcer ces biais. Garde-fous : filtrage des données, corrections humaines, tests de biais — jamais parfaits.
Puisqu'elle invente avec aplomb, dans quels métiers serait-il dangereux de lui faire confiance sans vérifier ?

▸ afficher des pistes
- Enjeux vitaux ou juridiques : médecine (diagnostic), droit (l'affaire réelle des avocats aux fausses jurisprudences), journalisme (sources inventées), finance, sécurité, ingénierie — là où l'erreur coûte cher et passe inaperçue.
- Le vrai danger n'est pas le métier mais l'absence de vérification. Bon usage : l'IA en « copilote ». Mauvais usage : en « pilote automatique ».
- À ouvrir : qui est responsable si l'IA se trompe ? Aujourd'hui, c'est l'humain qui l'utilise.
Pour un devoir, où passe la limite entre s'aider et tricher ?

▸ afficher des pistes
- Un curseur, pas une frontière nette. S'aider : comprendre une notion, obtenir un plan, corriger sa langue, avoir un retour. Tricher : faire produire le travail à sa place et le présenter comme le sien.
- Trois bons tests : est-ce que j'apprends quelque chose ? Saurais-je le refaire seul ? Puis-je l'assumer ouvertement devant le prof ?
- À ouvrir : la règle dépend de l'établissement et de la consigne. Comment évaluer, à l'ère de l'IA ?
Une IA qui choisit toujours le mot le plus probable peut-elle être vraiment originale ?

▸ afficher des pistes
- Camp « non » : « le plus probable » tend vers le convenu, le cliché. Par construction elle recombine l'existant ; elle ne crée pas de rupture.
- Camp « un peu » : avec une part de hasard (la température), des associations inattendues émergent — une originalité « combinatoire ». Et beaucoup de créativité humaine est, elle aussi, de la recombinaison.
- À ouvrir : qu'est-ce que l'originalité — nouveauté, intention, rupture ? L'IA n'a ni intention ni vécu ; peut-elle « vouloir » créer ?
Si la même technologie génère textes, images, voix et code, quelles nouvelles arnaques deviennent possibles ?

▸ afficher des pistes
- Deepfakes : voix et visage imités — faux appel « au secours » d'un proche, faux patron ordonnant un virement, fausse vidéo compromettante.
- Hameçonnage parfait : mails sans fautes, personnalisés, à grande échelle ; faux profils, faux avis, faux sites.
- Faux contenus de masse : désinformation, fausses « preuves » image/vidéo, fraude scolaire.
- Défenses : vérifier la source, recouper, un mot de passe convenu en famille, les outils de détection — et surtout l'esprit critique.

L'IA ne travaille pas avec nos mots — elle commence par des tokens

Le sens d'un mot vient de ses voisins

Un embedding, c'est transformer un mot en nombres pour le comparer

Une carte où le sens des mots devient une distance

L'attention : chaque mot regarde toute la phrase

Mot après mot

Tout en même temps

Générer, c'est deviner le mot suivant

Le plus probable, à chaque coup

Piocher selon les probabilités

Comparer plusieurs suites

Pourquoi l'IA invente parfois avec aplomb

Et ce n'est pas que du texte : images, code, biologie

De ta phrase à la réponse : la chaîne complète

Pour continuer la discussion