Sciences numériques · Seconde · stage découverte · ~30 minutes
Cette page a été préparée pour des élèves de Seconde accueillis en stage d'observation. Elle sert de support interactif pour découvrir, en 30 minutes, comment fonctionne une IA générative, ce qu'elle sait faire, et pourquoi il faut vérifier ce qu'elle affirme.
ChatGPT, Gemini ou Le Chat sont des services qui s'appuient sur des LLM, c'est-à-dire de grands modèles de langage. On dirait qu'ils comprennent, qu'ils réfléchissent. En réalité, une réponse suit une chaîne très concrète : le texte est découpé en tokens, transformé en nombres, comparé grâce à l'attention, puis prolongé morceau par morceau par prédiction. Nous verrons ensuite le rôle du transformer, l'architecture qui a rendu ces modèles très puissants — et pourquoi une IA peut être brillante tout en se trompant avec assurance.
Avant de commencer : selon toi, une IA comprend-elle vraiment ce qu'elle écrit ?
Un ordinateur ne manipule pas les mots comme nous. Le texte est d'abord découpé en tokens, puis transformé en nombres. Un token peut être un mot très courant, un morceau de mot, un signe, un espace ou même un emoji. En moyenne, on retient souvent l'ordre de grandeur 1 token ≈ 3 à 4 caractères, mais le découpage exact dépend du modèle : chaque IA a son propre tokenizer. Essayez :
Un mot très long, un prénom rare ou un emoji donnera-t-il forcément un seul token ?
Chaque token reçoit un numéro dans un dictionnaire géant (≈ 100 000 entrées). La phrase devient une suite de nombres :
Pas forcément. Un mot courant peut tenir en un seul token, mais un mot long, rare, mal orthographié ou dans une autre langue est souvent découpé en plusieurs morceaux. Un emoji peut aussi compter comme un ou plusieurs tokens selon le tokenizer.
À tester dans l'expérience : saisis un prénom, une faute volontaire ou un emoji, puis regarde si le nombre de tokens augmente.
Comment une machine devine-t-elle le sens d'« lycée » sans dictionnaire ? Elle lit des milliards de phrases d'Internet et repère quels mots apparaissent juste à côté — et lesquels n'apparaissent jamais à côté. « Dis-moi qui tu fréquentes, je te dirai qui tu es. »
Mots rencontrés (ou pas) au voisinage d'« lycée » :
Après avoir observé la grille, quels mots semblent très éloignés du mot « lycée » ? Et quels mots imaginerais-tu plutôt autour de « pizza » ?
Autour de « lycée », on attend plutôt professeur, cours, élèves, classe, bac ou contrôle. Des mots comme requin, galaxie, tournevis ou volcan sont beaucoup plus éloignés.
Autour de « pizza », on verrait plutôt fromage, tomate, four, restaurant, pâte, livraison ou dîner. L'idée centrale : un mot prend une partie de son sens grâce aux mots qu'il fréquente souvent.
À l'étape précédente, on a vu qu'un mot prend son sens grâce aux mots qui l'entourent. Maintenant, l'IA rend cette idée calculable : elle associe à chaque token une suite de nombres. On peut l'imaginer comme une fiche d'identité numérique : elle ne donne pas une définition en français, mais elle aide la machine à repérer quels tokens se ressemblent et lesquels sont éloignés.
Pour rendre l'idée visible, on utilise ici seulement 5 jauges. Une jauge, c'est une petite mesure : 0 veut dire « pas du tout », 1 veut dire « beaucoup ». Par exemple, si la jauge Animal est haute, le mot ressemble fortement à un animal. Ce n'est pas encore une vraie IA, c'est une maquette pédagogique pour comprendre le principe.
⚠ Ici, les axes ont des noms faciles à comprendre : Royauté, Animal, Lieu… Dans un vrai modèle, il y a souvent des centaines ou des milliers d'axes, et leurs significations sont mélangées : on ne peut pas toujours les nommer proprement.
Dans cette maquette, chaque mot a plusieurs jauges. Pour le mot « chat », quelle jauge devrait monter le plus haut : animal, lieu ou royauté ?
Animal devrait être très haut. « Chat » n'est normalement ni un lieu, ni un mot de royauté.
Cette démo est volontairement simplifiée : dans un vrai modèle, les dimensions ne s'appellent pas clairement « animal » ou « lieu ». Ce sont des dimensions numériques apprises automatiquement.
Voici trois suites de nombres transformées en couleurs pour nos yeux. L'IA, elle, garde les nombres : les couleurs servent seulement à visualiser rapidement la forme du profil.
Chaque petite case représente un nombre. Deux lignes qui se ressemblent beaucoup correspondent souvent à deux mots proches par le sens.
En regardant seulement les trois empreintes, lequel semble le plus proche de « lycée » : collège ou pizza ?
Une liste comme [0.03, 0.05, 0.05, 0.03, 0.85], on peut encore la lire. Mais une vraie IA manipule souvent des centaines ou des milliers de nombres pour un seul token. À cette taille, la liste devient illisible pour nous.
On transforme donc chaque nombre en couleur, comme un code-barres visuel du sens. Le calcul ne change pas : l'IA utilise les nombres, pas les couleurs. Les couleurs sont une astuce utilisée par les humains — notamment les chercheurs — pour voir rapidement les ressemblances, comme dans une carte de chaleur.
Avec la maquette à 5 jauges, le mot « lycée » donne ce mini-profil :
La dernière case ressort nettement : dans notre maquette, la jauge Lieu est haute. Le mot « lycée » est donc placé du côté des lieux.
« Collège » ressemble beaucoup plus à « lycée » que « pizza ». Les deux mots appartiennent au monde scolaire : cours, élèves, professeurs, classes, examens.
Vérification avec un score :
Impossible de visualiser des centaines ou milliers de dimensions. En les projetant à 2, on peut obtenir une carte : les mots dont le sens est proche se retrouvent proches sur la carte. Ici, la carte est illustrative : elle sert à comprendre l’idée que la distance représente une proximité de sens entre les mots.
↔ Faites glisser la carte pour la parcourir.
Repère « bus », « collège », « courir » et « avec » sur la carte. À quelle famille de mots appartient chacun d'eux ?
Bus irait avec les transports. Collège irait près des lieux scolaires. Courir irait avec les verbes de déplacement. Avec irait plutôt avec les petits mots grammaticaux.
La carte est une image simplifiée : dans un vrai modèle, on part de centaines ou milliers de dimensions, puis on les compresse en 2D pour les rendre visibles.
Maintenant, clique sur les mots de la carte pour vérifier leur famille de sens.
En juin 2017, huit chercheurs de Google publient « Attention Is All You Need » et proposent le transformer. Cette architecture devient ensuite une brique centrale des grands modèles de langage modernes. Sa nouveauté pédagogique à retenir : mieux comparer les mots d'une phrase grâce à l'attention.
1. « J'ai un centre d'intérêt. »
2. « La banque augmente son taux d'intérêt. »
Dans ces deux expressions, pourquoi le mot « intérêt » ne veut-il pas dire la même chose ?
Beaucoup d'anciens systèmes traitaient le texte séquentiellement, mot après mot. C'était plus difficile de garder loin le contexte.
Le transformer compare tous les mots simultanément. Chaque mot « pèse » l'importance des autres pour fixer son sens.
Prenons le mot « intérêt ». Curiosité ou argent ? Tout dépend du contexte. Changez la phrase et voyez sur quels mots l'IA porte son attention :
Et quand « intérêt » apparaît deux fois dans la même phrase :
Plus fort encore : dans une même phrase, l'attention sait à quoi se rapporte un petit mot comme « il ». Changez un seul mot :
Le mot seul ne suffit pas. Dans centre d'intérêt, les mots autour orientent vers l'idée de curiosité ou de passion. Dans taux d'intérêt, les mots autour orientent vers l'argent, la banque, le crédit.
L'attention sert précisément à cela : chaque mot « regarde » les autres mots de la phrase pour fixer son sens dans ce contexte précis.
Une fois le contexte représenté, le modèle attribue à chaque token possible une probabilité d'être le suivant. Il en choisit un, l'ajoute au texte, puis recommence. Token après token, jusqu'au bout.
Après « Le week-end, je traîne avec mes… », quel mot te semble le plus probable ?
Le modèle encode aussi la position de chaque mot — car « le chien mord l'homme » n'a pas le même sens que « l'homme mord le chien ». Au bout de cette chaîne, il dispose d'un bloc de données qui résume sens, position et relations. Son seul but, désormais : prédire le mot suivant.
Simple et rapide : à chaque étape, on prend le token numéro 1. Mais la réponse peut devenir plate ou répétitive.
À chaque étape, le modèle peut piocher un token parmi les tokens probables. La température règle le niveau de prudence ou d'audace.
Autre stratégie : on garde plusieurs continuations possibles et on retient celle qui paraît la meilleure dans son ensemble.
Exemple séparé : recherche en faisceau. Ici, on ne tire pas au hasard : on compare plusieurs suites candidates et on retient celle qui semble la plus cohérente globalement.
Le modèle peut jouer la sécurité (toujours le mot le plus probable) ou oser piocher un mot moins évident. Ce réglage s'appelle la température :
Début imposé : « Le samedi soir, j'aime… »
Une suite très probable serait amis. On pourrait aussi imaginer copains, potes, cousins ou parents selon le contexte.
Un modèle de langage fait exactement ce type de pari, mais à très grande échelle : il donne une probabilité à beaucoup de tokens possibles, en choisit un, puis recommence.
Une IA générative n'est pas un moteur de recherche qui va chercher des faits. C'est une machine à repérer des motifs et à parier sur la suite la plus plausible. Or « plausible » n'est pas « vrai ». Quand elle invente, on parle d'hallucination.
Le « téléphone à eau » est volontairement une fausse invention : il n’existe pas. Alors pourquoi une réponse d’IA à son sujet peut-elle tout de même paraître crédible au premier coup d’œil ? Comment la vérifier ?
Elle peut fabriquer des chiffres, des dates, des citations, des sources entièrement faux — avec la même assurance que lorsqu'elle dit vrai. Ce n'est pas un bug rare : en 2023, dans l'affaire Mata v. Avianca, des avocats new-yorkais ont déposé un mémoire contenant des décisions de justice totalement inventées par ChatGPT. Le tribunal les a sanctionnés.
Source discrète pour vérifier l'exemple : Reuters · décision du tribunal.
Elle paraît crédible parce qu'elle contient des éléments qui font sérieux : un nom propre, une date, une ville, un ton assuré. Mais ces signes de sérieux ne prouvent rien.
Pour vérifier, la première étape est de se demander : l’objet existe-t-il vraiment ? Ensuite seulement on cherche une source fiable et indépendante : encyclopédie reconnue, article historique sérieux, source institutionnelle, ou plusieurs sources concordantes. Une belle phrase n’est pas une preuve.
Cette partie est un prolongement : elle peut être lue après la séance. Le texte n’est qu’un cas particulier. Dès qu’on peut représenter quelque chose par des nombres — mots, pixels, lignes de code, acides aminés — une IA peut apprendre des régularités et générer du nouveau. Le principe général reste proche, mais les modèles utilisés ne sont pas toujours les mêmes.
Beaucoup de générateurs d’images utilisent la diffusion : on part d’une image brouillée, presque du bruit, puis le modèle la nettoie étape par étape en suivant le texte demandé. Il ne prédit donc pas simplement « le pixel suivant » : il transforme progressivement un brouillard numérique en image cohérente.
Pour le code, l’IA lit le contexte : le fichier, les fonctions déjà écrites, l’erreur affichée, la consigne. Elle propose ensuite une suite plausible : une ligne, une fonction, un test ou une correction. Très utile, mais à vérifier comme un travail d’élève ou de collègue.
Une protéine peut être vue comme une chaîne d’acides aminés, un peu comme une phrase écrite avec un alphabet biologique. Certaines IA prédisent la forme 3D d’une protéine à partir de sa séquence ; d’autres aident à imaginer de nouvelles protéines ou molécules candidates.
6 questions ouvertes — sans réponse unique. Clique sur une question pour afficher des pistes : elles servent à lancer la discussion, pas à donner une vérité définitive.