Ce que l'IA sait de mémoire, et ce qu'elle va chercher : deux sources, deux visibilités

Comprendre la différence entre ce qu'une IA sait de mémoire (entraînement) et ce qu'elle va chercher sur le web — et pourquoi une marque peut être présente dans l'une et absente de l'autre.

Réponse directe

Une IA répond à partir de deux sources très différentes. La première est sa mémoire d'entraînement : ce qu'elle a « appris » une fois pour toutes, figé, sans aller sur internet. La seconde est la recherche web : ce qu'elle va chercher en direct au moment de répondre. Ces deux sources ne donnent pas les mêmes réponses — et surtout, une marque peut être présente dans l'une et totalement absente de l'autre. Une marque très connue, ancienne, abondamment citée en ligne (souvent en anglais) a des chances d'être « gravée » dans la mémoire du modèle. Une marque plus récente, plus locale, ou dans un secteur peu présent dans les données d'entraînement peut n'exister que si l'IA va la chercher sur le web — et disparaître dès qu'elle n'y va pas. Savoir dans laquelle des deux sources vous êtes présent, c'est savoir si l'IA pense à vous spontanément ou seulement quand on l'aide à chercher.

Le problème

Quand on demande « est-ce que ChatGPT parle de ma marque ? », on imagine une réponse unique. En réalité, la réponse dépend d'un réglage qu'on ne voit pas : l'IA a-t-elle cherché sur le web, ou a-t-elle répondu de tête ?

Ces deux modes existent dans tous les usages réels. Parfois l'IA répond de mémoire, instantanément, sans citer aucune source. Parfois elle va consulter des pages web et s'appuie dessus. Selon le mode, votre marque peut apparaître ou non — pour la même question. Ignorer cette distinction, c'est mesurer une visibilité « moyenne » qui ne correspond à aucune situation réelle, et passer à côté de l'essentiel : l'IA vous connaît-elle, ou doit-elle vous redécouvrir à chaque fois ?

L'idée à comprendre

Voici la distinction qui change tout : mémoire et recherche web sont deux sources séparées, et la visibilité d'une marque n'est pas la même dans les deux.

La mémoire d'entraînement (le « stock »). Un modèle d'IA est entraîné à un moment donné sur une immense quantité de textes. Ce qu'il en retient est figé : c'est sa mémoire. Quand il répond sans aller sur le web, il puise uniquement là-dedans. Une marque présente dans cette mémoire est citée « spontanément », sans effort — l'IA y pense d'elle-même.
La recherche web (le « flux »). Quand l'IA va chercher sur internet au moment de répondre, elle s'appuie sur des pages trouvées à l'instant T. Une marque peut alors apparaître même si le modèle ne la connaissait pas de mémoire — simplement parce qu'une page la mentionne. Et inversement, elle peut disparaître dès que l'IA ne fait pas cette recherche.

Reste la vraie question : pourquoi une marque est-elle dans la mémoire, et pas une autre ? Plusieurs facteurs jouent, et aucun ne dépend d'une optimisation magique :

Le volume de contenu existant. Plus une marque a été écrite, citée, discutée en ligne avant l'entraînement, plus elle a de chances d'être « apprise ».
La notoriété et l'ancienneté. Une marque installée depuis longtemps, mondialement connue, laisse une empreinte plus forte qu'un acteur récent ou de niche.
La langue. Les grands modèles sont entraînés sur des données massivement anglophones. À notoriété comparable, une marque très présente dans le contenu anglais part avec un avantage sur une marque essentiellement présente dans une autre langue. (Les IA favorisent-elles les marques américaines ?)

Selon nos tests (mesures internes, sur quelques marques et deux IA), le contraste est net : une néobanque professionnelle française n'apparaissait jamais de mémoire sur des questions de création d'entreprise — elle n'émergeait un peu que lorsque l'IA allait chercher sur le web. À l'inverse, une application de productivité américaine très connue sortait systématiquement de mémoire, sans aucune recherche, dès que la question portait sur son domaine. Même IA, même méthode : deux comportements opposés, expliqués non par la qualité des marques, mais par leur empreinte dans les données d'entraînement.

Une précision honnête : il s'agit là d'observations sur un petit nombre de cas, pas d'une loi statistique. Elles illustrent le mécanisme ; elles ne prétendent pas que « toute marque française est désavantagée ». Le fait que nous mesurons, c'est l'écart observé — pas une règle générale.

Ce qu'on entend partout

« Si ChatGPT me cite, c'est que l'IA me connaît. » Pas forcément. Si la réponse provient d'une recherche web, l'IA ne vous « connaît » pas de mémoire — elle vous a trouvé sur une page à l'instant T. Coupez la recherche, et vous pouvez disparaître. C'est une présence empruntée au web, pas une présence en mémoire.

« Il suffit de produire du contenu et l'IA finira par me connaître. » Le contenu publié aujourd'hui n'entre pas dans la mémoire d'un modèle déjà entraîné. Il peut vous rendre visible via la recherche web (le flux), mais la mémoire (le stock) ne se met à jour qu'au prochain entraînement du modèle, sur lequel personne d'extérieur n'a la main.

« Ma visibilité IA, c'est un seul chiffre. » Non : c'est au moins deux. Présent de mémoire et présent via le web sont deux situations distinctes, qui n'ont ni les mêmes causes ni les mêmes leviers. Les fondre en un seul score efface l'information la plus utile.

Notre position : seulement les faits. Et le fait, c'est qu'il existe deux sources, qu'elles divergent souvent, et que la seule façon de le savoir est de les mesurer séparément.

Notre approche : mesurer le stock et le flux séparément

À partir d'ici, le registre change : on décrit l'instrument.

Puisque mémoire et recherche web sont deux sources distinctes, une mesure sérieuse ne les mélange jamais. Pour chaque IA, mAIr mesure votre présence dans deux modes :

Sans recherche web (le stock) — ce que l'IA dit de vous de mémoire, spontanément.
Avec recherche web (le flux) — ce qu'elle dit quand elle va chercher en direct.

L'écart entre les deux est précisément l'information : il dit si votre visibilité repose sur une notoriété ancrée dans le modèle, ou seulement sur des pages web que l'IA consulte au moment de répondre. Une présence forte en flux mais nulle en stock raconte une histoire très différente d'une présence solide dans les deux.

Où se situe LirenPrism

mAIr (LirenPrism) mesure cette double présence, IA par IA, et restitue le stock et le flux séparément — jamais en un seul chiffre. C'est une conséquence directe du mécanisme : confondre « connu de mémoire » et « trouvé sur le web » reviendrait à effacer ce qui distingue une marque installée d'une marque seulement référencée.

mAIr ne fait que mesurer cet écart. Agir dessus — produire du contenu, travailler son référencement pour peser sur ce que l'IA trouve en recherche web — relève du GEO et du SEO, métiers d'autres acteurs. La mémoire d'entraînement, elle, ne s'optimise pas de l'extérieur : elle se constate. mAIr vous dit où vous en êtes, sur chaque source ; ce que vous en faites vous appartient.

En bref

Une IA répond depuis deux sources : sa mémoire d'entraînement (stock, figé) et la recherche web (flux, à l'instant T).
Une marque peut être présente dans l'une et absente de l'autre — la même question donne alors des réponses différentes.
Être dans la mémoire dépend du volume de contenu, de la notoriété/ancienneté et de la langue (entraînement massivement anglophone).
Selon nos tests, une marque française de niche pouvait être absente de mémoire quand une marque américaine très connue en sortait systématiquement — même IA, même méthode.
mAIr mesure stock et flux séparément, IA par IA ; l'écart est l'information. Agir relève du GEO/SEO.

Questions fréquentes

Si je publie beaucoup de contenu, vais-je entrer dans la mémoire de l'IA ?

Pas dans l'immédiat. La mémoire d'un modèle est figée à son entraînement : un contenu publié après ne s'y ajoute pas. Il peut en revanche vous rendre visible **via la recherche web** (le flux). La mémoire (le stock) n'évolue qu'au prochain entraînement du modèle, décidé par son éditeur.

Pourquoi suis-je visible parfois et pas toujours, pour la même question ?

Souvent parce que l'IA a cherché sur le web dans un cas et répondu de mémoire dans l'autre. Ce sont deux sources différentes. C'est exactement pourquoi une mesure utile distingue les deux modes au lieu de les moyenner.

Une marque non anglophone est-elle condamnée à être moins visible ?

Non — c'est un facteur, pas une fatalité. Les modèles sont entraînés sur beaucoup d'anglais, ce qui donne un avantage de mémoire aux marques très présentes dans ce contenu. Mais la recherche web rééquilibre en partie, et la notoriété dans une langue donnée compte aussi. La seule façon de connaître votre situation réelle est de la mesurer, par IA et par source.