Comment entraîner les modèles d'IA ? Commencez avec des données structurées

La dernière annonce de Meta souligne une vérité de plus en plus évidente : des modèles plus intelligents nécessitent des données plus intelligentes. Apprenez comment structurer les vôtres pour gagner en visibilité dans les résultats de recherche générative.

Sam Davis

1 mai 2025

5 min
Illustration d'un caniche noir sautant à travers un cerceau, entouré d'icônes représentant des données structurées, symbolisant la manière dont les modèles d'IA apprennent et s'améliorent grâce à l'entraînement.
La dernière évolution du processus d'entraînement de l'IA de Meta est un rappel : pour des modèles plus intelligents, il faut des données plus intelligentes

Meta vient d'annoncer une nouvelle phase d'entraînement de son IA en Europe. À compter du mois de mai, ses modèles génératifs seront entraînés à partir du contenu public partagé par des adultes européens sur Facebook et Instagram, ainsi qu'à partir des interactions des utilisateurs avec Meta AI.

Communiquée de façon transparente, cette initiative importante s'accompagne d'un dispositif qui permettra aux utilisateurs de s'y opposer. Mais au-delà des gros titres, cette décision reflète une vérité plus profonde qui se confirme chez toutes les marques :

L'intelligence de l'IA dépend des données qui l'alimentent.

Et aujourd'hui, l'IA devient un canal de découverte décisif où les clients posent des questions et prennent des décisions, souvent sans jamais se rendre sur votre site web. En d'autres termes, si vous souhaitez apparaître dans les recherches, les chats ou les recommandations basés sur l'IA, les données de votre marque doivent être accessibles, fiables et utilisables pour l'entraînement.

Qu'est-ce que l'entraînement des LLM, et pourquoi ne faut-il pas le négliger ?

La qualité de l'IA dépend des données sur lesquelles elle est entraînée. C'est par l'entraînement que tous les grands modèles de langage (LLM) apprennent à fonctionner. C'est comme si vous donniez à un enfant des milliers de livres, d'articles et de conversations à lire et à assimiler, pour qu'il puisse un jour rédiger des essais, répondre à des questions ou tenir des discussions convaincantes. Ces modèles, comme ChatGPT ou Meta AI, ne « comprennent » pas le langage comme des humains, mais ils apprennent des schémas (les séquences que prennent les mots et les idées) en analysant d'énormes quantités de texte.

À la lumière de l'annonce de Meta, réfléchissons à la raison qui pousse l'entreprise à entraîner ses modèles à partir des données des utilisateurs européens de ses applications. Le langage ne se limite pas à des mots : il inclut des dialectes, de l'argot, de l'humour, des références culturelles et même des façons différentes d'exprimer des émotions. Par exemple, l'accent irlandais est différent de l'accent américain, et une blague en italien pourrait ne pas être comprise de la même façon en Suède. Si une IA est entraînée uniquement sur du contenu provenant des États-Unis, elle pourrait manquer sa cible lorsqu'elle s'adresse à un utilisateur en France ou en Allemagne. En s'entraînant sur les publications et les interactions publiques des adultes européens, Meta AI va notamment apprendre :

  • Les langues et dialectes parlés à travers l'Europe (il y en a des dizaines).
  • Des expressions, un humour et des références culturelles qui donnent aux échanges un caractère naturel.
  • La façon dont les utilisateurs de différents pays s'expriment en ligne dans leur langue, comme leur degré de formalité ou le type d'émojis qu'ils préfèrent.

Autrement dit, lorsque vous poserez une question à Meta IA, il pourra y répondre d'une manière qui vous semble pertinente et familière, que vous viviez à Lisbonne, à Varsovie ou à Helsinki.

Sans exemples régionaux de la manière dont les gens s'expriment, des questions qu'ils posent, de ce qui est culturellement pertinent, le modèle ne peut pas fournir de réponses adaptées à la localité. Il a besoin de plus de données. De meilleures données. De données locales.

Donc, si vous vous demandez comment l'IA générative sait quoi dire, qu'il s'agisse de Meta IA, Google Gemini ou ChatGPT, la réponse est simple : elle est entraînée sur ce qu'elle peut trouver.

Quels aspects des données de votre marque sont utiles pour l'IA ?

Chez Yext, nous l'avons compris : l'IA est votre nouveau client. Et ce client a quatre exigences :

  1. Des informations claires et structurées auxquelles il peut faire confiance, c'est-à-dire les contenus d'entités multiples, un balisage Schema structuré, des listings, des questions fréquentes, des détails sur les produits : en d'autres termes, des données structurées.
  2. Des informations cohérentes sur chaque plateforme, visibles sur plusieurs centaines d'annuaires, mondiaux ou propres à l'UE.
  3. Des détails actualisés qui reflètent la réalité de votre marque, de vos produits et de vos services aujourd'hui.
  4. Du contenu qui reflète la façon dont les gens parlent.

Meta AI (et tous les autres modèles) ne peut se montrer utile que s'il apprend à partir de données qui reflètent le parler réel et le contexte local.

Remarque : l'initiative de Meta n'est qu'un exemple, mais il illustre ce qui se passe : si vos données ne sont pas structurées, actualisées et précises, l'IA ne les utilisera pas. Et les clients ne vous verront pas.

Entraînez le modèle, ou il s'entraînera sans vous

Vous ne pouvez pas contrôler les données sur lesquelles Meta, OpenAI ou n'importe quel autre modèle s'entraînent. Cependant, vous pouvez contrôler l'utilité des données que votre marque fournit à ces modèles. Voici comment :

  • Ajoutez un balisage Schema à vos données pour que les outils d'IA puissent interpréter votre contenu.
  • Synchronisez les données des listings et les données commerciales sur toutes les plateformes à l'aide d'un graphe de connaissances.
  • Mettez régulièrement à jour les attributs principaux tels que les horaires, les informations détaillées sur le service, sur le menu, les questions fréquemment posées, etc.
  • Rédigez du contenu aligné sur les principes E-E-A-T (expertise, expérience, légitimité et fiabilité en français), adapté à des requêtes naturelles et conversationnelles. Mieux encore, si vous êtes une marque avec une présence locale, pensez « Local E-E-A-T ». Il s'agit de stratégies de contenu « Chose+Lieu », où le contenu permet de répondre à des questions hyperlocalisées, comme :
  1. Produit + Lieu : « Jeans pour hommes près d'Oxford Street »
  2. Service + Lieu : « Service de refrettage de guitares près du centre de Londres » (désolé, il fallait que je parle de guitare quelque part !)
  3. Personne + Lieu : « Conseiller financier spécialisé dans la retraite près de Hammersmith »

Tout cela rend les informations de votre marque plus accessibles, compréhensibles et fiables : elles seront donc plus susceptibles d'être utilisées dans les réponses génératives.

Des entrées plus intelligentes = des résultats plus intelligents

L'annonce de Meta n'est que le dernier rappel en date : une IA plus intelligente s'appuie sur des données plus intelligentes.

Alors que l'IA devient un canal de découverte décisif, la meilleure chose à faire est de structurer vos informations de manière à ce que l'IA puisse les trouver et les comprendre. Alimentez le modèle, ou vous risquez de rester invisible pour la nouvelle génération d'outils de recherche en ligne.

Le modèle s'entraînera avec ou sans vous. Alors, assurez-vous qu'il s'entraîne sur vos données.

Optimisez vos données. Téléchargez la check-list de préparation des données à la recherche avec IA.

Partager cet article