業界に関するインサイト
AIモデルを訓練する方法とは?構造化データから始めます
Metaの最新のAIアップデートは、より賢いモデルにはより賢いデータが必要であるという現実的な真実を浮き彫りにしています。生成検索での可視性を高めるための構造化についてご覧ください。

Sam Davis
5月 1, 2025

Metaの最新のAIトレーニングアップデートは、賢いモデルは賢いデータから始まるということを促しています。
MetaはヨーロッパでのAIトレーニングの新たな段階を発表しました。今月から、同社の生成モデルは、EUの成人がFacebookやInstagramで共有した公開コンテンツと、Meta AIとのユーザーインタラクションの学習を開始します。
これは、透明性のあるコミュニケーションとオプトアウト方式によって裏付けられた大きな動きです。しかし、包括的に見ると、すべてのブランドに当てはまるより深い真実を反映しています。
AIの賢さは、提供されるデータに依存します。
現在、AIは、顧客が多くの場合ウェブサイトでクリックすることなく、質問や意思決定を行うための主要な発見チャネルとなっています。つまり、AI活用型の検索、チャット、おすすめに表示されるためには、見つけやすく、信頼性が高い、トレーニングの準備が整ったブランドデータを作成する必要があります。
LLMトレーニングとは何であり、なぜ必要なのか。
AIの賢さは、その学習に用いられるデータの質に依存します。トレーニングは、すべての大規模言語モデル (LLM)が動作を学ぶ方法です。これは、子供に何千冊もの本や記事、会話を与えてそれらを読ませ、学ばせることで、将来、エッセイを書いたり、質問に答えたり、人と説得力のある会話をしたりできるようにすることに似ています。ChatGPTやMetaのAIのようなこれらのモデルは、人間のように言語を「理解」するわけではありませんが、膨大な量のテキストを分析することで、単語やアイデアがどのように続くかという傾向やパターンを学習します。
Metaの発表を念頭に置き、同社がEUに拠点を置くアプリケーションユーザーからのモデルのトレーニングを望む理由を検討してみましょう。言語は単なる言葉ではありません。方言、スラング、ユーモア、文化的レファレンス、さらには感情を表現するさまざまな方法が含まれています。アイルランド英語がアメリカ英語とどう違うのか、イタリアのジョークがスウェーデンではどう違うのかを考えてみてください。AIがアメリカのコンテンツのみで訓練されている場合、フランスやドイツの方と会話する際に意図を外す可能性があります。欧州の成人の公開投稿ややりとりを学習することで、MetaのAIは次のようなことを学びます。
- 欧州で話されているさまざまな言語と方言(数十種類あります!)
- 会話を自然に感じさせるための地元のことわざ、ユーモア、文化的レファレンス。
- 異なる国の人々がオンラインで言語を使用する方法—例えば、フォーマルかインフォーマルか、どのような絵文字を好むかなど。
これは、Meta AIに質問をした場合、ユーザーがリスボン、ワルシャワ、ヘルシンキのいずれかを拠点としていても、関連性があり親しみやすい方法で応答できるということを意味します。
人々の話し方、尋ねる質問、文化的に関連性などの地域的な例がなければ、モデルは地域に関連する回答を提供できません。より多くの、より良い、地域のデータが必要となります。
したがって、Meta AI、Google Gemini、ChatGPTなど、生成AIがどんな答えを出せばいいかどのように把握しているかを疑問に思っているなら、答えは簡単です。AIは見つかる内容に基づいてトレーニングを重ねるということです。
ブランドのデータがAIに役立つ理由とは?
Yextでは、「AIは新規顧客です」と言っています。そして、この顧客は企業から4つのものを求めています。
- 信頼性が高く、クリーンで構造化された情報、すなわち複数のエンティティコンテンツ、構造化されたスキーママークアップ、リスティング、FAQ、製品の詳細など、すべて構造化データです。
- すべてのプラットフォームで一貫した情報が、数百のグローバルおよびEU専用のパブリッシャーで表示されます
- 今日のブランド、製品、サービスに関する真実を反映した最新の詳細情報
- 人々の実際の会話に聞こえるようなコンテンツ
MetaのAI(およびその他のすべてのモデル)は、現実世界の言語と地域の文脈を反映したデータから学習する場合にのみ有用です。
コールアウト: Metaのアップデートは単なる一例ですが、ブランドデータが構造化されておらず、新鮮で正確でなければ、AIはそれを使用しないという現実を強調しています。そうなるとブランドは顧客の目に入りません。
モデルを訓練すること — さもなければ、貴社のブランド抜きで訓練されます
MetaやOpenAI、または他のどのモデルが何をトレーニングするかを制御することはできません。しかし、貴社のブランドがそれらのモデルに有用なデータを提供しているかどうかは管理できます。以下にその方法を示します。
- AIツールがコンテンツを解釈できるように、スキーママークアップを追加する
- ナレッジグラフを使用して、リスティングとビジネスデータをプラットフォーム間で同期させる
- 営業時間、サービスの詳細、メニュー情報、FAQなどのコア属性を定期的に更新する
- 自然な会話形式のクエリに一致する、E-E-A-T(専門知識、体験、確実さ、信頼)に沿ったコンテンツを作成しましょう。さらに良いのは、地元で展開しているブランドであれば、「地元のE-E-A-T」を考慮してください!これらは、コンテンツが以下のような超地元密着の質問に答えるのに役立つ「物 + 場所」コンテンツ戦略です。
- 商品 + 場所 例:「オックスフォード・ストリート近くのメンズブルージーンズ」
- サービス + 場所 例:「ロンドン中心部近くのギターのリフレットサービス」(ごめんなさい、ギター演奏についてどこかで言及したかったので)
- 人 + 場所 例:「ハマースミス近くで定年退職を専門とする金融アドバイザー」
上記すべては、ブランド情報を取得しやすく、理解しやすく、信頼の高いものにし、生成回答で使用される可能性が向上します。
より賢い入力 = より賢い結果
Metaの発表は、より賢いAIはより賢いデータから生まれることを強く促しています。
AIが主要な発見チャネルになるとともに、AIが発見し、理解できるように情報を構造化することが最善の方法です。モデルにデータを提供してください。さもなければ新世代の検索で発見されなくなるリスクが発生します。
モデルはどちらにしてもトレーニング中です。貴社から学んでいることを確実にしてください。
データを効果的に活用しましょう。AI検索の準備を確認するためのチェックリストを入手してください。