AI活用事例AIサービス業務効率化

あなたの会社のAIは嘘をつく?Googleの新ベンチマークが暴いた「事実性の罠」と、ビジネスを守る3つの実践的対策

image1

目次

「AIを導入したいが、出力される情報が本当に正しいのか不安だ」「どのAIモデルを選べば良いのかわからない」――そんな悩みを抱えるビジネスパーソンは多いだろう。2025年12月10日に発表されたGoogleの「FACTSベンチマーク」は、その悩みに一つの答えを示した。本記事では、この最新の評価基準を基に、各AIモデルの「得意・不得意」を解き明かし、あなたの会社がAI導入で失敗しないための「3つの教訓」を具体的に提示する。

H2-1: GoogleのFACTSベンチマークとは何か?――AI評価の新基準

2025年12月10日、Googleは生成AIの性能を測る新たな評価基準として「FACTSベンチマーク」を発表しました [2]。これまで、AIの能力を測る指標としては、MMLU(Massive Multitask Language Understanding)やHumanEvalといったベンチマークが広く使われてきました。しかし、これらは主にAIの「知識量」や「推論能力」を測るものであり、AIの出力が「客観的な事実に基づいているか」という観点は十分にカバーできていませんでした。

FACTSベンチマークは、この欠けていたピースを埋めるために設計されました。具体的には、以下の4つのカテゴリでAIの「事実性(Factuality)」を評価します。

  • Grounding(根拠づけ):提供された資料や文脈に忠実な回答ができるか。
  • Search(検索能力):Web検索を活用して、外部の信頼できる情報源から正確な情報を引き出せるか(RAG能力の評価)。
  • Multimodal(マルチモーダル):画像、チャート、図などの視覚情報を正確に解釈できるか。
  • Temporal(時間的正確性):時間の経過に伴う情報の変化を正しく理解し、最新の情報を提供できるか。

これらのカテゴリは、ビジネスの現場でAIを活用する際に最も重要視される「信頼性」を直接的に測定するものです。例えば、社内文書に基づいてFAQボットを構築する場合、Groundingの能力が低ければ、提供していない情報を勝手に「創作」してしまう恐れがあります。また、市場調査や競合分析を行う際には、Searchの能力が不十分だと、古い情報や誤った情報を基に意思決定を下すリスクが生じます。

FACTSベンチマークの登場により、企業はAIを選定する際に、単なる「賢さ」だけでなく「誠実さ」という新たな評価軸を持つことができるようになったのです。

H2-2: 衝撃の結果――GPT-5もGemini 3 Proも「70%の壁」を越えられない

FACTSベンチマークの初回評価結果は、AI業界に大きな衝撃を与えました。なぜなら、OpenAIの最新モデル「GPT-5」やGoogleの「Gemini 3 Pro」といった、現時点で最も先進的とされるAIでさえ、総合スコアで70%を超えることができなかったからです [2]。

具体的な結果は以下の通りです。

モデル名総合スコアGroundingSearchMultimodalTemporal
Gemini 3 Pro69.8%82.3%71.5%46.1%79.2%
GPT-568.4%80.1%69.8%45.3%78.5%
Gemini 2.5 Pro67.2%83.7%68.4%46.9%69.1%
Claude 4 Opus66.5%79.8%67.2%44.7%74.6%

この結果が意味するのは、最先端のAIであっても、約3割の確率で「事実ではない情報」を出力する可能性があるということです。これは、AIを業務に導入する際に、決して無視できないリスクです。

特に注目すべきは、OpenAIが「Code Red(緊急事態宣言)」を発令し、予定を前倒ししてGPT-5を12月9日に緊急リリースしたという背景です [1]。これは、Gemini 3 Proの発表(12月4日)に対抗するための措置でしたが、結果としてFACTSベンチマークではGemini 3 Proに及びませんでした。

この「70%の壁」は、単なる数字の問題ではありません。AIが生成する情報の10件に3件が誤りである可能性があるということは、顧客対応、法務文書の作成、医療診断の補助といった、正確性が絶対的に求められる領域において、AIを無批判に使用することの危険性を如実に示しています。

H2-3: なぜ「70%」なのか?――RAGとGroundingの限界

では、なぜ最先端のAIでさえ「70%の壁」を越えられないのでしょうか。その理由を理解するためには、AIの「知識」がどのように構成されているかを知る必要があります。

現在の生成AIは、大きく分けて2つの知識源を持っています。

1. 内部知識(Parametric Knowledge):モデルが学習時に獲得した、パラメータ内に埋め込まれた知識。

2. 外部知識(Non-Parametric Knowledge):RAG(Retrieval-Augmented Generation)という技術を用いて、リアルタイムで外部のデータベースやWebから取得する知識。

理論上、RAGを活用すれば、AIは常に最新かつ正確な情報を提供できるはずです。しかし、FACTSベンチマークの結果は、RAGを搭載したモデルでさえ、Searchカテゴリで70%前後のスコアに留まったことを示しています [2]。

この原因として、以下の3つの技術的課題が指摘されています。

1. 検索クエリの生成精度の問題

RAGは、ユーザーの質問を適切な検索クエリに変換し、関連する情報を取得する必要があります。しかし、AIが生成する検索クエリが不適切だと、誤った情報源にアクセスしてしまい、結果として誤った回答を生成してしまいます。

2. 情報源の信頼性判定の困難さ

Webには正確な情報と誤った情報が混在しています。AIは、取得した情報の「信頼性」を判定する能力がまだ十分ではなく、誤情報を「事実」として採用してしまうケースがあります。

3. コンテキストの統合能力の限界

複数の情報源から得た情報を統合し、矛盾を解消しながら一貫した回答を生成することは、AIにとって非常に難しいタスクです。特に、情報源間で矛盾がある場合、どちらを優先すべきかの判断を誤ることがあります。

これらの課題は、単に計算資源を増やすだけでは解決できない、AIの根本的な限界を示唆しています。

H2-4: 最も危険な発見――Multimodal(視覚)タスクで全モデルが50%未満

FACTSベンチマークが明らかにした中で、企業の実務担当者が最も深刻に受け止めるべきは、Multimodal(視覚)カテゴリのスコアの低さでしょう。このカテゴリでは、チャートの読み取り、図の解釈、画像の識別といったタスクが出題されましたが、結果は惨憺たるものでした。

なんと、カテゴリリーダーであるGemini 2.5 Proでさえ46.9%、トップスコアのGemini 3 Proですら46.1%という低水準に留まり、全モデルが50%の正答率に達しなかったのです [2]。これは、現在の最先端AIが、人間であれば容易に理解できるはずの視覚情報を、いかに正確に捉えられていないかを示しています。

この結果は、AIによる業務自動化を目指す多くの企業に警鐘を鳴らします。例えば、請求書や領収書をスキャンして自動でデータ化するシステム、あるいは財務レポートのグラフから数値を読み取って分析するツールなどを考えてみましょう。もし、その裏側で動いているAIの正答率が50%未満だとしたらどうなるでしょうか?

「エラーが半分近く発生する自動化システム」は、業務効率化どころか、むしろ手作業での確認と修正という二重のコストを生み出すことになりかねません。特に、精度が絶対的に求められる金融、医療、法務といった分野では、このようなエラー率は致命的です。

結論として、Multimodal AIを業務に活用する際は、「AIによる完全自動化」という発想はまだ時期尚早であると認識する必要があります。現段階では、AIをあくまで「人間のアシスタント」と位置づけ、最終的な確認と判断は必ず人間が行う「Human-in-the-Loop(人間参加型)」の体制を構築することが、リスクを管理し、AIの恩恵を最大限に引き出すための唯一の現実的な解と言えるでしょう。

H2-5: 業界の激震――OpenAIの「Code Red」とMetaの戦略転換

FACTSベンチマークの発表前後、AI業界では激しい動きがありました。その象徴が、OpenAIによる「Code Red(緊急事態宣言)」の発令です [1]。

2025年12月4日、GoogleがGemini 3 Proを発表し、その性能がGPT-5を上回る可能性が示唆されると、OpenAI内部では緊急会議が招集されました。そして、当初2026年第1四半期を予定していたGPT-5のリリースを大幅に前倒しし、わずか5日後の12月9日に緊急リリースするという異例の決断が下されたのです。

この背景には、AI市場におけるGoogleとの競争激化があります。Gemini 3 Proは、FACTSベンチマークだけでなく、従来のMMLUやHumanEvalといった評価でもGPT-5と同等以上のスコアを記録しており、OpenAIにとっては「王座」を脅かす存在となっていました。

一方、Meta(旧Facebook)も大きな戦略転換を発表しました [4]。これまでMetaは、Llama シリーズをオープンソースとして公開し、AI業界全体の発展に貢献する姿勢を取ってきました。しかし、2025年12月9日、Metaは次世代モデル「Avocado」をプロプライエタリ(独占的)モデルとして開発することを発表しました。

この決定の理由は、オープンソース戦略では収益化が困難であり、GoogleやOpenAIとの競争に勝ち残るためには、独自の技術優位性を確保する必要があると判断したためです。Metaは、Avocadoの開発に向けて、組織を大規模に改編し、業界トップクラスのAI研究者を高額報酬で引き抜く動きを加速させています。

これらの動きは、AI業界が「オープンな協力」から「熾烈な競争」へとフェーズを移行していることを示しています。そして、その競争の焦点は、もはや「賢さ」だけでなく、「事実性」や「信頼性」といった、より実用的な指標へとシフトしているのです。

H2-6: 日本企業が今すぐ実践すべき「AI事実性」対策3選

FACTSベンチマークが示した「70%の壁」は、AI導入を検討する日本企業にとって他人事ではありません。AIの能力を過信し、検証プロセスを怠れば、誤った情報に基づいた意思決定を下すリスクや、ブランドの信頼を損なう事態を招きかねません。では、企業はどのようにして「事実性」のリスクに対応すべきでしょうか。ここでは、今すぐ実践すべき3つの対策を提案します。

1. AI出力の検証プロセスを業務フローに組み込む

最も重要かつ基本的な対策は、AIの出力を鵜呑みにせず、必ず人間が検証するプロセスを業務フローに標準で組み込むことです。特に、顧客への回答生成、レポート作成、データ分析など、正確性が求められる業務においては、「AIが生成→人間がファクトチェック→承認・公開」という流れを徹底する必要があります。

具体的には、

  • ダブルチェック体制の構築:AIの生成物を、担当者と責任者の二段階で確認する。
  • チェックリストの作成:出典の有無、数値の正確性、文脈との整合性など、確認すべき項目をリスト化し、検証漏れを防ぐ。
  • フィードバックループの確立:誤りを特定した場合、その内容をAIにフィードバックし、継続的に精度を改善させる仕組みを構築する。

このような体制は、一見すると非効率に思えるかもしれません。しかし、誤った情報が引き起こす手戻りや信用の失墜といった「見えないコスト」を防ぐための、最も効果的な投資と言えるでしょう。

2. 用途別に最適なモデルを使い分ける

FACTSベンチマークは、モデルごとに得意・不得意な領域があることを明確に示しました。例えば、Gemini 3 ProはSearch(RAG能力)に優れている一方、Grounding(コンテキスト遵守)ではGemini 2.5 Proに劣るという結果が出ています [2]。

これは、「1つの万能なAI」に頼るのではなく、業務の特性に合わせて最適なモデルを使い分ける戦略の重要性を示唆しています。

  • 社内文書に基づくFAQボット:提供された情報源に忠実な回答が求められるため、Groundingスコアの高いモデル(例:Gemini 2.5 Pro)を選定する。
  • 市場調査や競合分析:Webから最新かつ広範な情報を収集・統合する必要があるため、Searchスコアの高いモデル(例:Gemini 3 Pro)が適している。
  • クリエイティブなアイデア出し:事実性よりも発想の豊かさが重要な場合は、より柔軟な思考を持つモデルを試す価値があるでしょう。

高価な最新モデルが常に最良の選択とは限りません。自社のユースケースを明確にし、ベンチマークのサブスコアを参考にしながら、コストと性能のバランスが取れたモデルを選定する視点が不可欠です。

3. AI調達・開発の基準に「事実性ベンチマーク」を組み込む

今後、企業がAIソリューションを外部から調達したり、自社で開発したりする際には、FACTSのような「事実性」を測るベンチマークを、性能評価や選定基準(RFP)に組み込むべきです。

従来のベンチマーク(MMLUなど)は、AIの「知識量」や「推論能力」を測る上で有用ですが、「事実に基づいているか」という観点は十分にカバーできていませんでした。FACTSベンチマークは、この欠けていたピースを埋めるものです。

AIベンダーに対してFACTSスコアの提示を求めたり、PoC(概念実証)の段階で自社のデータを用いて独自の事実性テストを実施したりすることで、より客観的かつ実用的な観点からソリューションを評価できます。

AIの「賢さ」だけでなく「誠実さ」を問う。この新しい評価軸を持つことが、これからのAI導入を成功させる上で、企業の競争力を左右する重要な要素となるでしょう。

H2-7: まとめ:「完璧なAI」はまだ存在しない――賢い付き合い方が成功の鍵

2025年12月、Googleが投じた「FACTSベンチマーク」という一石は、生成AI業界に大きな波紋を広げました。GPT-5やGemini 3 Proといった最先端モデルでさえも「事実性70%の壁」を越えられないという現実は、AIの能力を楽観視していた私たちに、冷徹ながらも重要な教訓を与えてくれます。

それは、「完璧なAI」はまだ存在しないという、至極当然の事実です。AIは驚異的なスピードで進化していますが、決して万能の魔法の杖ではありません。特に、客観的な正しさが求められるビジネスの現場において、その出力には常に「疑いの目」を向ける必要があります。

今回のベンチマークが示したのは、AIの「限界」だけではありません。むしろ、私たちがAIと「賢く付き合う」ための具体的な道筋を示してくれたと捉えるべきでしょう。

  • RAGの重要性:モデルの内部知識に頼らず、外部の信頼できる情報源を検索させるアーキテクチャが、事実性を高める上で不可欠であること。
  • Multimodalの課題:画像やグラフの解釈はAIが最も苦手とする領域の一つであり、人間による検証が絶対に必要であること。
  • 適材適所の戦略:すべてのタスクに単一のモデルで対応するのではなく、用途に応じて最適なモデルを使い分けることの重要性。

OpenAIの「Code Red」宣言やMetaの戦略転換といった業界の激しい動きも、すべてはこの「AIの不完全性」を克服し、より信頼性の高いモデルを開発するための熾烈な競争の現れです。

今後、AI技術はさらに進化し、「70%の壁」もいずれは乗り越えられる日が来るかもしれません。しかし、その日が来るまで、あるいは来た後でさえも、AIをブラックボックスとして盲信するのではなく、その特性と限界を深く理解し、人間の監視と判断の下で活用していく姿勢が、AI時代の成功を左右する最も重要な鍵となるのです。AIの「賢さ」を最大限に引き出しつつ、その「危うさ」を巧みに管理する。そんな賢明な付き合い方を、今こそすべての企業が模索し始めるべき時です。

よくある質問(Q&A)

Q1. FACTSベンチマークとは、従来のMMLUなどと何が違うのですか?

A1. MMLU(Massive Multitask Language Understanding)などがAIの持つ「知識量」や「多分野にわたる問題解決能力」を測るのに対し、FACTSベンチマークはAIの出力が「客観的な事実に基づいているか」という「事実性」に特化して測定する点が最大の違いです。具体的には、提供された資料に忠実か(Grounding)、Web検索を正しく使えるか(Search)、グラフを正確に読み取れるか(Multimodal)といった、より実務に近いシナリオでAIの信頼性を評価します。

Q2. Gemini 3 ProがGPT-5よりスコアが高いなら、常にGeminiを選べば良いのでしょうか?

A2. 一概にそうとは言えません。総合スコアではGemini 3 Proがトップでしたが、ベンチマークのカテゴリ別に見ると得意・不得意があります。例えば、資料の遵守性が重要な業務では、GroundingスコアでGemini 3 Proを上回ったGemini 2.5 Proの方が適している可能性があります。重要なのは、自社の用途に合わせて、総合スコアだけでなくカテゴリ別のスコアを参考に最適なモデルを選定することです。

Q3. 「70%の壁」は、いつ頃乗り越えられそうでしょうか?

A3. 専門家の間でも意見は分かれますが、数年単位でのブレークスルーは難しいという見方が優勢です。特に、人間社会の複雑な文脈や暗黙の了解を必要とする「事実性」の向上は、単に計算資源を増やすだけでは解決が難しいためです。当面の間、企業は「AIは間違いを犯すもの」という前提に立ち、人間による検証プロセスを組み込んだ上でAIを活用していく必要があるでしょう。

参考文献

[1] The Independent. (2025, December 8). *OpenAI rushes out new AI model after 'code red' declared*.

[2] VentureBeat. (2025, December 10). *The 70% factuality ceiling: why Google's new 'FACTS' benchmark is a wake-up call for enterprise AI*.

[3] Google Blog. (2025, December 4). *Gemini 3 Deep Think is now available*.

[4] CNBC. (2025, December 9). *Meta's shifting AI strategy is causing internal confusion*.


Related Articles

関連記事