
社内AIチャット・RAGが使われない7つの原因と改善ステップ
社内AIチャットやRAG(検索拡張生成)の本当の競合は、ChatGPTでも社内検索でもありません。 「詳しい人に聞く」です。
AIに聞くより、経理や人事の詳しい人にSlackで聞いた方が早い。そう感じられた瞬間、そのRAGは使われなくなります。PoCでは好感触だったのに本番で利用率が伸びない場合、まず見るべきなのは「回答できるか」ではなく、「信頼できる回答に、人に聞くより早く到達できるか」です。
社内RAGが使われる条件は、次のように考えると判断しやす くなります。
信頼できる回答に到達する時間 < 既存手段で解決する時間
ここでいう既存手段とは、人に聞く・自分で探す・担当者に確認するなど、利用者が普段使っている最短ルートを指します。
逆に、AIの回答を得て確認するまでの手間が既存手段を上回るなら、利用者にとってそのRAGは合理的ではありません。簡易指標としては、次の比率を見ます。
RAG検証コスト比率 = AI回答を得て確認するまでの時間 ÷ 既存手段で解決する時間
この比率が1を超える質問が多いなら、モデル変更の前に、対象業務・根拠提示・導線・運用を見直す必要があります。
原因の多くは、モデル性能だけではなく、知識データの整備不足・回答への信頼欠如・業務導線とのズレ・運用サイクルの不在という4系統に収束しがちです。そしてこの切り分けは、ログ基盤がない環境でも代表質問セットを使ったスポット評価で進められます。
この記事では、7つの原因パターンを「症状→確認→改善ステップ」の流れで整理し、改善の進め方を紹介します。
- RAGで解くべき業務か、FAQ・検索・ワークフローで足りる業務かを分ける
- 人に聞くより早く信頼できる回答に到達できているかを測る
- 代表質問20問を作り、RAGの弱点を洗い出す
- 20問×上位3根拠で「検索が悪いのか・生成が悪いのか」を切り分ける
- 危険質問10問で「答えない設計」を点検する
- 最初の1か月、2か月目、3か月目の順で改善を進める
「ログもないし、どこが悪いのか検証方法がまったく見えない」という状態についても対応できるように整理します。
そもそもRAGで解くべき業務かを確認する
RAGを改善する前に、その業務が本当にRAGで解くべきものかを確認します。単純なFAQで足りるもの、社内検索で文書を見つければ済むもの、最終的に担当者の承認が必須になるものは、RAG化しても定着しにくい場合があります。
RAGが向いているのは、複数の文書を横断して確認する必要があり、利用者が毎回人に聞いたり探したりしている業務です。たとえば、就業規則・申請手順・例外条件・関連フォームをまたいで確認するような質問は、RAGの価値が出やすい領域です。
まず「AI回答が必要な業務」と「検索・FAQ・ワークフロー整備で足りる業務」を分けると、改善対象を絞れます。存在すべきでないRAGを最適化するより、使われる可能性が高い業務に絞って評価した方が、改善の効果も見えやすくなります。
RAGが使われない原因は、モデル性能だけではない
RAGが使われない原因を「モデルの精度が低いから」と片付けたくなりますが、実際には業務用途の不明瞭さや運用設計の欠如が主因であり、AIモデルの精度よりデータ整理や運用設計が課題という指摘もあります。RAGの定着を阻む壁は、モデルを入れ替えるだけでは越えられないケースがほとんどです。
では、モデル以外のどこに原因があるのでしょうか。整理すると、4つの系統に収束します。
知識・信頼・導線・運用——RAGが使われなくなる4系統
4つの系統それぞれが、どのような問題を含んでいるのかを見ていきます。
知識系統は、AIが参照するデータそのものに起因する問題です。対象業務が曖昧で用途が定まらなかったり、知識データが古い・足りない・整理されていないために回答がずれたり、検索がそもそも当たらなかったりする——これらはすべて知識系統に分類できます。次セクションのパターン①〜③がここに対応します。
信頼系統は、回答の信用やセキュリティに関わる問題です。根拠が示されず「本当に合っているのか」と疑われる状態や、機密情報の漏洩を心配して利用をためらう状態が該当します。パターン④・⑤がこの系統です。
導線系統は、業務フローとの接続に関わる問題です。現場では「Slackと連携できていない」のように、UIやアクセス経路が日常業務に溶け込んで いないために使われないケースがあります。パターン⑥がこの系統にあたります。
運用系統は、改善サイクルの不在に関わる問題です。導入時に整備しても、担当者がいない・フィードバックが回らないまま放置されると、データもルールも陳腐化していきます。パターン⑦がここに該当します。生成AI導入では、モデル性能だけでなく、業務フローへの適合・継続的な学習・運用面の課題が成果を左右するという指摘もあります。
4系統のどこにボトルネックがあるかで、打ち手はまったく変わります。次セクションでは、各系統に紐づく7つの原因パターンを掘り下げます。
7つの原因パターン——症状・確認・改善ステップ
4系統のどこに問題があるかで打ち手が変わるため、まずは自社の状況がどの系統に近いかを把握することが出発点になります。ここからは「社内AIチャットが使われない」原因を7パターンに分け、それぞれ症状・確認方法・改善ステップを整理します。
パターン①:対象業務が曖昧で「何に使えばいいか分からない」
症状: 経費精算の何を聞けばいいのか分からず、結局チャットを開かない。「どこで使えばいいかわからない」という声が上がり、利用が伸びない。
ログなし確認: (1) 部署ごとに実際に投げた質問を3〜5件ヒアリングする → (2) 用途が「○○業務の△△確認」のように言語化できるか確認する。
改善ステップ: 対象業務を1つに絞り、想定質問を10件ほど言語化する。
落とし穴: 「全社で使える」を目指すと用途が曖昧になり、結局誰も使わない。
パターン②:知識データが古い・足りない・整理されていない
症状: 最新版の就業規則を入れたはずなのに、廃止済みの在宅勤務ルールを返してしまう。古い規程や手順が回答に混ざる。
ログなし確認: (1) 代表質問5件を投げる → (2) 回答に引用された文書の更新日を目視で確認する。
改善ステップ: 更新頻度の高い文書を特定し、四半期ごとの見直しルールを設ける。
落とし穴: 「全文書を最新化」は現実的でない。問い合わせ頻度の高い領域から優先する。
パターン③:検索が当たらない
症状: 「有給休暇」と聞いたのに正しい文書が出ず、「年次有給休暇」と入力しないとヒットしない。正しい文書が登録されているのに、回答に反映されない。
ログなし確認: (1) 同じ意味の質問を言い換え て投げる(例:「有給」→「年次休暇」) → (2) 検索結果の差から表記ゆれの影響を確認する。
改善ステップ: まず表記ゆれ・同義語を確認し、それでも改善しない場合は、チャンクサイズ、ドキュメントパース、メタデータ、ハイブリッド検索、リランキングの順に見直す。検索精度はチャンク選択、コンテキスト欠落、意味的類似性の限界、表現ゆれなどの影響を受けるため、同義語だけで解決しないケースも多い。
落とし穴: いきなり複雑なAdvanced RAGへ進むと原因が見えにくくなる。まず代表質問で、表記ゆれ、チャンク、メタデータのどこに失敗が集中しているかを確認する。
パターン④:回答に根拠がなく信用されない
症状: 回答はそれらしいけれど、どの規程のどこを見れば確認できるのか分からない。出典(どの文書のどこを参照したか)が示されず、「本当に合っているのか」と疑わしい。
ログなし確認: (1) 代表質問を5件投げる → (2) 回答に根拠となる文書名・ページ番号が表示されるか確認する。
改善ステップ: 参照元のファイル名とページ番号を表示する。
落とし穴: 根拠を出しても文書名が暗号的だと意味がない。命名規則の整理も併せて検討する。