AI 運作原理 7 分鐘閱讀

AI 為什麼會自信地胡編亂造

作者 Chatday Editorial Team · June 9, 2026

aiexplainedhallucinationshow-it-works

向 AI 聊天機器人提一個它不知道答案的問題，令人不安的地方就來了：它幾乎從不會說「我不確定」。相反，它常常會甩給你一個自信、流暢、完全編造的答案，一本不存在的書名、一句沒人說過的話、一條根本不存在的法律。AI 並不是故意撒謊。它是真的分不清真假。而一旦你明白了這背後為什麼會發生，就再也不會被它騙到了。

「幻覺」究竟是什麼意思

在 AI 圈裡，「幻覺」指的是聊天機器人產出了聽起來像真的、實際卻不對的東西，捏造的統計數據、虛構的來源、自信滿滿的錯誤答案。這個詞聽起來很玄乎，但它日常的樣子其實很簡單：AI 用一個令人信服的猜測填補了自己知識上的空白，並把它當成事實拋出來。

棘手的地方在於語氣。一個不懂某事的人通常會猶豫、含糊其辭，或者乾脆承認。而 AI 在拋出它的編造時，用的是和它答對時一模一樣的平靜自信。沒有那種緊張的「呃，我覺得吧？」，而這恰恰就是人們上當的原因。

那它為什麼會這樣？

要搞懂這一點，你得先知道聊天機器人在底層到底在幹什麼。它並不是在資料庫裡查事實。它是一台極其出色的預測機器：它讀你的問題，然後逐字逐句地推算出，根據它從海量文本中學到的模式，一個合理的答案大概聽起來是什麼樣。

這對於寫郵件或解釋一個概念來說棒極了。但這也意味著 AI 追求的是 合理性，而不是真相。當它知道答案時，最合理的下一個詞恰好就是正確的。而當它不知道時，聽起來最合理的那些詞，可能就是一段措辭優美的虛構。這台機器並不總能分辨哪個是哪個，對它而言，兩者看起來都只是「一個好答案」。

你以為 AI 在做什麼	它實際在做什麼
查出一個事實並報告	預測最像答案的那些詞
知道自己什麼時候不知道	常常分不清猜測和事實
不確定時保持沉默	用某個合理的東西填補空白
引用真實來源	可能編造看起來很真的來源

轉折點：AI 是被訓練去瞎猜的

接下來這部分連專家都感到意外。在 2025 年的一篇研究論文中，OpenAI 解釋說，幻覺不僅僅是個故障，它有一部分是被 AI 訓練時的評分方式埋進去的。

想想一個學生在做選擇題考試。如果答錯和留空都是零分，但矇對一個卻可能得一分，那麼聰明的做法永遠是去矇。AI 模型受測的方式與此非常相似：評分會獎勵自信的答案，懲罰「我不知道」，哪怕承認不知道才是誠實、正確的回應。於是模型學會了 虛張聲勢。OpenAI 提出的解決辦法，是改變我們給它們評分的方式，讓承認不確定得到獎勵，而不是受到懲罰。

這不只是理論：它有真實的代價

編造的答案已經惹出了真實的麻煩：

2023 年，紐約兩名律師用 ChatGPT 幫忙撰寫一份法律摘要，並把它連同 六個根本不存在的法庭判例一起提交了上去，這些案件的名稱、引語和引證都是 AI 編出來的。一位法官罰了他們 $5,000。
2024 年，加拿大一個仲裁庭裁定，Air Canada 必須兌現一項退款政策，而這項政策是它自己的客服機器人在一位喪親的顧客諮詢喪親機票時憑空編造出來的。這家航空公司辯稱機器人應對自己負責；仲裁庭並不認同。

兩件事給出的教訓是一樣的：AI 的自信不等於證據。對於任何真正重要的事，法律、醫療、財務，或是「我正準備告訴別人這是真的」，你都要去查核。

有些 AI 比別的更愛胡編

幻覺的嚴重程度並非整齊劃一。一些獨立測試會衡量模型有多頻繁地忠於所給材料中的事實，結果顯示不同模型之間存在真實、有時還相當大的差距，而較新的「思考型」模型，會在回答前先停下來推理，往往比那些更老的即答型模型更準確。

這也是為什麼不值得只認準一個聊天機器人。如果某個答案讓你覺得重要或意外，向第二個模型問同一個問題，是最快的靠譜性檢查之一，如果兩個由不同公司打造的不同 AI 各自獨立地給出一致答案，你就比只聽一個自信的聲音要可信得多。

如何得到可信的答案

你不必害怕幻覺，你只需要幾個習慣，悄悄把勝算往自己這邊壓：

索要它的來源。「你從哪兒得來的？給我可以查核的連結。」如果它拿不出任何真實的東西，就把這個說法當成猜測。
**把事實餵給它。**當模型是基於你提供的文件作答、而不是憑記憶作答時，它產生幻覺的機率要低得多。把文本貼進去，或者用一個能讓你與 PDF 對話的工具，讓答案錨定在真實來源上。
**用第二個模型交叉比對。**向另一個 AI 問同一個問題。一致讓人安心；不一致則是個該深挖的信號。
**難題用推理模型。**那些在回答前先思考的模型，在棘手的內容上明顯更準確（雖然仍不完美）。
**給它一個台階下。**在你的提示裡加上「如果不確定就說『我不知道』」。它不會每次都照辦，但能明顯減少那些自信滿滿的胡話。

想現在就試試交叉比對這一招？把同一個問題在幾個模型裡打開，對比一下它們的答案：

Try Claude Try GPT-5.5 Try Gemini

因為它們是在預測聽起來合理的文本，而不是在查事實。一旦碰到知識上的空白，它們就會用一個令人信服的猜測把空白填上，而不願承認自己不知道。

OpenAI 的研究發現，模型在訓練時的評分方式會獎勵自信的猜測、懲罰不確定，於是它們學會了虛張聲勢。較新的模型正在慢慢變得更願意承認存疑。

是的。獨立測試顯示，不同模型在忠於事實的頻率上存在真實差距，而那些在回答前先『思考』的推理模型往往更準確。

你沒法徹底阻止它，但可以大幅降低風險：索要來源、把文件餵給它作答、用第二個模型交叉比對，以及在它不確定時讓它說『我不知道』。

把它當成一個快速、聰明、但工作需要你來查核的助手，而不是最終權威。對於法律、醫療或財務問題，永遠要用真實來源或專業人士確認。

結語

AI 幻覺並不意味著這項技術壞掉了，它是那個讓 AI 如此有用的特性的副作用：一台在產出流暢、合理的語言上好得驚人的機器。解決之道不是不信任 AI，而是聰明地使用它：索要來源、把它錨定在真實文件上，永遠別讓一個自信的聲音成為你唯一的證人。

最省事的安全網，就是一個第二意見。問完你的問題，再向另一個模型問一遍，看看它們是否一致，你完全可以免費這麼做，就在 Chatday，那裡 Claude、GPT-5.5、Gemini 等模型並肩而列。

平台

資源中心目前

AI 為什麼會自信地胡編亂造

「幻覺」究竟是什麼意思

那它為什麼會這樣？

轉折點：AI 是被訓練去瞎猜的

這不只是理論：它有真實的代價

有些 AI 比別的更愛胡編

如何得到可信的答案

結語

「幻覺」究竟是什麼意思

那它為什麼會這樣？

轉折點：AI 是被訓練去瞎猜的

這不只是理論：它有真實的代價

有些 AI 比別的更愛胡編

如何得到可信的答案

結語

繼續閱讀