
GPT-4.5是OpenAI发布的最新生成式AI模型。(Four Corners: Mat Marsic)
任何使用生成式人工智能(AI)聊天机器人超过几分钟的人都知道它会犯错。
这些错误被称为“幻觉”,可能会带来严重后果——例如,当它们错误地将某人描述为罪犯时。
美国AI公司OpenAI声称,其最新版本的软件GPT-4.5应该“减少幻觉”。
该公司开发了自己的测量系统,并于去年年底宣布,以支持这一说法。
那么,我们如何判断AI的幻觉——我们能期待聊天机器人变得更准确吗?
OpenAI如何测试其模型的幻觉
OpenAI于2024年11月发布了自己的工具来评估其模型的准确性,他们称之为SimpleQA的“基准”。
SimpleQA本质上是一个长而难的酒吧问答。它给聊天机器人提供了一系列数千个简短的问题——确切地说是4,326个——每个问题都有一个正确答案。
虽然这些答案都可以通过互联网搜索验证,但它们并不完全是常识。问题(和答案)包括:
- 谁在2010年获得了电气与电子工程师学会的Frank Rosenblatt奖?(Michio Sugeno)
- 新加坡第四届议会第二次会议是在哪年哪月哪日开始的?(1978年12月26日)
- 哪个足球俱乐部赢得了首届Hessenpokal?(法兰克福)
在去年发表的一项预印(未经同行评审)研究中,开发SimpleQA的OpenAI研究人员表示,他们设计这个系统是为了具有挑战性。
他们向四个OpenAI模型提供了更长的问题列表,并将至少有一个模型答错的问题添加到最终的SimpleQA列表中。
然后,OpenAI让GPT-4.5通过这个测试,发现它在37%的情况下产生了幻觉。
虽然超过三分之一的错误率并不是一个很好的测试成绩,但它明显优于他们测试的所有其他OpenAI模型。下一个最新的GPT模型GPT-4o在62%的情况下产生了幻觉。
但拉筹伯大学的AI研究员Daswin de Silva表示,这个系统并不是检查准确性的好方法。
“这种评估从一开始就有缺陷,”他说。
这部分是因为它是一个内部检查系统,但也因为它没有评估ChatGPT最常用的功能:更长、更复杂的答案。

Daswin de Silva是拉筹伯大学数据分析和认知中心副主任。(提供:拉筹伯大学)
“它只测试了基于事实的简短查询,而这并不是ChatGPT的主要使用场景。我们喜欢用这个工具写更长的文档,”de Silva教授说。
OpenAI承认这一局限性,研究人员在他们的研究中表示,他们尚不清楚简短答案的准确性是否能转化为更长回答的准确性。
如果你有一个简单的问题,SimpleQA的错误率表明你最好使用搜索引擎。
有没有好的方法来测试AI的准确性?
SimpleQA并不是唯一用于评估AI准确性的方法。
为了评估这些被称为大型语言模型(LLMs)的AI模型,还有其他工具和基准,如SelfCheckGPT、Chatbot Arena、DeepEval和ARC-AGI。
但它们都有一个共同的问题:它们成为AI训练的目标。
莫纳什大学的AI研究员Geoff Webb表示,整个计算机科学领域都容易受到这种影响。
“一旦你有了一个设定特定类型测试的基准,人们就开始在这些基准上训练系统,”他说。
让一个程序在特定基准上表现更好,并不一定意味着它在总体上会更好。
例如,你可以设计一个聊天机器人,它只正确回答SimpleQA的4,326个问题,因此在这个指标上得分为100%,但它无法告诉你天空是否是蓝色的。
Webb教授表示,这种偏差可能是微妙的。人们可能不会故意在SimpleQA的问题上训练系统,但他们可能会选择那些能提高SimpleQA分数(或其他基准分数)的系统改进。
澳大利亚天主教大学的AI研究员Niusha Shafiabady表示,人类干预可能是评估和管理LLMs准确性的一种好方法。
“也许10年后我们就不需要这样做了,但在现阶段,我认为人类监督是一个很好的过程整合方式。”
她建议,人类随机检查答案,就像制造商经常检查样品一样,可以成为一种有用的质量控制。
de Silva教授表示,判断LLM成功与否的更好方法是它的使用量。
“评估指标的优越性并不总是意味着它在一般环境中会有用。”
他表示,微软的Copilot基于GPT-4构建,可能被认为比其竞争对手表现更好,因为它被广泛采用。
“这本身就是另一种更普遍和隐含的评估指标。”
AI如何减少幻觉?
OpenAI对如何提高GPT的准确性含糊其辞,除了“扩大计算和数据规模”之外。
但这一最新改进(在一个特定测试中)是否意味着AI会减少错误?还是说它们的改进有极限?

谷歌AI的Gemini和微软的Copilot也是LLMs。(Getty Images: Robert Way)
Webb教授表示,简单地向LLM添加更多训练数据的问题是,数据并不一定准确。
“人们会写一些奇怪的东西,”他说。
de Silva教授表示,当前改进LLM的模式——添加更多数据和计算能力——并不能无限期地改进它们。
“也许去年年底,AI公司已经消耗了所有可用于训练大型语言模型的有用数据,”他说。
“这意味着LLM的新能力存在重大缺陷。”
