OpenAI宣称其最新聊天机器人GPT-4.5“幻觉更少”。这一说法如何衡量?

OpenAI宣称其最新聊天机器人GPT-4.5“幻觉更少”。这一说法如何衡量?

GPT-4.5是OpenAI发布的最新生成式AI模型。(Four Corners: Mat Marsic)

任何使用生成式人工智能(AI)聊天机器人超过几分钟的人都知道它会犯错。

这些错误被称为“幻觉”,可能会带来严重后果——例如,当它们错误地将某人描述为罪犯时。

美国AI公司OpenAI声称,其最新版本的软件GPT-4.5应该“减少幻觉”。

该公司开发了自己的测量系统,并于去年年底宣布,以支持这一说法。

那么,我们如何判断AI的幻觉——我们能期待聊天机器人变得更准确吗?

OpenAI如何测试其模型的幻觉

OpenAI于2024年11月发布了自己的工具来评估其模型的准确性,他们称之为SimpleQA的“基准”。

SimpleQA本质上是一个长而难的酒吧问答。它给聊天机器人提供了一系列数千个简短的问题——确切地说是4,326个——每个问题都有一个正确答案。

虽然这些答案都可以通过互联网搜索验证,但它们并不完全是常识。问题(和答案)包括:

  • 谁在2010年获得了电气与电子工程师学会的Frank Rosenblatt奖?(Michio Sugeno)
  • 新加坡第四届议会第二次会议是在哪年哪月哪日开始的?(1978年12月26日)
  • 哪个足球俱乐部赢得了首届Hessenpokal?(法兰克福)

在去年发表的一项预印(未经同行评审)研究中,开发SimpleQA的OpenAI研究人员表示,他们设计这个系统是为了具有挑战性。

他们向四个OpenAI模型提供了更长的问题列表,并将至少有一个模型答错的问题添加到最终的SimpleQA列表中。

然后,OpenAI让GPT-4.5通过这个测试,发现它在37%的情况下产生了幻觉。

虽然超过三分之一的错误率并不是一个很好的测试成绩,但它明显优于他们测试的所有其他OpenAI模型。下一个最新的GPT模型GPT-4o在62%的情况下产生了幻觉。

但拉筹伯大学的AI研究员Daswin de Silva表示,这个系统并不是检查准确性的好方法。

“这种评估从一开始就有缺陷,”他说。

这部分是因为它是一个内部检查系统,但也因为它没有评估ChatGPT最常用的功能:更长、更复杂的答案。

OpenAI宣称其最新聊天机器人GPT-4.5“幻觉更少”。这一说法如何衡量?

Daswin de Silva是拉筹伯大学数据分析和认知中心副主任。(提供:拉筹伯大学)

“它只测试了基于事实的简短查询,而这并不是ChatGPT的主要使用场景。我们喜欢用这个工具写更长的文档,”de Silva教授说。

OpenAI承认这一局限性,研究人员在他们的研究中表示,他们尚不清楚简短答案的准确性是否能转化为更长回答的准确性。

如果你有一个简单的问题,SimpleQA的错误率表明你最好使用搜索引擎。

有没有好的方法来测试AI的准确性?

SimpleQA并不是唯一用于评估AI准确性的方法。

为了评估这些被称为大型语言模型(LLMs)的AI模型,还有其他工具和基准,如SelfCheckGPT、Chatbot Arena、DeepEval和ARC-AGI。

但它们都有一个共同的问题:它们成为AI训练的目标。

莫纳什大学的AI研究员Geoff Webb表示,整个计算机科学领域都容易受到这种影响。

“一旦你有了一个设定特定类型测试的基准,人们就开始在这些基准上训练系统,”他说。

让一个程序在特定基准上表现更好,并不一定意味着它在总体上会更好。

例如,你可以设计一个聊天机器人,它只正确回答SimpleQA的4,326个问题,因此在这个指标上得分为100%,但它无法告诉你天空是否是蓝色的。

Webb教授表示,这种偏差可能是微妙的。人们可能不会故意在SimpleQA的问题上训练系统,但他们可能会选择那些能提高SimpleQA分数(或其他基准分数)的系统改进。

澳大利亚天主教大学的AI研究员Niusha Shafiabady表示,人类干预可能是评估和管理LLMs准确性的一种好方法。

“也许10年后我们就不需要这样做了,但在现阶段,我认为人类监督是一个很好的过程整合方式。”

她建议,人类随机检查答案,就像制造商经常检查样品一样,可以成为一种有用的质量控制。

de Silva教授表示,判断LLM成功与否的更好方法是它的使用量。

“评估指标的优越性并不总是意味着它在一般环境中会有用。”

他表示,微软的Copilot基于GPT-4构建,可能被认为比其竞争对手表现更好,因为它被广泛采用。

“这本身就是另一种更普遍和隐含的评估指标。”

AI如何减少幻觉?

OpenAI对如何提高GPT的准确性含糊其辞,除了“扩大计算和数据规模”之外。

但这一最新改进(在一个特定测试中)是否意味着AI会减少错误?还是说它们的改进有极限?

OpenAI宣称其最新聊天机器人GPT-4.5“幻觉更少”。这一说法如何衡量?

谷歌AI的Gemini和微软的Copilot也是LLMs。(Getty Images: Robert Way)

Webb教授表示,简单地向LLM添加更多训练数据的问题是,数据并不一定准确。

“人们会写一些奇怪的东西,”他说。

de Silva教授表示,当前改进LLM的模式——添加更多数据和计算能力——并不能无限期地改进它们。

“也许去年年底,AI公司已经消耗了所有可用于训练大型语言模型的有用数据,”他说。

“这意味着LLM的新能力存在重大缺陷。”

OpenAI宣称其最新聊天机器人GPT-4.5“幻觉更少”。这一说法如何衡量?

予人玫瑰,手有余香

给TA喜欢
共0人
还没有人赞赏,快来当第一个赞赏的人吧!
    教育、留学

    伊萨山调查显示市民强烈要求恢复公立学校巴士服务

    2025-3-20 6:53:24

    教育、留学

    菲茨罗伊克罗斯学生缺勤率高达80%

    2025-3-20 9:22:26

    个人中心
    今日签到
    私信列表
    搜索