(相关资料图)
自 2022 年末 OpenAI 方面发布 ChatGPT 以来,生成式 AI 和大模型相关技术就受到了大量的关注,并迎来了更为广泛的应用。但与此同时,AI 技术也产生了诸多相关问题,例如 " 幻觉 "。为解决这一难题,日前 OpenAI 方面在一篇研究论文中指出,其正在用一种新的方法来训练大模型。
据悉," 幻觉 " 是指 ChatGPT 等 AI 聊天机器人会用自行编造虚假信息进行回应。通俗来说,有时 ChatGPT 等 AI 聊天机器人看似在陈述事实,但实际引用的内容却是 " 胡说八道 "。例如今年 2 月谷歌发布的聊天机器人 Bard,就曾对詹姆斯 · 韦伯太空望远镜做出了不真实的表述。
对此,OpenAI 方面在相关报告中写到," 即使是最先进的 AI 模型也很容易产生谎言,它们在不确定的时刻往往表现出捏造事实的倾向。而这些幻觉在需要多步骤推理的领域尤其严重,因为一个逻辑错误就足以破坏一个更大的解决方案 "。据 OpenAI 方面表示,其所采用的新的训练大模型的方法,是指在训练中设置新的奖励机制,即奖励每个正确的推理步骤,而不仅仅是简单地奖励正确的最终结论。该公司指出,这种方法被称为 " 过程监督 "、而不是 " 结果监督 ",它可能会提高 AI 的性能与准确性,因为这种策略鼓励模型更多地遵循类似人类的 " 思维链 "。
对此,OpenAI 数学生成(mathgen)研究员 Karl Cobbe 表示," 检测和缓解模型中的逻辑错误或者幻觉,将是构建高一致性 AGI(通用人工智能)的关键一步。这项研究的动机在于解决幻觉问题,使得模型具备解决挑战性推理问题的强大能力 "。此外 Karl Cobbe 还透露,OpenAI 已经发布一套附带数据集,其中包含 80 万个人类标注,用于训练研究论文中描述的这套模型。
但需要注意的是,OpenAI 公布的这一新的 AI 模型训练方法也受到了一些质疑。例如电子隐私信息中心高级顾问兼 AI 与人权项目负责人 Ben Winters 便对其表示怀疑,并称实际效果要在检查完整的数据集和随附示例后才能确定。布朗大学技术责任中心主任 Suresh Venkatasubramanian 也认为,这项研究的意义更多在于初步观察,而非实际应用。
【本文图片来自网络】