logo
繁体
繁体

OpenAI 正在开发代号为“Strawberry”的新推理技术,希望彻底改变人工智能模型

路透,OpenAI正在推进代号为“Strawberry”的项目,研究一种新颖的人工智能模型方法。

Photo by Andrew Neel on Unsplash

这个项目此前未有过报道,据路透社5月份看到的OpenAI内部文件副本显示,OpenAI内部的团队正在研究Strawberry。文件详细介绍了OpenAI计划如何使用Strawberry。消息人士向路透社确认计划仍在进行中,即使在OpenAI内部,Strawberry的工作原理也是高度保密的。

据消息人士透露,文件描述了一个使用Strawberry模型的项目,旨在使该公司的AI不仅能够生成查询答案,而且能够提前规划,从而自主、可靠地浏览互联网,完成OpenAI所谓的“深度研究”。

十多名人工智能研究人员称,这是迄今为止人工智能模型无法做到的事情。

Strawberry项目的前身是Q*,路透社去年曾报道称,公司内部已将Q*视为一项突破。

两位消息人士称,他们于今年早些时候观看了OpenAI员工向他们展示的Q*演示,演示中能够回答当今商用模型无法解决的棘手的科学和数学问题。

据彭博社报道,周二在一次内部全体会议上,OpenAI展示了一个研究项目的演示,据称具有类人推理能力。

一位知情人士表示,OpenAI希望这项创新能够显著提高人工智能模型的推理能力,Strawberry涉及一种在人工智能模型经过大规模数据集预训练后进行专门处理的方法。

路透社采访的研究人员表示,推理是人工智能达到人类或超人类水平的关键。

虽然大型语言模型已经能够比人类更快地总结冗长的文本并撰写优美的散文,但在解决常识性问题时往往力不从心,而这些问题对于人类来说似乎显而易见,例如识别逻辑谬误和玩井字游戏。

当模型遇到这类问题时,通常会“产生幻觉”,产生虚假信息。

在人工智能领域,推理是指构建一个模型,使人工智能能够提前规划、反映物理世界的运作方式,并可靠地解决具有挑战性的多步骤问题。提高人工智能模型的推理能力被视为解锁模型能力的钥匙,以便能够完成从重大科学发现到规划和构建新软件应用等所有工作。

OpenAI首席执行官萨姆·阿尔特曼今年早些时候表示,在人工智能领域,“最重要的进步领域将是推理能力”。

谷歌、Meta和微软等其他公司也在尝试不同的技术来提高AI模型的推理能力,大多数从事AI研究的学术实验室也在进行类似的尝试。然而,对于大型语言模型(LLM)是否能够将想法和长期规划纳入预测方法,研究人员存在分歧。

例如,现代AI的先驱之一、在Meta工作的杨立昆(Yann LeCun)经常说,LLM不具备类人推理能力。

知情人士称,Strawberry是OpenAI计划中克服这些挑战的关键。据四位知情人士透露,近几个月来,公司私下向开发人员和其他外部人士暗示,即将发布具有更先进推理能力的技术。

一位消息人士称,Strawberry包含一种被称为“后训练(“post-training)”的OpenAI生成式AI模型的专用方法,即在通用数据上“训练”基础模型后,通过调整基础模型来以特定方式提高性能。

开发模型的后期训练阶段涉及“微调(ine-tuning)”等方法,这是当下几乎所有语言模型都采用的一种方法,形式多种多样,例如让人类根据模型的响应向模型提供反馈,以及向模型提供正确和错误答案的示例。

Strawberry与斯坦福大学在2022年开发的一种名为“自学推理器”(Self-Taught Reasoner)或“STaR”的方法有相似之处。STaR通过迭代创建自己的训练数据,使人工智能模型能够“自举”到更高的智能水平,理论上可用于使语言模型超越人类智能水平,斯坦福大学教授、STaR的创建者之一诺亚·古德曼告诉路透社。

据一手消息来源称,OpenAI希望Strawberry能够执行长程任务(LHT),即需要模型提前规划并在较长时间内执行一系列操作的复杂任务。这种能力的提升意味着AI将能在更复杂和多变的环境中执行任务,如进行长时间的研究、规划软件开发项目等。

据OpenAI内部文件显示,为了实现这一目标,OpenAI正在公司所谓的“深度研究”数据集上创建、训练和评估模型。

根据文件和一位消息人士的说法,OpenAI特别希望模型能够利用这些功能进行研究,在“CUA”(计算机使用代理)的帮助下自主浏览网页,并根据发现采取行动。OpenAI还计划测试其在执行软件和机器学习工程师工作方面的能力。