logo
繁体
繁体

中国造廉价人工智能产品DeepSeek震动了硅谷和美股,人们都知道哪些事情?

华尔街日报报道指出,尽管 DeepSeek 使用的芯片并不先进,但仍被称为“令人惊叹和印象深刻”。

一家中国人工智能公司引起了硅谷的惊叹,因为在使用性能较差的芯片情况下,几乎追平了美国竞争对手。根据一个引用很广的排名,中国公司DeepSeek的人工智能模型已跻身全球性能排名前十。

这表明,美国的出口限制在阻止中国快速进步方面面临挑战。

1月20日,DeepSeek推出了一款专为复杂问题解决设计的特殊模型R1。

“DeepSeek R1是我见过的最令人惊叹和印象深刻的突破之一,”硅谷风险投资家马克·安德森在上周五的社交平台X上表示。他一直为特朗普提供建议。

DeepSeek的进展引发了周一早盘芯片股的抛售,投资者担心美国科技巨头在尖端半导体和其他人工智能基础设施上的巨额支出是否合理。科技股为主的纳斯达克指数下跌近3%,英伟达股价一度下跌超过15%。

DeepSeek的发展由中国对冲基金幻方量化的创始人梁文峰领导。他已成为中国人工智能推动的代表人物。1月20日,梁文峰会见了中国总理李强,讨论了本土企业如何缩小与美国的差距。

专家表示,DeepSeek的技术仍落后于OpenAI和谷歌。但尽管使用更少且技术较落后的芯片,甚至在某些情况下跳过了美国开发者认为必要的步骤,依然成为一个接近的竞争者。

DeepSeek表示,训练其最新模型之一的成本为560万美元,而根据去年Anthropic首席执行官达里奥·阿莫代的说法,开发一个模型的成本在1亿美元到10亿美元之间。

旧金山一家人工智能硬件公司Positron的联合创始人巴雷特·伍德赛德表示,他和同事们对DeepSeek感到兴奋。

“这非常酷,”伍德赛德说。

他特别提到,DeepSeek的开源模型,使人工智能模型背后的软件代码可以免费获得。

DeepSeek最新的旗舰模型V3于去年12月推出。用户注意到,这个模型拒绝回答关于中国和领导人习近平的敏感政治问题。在某些情况下,回答与北京的官方宣传一致,而不像ChatGPT那样包括批评政府的观点。

“唯一的缺陷是某些粗糙的中国宣传审查,”伍德赛德说,但他认为,由于代码是开放的,其他开发者可以轻松修改这些限制。

DeepSeek表示,R1和V3的性能均超过或接近领先的西方模型。截至上周六,这两个模型在加州大学伯克利分校研究人员主办的Chatbot Arena平台上的排名进入前十。

一款谷歌Gemini模型排名第一,而DeepSeek的模型则超越了Anthropic的Claude和埃隆·马斯克xAI推出的Grok。

DeepSeek起源于一家名为幻方量化的对冲基金经理的人工智能研究部门。幻方量化拥有80亿美元资产,以利用人工智能进行交易而闻名。

DeepSeek表示,V3模型的训练使用了超过2000颗英伟达芯片,而类似规模的模型训练通常需要数万颗芯片。

“人类做投资决策是一种艺术,他们仅凭直觉操作。计算机程序做决策则是一门科学,能提供最优解,”梁文峰在2019年的一次演讲中表示。

梁文峰1985年出生于中国东南部的广东省。他曾就读于中国著名的浙江大学,主修机器视觉。毕业几年后,梁文峰与两位大学好友于2015年创立了幻方量化。

熟悉他的人说,梁文峰更希望自己被视为工程师,而不是交易者。他的公司幻方量化是中国率先将深度学习应用于计算机化交易的公司之一。这项技术模仿人脑的工作原理,使计算机可以分析更多样化的数据类型。

虽然DeepSeek的旗舰模型是免费的,但公司向那些将自己应用连接到DeepSeek模型和计算基础设施的用户收费。

例如,有些企业希望利用这项技术为客户的查询提供人工智能答案。

去年年初,DeepSeek将这种服务的价格削减至其他厂商价格的一小部分,促使中国行业内掀起价格战。

硅谷利用生成式人工智能预测财务收益的创业公司联合创始人安东尼·普表示,他的公司去年9月从Anthropic的Claude模型切换到了DeepSeek的模型。测试表明,DeepSeek的表现类似,但成本仅为Claude的四分之一。

“OpenAI的模型在性能上最佳,但我们也不希望为我们不需要的能力支付高额费用,”普表示。

DeepSeek的梁文峰

1月20日的会议上,梁文峰对中国总理李强表示,尽管中国企业正在努力追赶,但美国对先进芯片出口中国的限制仍是一个瓶颈。据知情人士透露,这一问题仍在困扰中国企业的发展。

2019年,幻方量化开始利用其金融业务所产生的资金,建设用于人工智能研究的芯片集群。公司后来建成了一个更大的集群,包括大约1万颗英伟达图形处理单元,用于训练大型语言模型。

到2022年底,当OpenAI推出ChatGPT时,中国只有少数几家公司拥有足够强大的计算基础设施来开发此类模型。

DeepSeek在一份技术报告中表示,其V3模型的训练使用了超过2000颗英伟达芯片,而类似规模模型的训练通常需要数万颗芯片。一些美国人工智能专家最近质疑幻方量化和DeepSeek是否在使用公开宣布之外的计算能力。

一些外部研究人员指出,与使用更高昂成本训练的竞争对手相比,DeepSeek的模型缺乏某些能力。例如,在跟踪长对话的上下文方面表现不足。

在1月20日发布的最新推理模型中,DeepSeek跳过了一种称为监督微调的流程。监督微调是程序员输入人类专家的知识以为模型提供初始优势的过程。DeepSeek表示,最新模型专为解决复杂的数学文字题和类似挑战设计,尽管省略了监督微调,但其性能可与OpenAI的推理模型o1相媲美,主要依赖强化学习,即通过指导性试错进行优化。

英伟达高级研究科学家范吉姆( Jim Fan )对DeepSeek报告的研究成果表示赞赏。他在社交平台X上称这是一项突破,令他想起了早期那些开创性的人工智能程序,这些程序在没有模仿人类国际象棋大师的情况下,“从零开始”掌握了棋类游戏。

前OpenAI高管扎克·卡斯表示,尽管受到美国限制,DeepSeek的进步“凸显了一个更大的教训:资源限制往往能够激发创造力。”