FX168财经报社(北美)讯 中国科技巨头阿里巴巴周三(1月29日)发布了其Qwen 2.5人工智能模型的新版本,它声称该模型超过了广受好评的DeepSeek-V3。
Qwen 2.5-Max在农历新年的第一天发布,这表明中国人工智能初创公司DeepSeek在过去三周的飞速崛起不仅给海外竞争对手带来了压力,也给国内竞争对手带来了压力。
阿里巴巴的云部门在其官方微信帐户上发布的公告中表示,Qwen 2.5-Max的性能几乎优于GPT-4o、DeepSeek-V3和Llama-3.1-405B。
1月10日发布的由DeepSeek-V3模型提供支持的DeepSeek人工智能助手,以及1月20日发布的R1模型,震惊了硅谷,导致科技股暴跌,这家中国初创公司的低开发和使用成本促使投资者质疑美国领先的人工智能公司的巨额支出计划。
但DeepSeek的成功也导致其国内竞争对手争相升级自己的人工智能模型。
在DeepSeek-R1发布两天后,抖音所有者字节跳动发布了其旗舰AI模型的更新,它声称该模型在AIME中的性能优于微软支持的OpenAI的o1,这是一个基准测试,用于衡量人工智能模型对复杂指令的理解和响应程度。
这呼应了DeepSeek的说法,即其R1模型在几个性能基准上与OpenAI的o1相媲美。
DeepSeek与国内竞争对手
DeepSeek的V3型号的前身DeepSeek-V2在去年5月发布后,在中国引发了一场人工智能价格战。
事实上,DeepSeek-V2是开源的,而且价格空前便宜,每100万个代币(或由人工智能模型处理的数据单位)只需1元人民币(0.14美元),这导致阿里巴巴的云单位宣布在一系列型号上降价高达97%。
其他中国科技公司也开始效仿,包括百度。
DeepSeek的神秘创始人梁文峰在7月接受中国媒体Waves的罕见采访时表示,这家初创公司“不关心”价格战,实现AGI(人工智能)是其主要目标。
OpenAI将AGI定义为在最具经济价值的任务中超越人类的自主系统。
虽然像阿里巴巴这样的中国大型科技公司拥有数十万员工,但DeepSeek的运作就像一个研究实验室,主要由来自中国顶尖大学的年轻毕业生和博士生组成。
梁文峰在7月的采访中表示,他认为中国最大的科技公司可能不太适合人工智能行业的未来,将其高成本和自上而下的结构与DeepSeek的精益运营和松散的管理风格形成对比。
他说,大型基础模型需要持续创新,科技巨头的能力是有限的。