FX168财经报社(亚太)讯 3月24日,根据知情人士透露,由马云支持的蚂蚁集团公司利用中国制造的芯片开发训练人工智能模型的技术,该技术可将成本降低20%。
知情人士称,蚂蚁集团使用包括其关联公司阿里巴巴和华为在内的国产芯片,利用混合专家机器学习方法来训练模型。他们表示,其结果与英伟达公司H800等芯片类似。由于信息未公开,他们要求不具名。其中一位知情人士表示,蚂蚁集团仍在使用英伟达进行人工智能开发,但现在其最新模型主要依赖于其他替代产品,包括超威半导体公和最新型号的中国芯片。
这些模型标志着蚂蚁集团进入中美公司之间的竞争,自DeepSeek展示如何以远低于OpenAI和谷歌数十亿美元的投资训练出功能强大的模型以来,这场竞争一直在加速。这凸显了中国公司如何试图利用本地替代品来替代最先进的英伟达半导体。虽然H800并非最先进的产品,但它是一款相对强大的处理器,目前美国禁止其出口到中国。
该公司本月发布一份研究论文,称其模型在某些基准测试中有时优于Meta Platforms公司,但彭博新闻尚未对此进行独立核实。但如果它们像宣传的那样工作,蚂蚁集团的平台可能会通过降低推理或支持人工智能服务的成本,标志着中国人工智能发展又向前迈进了一步。
随着公司在人工智能领域投入大量资金,混合专家模型已成为一种流行的选择,并因谷歌和杭州初创公司DeepSeek等公司的使用而获得认可。这种技术将任务分成更小的数据集,就像拥有一个专家团队,每个人专注于一项工作的一部分,从而使流程更高效。蚂蚁在一份电子邮件声明中拒绝置评。
然而,混合专家模型的训练通常依赖于英伟达销售的图形处理器(GPU)等高性能芯片。迄今为止,成本对于许多小型公司来说一直令人望而却步,并限制了更广泛的应用。蚂蚁集团一直在研究更高效地训练大型语言模型并消除这一限制的方法。其论文标题明确表明这一点,因为该公司的目标是在“没有高端GPU”的情况下扩展模型。
这与英伟达首席执行官黄仁勋的观点背道而驰。黄仁勋认为,即使像DeepSeek的R1这样更高效的模型出现,计算需求也会增长,他认为,公司需要更好的芯片来创造更多收入,而不是更便宜的芯片来降低成本。他一直坚持构建具有更多处理核心、晶体管和更大内存容量的大型GPU的战略。
彭博情报分析师Robert Lea表示,蚂蚁集团的论文凸显了中国人工智能领域日益增长的创新和加速的技术进步。如果该公司的说法得到证实,将凸显出随着中国转向低成本、计算效率高的模型,以规避对英伟达芯片的出口管制,中国在人工智能领域实现自给自足的道路上进展顺利。
蚂蚁集团表示,使用高性能硬件训练1万亿个tokens的成本约为635万元人民币(88万美元),但其优化方法可以使用较低规格的硬件将成本降低至510万元人民币。Tokens是模型为了了解世界并向用户查询提供有用响应而摄取的信息单位。
知情人士称,该公司计划利用其开发的大型语言模型Ling-Plus和Ling-Lite的最新突破,为包括医疗保健和金融在内的工业人工智能解决方案提供支持。
蚂蚁集团今年收购中国在线平台好大夫在线,以加强其在医疗保健领域的人工智能服务。它还拥有一款名为“支小宝”的人工智能“生活助手”应用程序和一款名为“蚂蚁财富”的金融咨询人工智能服务。
在英语理解方面,蚂蚁集团在其论文中表示,Ling-Lite模型在关键基准测试中优于Meta的Llama模型之一。Ling-Lite和Ling-Plus模型在中国语言基准测试中均优于DeepSeek的同类模型。
北京人工智能解决方案提供商Shengshang Tech Co.首席技术官Robin Yu表示:“如果你找到一个击败世界顶级功夫大师的攻击点,你也可以说你击败了他们,这就是为什么实际应用很重要。”
蚂蚁集团已将Ling模型开源。Ling-Lite包含168亿个参数,这些参数是像旋钮和拨盘一样调节模型性能的可调设置。Ling-Plus包含2900亿个参数,这在语言模型领域被认为是相对较大的。相比之下,专家估计ChatGPT的GPT-4.5包含1.8万亿个参数,DeepSeek-R1包含6710亿个参数。
蚂蚁集团在训练的某些领域面临挑战,包括稳定性。该公司在论文中表示,即使硬件或模型结构的微小变化也会导致问题,包括模型错误率的跳跃。