计算机行业周报:DeepSeek应用上线20天日活超2000万,R1模型强化学习技术突破

研究机构:华鑫证券 研究员:宝幼琛 发布时间:2025-02-13

  投资要点

  算力:算力租赁价格平稳,AMD MI400加速器曝光

  2月3日据Videocardz报道,AMD的下一代AI加速器Instinct MI400将配备两个有源转接层芯片(AID),每个AID芯片将包含四个加速计算芯片(XCD),即将拥有最多8个加速计算芯片,同时还拥有独立的多媒体(Multimedia)I/O Die。

  根据AMD此前公布的消息显示,其将于今年下半年推出新一代AI加速器Instinct MI353X,该加速器将使用3nm工艺节点构建,GPU将采用CDNA4架构。在规格方面,内存将升级到更高的容量,最高可达288GB HBM3e,同时支持FP4/FP6数据类型。AMD表示,CDNA4架构的性能比CDNA3高出35倍,AI计算增加了7倍,内存容量/带宽增加了50%,速度比当前一代MI300X高出8TB/s,并且还配备了最新的网络效率进步。在性能方面,AMD Instinct MI355XAI GPU将提供高达2.3PFLOP的FP16性能,比MI325X高80%,而FP8数据也比MI325X高80%,达到4.6PFLOPS。新的FP6和FP4计算性能额定为9.2PFLOPS。

  此外,AMD将于2026年发布更新一代的Instinct MI400系列加速器。AMD表示这些加速器将基于AMD CDNA"Next"架构,旨在提高AI训练和推理任务的性能和效率,但并未公布更细节的信息。

  据外媒coelacanth-dream报道称,AMD最新曝光的“补丁”文件显示,MI400将配备两个有源转接层芯片(AID),每个AID芯片将包含四个加速计算芯片(XCD),而MI300系列的每个AID只配备了两个XCD。此外,AMD还推出了一种名为Multimedia I/O Die设计,据称能将多媒体引擎与AID分开,并且可能移动了接口处理的其他功能。

  MI400最多可能拥有两个MID,每个AID可能拥有一个专用的MID tile,与前几代相比,这将在计算单元和I/O接口之间提供高效的通信。即使在MI350上,AMD也使用infinity结构进行芯粒间通信。因此,这是对MI400加速器的重大变化,MI400加速器针对大规模AI训练和推理任务,并将基于CDNA-Next架构,该架构可能会更名为UDNA并作为RDNA和CDNA架构统一战略的一部分。

  AI应用:DeepSeek应用上线20天日活超2000万,DeepSeek-R1强化学习技术突破

  DeepSeek应用(APP)2025年1月11日发布,截止1月31日上线仅21天,日活跃用户DAU2215万,达ChatGPT日活用户的41.6%,超过豆包的日活用户1695万,成为全球增速最快的AI应用。DeepSeek应用(APP)2025年1月月活跃用户(MAU)3370万,海外用户占比70%,月活跃用户(MAU)占比最多的前五个国家为:中国(30.71%),印度(13.59%),印尼(6.94%),美国(4.34%),法国(3.21%)。DeepSeek应用(APP)上线21天,凭3370万月活MAU,全球总榜TOP4。截止1月31日DeepSeek霸榜苹果应用商店157个国家/地区的第一名,这其中包含美国。

  DeepSeek的第一代推理模型DeepSeek-R1-Zero是一种通过大规模强化学习(Reinforcement Learning,RL)训练的模型,在初始阶段未依赖监督微调(Supervised Fine-Tuning,SFT),但表现出卓越的推理能力。在强化学习过程中,DeepSeek-R1-Zero展现出多种强大的推理行为,但该模型面临诸如可读性差和语言混杂等挑战。

  为了解决这些问题并进一步提升推理性能,DeepSeek进一步开发了DeepSeek-R1,该模型在强化学习之前加入了多阶段训练流程和冷启动数据。

  DeepSeek首次尝试使用纯强化学习来提升语言模型的推理能力,旨在探索大语言模型在没有任何监督数据的情况下开发推理能力的潜力,重点关注其通过纯RL流程实现的自我演化。具体来说,DeepSeek使用DeepSeek-V3-Base作为基础模型,并采用GRPO强化学习框架来提升模型在推理任务中的性能。由技术报告得知,DeepSeek使用H800的GPU做训练,且只有两千张左右的H800,整个DeepSeek-V3的正式训练成本不超过600万美元。

  具体而言,DeepSeek首先收集了数千条冷启动数据对DeepSeek-V3-Base模型进行微调,随后与DeepSeek-R1-Zero类似,执行以推理为导向的强化学习。在强化学习过程接近收敛时,通过在RL检查点上进行拒绝采样,结合DeepSeek-V3的监督数据(包括写作、事实问答、以及自我认知等领域),生成新的SFT数据并重新训练模型。在微调完成后,该检查点继续进行强化学习,以涵盖所有场景的prompt。经过这些步骤后,得到了名为DeepSeek-R1的检查点。

  DeepSeek-R1在AIME2024基准测试中取得了79.8%的pass@1得分,略微超过了OpenAI-o1-1217。在MATH-500测试中,DeepSeek-R1取得了97.3%的出色成绩,与OpenAI-o1-1217的表现相当,且远超其他模型。在MMLU、MMLU-Pro和GPQA Diamond等基准测试中,DeepSeek-R1表现出色,其成绩显著优于DeepSeek-V3。

  AI融资动向:Anthropic获本周AI融资额第一,获10亿美元融资

  Anthropic获本周AI融资额第一,获10亿美元融资。本周《金融时报》披露,谷歌向OpenAI竞争对手Anthropic追加10亿美元投资。此前,Anthropic被多家媒体曝出正在商讨以600亿美元的投后估值筹集20亿美元新资金。数据提供商CB Insights称,这笔交易将使Anthropic成为继SpaceX、OpenAI、Stripe和Databricks之后第五大最有价值的美国初创企业。Anthropic自成立以来,一直致力于开发可靠、可解释和可控的AI系统。2023年7月,Anthropic发布了Claude2,该产品类似于ChatGPT的AI助手,标志着其在大型语言模型领域的初步成果。2024年3月,Anthropic发布Claude3,并开发了旨在使AI系统与人类价值观保持一致的“宪法式人工智能”(Constitutional AI)框架。该框架是通过一系列原则来引导AI模型的行为,使其输出更加符合人类的道德和伦理标准,从而提高AI模型的安全性和可控性。

  投资建议

  2月8日QuestMobile数据显示,DeepSeek的日活跃用户数在2月1日突破3000万大关,成为史上最快达成这一里程碑的应用。DeepSeek的朋友圈正在持续“扩容”,三家基础电信企业均全面接入DeepSeek开源大模型,东风汽车2月7日宣布已完成DeepSeek全系列大语言模型的接入工作,广汽、吉利、岚图、智己、宝骏等多家中国自主品牌车企正以加速与DeepSeek的深度融合为开年的“风向标”。DeepSeek正以“中国速度”席卷全网,成为现象级App,有望实现AI应用爆发的黄金期。

  我们坚定持续看好AI软硬件机会,建议关注以AI为核心的龙头厂商科大讯飞(002230.SZ)、芯片技术有望创新突破的寒武纪(688256.SH)、高速通信连接器业务或显著受益于GB200放量的鼎通科技(688668.SH)、已与Rokid等多家知名AI眼镜厂商建立紧密合作的亿道信息(001314.SZ)、加快扩张算力业务的精密零部件龙头迈信林(688685.SH)、持续加码高速铜缆的泓淋电力(301439.SZ)等。

  风险提示

  1)AI底层技术迭代速度不及预期。2)政策监管及版权风险。3)AI应用落地效果不及预期。4)推荐公司业绩不及预期风险。

查看研报原文

行业研究

华鑫证券