1.板块观点
DeepSeek系列为什么爆火?
DeepSeek实现行业领先模型能力,并且对代码开源。在AIME2024、Codeforces、GPQADiamond、Math-500、MMLU等多个测试中,DeepSeek-R1展现出媲美OpenAI-o1的模型能力。
DeepSeek的模型成本大幅下降。在成本方面,DeepSeek-R1的API服务输出定价为16元/1MTokens,相较于openAI-o1下降96%。对2024年12月发布的DeepSeek-V3,其API服务输出订单仅为8元(活动优惠期内为2元)/1MTokens。
DeepSeek系列有哪些关键的技术突破?
DeepSeek系列模型有2个核心的模型,DeepSeekV3和DeepSeekR1/R1-zero。
DeepSeekV3在传统专家混合模型(MoE)上改进,实现了超低的训练成本。传统MoE模型存在负载均衡问题,在低精度训练方面也容易受到异常值影响。DeepSeekV3通过动态调整专家负载,避免了传统方案的性能损失,并且通过FP8混合精度训练框架验证了FP8在超大规模模型上的可行性。通过优化算法、框架和硬件协同,DeepSeekV3的训练需要180KH800GPUhours(2048块H800上训练50-60天),训练成本仅557.6万美元。相比之下,OpenAI训练GPT-4使用了2万块A100显卡训练90-100天,训练成本约6300万美元。
DeepSeekR1/R1-zero通过大规模强化学习训练,涌现出强大推理能力。DeepSeekR1/R1-zero都是是通过大规模强化学习训练而来的模型,其中R1-zero没有将有监督微调(supervisedfine-tuning,SFT)作为初始步骤。最早采用强化学习方法进行训练的模型是OpenAIo1。OpenAI研究科学家、o1核心贡献者HyungWonChung在MIT进行过一次名为“Don’tteach.Incentivize(不要教,要激励)”的演讲,就论述了这一理念。HyungWonChung认为AI领域正处于一次范式转变,即从传统的直接教授技能转向激励模型自我学习和发展通用技能。AGI所需要的技能太多,我们无法列举出每一项技能去teach,因此唯一可行的方法就是incentivize激励,让模型自己的思考、去涌现新的能力。在训练中,R1/R1-zero的推理能力通过强化学习自然涌现,思考时间随着模型的进行持续提升,自然而然地获得了解决越来越复杂推理任务的能力。
相比R1,R1-zero省略了监督有监督微调SFT环节,完全依赖于强化学习,进一步减少了人工干预,引起了更多的关注。这对于那些难以获取大量高质量标注数据的领域来说,具有重要的意义。
DeepSeek系列的影响?
开源VS闭源
大模型领域一直存在开源和闭源的争议。OpenAI的GPT系列是闭源模型的代表,而开源模型阵营则有meta的Llama模型。在国内,华为、百度选了闭源,而阿里、腾讯则推出了开源模型。不论开源、闭源,在透明性、合规性、安全性方面都有很多分歧与争议。DeepSeek作为一个开源模型,其爆火意味着开源模型领域的一次大的突破。从商业模型角度,也意味着模型门槛的大幅降低,有更多的企业、技术人员可以进入大模型领域,并开发针对自己特定领域的模型。这对AI领域的加速发展无疑是一种利好。
预训练VS后训练
前OpenAI联合创始人、SSI创始人IlyaSutskever在NeurIPS2024大会上发表演讲时表示,预训练时代即将结束,数据作为AI的化石燃料是有限的,目前用于AI预训练的数据已经达到了峰值。在此背景下,我们认为,AI领域正在进行一场范式的转变,重点将从预训练转向基于强化学习的后训练。DeepSeekR1已经展现出后训练可以涌现出强大的推理思考能力。
算力VS应用
DeepSeek的低成本模型让人担忧巨额的算力投资是否过度,但我们认为更低的成本会刺激更大的需求,DeepSeek对算力本身并不是一个利空。类似的情况我们在半导体、光伏都看到过,尽管成本大幅下降,但需求的提振还是让市场规模保持成长。从投资层面,除算力外,建议投资者2025年重点关注AI的应用,agent、智能硬件(AI眼镜等)、具身智能都将迎来发展机遇。