您当前的位置:首页 > 公告新闻 > 中物财经

产业研究报告 丨 DeepSeek将在哪些维度影响人工智能产业发展?——产业年度前瞻系列一

2025-03-04 来源:

一、DeepSeek合多种创新技术,突破算力瓶颈

     成立不到两年,DeepSeek大模型性能水平比肩OpenAI。DeepSeek于2023年4月由知名量化资管巨头幻方量化发起成立,2024年1月发布首个大模型DeepSeek LLM,包含670亿参数。2024年12月上线并同步开源DeepSeek-V3模型,在短短两个月内,仅在2000块英伟达H800 GPU(特供中国市场的芯片)上花费558万美元,便达到了与美国顶尖闭源模型相媲美的性能水平;2025年1月DeepSeek正式发布R1模型,在国外大模型排名Arena上,R1基准测试升至全类别大模型第三,在风格控制类模型 (StyleCtrl)分类中与OpenAI o1并列第一,在中国区及美区苹果App Store免费榜均占据首位。DeepSeek-V3定位为通用大模型,适用于智能客服、知识问答和内容生成等任务;R1专为复杂推理任务设计,强化在数学、代码生成和逻辑推理领域的性能。

1.DeepSeek创新优化Transformer架构降低算力需求
  DeepSeek-V3模型创新优化Transformer架构,引入“多头潜在注意力(MLA)”和“混合专家架构(MoE)”降低算力需求,训练成本仅为同类闭源模型的1/20。标准的注意力机制随着模型规模的增加,键值的缓存需求急剧增长,可能会因内存占用过高而导致计算效率低下。多头潜在注意力机制通过低秩联合压缩注意力的键值,将高维的键值映射到低维的潜在向量空间,但仍包含了输入的关键信息,显著减少键值缓存内存占用,降低约80%。在每个注意力头得到潜在向量后,通过多头并行计算,每个注意力头关注输入序列的不同部分,最后将多头输出进行拼接组合成最终的输出。同时,为了提高模型训练的效率和性能,DeepSeek-V3模型引入多Token预测(MTP)技术,传统的单Token预测训练每次只预测下一个Token,MTP技术则同时预测多个Token,训练时间能缩短20%-30%,且能更精准捕捉上下文语义关系,生成更准确、更连贯的文本。
  混合专家架构(MoE)将模型分解为多个“专家”网络,每个专家网络都是独立的子模型,专门负责处理特定类型的输入。当输入数据进入模型时,由一个门控网络根据输入数据的特征,动态地将其分配给最合适的专家网络进行处理。MoE架构的稀疏激活机制使得每次只有部分专家被激活参与计算,而不是所有专家都对每个输入进行计算,进一步降低对计算资源的需求。DeepSeek-V3模型一共有61层,其中58层是MoE层,每层设置257个专家,包括1个共享专家和256个路由专家,模型专家总数达到14906个。共享专家扮演全局知识处理的角色,始终参与所有输入的计算,能够捕捉数据中的普遍模式,为模型提供稳定的基础输出。路由专家专注处理特定类型的输入,通过门控机制按需激活。
2.DeepSeek引入低精度训练等提升GPU利用率
  DeepSeek-V3模型不仅通过优化创新Transformer架构降低算力需求,同时采取“FP8混合精度训练”和“对偶流水线机制(DualPipe)”提升GPU芯片的利用率。传统的训练方式通常采用32位浮点数(FP32)来表示模型参数和中间计算结果,这种高精度表示虽然能够保证计算的准确性,但在计算过程中需要消耗大量的计算资源和内存,并且在数据传输过程中会产生较高的通信开销。FP8混合精度训练对于一些对精度要求相对较低的计算任务,使用FP8格式进行计算。由于FP8格式的数据占用内存更少,并且在支持FP8计算的硬件设备上,其计算速度相比FP32和FP16有显著提升。对于一些对精度要求较高的操作,仍然使用较高精度的格式进行计算,以确保模型的训练稳定性和准确性。
  在模型训练过程中,涉及到前向传播、反向传播以及参数更新等过程,这些过程中既包含矩阵乘法等数学运算,也包含不同计算节点之间的数据传输等通信操作。GPU通常按照一定的顺序在指令执行流水线中进行。然而,由于数学运算和通信操作的特性不同,它们在执行过程中可能会导致流水线出现“气泡”,即GPU在某些时间段处于空闲状态,降低了GPU的实际利用率。对偶流水线机制(DualPipe)将模型的计算过程划分为多个阶段,每个阶段包含数学运算和通信操作,当一个阶段的数学运算正在进行时,利用这个时间启动下一个阶段的通信操作,使得数学运算和通信操作在时间上尽可能重叠,减少了数学运算等待数据传输的时间。
3.DeepSeek使用强化学习技术训练推理能力
DeepSeek-R1模型充分利用V3模型架构,针对复杂推理任务,引入强化学习技术,实现了与OpenAI o1模型相当的推理能力。强化学习是通过不断的试错过程和对结果的反馈进行学习,在长期内最大化累积奖励。传统的强化学习通常会有一个额外的批评模型来评估当前策略的好坏,然后根据评估结果来调整策略。然而,批评模型的训练既复杂又耗费计算资源。DeepSeek-R1使用GRPO算法,不需要批评模型,而是从当前策略中采样一组输出,然后根据这些输出的相对表现来调整策略,使表现较好的输出更有可能被生成,而表现较差的输出被抑制。DeepSeek-R1的推理训练分多个阶段,首先是冷启动阶段,利用精心设计的冷启动数据对DeepSeek-V3-Base进行微调,为模型提供初始的推理能力。接着在第一阶段的基础上,用GRPO算法强化学习,进一步提升模型的推理能力,并设计准确性奖励保证模型推理的正确,格式奖励和语言一致性奖励提升模型输出的可读性和流程性。随着强化学习训练的深入,模型思考时间增加,还自发“涌现”了诸如反思(重新审视和重新评估先前步骤)以及探索解决问题的替代方法等更加复杂的操作,表明模型在强化学习过程中能够不断自主提升推理能力。
  DeepSeek打破此前算力资源不足将限制大模型升级迭代的观点,增强中国自主可控发展人工智能的信心。DeepSeek通过创新优化Transformer架构、引入低精度计算、并行训练等,模型在短短两个月内,仅花费558万美元,便达到与美国顶尖闭源模型媲美的性能水平。尽管国产GPU芯片与英伟达的差距仍较大,但DeepSeek大模型能在华为昇腾、摩尔线程等国产GPU上运行,增强中国自主可控发展人工智能的信心。
  DeepSeek大模型将促进物理AI等智能终端产品的繁荣。英特尔宣布DeepSeek能在搭载英特尔处理器的电脑上离线使用,基于R1模型可以完全离线、本地化的做会议纪要、撰写文档等操作。不仅AI PC,判断轻量化、高效的AI模型将能更轻松集成到计算资源受限的硬件平台中,如自动驾驶、人形机器人、AI手机、AI眼镜以及AI玩具等,促进智能终端产品繁荣。
  DeepSeek大模型低成本将进一步普及人工智能服务。以人工智能客服市场为例,目前Salesforce对service agent的定价是2美元一次问询。相比之下,据行业调研人工客服平均应答一次问询的成本大约在2.7-5.6美元之间。DeepSeek-V3模型训练成本仅为同类闭源模型的1/20,且仍有下降空间,将进一步降低人工智能客服的定价,促进人工智能客服市场增长。不仅在人工智能客服市场,AI应用已在AI广告、AI企业助手、AI数据分析、AI教育和AI编程等领域落地,低成本将进一步促进相关AI应用普及,最终使AI产业链上下游迎来繁荣周期。

 


友情链接