DeepSeek 第5页

计算机行业专题研究报告:DeepSeek推动“算力平权”,关注端侧AI和Agent投资机会

DeepSeek 近期推出 V3/R1/Janus-Pro 等多款大模型,凭借卓越性能和创新技术,在行业内引发强烈反响,效果显著“出圈”。其中 V3 正式训练成本仅为 557.6 万美元,约为 GPT-4 预算的 1/20;R1 性能比肩 OpenAI o1,但API 服务定价为每百万输入 tokens 1 元(缓存命中)/ 4 元(缓存未命中),每百万输出 tokens 16 元,远低于 OpenAI o1。我们认为 DeepSeek 的突破标志着国产大模型技术迈入全球领先行列,其低成本特性将带动 AI应用加速落地。

DeepSeek专题报告:DeepSeek激活创新竞争,AI应用迎来“安卓时刻”

回顾安卓与iOS应用的发展,我们率先提出不应只关注大模型本身的用户数及活跃度,更应该关注开发者,尤其是中小开发者的数量。据GitHub,在Llama比DeepSeek开源时间早1年半的情况下,目前DeepSeek R1在GitHub上的开发者点赞数量已经达到约5.7万,接近Llama。根据GitHub、Hugging Face社区上的开发者实测,经过R1微调的80亿参数小模型可以在个人笔记本中运行,本地化部署门槛显著下降,应用的开发将迎来百花齐放。

DeepSeek核心十问十答

DeepSeek-R1 模型发布,具有高性能、低算力需求的特性,带动小模型推理能力的提升,引发全球开发者及用户关注。R1 作为开源模型性能接近头部闭源模型 o1,一定程度上已经反映了 AI 平权,同时纯强化学习对推理能力的提升带来 RL 范式泛化可能,预计后续基模的持续迭代,有望推动 AI 全产业链持续保持高景气和高关注度,关注算力、应用、端侧、数据等核心投资机会。

DeepSeek R1深度解析及算力影响几何

Deepseek发布深度推理能力模型。R1-Zero采用纯粹的强化学习训练,证明了大语言模型仅通过强化学习也可以有强大的推理能力,DeepSeek-R1经历微调和强化学习取得了与OpenAI-o1-1217相媲美甚至超越的成绩。DeepSeek R1训练和推理算力需求较低,主要原因是DeepSeek R1实现算法、框架和硬件的优化协同。过去的预训练侧的scaling law正逐步迈向更广阔的空间,在深度推理的阶段,模型的未来算力需求依然会呈现爆发式上涨,充足的算力需求对于人工智能模型的性能进步依然至关重要。

AI+专题报告:DeepSeek重塑开源大模型生态,AI应用爆发持续推升算力需求

DeepSeek发展突飞猛进,领跑开源大模型技术与生态,DeepSeek模型已成为全球现象级模型。DeepSeek(深度求索)公司成立于2023年7月,是一家致力于实现通用人工智能(AGI)的创新型科技公司。2024年12月,DeepSeek-V3发布,性能对齐海外领军闭源模型。据官方技术论文披露,V3模型的总训练成本为557.6万美元,对比GPT-4o等模型的训练成本约为1亿美元。2025年1月,DeepSeek-R1发布,性能对标OpenAI-o1正式版。在数学、代码、自然语言推理等任务上,性能比肩OpenAI-o1正式版。2月1日消息,据彭博社报道,DeepSeek的人工智能助手在140个市场下载次数最多的移动应用程序排行榜上名列前茅。国外大型科技公司如微软、英伟达、亚马逊等已先后上线部署支持用户访问DeepSeek-R1模型。2月1日,华为云官方发布消息,硅基流动和华为云团队联合首发并上线基于华为云昇腾云服务的DeepSeekR1/V3推理服务。

Deepseek相关产业专题分析:国产AI应用的“诺曼底时刻”

我们认为DeepSeek的成功有望改变现有AI的产业格局,一方面是中国在全球AI产业的竞争形态,另一方面是大模型开源与闭源的竞争形态:1)对于训练而言,最引人注目的自然是FP8的使用。根据深度学习与NLP公众号,DeepSeek-V3是第一个(至少在开源社区内)成功使用FP8混合精度训练得到的大号MoE模型。2)与OpenAI依赖人工干预的数据训练方式不同,DeepSeek R1采用了R1-Zero路线,直接将强化学习应用于基础模型,无需依赖监督微调(SFT)和已标注数据。3)低成本模型有望引领AI产业“新路径”:开源+MOE。4)开源VS闭源:开源重构AI生态,与闭源共同繁荣下游。

人工智能行业专题分析:比较试用DeepSeek看模型走向应用的新迹象

DeepSeek-V3 上线,模型性能提升较快。2024 年 12 月,幻方旗下深度求索公司上线 DeepSeek-V3 系列模型首个版本,较前代模型DeepSeek-V2.5 有显著提升。为了深入探索该模型的能力,我们采用了覆盖逻辑、数学、代码、文本等领域的多个问题对模型进行测试,将其生成结果与豆包、Kimi 以及通义千问大模型生成的结果进行比较。
加载更多