大模型

AI大模型深度报告:大模型研究框架(2025)

2017年谷歌团队提出Transformer架构,创造性推动注意力层以及前馈神经网络层的发展,加速提升模型性能。2018–2020年是预训练Transformer模型时代,GPT-3以1750亿参数突破大规模预训练的可能性界限,而SFT及RLHF等技术帮助模型加速对齐人类价值观。此后随着训练侧Scaling Law描述的幂律关系出现收益递减,叠加高质量文本数据或逐步被AI耗尽,推理模型开始进入人们视野;以OpenAI发布o1-preview将AIME 2024的模型回答准确率从GPT4o的13.4%提升至56.7%,模型维持加速迭代更新。

AI辅助投研深度案例系列之二:大模型赋能情绪、政策指标构建

发挥大模型的优势:探索情绪、政策变量的构建。对于生成式 AI,其优势在于更强的文字理解能力、学习能力,有望帮助我们在传统量化较难处理的情绪、政策方向判断上提供一定的帮助。本文中,我们将主要采用腾讯元宝搭载的 DeepSeek-R1 大模型对这一方向进行探索,利用大模型的上下文学习、常识推理能力,从互联网公开信息,例如新闻、政策等,对 A 股市场或特定板块的“情绪”进行推理,观察大模型构建的情绪观点相比于传统量化情绪指标、政策打分变量的优势与短板。
SVIP免费

计算机行业专题报告:私有化部署需求提升带来大模型一体机投资机会

DeepSeek 技术创新有望推动政企私有化部署需求提升。私有化部署凭借物理隔离、数据闭环、自主管控、定制服务等特征,正成为政企部署 AI 大模型的主流选择。DeepSeek 的技术创新显著降低了私有化部署的模型和算力门槛,有望解决政企落地 AI 应用的部分痛点难点问题,进一步推动政企私有化部署需求提升。

半导体行业专题报告:AI大模型竞赛方兴未艾,OpenAI与DeepSeek引领行业生态重构

2024年全球AI市场规模有望达到6.16万亿美元,同比增长30.1%,2027年有望扩张至11.64万亿美元,CAGR为23.65%。AI概念于1956年达特茅斯会议首次提出,是一种模拟人类智能的技术,按照智能程度划分,主要分为狭义人工智能、通用人工智能和超级人工智能,目前通用人工智能还处于理论阶段。AI具有算力、算法、数据三大要素,算法决定了AI如何处理数据和解决问题,数据决定了算法是否能得到有效的训练和优化,算力提供了执行算法和处理数据所需的计算资源。从AI产业链看,整体涵盖基础设施层、模型层、平台层、应用层及服务层多个环节,基础设施层主要包括与芯片、计算、存储、网络、软件、连接与通信等多个上游领域,模型层可分为通用大模型、行业大模型等。根据Frost & Sullivan,自2020年起,全球AI市场规模以高于20%的同比增速呈现迅猛增长的态势,从2019年的1.91万亿美元有望扩张至2024年的6.16万亿美元,同比增速逐年上升,整体市场有望在2027年扩张至11.64万亿美元,体现出全球AI行业井喷式的发展速度。

AI 大模型专题研究报告:模型加速迭代,有望促进应用端快速发展

AI 大模型是人工智能预训练大模型的简称,其融合了“预训练”和“大模型”两个核心概念,开创了一种全新的智能模式。具体而言,AI 大模型通过在海量数据集上进行预训练,能够在仅使用少量数据进行微调,甚至无需微调的情况下,直接支持多种应用场景。模型通常采用多层神经网络架构,并借助高级优化算法和强大的计算资源进行训练,从而具备出色的泛化能力、通用性和实用性,广泛应用于自然语言处理、计算机视觉、智能语音等多个领域,并在其中取得了突破性的性能提升。
SVIP免费

星环科技研究报告:从Data Infra到AIInfra,大模型部署的“卖铲人”

从 Data Infra 延伸至 AI Infra。公司以大数据技术起家,AI 数据工程基因纯粹,具有大数据基础平台、分布式数据库、数据开发与智能分析工具、数据云平台等完整产品矩阵,覆盖大数据全生命周期管理。基于数据工程基因,大模型时代浪潮下公司业务定位由数字基础设施提供商进一步延伸至 AI 基础设施企业,通过整合大数据、人工智能等技术,推出知识平台 TKH,完善了AI 从基础设施到应用的产业链条。

deepseek大模型生态报告

DeepSeek,全称“杭州深度求索人工智能基础技术研究有限公司”,简称“深度求索”,于 2023 年 7 月 17 日由幻方量化创立,位于杭州市拱墅区,是一家创新型科技公司,专注于开发先进的大语言模型(LLM)和相关技术,法定代表人、执行董事兼总经理为裴湉。

DeepSeek领衔大模型创新,数字科技政策与产业协同发展

DeepSeek 引领大模型创新浪潮。DeepSeek 的迅速推广和广泛应用将推动为行业树立了高质量数据驱动的标杆,进一步提升数据标准的精准性、多样性,加强算力和数据的协同优化,进一步加快 MoE 架构、强化学习训练方法和 FP8 等混合进度技术探索创新,有望助力国内大模型产业在稳步降低成本的同时实现模型性能跃升。我们认为,DeepSeek 在一定程度上重塑了大模型的技术发展范式,‚技术平权‛为产业升级注入了新活力,尤其是在金融、自动驾驶等领域表现尤为突出。此外,知识蒸馏已成为将大型模型的能力迁移至参数规模更小的模型的重要途径,蒸馏技术成为广泛部署 R1 能力中小型模型的有效策略,使大规模端侧部署更进一步,这为小模型赋能 AI PC、耳机、玩具和智能教育设备提供了有力支持。
加载更多