Transformer

AI大模型专题报告:Transformer架构的过去、现在和未来

Transformer 架构的过去和现在:人类大脑在有限的资源条件下,通过神经元回路的自组装和微调,实现了高效的信息处理。为了优化信息处理,大脑发展了高效的信息选择和投注机制——注意力,而非依赖超大容量的处理能力。随着我们对大脑认知机制的深入了解以及计算机科学的进步,研究人员尝试通过算法量化大脑的认知功能,将人类的思维模式映射到人工智能上。Transformer 是一种基于注意力机制的神经网络架构,由 Google Brain 团队于 2017 年在论文《Attention Is All You Need》中提出。通过摒弃传统循环结构,Transformer 利用自注意力机制并行处理序列元素,显著提升了训练速度和长距离依赖建模能力。Transformer 架构的灵活性,使其成为众多非自然语言处理领域先进模型构建的基础框架,展现出广阔的应用前景,包括但不限于能够将不同模态的数据映射到统一的特征表示空间,促进跨模态应用发展。目前,人工智能大模型的进化主要依赖于人工版本的更新。而随着技术的发展,研究人员正在探索自我进化的模型,使其能够自主完善和学习由自身生成的经验,从而推动人工智能向更高级的智能发展。当前 AI 的局限性或在于其学习效率的低下,而非数据不足。真正的智能不仅是数据量的堆积,而是在于对信息的压缩和提炼,类似于通过总结第一性原理的方式获取更深层次的智能。
VIP免费

量化专题报告:StockFormer,基于Transformer的强化学习模型探究

强化学习通过训练智能体直接输出投资决策。强化学习是一种机器学习方法,通过与环境的交互来训练智能体,使其在不同状态下采取能够最大化累积奖励的行动。在强化学习中,智能体(Agent)通过与环境的互动不断学习,通过奖励和惩罚来调整其策略,以便在长期内获得最大回报。在股票市场中,强化学习可以通过市场状态的输入,不断调整交易策略,最大化长期的投资回报。强化学习在金融领域中的应用主要在状态输入,奖励函数及优化算法三个方面进行了创新。 SAC 强化学习加入多项改进以避免模型过拟合。在 SAC 中,价值网络是一个双 Q 网络(Double DQN),即使用两个独立的 Q 网络的同时对目标函数进行估计,在目标值计算时选择最小的一个,从而降低 Q 值的高估风险,防止模型陷入局部最优或者过拟合。此外,SAC 在策略优化过程中引入了熵正则化项,熵正则化项的引入使得策略在早期阶段保持一定的随机性,避免策略网络和价值网络的学习模式过于重合以陷入局部最优,从而提高整体的策略探索能力。对于熵正则项,SAC 还引入了自适应熵系数α,通过优化熵系数来自动调整策略的探索程度,使得模型能够根据当前的训练情况动态调整探索与开发的平衡。
加载更多