AI Daily

TL;DR

2026年大模型训练进入"后Scaling Law"时代：MoE架构成为共识，强化学习占比提升至30%，嵌套学习(Nested Learning)实现持续学习新范式，DeepSeek mHC流形约束技术解决训练稳定性难题。

核心事件

1. MoE架构成为大模型效率优化共识

技术概要： 混合专家模型(Mixture of Experts, MoE)正在取代稠密模型成为大模型架构主流。MoE通过稀疏激活模式，仅针对特定输入激活10-20%的"专家"子网络，实现计算需求与模型规模解耦。

架构类型	激活参数比例	计算效率	代表模型
稠密模型	100%	O(n²)	GPT-3
MoE稀疏	10-20%	O(n×k)	DeepSeek-V3.2, Qwen-2.5

性能指标：

DeepSeek-V3.2采用MoE架构，后训练计算预算占预训练成本10%+
相比稠密模型，MoE在保持性能的同时降低80%推理成本
海外模型厂商强化学习占比已达30%，国内DeepSeek、阿里千问加速跟进

2. 强化学习解锁大模型高级推理能力

范式转变： 2026年大模型训练从"预训练主导"转向"预训练+强化学习"双轮驱动。强化学习的本质是"自我生成数据+多轮迭代"，让模型更有逻辑、更符合人类偏好进行思考。

关键算法演进：

PPO (Proximal Policy Optimization)
├── 截断更新幅度保证稳定性
├── GAE广义优势估计
└── 需搭配奖励模型、价值模型

DPO (Direct Preference Optimization)  
├── 无需独立奖励模型
├── 直接基于人类偏好数据微调
└── 通过对比优选/劣选回答优化

GRPO (Group Relative Policy Optimization)
├── DPO的组级扩展
├── 组内归一化优势计算
└── 缓解输出变长、奖励方差异常

训练挑战与解决方案：

熵坍缩：训练初期策略熵快速趋近于0，模型失去探索性
- 解决方案：DAPO调整epsilon高低边界、动态温度调度
奖励坍缩：GRPO组内归一化抹平多奖励信号差异
- 解决方案：GDPO对各奖励分量独立标准化后加权求和

3. 嵌套学习：持续学习的新范式

核心概念： Google Research 2025年11月提出的嵌套学习(Nested Learning)，模仿人脑处理不同时间跨度记忆的方式，通过分层学习和优化机制，让模型根据任务时间跨度和重要性动态调整学习方式。

技术实现：

# 嵌套学习伪代码示意
def nested_learning(model, tasks, layer_config):
    for level, (freq, update_rate) in enumerate(layer_config):
        # 每个层级具备独立的context flow和更新频率
        level_params = model.get_level_parameters(level)
        
        for batch in get_batches(tasks, frequency=freq):
            gradient = compute_gradient(batch, level_params)
            # 通过梯度下降进行优化
            level_params = update(level_params, gradient, lr=update_rate)
    
    return model

创新意义：

将模型架构、优化算法、记忆系统统一视为关联记忆系统
知识存储在不同频率的参数中，实现真正意义上的持续学习
避免传统正则化、重放方法的灾难性遗忘问题

4. DeepSeek mHC：流形约束重塑残差连接

问题背景： 传统残差连接(ResNet)在深层网络中存在"特征崩溃"问题——深层特征趋于相似、区分度下降。超连接(HC)虽能缓解，但梯度范数剧烈震荡(某些层高达3000倍)，难以扩展到大规模。

mHC解决方案： **流形约束超连接(manifold Hyper-Connection)**通过为表达能力的"活动空间"设定具有优良数学性质的边界，实现稳定与性能的双重胜利。

关键技术：

可微流形投影：通过Sinkhorn-Knopp迭代算法实现
动态连接配方：根据输入特性实时微调宽度/深度连接
数学约束：保持正交性约束，避免梯度爆炸

实验结果(27B模型)：

指标	标准残差	HC	mHC
训练稳定性	稳定	不稳定(损失尖峰)	稳定
BBH任务	基准	+1.2%	+2.1%
DROP任务	基准	+0.8%	+2.3%

技术趋势

优化算法演进路线

2024: AdamW主导 + 混合精度训练
2025: 分布式训练 + 梯度累积优化
2026: 嵌套学习 + 强化学习对齐 + 流形约束

训练效率目标(北京市颠覆性技术课题)

推理吞吐量提升 100%+
训练速度提升 50%+
适用模型规模：≥100亿参数

开发者工具箱

工具/技术	应用场景	效果
MoE架构	大模型稀疏化	激活10-20%参数，降低80%推理成本
GRPO	强化学习训练	组级归一化，稳定长文本生成
嵌套学习	持续学习	多层级优化，避免灾难性遗忘
mHC	深层网络训练	梯度范数稳定，深层特征区分度提升

观点

关于训练范式转变

2026年是大模型训练方法论的分水岭。单纯堆算力、堆数据的Scaling Law已触及边际效益递减，强化学习、嵌套学习等新范式正在重新定义"训练"的含义。未来的大模型训练将是多阶段、多目标、多时间尺度的复杂优化问题，而非简单的梯度下降。

关于MoE架构> MoE不是银弹，但它是当前最优的工程折中。它用系统复杂性换取计算效率，这对硬件架构、通信优化、负载均衡都提出了新要求。可以预见，2026-2027年将是MoE专用芯片和系统优化工具的爆发期。

本日报由AI自动生成，数据截止于2026年3月5日 18:00 CST

大模型训练优化前沿 | 2026-03-05