拓元智慧团队联合来自中山大学人机物智能融合实验室、阿里巴巴集团及Snap Inc的研究团队,针对了困扰业界已久的长文本生成中“效率”与“质量”难以兼得的根本性挑战,开发出DrDiff(动态路由扩散)框架(已被 NLP 顶会 EMNLP 2025录用接收)。该框架通过创新的动态资源调度机制,在保证生成内容连贯性的同时,将计算复杂度降至线性,为AI辅助学术科研、长篇内容创作、自动报告生成等应用提供了有力的基础支撑。
论文题目:DrDiff: Dynamic Routing Diffusion with Hierarchical Attention for
Breaking the Efficiency-Quality Trade-off
论文链接:https://arxiv.org/pdf/2509.02785
论文通讯作者王可泽博士:国家级青年人才、中山大学计算机学院副教授、博士生导师、拓元智慧高级算法总监,曾获吴文俊人工智能自然科学奖二等,人工智能学会CAAI优秀博士论文奖,国际著名学术评估机构AI 2000年最有影响力学者提名奖。主要研究方向有因果驱动认知的复杂推理、多智能体良好高阶推理、多模态生产式AI、具身智能等。
研究背景:长文本生成的固有瓶颈
尽管大型语言模型(LLM)在各类任务上表现出色,但在生成超过数万token的超长文本时,其性能会显著下降。核心问题源于Transformer架构固有的二次计算复杂度(O(n²)),导致处理长序列时计算资源消耗巨大。现有解决方案,如稀疏注意力(如Longformer)或扩散模型(如DiffuSeq),多采用固定模式的资源分配,无法灵活应对文本中不同片段、不同生成阶段的异质性需求,从而导致:
长程依赖衰减:模型难以维持远距离的语义连贯性,易出现内容重复或逻辑断裂。
资源分配次优:对简单和复杂文本片段“一视同仁”,造成算力浪费或关键部分计算不足。
生成质量随长度退化:文本越长,模型越容易“遗忘”前文信息,质量下降越明显。
核心技术突破:动态智能的三大支柱
DrDiff框架的核心思想是“动态化”,其创新性体现在三个紧密协同的技术组件上,宛如为模型装上了“智能调度中枢”:
分层稀疏注意力(HSA):自适应的感受野切换
HSA机制彻底改变了固定注意力模式的思路。它根据实时输入序列长度(N) 动态构建稀疏注意力掩码:
短文本(N ≤ 512):启用密集注意力模式,捕获全部细节。
中等文本(512 < N ≤ 4K):切换至局部(窗口w=256)+ 稀疏膨胀(δ₁)组合模式,高效覆盖中短程依赖。
长文本(4K < N ≤ 8K):采用稀疏膨胀(δ₂ > δ₁)+ 全局节点(G₁)模式,扩大感受野。
超长文本(N > 8K):启用超长序列模式(M₁₆K₊),结合稀疏局部注意力和基于关键token比例(ρ=0.05)的全局注意力,理论上将复杂度降至线性O(n)。
这种基于长度的分层策略,确保了无论文本多长,模型总能以最经济的计算成本激活最合适的注意力模式。
动态专家调度(DES):按需分配的计算资源
DrDiff在去噪网络的前馈网络(FFN)层集成了混合专家(MoE)架构。其动态性体现在:
专业化专家:不同专家可具有不同容量(如隐藏层维度为标准FFN的0.5倍)或不同结构(如特定激活函数),甚至可在预训练时针对语法生成、主题内容等子任务进行轻微微调,形成功能特化。
智能路由:一个轻量级路由网络(小型MLP)会分析经过HSA处理后的隐藏状态,该状态已编码了当前上下文的复杂度和特征。路由网络据此生成门控权重,动态选择Top-1或Top-2最合适的专家来处理当前token。
负载均衡:通过辅助损失函数确保所有专家都能得到充分训练,避免某些专家过载而其他专家闲置。这意味着简单、重复的文本由“轻量级专家”快速处理,而复杂、关键的语义枢纽则分配给“重量级专家”深度计算,实现了前所未有的计算效率。
语义锚点状态(SAS):引导扩散路径的“灯塔”
为优化超长文本的生成路径,DrDiff在去噪过程的特定中间时间步(如tₖ = T/4, T/2, 3T/4)引入语义锚点状态(Šₜₖ)作为显式引导。
构建方式:Šₜₖ可以是基于输入文本Z₀的核心语义摘要(通过预训练的轻量摘要模型获得)所对应的理想噪声状态,也可以是通过对大量真实文本在tₖ时刻的噪声状态进行聚类得到的典型簇中心。
训练与推理:在训练时,除了标准的去噪损失,还增加了一个SAS引导损失(L_SAS),强制模型在关键时间步的预测状态向预设的语义锚点靠近。这使得整个去噪轨迹更加平滑、目标明确。
加速推理:这种“灯塔”式的指引显著降低了扩散过程的随机性和曲折度,使得DPM-Solver++等高效的ODE求解器能够采用更大的步长,从而将采样步数从训练时的2000步大幅减少至50步左右,实现了数量级般的生成加速。
权威评测结果:小模型,大能量
研究成果在多项标准基准测试中得到了验证:
长文本理解(LongBench):参数量仅2.2亿(220M)的DrDiff,取得了33.5%的综合准确率,性能超越了参数量高达700亿(70B)的LLaMA-3.1-70B(32.1%)等大型模型。尤其在处理长序列(35.6%)、长对话(38.7%)和长结构化数据(34.6%)任务上展现出显著优势。
生成与问答任务:在WikiHop、TriviaQA、HotpotQA等数据集上,DrDiff的综合表现(平均分数~80.7)与GPT-4o、Qwen2.5-72B等顶级闭源模型仍存差距,但显著领先于Longformer、LLaMA系列同参数量级模型及DiffuSeq等扩散基线,证明了其架构的优越性。
效率验证:实验表明,在处理16K token的长序列时,DrDiff的训练时间比DiffuSeq减少56%,甚至比高度优化的Longformer快9%-10%。
未来展望与意义
DrDiff的成功标志着长文本生成进入了“动态智能化”的新阶段。其提出的动态路由、分层注意力和语义引导机制,为后续相关研究提供了宝贵的方向。团队计划未来进一步探索其在极长文本(>20K token)、多模态数据融合以及特定垂直领域(如科技、法律文献生成)中的应用,持续推动生成式AI的能力边界。