时空压缩!剑桥大学提出了MTLA警告机制:推理加
- 编辑:admin -时空压缩!剑桥大学提出了MTLA警告机制:推理加
在大型语言模型中蓬勃发展的情况下,变革性体系结构仍然是不可替代的中央组成部分。它的自动机制存在二次计算的复杂性问题,是试图打破许多研究的重点,但是当推断确实使它确实真正取代了许多线性复杂性替代方案(例如RNN,LineR,线性注意,SSM,SSM)时,变形金属的能力很灵活。特别是,在广泛采用大型语言模型体系结构之后,自动发音机制的重要性进一步强调了。但是,这种机制也提出了新的挑战。推理过程中的每个步骤都需要访问钥匙值缓存(KV),该快速缓存(KV)随着序列的长度线性增加,成为毕业素的一个重要瓶颈,会影响推理效率。随着模型参数的尺寸继续增长,记忆内存KV缓存所需的带宽将大大增加,这限制了模型推断的长度和可以接收的批次大小。值得一提的是,DepSeek团队最近提出的MLA机制通过压缩隐藏的空间维度中的KV缓存并促进了低收入场景中的大型模型的有效部署,从而显着提高了推理效率。但是,随着生成的序列的不断增长,时间维度中的冗余信息逐渐暴露出来,并且紧急研究可能引起压缩的可能性。但是,如何压缩时间维度,而始终通过增量推理的复杂性限制了性能。为此,剑桥大学的机器情报研究所最近提出了多个临时潜在关注(MTLA),该研究首次结合了时间压缩和隐藏空间压缩,nd同时将空间和时间压缩策略应用于KV缓存的两个维度。 MTLA使用Hyper Networks在相邻的时间步骤和设计因果面具上动态合并信息,以确保训练和推理的一致性。它大大降低了推理记忆和计算机成本,但比传统的护理机制保持了模型性能稍好,并培养了大型语言模型。我们监禁新解决方案以提高理论的效率。文档标题:临时多站潜在的注意力指导:https://arxiv.org/pdf/2505.13544项目地址:https://github.com/d-keqi/mtla限制了现有方法,MTLA破裂时,建立大型语言模型和KV Cave Cache Memory时会发生MTLA破裂。当前的大型大型模型通常使用根据自动关节进行分组的咨询护理机制(GQA)来提高标准变压器的多重关注(MHA)。 gqa r在分组多个咨询标题时,通过减少键/值标头的数量来教育KV缓存的大小。每个组都有相同的KV标头。如果GQA中的组数量等于咨询标题的数量,则相当于标准MHA。如果组的数量为1,也就是说,如果所有咨询标头共享相同的KVS集,则该极端形式称为多个数量(MQA)。 MQA大大减少了内存的足迹,但它们对模型性能产生了重大影响。相比之下,GQA在效率和有效性方面具有良好的平衡,这使其成为当前大型语言模型中最常见的护理变体。相比之下,DepSeek设备提出的头发的潜在注意力(MLA)是压缩隐藏空间中KV的独特尺寸,而不是减少头部数量。实验结果表明,与GQA相比,MLA表现出更好的性能和效率。但是,我在那里S仍然是这种压缩方法的上限。为了保持模型性能,隐藏空间维度的压缩幅度不大。因此,KV缓存的存储过载是一个重要的瓶颈,它限制了模型推断的效率。除了压缩隐藏空间中的KV缓存外,时间尺寸也是一个潜在的方向,但没有通过。随着发电序列的增长,KV缓存时间轴中信息的冗余越来越明显。但是,由于自动护理机制通常在一代中使用递增的作者回归推理模式,因此KV缓存是每个产生的代币的一对。1,在保持模型的性能的同时,它违反了时间的尺寸,这导致了该方向有效解决方案的长期犯规。 MTLA的建议是解决这一差距。通过引入时间压缩机制和一个知觉因果掩饰,我们巧妙地解决了行为训练和推理的不一致问题,在推理过程中实现了KV时间的压缩,同时我们保持有效的并行训练能力。此外,MTLA结合了压缩策略,同时优化了从空间和时间和时间和时间的kV缓存的表示,从而将自催化机制的效率提高到新水平。 MTLA融合的基本技术和培训策略一步一步,在增量推理阶段被隐藏空间压缩的KV缓存的时间维度,进一步压缩了存储空间。上图显示了一个过程方案,并与标准MHA进行比较。以压缩率s = 2的时间为例,它将与两个相邻KV缓存中的每个中的每个合并。生成第一个字符时,KV缓存为1。生成第二个字符后,新生成的KV与上一个字符合并,并且KV缓存的长度仍然是1。这种动态融合机制有效地压缩了有关时间尺寸的冗余信息。但是,这也提出了平行训练战争的挑战:两个时间步骤中KV缓存的长度是相同的,但是它们所包含的信息是不同的。难以区分会导致训练和推理的行为不一致。 MTLA以优雅的方式解决了这个问题。如下图所示,在训练阶段,MTLA在所有中间状态下保留KV的表达,引入了与该步骤相对应的因果面具,确保每个咨询访问KV区域,与训练过程中的推理相符合训练阶段,从而精确模拟了增量的注意力行为。得益于此设计,MTLA可以通过矩阵的增长(例如标准护理机制)实现有效的并行计算维护不维护。此外,MTLA还引入了一个单独的旋转位置编码(分离绳),以模拟位置信息,并具有尺寸,以进一步提高一般效率。值得注意的是,MTLA不仅是一种更有效的自我催化机制,而且具有极强的灵活性和调节。例如,如果将时间压缩率建立得足够高,则MTLA在推理过程中只能维持几乎一个KV缓存。换句话说,线性矩阵建模可以看作是连接注意机制和线性模型的MTLA的极端情况。但是,对于许多复杂的任务,传统护理机制的二级计算机科学的复杂性很昂贵,但提供了更强大的建模功能。因此,MTLA引入的“可调节时间压缩率”的设计思想为效率和性能之间的灵活补偿提供了可能的空间模型。 MTL的出色表现MTLA在各种任务中表现出色,包括语音翻译,文本摘要生成,语音识别和口语。例如,在语音翻译中,MTLA达到了推理的速度超过五次,在推理过程中降低了GPU内存的使用在推理速度的八倍以上,同时保持了与标准MHA相当的翻译质量。请记住,只有当时间压缩率s = 2时,MTLA将KV缓存压缩至MQA,并且在模型性能中具有许多优势。相比之下,MQA用于减少KV头数量的方法已达到上限,MTLA具有更多的房间。将来,MTLA具有在大规模阶段发展的重要潜力,在大型模型的参数的连续扩展以及由思想链等技术促进的增长生成序列的持续扩展中。压缩KV缓存的时空是缓解推理超载的重要工具。根据这些趋势,预计MTLA将成为未来大型语言模型中自动发音模块的重要替代方法。当然,类似于DeepSeek提出的MLA,MTLA项目的实现变化不再是一种简单的优化,可以通过一两个代码来实现。这也意味着社区的持续晋升和共同发展对于现有的LLM框架应用是必要的。这意味着。为了促进这一过程,《 MTLA实施法》希望为工程研究人员和专业人员提供便利,并共同促进大型模型时代的有效护理机制的实施和传播。