FUNCTION VECTORS IN LARGE LANGUAGE MODELS-大语言模型中的函数向量
背景
大模型的ICL过程,也被称为情景学习和上下文学习,该过程的一个显著特性是其可以从少量的示例集合中学习新规则,并且泛化到新的查询样本中。
摘要
报告了一种神经机制的存在:该机制是将输入输出函数表示为自回归语言模型中的向量。函数向量(FV),ICL任务的因果中介分析,FV对上下文的变化具有鲁棒性。作者研究了FV的内部结果,发现虽然它们通常包含编码函数输出空间的信息,但仅靠这些信息不足以重建FV。作者测试了fv中的语义向量组合,并发现在某种程度上它们可以被求和以创建触发新的复杂任务的向量。综上所述,研究结果表明llm包含可在各种上下文中调用的通用函数的内部抽象。
引言
FVs的概述:
从一个任务中提取FV,插入到不相关的上下文中引诱新的有关任务的生成。
之前已经证实的观点:函数向量自然产生来识别ICL过程中的信息流
本文的工作:
==》ICL任务的少数注意头存在,这些头来传递任务的函数向量;
==》FV可以通过对因果注意头的输出求和而形成
==》函数向量是跨越许多类型函数的一般机制
实验:
(1)量化功能向量的作用和功效:
40多个不同复杂程度的ICL任务的数据集,计算任务的FV,研究FV在各种LMs中出发这些功能时的影响
(2)FV的可移植性:
FV是否可以应用于不同的环境?
结论:fv非常健壮,即使在与原始ICL上下文没有相似之处的上下文中也通常触发函数执行。
(3)fv的行为是否可以用词嵌入向量算法来解释?
FV的解码,发现词汇表并不能完全识别FV
调用函数,FV需要一些信息,而不仅仅是顶级词汇表单词中编码的信息。
(4)FV在函数或者词上有自己的向量代数?
可组合的ICL任务,测试FV服从向量代数组合的能力
在某种程度上,fv的矢量组合产生了新的fv,可以执行组合组成任务的复杂任务。
方法
(1)观察
是否有隐藏状态对任务本身进行编码?==》是有的
特定层添加平均激活可以诱导模型在新的上下文中执行任务。
平均激活:在提示的最后一个token处计算激活,算平均
在没有提示的后面加上这个平均激活。
后来发现,在层数12添加平均激活在零样本上下文中产生之前的任务。
(2)公式
(3)从注意头提取函数向量的因果中介
首先取得平均任务条件激活向量的均值:
将平均任务条件激活替换注意力头激活,并测量了其因果间接效应(CIE),从而得到正确答案。
数值越大,相应越大。
每个注意力头的平均间接效应(AIE)通过计算所有任务和提示的平均差异来计算的
为了确定具有最强因果效应的注意力头集合,对每个注意力头,所有层和所有头指数重复此过程,之后成为一个集合A
实验
模型
任务
函数向量的可移植性
提示符的最终令牌位置向特定层添加FV,可能导致语言模型在不同于从中提取的ICL上下文的上下文执行任务的程度。
(1)基本模型基本上无法在无信息的洗牌ICL和零射击设置中执行任务;然而,添加FV允许模型在两种情况下显著恢复任务性能。==>FV有效
(2)因果中介构建FV的建议方法由于层平均
解码的词汇函数向量
是否能通过直接解码token概率分布来理解FV?
总结:
研究大语言模型中输入输出函数的表示。
因果中介确定了触发模型执行特定任务的紧凑向量表示
函数向量对提示格式的变化具有高度的鲁棒性,并且可以组合任务,还提供了几行代码,
可以区别词嵌入中的功能向量和语义向量代数:
功能向量可以表示映射
早期层有很强的因果关系,后期层的因果关系几乎为零
今天的文章 实习笔记10-FUNCTION VECTORS IN LARGE LANGUAGE MODELS-大语言模型中的函数向量分享到此就结束了,感谢您的阅读。
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
如需转载请保留出处:https://bianchenghao.cn/bian-cheng-ji-chu/99521.html