http://www.digthiswebhost.com

preprint谷最强NLP模型BERT为何炫酷又强大?腾讯程

  搜索场景下用户搜索的 query 和召回文章标题(title)的相关性对提升用户的搜索体验有很大帮助。query-title 分档任务要求针对 query 和 title 按文本相关性进行 5 个档位的分类(1~5 档),各档位从需求满足及语义匹配这两方面对 query-doc 的相关度进行衡量,档位越大表示相关性越高,如 1 档表示文本和语义完全不相关,而 5 档表示文本和语义高度相关,完全符合 query 的需求。

  

  我们尝试将 Bert 模型应用在 query-title 分档任务上,将 query 和 title 作为句对输入到 bert 中,取最后一层 cls 向量用做 5 分类(如上图),最后得到的结果比 LSTM-Attention 交互式匹配模型要好。虽然知道了 bert能解决这个问题,我们更好奇的是Ϊʲ:为什么 bert 的表现能这么好?这里面有没有可解释的部分呢?

  因为 Multi-hd-attention 是 bert 的主要组成部分,所以我们从头入手,希望弄清楚各个 hd 对 bert 模型有什么作用。为了研究某个 hd 对模型的影响,我们需要比较有这个 hd 和没有这个 hd 模型的前后表现。这里定义一下 HEAD-MASK 操作,其实就是针对某个 hd,直接将这个 hd 的 attention 值置成 0,这样对于任何输入这个 hd 都只能输出 0 向量。

  通过 HEAD-MASK 操作对各个 hd 进行对比实验,发现了下面几个有趣的点

  attention-hd 是 bert 的基本组成模块,本次实验想要研究各个 hd 都对模型作出了什么贡献。通过 Mask 掉某个 hd,对比模型前后表现的差异来研究这个 hd 对模型有什么样的作用(对训练好的 bert 做 hd-sk,不重新训练,对比测试集的表现)。

  标准大小的 bert 一共有 12*12 共 144 个 hd.我们尝试对训练好的 bert 模型,随机 sk 掉一定比例的 hd,再在测试数据集上测试分档的准确率(五分类)。

  下图的柱状图的数值表示相比于 bseline(也就是不做任何 hd-sk)模型 acc 的相对提升,如+1%表示比 baseline 模型的 acc 相对提高了 1%,从下面的图可以看到,随机 sk 掉低于 20%的 hd,在测试数据集上模型的 acc 不会降低,甚至当 sk 掉 10%的 hd 的时候模型表现比不做 hd sk 的时候还提升了 1%。当 sk 掉超过一定数量的 hd 后,模型表现持续下降,sk 掉越多表现越差。

  

  显然高层的 attention-hd 非常的依赖底层的 hd,底层的 attention-hd 负责提取输入文本的各种特征,而高层的 attention 负责将这些特征结合起来。具体表现在当 sk 掉底层(0~5 层)的 80%的 hd(图中横坐标为 40%)和 sk 掉底层的 100%的 hd(图中横坐标为 50%)时,模型在测试数据集上表现下降剧烈(图中蓝色部分),说明了去掉大部分的底层 hd 后只依赖高层的 hd 是不行的,高层的 hd 并没有提取输入的特征。相反去掉大部分高层的 hd 后模型下降的并没有那么剧烈(图中橙色部分),说明了底层的 hd 提取到了很多对于本任务有用的输入特征,这部分特征通过残差连接可以直接传导到最后一层用做分类。

  

  这个结论后面也可以用于指导模型蒸馏,实验结果表明底层的 transformer 比高层的 transformer 更加的重要,显然我们在蒸馏模型时需要保留更多的底层的 hd

  那么对于模型来说是否有某些层的 hd 特别能影响 query-title 分类呢?假设将 bert 中所有的 attention-hd 看做一个 12*12 的方阵,下面是按行 sk 掉一整行 hd 后模型在测试数据上的表现,柱状图上的数值表示相比 baseline 模型的相对提升。

  

  可以看到 sk 掉第 5 层~第 9 层的 hd 都模型都有比较大的正面提升,特别是当去掉整个第 8 层的 attention-hd 的时候测试数据准确率相对提升了 2.3%,从上图可以得到两个结论:

  Bert 模型非常的健壮或者是冗余度很高 Bert 模型各层之间不是串行依赖的关系,信息并不是通过一层一层 transformer 层来传递的

  bert 模型非常的健壮或者是冗余度很高,直接去掉一整层的 attention-hd 并不会对模型的最终表现有太大的影响。 直接去掉整层的 attention-hd 模型表现并没有大幅度的下降,说明各层提取的特征信息并不是一层一层的串行传递到分类器的,而是通过残差连接直接传导到对应的层。

  在我们的 query-title 分档场景中,发现词粒度的 bert 和字粒度的 bert 最终的表现是差不多的,而对于 rnn 模型来说字粒度的 rnn 很难达到词粒度 rnn 的效果,我们希望研究一下为什么词粒度和字粒度的 bert 表现差不多。

  使用的 bert 可视化工具bert_viz观察各层 attention-hd 的 attention 权重分布,preprint可以发现某些 hd 带有很明显的分词信息。推测这部分 attention-hd 是专门用于提取分词信息的 hd。当当前的字可能是词的结尾时,att 权重会偏向 sep,当这个字为词的结尾可能性越大(常见的词结尾),sep 的权重会越高。当当前字不是词结尾时,att 会指向下一个字。这种模式非常明显,直接拿这个 attention-hd 的结果用于分词准确率为 70%。

  下面 gif 为我们模型中第 1 层第 3 个 hd 的 attention 分布权重图,可以发现 attention 权重很明显带有词的边界信息,当当前的字是结尾时 attention 权重最大的 token 为SEP,若当前字不是结尾时 attention 权重最大的为下一个字。

  

  这种用于提取分词信息的 hd 有很多,且不同的 hd 有不同的分词粒度,如果将多个粒度的分词综合考虑(有一个 hd 分词正确就行),则直接用 attention-hd 切词的准确率在 96%,这也是为什么词粒度 bert 和字粒度 bert 表现差不多的原因

  这种用于提取分词信息的 hd 有很多,且不同的 hd 有不同的分词粒度,如果将多个粒度的分词综合考虑(有一个 hd 分词正确就行),则直接用 attention-hd 切词的准确率在 96%,这也是为什么词粒度 bert 和字粒度 bert 表现差不多的原因。

  

  猜测字粒度 bert 代词边界信息是通过 bert 的预训练任务 MLM 带来的,语言模型的训练使得 bert 对各个字之间的组合非常的,从而能够区分词的边界信息。

  

  下面的图分别对比了不做 sk,随机 sk 掉 7 个 hd(重复 100 次取平均值),sk 掉 7 个特定的 hd(怀疑带有语序信息的 hd) 从下面的图看到,sk 掉 7 个特定的 hd 后整体分档提升为 3 档,而随机 sk 掉 7 个 hd 结果仍然为 2 档,且档位概率分布和不 sk 的情况差别不大。

  这个 case 说明了我们 sk 掉的 7 个特定的 hd 应该是负责提取输入的顺序信息,也就是语序信息。将这部分 hd sk 掉后,bert 表现比较难察觉到 title 中的乱序,从而提升了分档。

  

  2.4 某些 hd 负责 query 和 title 中相同部分的 term 匹配

  query 和 title 中是否有相同的 term 是我们的分类任务中非常关键的特征,假如 query 中大部分 term 都能在 title 中找到,则 query 和 title 相关性一般比较高。如 query=京东小哥就能完全在 title=京东小哥最近在干嘛中找到,两者的文本相关性也很高。我们发现部分 attention-hd 负责提取这种 term 匹配特征,这种 hd 的 attention 权重分布一般如下图,可以看到上句和下句中相同 term 的权重很高(颜色越深表示权重越大)。

  

  其中在第 2~第 4 层有 5 个 hd 匹配的模式特别明显。我们发现虽然 bert 模型中 attention-hd 很冗余,去掉一些 hd 对模型不会有太大的影响,但是有少部分 hd 对模型非常重要,下面展示这 5 个 hd 对模型的影响,表格中的数值表示与 baseline 模型的 acc 相对提升值

  这也许是为什么双塔 bert 在我们的场景下表现会那么差的原因(Bert+LSTM 实验中两个模型结合最后的表现差于只使用 Bert, Bert 的输入为双塔输入),因为 query 和 title 分别输入,使得这些 hd 没有办法提取 term 的匹配特征(相当于 sk 掉了这些 hd),而这些匹配特征对于我们的分类任务是至关重要的

  下面以 case 为例说明: query=我在伊朗长大 title=假期电影《我在伊朗长大》

  

  在没有 finetune 前,可以看到某些 hd 也会对上下句中重复的 term 分配比较大的 attention 值,这个特质可能是来自于训练任务 NSP(上下句预测)。因为假如上句和下句有出现相同的 term,则它们是上下句的概率比较大,所以 bert 有一些 hd 专门负责提取这种匹配的信息。

  除了上下句相同的 term 有比较大的注意力,每个 term 对自身也有比较大的注意力权重(体现在图中对角线上的值都比较大) 为了更直观的看训练前后哪部分的 attention 值有比较大的改变,分别展示训练后 attention增强(微调前-微调后0)和训练后 attention减弱(微调前-微调后0)的 attention 分配图。可以观察到比较明显的几个点:

  query 和 title 中 term 匹配的 attention 值变大了 从下图可以看到, query 和 title 中具有相同 term 时 attention 相比于训练前是有比较大的增强。说明在下游任务(query-title 分档)训练中增强了这个 hd 的相同 term 匹配信息的抽取能力。

  

  term 和自身的 attention 变小了 模型将重点放在找 query 和 title 中是否有相同的 term,弱化了 term 对自身的注意力权重

  

  分隔符 sep 的 attention 值变小了。 有论文指出当某个 token 的 attention 指向 sep 时表示一种不分配的状态(即此时没有找到合适的 attention 分配方式),在经过 finetune 后 term 指向 sep 的权重变小了,表示经过 query-title 数据训练后这个 hd 的 attention 分配更加的明确了。 2.4.2 是否有某个 hd 特别能影响模型

  从的实验可以看到,bert 模型有比较多冗余的 hd。去掉一部分这些 hd 并不太影响模型,但是有少部分 hd 特别能影响模型如提到的负责提取上下句中 term 匹配信息的 hd,只去掉 5 个这种 hd 就能让模型的表现下降 50%。那么是否有某个 hd 特别能影响结果呢?

  下面实验每次只 sk 掉一个 hd,看模型在测试数据中表现是否上升/下降。下图中将 bert 的 144 个 hd 看作 12X12 的矩阵,矩阵内每个元素表示去掉这个 hd 后模型在测试数据上的表现。其中 0 表示去掉后对模型的影响不太大。元素内的值表示相对于 baseline 的表现提升,如+1%表示相比 baseline 的 acc 提高了 1%。

  

  可以看到对于 bert 的大部分 hd,单独去掉这个 hd 对模型并不会造成太大的影响,而有少部分 hd 确实特别能影响模型,比如负责上下句(query-title)中相同 term 匹配的 hd。preprint即使去掉一个这种 hd 也会使得模型的表现下降。同时注意到高层(第 10 层)有一个 hd 去掉后模型表现变化也很大,实验发现这个 hd 功能是负责抽取底层 hd 输出的特征,也就是 3-4 层中 hd 抽取到输入的 query-title 有哪些相同 term 特征后,这部分信息会传递到第 10 层进一步进行提取,最后影响分类。

  上图中,在第 10 层有一个 hd 去掉后特别能影响模型,观察其 attention 的分布,cls 的 attention 都集中在 query 和 title 中相同的 term 上,似乎是在对底层 term 匹配 hd 抽取到的特征进一步的提取,将这种匹配特征保存到 cls 中(cls 最后一层会用于分类)。

  

  

  这个 case 展示了高层 attention-hd 是如何依赖底层的 hd 的特征,进一步提取底层的特征并最后作为重要特征用于 query-title 分类。

  本文主要探讨了在 query-title 分类场景下,bert 模型的可解释性。主要从 attention-hd 角度入手,发现 attention 一方面非常的冗余,去掉一部分 hd 其实不会对模型造成多大的影响。另外一方面有一些 hd 却非常的能影响模型,即使去掉一个都能让模型表现变差不少。同时发现不同的 hd 实际上有特定的功能,比如底层的 hd 负责对输入进行特征提取,如分词、提取输入的语序关系、提取 query 和 title(也就是上下句)中相同的 term 信息等。这部分底层的 hd 提取到的特征会通过残差连接送到高层的 hd 中,高层 hd 会对这部分特征信息进行进一步融合,最终作为分类特征输入到分类器中。

  本文重点讨论了哪些 hd 是对模型有正面作用,也就是去掉这些 hd 后模型表现变差了。但是如果知道了哪些 hd 为什么对模型有负面作用,也就是为什么去掉某些 hd 模型效果会更好,实际上对于我们有更多的指导作用。这部分信息能够帮助我们在模型加速,提升模型表现上少走弯。

  支持108种语言的谷翻译如何用AI让翻译质量越来越好?模型压缩95%,preprintMIT韩松等人提出新型Lite Transformer谷开源“版”摘要生成NLP模型:1000个样本就能打败人类如何用谷Kubernets搞集群管理?数据不够,Waymo用GAN来凑:用生成图像在中训练模型【责任编辑:张燕妮 TEL:(010)68476606】

  【TechWeb】6月23日消息,鲲云科技今天正式发布全球首款数据流AI芯片CAISA,该芯片定位于高性能AI推理,目...

  对话人工智能是当今创新不可或缺的一部分,它将改变一些企业业务。 另一种人工智能将占领技术市场。这次不...

  之前,采访一家知名企业CIO,原本是混合云、多云管理主题,我巴拉巴拉讲了很多,但是到最后他最关心的话题...

  随着企业云化战略推进,多云共存已变成常态。越来越多企业的IT策略从各个业务系统云化构建,演进至将多个已...

原文标题:preprint谷最强NLP模型BERT为何炫酷又强大?腾讯程 网址:http://www.digthiswebhost.com/shishangxinwen/2020/0623/23304.html

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。