W2NER：统一NER模型SOTA

论文：Unified Named Entity Recognition as Word-Word Relation Classification

发表方：武汉大学，发表于AAAI2022

论文链接：https://arxiv.org/abs/2112.10070

开源代码：https://github.com/ljynlp/W2NER

这篇论文主要是针对“flat NER”(就是最普通的NER)、“重叠NER”和“不连续NER”三种NER的子任务，提出了一种统一的word-word pair的标注框架，并且提出了一个相对应的模型结构来进行学习，他们在三个tasks的多个数据集上取得了SOTA的成绩。

标注框架

我们首先来看一个论文中举的NER样本:

{
    'text': 'I am having aching in legs and shoulders',
    'entity_list': [
        {'entity_text': 'aching in legs', 'index': [3, 4, 5], 'entity_type': 'Symptom'},
        {'entity_text': 'aching in shoulders', 'index': [3, 4, 7], 'entity_type': 'Symptom'}
    ]
}

标注框架示例

上面的例子在这个标注框架中的示例如上图所示，对于一个句子，这个框架首先搞了一个word-word矩阵（如上图的右侧矩阵），在矩阵中定义了两种类型的标记：

NHW，Next-Neighboring-Word，这个类型的标记只会出现在上三角矩阵中（不包括对角线部分），上三角矩阵的元素取值只有0和1两种，（也就是图中矩阵中标注NHW的格子）表示，在某个实体中，第i个单词后面接着的是第j个单词，比如表示在某个实体中，第3个单词(从0开始数)aching后面跟着的单词是in。
THW-entity_type ，Tail-Head-Word-entity_type，这个类型的标记只会出现在下三角矩阵中（包括对角线部分），entity_type就是实体的类型，代码里面其实这个THW-entity_type直接就用entity_type的id就可以了，表示，第i个单词是某个实体类型ID为3的实体的结尾词（tail word），而第j个单词是这个实体的开始词（head word），比如表示单词shoulders是实体的结尾，这个实体的开头是aching，这个实体的类型是Symptom。

这个框架可以直接把三种NER的subtasks全部一勺烩了，借用论文中举的4个例子，大家感受一下：

不同类型的NER

解码方法

了解了标注框架后，我们来看看它的解码方法：

解码算法

其实就是一个DFS，大致步骤这里描述一下：

首先在下三角矩阵中找THW-entity_type标签，假设第i行第j列是THW-entity_type，如果，说明是一个单字实体，直接加入结果集E和T，否则去第2步
如果，则说明第i个单词是实体的尾部，第j个单词是实体的起始，那么一定会有，然后我们第j行的第j+1列开始找NNW，假设在第j行第k列找到NNW，则去第k行的第k+1列接着向后找，直到到达第i列为止，找到第i列的话，把从j开始通过NNW迄今为止串起来的token作为是一个实体加入结果集。

（但弱弱的说一句，这种情况的话，如果开头和结尾完全重叠，但中间不重叠的俩实体，岂不是就分不出来，是不是得在NNW上面也加上实体类型，哈哈）

模型结构

其实这篇论文这个标注的框架比较重要，但还是要介绍一下模型。

模型整体结构

从图中大致可以看出，模型分为三个模块：Encoder Layer、Convolution Layer和Co-Predictor Layer，接下来我们一一介绍。

Encoder Layer

这部分主要是获取文本中每个Token的表征，对于一个输入文本序列，Encoder Layer通过如下步骤获取每个Token的表征

过BERT，获得文本序列的word pieces的表征，这里可以是BERT的最后一层，也可以是最后四层的平均，但这里获取到的是word pieces的表征，并不是每个Token的表征；
在word pieces的表征上面用Max Pooling获取Token的表征；
过BiLSTM获取最终的Token的表征。

这里说一下word pieces到Token的max pooline操作怎么做：

# 数据构造阶段：比如句子token长度是N，word piece的长度是M，然后构造一个N*M的矩阵W，每一行只在有word piece的部分是1，其他地方是0
W = np.zeros((N, M), dtype=np.bool)
start = 0
for i, pieces in enumerate(tokens):
    if len(pieces) == 0:
        continue
    pieces = list(range(start, start + len(pieces)))
    W[i, pieces[0] + 1:pieces[-1] + 2] = 1
    start += len(pieces)

# 模型里面：BERT的结果是[BS, M, dim]（我们就叫他BE吧），扩展并且expand一下，到[BS, N, M, dim]，就与矩阵W对上了，然后把矩阵W中为0的位置在BE中相对应的位置置为BE中的最小值，最后再M方向Max Pooling一下。
# W是[BS, N, M]
length = W.size(1)
min_value = torch.min(bert_embs).item()
_bert_embs = bert_embs.unsqueeze(1).expand(-1, length, -1, -1)
_bert_embs = torch.masked_fill(_bert_embs, pieces2word.eq(0).unsqueeze(-1), min_value)
word_reps, _ = torch.max(_bert_embs, dim=2)