HiNet: Novel Multi-Scenario & Multi-Task Learning with Hierarchical Information Extraction

在最近的一些研究中，相关方法往往是将多场景推荐做为一个多任务学习（Multi-Task Learning，MTL）问题进行建模，并且此类方法大多使用多门控混合专家（Multi-gate Mixture-of-Experts，MMoE）网络框架作为模型改进的基础来学习场景之间的共性和特性。然而，这种基于MTL的方法往往将多个场景的数据信息投影到同一个特征空间进行优化，这很难充分捕捉到具有多个任务的众多场景之间的复杂关系，因此也无法进一步提升多场景多任务学习模型的性能。

从直觉来看，多场景和多任务的信息建模应属于不同层次的优化，应该进行分层处理。因此，在本文中，我们提出了一种层次化信息抽取网络（Hierarchical information extraction Network，HiNet）。具体来说，我们设计了一个端到端的两层信息抽取框架，来共同建模场景间和任务间的信息共享和协作。

首先，在场景抽取层（Scenario Extraction Layer），HiNet能够通过单独的专家模块提取场景共享信息和场景特有信息。为了进一步加强对当前场景的表示学习，我们设计了场景感知注意力网络（Scenario-aware Attentive Network，SAN），显式学习其他场景对当前场景的信息表征贡献程度。

然后，在任务抽取层（Task Extraction Layer），利用自定义的由任务共享和任务特有专家网络组成的门控网络，有效地缓解了多任务学习中共享信息和任务特有信息之间的参数干扰。

通过在模型结构上分离场景层和任务层的信息提取，可以将不同场景下的多个任务明确划分到不同的特征空间中进行优化，从而有利于提升模型性能。

整个论文的主要创新点如下：

我们提出了一种新颖的多场景多任务学习模型HiNet，用于优化多场景下的多种任务指标，其中创新性地应用了分层信息抽取架构。
在场景信息抽取层中，我们提出了场景感知注意力网络SAN模块，进一步增强了场景信息建模的能力。

1. 层次化信息抽取网络

1. 问题定义

如上所述，我们主要关注的是多场景多任务推荐的优化问题。我们将该问题定义为：ŷ ji=fji(x,si)，其中si表示第i个场景指示，ŷ ji是第i个场景下任务j的预估值，x表示输入的稠密特征。

原始的特征输入中主要包括了用户画像特征、用户行为特征、当前场景特有特征和商品特征，其中的数值特征首先被转化为分类特征，然后将所有分类特征映射到低维向量空间来获得x。考虑到美团到餐平台中具体的优化目标，我们分别为每个场景设置了CTR和CTCVR两个任务。

2. 方法介绍

本小节将展开介绍层次化信息抽取网络模型HiNet。如下图2-(A)所示，HiNet模型中主要包括场景抽取层和任务抽取层两个核心模块。其中在场景抽取层主要包括了场景共享专家（Scenario-shared expert）模块、当前场景特有专家（Scenario-specific expert）模块以及场景感知注意力网络，通过这三部分的信息抽取，最终形成了场景层次的信息表征；而在任务抽取层中，我们使用自定义门控网络模块CGC（Customized Gate Control）来对当前场景的多任务学习进行建模。下文将详细介绍上述提到的HiNet模型的关键部分。

2.1 场景抽取层（Scenario Extraction Layer）

场景抽取层的作用是提取场景特有的信息表征和场景间共享的有价值信息表征，这是提高任务层次信息表征能力的基础。在场景抽取层，主要包括场景共享专家网络、场景特有专家网络和场景感知注意力网络三部分，下文将依次进行介绍。

场景共享/特有专家网络

考虑到用户跨场景的穿插式行为以及多个场景间商品重叠的现象，到餐业务中多个场景的数据之间存在着有价值的共享信息。因此在策略上，我们设计了场景共享专家网络。这里受到混合专家网络架构MoE（Mixture of Expert）的影响，场景共享专家网络是通过使用子专家集成模块SEI（Sub-Expert Integration module，如图2-©）生成的。

具体来说，场景共享专家网络的最终输出为G，其公式为：

场景感知注意力网络

如上文所述，不同场景之间存在一定程度的相关性，因此来自其他场景的信息也可以对当前场景的信息表征做出贡献，从而增强当前场景的信息表达能力。考虑到不同场景间对彼此的表征能力贡献不同，我们设计了场景感知注意力网络（Scenario-aware Attentive Network，SAN）来衡量其他场景信息对当前场景信息表征贡献的重要性。具体来说，SAN包含两部分输入：