KDD 2019：神经网络助力人才-组织匹配

百度首页

你和“懂AI”之间，只差了一篇论文

很多读者给芯君后台留言，说看多了相对简单的AI科普和AI方法论，想看点有深度、有厚度、有眼界……以及重口味的专业论文。

为此，在多位AI领域的专家学者的帮助下，我们解读翻译了一组顶会论文。每一篇论文翻译校对完成，芯君和编辑部的老师们都会一起笑到崩溃，当然有的论文我们看得抱头痛哭。

同学们现在看不看得懂没关系，但芯君敢保证，你终有一天会因此爱上一个AI的新世界。

这是读芯术解读的第143篇论文

KDD 2019 Research Track Paper

人才-组织匹配在人才管理中的影响：一种结构感知的神经网络方法

The Impact of Person-Organization Fit on Talent Management: A Structure-Aware Convolutional Neural Network Approach

中国科学院计算技术研究所，百度

本文是中国科学院计算技术研究所和百度TIC联合发表于KDD 2019的工作，文章提出了一种数据驱动的神经网络模型来建模人和组织间的适配性及它与人才管理中两个关键问题——离职和工作表现的关系。为此，我们首先设计了一种组织结构感知的卷积神经网络来抽取组织环境特征，进一步地，我们使用带有注意力机制的循环神经网络来建模人-组织匹配的动态特性。实验结果表明我们的模型能有效提高离职预测和绩效预测的效果。

原文：

Ying Sun, Fuzhen Zhuang, Hengshu Zhu, XinSong, Qing He, Hui Xiong, The Impact of Person-Organization Fit on TalentManagement: A Structure-Aware Convolutional Neural Network Approach, InProceedings of the 25th ACM SIGKDD International Conference on KnowledgeDiscovery and Data Mining (KDD-2019) , Anchorage, Alaska, 2019

1 引言

在当今竞争激烈、瞬息万变的商业环境中，如何有效地吸引和选拔合适的人才来从事合适的工作，成为现代企业面临的一个重要挑战。因此，人-组织匹配的研究成为组织行为学和人才分析领域的一个重要研究方向。人-组织匹配是指员工与其组织之间的相容性，根据吸引-选择-损耗（A-S-A）理论，组织在选择过程中倾向于雇佣具有相似价值观的人，而个人也会相应地被具有相似文化的组织所吸引。事实上，人-组织匹配被广泛认为是人才管理的一个有效指标，它对工作态度、离职倾向和工作绩效等结果有显著影响，例如一个较好的人-组织匹配通常意味着较高组织承诺和较低的人才流失率，反之亦然。

传统组织行为学研究中，虽然已经有大量工作尝试理解人-组织匹配，并且产生了许多有趣的发现，例如根据大五人格理论，高宜人性的人通常更适合于支持性的组织氛围。但这些研究大多严重依赖于问卷调查以及经典的数学统计模型，这些方法有很好的理论基础，能够揭示一些规律，但也带来了应用层面的局限性。首先，问卷调查中使用的指标通常是主观设计的，不能客观、自动地捕捉到人才与组织的相容性特征。其次，由于人和组织的动态特性，人-组织匹配总是随时间而变化，传统的调查方式由于成本高昂，很难时序地跟踪这种变化。第三，由于现实世界的管理场景非常复杂，利用调查数据尽管可以发现相关关系，但仍旧难以定量地建模人-组织匹配及其对人才管理的影响。

幸运的是，大数据时代的到来给人才管理提供了大量的人才数据，这为管理提供了前所未有的机会。这些数据可以帮助我们以动态、定量和客观的方式了解人才和组织行为，并获得有关人-组织匹配的有形知识。

为此，我们提出一种新的数据驱动的解决方案，名为人-组织匹配神经网络来动态建模人-组织匹配以及它与人才管理中离职意向和工作绩效的关系。具体来说，受实际管理场景的启发，我们首先创造性地设计了一种组织结构感知的卷积神经网络来层级地抽取组织环境特征，以替代传统工作中手动设计指标来对组织进行画像的过程。进一步地，为了捕捉人-组织匹配的动态特性，我们设计了一种带有注意力机制的循环神经网络来建模时序的人-组织匹配信息。最后，我们在实际人才数据上将我们的模型与一系列基线模型相比较，实验结果证明我们的模型在离职预测和绩效预测上的有效性。

2 模型

2.1 问题建模

本工作旨在通过分析组织环境与员工之间的潜在关系，对人-组织匹配进行动态建模，并探讨其在人才管理中的应用。

给定一个组织树，上面每个节点表示一个员工，节点的父节点表示员工的上司，我们定义了一个邻接矩阵

来表示它的结构，其中，

指示节点i的父节点，如果其父节点为节点j，则

等于1，否则等于0。

同时，组织中的每个员工都有一个特征向量，我们将组织的特征矩阵定义为

，其中

表示员工的特征向量，

是特征向量的维数。

由于组织的结构和其中员工的特征将随着时间的推移而改变，我们定义了两个长度为

的序列数据，分别写作

和

，其中

和

分别表示在时间t处的特征矩阵和邻接矩阵。

到目前为止，我们可以将本研究的问题表述为从历史数据

和

中学习一个模型来预测未来的人才管理结果。

具体来说，训练集中每个样本在时间t上可以表示为

，其中

是目标员工的指示向量。

模型的目标是预测分类标签y，如是否离职。

2.2 数据驱动的人-组织匹配

在组织行为学理论中，当员工及其组织的特征都很适合时，就产生了良好的人-组织匹配，早在1989年，组织行为学家就提出了使用人的特性和组织特性来进行比较以进行人-组织匹配的研究框架。工作首先通过问卷调查的方式收集数据，测量由专家手工设计的一些指标，表示人和组织的特性，然后使用统计方法来衡量这些特性之间的相似程度，获得人-组织匹配的评估分数。然而这个过程需要大量人工操作，且每个设计的指标都需要提前进行大量的统计学研究，成本高昂且仅能覆盖有限信息，很难将其应用到实际应用中，除此之外，这种方法评估得出的人-组织匹配得分仅能提供启发式指导，而不能给出人才管理中的定量预测。

数据驱动的人-组织匹配

如果能够从数据中自动提取人和组织的特征，并用机器学习方法自动学习人-组织匹配模型及相应的预测模型，那么将极大节省这个过程中的人力，并能提高预测的准确度，达到人才管理的高度自动化。因此，我们提出一种数据驱动的人-组织匹配模型，从员工的工作数据中提取员工特征和组织特征并进行人-组织匹配模型。具体来说，首先使用特征工程从员工的工作数据中提取一些特征，进行简单的降维处理作为人物画像。由于员工在组织中受局部组织结构（比如所处团队）影响更大，而局部组织特征难以从工作数据中直接提取，我们不直接度量组织画像，而是从含有员工特征的组织结构树上提取组织特征。特别地，从员工的角度来看，他们所在的组织环境通常受到更亲近的同事的影响，因此我们根据每个员工在组织树上的位置，从周围员工中为每个员工提取一个独特的组织环境特征，因为如果一个组织中的两个员工在组织树上距离较远，他们之间的相互影响可能很小。最后，我们用非线性模型来实现一个更复杂的映射以获取人-组织匹配表征向量，而非使用简单的统计方法来获得人-组织匹配得分。使用分类或回归模型，我们可以使用这个表征向量来预测人才管理的结果。由于这种方法可以建模人-组织匹配的更多潜在表征，且能定量建模复杂映射，因此可以获得更好的预测性能。

2.3 人-组织匹配神经网络(POFNN)

基于我们提出的数据驱动的人-组织匹配框架，我们提出一种神经网络模型POFNN来进行人-组织匹配建模，由于人-组织匹配的动态特性，我们在每个时间段t，从特征矩阵

和组织树的邻接矩阵

中提取人-组织匹配表征向量，然后采用循环神经网络结构进行序列数据的建模，网络结构如图所示。

人-组织匹配神经网络示意图

具体而言，首先使用全连接层对输入特征向量进行降维，提取出员工们的画像

，其中第i列可以表示为

，

和

是参数，

表示激活函数。

然后我们提出一种组织结构感知的卷积神经网络(OSCN)，用于从组织结构和员工画像中提取环境表征，写作

，此时每个员工都获得了各自的环境表征向量，因此

，OSCN的具体结构将在下一小节讨论。

此时我们获得了整个组织所有员工的环境表征的个人表征，对于一个要预测的目标员工，我们用指示向量

选择他的表征，分别写作

和

。

然后用由数个全连接层组成的深度神经网络（DNN）对这两个特征作非线性的映射，结合为人-组织匹配表征向量，写作

，其中，

表示将两个维度分别为d1和d2的向量连接起来形成一个维度d1+d2的向量。

在每个时间段，人-组织匹配网络获取了一个人-组织匹配的表征，最终形成一个序列

，使用长短期记忆网络（LSTM）来处理这个序列。

LSTM结合历史信息和当前的人-组织匹配表征，得到每个时间段的状态表征，写作

。

考虑到不同时间段对结果的影响程度不同，比如某个月内突然发生的组织变革可能会引发员工的不适应进而产生离职意向，我们使用注意机制来捕捉各个时间段的影响。

注意力层以最后一个时间段的状态

作为查询，其他时间段的状态作为键，用他们计算每个历史时间段的重要性，然后求得历史状态的加权平均值，即

其中

和

是参数。

输出

表示历史人-组织匹配的整体状态，我们将它与最后一个人-组织匹配状态做连接，用一个全连接层映射后用sigmoid函数预测二分类结果，写作

2.4 组织结构感知的卷积神经网络(OSCN)

即使在同一组织内，组织树上不同位置员工可能有着不同的组织环境。因此，我们提出一种网络结构，从组织树上局部的组织结构和员工特征中提取相应员工的组织环境信息。而由于员工们局部环境受彼此的影响存在一定模式，这启发我们使用卷积网络抽取环境信息。

我们设计了组织结构感知的卷积神经网络（OSCN）来提取员工的组织环境信息，在OSCN中，卷积可以将不同工作关系区别对待。与经典的卷积网络相似，OSCN的主要思想是参数共享，每个节点在核函数中的参数取决于它与目标的关系。在本工作中，以一名员工为中心，我们假设他的上司、下属和同事对他局部的组织环境产生直接影响，那么理想情况下，核函数可以表示为

其中

表示可训练的参数，

表示对应关系同事的特征向量。

然而，与传统面向格子状数据的卷积网络不同，OSCN的核函数不能被简单地构造成矩阵形式，因为组织树相对图像、文本等数据有着更不规则的结构。

由于每个员工的下属和同事数量可能不同，设计一种适用于组织树上所有位置都适用的核函数成为OSCN最大的挑战。

为了解决这一问题，在对一个员工做卷积时，我们聚合所有与他有相同关系的员工。

具体来说，OSCN假设一个员工的所有下属对他都有类似的影响，然后通过计算他们的均值和方差来聚合他们。

图中给出了一个例子，其中节点A和节点B具有不同的局部组织结构，但是在聚合过程之后，它们被转换为相同的结构，包含一个上司节点、一个聚合的下属节点和一个聚合的同事节点，OSCN在这个结构上进行卷积操作。

为了简单起见，这里我们使用

表示OSCN层的输入特征矩阵，使用

来表示邻接矩阵。

具体来说，每个员工的下属的均值可以计算为

每个员工同事的均值可以计算为

其中

和

都是所有元素为1的向量，1表示单位矩阵。

每个员工下属的标准差可以计算为

每个员工同事的标准差可以计算为

其中

和

都是元素级操作。

然后OSCN使用一个全连接层将标准差和均值聚合得到新的特征向量

然后我们应用卷积，得到输出为

它的每一列为对应员工的环境特征向量。

最后，POFNN堆叠数个OSCN层，并使用前一层的输出作为下一层的输入。第一个输出包含来自同事、下属和上级的环境信息，而较深层的输出则包含来自更广泛范围组织成员的信息，例如来自上级的上级、上级的同事等，我们拼接所有层的输出作为环境特征向量，如图所示。

3 实验

我们在实验中关注人才管理的两个关键问题：离职和绩效。在离职预测中，我们预测员工将来是否会离开公司。在绩效预测中，我们预测员工的全年绩效评级。我们将每个月视为一个时间间隔，并在每个月提取每个员工的特征，例如职级、与上级的通信频率等，同时我们从员工月末的汇报关系中提取组织树。在离职预测中，我们在每个月筛选了接下来两个月内离职的员工作为正样本，其他一些员工则作为负样本。由于数据分布极不平衡，我们按照正负样本比例1:2进行采样，并对每个员工使用十个月的观测数据来预测未来两个月的离职行为。在绩效预测中，我们随机选择了一些参与了年度绩效考核的员工，他们的绩效可以分为三个级别：绩优，正常和绩劣。我们使用每个员工对应年份前10个月的数据来预测全年绩效。具体来说，我们制定了两个二元分类任务，分别为绩优预测和绩劣预测。

我们通过交叉熵和曲线下面积（AUC）评估模型性能。交叉熵可以评估预测与实际标签之间的差距，交叉熵越低，表明预测的分布更接近整体分布，表示更高的预测能力。AUC则是在不同阈值下评估分类性能，AUC值越高，表明整体预测性能越好。特别地，我们使用两种AUC来评估模型性能，分别是ROC曲线下面积（ROC-AUC）和准确-召回曲线下面积（PR-AUC）。

我们设置了如下几种基线模型与POFNN作比较：

1.经典分类模型。包括决策树(DT)，逻辑回归(LR)，随机森林(RF)和支持向量机(SVM)。由于这些方法本身无法处理序列数据，因此我们将特征向量序列拼接起来作为输入。

2.隐马尔科夫模型。这是一个统计模型，它假设序列数据遵循具有隐藏状态的马尔可夫过程。

3.循环神经网络。与POFNN类似，我们用DNN处理员工每个时间的特征向量，然后用带有注意力机制的循环神经网络进行处理，不同的是在这里我们不提取组织特征，而是直接用员工的特征向量进行预测。

离职预测表现评估

4.经典图卷积网络。为了保证公平性，我们使用图卷积网络替换OSCN作为组织特征抽取结构，并保持网络其他部分不变，以证明OSCN的有效性。

我们使用基线模型和我们的模型在三个任务上进行实验，分别是离职预测、绩优预测和绩劣预测。在离职预测任务上，可以发现基于神经网络（NN）的模型优于经典模型，因为它们可以实现更复杂的建模，其中POFNN有最好的表现。另外可以看到对组织特征进行建模的GCN和POFNN优于仅使用员工特征的其他模型，表明人-组织匹配框架在离职预测任务上的有效性，而POFNN在此任务中优于GCN，表明OSCN更擅长从组织树中提取环境特征。

绩优预测表现评估

在绩效预测上，POFNN在所有指标上均优于其他模型，这与离职预测的结果一致，表明POFNN是一种适应的模型，可以应用于人才管理中的各种应用。与POFNN不同的是GCN的表现几乎与仅使用员工个人特征的RNN相同，再次表明OSCN相比GCN更适合于在组织结构树上的进行环境特征的提取。

绩劣预测表现评估

鲁棒性评估

为了进行模型鲁棒性的评估，我们按照三种不同的设置对训练集构成进行了调整，分别是：1. 调整观测的时间长度 2. 调整预测的时间长度 3. 调整正负样本比例。

鲁棒性评估

实验结果如图所示，可以观察到，基于神经网络的模型在所有设置下优于经典模型，并且POFNN表现最佳。同时，随着观察时间的延长，基于神经网络的模型在离职预测上表现更好，而经典模型则表现更差。这说明基于神经网络的模型能够更好地建模时序的工作数据。而在绩效预测任务上，较短的观测时间足以支持最终结果的预测，因此基本模型在这种情况下也表现良好。另外随着想要预测的时间边长，所有模型的AUC表现都有不同程度的下降，但POFNN有着较小的下降幅度，显示出其在长期预测上的优越性。在实际应用场景中，预测长期结果比预测短期结果要困难得多，例如当员工已经下定决定要在近期离开公司时，她的行为很可能已经明显反映出其离职意向，例如与同事的沟通减少等，在这种情况下，仅考虑员工特征的模型也可以做出良好的预测。但是，短期预测对人力资源部门帮助较小，当预测出员工将要离职时可能已来不及做出补救措施。幸运的是，POFNN可以发现可能导致未来很长一段时间内离职行为的人-组织匹配模式，这对人才管理具有重要价值。

人-组织匹配序列的可视化

在我们的模型中，注意力层为每个时间段计算一个表示重要程度的权值，权值越大，表明这个时间段对最终预测结果影响越大。以离职预测为例，权值较大的时间段可能发生过组织变动，因而导致了员工的离职意向。为了研究人-组织匹配的动态影响，我们随机选择3000个离职员工并将他们在注意力层中每个月的权值画在一张热力图上。其中x轴表示员工，y轴表示时间，由于在注意力层中我们只计算历史时间段的权值，所以最后一个观测月被用作查询，所以图中展示除观测月外的9个月的权值。可以看出，小于等于7个月的历史观测月权值较高，这说明对两个月的离职预测受七个月之内的人-组织匹配程度影响，也说明人-组织匹配会对离职倾向产生半年以上的长期影响。

4 结论

本文提出一种数据驱动的神经网络模型来动态建模人-组织匹配及其对人才管理中离职和绩效的影响，具体地，我们首先设计出一种组织结构感知的卷积神经网络来层级地抽取组织环境特征，为了捕捉人-组织匹配的动态特征，我们又设计了一种带有注意力机制的卷积神经网络来建模时序的组织结构和人才特征。最后我们进行了一系列的实验，使用现实场景的人才数据来对模型进行评估，实验表明我们的模型在离职预测和绩效预测上的有效性。

留言点赞关注

我们一起分享AI学习与发展的干货

如需转载，请后台留言，遵守转载规范

举报/反馈

科技评弹

43.6万获赞 12.1万粉丝

中国计算机学会（CCF）杰出会员，科普工委副主任，聚焦人工智能/科技领域的洞察与分析

鲲鹏计划获奖作者

关注