SIGIR 2018
提升人才招聘中的人岗匹配效果: 一种基于能力感知的神经网络方法
Enhancing Person-Job Fit for Talent Recruitment: An Ability-aware Neural Network Approach
中国科学技术大学、百度TIC
University of Science and Technology of China、Baidu Talent Intelligence Center (TIC)
本文是作者在百度TIC团队实习期间完成
【摘要】在线招聘服务的快速发展和广泛应用给就业市场带了数据的飞速增长。从而,人才招聘人员需要寻求更加智能的方法去解决如何推荐合适的求职者到合适的岗位上这一问题,我们称之为人岗匹配问题。现有的解决人岗匹配问题的方法,大多集中关注于如何度量人才质量与岗位需求之间的匹配程度,并且主要依赖于人力资源专家的去做人工筛选,尽管这种方法是基于很强的主观性,不完整性和低效率的性质的人为判断。为此,我们在本文中提出一种新颖的端到端的基于能力感知的解决人岗匹配问题的神经网络模型:Ability-aware Person-Job Fit Neural Network (APJFNN)。其目标时间少对于人工标注,判断等工作的依赖,同时可以给匹配结果给出一种更好的可解释性分析。本文的关键想法在于如何充分利用历史工作申请记录数据中的信息。具体来讲,我们基于循环神经网络提出了对岗位需求以及求职者简历中的工作/项目经验的词级别的语义表征。基于此,我们设计了四个层级的基于能力感知的注意力机制,从而可以衡量岗位需求之间的重要程度,以及测量每个工作/项目经验对具体能力的不同贡献程度。最后,我们利用一个真实世界的数据验证了APFJNN模型的有效性和可解释性。
Figure 1 A motivating example of Person-Job Fit.
1 问题定义
给定组工作申请数据集合S,对于每个申请S ∈S 其中包含了一个招聘启事J ,他包含了p 条工作需求,定义为J= { j1, j2, ..., jp };和一个简历R,他包含了q条以及测量每个工作/项目经验,定义为R= { r1, r2,..., rq }; 以及招聘结果标签y。我们人岗匹配的目标是学习用于测量J和 R 的匹配程度模型M,然后可以预测相应的结果标签y。
APJFNN模型:
如上图,我们的APJFNN模型分成三个部分:
1.词级别的语义表征:我们分别将招聘需求与简历中的工作经验的每个词映射到潜在的语义空间中。
2.分层级的基于能力感知的语义表征:我们对招聘需求与简历中的工作经验分别提取更高层次的语义表征。这里分为4个部分:
a. Single Ability-aware in Job Requirement: 我们利用注意力机制来区分一条工作需求中,每个词语的重要程度。
b. Multiple Ability-aware in Job Requirement: 首先对于一个招聘启事来讲,他书写的每条工作需求之间存在着序列信息,因此我们先利用BiLSTM来学习这部分关联。并且对于一个岗位来讲,所设立每条工作需求的重要程度不同。例如,通常一个IT招聘启事中的第一条都是对于基础编程语言的要求,并不是一个岗位的核心要求。我们建立了另一个注意力机制,来帮助学习不同需求间的重要性。
c. Single Ability-aware in Experience: 我们设计了一种新颖的能力感知注意力机制,根据某个具体的能力需求,来帮助衡量每个工作/项目经历中每个词对其的贡献。从而更好的学习到针对某条能力需求的单一经历的语义表征。
d.Multiple Ability-aware in Experience: 简历中每个工作/项目经历是存在着时间序列关系的,因此我们使用另一个BiLSTM来进行建模。然后设计另一个基于能力感知的注意力机制,从而了解整个岗位需求来讲,每条工作/项目经历的重要程度。
3.人岗匹配预测:预测人才能力与工作要求之间的匹配程度。
2 实验分析
我们使用了中国一家高科技公司收集到的真实数据,其中包含了2013年到2016年3,652个招聘启事以及533,069名应聘者简历的脱敏数据。注意到一个应聘者可能会有多次投递经历。这里我们总共收集到了12,796成功应聘的申请记录,基础统计如下表。
这里我们使用欠采样的方法对每个岗位随机挑选与起成功简历数量相等的失败样例进行训练和测试。实验结果如下:
这里我们还设计了一种基于RNN的对比模型,称为Basic Person-Job Fit Neural Network (BPJFNN). 其余对比方法包括:Logistical Regression (LR), Decision Tree (DT), Adaboost (AB), Random Forests (RF) and Gradient Boosting Decision Tree (GBDT),分别基于词袋特征和预训练的词向量特征。可以看到我们的模型优于其余所有对比方法。
3 案例分析(可解释分析)
1.首先是词级别的分析:我们可以从工作经历中提取关键词。下面被标注的词语的颜色深浅可以表示词在某条工作技能需求中的重要程度。可以看出C/python/R比hadoop/hive/hbase更为重要,这可能是因为其修饰词“精通”与“熟悉”带来的差异性。“付费效果业务”与”数据分析“比”逻辑思维“更为重要,可能是因为前两者的描述的更为具体。
2.能力水平的分析:可以衡量能力之间的重要程度。其中具有较低意义的是学士学历的要求,这通常是基本要求。相应的,独立的商业谈判能力可能在实际工作中有很高的重要性。
3.匹配级别的分析:可以帮助了解工作要求与候选人经验之间的匹配。从下面的例子中我们可以看出一些满足技能要求的词语被突出了出来。
4 总结
在本文中,我们提出了一种新颖的APJFNN模型去解决人岗匹配问题,其目标是减少对人力成本的依赖,提供更好的对匹配结果的可解释性分析。关键的想法是利用丰富的历史工作申请数据去训练模型。具体来讲,我们先基于循环神经网络提出了一个词级别的语义表征方法对工作要求和求职者的工作经验进行建模。然后设计了四个层级的能力感知注意力机制,更好的对招聘需求与简历中的工作经验分别提取更高层次的语义表征。最后在一个真实的数据集上进行了实验,验证了我们APJFNN模型的有效性,以及可解释性。
留言 点赞 发个朋友圈
我们一起探讨AI落地的最后一公里