推荐系统最重要的功能就是给用户做推荐。如果每一次给用户推荐东西,用户都不喜欢,那么这个推荐系统不要也罢。下面的漂亮小姐姐表示对推荐结果很失望:“哎,真是浪费姐的时间“。那么作为推荐系统工程师,我们应该知道什么样的推荐系统是好的,而什么样的推荐系统是不好的,因此就需要有一些指标来对推荐系统的推荐效果进行衡量。
推荐系统评价指标
推荐系统发展了这么多年,通过很多公司的商业实践,总结出了一些评价指标,主要是用户满意度、预测准确度、覆盖率、多样性、新颖性、惊喜度、信任度、实时性、健壮性、商业目标等几个指标。下面用新闻推荐系统来详细的讲解这几个指标的具体含义。
一点资讯是一款国内知名的新闻类推荐系统,官方数据显示其在2017年DAU(日活跃人数)已经达到5000万+。因此以一点资讯新闻客户端为例来说这几个指标更具有权威性。
1、用户满意度
用户满意度很简单,就是一点资讯给你推荐新闻,看你对推荐的这些新闻有没有兴趣。说起来简单,但是兴趣这个东西是很抽象的,怎么来定义兴趣呢?如下图首页推荐中,在这一刷中给你推荐了两个文章(也可能是视频卡片),一个是站台这首歌曲,另一个是明星的花边新闻,你如果对它感兴趣,肯定会点进去听或者看,这个点击的动作就表现了你的兴趣,特别喜欢的话,甚至会进行点赞和评论,这些交互行为就表现了你对这些文章的兴趣取向。如果你都点击了,说明你对这次推荐是很满意的。
2、预测准确度
预测准确度是推荐系统的离线评测指标,那么是什么含义呢?比如说你有10天的新闻阅读历史,系统可以根据你前7天的阅读行为用算法训练模型,然后用这个模型来预测你后3天的“未来行为”,因为你的后3天在现实中已经过去了,所以数据是你的真实行为,可以用这个真实行为和模型预测的行为进行比较,看看误差有多大。这个方法在现在的模型训练中经常使用,用一部分历史数据作为训练集进行模型训练,另外一部分历史数据作为测试集来检验模型的预测效果。
3、覆盖率
覆盖率用来评价推荐系统对长尾物品的发掘能力。什么是长尾内容,以新闻文章为例,就是那些冷门文章或者用户点击率不高的文章,在所有文章中,热门文章占了小部分种类,比如明星娱乐类,但是还有很多种类更多的冷门,比如农业养殖类,机械维修等,但是冷门的种类要比热门种类丰富,所以形成了一条长长的尾巴。比如笔者现在写的这篇文章,属于技术类的,写完之后会经过一点号、头条号、百家号等自媒体平台分发,但是在我发表之前,一点资讯平台和今日头条平台已经产生了很多点击率很高的文章分发给亿万用户,比如最近的世界杯文章或者明星八卦等爆文。那么笔者这篇文章和那些热门文章相比,热度会很低。但是一点资讯等平台会利用推荐技术将我的这篇热度低的文章分发给感兴趣的技术类用户,从而让我的文章不被那些热门给淹没掉,这就体现了它们这些推荐系统的覆盖能力。
4、多样性
比如你喜欢科技,搞笑,历史等新闻,那么当你刷新一下首页推荐的话,推荐系统假如给你返回5条新闻,如果这5条新闻中全是不相关的,比如体育,汽车类的,那肯定是槽糕透了。但如果全是科技,全是搞笑或者全是历史,虽然你喜欢,但是感觉太单调了,不是吗?最好的结果是这五条新闻把你的兴趣都覆盖一下,比如两条科技,一条搞笑,两条历史,感觉这样丰富提高了,体验也好了。更近一步,可以把这几个兴趣展现的文章样式也可以做一下改变,比如有视频,有单图图文,三图图文等样式,体验会更加好。如下图,这一刷中有视频,有单图,有三图,给用户的感觉会非常好。
鉴于读者都是碎片时间,不喜欢长篇大论,因此本文的剩余内容将在下一篇文章中继续,有兴趣的话,可以持续关注!会继续更新!如果喜欢我的文章,可以点赞评论!