用2600条文本数据,为你揭秘TED受欢迎的真正原因!

DT财经

百家号03-1311:57

文/胡舟

为什么不超过18分钟的TED演讲,平均点击率却超过百万次,最高的甚至超过5000万次?为什么连比尔盖茨、史蒂芬霍金、阿尔戈尔这样的商界、学界与政界精英都竞相登上TED的舞台?到底是什么原因使得TED演讲如此受欢迎?在近期的数据侠实验室中,Merkle数据分析师胡舟对TED官网爬取了2600余个演讲文本进行分析,为大家揭开了TED 神秘的面纱。

科谱一下:TED Event知多少?

这次分享主要是想通过文本分析重新认识TED,探究TED为何如此受欢迎?

我将以案例分析形式向大家展示,如何利用自己已有的文本数据,运用NLP(自然语言处理)的方法,从不同维度来探究TED是一个怎样的存在。

诞生于1984年、享誉世界的TED大会将“Ideas Worth Spreading”宗旨流传至今。TED就像一个“舞台”,将TED三个缩写字母所代表的Technology (技术)、Entertainment (娱乐)、Design (设计)三个领域内的思想领袖与实干家聚集起来,讲述值得传播的创意和知识。从2006年开始, 高质量的演讲视频被翻译成100多种语言在全球网络免费传播,深受追捧。

TED的最大的特点在于,无论是多么深奥前沿的思想,都会被立刻浓缩在18分钟内,这也是TED大会创始人克里斯·安德森一直秉持的观念——让信息变得清楚易懂。18分钟的演讲既避免了演讲因为时间过长显得拖沓,也迫使演讲者更加精心地去准备演讲内容。

TED除了一年一度春季的TED大会之外,下半年还有TED Global大会,每次大会有4-5天,近百位嘉宾。TED每年还有一些不同独立主题的子会议,如TED Women。此外,TEDx是TED 旗下的是非官方,自发性的活动项目,TED官网会从全球10000多个当地的TEDx活动选择一些优质的TEDx演讲上传官网。

从TED不同Event的演讲文本来看,可以明显看出TED Global关注的主题更加国际化,如Africa、Country、Social等。

相比之下TEDx就更加贴近生活,关注更多的是Kids、Love、School之类的话题。而且TEDx票价相对便宜,虽然有人说TED和TEDx是应国家邀请登天安门参与阅兵仪式和买票登过天安门的区别,但是TEDx中依然不乏有质量很高的演讲,而且离我们生活更近,如果可以自己参与其中也是极好的。

同时,从TED Women演讲的主题和权重不难看出这个会议的独特之处,由此也可以看出TED这个非盈利组织对于女性群体的尊重和关心。

什么是NLP(自然语言处理)?

以往大家对TED的认识都是演讲者生动的演说,而今天的分享,我将从TED演讲的文本出发,运用NLP(自然语言处理)的方法,换一个角度带大家重新认识TED。那么什么是NLP?自然语言就是人们日常使用的语言,所以通俗的来说NLP就是一门实现和计算机“说人话”的技术。其实,不管是让计算机听懂人话,也就是所谓的自然语言理解;还是让计算机“说人话”,也就是自然语言生成,都比想象中来得困难。但是作为人工智能的重要方向,NLP也是越来越受到大家的关注。

从下图中,大家可以看到NLP的一些基础算法和业务应用。

实际上NLP技术离我们生活并不远,它运用的覆盖面非常之广,从一句话的词性标注到整个搜索引擎的应用,都有涉及到NLP技术,如大家比较熟悉的垃圾邮件分类、谷歌百度的机器翻译,甚至机器客服也都会运用到NLP技术。

这次分享主要是想实现NLP众多技术中的信息提取,大家都知道TED的演讲那么多,并且包含各种不同领域的知识,如何快速的知道这些TED的文本到底在说什么?重点是什么?这就是信息提取要帮我们做的事情。

信息提取的方法有很多,其中一种是统计类方法,另外还有像机器学习的方法等等,也就是用模型来提取文本的核心内容。统计类的方法很好理解,就是通过统计计算的方法评估出文本中不同词语的重要程度,从而判断文本的关键词是什么。这边我以TED在数据科学和人工智能方面Top10的演讲文本来举一个使用统计方法提取关键词的例子。

左边这张是由大大小小的单词组成TED字样的图,这其实是一张词频统计的词云图。大家可以看到图中像Intelligence、Human等字样很大,也就是说这些词在这十篇文章中出现的频率最多。

右边这张图是运用TF-IDF算法,对同一组词统计计算得出的关键词和权重。TF-IDF算法与词频统计不同在于,词频统计只通过简单地看某个词出现的多少,就判断这个词是否重要。而TF-IDF算法不仅会考虑到某个词出现在一篇文章里的次数,也会考虑到这个词是不是在所有文章里都提到,如果是,那说明这个词可能并不具有代表性,从而权重会下降。

另一种我想分享的是运用无监督机器学习的方法来提取文本主题的方法,也就是这次我对TED文本分析主要运用的方法——主题模型(LDA)。

在说LDA主题模型之前,我先举一个例子,比如说你在文本中看到了大量“科比”的字眼,很容易联想到文本的主题可能是体育、篮球。

但你仔细一看,发现文章中全部都是关于科比的八卦,这时候你就会判断文本的主题可能是娱乐八卦。这就是LDA想解决的问题,它认为不同词语在不同主题里的权重是不一样的,所以一个词并不能代表一个主题。那用什么代表主题呢?

机智的LDA采用的是一组带权重的关键词组合来表示文本的主题。比如上PPT上的例子,两组词语虽然一样,但由于每个词语的权重不同,所以两组词语组合体现的主题并不一样,明显可以看出第一个主题中,NBA、科比和裁判权重更大,那它的主题可能更偏向于体育,而第二个主题则明显偏向于娱乐八卦。

TED 在讲什么?

一直以来,各个领域的前沿思想者被邀请到TED 来分享他们独特的观点。

TED 演讲涉及的主题从宇宙起源到未来科技,从奇妙自然到生活感悟… 可说是包罗万象。然而,从演讲的文本内容出发,TED的主题又有何特点呢?下面我将会分享在TED文本。

数据分析中的发现和经验。这次分析的数据是从官网爬取下来截止到2017年9月的数据内容,包括演讲标题、演讲者信息发布、录制时间、浏览评论量以及最重要的演讲文本内容,一共是2600多条数据。

从上图可以看到对不同录制时间的演讲视频建立LAD主题模型的结果,其中People、Time和Life是每年TED众多主题中的“常客”,而且所占权重很大。从结果看来,TED并不像很多人认为如神坛一般遥远,相反它更侧重人文,也非常贴近生活,关注爱和孩子;其次,科技创意和故事的讲述同样是TED的重头戏,演讲者往往以幽默风趣的方式与大家分享自己的亲身经历,感悟和观点。

此外,随着时代的变迁,TED的主题也随之变化着。

数据和信息爆炸的年代,TED的话题同样更多集中在数据,社交方面。与过去更加侧重一些个人,狭窄的主题不同,近些年的TED 更多关注国家政府,健康和家庭的主题。此外,女性的话题越来越受到演讲者们的关注。

TED有着不同领域的新创意和想法的碰撞,同时也关心着时下的最新讯息。

例如从历年TED演讲文本主题中发现,相较其他年份,2008年除了“老生常谈”的话题之外,其他有很多和太空、宇宙、星球之类相关的主题。2008年关于太空发生了什么呢?从Google Trend 上来看,其中关键词Earth在2008年的搜索率非常高,而且,关联搜索“earth-like planet”出现频率非常高。

我们搜索了该年太空大事件新闻,发现08年美国专家借助 “凤凰” 号着陆探测器发现火星土壤里有冰冻水,掀起了学术和媒体界关于人类移居去火星的激烈讨论,“earth-like planet”也成了人们移居其他星球的梦想指南,Mars和NASA在Google的搜获同样在2008年达到高峰: 某种程度上这也说明TED和时下最新的热点也是关系紧密。

一直以来,TED在启发思考和鼓舞人心方面扮演着重要的角色。从历年演讲文本的情感分析结果上来看,TED果然是正能量的存在。

TED的情感分析得分一直在0.13上下波动,说明总体来看TED演讲内容是积极向上的。同时,从主客观度来看,TED演讲文本的得分稳定在0.45到0.5,可见虽然TED是一个观点的传播,但并非鸡汤式,情感类的传播,从文本内容来看,TED还是相对客观的。(polarity的分数是一个范围为[-1.0, 1.0] 浮点数, 正数表示积极,负数表示消极。subjectivity是一个 范围为 [0.0, 1.0] 的浮点数,其中 0.0 表示 客观,1.0表示主观的。)

值得一提的是2004年的情感分析得分异常之高,而将此年的主题单独拿出来看,不难发现,happy、glamorous等非常正向的主题出现的权重很高。此外System、Money也出现在2004年TED演讲时主题中,不免让人猜想,莫非TED的情感得分与经济有关联?也许!下图是密歇根大学消费者信心指数图:

其中2004年该指数总体偏高,并在2004年一月达到103.8,此后该值直到2017年十月才突破100。可以看到,在2008年经济危机时,TED的得分同样出现低谷。可见,经济形势或许对演讲者的心态有着一定的影响。

以上就是我分析的第一部分,利用它自身的数据,主要从时间维度、不同事件维度对TED的主题进行提取和分析,并从情感角度对TED进行了解剖。

TED为何如此受欢迎?

第二个部分主要是针对TED观看者的反馈信息来揭开TED如此受欢迎的原因,其中主要涉及到的数据包括TED官网截止到2017年9月各个演讲的浏览数、一级评论数以及观看者对于评论的打分情况。

从上图中可以观察到我们选取的2600余个视频的浏览量、评论量和评分数量的分布,这些样本的浏览量大概都集中在100万到500万,但其中也不乏千万浏览量级的经典视频。可以明显地看到,图中有六个点异常突出,也就是观众反馈最好的六个演讲。

所以我将这六个最受欢迎的演讲单独找了出来:

其中“Thinkers 50顶尖思想家”与“创造力和创新领域的全球杰出思想家”Ken Robinson用风趣而睿智的创新案例告诉我们应培养创造力而不是去破坏它,成为浏览量最高的演讲。

另外,很特殊的是《自私的基因》作者,演化生物学家Richard Dawkins的演讲,虽然浏览次数不及其他几个,但其直言不讳地对无神论和演化论的拥护,以及对上帝和宗教信仰的质疑和批判引起观众大量的评论。

此外其他几个很受欢迎的演讲基本上都是在围绕人类自身生理或心理的主题,看来观众们对于探索人类自身的潜能和奥秘有着极大的兴趣。

从观众对这几个高分视频的评价状况来看,观众普遍非常强烈地感受到被激励和启发,这可能也是TED带给大家最直接和有力的感受。同时吸引力和信息量同样是这几个高分视频受到大家追捧的重要原因。可以发现大家之所以会喜欢TED很大的原因在于观众会对内容产生共鸣,虽然仅仅只有18分钟的时间,但是演讲者生动的演说,无论是从知识的获取上还是精神的激励上都得到了观众的好评。

除了上面提到的6个最受欢迎的演讲,我对其余的视频进行了聚类分析,从下图可以看到,在观众的喜爱程度上,两千余个视频被划分成了4类。

从文本主题上来看,这四类视频有着明显的区别。更受欢迎的演讲更多的提到前沿和高新的科技,以及贴近生活的主题,而相对受关注低的演讲可能更多涉及到一些相对枯燥的内容,如法律、物理、工业制造等。

看来人们在TED上更多是去选择一些前沿新奇、轻松和贴近生活的演讲,然而对于寻找一些专业性更强的内容,TED可能不是一个最佳的去处。

回到TED的宗旨:“Ideas Worth Spreading”,为了要让想法更容易扩散,我们从TED视频背后的数据发现,这些内容必须贴近人,从人的角度出发,和当下时事产生共鸣,才有可能更将想法传递给更多的人!

注:以上内容根据胡舟在数据侠线上实验室的演讲实录整理,内容有所删减,已经本人审阅,本文仅为作者观点,不代表DT财经立场。

编辑 | 项静: xiangjing@dtcj.com

题图 | 网络

数据侠门派

本文数据侠胡舟,经济学硕士,现任职Merkle数据分析师。对NLP和Data Mining 十分感兴趣,喜欢发现和学习新鲜事物。码得了code,铲得了猫shǐ,坚信不会摄影的吉他手不是一个好的数据分析师。

加入数据侠

“数据侠计划”是由第一财经旗下DT财经发起的数据社群,包含数据侠专栏、数据侠实验室系列活动和数据侠联盟,旨在聚集大数据领域精英,共同挖掘数据价值。了解数据侠计划详情请回复“数据侠计划”,投稿、合作请联系datahero@dtcj.com。

本文由百家号作者上传并发布,百家号仅提供信息发布平台。文章仅代表作者个人观点,不代表百度立场。未经作者许可,不得转载。

返回顶部