随着人工智能的高速发展,越来越多的行业、企业开始使用人工智能技术,获得了良好的利益。为了能够深入了解和掌握人工智能技术,需要明白常见的文本分析技术有哪些?
文本涉及两个主体,即文本生产者和文本消费者:
文本生产者: 生成文本的主体;传递生产者想表达的内容,可能也会潜在蕴含着生产者的一些特质属性
文本消费者: 阅读文本的主体;消费者阅读这段文本时,文本又对消费者认知活动产生影响。
在大数据的今天,通过互联网超文本链接,无数的个人、团体、公司、政府等不同组织形态的主体均深深嵌入到互联网世界,在网络世界中留下了大量的文本。社会、管理、经济、营销、金融等不同学科,均可以研究网络上海量的文本,扩宽的研究对象和研究领域。
常见的文本分析技术有:主题分析(Thematic analysis)、内容分析(content analysis)、基于词典的方法(dictionary analysis)、文本向量化(Bag-of-words)、监督学习如SVM、Bayes和Regression、无监督学习,如LDA话题模型、自然语言处理。
主题分析Thematic Analysis:
主题分析(Thematic analysis)是一种专家方法,一般与扎根理论方法相结合(Baumer, Mimno, Guha, Quan, & Gay, 2017)。扎根理论与主题分析的理念是基于专家自身经验和对世界的理解,做出对数据的见解,从而构建新理论。主题分析常见于组织科学和传播学(Gioia, Corley, & Hamilton, 2013; Strauss & Corbin, 1998)。
主题分析涉及一个反复迭代的过程,在此过程中,研究人员将开发出一系列源自文本的代码和类别。除非要精炼理论,否则一般在分析开始之前尚不知道类别。在这种情况下,数据分析需要对文献和数据进行不断的比较。
内容分析/基于词典的方法法:
内容分析 和 其他基于字典的方法 通常是通过对特定文本中 单词/词组 的频率计数进行的(Reinard,2008;Short,Broberg,Cogliser&Brigham,2010)。因为按照这种方法,文本数据被压缩成词组频数,定性的文本数据转化为定量的频数,索引可用于回答更多以定量为导向的研究问题(McKenny等,2016;Reinard,2008)。
与主题分析类似,计算机软件可以协助内容分析过程。像DICTION这样的程序会使用 分类字典 自动对文本评分(即,根据单词或n-gram而非操作定义确定主题)。可以与主题分析类似地使用其他程序,例如NVivo或ATLAS.ti,在主题分析中,通过软件的帮助手动进行编码和分类,以组织数据。
词袋法Bag-of-words:
为了理解词袋法,可以类比主题分析 中的编码者。我们可以将词袋法看做是一个死板的,不知变通的人,脑子很简单,只知道统计特征词在每个文档中出现的词频。那么据此我们就知道词袋法和人的优缺点。对于词袋法,优点是规则标准统一,缺点是不知变通,牺牲了文本中很多的信息量。强调编码过程的高标准,牺牲了分析的深度。对于研究者参与 主题分析 这样的编码过程,优点是研究者有很强的领域知识和强大的洞察力,可以灵活洞察规律,缺点是每个研究者都具有特殊的经历和偏好,编码标准不统一。用研究者编码的过程,强调编码的深度和质量,牺牲了编码分析过程的标准性。
监督学习:
在有监督的方法中,研究人员事先知道ta正在寻找什么(罗伯茨等,2014)。比如要判断论文的作者身份这个问题,研究人员为程序提供输入(在这种情况下为文本)和输出(例如,文本作者的身份),然后系统创建一种算法来映射两者之间的联系(Janasik, Honkela和Bruun,2009年)。Mosteller and Wallace(1963)通过使用简单的贝叶斯单词概率来预测12篇有争议的联邦主义者论文(詹姆斯·麦迪逊或亚历山大·汉密尔顿)的作者身份。如今,朴素贝叶斯(Bayes)和支持向量机(SVM)等技术是用于文本分析的流行的监督算法(Manning,Prabhakar和Hinrich,2008年)。
无监督学习:
无监督算法,如主题分析(Janasik等,2009)可识别数据中的单词簇和主题。但是,与主题分析不同,主题建模使用高度自动化的方法来确定重要主题,分析过程所需的时间和领域知识相对较少。尽管人类的洞察力仍然对帮助解释出现的主题很重要,主题建模适合分析大规模文本数据(Kobayashi1,Mol,Berkers,Kismihok和Den Hartog,2017)。主题建模利用了主题分析(即人类洞察力、解释力)和机器学习(即快速分析大量文本)的优势。
自然语言处理:
最后,自然语言处理(Natural Language Processing)通常是文本分析中自动化程度最高的形式(有关综述,请参阅Manning等人,2008)。这种方法模拟了人类如何理解和处理语言(Chowdhury,2003;Collobert等,2011;Joshi,1991)。例如,NLP技术可以标记句子中单词的词性(例如,名词,形容词等),将文档从一种语言翻译成另一种语言,甚至使用句子的上下文来阐明词语的词义(Buntine&Jakulin,2004年)。