常见的文本分析技术有哪些？开课吧广场

百度首页

随着人工智能的高速发展，越来越多的行业、企业开始使用人工智能技术，获得了良好的利益。为了能够深入了解和掌握人工智能技术，需要明白常见的文本分析技术有哪些？

常见的文本分析技术有哪些？开课吧广场

文本涉及两个主体，即文本生产者和文本消费者：

文本生产者: 生成文本的主体；传递生产者想表达的内容，可能也会潜在蕴含着生产者的一些特质属性

文本消费者: 阅读文本的主体；消费者阅读这段文本时，文本又对消费者认知活动产生影响。

在大数据的今天，通过互联网超文本链接，无数的个人、团体、公司、政府等不同组织形态的主体均深深嵌入到互联网世界，在网络世界中留下了大量的文本。社会、管理、经济、营销、金融等不同学科，均可以研究网络上海量的文本，扩宽的研究对象和研究领域。

常见的文本分析技术有哪些？开课吧广场

常见的文本分析技术有：主题分析（Thematic analysis）、内容分析（content analysis）、基于词典的方法（dictionary analysis）、文本向量化（Bag-of-words）、监督学习如SVM、Bayes和Regression、无监督学习，如LDA话题模型、自然语言处理。

主题分析Thematic Analysis：

主题分析（Thematic analysis）是一种专家方法，一般与扎根理论方法相结合（Baumer, Mimno, Guha, Quan, & Gay, 2017）。扎根理论与主题分析的理念是基于专家自身经验和对世界的理解，做出对数据的见解，从而构建新理论。主题分析常见于组织科学和传播学（Gioia, Corley, & Hamilton, 2013; Strauss & Corbin, 1998）。

主题分析涉及一个反复迭代的过程，在此过程中，研究人员将开发出一系列源自文本的代码和类别。除非要精炼理论，否则一般在分析开始之前尚不知道类别。在这种情况下，数据分析需要对文献和数据进行不断的比较。

内容分析/基于词典的方法法：

内容分析和其他基于字典的方法通常是通过对特定文本中单词/词组的频率计数进行的（Reinard，2008；Short，Broberg，Cogliser＆Brigham，2010）。因为按照这种方法，文本数据被压缩成词组频数，定性的文本数据转化为定量的频数，索引可用于回答更多以定量为导向的研究问题（McKenny等，2016；Reinard，2008）。

与主题分析类似，计算机软件可以协助内容分析过程。像DICTION这样的程序会使用分类字典自动对文本评分（即，根据单词或n-gram而非操作定义确定主题）。可以与主题分析类似地使用其他程序，例如NVivo或ATLAS.ti，在主题分析中，通过软件的帮助手动进行编码和分类，以组织数据。

词袋法Bag-of-words：

为了理解词袋法，可以类比主题分析中的编码者。我们可以将词袋法看做是一个死板的，不知变通的人，脑子很简单，只知道统计特征词在每个文档中出现的词频。那么据此我们就知道词袋法和人的优缺点。对于词袋法，优点是规则标准统一，缺点是不知变通，牺牲了文本中很多的信息量。强调编码过程的高标准，牺牲了分析的深度。对于研究者参与主题分析这样的编码过程，优点是研究者有很强的领域知识和强大的洞察力，可以灵活洞察规律，缺点是每个研究者都具有特殊的经历和偏好，编码标准不统一。用研究者编码的过程，强调编码的深度和质量，牺牲了编码分析过程的标准性。

常见的文本分析技术有哪些？开课吧广场

监督学习：

在有监督的方法中，研究人员事先知道ta正在寻找什么（罗伯茨等，2014）。比如要判断论文的作者身份这个问题，研究人员为程序提供输入（在这种情况下为文本）和输出（例如，文本作者的身份），然后系统创建一种算法来映射两者之间的联系（Janasik， Honkela和Bruun，2009年）。Mosteller and Wallace（1963）通过使用简单的贝叶斯单词概率来预测12篇有争议的联邦主义者论文（詹姆斯·麦迪逊或亚历山大·汉密尔顿）的作者身份。如今，朴素贝叶斯（Bayes）和支持向量机（SVM）等技术是用于文本分析的流行的监督算法（Manning，Prabhakar和Hinrich，2008年）。

无监督学习：

无监督算法，如主题分析（Janasik等，2009）可识别数据中的单词簇和主题。但是，与主题分析不同，主题建模使用高度自动化的方法来确定重要主题，分析过程所需的时间和领域知识相对较少。尽管人类的洞察力仍然对帮助解释出现的主题很重要，主题建模适合分析大规模文本数据（Kobayashi1，Mol，Berkers，Kismihok和Den Hartog，2017）。主题建模利用了主题分析（即人类洞察力、解释力）和机器学习（即快速分析大量文本）的优势。

自然语言处理：

最后，自然语言处理（Natural Language Processing）通常是文本分析中自动化程度最高的形式（有关综述，请参阅Manning等人，2008）。这种方法模拟了人类如何理解和处理语言（Chowdhury，2003；Collobert等，2011；Joshi，1991）。例如，NLP技术可以标记句子中单词的词性（例如，名词，形容词等），将文档从一种语言翻译成另一种语言，甚至使用句子的上下文来阐明词语的词义（Buntine＆Jakulin，2004年）。

举报/反馈

运营小壹

216获赞 220粉丝

总结各类技术以及最新趋势信息

关注