时间:2023-06-19 16:15:05
序论:好文章的创作是一个不断探索和完善的过程,我们为您推荐十篇网络舆情分析研究现状范例,希望它们能助您一臂之力,提升您的阅读品质,带来更深刻的阅读感受。
中图分类号:TP311 文献标识码:A文章编号:2095-2163(2013)02-0050-04
0引言
目前,随着网络全球化的进程加快以及移动技术的推广,微博已经成为了网络舆情的主要源头和有效传播路径。由于微博具有的进入门槛低、操作便捷、互动性强等特点,近两年在全国得到了迅速的普及,获得广泛的应用。但是不可忽视的隐患也随之呈现。微博已经成为了各种谣言和违法信息滋生、蔓延的主要平台,对社会也造成了无法预知的不良影响。因此,开展微博的舆情监控和分析研究已是大势所趋,势在必行。
1研究现状
目前,已有针对网络舆情分析和挖掘的软件产品,较典型的有 Autonomy 网络舆情聚成系统、Goonie 互联网舆情监测系统、TRS 互联网舆情信息监控系统、方正智思舆情预警辅助决策支持系统、中科点击(北京)科技有限公司研发的军犬网络舆情监控系统等。这些系统均能对网络舆情发挥一定的监测、分析和预警的作用,为社会和谐稳定提供了有效的技术和决策支持。虽然如此,但针对微博舆情监测和分析的大部分系统却没有充分考虑到微博用户基数大、覆盖面广、数据量巨大、更新速度快的特点,而在这种情况下,采用普通的关系数据库显然无法满足要求,因此,引入NoSQL技术存储数据则是一个颇有前景的发展方向。
2微博舆情传播特点
基于上述对微博使用方式的分析,决定了微博舆情的传播将具有如下特点:
(1)信息生成和传播简便。只要简单操作,就可以第一时间关注微博新闻中的相关人物,或转发传统新闻和论坛中的内容,而且由于移动终端对微博的支持,微博就超越了时间与地域的限制,完全实现了微博的简便简易性。
(2)传播信息快捷。仅以“7 .23”动车事件为例,2011 年7 月23 日晚20 点38 分事故发生,4分钟后网友发出了第一条微博,比传统媒体提早了两个多小时。
(3)病毒爆发式的信息传播模式。消息一经发出,用户的所有关注者都能收到,而这一群体再亦如此继续向外传播,则微博信息就呈现了病毒爆发式扩散传播的态势。
3基于noSQL的数据库设计
NoSQL最初出现于2009年6月11日由Oskarsson在旧金山发起并组织的一个非正式会议上。NoSQL是当下数据库家族的外来者,虽然有些通用的特征,但却没有一个特征得到了明确定义。
根据舆情监控系统的数据实际情况,在其系统的数据库设计中引入NoSQL,当写入数据时,可在MySQL、NoSQL中分别写入一条数据的不同字段,而读取数据时,则从MySQL、NoSQL组合字段完成读取。这一读/写过程如图1所示。
在如图1所示的组合结构中,MySQL中存储着需要查询字段中的数字、时间等类型的小字段,其后按照查询建立相应的索引,而NoSQL中则存储着包括大文本字段在内的其他并不需要的字段。查询过程可描述为,首先将数据主键从MySQL中查询出来,再从NoSQL中直接取出对应的数据。
文中设计的架构模式使得MySQL和NoSQL能够各自发挥所长,即由MySQL实现关系存储,而NoSQL则实现数据存储。这种设计的优点如下:节省MySQL的IO开销、提高MySQl Query Cache缓存命中率、改进了MySQL主从同步效率、提升了MySQL数据备份和恢复的速度、具有更好的扩展性。
还需一提的是,这种以MySQL为主、NoSQL为辅的架构设计与MySQL的单体架构相比,系统的多样性能和可扩展性均得到了有效提高。
4基于微博的Scool舆情监测分析系统设计与实现
基于微博的Scool舆情监测分析系统旨在取代传统的人工收集和监控工作,实现深入、高效挖掘,并实时得到微博网络中相对敏感的舆论信息,以警示管理人员及时采取相应措施。
基于微博的Scool舆情监测分析系统的实现过程是,每日需定时、周期地对新浪微博、腾讯微博、网易微博、搜狐微博进行网页抓取后,并对其内容实行解析后存入数据库,而后通过分词索引以建立搜索引擎,实现数据索引,再通过用户设定的关键词库对采集的数据进行关键词集过滤,由此获得敏感舆情信息文本返回给用户界面。系统还应对收集的信息进行自然语言处理,从而识别得到热点话题和热门事件。
4.1软件体系结构
系统分为后台数据分析模块和前台数据展示模块。后台模块负责实现数据抓取与分析,是系统的核心。前台模块负责完成微博、Web数据展示和基本维护操作。
4.1.1前台结构
前台展示程序分为四大块,分别是:舆情信息展示、舆情搜索、用户监控网址和关键词设置、用户登录与管理。其中,舆情整体全面展示则按五类来进行和表现,分别是:最新舆情展示、按网站类型展示、按监控网址展示、按话题事件展示和舆情统计。前台模块的结构框架如图2所示。
前台展示程序主要基于JAVA开源SSH框架来进行构建而得以实现,其设计结构如图3所示。
在本系统的架构设计中,将在表示层上构设的Struts框架,在业务逻辑层构设的Spring框架以及在数据访问层构设
(1)表现层使用JSP来实现构建,为客户端提供对应用程序的访问;
(2)控制层接受客户端的请求,并根据不同的请求调用相应的事务逻辑,再将处理结果返回到相关的页面;
(3)业务逻辑层用来提供相关的业务逻辑;
(4)数据访问层提供对数据库的各种操作。
系统设计中的三大框架有机配合、协调统一,其各自实现功能为:
在表现层中,由Struts框架负责处理JSP页面的请求和转发工作;在系统中用Hibernate来封装数据库的连接类,通过该框架所提供的注解方式实现了实体类与数据库表结构间的映射关系,并由该框架完成在数据访问层与数据库间的交互工作,再通过Hibernate框架的二级缓存EHCache提供对用户关键词和行业恶劣情感词的高效缓存。此外,系统使用Spring框架作为系统运行轻量级的容器,负责在业务逻辑层处理业务逻辑工作。通过在配置文件中设置对象的创建方式及对象之间的关系,即可由Spring框架的IoC的容器来创建对象,同时也维护对象之间的依赖关系。通过这三大框架的整合,有效降低了系统中各模块之间的相关性,由此形成一个结构科学、功能强大和层次清晰的框架体系。
4.1.2后台结构
由图6可知道,后台结构可分为数据缓冲池队列,线程池线程和数据库三部分。其中,缓存队列负责数据流的来源,关键处理流程则拆分至各个线程中独立实现;线程控制数据缓存池中数据流的走向,各线程本身的并发运行均交由线程池实现统一管理。数据库则采用上述的NoSQL与关系数据库相结合的对应技术来主导实现。
4.2系统实现
用户注册、登录系统后,可以点击页面上的相应标签来查看有关的舆情记录。同时,系统也会将每天最新的舆情记录完整、清晰地呈现。用户还可以点击更多的舆情链接来查看当日之前任何一天的舆情记录。
可以点击系统主页上的舆情搜索标签来进行包含指定关键词的舆情记录,搜索页面如图7所示。在输入框中输入关键词,就可以看到相关的信息。
5.结束语
在Scool舆情监测和分析系统设计与实现过程中,有关信息存储方面,本文主要提出了NoSQL和MySQL相结合的方法。实验证明,采用这种信息存储的方法可节省MySQL的IO开销、提高MySQL数据备份和恢复的速度、且比以前更容易实现扩展。对其后类似系统的设计提供了有益借鉴,并显示了一定参考价值。由于时间及技术的限制,测试和抓取的数据还不够连续和充分,下一步仍可继续完善和推进这一方面的工作。
参考文献:
[1]贾焰,刘江宁. 微博的舆情特点及其谣言治理[J]. 图书情报知识,2012(6):7-9.
[2]张玉峰,何超. 基于Web挖掘的网络智能分析研究[J]. ITA,2011(4):64-68.
[3]汝艳红. 微博信息传播的特点及发展趋势[J]. 青年记者,2012(8):27-30.
[4]钟瑛,刘利芳. 微博传播的舆论影响力[J]. 新闻与传播研究,2013(2):8-12.
[5]FOWLER M. NoSQL Distilled[M]. 2009:1-20
中图分类号:TP3911 文献标识码:A文章编号:2095-2163(2013)02-0011-05
0引言
依存句法分析模型可用于精确地自动构建给定句子中词汇之间的依存关系[1]。该类模型可大致分为基于有监督学习和基于文法规则两类模型。基于有监督学习的依存句法分析模型是指使用统计机器学习方法,通过从大量标注语料中学习参数而相应构建的依存句法分析模型。而基于文法规则的依存句法分析模型则指依据专家提炼或数据挖掘的文法规则而凭此构建的依存句法分析模型。两种模型各有优缺点,前者一般可以获得较高的预测精度,但却需要设计大量的标注依存结构的句子作为学习样本训练模型;后者通常不需要设计大量训练样本,但由于专家的知识受限,规则领域适应性较差,导致该种模型预测精度并不高。藉此分析,基于有监督学习的依存句法分析模型具有较高的预测精度,因此,本文将围绕该类模型的研究现状而展开综述。具体内容如下。
基于有监督学习的依存句法分析模型的构建过程一般可分为两步[2]:
(1)学习。给定一个标注依存结构的句子集合,人工构建依存特征模板,再从集合中抽取依存特征。其后,设定模型参数,并在有限步骤内推导得出一个依存句法分析模型;
(2)评价。给定测试集合及评价方法,若该模型的预测结果满足期望值,模型构建完成,否则进入步骤(1)。
有监督学习的依存句法分析模型又可分为基于移近规约和基于图两类。其中,基于图的依存句法分析模型在效率和精确度都有良好表现,因而广受关注。基于图的依存句法分析模型的原理是借助最大生成树算法,实现句子的依存句法分析。例如句子“汉族/nR 医学/n 又/d 有/v 中医/n 之/uJDE 称/n”的依存句法分析结果如图1所示。
在构建基于有监督学习的依存句法分析模型时,主要集中于两个方面:资源建设和特征工程。针对其相关研究,本文给出了较为系统、详尽的综述。在资源建设研究方面,人们通过依存关系映射和主动学习两种方法缓解语料匮乏的困境。通过将源领域中标注依存关系的映射到目标领域实现目标领域的依存关系自动化标注,达到自动化构建目标领域语料的目的,进而在目标领域借助自动标注的语料构建依存句法分析模型;而借助主动学习思想,一方面可选择颇具价值的人工标注对象进行人工标注,扩充标注集合,另一方面也可降低人工标注的工作量。在特征工程研究方面,人们分析了不同特征对构建依存句法分析模型的贡献,涉及的特征包括词汇特征、句子特征,以及语言形态特征等,同时介绍了如何因解决特征稀疏而导致的模型性能下降的问题。此外,具体而深入地分析、评价了依存句法分析模型一体化的优势和不足。
本文的组织结构如下:第二部分针对语料匮乏、特征选择和获取、以及模型一体化问题,详细比较和分析了现有模型的研究现状;第三部分从事件抽取、产品评论分析,以及舆情分析角度说明了现有模型最近的应用情况;最后总结现有模型研究并对未来可能研究方向给予展望。
1基于有监督学习的依存句法分析模型
1.1标注语料匮乏
近年来,在标注语料匮乏研究方面,人们借助依存关系映射和主动学习方法改进标注语料不足的状况。在依存关系映射研究方面,已有学者采用规则过滤[3]、适应性标注方法[4]、动态规划方法[5]解决源领域和目标领域之间的差异,但效果并不明显。Jiang等[6]采用一种依存结构映射策略,将源领域中丰富的依存关系映射到资源短缺的目标领域中,实现目标领域依存关系语言的自动构建。例如,将标注依存关系的英语语料中的依存关系映射到中文语料中,实现中文语料的自动标注。实现依存映射时,若采用词对齐方法实现依存关系映射,映射过程中会产生词对齐的错误和不同语言之间因句法差异产生的错误。与已有方法不同,作者采用的映射方法不是将整棵句子依存树映射到目标领域,而是映射词汇依存关系。给定词对齐双语语料,源领域的句子标注了依存句法结构,其中的依存关系是布尔型,表示是否存在依存关系。而后将源领域中词对的依存关系映射为目标领域的词对。在目标领域产生依存关系的实例过程中,最先获得词对齐的映射,采用映射矩阵而不是单个的词对齐,这样可以减少词对齐的错误。而且词对齐的映射不是一一映射,因而能够获得多种映射组合。假设词对(a, b),其中,词a有n种映射射结果,词b有m种映射结果,则词对(a, b)就存在n×m种映射可能。然后,根据源端句法树库以及映射矩阵计算目标领域存在依存关系的概率。最后,设定阈值T确定在目标领域是否产生依存关系。大于阈值T,则存在依存关系,即为正例;若小于(1 - T),则不存在依存关系,即为反例。如此就获得了大量目标领域的依存关系样例。通过在目标领域产生的样例上训练最大熵分类器实现目标端的依存关系预测。该种映射方法降低了依存关系映射时产生错误关系的概率,并且一定程度上借助英文标注语料应对中文依存分析语料匮乏的状况。但该模型仍然无法避免两种语言在句法差异上导致的错误的关系映射。此外,也难以精确设定阈值来判定映射结果是否为依存关系。
其中,si表示n-best的句法分析结果中第i个预测结果分值,n表示利用DP预测得到的句法分析树的数量。当n-best的句法分析结果的分值互相之间越发接近时,熵值也将越高。这时,句法分析器预测结果“徘徊”在n-best之中,即根据句法分析器预测结果是很难选择得到最好的句法分析树的,因此,句子s需要人工标注依存句法结构。依据上述思想,可从未标注集合中挑选k个不确定性最高的样本进行人工依存句法结构标注。
此后,将标记结果加入到标注集合中,重新训练句法分析器,获得新的句法分析器。上述过程反复迭代,直到未标注集合为空。通过这种方式扩充标注集合来解决语料匮乏问题。
另外,句子中只有部分依存关系不确定,通过标注这些不确定的依存关系就可以完成句子的依存结构标注。借助依存关系熵来度量依存关系的不确定性,具体计算如式(3)所示。
由图2可知,首先根据标注集合训练得到依存句法分析器DP,借助DP构建未标注集合中句子依存句法分析树,再根据句子不确定函数选择k个不确定句子,同时根据依存关系不确定函数选择k’个依存关系并人工标注,由此将标注结果加入标注集合,重新训练构建依存句法分析器,上述过程反复进行,直到未标注集合为空。
1.2特征提取与选择
在特征提取与选择研究方面,人们分别从不同特征对构建依存句法分析模型的贡献角度,以及特征稀疏对构建模型产生的影响角度展开研究。其中的特征主要分为:句子级特征、词类别特征、语言形态特征、以及高阶特征等,下面对其相关工作分别作以综合分析。
在句子级特征研究方面,Gadde[8]等使用短句信息提高句法分析性能。将短句的边界信息作为依存关系的限制特征来丰富特征集合,并提高依存关系预测精度。将ICON2009的数据集作为测试集,使用MSTParser[1]作为依存句法分析器,在无标记和有标记的评测中预测精度分别为87%和77%。在词类别特征提取研究方面,Agirre等[9]尝试从WordNet中获得词汇的基本语义类作为依存特征,同时采用词义消歧算法减少词义歧义带来的噪声,以此提升依存句法关系预测精度。Haffari等[10]在MSTParser依存句法分析器框架下提出将词汇表示为句法和语义两种表示方式,并采用线性加权方式将这两种表示形式的特征信息相融合,由此将依存句法分析精度则从90.82%提升到92.13%。在利用语言形态特征研究方面, Marton等[11]探索了形态学特征对句法分析的贡献,并发现时态、单复数、词缀均可提升阿拉伯语的依存句法分析精度。而在利用高阶特征研究方面,Massimiliano Ciaramita等[12]使用依存语言模型和beam搜索构建高阶特征。采用大量基准依存句法分析器自动分析语句构建依存句法语言模型,并借助依存语言模型构建高阶特征,再使用beam搜索在解码阶段将特征有效整合至依存句法分析模型中。模型中考虑了原始模型(MSTParser)中最大生成树的分值,同时考虑依存语言模型的分值,具体计算如式(5)所示。
由式(5)可知,该模型在解码阶段不仅考虑了MSTParser预测结果,同时考虑了依存语言模型对依存句法分析的贡献。实验结果显示中文句法分析达到了最高精度,而且在英语上也获得了与已知最好系统的可比精度。在特征稀疏研究方面, Zhou[13]结合从网络获取的词汇搭配偏好来提高依存句法分析精度。通过从网络语料Google hits和Google V1构建词汇之间的搭配偏好。实验结果表明,借助搭配偏好提升了依存句法分析性能。更重要的,在处理新领域数据时,使用网络获取的词汇搭配偏好可使模型具有更好的健壮性。另外,在网络数据上抽取词汇搭配偏好还可以避免数据稀疏问题,而且已在特征稀疏的生物医疗领域验证了吃方法的有效性。
1.3一体化模型
词性标注是依存句法分析中必不可少的一个基础步骤。当前的研究将依存句法分析和词性标注分开建模,这就可能导致底层的词性标注错误向高层依存句法分析传播,进而降低依存句法分析精度。实验表明,由于词性标注的错误,将造成句法分析精度大约下降6%。为了解决这个问题,李正华等[14]提出词性标注和依存句法分析的联合模型。模型采用剪枝策略来减小候选词性标签空间,大大提高了句法分析速度。其基本思想是同时最大化词性标注和依存句法分析性能。在这个模型中,词性标注和依存句法分析的特征权重做以同步调整,借助词性和句法特征交互来确定优化的联合结果。在中文宾州树库上进行测试实验,其结果表明依存句法分析精度提高1.5%。而在此基础上,Hatori等[15]提出第一个分词、词性标注以及句法分析的一体化模型。通过结合分词、词性标注和依存分析模型的特征构建一体化模型,并提出基于字符的解码方法。此外,Li, Zhongguo等[16]提出一体化中文依存句法分析模型,将未分词的句子作为输入,其输出即为句法结构。通过移除中间分词步骤,一体化句法分析器不再需要单词和短语的分割标记,因特征提取错误而导致的性能下降也将为之得到控制。但是一体化模型虽然提升了依存句法分析的精度,但却同时增加了解码复杂度。
1.4其他
此外,人们在改善依存分析效率,以及借助机器翻译技术提升依存句法分析精度方面也同样开展了广泛研究。在改善依存分析效率研究中,研究人员发现构建依存树的过程中会产生大量错误的依存关系,过滤这些依存关系可以提高依存分析效率。Bergsma等[17]采用级联式过滤模型过滤错误的依存关系。可采用三种方法实现过滤:基于规则过滤、借助线性过滤器和二次型过滤器过滤错误的依存关系。在基于规则过滤研究方面,训练支持向量机依存关系分类器,特征只包括头或依存关系中的词性,由此利用学习得到的特征权重过滤词性或词性对。例如,如果一个词性标记在非头词的分类器中的权重为正,则以这个节点作为头的所有弧都将被过滤。这样借助学习得到的权重构建一组高精度的过滤规则,即真正实现了依存关系的过滤。在线性过滤器研究方面,首先构建8个分类器作为过滤器,分别针对如下8种节点分类问题:
(1)节点是否为头(例如节点是叶子节点);
(2)节点的头是否在左侧;
(3)节点的头是否在右侧;
(4)节点的头是否在左侧5个节点距离之内;
(5)节点的头是否在右侧5个节点距离之内;
(6)节点头是否在左侧第一个节点;
(7)节点的头是否在右侧第一个节点;
(8)节点是否是根节点。
使用相同的特征模板,得到8种不同的特征权重,分别对应8种不同的分类,并且每一种过滤器的输入均是上一种过滤器输出的结果。通过这种方式实现过滤,构建二次型支持向量机分类器决定过滤哪些头—依赖对。实验结果表明,基于规则过滤可以过滤占据25%的潜在依存关系。线性过滤器能够过滤高达54.2%的潜在依存关系。而二次型过滤器则能够过滤具体为22%的潜在依存关系。
在借助机器翻译技术提升依存句法分析精度研究方面,Chen等[18]提出使用统计机器翻译系统提高双语句法分析精度的方法。假设在源端存在模糊的依存关系判定,在目标端可能就是清晰的依存关系判定,因而可根据目标端来修正源端的依存关系预测结果。首先,使用统计机器翻译系统将源端的单语树库译为目标端的语言。然后,在目标端采用目标端依存句法分析器进行句法分析,构建依存句法分析树。由此获得双语树库,即在源端是人工标记的树库,在目标端就是自动生成的树库。尽管在目标端的句子和生成树并不完备,但是采用这些自动生成的双语树库,从中抽取出目标端的依存限制来修正源端依存分析性能,实现双语句法分析性能的改进和提升。实验结果显示该方法的表现则要显著优于基准方法。更进一步,当使用一个更大规模的单语树库,句法分析的性能也得到了较大提高。
2相关应用
基于有监督学习的依存句法分析模型能够构建句子的依存树,而依存树则表明了词汇间的依存关系,并且在不同问题中表现了其有效性与实用性,例如关系获取[19]、复述获取[20]和机器翻译[21]等。此外,近年来该类模型在解决事件抽取、产品评论挖掘、以及舆情分析问题方面也发挥了主体重要作用。
在事件抽取研究方面,人们发现事件之间存在联系,例如一个犯罪事件会引起调查事件,并且还将最终引发逮捕事件。由此可知,事件之间多存在一定的依赖关系。但现有的事件抽取方法并未考虑事件间的依存关系,而是孤立抽取每一个事件。David McClosky等[22]借助依存句法分析器构建事件的依赖关系。首先,将事件及其对应的谓词转化为依存树,树中节点包括实体、事件锚和一个虚拟根节点,各边则表示三者间的依存关系,其中的事件锚识别常采用回归模型运行实现,使用的特征包括字符级别。生成依存树时,可采用两步排序方法:
(1)根据句法分析器得到n-best结果;
(2)采用最大熵模型实现第二次排序,由此将建立事件间的依存关系。
在产品评论分析研究方面,Zhang等[23]借助浅层依存句法分析来构建产品属性及其评价之间关系。其中包含三个步骤:
(1)根据浅层短语结构分析和依存句法分析构建浅层的依存树。可采用浅层句法分析器Sundance实现组块分析,并且采用Stanford句法分析器实现依存树的构建。其中,组块作为依存树中的节点,边表示组块之间的依存关系;
(2)识别产品属性和候选评价。首先,使用观点词典以过滤候选评价,观点词典包含着8 221个观点表达。其次,假设与候选评价越近似的组块,自身是产品属性的可能就越大,凭此识别产品属性;
(3)构建产品属性和评价之间的关系。可将关系构建视为一个分类任务,而将所有的产品属性和候选评价视为潜在关系。可采用支持向量机分类器实现关系构建,特征包括上下文和词性。现已在手机和数码相机领域验证了此方法的可行性和有效性。
在舆情分析研究方面,Wu等[24]提出基于图的句级情感分析模型。引入了线性规划结构学习方法产生输入句子的图形表示。图中节点包括评价目标、观点表达和观点修饰。边表示节点之间的关系,具体包括观点表达和修饰之间的关系,以及观点表达之间的关系,并且包含单个观点之间的语义关系。通过图,可以将之前被忽略的各种信息融合进来。该模型的优势在于,借助观点之间的关系,可更加精确地判定句子的整体情感极性。Nakagawa等[25]提出借助依存分析结果实现中文和日文主观句情感分类。主观句通常包括将情感极性反转的词汇。包含积极(或消极)的情感词的句子不一定表达与情感词相同的极性。因此在情感分析中需要考虑词汇之间的修饰对词汇情感极性的影响,但是采用词袋的方法很难解决这个问题。若采用规则方法实现句子极性判断,则不能从语料中学习情感信息,而且规则的适用性十分有限,同时需要大量的人力、物力构建规则。尝试借助依存句法分析解决这个问题。句子的情感标注不应该只标注句子的整体情感极性,而应该存在句子的局部情感极性标注,并且利用这些局部标注信息来实现情感分类。在该方法中,将句子转化为依存树结构,再将句子的依存树中每一个依存子树的情感极性表示为隐式变量,整句的情感极性则可由隐式变量之间的交互而共同决定。
3结束语
本文重点总结了在构建基于有监督学习的依存句法分析模型时面对的语料匮乏和特征选择两个问题的相关研究。此外,分析和总结了依存句法分析模型一体化的优缺点。最后,介绍了如何应用现有模型解决事件抽取、产品评论挖掘、以及舆情分析问题。尽管现有模型在依存句法分析方面取得了一定成功,但也存在相应不足。首先,现有模型需要大规模的标注语料用于训练与评价,这种需求并且随着互联网的发展日益增长,由此产生严重的标注语料匮乏问题,仅靠上述方法无法从根本上获得解决。其次,尽管基于有监督学习的依存句法分析模型性能最佳,但该模型只能在有限的数据集合上完成一次模型参数学习,在其后的使用过程中无法自动调节模型参数来适应领域和用户个人兴趣的变化。经由本文研究,可得只有借助用户反馈,构建连续学习的依存句法分析模型才能解决上述问题。根据用户反馈无间断地调整模型参数,以此适应领域和用户兴趣的变化,同时用户在使用该模型时也一并完成完了语料标注工作,从而克服了标注语料缺乏的困境。
参考文献:
[1]KBLER S, MCDONALD R, NIVRE J. Dependency Parsing [M]. Synthesis Lectures of Human Language Technologies, 2009: 1-20.
[2]NIVRE J. Dependency grammar and dependency parsing [R]. Technical Report, 2005: 1-32.
[3]HWA R, RESNIK P, WEINBERG A, et al. Bootstrapping parsers via syntactic projection across parallel texts[J]. In Natural Language Engineering, 2005,11: 311-325.
[4]SMITH D, EISNER J. Parser adaptation and projection with quasi-synchronous grammar features [C]// Proceedings of EMNLP, 2009: 822-831.
[5]JIANG Wenbin, LIU Qun. Automatic adaptation of annotation standards for dependency parsing using projected treebank as source corpus [C]//Proceedings of IWPT, 2009: 25-28.
[6]JIANG Wenbin, LIU Qun. Dependency parsing and projection based on word-pair classification [C]// Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics (ACL '10), Stroudsburg, PA, USA, 2010: 12-20.
[7]MIRROSHANDEL S A, NASR A. Active learning for dependency parsing using partially annotated sentences [C]//Proceedings of IWPT, 2011: 140-149.
[8]GADDE P, JINDAL K, HUSAIN S, et al. Improving data driven dependency parsing using clausal information [C]//Human Language Technologies: The 2010 Annual Conference of the North American Chapter of the Association for Computational Linguistics (HLT '10), Stroudsburg, PA, USA, 2010: 657-660.
[9]AGIRRE E, BENGOETXEA K, GOJENOLA K, et al. Improving dependency parsing with semantic classes [C]//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies: short papers - Volume 2 (HLT '11), Stroudsburg, PA, USA, 2011: 699-703.
[10]HAFFARI G, RAZAVI M, SARKAR A. An ensemble model that combines syntactic and semantic clustering for discriminative dependency parsing [C]//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies: short papers - Volume 2 (HLT '11), Stroudsburg, PA, USA, 2011: 710-714.
[11]MARTON Y, HABASH N, RAMBOW O. Improving Arabic dependency parsing with form-based and functional morphological features [C]//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies - Volume 1 (HLT '11), Stroudsburg, PA, USA, 2011: 1586-1596.
[12]CIARAMITA M, ATTARDI G. Dependency parsing with second-order feature maps and annotated semantic information [C]//Proceedings of the 10th International Conference on Parsing Technologies (IWPT '07), Stroudsburg, PA, USA, 2007: 133-143.
[13]ZHOU Guangyou, ZHAO Jun, LIU Kang, et al. Exploiting web-derived selectional preference to improve statistical dependency parsing [C]//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies - Volume 1 (HLT '11), Stroudsburg, PA, USA, 2011: 1556-1565.
[14]LI Zhenghua, ZHANG Min, CHE Wanxiang, et al. Joint models for Chinese POS tagging and dependency parsing [C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP '11), Stroudsburg, PA, USA, 2011: 1180-1191.
[15]HATORI J, MATSUZAKI T, MIYAO Y, et al. Incremental joint POS tagging and dependency parsing in Chinese [C]//Proceedings of the 5th International Joint Conference on Natural Language Processing, 2011: 1216-1224.
[16]LI Zhongguo, ZHOU Guodong. Unified dependency parsing of Chinese morphological and syntactic structures [C]//Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning (EMNLP-CoNLL '12), Stroudsburg, PA, USA, 2012: 1445-1454.
[17]BERGSMA S, CHERRY C. Fast and accurate arc filtering for dependency parsing [C]//Proceedings of the 23rd International Conference on Computational Linguistics (COLING '10), Stroudsburg, PA, USA, 2010: 53-61.
[18]CHEN Wenliang, KAZAMA J, ZHANG Min, et al. SMT helps bitext dependency parsing[C]// Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP '11), Stroudsburg, PA, USA, 2011: 73-83.
[19]CULOTTA A, SORENSEN J. Dependency tree kernels for relation extraction [C]//Proceedings of the 42nd Annual Meeting on Association for Computational Linguistics (ACL '04), Stroudsburg, PA, USA, Article 423, 2004.
[20]SHINYAMA Y, SEKINE S, SUDO K. Automatic paraphrase acquisition from news articles [C]// Proceedings of the second international conference on Human Language Technology Research (HLT '02), San Francisco, CA, USA, 2002: 313-318.
[21]DING Yuan, PALMER M. Machine translation using probabilistic synchronous dependency insertion grammars[C]//Proceedings of the 43rd Annual Meeting on Association for Computational Linguistics (ACL '05), Stroudsburg, PA, USA, 2005: 541-548.
[22]MCCLOSKY D, SURDEANU M, CHRISTOPHER D. Manning. event extraction as dependency parsing [C]//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies - Volume 1 (HLT '11), Stroudsburg, PA, USA, 2011: 1626-1635.
中图分类号:TP3-05文献标识码:A文章编号:16727800(2012)009000303
1文本情感研究的背景
所谓文本情感分析(Sentiment Analysis),就是对说话人的观点、态度和情感倾向性进行分析,即分析文本中表达的主观性信息。根据立场、出发点、个人态度和喜好的不同,人们对各种对象和事件表达的信念、态度、意见和情感的倾向性不可避免地存在差异。在论坛、微博等反映人们观点的网络媒体上,尤其表现出了这种差异。
文本情感分析在实际生活中有着广泛的应用,可以应用于产品推荐系统、有害信息过滤、社会舆情分析、产品在线跟踪和质量评价、影视评价、Blogger声誉评价、新闻报道评述、事件分析、股票评论、图书推荐、敌对信息检测、企业情报系统等方面。
在已有研究中,文本情感分析也被称作观点鉴别(Opinion Classification)、流派分类(Genre classification)、情感的极性(Sentiment polarity)、语义倾向(semantic orientation)、观点挖掘(opinion mining)、观点抽取(opinion extractive)等,为了表述的一致性,本文中将其统一表述为情感分析。
文本情感分析通常包含4个子问题:①确定文本情感的类别有多少;②文本的主客观区分,即区分出文本内容是主观评论还是客观陈述;③文本的极性分类(Polarity Classification),又称为正负面倾向性分类,即判别文本内容是肯定赞赏的,还是否定批判的;④文本情感强度分类,即判定文本情感倾向性的强弱程度,如强烈贬义、一般贬义、客观、一般褒扬、强烈褒扬5个类别,这一问题通常又被称为等级推理(Rating Inference)。
2文本情感分析整体研究现状
目前,公认的关于文本情感分析的研究工作开始于Pang在2002年提出的基于文本的N元语法(Ngram)和词类(POS)等特征,分别使用朴素贝叶斯(Naive Bayes),最大熵(Maximum Entropy)和支持向量机(Support Vector Machine,SVM)将电影评论文本的倾向性分为正向和负向两类。此外还有Turney在2002年提出的基于无监督学习(Unsupervised Learning)对文本情感倾向性分类的研究。同时他们在实验中使用的电影评论数据集目前已成为广泛使用的情感分析的测试集。
如今,国内外都已经掀起了文本情感的研究热潮,很多研究团体、科研院校、公司已经对文本情感展开了研究。把这些相关的研究分为4个阶段:①语料阶段;②文本的预处理阶段;③特征标注与特征选择阶段;④情感分类阶段。
2.1语料阶段
目前绝大部分语料都来自博客、专业的评论站点、新闻站点、电子商务站点。而其中影评资料、产品的用户评论、Web 2.0博客文章是研究者的首选。
康奈尔大学的电影评论数据集以及Theresa Wilson等建立的MPQA库是目前研究者广泛使用的两类情感分析数据集。
2.2文本的预处理阶段
文本情感分析的预处理包括:停用词、词缀修剪、N元词、词性标准、简化替换(如书替换为NOUN、照相机替换产品名)等,但这些有意“美化”的处理都会降低情感分析的准确率。
此外,主观句识别也属于文本情感分析的预处理阶段。该研究的目标是需要提取文本的真正表达情感的句子。Pang于2004年提出基于文本中的主观句的选择和Wilson等人于2005年开创了在短语层进行主观性分析的研究工作,提出基于文本中中性实例(Neutral Instances)的分析,他们根据28个混合特征训练了一个分类器,都是为了能够尽量获得文本中真正表达情感的句子。Abbasi于2008年提出通过信息增益(Information Gain,简称IG)的方法来选择大量特征集中对于情感分析有益的特征。
2.3特征标注与特征选择阶段
情感特征的标注方法目前主要包括:
(1)监督机器学习的方法,由已有的电子词典或词语知识库扩展生成的情感倾向词典。情感词就是指具有情感倾向的词语以名词、动词、形容词和副词为主,包括人名、机构名、产品名、事件名等命名实体。其中,部分词语的褒贬性(或称为极性,通常分为褒义、贬义和中性)可以通过查字典获得,其它的极性与情感倾向性的强烈程度都无法直接获得。
使用情感词作为特征的研究有:
朱嫣岚等人提出了基于知网的两种词汇语义倾向计算方法,即基于语义相似度的方法和基于语义相关场的方法。
娄德成和姚天昉也是通过计算文本中词汇与知网中已标注褒贬性词汇间的相似度,来获取词汇的语义倾向性。
目前,依靠语料或字典语料结合构建意见词典成为主流。由于目前用于情感分析的中文标注语料较少,即当目标领域不存在标注语料时,Xiaojun Wan通过谷歌翻译等机器翻译服务,利用英语标注语料和中文未标注语料弥补中文标注语料不足的问题。此外,还有Danushka Bollegala等提出算法可以通过其它领域标注语料和目标领域的未标注语料生成意见挖掘所需的情感敏感词典。
(2)无监督机器学习的方法。Turney在2002年基于点互信息(PMI)计算文本中抽取的关键词和情感基准词(Excellent, Poor)的相似度来对文本的情感倾向性进行判别(SOPMI算法)。实现方法简单,此算法得到了很多研究者的推荐。
Yuan等人在Turney的研究工作的基础上,对汉语极性词的自动获取进行了研究,发现采用一个字符的汉语情感词比汉语情感词的效果要好。
(3)情感特征的选择方法。目前很多情感分析的研究基于机器学习,那么特征选择就是一个很重要的问题,N元语法等句法特征是使用最多的一类特征,Wilson等人于2009年提出混合单词特征、否定词特征、情感修饰特征、情感转移特征等各类句法特征的情感分析,Abbasi等人于2008年提出混合句子的句法(N元语法、词类、标点)和结构特征(单词的长度、词类中单词的个数、文本的结构特征等)的情感分析。Melville等人于2009年提出结合情感词的先验的基于词典的情感倾向性和训练文本中后验的基于上下文的情感倾向性共同判断文本的情感倾向性。
另外,传统的文本特征选择方法有监督特征选择方法CHI、IG、MI和无监督特征选择方法DF、TS、TC、En。这些方法应用到这些情感特征选择上的效果如何还有待实验验证。
2.4情感分类阶段
(1)情感建模的方法。基于监督学习算法的情感分析仍然是主流,Zhang等人于2009年提出基于非负矩阵三分解(Nonnegative Matrix Trifactorization),Abbasi等人于2008年提出基于遗传算法(Genetic Algorithm)的情感分析之外,使用最多的监督学习算法是朴素贝叶斯、k最近邻(KNearest Neighbor,KNN)、最大熵和支持向量机等。
此外还有基于规则和无监督的建模方法。娄德成等人于2006年利用句法结构和依存关系对中文句子语义进行了情感分析,Zagibalov等人于2008年在SOPMI算法的基础上通过对于中文文本特征的深入分析以及引入迭代机制在很大程度上提高了无监督学习情感分析的准确率。
(2)情感分析的其它研究点。除以上介绍的情感分析关注情感的分类以外,还有评论对象的识别、情感倾向性论述的持有者识别、抽取句子中评价词语和目标对象之间的关联关系、评价倾向极性的强度等研究方向等等。
(3)目前已有系统。目前很多系统已经问世,例如:日本富士通公司开发了从中、日、英三国语言的博客和论坛中提取对企业及其产品的评价信息的技术,根据从万维网上抓取的大量用户的评论得到产品的整体信誉度。
上海交通大学开发了一个用于“汉语汽车论坛”的意见挖掘系统。目的是在电子公告板、门户网站的各大论坛上挖掘并且概括顾客们对各种汽车品牌的不同性能指标的评论和意见,并判断这些意见的褒贬性和强度。然后,通过对文本处理的综合统计,给出可视化的结果。该系统仍需要在特征获取、权重计算等方面进行完善。
综合以上研究现状,对比国内外的研究进展,对于国内来讲,中文文本情感分析可以说刚刚起步,与国外的主要差距表现在:①在基础资源建设方面,还没有建立起一个公开、公用、权威、标准的词典资源和具有一定规模的标准语料资源;②在研究方案方面,从词语、短语、搭配、句子到文本,主要跟踪借鉴国外研究思路与技术路线进行尝试。
3中文文本情感分析亟待解决的问题
相比传统的文本分类,情感分类有先天的困难和挑战,主要表现在:①自然文本中表达方式的多样化:比喻、附和、讽刺、正话反说等;②句式的复杂性:比较型的句子、各种不同的习惯用语、句式的不同搭配等;③训练数据的稀疏性和不均衡性。这些都造成了目前较为狭窄的应用领域,不能同时获得较高的准确率和召回率。
中文文本情感分析研究方兴未艾,仍然存在很多问题亟待解决,未来的研究将主要围绕以下几个方向展开:
(1)建立标准的中文文本情感词库及标准的文本情感测试语料库。标准完善的数据库是验证算法的有力工具。因此创建更大规模且更标准的中文文本情感数据库是下一步工作的重中之重。
(2)选择最优文本情感特征集。文本情感特征是中文文本情感分析研究的第一步,在很大程度上影响最终的列表识别结果。一个词存在多维度的情感,因此,单纯依靠情感词并不能准确判定所有情况下的情感和意见。所以,对于情感特征集选择技术需要我们进一步的研究和完善。
(3)选择合理有效的文本情感分类方法。情感特征的权重简单累加并不意味着情感表达能力的累加,紧致有效的特征表达方法是跨越“语义鸿沟”的重要手段。人们往往通过各种手段多渠道地获取各种各样的情感特征,并通过不同分类器的融合表示它们。但这方法需要在更多的情感分析领域进行实验验证,未来还需要开展融合多方面文本情感特征的工作。
(4)可靠性研究。文本情感中评论的真实性通过信用评价来衡量,不真实甚至是混淆视听的评论称为意见垃圾(Opinion Spam)或虚假评论,也将是未来研究的方向之一。
参考文献:
[1]LIU B. Web data mining: exploring hyperlinks, contents [M].Usage Data. Springer,2011.
[2]PANG B, LEE L, VAITHYANATHAN S. Thumbs sentiment classification using machine learning techniques[C]. EMNLP,2002.
[3]TURNEY P D. Thumbs up or thumbs down semantic orientation applied to unsupervised classification of reviews[C]. ACL,2002.
[4]PANG B, LEE L. A sentiment education: sentiment analysis using subjectivity summarization based on minimum cuts[C]. ACL,2004.
[5]WILSON T, WIEBE J, HOFFMANN P. Recognizing contextual polarity in phraselevel sentiment analysis [C]. HLTEMNLP,2005.
[6]ABBASI A, CHEN H, SALEM A. Sentiment analysis in multiple languages: feature selection for opinion classification in Web forums[C].ACM Transaction on Information Systems,2008.
[7]朱嫣岚,闵锦,周雅倩,等.基于HowNet的词汇语义倾向计算[J].中文信息学报,2006(1).
[8]娄德成,姚天昉.汉语句子语义极性分析和观点抽取方法的研究[J].计算机应用,2006(11).
[9]XIAOJUN WAN. Bilingual cotraining for sentiment classification of Chinese product reviews[J]. Computational Linguistics,2011(3).
[10]CLIFTON, ANN AND SARKAR, ANOOP. Combining morphemebased machine translation with postprocessing morpheme prediction[C]. ACL HLT,2011.
[11]YUAN R W M, CHAN T Y W, LAI T B Y, KWONG O Y. Morphemebased derivation of bipolarsemantic rientation of chinese words[C]. COLING.2004.
[12]MELVILLE P, GRYC W, LARENCE R D. Sentiment analysis of blogs by combining lexical knowledge with text classification [C]. KDD,2009.
[13]ZHANG T L Y, SINDHWANI V. A nonnegative matrix trifactorization approach to sentiment classification with lexical Prior knowledge[C]. ACL,2009.