您的当前位置：首页正文

面向互联网在线视频评论的情感分类技术

2021-07-03 来源：吉趣旅游网

__________________________________________________________________________________________________ 019年第5期[技术研究■ doi ：10.3969/j.issn.1671-1122.2019.05.008/----------------------- N0TINFO SECURITY面向互联网在线视频评论的情感分类技术--------------------- 李辉打倪时策2,肖佳豊赵天忠彳 ---------------------(1.上海华为技术有限公司，上海201206; 2.军委政法委侦查技术中心，北京100120;3.北京邮电大学网络与交换技术国家重点实验室，北京100876;4.中国人民解放军78156部队，青海海东810800)摘要：随着在线视频的大量增长，越来越多的人开始在视频网站上发表对视频的评论。这些评论通常会带有用户的个人情感色彩和视频中的一些关键信息，从而对网络用户的视频观看决策有重要影响。如何自动地对在线视频评论进行情感分类和关键词提取，已成为目前亟待解决的问题。文章重点研究在线视频评论的情感分类技术，分析了不同特征提取和特征选择方法以及不同分类算法对在线视频评论情感分类精度的影响。仿真实验表明，文章提出的在线视频评论情感分类模型具有较高的准确性。关键词：情感分类；分类算法；特征提取;特征选择中图分类号：TP309文献标识码：A文章编号：1671-1122 (2019) 05-0061-08中文引用格式：李辉，倪时策，肖佳，等.面向互联网在线视频评论的情感分类技术[J].信息网络安全，

2019, 19(5)： 61-68.英文引用格式:LI Hui, NI Shice, XIAO Jia, et al. Emotion Classification Technology for Online Video Comments on

the Intemet[J]. Netinfb Security, 2019,19(5): 61-68.Emotion Classification Technology for Online Video Comments

on the InternetLI Hui1, NI Shice2, XIAO Jia3, ZHAO Tianzhong4(1. Shanghai Huawei Technology Co. Ltd., Shanghai 201206, China; 2. Investigation Technology Center, PLCMC, Beijing 100120, China; 3. State Key Laboratory of Networking and Switching, Beijing University of Posts and

Telecommunications, Beijing 100876, China; 4. PLA 78156, Haidong Qinghai 810800, China)Abstract: With the rapid growth of online videos, more and more people begin to

publish comments on videos of video websites. Users* comments usually include personal emotions and some of the key information about the videos, which makes significant impact on video viewing decisions for Web users. Emotion classification and extracting key words from online video comments automatically have become an urgent problem. This paper focuses on the emotion classification for online video comments, and analyzes the influence of different feature extraction and feature selection methods and different classification algorithms on the accuracy of online video comments emotion classification. Simulation results show that the online video comments emotion classification model proposed in this收稿日期：2019-3-10基金项目：国家242信息安全专项[2018A094]作者简介：李辉（1989—）,男，河南，工程师，硕士，主要研究方向为大数据和自然语言处理；倪时策（ 1985—）,男，浙江，工程师，

博士，主要研究方向为大数据和信息安全；肖佳（1983—）,男，安徽，工程师，博士研究生，主要研究方向为大数据和信息安全；赵

天忠（1972—）,男，甘肃，工程师，硕士，主要研究方向为软件定义网络和内容分发网络。通信作者：肖佳 tonyalex2010@163.com61nCtinfo security

技术研究2019年第5期 _________________________________________________________________________________________________________

paper has high accuracy.Key words: emotion classification; classification algorithm; feature extraction; feature selection0引言近年来互联网技术高速发展，截止到2018年6

月中旬，网民数量已经高达8亿叫越来越多的人开

始通过互联网发表自己的态度、感觉、观点、情绪

等，如常见的电影评论、电商产品评论、新闻评论等。

这些庞大的信息数据涉及各个行业和领域，对于舆

论引导方预测用户偏好、引导用户选择具有很大的

社会价值和商业价值図。但是由于互联网网民的个体

性，这些信息通常是片段化、杂乱且没有固定格式的。为了进行舆情分析，需要对当前互联网上的海量信

息数据进行分析。互联网自身的开放性、虚拟性和互动性使得人们可以在线视频观看时表达情绪、态度以及观点，这些

内容的表现形式大多是非结构化或半结构化的评论文

本。随着评论信息的飞速增长，如何针对特定需求获

取这些信息并进行有效分析成为一个难题。在相关研

究初期，研究人员主要关注文本中的客观内容，将文

本按照不同趣，如经济、般、文学等，进行分类（基

于文本主题进行分类）;或者提取出文本中与研究对象相关的发生时间、人物和地点等主要信息，并将这

些信息存储到预先设定的框架中。之后是信息检索技

术，如文献⑶所述，系统可以根据用户给出的关键词或问题进行检索，返回用户想要的信息。然而，这

些客观的分类方法只能直观地提取文本的字面意思,

难以对文本内容进行深层次的萃取加工，以获得用户

文字背后所表达的真实情绪。文本的情感分类通常是指对评论中的立场、观点等主观信息进行分析，判断

评论中所包含的情感倾向性的类别。文本的情感倾向

通常是指文本所表达的正面或反面倾向性以及情感倾

向的程度叫目前该技术已被应用到产品质量调査、

影视评论、社会舆情分析等诸多方面。例如，对用户

发表的电影评论进行情感分析，对结果进行统计从而

得到每部电影基于用户评论的岡。62目前，文本情感分类研究通常把文本情感倾向

分为正面和负面[5]o正面情感是指文本具有积极的态

度，负面情感是指文本具有消极的态度。但是，由

于互联网本身所具有的开放性和随意性等特性，致

使网络上的文本格式和内容也是五花八门，这就使得情感分类和关键词提取比较困难，通常需要自然语言处理（NLP）问、统计学、语言学等学科的交叉

应用叫在情感分类的最初研究阶段题用现成的情

感词典对文本进行情感分类。近年来，国内基于情

感词典的情感分类研究有很大发展旳°〕。这种方法简单、宜接，但是对于一些复杂的句式，往往会判断

错误，导致准确率很低。啊，汉语的句式千变万化,

还会有分词问题出现，所以使用这种方法进行中文情感分类，齊会较差。本文针对互联网在线视频评论进行了抓取与解

析，研究了语料库的构建和标注方法并对传统标注

方法进行改造；在对评论进行预处理即分词和去除

停用词后，利用机器学习的方法对电影评论做了正

负极性的分类。1评论分类模型训练关键技术为了实现情感分类模型训练，本文首先对评论

进行预处理，主要包括中文分词和去除停用词；接着采用综合情感词典的方法，在对语料进行自动标注的

基础上进行人工处理，利用较少的时间构建较为丰富的语料库；最后选取特定壮进行特征选择和特征提

取，利用分类算法进行模型训练，根据准确率反馈不整优化，产生最终的情感分类模型。1）分词和去除停用词分词工具通常有 Ictclas、Jieba 和 Stanford CoreNLP 等。其中，Stanfbrd CoreNLP的分词速度很慢，效

果一般；Ictclas的分词粒度细，导致主客观评论分类不正确，有些客观的不包含情感的评论被分到了

N0TINFO SECURITY__________________________________________________________________________________________________ 2019年第5期技术研究主观评论中，影响了最终效果；Jieba能够避免以上

问题,因此本文选取Jieba对在线视频评论进行中文

分词。对于文章包含的情感信息或与文章主题信息关系性不强的停用词，则采用权威机构定期发布的 “最全中文停用词表整理”何根据需要手动增减。2）语料标注在语料库标注方面，本文综合使用了中科院计算所HowNet和台湾大学NTUSD情感词典,对评论进行预标注，然后人工将标注错误的评论删除，使

得最终标注为好评和差评的数目相等。该方法不仅

应用了成熟的情感词典，而且相较于纯人工标注在

人力、时间上都有很大的减少凹。3）特征选择在情感分类中，一般从词这个层次进行特征选

择问，单个词、双词搭配或信息增益较小的词等都是可以作为特征。在具体使用过程中，本文将这几

种特征相结合，并使用N元算法（N-Gram）对词进

行处理。N元算法基本思想是将文本里面的内容以字节为单位进行大小为N的滑动窗口操作，形成长度为N

的字节片段序列。每一个字节片段称为元（Gram）,

对所有元的频度进行统计，并且按照事先设定好的阈

值进行过滤，形成关键元列表，也就是该文本的特征

空间向量，列表中的每一种元就是一个特征向量维

度。该算法的一个特点是某个词的出现依赖于其他若干词，另一个特点是获得的信息越多，模型越准确。 N元算法实际上是一种语言模型，输入是一句话（即

单个词的顺序序列），输出是这句话的概率，即这些

单个词的联合概率。N元算法处理的是一个由N个词

组成的集合，各词具有先后顺序。常用的有2元（Bi

Gram ）和 3 元（Tri-Gram）组合。本文系统选用词、双词搭配、词和双词搭配的

组合这3种方法作为特征，根据系统最终的准确率、

召回率和鬥值，确定系统最终采用的特征。鬥值定

义如下：耳 _ 2 • precision - recall （】）precision + recallF\\值是一个能从全局角度综合考虑分类结果的评价指标。4）特征提取常用的特征提取方法主要有文档频率（DF）、

互信息（MIX信息增益（IG）、期望交叉炳（ECE）

和卡方统计（CHI）等\"闵。其中，基于DF的特征

提取相对简单、易行、计算量小，但是存在不足。

例如，包含较多分类信息但出现频率很低的特征会

被DF淘汰，进而降低特征选择的准确率。MI根据

特征和类别共同出现的概率，衡量特征和类别的相

关性。MI的一个很大缺点是没有考虑单个词发生

的频度，因而造成MI评估函数经常倾向于稀有词，显然会影响准确率。IG用于度量词在文本分类中所

起的作用，词的信息增益值越大，表明它在文本分

类中的作用越大，所具有的类别信息越多。IG的不

足之处在于考虑了单个词未出现的情况，虽然某些

词未出现对文本有帮助，但实际上这种贡献往往小

于考虑单个词未出现情况所带来的干扰。另外，一

般需要对每个词的IG排序,通常还需要不断调整阈

值，保留大于阈值的词所组成的特征子集。本文系统中语料库中的词非常多，计算信息增益并排序和动态调整阈值都是非常耗时的。ECE也称为KL距

离，反映了文本类别的概率分布和在某个特征条件下，文本类别的概率分布之间的距离。该方法的优势是不再考虑特征的出现情况，这大大降低了一些

出现次数很少的稀有特征的干扰，提高了分类效率。缺点是只考虑了特征与类别之间的相关性，忽略了

特征在类内和类间分布的均匀程度。在基于类间集

中度和类内分散度的ECE中，特征的类间集中度越高、类内分散度越高，就越有可能被选入特征子集。CHI源自于统计学中的CHI检验，它能衡量特

征/与类别cz•之间的相关程度。CHI值越大，表示

特征/与类别ci越相关，特征/越依赖于类别ci,从63nCtinfo security

技术研究2019年第5期 _________________________________________________________________________________________________________

这点来说CHI与MI很相似。但是，它们对特征的

重要性度量是基于不同计算方法和思想的。MI利用

两个事件同时出现的概率与单个事件出现的概率的

比值来衡量两个事件是否相关，仅考虑了正相关对

特征重要程度的影响，没有考虑负相关对特征重要

程度的影响。CHI避免了上述缺点，且对特征权重

值进行了规范化，使特征之间可以进行有效的比较。

本文系统中，结果只有两个分类，因此结合CHI的优点，基于公式(1)进行训练测试后采用CHI用于

本文系统的特征提取。5) 特征降维在情感分类系统中，一般用词表示文本特征, 此时文本特征空间包含了文本集合中的所有词，从

而使得一个情感分类问题所对应的文本特征空间高

达几百万维，甚至更高。由于单独的一条评论可能仅由几十个词组成，而文本特征空间高达几百万维,

所以一条评论在表示成文本特征空间时，会使得特征空间中很多维的值都为0,这就造成特征空间的

高维性和稀疏性。高维性和稀疏性对系统的分类时间和分类精度都有影响，因此需要进行特征降维处

理。常用的方法是在特征选择和特征提取之后，对

特征值进行从高到低的排序，取特征值高的一些特

征作为降维后的特征集合。特征降维能降低文本特

征空间的维数，不仅能提高分类器的速度，还能过

滤一些无关属性，从而提高分类精度。本文选择不同的维数进行测试，基于公式(1)确定了最终的维

数值。6) 情感分类算法基于上述过程构建出对应的文本特征向量之后, 就可以作为情感分类的训练和测试集合，利用分类

算法进行训练，实现在线视频评论的分类。目前在情感分类方面，主要的分类算法有逻辑回归(Logistic

Regression, LR),朴素贝叶斯(Naive Bayes, NB ),

支持向量机(Support Vector Machine, SVM)和决策

树(Decision Tree, DT)等网64逻辑回归与多元线性回归有相同之处，都属于广义线性模型。最终目标都是拟合一个线性函数

y=0rx,使得预测输出和真实输出的差异最小。对

线性回归的结果做一个函数g上的转换(一般用 Sigmoid函数)，可以变换为逻辑回归。朴素贝叶斯

分类是一种较为简单的分类算法，基本思想是对于给出的待分类项，求解出该项出现条件下各个类别

出现的概率，取最大值归类。该算法分类效率较高,

实现简单，但是在进行情感分类时，需要先进行训练,

估计类别的先验概率和特征的后验概率后再进行分类。支持向量机是一种按监督学习方式对数据进行

二分类的广义线性分类器，在解决小样本、非线性、

高维模式识别中表现出许多特有的优势，可有效解

决其他机器学习方法中的过拟合问题。其决策边界

是对学习样本求解的最大超距平面，该超平面不仅能保证分类的准确率最高，而且能最大化超平面两

侧边缘，不仅使得分类器在训练集上有较好的分类结果，且在整个样本集中的经验风险最小。本文基于公式(1)进行了训练测试，最终采用

逻辑回归方法用作本文系统的分类算法。2评论分类模型功能模块设计本文研究主题是对在线视频评论进行情感分类,

因此本文系统的功能模块主要可以划分为评论抓取

模块、评论预处理模块、语料标注模块和情感分类

模块。评论抓取模块能够及时抓取在线视频评论,

因此评论抓取模块是情感分类模块的前提。利用较

短时间标注丰富的语料是情感分类模型训练的基础。

在情感分类模块之前还需要进行中文分词和去除停

用词等预处理工作。最后在情感分类模块中利用机器学习技术构建情感分类模型，根据模型对评论进

行情感极性判定。2.1评论抓取模块在解析网页视频源数据时，可以通过定位特殊

字段对数据进行解析，如通过“comment”关键字段

取得评论字段的内容。由于JSOUP技术可方便地用

N0TINFO SECURITY__________________________________________________________________________________________________ 2019年第5期技术研究来识别结构化网页中的元素，本文采用该技术进行

评论内容的解析［18］0评论抓取模块流程如图］所示。2.2评论预处理模块评论预处理模块的主要目标是分词和去除停用词，核心工作是中文分词和停用词典测试设计。首先对Ictclas和Jieba两种分词工具进行了测试, 数据集为采集的优酷在线视频评论。使用Ictclas分词

工具对在线视频评论进行分词时，能够对中妞行细

粒度的分词，分词结果彳瞬,但是缺乏相应的灵活性,

很大程度上影响情感分类的结果。使用Jieba分词工

具进行分词时，结果良好，同时可以添加具体的用户

词典，以确保分词粒度。此外，Jieba分词工具有精

确模式、全模式、搜索引擎模式3种不同的分词方式,

非常方便对中文文本的特征提取。通过对比，本文采用Jieba分词工具对抓取的在线视频评论进行分词,

产生分词列表。采用分词工具进行分词后，需要对评论中的停用

词进行处理。通常停用词是指句子中的所有虚词，如 “的”、“得”等，这些词通常没有实际意义，不能表

达一定的情感，且对这些词的处理非常浪费时间，所

以在情感分类中，需要先去除停用词。一般去除停用

词的方法是，如果该词在停用词表中，则从文本中删除该停用词。由于视频评论中还会出现网络用词，因

此需要对从网上下载的中文停用词典进行适度更新。评论预处理模块流程如图2所示。评论预处理后

的结果图2评论预处理模块流程2.3语料标注模块使用机器学习方法进行模型训练时，会面临语料

标注的问题。本文综合了两个具体的情感词典（HowNet

和NTUSD）,将其划分为程度词词典（按照表达强度划分）和情感极性词典（按照表达的情感极性划分）,

依据词典对语料（论预处产生的结果）进行自动标注。初始时设置每条评论的正、负权重值

均为零，并对每条评论进行如下预处理:如果词未出

现在词典中，则认为该词属于客观评论，作为中性词

宜接写入中性数据库；否则，认为该词属于主观评论,

留待进行情感极性判定。预处理完成后，进入如下情感极性判定过程:1）判断词是积极词还是消极词，对评论的正、

负权重值进行修改。若是积极词，正权重值加1 ;若

是消极词，负权重值加1。2）判断该词是否为程度词（考虑否定词），根据不同的程度，对词的权重值进行缩放，具体缩放标准

根据该词的表达情感程度确定。3 ）取下一词，如果词未取完，返回步骤1 ）；否则，进入步骤4）。4）比较该评论正、负权重值的绝对值，若正权

重值大，则该评论为好评;若负权重值大，则为差评。图3显示了自动标注语料的流程，在此基础上

可以再进行人工二次标注，采用这种方式不仅节省

了时间和人力，而且提高了标注准确率。2.4情感分类模块情感分类模块流程如图4所示。在情感分类模

块中，情感分类模型的训练是整个模块的核心，主

要步骤包括特征提取和选择、特征降维、分类算法

选取、对数据进彳训练等。本文基于自己开发的视频网站大数据采集系统，

抓取在线视频评论数据，在预处理和语料标注后将其分为测试集和训练集，构建情感分类模型。在特征选

择方面，分别选择词、双词搭配、词和双词搭配组合作为特征进行测试，根据北值确定采用的特征；在65N0TINFO SECURITY技术研究2019年第5期 _________________________________________________________________________________________________________

图3语料标注模块流程图4情感分类模块流程特征提取方面，采用互信息、卡方统计、信息增益等方法进行测试，根据K值确定特征提取方法；对

特征值进行从高到低排序,根据Fl值确定特征维数。

在分类算法选取方面，利用逻辑回归、朴素贝叶斯、

支持向量机进行测试，根据巧值确定分类算法。F\\值的计算主要基于分类的准确率和召回率。

准确率(Precision)是指结果判断为该类的样本中,

真正属于该类的样本所占的比例，它体现了系统判

别相关文本的准确性。召回率(Recall)是指被正

确判断为该类的样本数与属于该类的样本总数之比,

它体现了系统能够査询相关文本的完备性。表1给出了评价指标准确率和召回率计算中的

66变量关系。表1评价指标变量关系表文本实际属于某类文本实际不属于某类判定为某类AB判定为非某类CD根据表1可得Precision = —A —+— B

( 2)Recall =-------AA + C ( 3 )3实验测试与验证3.1测试数据本文抓取的部分在线视频评论数据如图5所示。图5部分在线视频评论示例本文从已抓取的评论中，随机抽取了 24万条评论进行预处理和自动标注，标注完成后的语料分为

好评、差评和中性。图6给出了部分标注后的语料,

每一行就是一条评论。图6中,上半窗口中均是好评, 下半窗口中均是差评。画

root@Crawl-3：/home/hadoop

- □:文件0=》编辑(E〉查看(V〉攪索(S)_缪端⑴帮助(H〉张恿帅翻了特别喜欢的电影。尤其是勇敢者的潇戏。和变人* 一亍教育人如何勇敢懂得亲情。另一个如何懂得人性和爱情給我留下最操刻的印象就是《博物馆奇妙狷1 ' 2»以爱《老家伙》，老罗一路走好［>蜡烛］您好！期侍您和我们澈博互粉，一起参与#新蔑孝欧冠揑红军#和#KOP专属福利#这两〉root@Crawl-3:~/^面文件(F)编辑(E)查看(V〉搜索(S)终端⑴帮助(H)烂死了好俗好虐不能说vip卡■只能说网速不給尢，祢们懂什么卡的有死了！一点不恐怖，假垃圾，卡的一笔爱奇艺就是骗子，宗师卡就是囁人的，早晚要倒闭感适对伸育系的同学荷点偏见，伸育生的智商情商都很高的，我们高中时全校WET>理科综合分数满分的，竟然有三亍是楝育生，可见现实生活中他们的智商不低的，只〉童在学习上花的时间少匹己。_ _图6部分标注后的语料将已标注完成的语料作为情感分类模型的训练

集和测试集，按照情感分类模块的详细设计，选取已标注完成语料的3/4作为训练集，对情感分类模

型进行训练。3.2模型训练在情感分类模型训练中，主要从特征选择、特征

N0TINFO SECURITY__________________________________________________________________________________________________ 2019年第5期技术研究提取与特征降维3个方面基于逻辑回归、朴素贝叶斯、

支持向量机3种分类算法进行测试，计算如公式（1）

所示的尽值，选取该模型不同阶段的最优方法。1 ）特征选择对比在特征选择方面，分别选择了词、双词搭配、

词和双词搭配组合作为特征进行测试。从图7可以看出，当选择词和双词搭配组合作为特征时，3种

分类算法的尺值达到最优，因此在特征选择方面, 选取词和双词搭配组合作为特征。fitt不同特征

图7特征选择对比2）特征提取对比在特征提取方面,分别测试了互信息、卡方统计、信息增益等特征提取方法。从图8可以看出，当选

用卡方统计作为特征提取方法时，3种分类算法的

用值达到最优，因此在特征提取方面，选用卡方统

计作为特征提取方法。特征提取方法图8特征提取对比3）特征降维对比在特征降维方面，选择特征的不同维数进行测试。从图9可以看出，当特征维数保持在65万时,

3种分类算法的比值达到最优，因此在特征降维方面，确定特征维数为65万。4）分类算法对比由图7~图9可知，逻辑回归分类算法在上述3图9特征降维对比个方面均能够使模型效率达到最高，因此采用逻辑

回归算法作为情感分类模型的分类算法。基于上述实验过程，本文定义了若干方法来构建该模型。首先，通过create_word_bigram_scores方法选

取语料中的词和双词搭配作为特征，并计算语料的卡方统计量。然后,根据find_best_words方法对特征进

行降维。最后，从Pos features和Neg_features方法输

出的结果构成的特征集中，随机抽取3/4作为训练集, 其余作为测试集，通过分类算法对训练集进行训练,

产生分类模型。3.3测试结果对情感分类模型进行测试时，以语料库的24万条评论为基础，分3次训练情感分类模型。然后利用该

分类模型，分3次随机抽取视频评论抓取数据库中的

100万条评论进行分类测试，将分类结果写入娜库中。1）耗费时间对比训练情感分类模型和对100万条评论进行情感

分类耗费时间如表2所示。表2耗费时间对比过程测试编号耗费时间/s平均时间/S测试1874.56训练情感分类模型测试2885.49879.47测试3878.35时曲行测试12876.56情感分类测试22992.272941.71测试32956.292）情感分类结果图10所示为部分情感分类结果，包含\"commentID”

（评论的ID ）、\"content\"（评论的内容）、\"postive\"（评论

的正权重值）和“negtive” （评论的负权重值）。从语义理解的角度可知，本文提出的情感分类模67nCtinfo security技术研究2019年第5图10部分情感分类结果型对在线视频评论的情感极性判别准确性很高。在稳定运行的基础上，可以采用该系统抓取在线视频评论

进行情感分类，同时采集相关数据作为预测基础。4结束语本文对在线视频评论的情感分类技术进行了研

究，设计了对在线视频评论有效的情感分类模型。分类结果表明本文模型具有较高的分类准确率。但是目

前基于分布式的机器学习正在发展，本文所使用的基

于单机的模型训练已不能适用于当前的数据量。在后

续研究中将会关注自然语言处理、机器学习和Spark

Mllib等技术的融合，进一步研究高效的特征选翳法,

构建基于人工智能的自动化分类模型。(责编马珂)参考文献：[1] YE Qiang, SHI Wen, LI Yijun. Sentiment Classification for Movie Reviews in Chinese by Improved Semantic Oriented Approach[C]〃

HICSS. The 39th Annual Hawaii International Conference on System

Sciences, January 4—7, 2006, Kauia, HI, USA. NJ: IEEE, 2006: 53b.[2] SHENG Chengcheng, ZHU Yong, LIU Tao. Public Opinion Analysis Based on Weibo Socail Network[J]. Intelligent Computer and

Applications, 2019, 9(1): 57-64.盛成成，朱勇，刘涛.基于微博社交平台的舆情分析[J].智能计算

机与应用，2019, 9(1)： 57-64.[3] DAVE K, LAWRENCE S, PENNOCK D M. Mining the Peanut Gallery: Opinion Extraction and Semantic Classification of Product

Reviews[C]// ACM. The 12th International Conference on World Wide Web, May 20 一 24, 2003, Budapest, Hungary. New York: ACM, 2003:

519-528.[4] CHEN Zhi, LI Peng. Text Sentiment Classification Based on

Mutual Information and Cluster Sampling [J]. Modern Computer, 2015 ⑷：14-20.陈智，李鹏.利用互信息和聚类抽样的文本情感分类[J].现代计算机:

普及版，2015(4)： 14-20.[5] WAN Houbin. Research on Feature Dimension Reduction in Text Classification[D]. Chongqing: Chongqing University, 2012.

万斌候.文本分类中的特征降维方法研究[D].重庆：重庆大学，2012.[6] GAO Yuan. An Overview ofthe Development and Application of Natural Language Processing[J]. China New Telecommunications, 2019, 21(2): 117-118.68高源.自然语言处理发展与应用概述[J]冲国新通信，2019, 21(2)：

117-118.[7] LIU Zhixiang. Research and Implementation of Two Text

Categorization Algorithms[D]. Changchun: Jilin University, 2008.

刘智祥.两种文本分类算法的研究与实现[D].长春：吉林大学，2008.[8] KIM J, CHOE D, KIM G, et al. Noise Removal Using TF-IDF

Criterion for Extracting Patent KeywordpVfl// Springer. Soft Computing

in Big Data Processing. Cham: Springer, Cham, 2014: 1107—1127.[9] CUI Hang, MITTAL V, DATAR M. Comparative Experiments on

Sentiment Classification for Online Product Reviews[C]//AAAI. The 21st National Conference on Artificial Iintelligence, July 16-20, 2006,

Boston, Massachusetts, USA. Palo Alto: AAAI Press, 2006: 61—80.[10] YANG Liyue, WANG Yizhi. Research on Construction and

Analysis of Emotion Dictionary in Emotion Analysis of Micro— blog[J]. Compiiter Technology and Development, 2019(2): 13—18.

杨立月，王移芝.微博情感分析的情感词典构造及分析方法研究[J]. 计算机技术与发展，2019(2)： 13-18.[11] CSDN.最全中文停用词表整理[EB/OL]. http://blog.csdn.net/

shijiebei2009/article/details/39696571, 2014-9-30.[12] PANG Bo, LEE L, VAITHYANATHAN S. Thumbs up?: Sentiment Classification Using Machine Learning Techniques[C]//

EMNLP. Conference on Empirical Methods in Natural Language Processing, July 6-7, 2002, Philadelphia, PA, USA. Association for

Computational Linguistics, 2002: 79—86.[13] DAI Liuling, HUANG Heyan, CHEN Zhaoxiong. A Comparative

Study on Feature Selection in Chinese Text Categorization^]. Journal

ofChinese Information Processing, 2004, 18(1): 26—32.代六玲，黄河燕，陈肇雄.中文文本分类中特征抽取方法的比较研究[J].中文信息学扌艮，2004, 18(1)： 26-32.[14] LIU Zhiming, LIU Lu. Empirical Study of Sentiment

Classification for Chinese Microblog Based on Machine Learning[J]. Computer Engineering and Applications, 2012, 48(1): 1-4.刘志明，刘鲁.基于机器学习的中文微博情感分类实证研究[J].计

算机工程与应用，2012, 48(1)： 1-4.[15] ZHOU Jun, HE Li, HAN Weihong, et al. Research of Tendency Algorithm for Chinese Comments based on Machine Learning[J].

Netinfo Security, 2013, 13(10): 164-166.周军，何力，韩伟红，等.基于机器学习的中文评论倾向性分类实

证研究[J].信息网络安全，2013, 13(10)： 164-166.[16] DAI Wei. A Solution to Text Classification with Logical Regression[j]. Telecom World, 2018(8): 266-267.戴维.逻辑回归解决文本分类问题[J].通讯世界，2018 (8)： 266-267.[17] WANG Xinyu, ZHAO Mingtao, GUI Yang. Research on Face

Recgnition Based on Classification Algorithms^. Journal ofJiaozuo

University, 2019, 33(1): 56—61.王欣宇，赵明涛，桂扬.基于分类算法的人脸识别研究U].焦作大

学学报，2019, 33(1)： 56-61.[18] WAN Yueliang, ZHU Hejun, LIU Hongzhi. Research on

Web Page Classification Method Based on Web Page Structural

Tendency[J]. Netinfo Security, 2009, 9(9): 76-79.万月亮，朱贺军，刘宏志.基于网页结构化倾向的网页分类方法研

究[J].信息网络安全，2009, 9(9)： 76-79.

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文