线上商品评论有效性分类专业领域知识模型的构建研究
甄化春
(武汉纺织大学管理学院)
摘要:线上商品评论有效性分类领域知识模型的构建是商品评论有效性分类的一个重要基础性工作,其直接影响分类器的精度与召回率。以往的研究大多集中于情感词典的构建以及领域术语抽取工作,对于一种专门针对线上商品有效性分类的领域知识库的构建研究较少。本文提出了一种基于信息增益技术进行文本有效性分类领域知识模型构建的半监督方法,同时构建了商品领域停用词表。通过对亚马逊上爬取的iPhone5s, iPhone6, iPhone6 Plus共1678条产品评论利用Python语言进行有效性分类领域知识抽取和分类预测,实验结果发现该方法显著提高了评论有效性预测精度。
关键词:信息增益; 商品评论; 有效性分类; 领域知识模型
0 引言
在线用户评论(Online Review)对于消费者和商家都具有重要意义,其在向潜在消费者传递产品信息的同时也向商家传递了消费者的需求特性以及产品的缺陷等关键信息。因此,分析消费者的购物评论,从中发现影响消费者满意度的内容要素,并针对性的改进产品和服务对于提升商家的竞争力和经济效益具有重大的商业价值。然而,并非所有的在线评论都有价值,网络的匿名性以及沟通的成本低廉等特性使得评论的质量参差不齐。大数据时代,如何从海量用户评论中挑选出对潜在顾客购买起决定起辅助作用的商品,是一个值得探索的问题。
对于线上评论有效性的问题,现有文献主要从评论有效性影响因素分析两个方面进行研究
[3][6]
[6,7]
[2]
[2-5]
[1]
和文本有效性分类算法改进
。郝媛媛等通过实证验证了产品特征、评论极性对于评论有效性具有显著正面的影
响,殷国鹏通过对已有的研究进行归纳总结发现众多的研究均证明了这一结论。结合文本有效性影响因素,吴含前等人提出了一种单一主题下基于逻辑回归的垃圾评论监测模型,并取得了较好的有效性预测精度但是需要大量的人工进行评论有效性标注。Zhang等人提出了一种拓展的GARC算法对评论有效性进行分类,避免采用专家进行有效性标注的低效率和应用普适性问题,但是分类预测精度有待进一步的提高。评论有效性分类问题最终归属为评论有效性的二分类问题,利用评论有效性分类领域知识对评论进行有效性标注并训练分类器,然后将分类预测标签同测试评论集真实标签进行对比从而评估领域知识分类有效性。已有的研究主要利用监督学习方法进行主题提取,并基于语言学模型进行相关主体的识别,很少有学者通过构建专业领域知识库进行评论有效性标注,而构建的评论有效性分类专业领域知识库可以在保证评论有效性识别精度的同时实现无监督的评论有效性自动标注。因此,构建评论集合有效性分类领域知识库对于线上商品评论有效性分类具有重要的理论研究价值和实践意义。
[6]
[7]
项目来源:国家自然科学基金资助项目(71571139)“大数据情景的outlier分析与异类知识管理模式研究”;武汉纺织大学研究生创新基金项目(201402020):“物联网下消费者购物行为规律的数据挖掘”。 作者简介:甄化春(1989-),男,主要研究方向:数据挖掘、信息管理。
1 相关研究工作
领域知识库是根据研究的需要而构建的机器学习语料库,根据用途的不同,其可以分为领域特征词库、领域情感词库、领域停用词库以及领域分类词库等。对于前面三种领域知识的构建已有相当多的研究成果,而从评论有效性分类角度研究其评论有效性领域知识库构建相对较少。评论有效性分类领域知识库的构建不同于通常意义上的产品特征领域词典或评论情感词典的构建,其综合考虑了评论语句中产品特征领域词和评论用户情感极性词语
[8][9]
[4, 5]
[2]
。
目前比较常用的分类词典构建方法有基于统计的特征词语提取方法和基于语言学的方法以及混合式方法。基于统计的特征词语提取方法通常包括基于词频统计的方法、基于逆文档频率的方法和互信息的方法等。Nitin Jinadl等人
[10]
基于词频统计的思想通过对三种类型的垃圾评论进行词频统计,构建了领域垃
[11]
圾词典,并采用Logistic回归模型对英文垃圾评论进行识别,取得了较好的效果。Popescu A M等人通
过抽取评论中频繁出现的名词和名词短语作为候选特征词,并通过Web PMI来评估候选词,利用贝叶斯分类提取产品特征,从一定程度上提高了特征词典准确度但是耗时较长。基于语言学的方法在特征词典的构建方面应用的也较为广泛,该方法可以有效解决商品评论中不同词语相同语意的问题,通过计算语意相似度计算来达到降低训练模型维度,从而提高分类有效性的目的。基于语言学方法的缺点是模式覆盖面有限,存在领域与语言适应性问题,术语召回率受到限制
[12]
。考虑到基于统计方法和基于语言学方法进行特征提
[13]
取各自的优缺点,在实际应用中一般将两种方式结合。Dailleli
[8]
利用语言学方法获取候选特征词集,然
后通过互信息、LogLib统计方法获得术语。章成志提出基于一体化策略的术语抽取方法,并通过实验证明了利用多层术语度进行特征词库抽取的有效性。
综上所述,前人对于特征领域知识库的构建已取得了较多的理论成果,但是从评论有效性分类视角研
究分类领域词典的构建问题的相关较少,对于评论有效性分类缺少一种文本有效性标识的领域特征词库。另外,基于统计的特征提取方法其特征提取精度还有待进一步提高,基于语言学方法的特征提取方法存在样本普适性方面的缺陷。
2 基于信息增益的评论有效性分类领域知识模型的构建方法
本文的工作主要集中于三个方面:第一,通过产品说明、通用领域词以及情感极性词构建种子领域词库并结合部分评论集建立初级有效性分类领域词库;第二,利用信息增益进行特征提取,通过控制过滤阈值来调节特征集合,并通过与初级领域词库对比,增加领域词典的特征数量,从而达到丰富领域词库的目的;第三,实验测试逐次构建的分类知识库对测试评论进行有效性标注并同基于有效性统计的评论数据进行对比,通过分析二者拟合度来测量模型效果。图1是本文提出的基于信息增益的线上评论有效性分类领域知识模型构建的基本框架。
Web数据 产品说明 网络爬虫 预处理 领域种子词库 评论集合 标准评论集合 领域知识库 修正 自动标记 基于统计的 标签数据集 信息增益 (阈值𝞪) 特征词集 性能评估 训练分类器并分类 SVM核函 数训练 有效评论(1) 向量空间模型 无效评论(-1) 测试集 图 1 基于信息增益的线上评论有效性分类领域知识模型构建的基本框架 2.1 初级领域词库的建立
初级领域词库是基于种子领域词典结合有效评论集合进行综合抽取的反映产品特征以及评论情感极性的一类词语,这类词语从一定程度上反映了评论语句的效用。建立领域词典的第一步是构建领域种子词库,其通常由领域专家给出,也有基于产品术语词典子词语的提取
[15]
[14]
、情感领域词典以及评论要素分析来进行有效性分类种
。本研究将以亚马逊网站中iPhone5s, iPhone6, iPhone6 Plus商品的产品说明结合评论
要素分析来进行产品有效性分类特征初步提取并结合台湾大学发布的极性情感词库进行iPhone评论中情感极性词语的提取。
表1 初级评论有效性分类领域词库 特征词典 屏幕 外观 大小 参数 充电器 配置 容量 重量 行货 港货 包装 物流 „„ 网络 情感词典 坑 可靠 信赖 好用 信任 失望 泪奔 失望 Perfect 碉堡 流氓 快 „„ 爽 服务 iPhone系列评论 商品描述 服务态度 配送速度 退货处理
产品 质量 外观 大小 参数
图2 iPhone系列手机的树状特征结构模型
李杰等人[15]利用评价要素分析构建了电子商务服装产品的3层树状结构模型,该模型从产品和服务两个维度对线上商品特征词语进行分类。本文同样从产品和服务两个层次对手机评价要素进行划分,将iPhone
系列产品说明作为产品评价要素归纳为质量、外观、大小、价格、参数四个维度,从商品描述、服务态度、配送速度、退换货处理来分析商家服务要素特征(图2)。结合上述要素特征和极性词库,我们从亚马逊iPhone系列手机(iPhone5s、iPhone6、iPhone6 Plus)共1678条评论中抽取了199条已被标记为有效的评论作为特征提取样本,最终提取了54个特征词语和15个情感极性词语,建立了容量为69的初始有效性分类特征领域词库(表1)。该词库特征提取精度较高,但是不能完全替代总体有效评论集合特征。 2.2 基于信息增益的特征提取
信息增益是一种基于统计思想的特征提取方法,其通过一定的函数自动计算特征词语对于评论的有效性分类的意义,该种意义通过量化的形式表现出来,通过设定有效性归类阈值(𝞪)来对领域特征词语进行筛选,阈值高低将直接影响特征词语个数,最终决定待处理向量空间模型的维度以及特征词语与初级领域词典之间的匹配度。
信息增益的基本原理是通过计算整个文本在包含与不包含某一特征时信息量的差值,差值越大,代表这个特征对于文本集合越重要。在计算信息增益之前需要计算“熵”,然后计算“条件熵”。对于N类问题,“熵”的计算公式如(1)所示,特征t的“条件熵”如公式(2)所示。
H(C)P(Ci)log2P(Ci)
i1n (1) (2)
H(C|T)P(t)H(C|t)P(t)H(C|t)
其中P(Ci)表示Ci出现的概率,P(t)和P(t)分别表示特征t在总文本中出现的概率与不出现的概率,而H(C|t)和H(C|t)分别表示在特征t出现以及不出现的情况下文本的熵。其计算方法如式(3)、(4)所示。
H(H|t)P(Ci|t)log2P(Ci|t)
i1n (3) (4)
H(H|t)P(Ci|t)log2P(Ci|t)
i1n其中P(Ci|t)和P(Ci|t)分别表示在特征t存在的条件下类别Ci出现的概率与特征t不存在的条件下类别Ci出现的概率。有上述公式得到特征t的信息增益公式如式(5)所示
IG(t)H(C)H(C|T)
(5)
对每个特征都可以用这个方法计算出其信息增益量,对于信息增益量小于“阈值”的特征项去掉该特征,可以根据不同的情况设定不同的阈值。 2.3 评论有效性分类领域模型的构建方法
信息增益不需要建立领域词典,特征提取速度快,能够从大样本数据集合中自动提取本特征集合,但是该方法特征提取精度不高,受停用词典质量影响较大。本研究使用信息增益提取有效性分类领域词,然后同初级领域词典对比将具有评论有效性识别特征但未被初级领域词典覆盖的领域词汇添加到初始领域特征词库,同时将每次将信息增益选取的特征词中不能体现评论有效性分类特征但是信息增益大于𝞪的词语加入到停用词库,利用每次新建的领域词库重新对iPhone系列手机在线评论进行有效性分类自动标注并将测试集预测结果同基于统计的有效性标签进行对比,如此反复,比较每次新建分类器的分类精度,选择分类效果最好的分类有效性领域词库。𝞪的取值由实验确定,具体有效性分类特征领域知识词语提取流程如图3
所示。
3 实验设计及结果分析
3.1 实验设计
特征领域词语的覆盖度以及对有效评论的特征表示都直接影响模型预测分类的精度,本实验通过评论有效性分类精度来衡量领域知识库的性能。评论有效性识别是文本分类问题的一种,其通常包括文本数据的获取以及预处理、样本类别标注、文本特征模型的表示、分类器的训练及结果的预测四项工作。 (1) 数据的获取及预处理
本研究的实验数据是通过网络爬虫软件GooSeeker[16]在亚马逊网站上获取iPhone5s, iPhone6,iPhone6s的用户产品评论集共1685条评论,剔除空白、重复评论后得到1678条用户评论。文本的预处理包括分词、去停用词的工作,经预处理将产品评论以词语集合的形式表现出来,同时去掉没有实际含义的功能性词汇(如“由此可见”,“总而言之”等)以及标点符号和使用频率非常频繁的单汉字。在文本预处理的过程中,我们采用Python编程语言结合“哑巴分词”作为分词工具,使用“四川大学机器智能实验室通用词库”来进行停用词的去除工作。 (2) 样本类别标注
评论有效性研究是一个二分类问题,在分类器训练以及信息增益特征选择以及分类结果评估中都要用到文本分类标签。在信息增益计算熵时需要知道文本正向与负向评论个数,在分类器的训练以及有效性预测结果评判时均需要文本有效性标注。对于有效的评论标记为1,无效标记为-1。文本语料有效性标注通常在人工反复阅读理解的基础上进行的,而不同消费者对于文本有效性的判定具有趋同性的同时也具有个体差异性,文本有效性受到参与人数的影响较大,而且需要耗费大量的时间。Amazon网站消费评论中提供了针对用户的调查问项-----“这条评论对您有用吗?”以及调查统计数据,如“354 人中有 323 人认为以下评论非常有用”。通过对亚马逊iPhone系列手机评论词条以及其有用性统计情况进行分析发现,该网站用户评论评价阅读人数较少,在阅读人数大于9人且有用性比例为0.8时可以取得的绝对有效评论文本仅有36条,从该类评论中提取的词条有效性区分度较高,但对于样本总体的代表性不强。我们通过对阅读人数、评价为有用的比例以及过滤的条数研究发现在单条评论阅读人数大于等于4人且认为有用人数比例大于等于0.7时,该条评论绝对有效(图4)。同时,在评论阅读人数大于等于4人且认为有效人数比例小于等于0.2时,该条评论绝对无效[7]。
对此,结合在线调查数据与文献[2-4]提出的评论有效性影响因素,文章提出了一种文本自动标注方法,具体如下:
①对于某条评论若阅读过该评论的人数大于等于4人且认为该条评论有用的人数占到总人数的比例𝞪≥70%时,认为该评论有效。
②对于某条评论若阅读过该评论的人数大于等于4人且认为该条评论有用的人数占到总人数的比例20%<𝞪<70%时,若该条评论中含有领域词则认为该条评论有效,否则无效。
③对于某条评论若阅读过该评论的人数大于等于4人且认为该条评论有用的人数占到总人数的比例𝞪≤20%时,认为该条评论无效。
④对于某条评论若阅读过该评论的人数小于4人,如果其含有领域词则认为该评论有效,否则认为该条评论无效。
199151认为有用人数(大于等于)13713015611510510894阅读人数(大于等于)有效条数8786766780.70.790.70.7450.70.7670.750.7580.750.750.75455958544637793680.7543690.80.80.80.80.8图4 有效评论与评论阅读人数以及有用性比例变化情况0.8(3) 文本特征模型的表示
在现有的研究中,文本特征通常以向量空间模型(VSM)的形式表示出来。在线用户每一评论可以映射为一个特征向量V(d)=(t1, w1(d); t2, w2(d); ... ; tn, wn(d)),其中ti(i=1,2,„,n)表示在信息增益阈值下该评论中剩余互不雷同的词条项,wi(d)为ti在d中的权值,一般定义为ti在d中出现评论tfi(d)的函数,即wi(d)=W(tfi(d))。在信息检索中,常用的词条权重计算方法有布尔函数、平方根函数、对数函数、TF算法以及逆文档频率算法(TF-IDF)等,这里我们选用TF-IDF作为特征词语权重计算方式。TF-IDF由Salton于1973年首次提出,其主要思想为:一个词语在特定文档中出现的频率越高,说明它在区分该文档内容属性方面能力越强,即TF;一个词语在文档集合中出现的范围越广,说明其区分文档内容的属性越低,即IDF[14]。经典的TF-IDF具体表现形式如公式6所示:
Wijtfijidfjtfijlog(N/nj)
出现特征项tj的文档数目。 (4) 分类器的训练及预测
(6)
其中tfij指特征项tj在文档di中出现的次数;idf指出现特征项tj的文档倒数。N表示文档数目nj表示
文本分类常用的分类器有支持向量机(SVM)、贝叶斯分类(Naïve Bayes)、最大熵以及n元语言模型等,刘志明等人[18]通过实验对比证明采用TF-IDF权重计算方法结合信息增益进行特征提取并通过SVM进行分类可以得到较好的分类效果。本实验拟采用台湾大学林智仁教授等开发的LibSVM软件包[19]在Matlab R2009b平台下进行模型的训练和分类预测。为防止模型欠拟合或过度拟合,试验中使用50%训练样本和50%的测试样本。 3.2 结果分析
对于分类结果的评测,采用信息检索领域普遍使用的精度(Precision)、召回率(Recall)、准确率(Accuracy)和F1值[20],具体如下:
a ab Precision Recall Accuracy2(7) (8) (9) (10)
a acad abcd2a 2abc F1(1)PrecisionRecallPrecisionRecall2
其中a、b、c、d分别对应是有效评论且被识别为有效评论的个数,是无效评论但被识别为有效的评论数,是有效评论但被识别为无效评论的评论个数,是无效评论且被识别为无效的个数。
通过上述实验过程,我们得到表2中的在初级领域词典和信息增益改进后的领域词典下评论有效性的预测结果。从表中的数据可以看出,在信息增益阈值𝞪为0.0055至0.0035之间时,分类器对于样本标签的分类预测准确率得到显著提升,其中对于有效性样本的识别精度p总体呈上升趋势,分类精度及F1值随着特征数量的增加而得到显著提升;在相同的阈值𝞪下, 基于信息增益改进的领域词典标注的评论文本有效性预测准确率比初级领域词典标记的文本有效性分类有效性预测的精度要高,其说明在相同阈值下通过信息增益改进的领域词典可以显著改变文本有效性预测精度。
表3反映的是在初级领域词库和信息增益改进领域词库标注下基于有效性分类词典自动标记预测标签分别同基于Amazon官网实际统计的潜在消费者对于iPhone手机评论有效性自动标注的拟合度。表中数据表明,在阈值𝞪为0.0055至0.0035之间时,随着𝞪的减小初级分类标注词典和改进的分类标注词典对评论有效性预测同基于统计有效性标注的匹配度逐渐增加,同时F1值显著提高;在相同的阈值𝞪下基于信息增益的领域词典比初级领域词典有效性标记预测的匹配度相对较高。
表2,表3的数据共同说明通过信息增益改进的领域词典对于分类器预测准确率以及有效性预测值同实际结果的拟合度均有显著的促进作用。
表2 基于领域知识库的评论有效性分类预测结果
阈值𝞪 精度(P) 0.913 0.888 0.904 0.916 0.916 0.921 0.901 0.912 0.926 0.930 召回率(R) 0.642 0.673 0.704 0.730 0.744 0.656 0.702 0.714 0.742 0.765 F1值 0.714 0.766 0.791 0.813 0.821 0.766 0.789 0.801 0.824 0.839 准确率(A) 0.766 0.768 0.786 0.805 0.801 0.774 0.784 0.795 0.805 0.814 领域词个数 69 75 83 89 94 75 83 89 94 98 初级领域词0.0055 0.0050 0.0045 0.0040 0.0035 典 基于信息增益领域词0.0055 0.0050 0.0045 0.0040 0.0035
表3 预测指标同基于Amzon官网统计标签匹配情况
阈值 0.0055 精度(P) 0.909 0883 0.898 0.909 0.909 0.915 0.896 0.905 0.919 0.924 召回率(R) 0.624 0.652 0.683 0.708 0.725 0.636 0.681 0.692 0.723 0.747 F1值 0.744 0.749 0.776 0.796 0.806 0.750 0.774 0.784 0.809 0.826 拟合度 0.749 0.748 0.766 0.785 0.782 0.755 0.764 0.783 0.787 0.797 初级领域词0.0050 0.0045 0.0040 0.0035 基于信息增益领域词典0.0055 0.0050 0.0045 0.0040 0.0035 4 结论
本文设计、发展和评价了一种基于信息增益的评论有效性分类领域知识库构建方法。具体地,通过从实验样本中从统计视角抽取少量用户评价为绝对有效的评论并结合iPhone系列手机树状结构模型以及情感领域词库构建了评论有效性分类初级领域词库;利用初级领域词库进行评论有效性标记并结合信息增益技术通过设置信息阈值𝞪来调节领域词典个数,并逐步丰富初级领域词库;最后,运用Amazon官网统计的iPhone评论有效性来对信息增益建立的有效性分类领域词典进行验证。文章从分类准确率(A)、拟合度、精度(P)、召回率(R)和F1值几个指标同初始分类有效性词典进行对比,证明了基于信息增益构建的有效性分类词典比前者具有显著的优势。本研究的理论贡献在于提出了一种基于半监督的文本有效性分类领域词库的构建方法,该方法从一定程度上解决了基于监督的高分类精度、低效率和基于统计的高效率低精度问题以及样本整体代表性不足的问题。从管理实践的角度看,利用该有效性分类词典的构建方法,电商企业可以对阅读人数较少的评论以及最新的评论快速进行有效性分类排序,从而为消费者提供更具参考价值的商品及用户体验信息。
本研究也存在一些局限与不足,这也是后续将要继续研究的内容。第一,研究样本相对有限,后续研究可以使用大样本数据文章提出的有效性分类领域知识模型进行验证。第二,对于不同网络平台评论有效性分类领域知识构建方法是否有效需要进一步的验证。第三,后续研究可以结合评论长度、评论者特点来研究评论有效性,从而进一步提高评论有效性预测精度。
参考文献
[1] Hongwei Wang, Pei Yin, et al. Sentiment classification of online reviews: using sentence-based language model[J]. Journal of Experimental & Theoretical Artificial Intelligence, 2014, 26(1): 13-31.
[2] 郝媛媛, 叶强, 李一军. 基于影评数据的在线评论有用性影响因素研究[J]. 管理科学学报, 2010, 13(8): 78-88. [3] Mudambi S M, Schuff D. What makes a helpful review? A study of customer reviews on Amazon. com[J]. MIS quarterly, 2010, 34(1): 185-200.
[4] 殷国鹏. 消费者认为怎样的在线评论更有用?——社会性因素的影响效应[J]. 管理世界, 2012, (12):115-124. [5] Ngo-Ye T L, Sinha A P. The influence of reviewer engagement characteristics on online review helpfulness: A text regression model[J]. Decision Support Systems, 2014, 61: 47-58.
[6] 吴含前,朱云杰,谢珏. 基于逻辑回归的中文在线评论有效性监测模型[J]. 东南大学学报(自然科学版), 2015, 45(3): 433-437.
[7] Zhang Zunqiang, Ma Yue, Chen Guoqing, et al. Extending associative classifier to detect helpful online reviews with uncertain classes[C]. IFSA-EUSFLAT, Spain, 2015: 1134-1139.
[8] 章成志. 基于多层术语度的一体化术语抽取研究[J]. 情报学报,2011,28(3): 275-285.
[9] 李丽双,党延忠等. 基于条件随机场的汽车领域术语抽取[J]. 大连理工大学学报.2013, 53(2): 267-272. [10] N. Jindal, B. Liu. Opinion spam and analysis[C]. Proceedings of the first ACM international conference on Web search and data mining, 2008: 219-229.
[11] Popescu A M, Etzioni O. Extracting product features and opinions from review[C]. Proceedings of the Human Language Technology Conference and the Conference on Empirical Methods in Natural Language Processing,Stroudsburg, USA :Association for Computational Linguistics,2005:339-346.
[12] Kit C, Liu X Y. Measuring mono-word termhood by rank difference via corpus comparison [ J ]. Terminology, 2008,14(2): 204-229.
[13] Daille B. Study and implementation of combined techniques for automatic extraction of terminology[M]. Klavans J L, Resnik P. The Balancing Act: Combining Symbolic and Statistical Approaches to Language. Cambridge, MA: MIT Press, 1996: 49-66.
[14] 何燕,惠志方,段慧明,等. 基于专业术语词典的自动领域本体构造[J]. 情报学报, 2007, 26(1): 65-70. [15] 李杰, 张向前, 陈维军, 等. C2C电子商务服装产品客户评论要素及其对满意度的影响[J]. 管理学报, 2014, 11(2): 261-266.
[16] http://www.gooseeker.com/
[17] SALTON G, ClEMENT T Y. On the construction of effective vocabularies for information retrieval[C]. Proceedings of the 1973 Meeting on Programming Languages and Information Retrieval, New York: ACM, 1973:11. [18] 刘志明, 刘鲁. 基于机器学习的中文微博情感分类实证研究[J]. 计算机工程与应用, 2012, 48(1): 1-4. [19] Chang, Chih-Chung and Lin, Chih-Jen. LIBSVM : a library for support vector machines[J]. ACM Transactions on Intelligent Systems and Technology, 2011, 2(3): 1-27.
[20] 史伟, 王洪伟, 何绍义. 基于微博的产品评论挖掘:情感分析的方法[J]. 情报学报, 2014, 33(12): 1311-1321.
因篇幅问题不能全部显示,请点此查看更多更全内容