第7卷第2期 2002年4月 株洲师范高等专科学校学报 J0UR AI OF ZHUZH0U TEACHERS C0LLEGE v0L 7 No.Z ADr 2002 聚类分析中相似性测量方法的研究 易华容 (抹洲师范高等专科学校计算机系,湖南抹洲412007) 摘要:采类是数据挖掘中的主要方法.讨话了在太多数采类算法中的相似性测量方法.并咀属 性的妻型作为选择相似性的标准.阐述了用于数值属性,符号属性厦混合属性相韫性剥量方法. 美量词:信息技术l采妻分析;相似性剥量;数据把掘 中圈分类号:TP201.6 文献标识符:A 文章编号:1009—1432(2002}02—0043--04 Researches into the Methods of Similarity Measurement in the Clustering Analysis Y1 Hua—rong (Department of Computer-Zhuzhou Teachers College.Zhuzhou,Hun,an 412007.China) Ahslruet:Clustering is a major method of data mining.This paper discusses the methods of similarity meas— urement of n ̄ost clustering algorithms-andtakingthetype of attribute B8 B standard of choosing similarity. it expounds the methods used to measure numerical attribute.categorical attribute and mixed attribute. Keyword:information to:hnology clustering analysis F similarity measurement data mining 引言 近年来,数据挖掘引起信息产业界的极大关注,其主要原因是存在大量数据可以广泛使 用,并且迫切需要将这些数据转换成有用的信息和知识,广泛地应用于各领域,包括商务管 理、生产控制、市场分析、工程设计和科学探索等.数据挖掘是信息技术自然演化的结果,是 从大量数据中提取或“挖掘”知识,被称为数据库中的知识发现(KDD).作为数据挖掘的一 个功能,聚类分析能作为一个独立的工具来获得数据分布的情况,观察每个聚类的特点,集 中对特定的某些聚类做进一步的分析.何谓聚类呢?聚类就是将物理或抽象对象的集合分 组成为由类似的对象组成的多个类的过程,其原则是将对象根据最大的组内相似性和最小 的组间相似性进行聚类或分组.因此,相似性测量这一标准定义的好坏将直接影响聚类算法 收稿日期:2001 l2一l2 作者简介:易华客(1 976),女,湖南敢县^,株洲师专计算机系教师,湘潭^学计算机应用硬士研究 生t王要从事计算机专业教学及数据挖掘研究. 43 维普资讯 http://www.cqvip.com
株堋师范高等专科学校学报 2002年第2期(总第25期) 的优越性 2聚类算法及其相似性测量分析 在数据挖掘中聚类分析的对象是实例(Instance),每个实例由不同的属性构成,这些属 性主要分为数值属性(Numerical Attributes)和符号属性(Categorical Attributes),并且,要 处理的往往是非常大量而复杂的数据集.因此,传统的聚类方法必须尽量满足如下要求: (1)能同时处理数值属性和符号属性. (2)面对数量繁多且仍在迅猛增长的数据集,算法要满足效率及增量性方面的要求…. 聚类的解决方法有两大类:空间分割方法(K—Clustering)和层次聚类方法(Hierarehi— eal Clustering).空间分割方法是将整个数据对象空间分解为一些小的子空间,每个子空间 对应一个确定的类,可以多个子空间同属于一个类;层次聚类方法则是将较小的数据对象子 集合依据相似程度进行合并,这些小的数据对象子集合逐渐合并成较大的数据对象子集合, 从而构成一个类的层次. 聚类算法大致可以分为划分算法、层次算法、基于密度的算法、基于网格的算法和基于 模型的算法 一.一般来说,它们所基于的相似性测量方法有三种,均用于数值属性的相似性 测量、符号属性相似性测量和同时用于数值属性和符号属性的混合性相似测量. 2.1数值属性的相似性测量方法 数值属性的相似性测量方法大多直接或问接依赖于欧几里德距离.常见的基于欧氏距 离的聚类算法有分割算法中的K—MEANS算法,K—NN算法以及分层算法中的BIRCH 算法,CURE算法以及基于密度的DBSCAN算法.首先我们给出几个基本概念. 定义1度量空间一个度量空间是指一个数据对象集x和这个数据对象集合上的一 个距离函数D构成的二元组(x,D),其中距离函数D是二元函数并满足以下条件: i)tP负性有0<D(X,Y)<。。,XveY,D(X,x)=0. 1_)对称性D(X,Y)--D(Y,x),对于任意的x,Y属于x都成立. iii)三角不等式D(X,Y)≤D(x,z)土D(z,Y)对于任意的x,Y,z属于x都成立.距离 函数一般由应用领域确定. 定义2相似性函数设(x,D)是一度量空间,S是该度量空间中有限的数据对象集合, 设常数C>O,两个单点相似性函数定义为Similarity(x,Y)=C/(c+D(x,Y)).它也称 为相似度.显然它满足非负性Similarity(X,Y)/>0和对称性Similarity(x,Y)一SimllaⅢi v (Y.X)[ 对于N维样本空间s中的任意两个数据x、Y,它们的欧氏距离为: D(X,Y) Cr“ 一 “ )。+Cr ) +-.-...__( 而= 丽 (1) 另一种常用的距离是曼哈顿距离,定义为: D(X,Y)=l( 一 ㈩) l1'l( ㈣ ) l+……+l( 一 ) (2) Minkowski距离将两种距离统一到一种形式中 维普资讯 http://www.cqvip.com
岛华寄:聚娄许析中相似性测量方法的研究 D(X.Y)=(1( ” …) l一( 一Y ) l+……+( 一Y ) 1)“ 由(3)可知,Minkowski距离在Q-2时为欧氏距离,Q-1时为曼哈顿距离. (3) 有时为了突出一些数据的关键属性对聚类分析的重要作用,常采用加权形式的欧氏距离: D(X,Y)一 ̄/ 1(z“ 一y“ )。十毗(z 一 ) 十斗 实例一 ) (4) 以避免某些属性的值过大而屏蔽其它取值较小的属性对数据相似性测量的影响. 假如要对一个零售商的消费者信息库进行聚类分析,以方便该零售商调整针对 不同收入消费者的消费策略,每个顾客用其年龄和月收入表示,即Customer(age,income), 这些变量使用不同的单位.考虑到个人的月收入比他或她的年龄要大很多,因此若直接用欧 氏距离度量两个消费者之间的相似性为: D(C】,C2)= (age L age2) +( 。 l一 ∞m 2) .经过平方后,(incomeI—in— come ) >>(age --age ) ,因此,就得不到不同年龄段的消费者的聚类情况.为此,通常采 取一种较为简单直接的办法:对年龄加权,即 D(Cl, )= ̄/A(。g 一age ) +(income 一inco ̄ze2)。.这样,不同的A值将会导致不 同的聚类结果. 定义3聚类问题给定数据集合s一{z ,z …“,z ),z.称为数据对象.求出一个分 类,s对应根节点,每个子节点s 对应所有它的分支所包含的数据对象,对于树的同一层的 所有节点S 需满足最优解条件Max{Similarity(S.)一 )Similarity(非空集合S )一Max {∑Similarlty(X ,X + )I完整的巡回s 的所有可能路径) . 2.2符号属性的相似性测量方法 针对欧氏距离不同直接应用于符号属性,Ralambondramy提出一种将符号属性转换成 二进制属性的方法,用0或1表示一个符号存在或不存在,并在算法中把这些二进制属性当 成数值来处理,这种方法需要一个转换过程来处理符号属性,如果符号很多的话,转换后的 空间会很大. K—mode算法中的公式被进一步一般化后,就形成了描述符号属性的悔明距离公式: 其中x,Y为具有几个符号属性的实侧对象,z。, 是对应的属性: D(X,Y)一∑8(x,,y.) )(5) 』【 五 1( ≠ .) (6) 针对符号属性的一些特殊问题(畸变和裂变效应)Studipto、Gduha等学者在Jaccard 置信度基础上提出了一种从全局考虑符号属性闯相似性的测量方法:对象联接度,其定义如 下几个部分组成: (1)对象的邻点:一个实例对象Q是另一个实例对象P的邻点,当且仅当: SIM(P,Q)>/0 (7) 其中0是一个用户自定义阀值,可由用户调节,sIM(P,Q)与特殊问题领域有关,可由领域 专家指出,无论SIM为何种形式,它满足以下性质: 45 维普资讯 http://www.cqvip.com
株洲师范高等专科学校学报 2002年第2期(总第25期) 1)当P—Q时,SIM(P,Q)一1 2)当P^Q一由时,SIM(P,Q)=0 (2)对象的联接度:两个对象之问公共邻点的个数为联接度LINK(P.Q).由于联接度 考虑了聚类中其他点而不仅仅局限于两个数据之间局部相似性,因此聚类之间有强的联接 性,避免了两个完全不相干的对象被其他对象连接到同一聚类的现象.但是,它的SIM函数 对不同领域有所不同.因此算法是面向特定问题的,通用性不强,另外,它也只能分析符号属 性,并且LINK(P,Q)的计算复杂,算法的复杂度为O(N。蛳N)[‘ . 2.3混合属性的相似性测量 对于混合属性的聚类有一种欧氏距离和海明距离组合在一起的K—prototype算法,它 其实将K--means与K--mode算法结合起来提出下列相似性公式: Ⅱ N D(X,Y)一∑d(x , )+∑a(x , ) (8) I一1 r=1 式中实例对象X,Y其属性为A1 ,A ,……AP ,A… ,AP+2 ,……AN ,其中Al ,A2 , ……A 为数值属性,A + ,A + ,……A 为符号属性.显然这是一种折中的算法. 3结论 本文讨论了数据挖掘的重要问题之一数据即聚类问题.在对现有聚类算法中的关键概 念——相似性测量作了深入的讨论和分析.对象间的距离或相似度是聚类的核心,我们常常 按照对象之间的相似性进行划分,划分的结果使某种表示聚类质量的评价函数最优 相似性 的度量方法很多,有的用于专门领域,也有的适用于特定类型的数据,选择相似性的一个重 要因素是属性的类型.如何选择相似性的度量方法是一个相当复杂的问题,需要进行深入的 研究. 参考文献: [1]Han Jiawei.Kamber M.Data Mining:Concepts and Techniques.Simon Fraser Univ.2000. [2]Ho Tu o,et a1.Study of a Mixed Similarity Measufe for Classification and Clustering.In:Methodol— ogies for Knowledge Discovery and Data Ming,PAKKDD--99,1999. [3]Li C,Biswas G.Unsupervised Clustering with Mixed Numeric and Nominal Data—A New Similaritv Base Agglomerative System.In KDD:Techniques and Application,World Scientific.1997. [4]Sndipto Guhe.et a1.Clustering Algorithm for Categorical Attributes[Technical report].Ball Laborato— riest Murray Hil1.1997. [5 AIS ̄Mi K.et a1.An Efifcient Space--Partiironing aBsde Algorithm ofr the K—Means Clustering.In: Methodologies for Knowldege Discovery and Data Ming,PAKDD--99,1999. (责任编辑:曾广慈英文译校:文爱军) 46
因篇幅问题不能全部显示,请点此查看更多更全内容