机器学习在数据挖掘中的作用
2021-08-01
来源:意榕旅游网
2O10年6月 电 脑 学 习 第3期 机器学习在数据挖掘中的作用 周昕 王小玉 摘 要:本文介绍了机器学习与数据挖掘方法的基本特点。包括概念、发展、应用和分类概况.提供了一个了解机器学习与数据 挖掘的应用视角。 关键词:机器学习 数据挖掘 人工智能 中图分类号:TP181 文献标识码: A 文章编号:1002-2422(2010)03-0093-02 Machine Learning and Data Mining Zhou Xin Wang Xiaoyu Abstract: The paper describes the basic characteristics of machine learning and data mining,which includes the concepts,de- velopment,application and classiifcation.It also provides an application perspective for understanding the concepts of machine learning and data mining. Keyword: Machine Learning Data Mining Aritiifcal Intelligenee 1机器学习概述及方法分类 大数据集的能力强,适合分类和预测型的任务,结果易于解 1.I机器学习的概念、应用及发展概况 释,技术上易于实施。 机器学习【I1是一种使获取知识自动化的计算方法的学 (2)神经网络:由类似人脑神经元的处理单元组成,输 习。机器学习在人工智能的研究中具有十分重要的地位。其 入节点通过隐藏节点与输出节点相连接从而组成一个多层 应用已遍及人工智能的各个分支,如专家系统、自动推理、 网络结构。节点的输入信号等于所有通过其输入链接到达 自然语言理解、模式识别、计算机视觉、智能机器人等领域。 此节点的信号的加权和。神经网络由相互连接的输入层、中 对机器学习的研究大致经过以下四个阶段脚: 间层、输出层组成。中间层由多个节点组成,完成大部分网 (1)20世纪5O年代的神经模拟和决策理论技术,学习 络工作。输出层输出数据分析的执行结果。 系统在运行时还很少具有结构或知识。主要方法是建造神 神经网络的最大优点是能精确地对复杂问题进行预 经网络和自组织学习系统,学习表现为阈值逻辑单元传送 测。其缺点是处理大数据集时效率较低,用户在使用这种方 信号的反馈调整。 法的时候需要具备相当的建立和运行该系统的工具知识。 (2)20世纪60年代早期开始研究面向概念的学习,即 (3)事例推理:每个事例都由问题描述和问题的解决 符号学习。使用的工具是语义网络或谓词逻辑,不再是数值 方法两部分构成。提出问题后,系统会寻找匹配事例和解决 或者统计方法。在概念获取中,学习系统通过分析相关概念 方法。其优点是能够较好地处理污染数据和缺失数据,非常 的大量正例和反例来构造概念的符号表示捌。 适用于有大量事例的领域。 (3)20世纪70年代中期,研究活动日趋兴旺。1980年 (4)遗传算法:是一种基于生物进化过程的组合优化 在卡内基・梅隆大学召开的第一届机器学习专题研讨会,标 方法。其基本思想是适者生存,基本操作包括繁殖、杂交和 志着机器学习正式成为人工智能的一个独立研究领域。 变异三个过程。繁殖过程是从一个整体中选择基于某种特 (4)20世纪8O年代中后期至今,机器学习研究进入 定标准的信息并对要求解的问题编码,产生初始群体,计算 一个新阶段,已趋向成熟。神经网络的复苏,带动着各种非符 个体的适应度。杂交过程是把一个信息的某一部分与另一 号学习方法与符号学习并驾齐驱,并且已超越人工智能研究 个信息的相关的部分进行交换。变异过程随机改变信息的 范围,进入到自动化及模式识别等领域,各种学习方法开始 某一部分以得到一个新的个体。重复这个操作。直到求得 继承,多策略学习已经使学习系统愈具应用价值,而运用机 最佳或较佳的个体。遗传算法的优点是能够较好地处理污 器学习的数据挖掘在商业领域中的应用则是最好的例子。 染数据和缺失数据,易于和其它系统集成。 1.2机器学习方法的分类 (5)归纳性逻辑程序:用一级属性逻辑来定义、描述概 Bose和Mahapatra归纳了数据挖掘中使用的机器学习 念。首先定义正面和负面的例子,然后对新例子进行等级 技术主要有以下五种f4】: 划分。这一方法具有较强的概念描述机制,能较好地表达复 (1)规则归纳:规则归纳从训练集中产生一棵决策树 杂关系,体现专业领域知识,因而用该方法得出的模型易于 或一组决策规则来进行分类。决策树可以转化成一组规则, 理解。 分类规则通常用析取范式表示。规则归纳主要优点是处理 2数据挖掘中机器学习技术的特性【3】 收稿日期:2010—04—08 周听哈尔滨理工大学计算机科学与技术学院讲师(黑龙江,哈尔滨150080)。 ・ 93 ・ 商业数据库往往含有噪音,体现在存在错误和不一致 性。如果数据验证过程不够充分,则可能允许用户输入不正 确的数据,而数据迁移也可能产生破坏。 联系规律的关联分析当中,最常见的就是市场菜篮子分析。 (4)侦察:侦察的目的在于寻找异常的现象、离群数 据、异常模式等等,并且给出支持决策的解释。 商业数据库的另一个常见问题是数据的缺失,尤其是 当数据来自于不同的数据源时。由于数据编码标准和聚集 策略的不同,有可能将导致无法对所有的属性进行分析。 另外,在商业数据挖掘中,数据集的大小从几吉到几兆 不等,并往往还有大量的属性,所以可测量性是数据挖掘技 术的一个重要方面。商业数据库含有多种属性类型,如果机 器学习技术能够处理不同的数据类型,则将对数据挖掘产 生更大的作用。 数据挖掘技术的预测精度是评价挖掘效果的一个非常 重要的因素。遵循监督学习过程的机器学习系统首先被训 机器学习方法及其所对应解决的数据挖掘中的任务类 型总结如表l所示。 表1机器学习方法及其在数据挖掘任务类型的应用情况 规则归纳 事例推理 神经网络 遗传算法 分类 预测 关联 侦查 常见 常见 常见 常见 常见 常见 少见 少见 少见 常见 少见 常见 常见 常见 常见 少见 4结束语 目前机器学习技术的应用较多是金融、市场营销、电信 领域和网络分析。在金融领域,机器学习技术较广泛地应用 于预测型任务;在市场营销领域,机器学习技术较广泛地应 用于关联型任务;在电信领域,机器学习技术在分类型、预 测型和侦查型任务方面均有较多应用;在网络分析领域,机 器学习技术应用较为广泛的是关联型任务。 练,但是系统对真实数据的预测精度往往低于对训练数据 的预测精度。所以,能对真实数据得到较高的预测精度显然 是一个所需的特性。 结果的可解释性是另一个重要的所需特性。在商业数 据挖掘应用中往往需要使用不同的DSS或DBMS,所以与 其他信息系统的易整合性也是一个需要的特性。不同的机 器学习技术需要终端用户具有一定程度的工具知识和领域 知识,一些技术还需要对数据进行大量的预处理工作,因此 对于终端用户来说,易于理解和需要较少预处理工作的机 器学习技术是比较好的 1。 参考文献 【1【1】美】RySz ̄S.Michalski,Ivan Bratko.机器学习与数据挖掘方 法和应用【M】.朱明,等译.北京:电子工业出版社,2004:I-4. [2黄林军,2]张勇.机器学习技术在数据挖掘中的商业应用【J】.中 山:中山大学学报论丛,2005,25(6):145—148. 3机器学习方法与数据挖掘任务类型 Bose和Mahapatrd ̄t把运用于数据挖掘的机器学习方法 在商业应用时的任务类型可以归结为如下: (1)分类:利用一个训练集来确定最大可区分属性,当 [3梁晓音.机器学习在数据挖掘中的应用叨.南宁:广西质量监督 3】导报,2008(11):38-42. [4】【美】R・格罗思.数据挖掘一构筑企业竞争优势【M】.侯迪,宋擒 豹,译.西安:西安交通大学出版社,2001. 【5】田文英.机器学习与数据挖掘叨.石家庄:石家庄职业技术学院 学报,2004,16(6). [6】Indranil Bose,Radha K.Mahapatm.Business data mining and ma chine learning perspective叨.Information&Management,2001, 39(3):24-26 分类确定好之后,新的实例可以通过分析进行合适的分类。 (2)预测:根据已观测到的数据来找出可能的将来值 和威属性的分布。主要的任务之一是确定对要预测的属性 影响最大的属性。 (3)关联:在寻找实体之间或者实体属性之间的潜在 (上接第89页) 似的效果,因为不能创建属于那个类的一个对象。一个抽象 类可包含抽象方法,并不要求在其里面包含什么东西,但其 也能包含用于具体实现的代码。因此,其被限制成一个单一 尽管Java以C++为基础,但Java是一种更纯粹的面向 对象程序设计语言,面向对象编程(OOP)具有多方面的吸 引力。Java语言不仅可以用来开发大型的应用程序,而且特 别适合于Interact的应用开发。 的继承。通过与接口联合使用,这一方案避免了对类似于 C++虚拟基础类那样的一些机制的需要。为创建一个实例 的一个interface(接口),需使implements关键字。其语法类 似于继承的语法,如下: public interface Face{ public void Output();l 参考文献 【1】【美】John Zukowsi.Java2从Af-J到精通【M】.北京:电子工业 出版社,2000. 【2】[美】David Flanagan.Java in a NutshelhA Desktop Quick R- eferenee[M].美国:O Reilly&Assoc,1997. 【3】【美】Patirck Chan和Rosanna Lee.The Java Class Libraries: An Annotated Reference[M].美I ̄:Addison-Wesley,1997. public class C extends B implements Facef public void Output(){ System.out.println( aII obiect”);l J 【4】【美】Grady Booch,James Rumbaugh,lvar Jacobson.GUML用 户指南[MI.北京:机械工业出版社,2001. 4结束语 ・94・