也谈数据挖掘
2020-04-04
来源:意榕旅游网
维普资讯 http://www.cqvip.com 2006年l2月 石家庄职业技术学院学报 Dec.2006 第18卷第6期 Journal of Shijiazhuang Vocational Technology Institute VoI.18 NO.6 文章编号:1009.4873(2006)06.0043.02 也谈数据挖掘 陈步英 (邢台职业技术学院电子工程系,河北邢台054000) 摘要:论述了数据挖掘的现状、存在的问题:业务理解错误、数据理解错误、模型构建错误,数据挖掘的未来 发展趋势:较强可视化和交互性、集成性、能支持移动环境等内客. 关键词:数据挖掘;人工神经网络;遗传算法 中图分类号:TPI83 文献标识码:A 1数据挖掘的现状 功能.其最大的优点是能精确地对复杂问题进行预 世界上对数据挖掘的正式研究开始于1989年 测;缺点是难以理解,易于受训练过度的影响,构造 8月,标志是第一届KDD国际学术会议的举行,数 神经网络要对其训练很多遍,需要花费很多时间. 据库中的知识发现KDD(Knowledge Discovery in (2)聚类 Database)在这次会议上被提出.现在,数据挖掘的 聚类的任务是将相似的事物分成一类,差异较 研究重点逐渐从发现方法转向了系统应用。以及多 大的事物分在不同的类中。这样做的目的是使同一 学科之间的相互渗透,国内的许多研究单位和高等 类别之内的相似性尽可能大,而类别之间的相似性 院校都开展了数据挖掘的基础理论及其应用研究, 尽可能小.知识外化过程的下一层次包含了更为强 并取得了丰硕的研究成果.… 大的搜索工具和文件管理系统,他们对储存的知识 但目前研究者们在数据挖掘的定义上还没有达 进行分类,并能识别出各信息源间的相似之处.基于 成一致,笔者参考有关数据挖掘论文、书籍,给出数 此,可用聚类的方法找出知识库中各知识结构问隐 据挖掘的定义:数据挖掘是通过运用计算机的方法, 含的关系或联系. 包括新技术,从海量的、不完全的数据集中获取隐含 (3)遗传算法 在其中的有用知识的高级过程.数据挖掘所得到的 遗传算法是一种模拟生物进化过程的算法,它 信息应具有先前未知、有效和使用等特征,数据挖掘 基于进化理论,并采用遗传结合、遗传变异、自然选 是要发现那些不能靠直觉发现的信息和知识,甚至 择等设计方法.它由三个基本算子组成:繁殖(选择) 是违背直觉的信息和知识,挖掘出的信息越是出乎 是从一个旧种群(父代)选出生命力强的个体,产生 意料,就可能越有价值.【2] 新种群(后代)的过程;交叉(重组)是选择两个不同 数据挖掘的核心技术是人工智能、机器学习和 个体(染色体)的部分(基因)进行交换,形成新个体; 数学统计等,但它并非多种技术的简单综合,而是不 变异(突变)是对某些个体的某些基因进行变异(1 可分割的整体,还需要其他技术的支持,才能挖掘出 变0或0变1).在数据挖掘中,它还可用于评估其 令人满意的结果.具体来说,数据挖掘方法可分为以 他算法的适合度. 下几类:[。】 2数据挖掘中存在的问题 (1)人工神经网络 数据挖掘虽然可以从大量的数据中发现有价值 人工神经网络从结构上模仿生物神经网络,是 的数据,但是它有时候也会出现一些错误,这些错误 一种通过训练来学习的非线性预测模型,它将每一 可能导致严重的后果. 个连接看成一个处理单元,试图模拟人脑神经元的 (1)业务理解错误 收稿日期:2006一O9—12 作者简介:陈步英(1974一),女,河北定兴人,邢台职业技术学院讲师.工学硕士 维普资讯 http://www.cqvip.com 44 石家庄职业技术学院学报 第18卷 使用数据挖掘技术解决商业中的问题,首先要 3数据挖掘的未来发展 确定所要解决的商业问题是什么,能否定义合理的、 可行的商业问题影响着数据挖掘项目的成败.商业 问题的定义不能太宽泛,否则会使问题解决者无从 随着研究的不断深入,预计会出现更大的高潮, 研究的焦点主要会集中在以下几个方面: (1)增强可视化和交互性 一下手。如果面面俱到,只会事倍功半.有时候虽然利 用数据挖掘得到结论,但却无法采取行动,就是因为 商业问题的定义不合理造成的. (2)数据理解错误 个具有良好的可视化和交互功能的数据挖掘 系统可以使用户直观地看到和理解数据挖掘任务的 定义和执行过程,减少用户挖掘知识的盲目性和挖 掘过程中大量无关模式的产生,提高系统的挖掘效 率及用户对挖掘结果的满意度和可信度. (2)数据挖掘、数据仓库及Web数据库系统的 集成 数据库系统、数据仓库系统和www已经成为 信息处理系统的主流,数据挖掘系统的理想体系结 构是和数据库系统及数据仓库系统以紧密方式偶 合,把事物处理、查询处理、联机分析挖掘都集成在 一企业所存储的丰富数据是数据挖掘得以进行的 基础,所以数据的准确性、充足性是数据挖掘成功的 保证.造成数据不准确的原因。一是由于企业在收集 数据或存储数据的过程中导致的;二是由于数据挖 掘技术人员在数据的抽取和预处理过程中产生的; 此外,数据缺失值的填补,数据偏度、峰度值的校正, 数据的标准化,数据的离散化,数据季节性影响的消 除,数据维度缩减等数据处理技术的使用也有可能 产生较严重的错误,而影响数据挖掘的最终结果. (3)模型构建错误 个统一的系统中,这将保证数据的可用性、数据挖 (3)支持移动环境 目前数据挖掘和移动计算机的结合是一个新的 掘的可移植性、可伸缩性和高效性. 由于数据挖掘属于跨学科技术,所以其模型多 种多样,各具特色,适用于各类应用.虽然在应用中 可选择的模型范围较大,但也容易产生应用错误,因 为各模型的原理不同,应用环境也不尽相同.同时, 研究领域,因此,能够挖掘移动系统、嵌人式系统和 普遍存在的计算机设备所产生数据的数据挖掘系统 是未来的一个新的发展趋势. 模型的过度拟合也是数据挖掘经常出现的错误. 参考文献: [1】员巧云,程刚.近年来我国数据挖掘研究综述[J】.情报学报, 2005,24(2):250-256. [2]张士玲,杨林楠,孙向前,等.浅论数据挖掘技术[J].福建电 脑,2005,(8):61.62. [3]韩少锋,陈立潮.数据挖掘技术及应用综述[J].机械管理开 发,2006,(2):23.24. 责任编辑:金A discussion of the data mining CHEN Bu-ying (Electronic Engineering Department,Xingtai Vocational and Technical Co ̄ege,Xigtai。Hebein 054000。China) 欣 Abstract:The paper mainly discusses the status—quo and problems of the data mining.The business and data interpretation errors,modular reconstructing failures are explored in addition to the its tendencies,visibility,in. teractivity,integrity,and floating circumstances+ Key words:data mining;neural network;genetic algorithm