也谈数据挖掘

2020-04-04 来源：意榕旅游网

维普资讯 http://www.cqvip.com ２００６年ｌ２月　石家庄职业技术学院学报　Ｄｅｃ．２００６　第１８卷第６期　Ｊｏｕｒｎａｌ　ｏｆ　Ｓｈｉｊｉａｚｈｕａｎｇ　Ｖｏｃａｔｉｏｎａｌ　Ｔｅｃｈｎｏｌｏｇｙ　Ｉｎｓｔｉｔｕｔｅ　ＶｏＩ．１８　ＮＯ．６　文章编号：１００９．４８７３（２００６）０６．００４３．０２　也谈数据挖掘　陈步英　（邢台职业技术学院电子工程系，河北邢台０５４０００）　摘要：论述了数据挖掘的现状、存在的问题：业务理解错误、数据理解错误、模型构建错误，数据挖掘的未来　发展趋势：较强可视化和交互性、集成性、能支持移动环境等内客．　关键词：数据挖掘；人工神经网络；遗传算法　中图分类号：ＴＰＩ８３　文献标识码：Ａ　１数据挖掘的现状　功能．其最大的优点是能精确地对复杂问题进行预　世界上对数据挖掘的正式研究开始于１９８９年　测；缺点是难以理解，易于受训练过度的影响，构造　８月，标志是第一届ＫＤＤ国际学术会议的举行，数　神经网络要对其训练很多遍，需要花费很多时间．　据库中的知识发现ＫＤＤ（Ｋｎｏｗｌｅｄｇｅ　Ｄｉｓｃｏｖｅｒｙ　ｉｎ　（２）聚类　Ｄａｔａｂａｓｅ）在这次会议上被提出．现在，数据挖掘的　聚类的任务是将相似的事物分成一类，差异较　研究重点逐渐从发现方法转向了系统应用。以及多　大的事物分在不同的类中。这样做的目的是使同一　学科之间的相互渗透，国内的许多研究单位和高等　类别之内的相似性尽可能大，而类别之间的相似性　院校都开展了数据挖掘的基础理论及其应用研究，　尽可能小．知识外化过程的下一层次包含了更为强　并取得了丰硕的研究成果．…　大的搜索工具和文件管理系统，他们对储存的知识　但目前研究者们在数据挖掘的定义上还没有达　进行分类，并能识别出各信息源间的相似之处．基于　成一致，笔者参考有关数据挖掘论文、书籍，给出数　此，可用聚类的方法找出知识库中各知识结构问隐　据挖掘的定义：数据挖掘是通过运用计算机的方法，　含的关系或联系．　包括新技术，从海量的、不完全的数据集中获取隐含　（３）遗传算法　在其中的有用知识的高级过程．数据挖掘所得到的　遗传算法是一种模拟生物进化过程的算法，它　信息应具有先前未知、有效和使用等特征，数据挖掘　基于进化理论，并采用遗传结合、遗传变异、自然选　是要发现那些不能靠直觉发现的信息和知识，甚至　择等设计方法．它由三个基本算子组成：繁殖（选择）　是违背直觉的信息和知识，挖掘出的信息越是出乎　是从一个旧种群（父代）选出生命力强的个体，产生　意料，就可能越有价值．【２］　新种群（后代）的过程；交叉（重组）是选择两个不同　数据挖掘的核心技术是人工智能、机器学习和　个体（染色体）的部分（基因）进行交换，形成新个体；　数学统计等，但它并非多种技术的简单综合，而是不　变异（突变）是对某些个体的某些基因进行变异（１　可分割的整体，还需要其他技术的支持，才能挖掘出　变０或０变１）．在数据挖掘中，它还可用于评估其　令人满意的结果．具体来说，数据挖掘方法可分为以　他算法的适合度．　下几类：［。】　２数据挖掘中存在的问题　（１）人工神经网络　数据挖掘虽然可以从大量的数据中发现有价值　人工神经网络从结构上模仿生物神经网络，是　的数据，但是它有时候也会出现一些错误，这些错误　一种通过训练来学习的非线性预测模型，它将每一　可能导致严重的后果．　个连接看成一个处理单元，试图模拟人脑神经元的　（１）业务理解错误　收稿日期：２００６一Ｏ９—１２　作者简介：陈步英（１９７４一），女，河北定兴人，邢台职业技术学院讲师．工学硕士　维普资讯 http://www.cqvip.com ４４　石家庄职业技术学院学报　第１８卷　使用数据挖掘技术解决商业中的问题，首先要　３数据挖掘的未来发展　确定所要解决的商业问题是什么，能否定义合理的、　可行的商业问题影响着数据挖掘项目的成败．商业　问题的定义不能太宽泛，否则会使问题解决者无从　随着研究的不断深入，预计会出现更大的高潮，　研究的焦点主要会集中在以下几个方面：　（１）增强可视化和交互性　一下手。如果面面俱到，只会事倍功半．有时候虽然利　用数据挖掘得到结论，但却无法采取行动，就是因为　商业问题的定义不合理造成的．　（２）数据理解错误　个具有良好的可视化和交互功能的数据挖掘　系统可以使用户直观地看到和理解数据挖掘任务的　定义和执行过程，减少用户挖掘知识的盲目性和挖　掘过程中大量无关模式的产生，提高系统的挖掘效　率及用户对挖掘结果的满意度和可信度．　（２）数据挖掘、数据仓库及Ｗｅｂ数据库系统的　集成　数据库系统、数据仓库系统和ｗｗｗ已经成为　信息处理系统的主流，数据挖掘系统的理想体系结　构是和数据库系统及数据仓库系统以紧密方式偶　合，把事物处理、查询处理、联机分析挖掘都集成在　一企业所存储的丰富数据是数据挖掘得以进行的　基础，所以数据的准确性、充足性是数据挖掘成功的　保证．造成数据不准确的原因。一是由于企业在收集　数据或存储数据的过程中导致的；二是由于数据挖　掘技术人员在数据的抽取和预处理过程中产生的；　此外，数据缺失值的填补，数据偏度、峰度值的校正，　数据的标准化，数据的离散化，数据季节性影响的消　除，数据维度缩减等数据处理技术的使用也有可能　产生较严重的错误，而影响数据挖掘的最终结果．　（３）模型构建错误　个统一的系统中，这将保证数据的可用性、数据挖　（３）支持移动环境　目前数据挖掘和移动计算机的结合是一个新的　掘的可移植性、可伸缩性和高效性．　由于数据挖掘属于跨学科技术，所以其模型多　种多样，各具特色，适用于各类应用．虽然在应用中　可选择的模型范围较大，但也容易产生应用错误，因　为各模型的原理不同，应用环境也不尽相同．同时，　研究领域，因此，能够挖掘移动系统、嵌人式系统和　普遍存在的计算机设备所产生数据的数据挖掘系统　是未来的一个新的发展趋势．　模型的过度拟合也是数据挖掘经常出现的错误．　参考文献：　［１】员巧云，程刚．近年来我国数据挖掘研究综述［Ｊ】．情报学报，　２００５，２４（２）：２５０－２５６．　［２］张士玲，杨林楠，孙向前，等．浅论数据挖掘技术［Ｊ］．福建电　脑，２００５，（８）：６１．６２．　［３］韩少锋，陈立潮．数据挖掘技术及应用综述［Ｊ］．机械管理开　发，２００６，（２）：２３．２４．　责任编辑：金Ａ　ｄｉｓｃｕｓｓｉｏｎ　ｏｆ　ｔｈｅ　ｄａｔａ　ｍｉｎｉｎｇ　ＣＨＥＮ　Ｂｕ－ｙｉｎｇ　（Ｅｌｅｃｔｒｏｎｉｃ　Ｅｎｇｉｎｅｅｒｉｎｇ　Ｄｅｐａｒｔｍｅｎｔ，Ｘｉｎｇｔａｉ　Ｖｏｃａｔｉｏｎａｌ　ａｎｄ　Ｔｅｃｈｎｉｃａｌ　Ｃｏ￣ｅｇｅ，Ｘｉｇｔａｉ。Ｈｅｂｅｉｎ　０５４０００。Ｃｈｉｎａ）　欣　Ａｂｓｔｒａｃｔ：Ｔｈｅ　ｐａｐｅｒ　ｍａｉｎｌｙ　ｄｉｓｃｕｓｓｅｓ　ｔｈｅ　ｓｔａｔｕｓ—ｑｕｏ　ａｎｄ　ｐｒｏｂｌｅｍｓ　ｏｆ　ｔｈｅ　ｄａｔａ　ｍｉｎｉｎｇ．Ｔｈｅ　ｂｕｓｉｎｅｓｓ　ａｎｄ　ｄａｔａ　ｉｎｔｅｒｐｒｅｔａｔｉｏｎ　ｅｒｒｏｒｓ，ｍｏｄｕｌａｒ　ｒｅｃｏｎｓｔｒｕｃｔｉｎｇ　ｆａｉｌｕｒｅｓ　ａｒｅ　ｅｘｐｌｏｒｅｄ　ｉｎ　ａｄｄｉｔｉｏｎ　ｔｏ　ｔｈｅ　ｉｔｓ　ｔｅｎｄｅｎｃｉｅｓ，ｖｉｓｉｂｉｌｉｔｙ，ｉｎ．　ｔｅｒａｃｔｉｖｉｔｙ，ｉｎｔｅｇｒｉｔｙ，ａｎｄ　ｆｌｏａｔｉｎｇ　ｃｉｒｃｕｍｓｔａｎｃｅｓ＋　Ｋｅｙ　ｗｏｒｄｓ：ｄａｔａ　ｍｉｎｉｎｇ；ｎｅｕｒａｌ　ｎｅｔｗｏｒｋ；ｇｅｎｅｔｉｃ　ａｌｇｏｒｉｔｈｍ　

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文

全部栏目

也谈数据挖掘