您的当前位置:首页正文

大数据技术应用与研究的新视角

2022-11-28 来源:意榕旅游网
电脑编程技巧与维护 大数据技术应用与研究的新视角 孟琳 (中国电信股份有限公司沈阳分公司,沈阳l10168) 摘要:伴随着人类进入大数据时代,大数据在彰显出巨大应用价值的同时,也凸显出数据可用的科技问题。如何 解决数据可用带来的挑战,成为各国政府和学界高度关注的问题。目前,针对大数据的可用性研究刚刚起步,对大 数据可用性进行了探讨,并就数据可用性的研究前景进行了展望。 关键词:大数据;数据;数据可用性 New Perspective of Big Data Technique Application and Research MENG Lin (China Telecom Co Shenyang branch,Shenyang 1 10168,China) Abstract:along with the human entered the age of big data,large data reveal a tremendous application value at the same time,also highlights the technology problems of data available.How to solve the data can be challenging,as governments and academia concern.At present,the availability of large data has just started,the paper discusses the hi gh availability of data,and the research prospects of data availability is discussed, Key words:large data;data;data availability 1发展现状 伴随着信息技术发展,数据挖掘技术突飞猛进.互联网 在全球普及,SNS社交网络在全球撒网,人类社会迎来了数据 服务到家;终端在手,云服务随身”,让网络无所不能,让云 服务无处不在 让世界触手可及 在大数据的时代背景下,政府成为信息资源的把关人和 富有者,怎样搭乘“大数据”技术的高速列车,使这个“数 爆炸,迈人了大数据时代。在生产生活的各个领域,大数据 一展身手,完成了从TB到PB,直至EB的飞跃发展。大数据 生产力”大数据时代版本。比如,在商业领域,美国的梅 据金矿”更好地服务于国家发展和社会管理,已成为世界各 国政府高度重视,纷纷着手并从国家顶层设计的战略层面. 开展对大数据战略规划和跟进研究。美国可谓先发制人,奥 巴马政府2012年3月正式提出.要“通过收集、处理庞大而 的应用价值也日渐浸入到各个行业和领域,成为“科技是第 一西百货公司,利用大数据技术研发的SAS系统,对7000多万 商品货品供求与库存进行深度分析。对商品价格实施实时定 价和实时调价。著名社交网站FaceBook,对高达12亿的活跃 用户进行兴趣分析,Youtube利用1O亿个独立用户开展娱乐 分析,Twitter利用2.32亿活跃用户开展的新闻传播分析。 正如一句前瞻性预言所指出的那样: “21世纪的竞争的 战略都隐藏在各个公司的服务器里,关键在于能不能找到 复杂的数据信息,从中获得知识和洞见。提升能力,加快科 学、工程领域的创新步伐,强化美国国家安全,转变教育和 学习模式” ,宣布实施“大数据研究与开发计划”,开启了大 数据技术的“国家模式”。日本政府则重视强基固本.于2013 年l2月开始制定大数据的使用标准和规范。特别强调企业对 用户的数据隐私保护说明要简单化、通俗化,为了更好地收 它”…。当前数量庞大的网络服务器与大数据,已超越了海陆 空以及星际空间组成的传统物理空间。国家战略布局和综合 竞争力从传统的经济文化和军事比拼,上升到信息大棋局的 集数据,大数据收集标准的话语体系,应当贴近“平民化”。 我国作为幅员辽阔、人口庞大,城市化和新型工业化并举的 全球最大发展中国家,大数据建设被纳入到我国信息建设的 信息技术能力竞争层面。可以说是谁掌握了服务器和大数据, 谁就掌握了未来的全球国际竞争的领跑优势。 2012年3月,中国电信云计算公司成立,该公司是国内 最大的云计算服务提供商,集约化统领中国电信全网包括 IDC、CDN等在内的广义云业务。也是中国电信“去电信化” 改革的大胆尝试,该公司定位于互联网企业,开创了中国电 长期规划。《国家中长期科技发展规划纲要f2006--2020) ̄ 明确提出: “信息领域要重点研究开发……海量存储和安全 存储等关键技术” 。《国民经济和社会发展第十二个五年规 划纲要》提出: “重点研究……海量信息处理及知识挖掘的 理论与方法……”[41。这对我国开展大数据建设。提出了富有 指导性的方针。 信集约化运营的新局面。中国电信云计算公司将服务政府、 2大数据数据的应用困境 科学技术是一把“双刃剑”。在人类为大数据的现实与潜 收稿日期:2014—03—24 企业和公众,全面提升社会信息化水平。在不远的将来,云 公司将计算、存储和网络资源变成水、电一样的社会公共资 源,即插即用,融入日常生产与生活,实现“宽带人户,云 写 STUDY 0F C0MPUTER APPLICATION IN EDUCAT10N 在价值振臂高呼之时,大数据的负面影响也随之凸显,比如 计算机应用教学研究 (4)数据能否保证时效。这要求数据挖掘和更新过程不 问断,保持数据“分分出炉、秒秒新鲜”。举例:随着城市化 数据隐私、网络伦理、黑客入侵等等。在这些被国家、社会 和学界高度关注的负面问题当中,劣质数据带来的一系列负 面问题仍未得到应有的关注和解决。 在大数据的背景下,劣质数据因其低劣的质量,使得数 进程的加速,数据库中某人上一年的居住地数据正确无误, 但是随着工作地变更,其居住地数据在下一年将未必仍然正 确,这意味着数据失效。以银行信用卡不良用户的催收为例。 据的可用性大打折扣。数据可用性虽然只是冰山一角、但目 前的实践效应看,忽视大数据的可用性研究和管理,将造成 居住地址变更将使得银行上门催收、电话催收以及法院强制 执行一定面临着“人去楼空”的风险 (5)数据能否实现统一与共享。这意味着数据要在政府、 社会问题的连锁反应,造成严重的经济损失,引发人与科技 的关系异化。例如,在2003年伊拉克战争时期,一些军事记 者对美国第一个“数字化师”的表现喜忧参半,指出“过多 社会、企业乃至高校等部门的源数据中,达到数据采集的标 准统一、描述标签统一。举例:在传统助学贷款的管理中, 但无法辨析真伪和价值的信息”和过少的信息一样,特别是 针对即刻决断而言,一旦判断失误,同样意味着危险乃至灭 顶之灾。新南威尔士大学学者克劳福德举例,人际交往研究 中学者们往往采用Facebook软件对人们社会关系图谱进行分 析,但是,形成严重反差的是,现实中亲密的父母子女关系、 情侣关系和好友关系,却在Facebook软件中被错误歪曲.严 重背离了现实和事实。克劳福德还坦言, “伴随大数据而来 的是大责任”,大数据绝非是你所需要的全部,相反,数字是 无法申明自身。 可见,大数据时代,数据的可用性问题理应成为国家、 社会、企业乃至个人高度关注的问题。特别是对于中国这样 一个超大型国家而言,数据是否可用,涉及到后续的大数据 软硬件建设与基础性建设.关系到合理利用和有效驾驭大数 据,为中国改革发展凝聚信息正能量的问题。鉴于此.对数 据可用问题的研究。兼具基础性与先导性的战略价值。 3数据是否可用的界定 要界定数据是否可用,可以从以下5个维度来界定: (1)数据能否保持一致。这要求数据中的各部分信息, 符合语义逻辑、应用逻辑,排除孝H互矛盾。举例:购物过程 中,如果银行后台数据系统中发现,某位顾客持有银行信用 卡,同时或在不合理时间内跨地区消费,这种数据反馈的银 行信用卡使用在地点上的逻辑不一致,就表明发生了信用卡 盗用的案件。 (2)数据能否达到精确。这要求数据中的数据存在与现 实实体形成真实准确的数据映射表达式。举例:某地人口数 量为21 13602,而该地区的数据库则显示为200万。从大数据 应用的角度层面而言,该数据的合理性仅仅存在在宏观层面, 从应用精确性来看,是远远不符合要求的。可以说,在人口 普查等领域,数据能否达到精确,直接关系到应用的可行性 和应用效果。 (3)数据能否延续完整。这要求数据在历时性和共时性 的两个层面,保持数据的完整而不缺失,能够满足充分数 量.以便调用.用来查询、分析和计算。举例,某高校的毕 业生数据库中.存在着某学生的学籍等相关信息,但是遗失 了该生在读期间因考试违纪的处分信息,因为这位学生奖惩 信息的不完整,从而可能造成这 学生在毕业当年获得了学 士学位,而事实上这名学生因考试违纪,本来无法获得学士 学位。 原来是贷款银行、高校和贷款学生个人“三分天下”.学生个 人信息的准确性、完整性和时效性,在银行、高校与学生个 人之间分布不对称、维护不对等、共享不及时,造成信用管 理缺失和贷款偿还问题。 4大数据可用性研究路径 可以说,在海量的数据爆炸效应面前,保证数据实现可 用绝非易事。现有学界和企业界的研究表明,大数据可用这 一难题,需要从如下方面展开: (1)大数据挖掘的相关研究 大数据的可用,一个重要的大前提是必须有足够的信息 来源。这意味技术层面必须解决大数据诞生之初的海量庞杂, 实现从数据形式到数据来源的有效过滤和把关.研发大数据 整合算法,抵制劣质数据,实现数据挖掘和有效整合,实现 大数据技术的科学化、理论化和规律化。 (2)大数据可用的有关体系构建 如果说数据挖掘技术解决的是大数据何以可用的问题, 那么,基于大数据的可用何以能用?这意味大数据可用的后 续研究与应用能否展开,这意味着要构建大数据可用的量化 指标体系和判断标准体系。在技术瓶颈和劣质数据面前。如 何将大数据技术与人工监控结合起来.开展数据错误的预警 和修复?如果没有立体化的理论体系支撑,无法回答大数据 可用研究的模型、算法、计算、机理、机制乃至文化各层面 的一系列问题。 (3)弱可用数据的相关研究 大数据可用的理想环境是利用优质数据,过滤剔除劣质 数据。但是,在实际应用中,在优质数据与劣质数据中,存 在着另外一种数据,学者将其称之为“弱可用数据” 。何为 弱可用数据?其是指“是当数据中的错误不能彻底修复时. 这些数据称为弱可用数据”。匍弱可用数据的应用价值判断,学 者指出,可以“直接在弱可用数据上进行满足给定精度需求 的近似计算”。 这实际上衍生出弱可用数据的研判及近似计算 等相关问题。 

因篇幅问题不能全部显示,请点此查看更多更全内容