基于大数据技术的数据共享平台方案研究
郭文婷
内蒙古乌兰察布市工商行政管理局,内蒙古 乌兰察布 012000
摘要:大数据时代,数据成为新的利益增长点和竞争力的新体现,数据共享是建设智慧城市、实现智能生活的必然趋势。本文结合大数据技术概述分析,提出了大数据技术的数据共享平台方案,此方案适用于电信运营商IT支撑系统数据整合,无论是为了降低数据存储成本,提高数据共享效率等等,都可参考本方案。 关键词:大数据技术;数据共享平台;方案 中图分类号:TP311.13 文献标识码:A 文章编号:1671-5780(2015)21-0194-02
1 引言
随着大数据及其相关技术的发展和应用,IT系统的数据存储、数据计算等技术架构随之发生巨大的变革。以电信运营商IT支撑系统为例,传统模式下各系统独立部署,数据分散,形成数据孤岛,无法实现跨系统的数据分析,因此,数据共享平台可有效解决数据孤岛问题,通过通用硬件设备大幅降低IT系统的存储及维护成本,并为前端应用系统提供丰富的ETL类服务,实现跨系统应用的快速支撑,同时还可生成全局决策指导。
2 大数据概述
大数据通常定义为一个企业或组织对其所创造的海量结构化、半结构化与非结构化数据的存储和分析,其目的在于从复杂的数据中找到其关联、规律,并加以利用。大数据正以一种前所未有的方式,通过对海量数据进行分析,获得有巨大价值的产品和服务或深刻的洞见。
3 基于大数据技术的数据共享平台方案分析 3.1 数据共享平台定位 3.1.1 数据采集和存储
从源数据系统采集数据,统一各类数据的逻辑模型,实现企业数据的标准化统一存储和整合。
3.1.2 数据处理
针对采集的数据,在采集共享平台内部进行数据加工和精简,删除无用、重复、错误的数据。
3.1.3 数据共享
消除系统间网状数据接口,统一由数据共享平台为各系统共享数据,将整合和处理后的数据向外部系统提供。数据共享平台按需实现各类灵活的数据查询和报表服务,按指定指标和维度对各类数据进行动态、交叉的主题分析。
3.1.4 数据管理
实现数据共享平台的基础管理功能,并能根据企业指定的规则对数据共享平台存储的数据进行校验,保证数据的准确性、一致性和完整性,对数据质量进行统一管控。
3.2 数据共享平台技术架构
数据共享平台底层采用分布式架构,并基于分布式架构开发数据处理功能,在数据处理基础上提供各类数据服务接口,与上层应用或其他系统实现数据共享。数据共享平台的功能架构如图1所示。
3.2.1 数据采集层
首先,接入适配模块依据数据来源及类型的不同采用不同的接口适配器进行数据抽取,接入适配模块需要满足不同类型接口的对接需求。其次,数据采集层需要发起大量的数据采集、转换、加载等任务,所以需要具备完备的任务调度管理能力,能够对各类任务进行配置、启动、跟踪;根据各
194 2015年21期
任务的执行状态、结果自动启动后续任务。最后,采集监控模块通过界面对装载任务进行管理和监控,包括加载任务的状态,对加载任务进行启停和优先级设置等操作。
图1 数据共享平台功能架构
3.2.2 数据存储层
首先,细节数据存储通过本地存储设备集群支持PB级的海量数据存储,实现相应的生命周期管理和全生命周期的配置,提供海量数据查询接口和对外开放;区分历史归档数据(冷数据)和当期使用数据(热数据),定义详细的归档、回炉策略。其中,归档数据相比当期数据拥有更高的压缩比。其次,数据仓库实现数据的分层存放,是数据加工和数据分析的引擎。
3.2.3 数据共享层
数据共享层将用来灵活支持上层应用不同类型的数据需求。数据共享层支持建立数据服务的标准化接口,降低应用与平台的接口耦合,促进信息共享和应用复用。数据共享层提供标准的参数化查询服务,以支持常规的数据共享请求;
中国科技期刊数据库 科研
支持多种类型的数据接口如文件接口、数据库接口、消息接口、中间件接口等。
同时,数据共享层需要支持数据访问权限管理,能根据数据共享服务日志记录进行统计分析,实现共享过程监控、共享日志管理和查询统计分析能力。
3.3 数据共享平台硬件部署方案
结合目前市场上通用x86服务器配置选型情况,文中方案的数据共享平台通用存储服务器配置建议如下。
3.3.1 冷数据集群
NameNode:2台x86物理服务器,单台2个4核CPU、32GB内存、12×2TB硬盘、2个GE网口。DataNode:x86物理服务器(数量根据需求配置),单台2个4核CPU、16GB内存、12×2TB硬盘、2个GE网口。
3.3.2 温数据集群
NameNode:2台x86物理服务器,单台2个8核CPU、64GB内存、12×2TB硬盘、4个GE网口。DataNode:x86物理服务器(数量根据需求配置),单台2个8核CPU、32GB内存、12×2TB硬盘、2个GE网口。
3.3.3 热数据集群
NameNode:2台x86物理服务器,单台2个8核CPU、64GB内存、12×2TB硬盘、4个GE网口。DataNode:x86物理服务器(数量根据需求配置),单台2个8核CPU、64G内存、12×2TB硬盘、4个GE网口。
(上接第 193 页)
4.2 优化光伏电站项目管理团队,提高管理决策水平 管理团队是光伏电站项目的核心,管理者自身的素质和管理水平将直接影响项目的成败。因此,应该重视对项目管理团队人员的培训和再学习工作,使管理人员不断提高自身职业素养和管理决策水平。发达国家在项目后评价方面有着丰富的经验,可以学习借鉴他们在项目后评价管理上的方法,结合自身项目情况进行运用,从而提高管理者管理和决策水平,为光伏电站项目运行提供基础保障。
3.4 据共享管理规范
为控制数据使用范围,保证数据安全性、权威性,生技部联合数据中心项目组发布了数据共享管理规范,所有使用共享数据的部门,需遵守管理规范以获取数据中心共享区数据。数据使用部门在获取数据中心共享区的数据之前,生技部将会同数据提供部门、数据使用部门、信通中心以及数据中心项目组,发起数据使用申请流程并形成初步数据共享方案,同时在审批通过之后,方可开展后续工作。
4 结论
综上,文中提出的数据共享平台方案基于Hadoop体系和通用x86硬件构建,实现从底层数据采集、处理、分析到上层共享各层次功能,各模块间功能清晰、易实现。平台架构充分考虑了上层应用的复杂性、多变性,提供丰富的应用服务和数据共享接口;与源数据系统适配性强,在数据采集层的适配模块中实现与各类型源数据系统的对接;同时,本方案还实现了完整的基础管理功能。
参考文献
[1]彭庆.基于大数据技术的流量分析平台方案研究[J].邮电设计技术,2014(8):22-25.
[2]左建安,陈雅.基于大数据环境的科学数据共享模式研究[J].情报杂志,2013(12):151-154.
[3]荣刚.基于大数据的数据压缩方案[J].中国民用航空,2012(12):81-83.
5 结论
项目后评价在光伏电站建设中是非常重要的内容,是能够有效提高投资决策水平和工程的质量水平,从而促进光伏电站项目的综合效益。
参考文献
[1]殷帅.我国光伏发电项目规模化发展研究 [D].北京交通大学,2012.
[2]张三力.项目后评价[M].北京:清华大学出版社,1998.
2015年21期 195
因篇幅问题不能全部显示,请点此查看更多更全内容