摘要:大数据技术是证券行业主要研究的科技创新方向之一,文章对大数据技术在国内证券行业的研究现状进行介绍,并对大数据技术研究方向进行划分,对建设大数据平台面临的困难进行分析,对平台框架构建进行了深入介绍。从而可以使证券公司结合情况,选择最适用于自己的大数据技术策略,并提高困难解决能力,构建出适用自己的大数据技术框架。
关键词:大数据技术;证券行业;大数据技术框架
近几年在金融行业,“金融科技”、“监管科技”等词汇总是会被人们频繁提起,这是因为科技对证券行业的服务模式起到了极为深刻的变革创新。随着金融科技中的新兴技术的蓬勃发展,证券行业如何正确使用这类新兴技术,如何将自身发展同这类技术绑定,这些问题都留给了证券行业很多的选择。
1大数据技术的国内现状
随着大数据技术进入国内的证券行业,越来越多的证券公司都开始觉察到大数据的价值,逐渐开始启动大数据的相关研究和分析工作,试图通过大数据技术挖掘海量数据的实际价值。现介绍三则证券公司的使用实例。交易日志监控分析系统,是包含了手机端和网页端日志的存储,并对服务器性能,用户交易行为和支撑系统运营状况进行监控分析。交易日志监控分析系统支持海量的日志存储和分析,提高了现有系统的管理和运营水平。异常交易预警系统是基于大数据平台中的相关用户信息,对异常交易行为进行提前预警,比如高买低卖利益传送预警,长期闲置账户频繁异动预警,大量委托查询请求预警等。客户画像系统是将通过自由源数据和第三方数据收集的客户信息传送到大数据平台中,对数据
第 1 页 共 6 页
编号: 时间:2021年x月x日 书山有路勤为径,学海无涯苦作舟 页码:第2页 共6页 进行计算后将结果放入到用户画像系统和模型管理系统中,得到的最终输出结果作为业务应用。用户画像系统是对客户进行计算分析后,添加各类描述标签,构建出一个严格的标签体系,并把结果推送给业务进行使用。画像系统和模型系统得到的最终分析结果,可以一起发送给上层应用,实现金融产品推荐,精准广告投放,线下客服沟通,风险防控等服务。
2大数据平台的构建
2.1大数据技术的分类划分。针对大数据技术的数据实时性特点和计算复杂程度的特征,可以对大数据技术的使用情况进行复杂程度和实时性分类,根据这样的划分,得以结合证券公司本身的研发特点和实力,制定出相应的研发方向,建立起自身的竞争优势。研发的方向可以归纳为四个类型——描述型、诊断型、预测型和指导型。传统企业都比较擅长使用描述型数据和诊断型数据,所以真正把数据运用得当,取决于预测型数据和指导型数据的使用。描述型数据主要体现在报表类业务,其让事件反映的具体、清晰;诊断型数据是针对所出现的问题进行判断分析,比如根据财务数据的指标,发现企业的财务运行情况等;预测型数据是由数据来预测将来事物发展的趋势,可以提前发现事物的潜在问题再进行纠正,也可以预测行情变换进行投资交易获利;指导型数据可以根据客户的行为习惯来挖掘客户的潜在需求,帮助证券公司做出更好的产品或者对应服务,指定针对性营销方案从而获得更好的投资回报。2.2大数据平台构建的困难。证券公司在构建真正的大数据平台时,应该结合自身的实际情况,分析将要面临的困难挑战。证券公司所面临的困难可以分为五大方面,分别是:性能、海量、实时、精准、共享。性能问题是指客观硬件上性能不足,导致数据运行时间长,复杂查
第 2 页 共 6 页
编号: 时间:2021年x月x日 书山有路勤为径,学海无涯苦作舟 页码:第3页 共6页 询或者过高频率的并发查询的效果过差。海量问题是客观存在的多样性大量数据所导致的问题,这是因为数据的格式过于多样,而承载数据量总是有限的,不可能存储全部的海量数据。实时性是指获取和处理数据的能力,实时性的局限会对实施事件、动态营销、智能服务等造成影响。精准性困难是指缺乏对投资者资产台账清算的思维,仅仅依靠传统的技术手段是无法全面掌握客户的需求和偏好。共享性困难是指数据难以提取和使用,访问的方式过于单一,对不同业务系统或者专项统一数据的支撑能力的有限性。在面对这些数据的同时,应该以数据为起点,应用为核心,而整个过程是重复着“去解决数据问题”和“数据去解决问题”的反馈机制,在这个机制中,证券公司应该不断加强数据应用能力、数据运算能力和数据融合能力。2.3大数据平台框架构建。大数据平台的总体框架是由平台、引擎和行业数据模型三者构建。其中平台包含数据整合平台(ETL工具集)、数据管控平台(数据标准管理、数据质量管理、元数据管理、运维监控)和数据服务平台(数据资源管理、数据服务总线、安全监控等);数据流引擎包含计算引擎和数据流引擎;最后的模块是行业数据模型。如下将对个组成模块进行讲解。数据整合平台需要采取不同业务系统的数据,平台为了适应据中心多类型数据源采集的需要,需要支持多种类型的数据采集方式,其中主要包括:第三方工具集成(Kettle/Infor-matica、Flume、Kafka)、消息队列接口(点对点模式、发布与订阅模式、实时消息队列)、API接口(接口封装技术、API多调用方式、API可扩展设计)、和FTP/SFTP接口(接口信息配置、采集触发设置、装载规则设置)等。数据管控平台是对数据质量或者系统运行进行监控。在运维监控功能上,主要分析ETL日历、数据分布、变化趋势、存储情况和大表;元数据管理上针对的是数
第 3 页 共 6 页
编号: 时间:2021年x月x日 书山有路勤为径,学海无涯苦作舟 页码:第4页 共6页 据字典、数据标准、调度关系、数据表登记和映射;元数据分析包含了血统分析、影响分析等;数据质量管理是针对数据监控报告、阀值检测、字典异动、清洗结果和检测配置管理等;系统管理则是对系统参数和系统资源进行统一管理。数据服务平台的定位是为数据服务的提供开发能力和数据支持,并且提供满足证券公司内外部客户需求的能力。平台需要对服务进行监控和管理,保证数据的安全。服务监控是要对配合进行控制、对流量进行控制、对日志进行控制;服务管理,是要做好服务的发布、服务编排、服务目录管理和服务结算;在数据安全方面,要对数据进行脱敏处理,对数据进行加密,保证接入安全,事后进行审计。数据服务平台的构建,首先是对大数据进行存储,并且分配好数据服务层、功能服务层和基础服务层[1]。数据服务层包含了业务数据、客户数据、风险数据、产品资源数据、渠道解除数据等;功能服务层,包含了分析服务、展示服务、日志服务、事件通知服务、数据查询服务、数据处理服务、数据交换服务等;基础服务层包含了位置服务、用户画像服务、价值洞察服务等等。服务开放总线提供对业务的支持,总线需要满足接入功能(HTTP、JDBC、消息等)、路由功能(服务查找、服务路由)、负载功能(负载均衡、服务缓存)和适配功能(SQL、MR、Hbase等)。计算引擎需要实现的目标是精益化计算,对多年沉淀积累的行业数据进行计算。计算引擎可自行定义运算流程,使用丰富的运算组件并灵活调度,达到流程节点可视化,整个流程达到可调可用可改。同时也要求计算引擎实现多模式计算,根据业务设计运算模式,支持复杂业务的定义,达到随时可用,随时可取的要求,并且全面支持基础业务组件。计算引擎是由分析引擎、批量计算引擎和实时计算引擎三者构建,其中分析引擎主要含有MPP组、OLAP、Smlib和ES;批
第 4 页 共 6 页
编号: 时间:2021年x月x日 书山有路勤为径,学海无涯苦作舟 页码:第5页 共6页 量计算引擎有Spark等;实时计算引擎有SparkStreaming和Rddis组成。数据流引擎的流程是从组建涉及、流程设计、作业管理到作业日志进行分部处理。行业数据模型按照数据仓库模型的层次划分,依次分为业务建模、领域建模、逻辑建模和物理建模。业务建模中的模型为业务模型,将业务层面的分解和程序化;领域建模中的模型为领域模型,是对业务模型进行抽象处理,生成领域模型;逻辑建模中的模型为逻辑模型,是将领域模型的概念实体以及实体之间的关系进行数据库层次的逻辑化。物理建模中的模型为物理模型,解决逻辑模型针对不同关系型数据库的物理化,以及服务器性能等具体的技术问题[2]。构建一个完整的行业数据模型,需要对业务进行全面梳理,对业务流程加以改进。要建立全方位的数据视角,消灭信息孤岛和数据差异,致力于解决业务的变动性和数据仓库的灵活性带来的问题,帮助数据仓库系统进行自我建设。 3结语
本文对大数据技术的分析和框架搭建的介绍和建议,可以在证券行业进行大数据技术实践中得以学习借鉴和技术参考,为企业提供更多的创新思路,得以结合证券企业自身情况和特点找到符合公司本身的发展之路。相信本文可以对证券行业进行大数据技术探索的工程师,学习大数据技术的爱好者起到良好的指导作用,也对证券公司如何进行金融创新变革有着很好的方向指引意义。
参考文献:
[1]马彦图.云计算技术在农业信息共享服务平台中的应用[J].西安工程大学学报,2016(4):494-497
[2]贺晓锋.基于Teradata的银行数据仓库模型研究与优化[D].软件工
第 5 页 共 6 页
编号: 时间:2021年x月x日 书山有路勤为径,学海无涯苦作舟 页码:第6页 共6页 程,2008.
第 6 页 共 6 页
因篇幅问题不能全部显示,请点此查看更多更全内容