1、数据仓库就是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合。 2、元数据是描述数据仓库内数据的结构和建立方法的数据,它为访问数据仓库提供了一个信息目录,根据数据用途的不同可将数据仓库的元数据分为技术元数据和业务元数据两类。 3、数据处理通常分成两大类:联机事务处理和联机分析处理。
4、多维分析是指以“维”形式组织起来的数据(多维数据集)采取切片、切块、钻取和旋转等各种分析动作,以求剖析数据,使拥护能从不同角度、不同侧面观察数据仓库中的数据,从而深入理解多维数据集中的信息。 5、ROLAP是基于关系数据库的OLAP实现,而MOLAP是基于多维数据结构组织的OLAP实现。
6、数据仓库按照其开发过程,其关键环节包括数据抽取、数据存储于管理和数据表现等。 7、数据仓库系统的体系结构根据应用需求的不同,可以分为以下4种类型:两层架构、独立型数据集合、以来型数据结合和操作型数据存储和逻辑型数据集中和实时数据仓库。 8、操作型数据存储实际上是一个集成的、面向主题的、可更新的、当前值的(但是可“挥发”的)、企业级的、详细的数据库,也叫运营数据存储。 9、“实时数据仓库”以为着源数据系统、决策支持服务和仓库仓库之间以一个接近实时的速度交换数据和业务规则。
10、从应用的角度看,数据仓库的发展演变可以归纳为5个阶段:以报表为主、以分析为主、以预测模型为主、以运营导向为主和以实时数据仓库和自动决策为主。 第二章
1、调和数据是存储在企业级数据仓库和操作型数据存储中的数据。
2、抽取、转换、加载过程的目的是为决策支持应用提供一个单一的、权威数据源。因此,我们要求ETL过程产生的数据(即调和数据层)是详细的、历史的、规范的、可理解的、即时的和质量可控制的。
3、数据抽取的两个常见类型是静态抽取和增量抽取。静态抽取用于最初填充数据仓库,增量抽取用于进行数据仓库的维护。
4、粒度是对数据仓库中数据的综合程度高低的一个衡量。粒度越小,细节程度越高,综合程度越低,回答查询的种类越多。
5、使用星型模式可以从一定程度上提高查询效率。因为星型模式中数据的组织已经经过预处理,主要数据都在庞大的事实表中。
6、维度表一般又主键、分类层次和描述属性组成。对于主键可以选择两种方式:一种是采用自然键,另一种是采用代理键。
7、雪花型模式是对星型模式维表的进一步层次化和规范化来消除冗余的数据。
8、数据仓库中存在不同综合级别的数据。一般把数据分成4个级别:早期细节级、当前细节级、轻度综合级和高度综合级。 第三章
1、SQL Server SSAS提供了所有业务数据的同意整合试图,可以作为传统报表、在线分析处理、关键性能指示器记分卡和数据挖掘的基础。
2、数据仓库的概念模型通常采用信息包图法来进行设计,要求将其5个组成部分(包括名称、维度、类别、层次和度量)全面地描述出来。
3、数据仓库的逻辑模型通常采用星型图法来进行设计,要求将星型的各类逻辑实体完整地描述出来。
4、按照事实表中度量的可加性情况,可以把事实表对应的事实分为4种类型:事务事实、快照事实、线性项目事实和事件事实。
5、确定了数据仓库的粒度模型以后,为提高数据仓库的使用性能,还需要根据拥护需求设计聚合模型。
6、在项目实施时,根据事实表的特点和拥护的查询需求,可以选用时间、业务类型、区域和下属组织等多种数据分割类型。
7、当维表中的主键在事实表中没有与外键关联时,这样的维称为退化维。它于事实表并无关系,但有时在查询限制条件(如订单号码、出货单编号等)中需要用到。
8、维度可以根据其变化快慢分为元变化维度、缓慢变化维度和剧烈变化维度三类。
9、数据仓库的数据量通常较大,且数据一般很少更新,可以通过设计和优化索引结构来提高数据存取性能。
10、数据仓库数据库常见的存储优化方法包括表的归并与簇文件、反向规范化引入冗余、表的物理分割(分区)。 第四章
1、关联规则的经典算法包括Apriori算法和FP-growth算法,其中FP-grownth算法的效率更高。
2、如果L2={{a,b},{a,c},{a,d},{b,c},{b,d}},则 连接产生的C3={{a,b,c},{a,b,d},{a,c,d},{b,c,d}} 再经过修剪,C3={{a,b,c},{a,b,d}} 3、设定supmin=50%,交易集如 则L1={A},{B},{C} L2={A,C} T1 A B C T2 A C T3 A D T4 B E F
第五章
1、分类的过程包括获取数据、预处理、分类器设计和分类决策。
2、分类器设计阶段包含三个过程:划分数据集、分类器构造和分类器测试。 3、分类问题中常用的评价准则有精确度、查全率和查准率和集合均值。
4、支持向量机中常用的核函数有多项式核函数、径向基核函数和S型核函数。
第六章
1、聚类分析包括连续型、二值离散型、多值离散型和混合类型4种类型描述属性的相似度计算方法。
2、连续型属性的数据样本之间的距离有欧氏距离、曼哈顿距离和明考斯基距离。
3、划分聚类方法对数据集进行聚类时包含三个要点:选种某种距离作为数据样本减的相似性度量、选择评价聚类性能的准则函数和选择某个初始分类,之后用迭代的方法得到聚类结果,使得评价聚类的准则函数取得最优值。
4、层次聚类方法包括凝聚型和分解型两中层次聚类方法。
填空题20分,简答题25分,计算题2个(25分),综合题30分
1、数据仓库的组成?P2
数据仓库数据库,数据抽取工具,元数据,访问工具,数据集市,数据仓库管理,信息发布系统
2、数据挖掘技术对聚类分析的要求有哪几个方面?P131
可伸缩性;处理不同类型属性的能力;发现任意形状聚类的能力;减小对先验知识和用户自定义参数的依赖性;处理噪声数据的能力;可解释性和实用性 3、数据仓库在存储和管理方面的特点与关键技术?P7 数据仓库面对的是大量数据的存储与管理 并行处理
针对决策支持查询的优化 支持多维分析的查询模式
4、常见的聚类算法可以分为几类?P132
基于划分的聚类算法,基于层次的聚类算法,基于密度的聚类算法,基于网格的聚类算法,基于模型的聚类算法 等。 5、一个典型的数据仓库系统的组成?P12
数据源、数据存储与管理、OLAP服务器、前端工具与应用 6、 数据仓库常见的存储优化方法?P71
表的归并与簇文件;反向规范化,引入冗余;表的物理分割。 7、 数据仓库发展演变的5个阶段?P20 以报表为主 以分析为主
以预测模型为主
以运行向导为主以实时数据仓库、自动决策应用为主 8、 ID3算法主要存在的缺点?P116
(1)ID3算法在选择根结点和各内部结点中的分枝属性时,使用信息增益作为评价标准。信息增益的缺点是倾向于选择取值较多的属性,在有些情况下这类属性可能不会提供太多有价值的信息。
(2)ID3算法只能对描述属性为离散型属性的数据集构造决策树。 9、 简述数据仓库ETL软件的主要功能和对产生数据的目标要求。P30 ETL软件的主要功能:
数据的抽取,数据的转换,数据的加载 对产生数据的目标要求:
详细的、历史的、规范化的、可理解的、即时的、质量可控制的 10、 简述分类器设计阶段包含的3个过程。★ 划分数据集,分类器构造,分类器测试 11、 什么是数据清洗?P33★
数据清洗是一种使用模式识别和其他技术,在将原始数据转换和移到数据仓库之前来升级原始数据质量的技术。
12、 支持度和置信度的计算公式及数据计算(P90)
找出所有的规则X Y , 使支持度和置信度分别大于门限支持度: 事务中X和Y同时发生的比例,P(X Ո Y)置信度:项集X发生时,Y同时发生的条件概率P(Y|X)
Support(XY)Example:
c(XY) Support(X)
{Milk,Diaper}Beer(0.4, 0.67)
13、利用信息包图设计数据仓库概念模型需要确定的三方面内容。P57 确定指标,确定维度,确定类别
14、K-近邻分类方法的操作步骤(包括算法的输入和输出)。P128
15、什么是技术元数据,主要包含的内容?P29
技术元数据是描述关于数据仓库技术细节的数据,应用于开发、管理和维护DW,包含:
DW结构的描述,如DW的模式、视图、维、层次结构和导出
数据的定义,数据集市的位置和内容等
业务系统、DW和数据集市的体系结构和模式
汇总算法。包括度量和维定义算法,数据粒度、主题领域、
聚合、汇总和预定义的查询和报告。
由操作型业务环境到数据仓库业务环境的映射。包括源数
据和他们的内容、数据分割、数据提取、清洗、转换规则和数据刷新规则及安全(用户授权和存取控制)
16、业务元数据主要包含的内容?P29
业务元数据:从业务角度描述了DW中的数据,提供了介于使用者和实际系统之间的语义层,主要包括:
使用者的业务属于所表达的数据模型、对象名和属性名 访问数据的原则和数据的来源
系统提供的分析方法及公式和报表的信息。
17、K-means算法的基本操作步骤(包括算法的输入和输出)。P138★
18、数据从集结区加载到数据仓库中的主要方法?P36
SQL命令(如Insert或Update)
由DW供应商或第三方提供专门的加载工具 由DW管理员编写自定义程序
19、多维数据模型中的基本概念:维,维类别,维属性,粒度P37
维:人们观察数据的特定角度,是考虑问题的一类属性,如时间维或产品维 维类别:也称维分层。即同一维度还可以存在细节程度不同的各个类别属性(如时间维包括年、季度、月等)
维属性:是维的一个取值,是数据线在某维中位置的描述。
粒度:DW中数据综合程度高低的一个衡量。粒度低,细节程度高,回答查询的种类多
20、Apriori算法的基本操作步骤P93★
Apriori使用一种称作逐层搜索的迭代方法,K项集用于探索K+1项集。 该方法是基于候选的策略,降低候选数 Apriori剪枝原则:若任何项集是非频繁的,则其超集必然是非频繁的(不用产生和测试超集)
该原则基于以下支持度的特性:
X,Y:(XY)s(X)s(Y)
项集的支持度不会超过其子集 支持度的反单调特性(anti-monotone):如果一个集合不能通过测试,则它的所有超集也都不能通过相同的测试。
令 k=1
产生长度为1的频繁项集
循环,直到无新的频繁项集产生
从长度为k的频繁项集产生长度为k+1的候选频繁项集
连接步:项集的各项排序,前k-1个项相同 若候选频繁子集包含长度为k的非频繁子集,则剪枝
剪枝步:利用支持度属性原则
扫描数据库,计算每个候选频繁集的支持度 删除非频繁项, 保留频繁项
因篇幅问题不能全部显示,请点此查看更多更全内容