《面对大数据的数据仓库系统.pptx》由会员分享,可在线阅读,更多相关《面对大数据的数据仓库系统.pptx(45页珍藏版)》请在第壹文秘上搜索。
1、大数据分析原理与实践1010、面对大数据的数据仓库系统、面对大数据的数据仓库系统数据仓库 数据分析的对象是“数据” 因此必须对数据进行有效管理,这便是数据仓库的职责。 数据仓库两方面的需求 可扩展性和高效率。 面对大数据的数据仓库系统对这个需求要求更高,因此分布式数据仓库系统和内存数据仓库系统应运而生。目录目录数据仓库概述数据仓库概述分布式数据仓库系统分布式数据仓库系统内存数据仓库系统内存数据仓库系统123目录目录数据仓库概述数据仓库概述分布式数据仓库系统分布式数据仓库系统内存数据仓库系统内存数据仓库系统123数据仓库概述什么是数据仓库一个面向主题的、集成的、稳定的、包含历史数据的数据集合,它
2、用于支持管理中的决策指定过程。W. H. Inmon 美国著名信息工程学家、数据仓库之父数据仓库概述什么是数据仓库一个面向主题的、集成的、稳定的、包含历史数据的数据集合,它用于支持管理中的决策指定过程。W. H. Inmon 美国著名信息工程学家、数据仓库之父数据仓库概述什么是数据仓库1. 面向主题这意味着在数据仓库的设计过程中,数据以所代表的业务内容划分,而不是以应用划分。2. 数据集成性数据仓库中的数据采取统一的格式和编码方式。3. 稳定的这意味着数据仓库中的数据不进行实时更新。4. 与时间相关的这意味数据仓库中的数据组织方式要便于按时间段计算和提取数据。面向主题集成的稳定的与时间相关的的
3、数据仓库概述数据仓库的内涵1. 支持多种数据源数据仓库应支持多种数据源,不仅仅是数据库,还应有各种数据文件、文本文件、应用程序等。2. 不只存放数据数据仓库中存放的应该不仅是供分析使用的数据,还应有在一定激发条件下能主动起作用的处理规则、算法、甚至是过程。3. 虚拟数据仓库传统的物理数据仓库方法并非唯一的选择,应根据需求的具体情况,建立虚拟数据仓库的解决方案。4. 汇总并统一据仓库中的数据并不完全是原始数据的简单归并和搬家,而应该是增值和统一。因此“汇总并统一”是数据仓库的必须内涵描述。数据仓库概述四个基本功能1. 数据定义这部分主要完成数据仓库的结构和环境的定义。2. 数据提取这部分负责从数
4、据源提取数据,并对获得的源数据进行必要的加工处理,使其成为数据仓库可以管理的数据格式和语义规范。3. 数据管理数据管理由一组系统服务工具组成,负责数据的分配和维护,支持数据应用。4. 数据应用数据仓库的数据应用除了一般的直接检索性使用外,还应当能够完成比较常用的数据表示和分析,如图表表示、统计分析、结构分析等。数据仓库概述数据仓库系统的体系结构1. 元数据 是关于数据的数据,是关于数据和信息资源的描述信息。 是数据仓库的核心。数据仓库概述数据仓库系统的体系结构1. 元数据2. 源数据 是分布在不同应用系统中,存储在不同平台和不同数据库中的大量数据信息。 是数据仓库的物质基础。数据仓库概述数据仓
5、库系统的体系结构1. 元数据2. 源数据3. 数据变换工具 为了优化数据仓库的分析性能,源数据必须经过变换以最适宜的方式进入数据仓库。 包括数据抽取,数据转换,数据装载。数据仓库概述数据仓库系统的体系结构1. 元数据2. 源数据3. 数据变换工具4. 数据仓库 源数据经过变换后进入数据仓库。数据仓库以多维方式来组织数据和显示数据。 属性维和时间维时数据仓库反映现实世界动态变化的基础,它们的数据组织方式时整个数据仓库的关键。数据仓库概述数据仓库系统的体系结构1. 元数据2. 源数据3. 数据变换工具4. 数据仓库5. 数据分析工具 数据库系统的目标是提供决策支持,它不仅需要一般的统计分析工具,更
6、需要强大的分析和挖掘工具。数据仓库概述数据仓库系统的体系结构1. 元数据2. 源数据3. 数据变换工具4. 数据仓库5. 数据分析工具 分析工具主要用于对数据仓库中的数据进行分析和综合。 挖掘工具负责从大量数据中发现数据之间的关系,找到可能忽略的信息,预测趋势和行为。数据仓库概述数据仓库系统的建立2. 选择平台3. 建立数据仓库的模型4. 数据仓库数据模型优化5. 数据清洗、转换和传输6. 开发数据仓库的分析应用7. 数据仓库的管理主题 在数据分析或前端展现的某一方面的分析对象,例如分析某年某月某一地区的啤酒销售情况。 一个主题在数据仓库中即为一个数据集市,数据集市体现了某一方面的信息,多个数
7、据集市构成了数据仓库。数据仓库概述数据仓库系统的建立2. 选择平台3. 建立数据仓库的模型4. 数据仓库数据模型优化5. 数据清洗、转换和传输6. 开发数据仓库的分析应用7. 数据仓库的管理确定主题 确定主题需要综合考虑。 主题的确定必须建立在现有联机事务处理(OLTP)系统的基础上,否则按此主题设计的数据仓库将成为一个空壳,缺少可存储的数据。 但一味注重OLTP数据信息,也将迷失数据提取方向,偏离主题。 故需要在OLTP数据和主题之间找到一个”平衡点“。数据仓库概述数据仓库系统的建立1. 确定主题2. 选择平台3. 建立数据仓库的模型4. 数据仓库数据模型优化5. 数据清洗、转换和传输6.
8、开发数据仓库的分析应用7. 数据仓库的管理选择合适的软件平台 数据库、建模工具、分析工具等。需要考虑的因素 系统对数据量、响应时间、分析功能的要求等。数据仓库概述数据仓库系统的建立1. 确定主题2. 选择平台3. 建立数据仓库的模型4. 数据仓库数据模型优化5. 数据清洗、转换和传输6. 开发数据仓库的分析应用7. 数据仓库的管理需要考虑的因素 一些公认的标准:数据库对大数据量的支持能力数据库是否支持并行操作能否提供数据仓库的建模工具是否支持对源数据的管理能否提供支持大数据量的数据加载、转换、传输工具能否提供完整的决策工具集能否满足数据仓库中各类用户的需要数据仓库概述数据仓库系统的建立1. 确
9、定主题2. 选择平台3. 建立数据仓库的模型4. 数据仓库数据模型优化5. 数据清洗、转换和传输6. 开发数据仓库的分析应用7. 数据仓库的管理数据仓库的模型 包括逻辑模型和数据模型。什么是逻辑模型 数据仓库的逻辑模型是为解决业务需求而定义的数据仓库模型的解决方案。 它是指导进行数据存放、数据组织以及如何支持定义的蓝图,用以定义需要追踪和管理的各种重要实体、属性和关系。数据仓库概述数据仓库系统的建立1. 确定主题2. 选择平台3. 建立数据仓库的模型4. 数据仓库数据模型优化5. 数据清洗、转换和传输6. 开发数据仓库的分析应用7. 数据仓库的管理逻辑模型的建立 首先,确定建立数据仓库逻辑模型
10、的基本方法。 然后,基于主题试图,把主题视图中的数据定义转到逻辑数据模型中。 继而识别主题之间的关系,分解多对多的关系。 最后,对逻辑模型加以校验,包括利用数据库的范式理论检验逻辑数据模型的自动方法和由用户审核逻辑数据模型的人工方法。数据仓库概述数据仓库系统的建立1. 确定主题2. 选择平台3. 建立数据仓库的模型4. 数据仓库数据模型优化5. 数据清洗、转换和传输6. 开发数据仓库的分析应用7. 数据仓库的管理数据模型建立的步骤1. 删除非战略性数据 数据仓库模型中不需要包含逻辑数据模型中的全部数据项,需要删除某些用于操作处理的数据项。2. 增加时间主键 数据仓库中的数据一定是时间的快照,因
11、此必须增加时间主键。3. 增加派生数据 对于用户经常需要分析的数据,或者为了提高性能,可以增加派生数据。4. 加入不同级别粒度的汇总数据 粒度是数据仓库设计的一个重要因素,它直接影响到驻留在数据仓库中的数据量和可以执行的查询类型。数据仓库概述数据仓库系统的建立1. 确定主题2. 选择平台3. 建立数据仓库的模型4. 数据仓库数据模型优化5. 数据清洗、转换和传输6. 开发数据仓库的分析应用7. 数据仓库的管理粒度 粒度级别越低,支持的查询越多;反之,能支持的查询就越少。 对数据操作的效率与能得到数据的详细程度是矛盾的。通常,人们希望建成的系统既有较高的效率,又能得到所需的详细资料。 实施数据仓
12、库的一个重要原则就是不要试图包括所有详细数据,因为90%的分析需求是在汇总数据上进行的。数据仓库概述数据仓库系统的建立1. 确定主题2. 选择平台3. 建立数据仓库的模型4. 数据仓库数据模型优化5. 数据清洗、转换和传输6. 开发数据仓库的分析应用7. 数据仓库的管理数据模型的三个重要因素1. 量度 量度是依据数据仓库的主题,要分析的技术指标。如年销售额,一般为数值型数据,或者将该数据汇总,或者将该数据取最大/小值等。2. 事实数据粒度 “最小粒度原则”。如按照时间对销售额进行汇总的情况下,如果OLTP数据库中记录了每天的交易额,那么最好不要在数据仓库中进行按月或者年汇总,需要保持到“天”,
13、以便后续的分析。数据仓库概述数据仓库系统的建立1. 确定主题2. 选择平台3. 建立数据仓库的模型4. 数据仓库数据模型优化5. 数据清洗、转换和传输6. 开发数据仓库的分析应用7. 数据仓库的管理数据模型的三个重要因素3. 维度 例如,我们希望按照时间、地区或者产品进行分析,那么时间、地区、产品就是相应的维度。这里首先要确定维度的层次和级别。维度的层次是指该维度的所有级别,包括各级别的属性;维度的级别是指该维度下的成员。例如,建立地区维度时,我们将地区维度作为一个级别,层次为省、市、县三层。数据仓库概述数据仓库系统的建立1. 确定主题2. 选择平台3. 建立数据仓库的模型5. 数据清洗、转换
14、和传输6. 开发数据仓库的分析应用7. 数据仓库的管理4. 数据仓库数据模型优化优化的目的 在设计数据仓库时,性能是一项主要考虑的因素。 在数据仓库建成后,也需要经常对其性能进行监控,并依据需求和数据量的变更对数据仓库的数据模型进行优化,以提高性能。优化的方法 合并不同的数据表 增加汇总表避免数据的动态汇总 通过冗余字段减少表连接的数量 使用ID而不是描述信息作为键值 对数据表做分区等等数据仓库概述数据仓库系统的建立1. 确定主题2. 选择平台3. 建立数据仓库的模型4. 数据仓库数据模型优化6. 开发数据仓库的分析应用7. 数据仓库的管理5. 数据清洗、转换和传输为什么要进行这一步 业务系统
15、所使用的软硬件平台不同,编码方式不同。 在业务系统中的数据加载到数据仓库之间,必须对其进行清晰和转换,以保证数据仓库中数据的一致性。数据加载方案的几项要求1. 加载方案必须能够支持访问不同数据库和文件系统。2. 数据的清洗、转换和传输必须能够在规定的时间范围内完成。3. 支持各种转换方法。4. 支持增量加载。数据仓库概述数据仓库系统的建立1. 确定主题2. 选择平台3. 建立数据仓库的模型4. 数据仓库数据模型优化5. 数据清洗、转换和传输7. 数据仓库的管理6. 开发数据仓库的分析应用建立数据仓库的最终目的是为业务部门提供决策支持能力,因此必须为业务部门选择合适的工具。几项要求1. 全面 必
16、须能够满足用户的全部分析功能要求。2. 灵活的表现形式 使分析的结果能够以直观、灵活的方式表现。3. 接口和集成 事实上,没有一种工具能够满足数据仓库的全部分析功能需求,一个完整的数据仓库系统的功能可能是由多种工具实现的,因此必须考虑接口和集成问题。数据仓库概述数据仓库系统的建立1. 确定主题2. 选择平台3. 建立数据仓库的模型4. 数据仓库数据模型优化5. 数据清洗、转换和传输6. 开发数据仓库的分析应用7. 数据仓库的管理需要考虑的几个方面1. 安全性管理 数据仓库中的用户只能访问到其授权范围内的数据,即数据在传输过程中的加密策略。2. 备份和恢复 数据仓库的大小和备份频率直接影响到到备份策略。3. 如何保证系统的可用性 硬件方法或软件方法。4. 数据老化 设计数据仓库中数据的存放时间周期和对过期数据的处理办法,如历史数据值保存汇总数据,当年数据保存详细记录。5. 源数据的管理 维护数据采集、数据管理和数据展现阶段的不同源数据。目录目录数据仓库概述数据仓库概述分布式数据仓库系统分布式数据仓库系统内存数据仓库系统内存数据仓库系统123分布式数据仓库系统基于Hadoop的数据仓库系统