数据生命周期
数据通常被视为静态的东西,输入数据库并稍后查询。但在许多环境中,数据实际上更类似于装配线中的产品,从一个环境移动到另一个环境并且在此过程中正在进行转换。
https://i.stack.imgur.com/h4tDL.jpg
■OLTP:在线事务处理
■DSA:数据暂存区域
■DW:数据仓库
■BISM:商业智能语义模型
■DM:数据挖掘
■ETL:提取,转换和加载
■MDX:多维表达式
■DAX:数据分析表达式
■DMX:数据挖掘扩展
在线交易处理
数据最初输入到在线事务处理(OLTP)系统中。OLTP 系统的重点是数据输入,而不是报告 - 事务主要是插入,更新和删除数据。但是,OLTP 环境不适合报告目的,因为规范化模型通常涉及具有复杂关系的许多表(每个实体一个)。即使是简单的报告也需要连接多个表,导致查询复杂且性能不佳。
数据仓库
数据仓库(DW)是专为数据检索和报告目的而设计的环境。当它服务于整个组织; 这样的环境称为数据仓库; 当它仅服务于组织的一部分或组织中的主题领域时,它被称为数据集市。数据仓库的数据模型的设计和优化主要是为了支持数据检索需求。与 OLTP 环境相比,该模型具有有意冗余,更少的表和更简单的关系,最终使查询更简单,更高效。
从源系统(OLTP 和其他系统)提取数据,操作数据并将其加载到数据仓库中的过程称为提取,转换和加载,或 ETL。
ETL 过程通常涉及在 OLTP 和 DW 之间使用数据暂存区域(DSA)。DSA 通常驻留在关系数据库(如 SQL Server 数据库)中,并用作数据清理区域。DSA 不向最终用户开放。
商业智能语义模型
商业智能语义模型(BISM)是 Microsoft 支持整个 BI 堆栈应用程序的最新模型。我们的想法是提供丰富,灵活,高效和可扩展的分析和报告功能。其架构包括三层:
- 数据模型
- 业务逻辑和查询
- 数据访问
模型的部署可以在 Analysis Services 服务器或 PowerPivot 中。使用 Analysis Services,你可以使用多维数据模型或表格(关系)数据模型。使用 PowerPivot,你可以使用表格数据模型。
业务逻辑和查询使用两种语言:基于多维概念的多维表达式(MDX)和基于表格概念的数据分析表达式(DAX)。
数据访问层可以从不同的源获取其数据:关系数据库,如 DW,文件,云服务,业务线(LOB)应用程序,OData 源等。数据访问层可以在本地缓存数据,也可以直接从数据源充当传递层。
BISM 为用户提供了所有可能问题的答案,但用户的任务是提出正确的问题 - 从数据海洋中筛选出异常,趋势和其他有用信息。
数据挖掘
数据挖掘(DM)是下一步; 数据挖掘模型可以为用户执行此操作,而不是让用户在数据海洋中查找有用信息。也就是说,数据挖掘算法梳理数据并从中筛选出有用的信息。用于管理和查询数据挖掘模型的语言是 Data Mining Extensions(DMX)
。