一、业务数据采集
1.1 数据获取方法、采集注意事项及数据质量评价
业务数据采集:
- 线上行为数据: 页面数据、交互数据、表单数据、会话数据等
- 内容数据: 应用日志、电子文档、机器数据、语音数据、社交媒体数据等
- 大数据的主要来源渠道
- 商业数据
- 互联网数据
- 传感器数据
数据获取方法:
- 直接购买或共享行业数据
- 网络数据采集
- 第三方合作
- 自行采集
采集注意事项:
- 深度理解(需要深度理解项目含义)
- 及时沟通
- 注重质量(时效性、数据质量)
数据质量评价:
4R原则:
- 关联度
- 范围
- 时效性
- 可信性
案例分析:
1.2 数据资源的定义、管理周期、管理意义
定义:
广义的数据资源设计数据的产生、处理、传播、交换的整个过程,狭义的数据: 数据本身、数据的管理工具(计算机与通信技术)和数据管理专业人员
管理周期:
数据获取->数据加工->数据利用->数据报表
管理意义:
- 有效的管理,是系统进入成熟阶段的重要标志
- 解决企业内部由于数据重复而导致各种问题的根本途径
- 企业面对激烈的市场下取得竞争优势的关键
·案例分析:
1.3 数据仓库(OLAP)的定义、特征及与数据库的区别
引言:
- 数据仓库是决策支持系统(DSS)和联机分析应用数据源的结构化数据环境
- 由数据仓库之父比尔·恩门与1990年提出
- 主要功能是将组 织透过资讯系统之联机事务(OLTP)处理经年累月积的大量资料,透过数据仓库理论所持有的资料储存架构,左右系统的分析整理,以利用各种分析方法,包括但不限于的方法有
- 联机分析处理
- 数据挖掘
- 帮助决策者能快速有效的自大量资料中,分析出有价值的资讯,以利决策拟定及快速回应外在环境变动,帮助建构商业智能(BI)
定义:
面向主题的、集成的、不可更改的、随时间不断变化的数据集合,用于支持经营管理中的决策制定过程
特征:
- 面向主题的
- 不可更新的
- 大容量集成的(经年累月)
- 数据包含历史信息(十年或者五年数据冷数据)
数据仓库分层设计:
- APP(ADS)数据应用层(顶层)
- DWS数据汇总层|
- DWD明细数据层
- ODS原始数据层(通过OLTP获取)(底层)
数据仓库和数据库的区别:
- 数据库中的数据是与当前业务相关的数据,数据仓库中的数据是企业一段时间以来的历史数据
- 数据仓库中的数据是从多个业务领域的数据库中抽取出来,经过整理,并按分析主题重新组织起来
案例分析:
1.4 数据集市的概念、数据仓库系统的组成及常见数据源类型
引言:
数据集市(Data Marts)也叫做数据市场,根据用户需求,按照多维的方式存储,包括定义维度、需要计算的指标、维度的层次等,生成面向决策分析需求的数据立方体
概念:
数据仓库是一个已经被净化、转换和编码化的中心数据源,数据仓库可以细分为若干个数据集市,其中包含侧重于公司特定业务方面的数据子集,如一个公司的某个部门或者某个业务流程
组成:
- 管理层(ETL管理工具)
- 存储层(数据仓库和数据集市)
- 分析工具层(OLAP,数据挖掘)
常见数据源类型:
- 流行的关系数据库系统: Oracle、Sybase、SQL Server、DB2等
- 面向对象的数据库系统: Objectstore等
- 传统的桌面数据库系统: Foxbase、FoxPro等
- 文件系统中的数据文件: UNIX、Windows等
- 其他数据源: Word、Excel等
案例分析:
1.5 数据仓库管理层和工具集的组成与功能
引言:
- 数据管理层: 主要负责数据的日常管理和维护,包括数据的备份、恢复、安全性和权限管理等.数据管理层的任务是确保数据的可靠性和安全性,防止数据丢失或被未经授权的人员访问
- 数据仓库工具: 是指由软件应用程序,集成技术和服务(如咨询和开发)组成的系统,用于管理比较大的数据量,实现数据仓库的建设和操作.他们帮助企业充分利用关键业务数据,从而实现数据仓库最高效利用
数据仓库管理层部件构成:
- 数据仓库定义部件
- 数据获取部件
- 数据管理部件
- 元数据管理部件
数据仓库管理层功能:
- 完成数据仓库的定义
- 完成数据的抽取、转换、装载(ETL)
- 完成数据的归档、备份、维护、恢复及元数据的管理等
数据仓库工具集:
数据仓库工具集主要由以下分析工具组成:
- 检索查询工具
- 多维数据的OLAP分析工具
- 统计分析及数据挖掘工具
数据仓库应用:
是一个典型的客户端/服务器结构,其客户端的工作主要包括客户交互、格式化查询、可视化以及数据报表生成等;服务端完成多种辅助的查询、复杂的计算和各类综合功能等.一般有OLAP服务器和DM服务器两种
案例分析:
1.6 数据仓库的数据组织方式
引言:
数据仓库中会存储大量数据,如果不进行组织,数据的查询和分析将变得非常困难和低效.通过组织数据,可以将相关的数据存放在一起,减少查询时需要扫描的数据量,提高查询的效率
数据组织方式:
- 早期细节级
- 当前细节级
- 轻度综合级
- 高度综合级
- 元数据
数据仓库的数据源经过综合后,首先进入当前细节级,并根据具体的需要进行一步综合,从而进入轻度综合级乃至高度综合级,老化的数据将进入早期的细节级.
案例分析:
1.7 数据仓库中粒度的概念
引言:
数据仓库的粒度设计是为了适应多维分析、控制数据量和提高性能、支持不同层次的分析以及保护数据隐私和安全等原因.粒度的选择需要充分考虑业务需求和数据分析的目标,并进行合理的权衡.
概念:
粒度是数据仓库中一个最重要的概念,是指数据仓库的数据单位中保存数据细化和综合程度的级别.粒度影响存放在数据仓库中的数据的大小,同时影响数据仓库所能回答查询问题的细节程度.
两种形式:
- 按时间段综合数据的粒度
- 按采样率高低划分的样本数据库
案例分析:
1.8 BI的定义、概念和用途
引言:
BI主要是为了帮助组织和企业更好的进行数据分析和决策.BI通过收集、存储、分析和可视化数据,将数据转化成有意义的信息和洞察力,帮助企业了解当前的业务情况和趋势,并支持决策的制定和战略规划.
定义:
BI全称商业智能(Business Intelligence),在传统企业中,它是一套完整的解决方案.将企业的数据有效整合,快速制作出报表以做决策.
概念:
商业智能BI在数据架构中处于前端分析的位置,其核心作用是对获取数据的多维度分析、数据的切片、数据的上钻和下钻、cube等.通过ETL数据抽取、转化形成一个完整的数据仓库、然后对数据仓库的数据进行抽取,而后是商业智能的前端分析和展示.
用途:
- 利用BI制作自动化报表,数据类工作每天都会接触大量数据,并且需要整理汇总,这是一块很大的工作量.这部分工作可以交给BI自动化完成,从数据规整、建模到下载.
- 使用其可视化功能进行分析,BI的优点在于它提供比Excel更丰富的可视化功能,操作简单上手,而且美观,如果每天作图需要两个小时,BI会缩短一半时间.
案例分析:
1.9 BI的操作流程
- 数据源获取
- 数据清洗
- 数据关联
- 图表制作
- Dashboard整合
案例分析:
2.0 Power BI自然语言查询的用法和连接数据源的方法
引言:
Power BI是微软推出的一款商业智能工具,用于数据分析和可视化.它提供了一套功能强大的工具和服务,帮助用户从各种数据源中获取,整合和分析数据,并以直观的可视化方式呈现结果.
自然语言查询的用法:
当使用Power BI时,用户可以通过询问来分析数据,用户只需要用简单的自然语言(简单的英语)而不需要使用特殊的代码或语法,这个特性被称为自然语言查询.通过它,用户可以用向同事询问的方式要求Power BI执行任务.
自然语言查询操作方法:
- 选择某一数据集
- 然后单击提问选项
- 在中央面板的“问答”框中,输入一个简单的查询语句
- Power BI就会理解这个查询语句的意义,并提供一个条形图
Power BI连接数据源的方法:
- 在Power BI Desktop的“开始”选项卡上,单击“获取数据源”选项,这次使用的是SQL Server选项,然后单击“确定”按钮
- Power BI Desktop连接数据到了数据库,并提供了一份数据表,当点击它时,Power BI Desktop显示了内容的预览,在连接数据库时,有一个选择模式的选项,选择“导入”,然后点击“确定”按钮.
- Power BI Desktop连接到数据库,查询信息并加载,并将信息储存在其内部数据模型中.
- 然后,可以在Power BI Desktop中使用这些数据,而不需要时常连接数据库.当想要刷新数据时,只需要一个连接来获取最新的数据即可.