人工智能训练师备考-数据采集(四)

一、业务数据采集

1.1 数据获取方法、采集注意事项及数据质量评价

业务数据采集:

  • 线上行为数据: 页面数据、交互数据、表单数据、会话数据等
  • 内容数据: 应用日志、电子文档、机器数据、语音数据、社交媒体数据等
  • 大数据的主要来源渠道
    • 商业数据
    • 互联网数据
    • 传感器数据

数据获取方法:

  • 直接购买或共享行业数据
  • 网络数据采集
  • 第三方合作
  • 自行采集

采集注意事项:

  • 深度理解(需要深度理解项目含义)
  • 及时沟通
  • 注重质量(时效性、数据质量)

数据质量评价:

4R原则:

  • 关联度
  • 范围
  • 时效性
  • 可信性

案例分析:

img

1.2 数据资源的定义、管理周期、管理意义

定义:

广义的数据资源设计数据的产生、处理、传播、交换的整个过程,狭义的数据: 数据本身、数据的管理工具(计算机与通信技术)和数据管理专业人员

管理周期:

数据获取->数据加工->数据利用->数据报表

管理意义:

  • 有效的管理,是系统进入成熟阶段的重要标志
  • 解决企业内部由于数据重复而导致各种问题的根本途径
  • 企业面对激烈的市场下取得竞争优势的关键

·案例分析:

img

1.3 数据仓库(OLAP)的定义、特征及与数据库的区别

引言:

  • 数据仓库是决策支持系统(DSS)和联机分析应用数据源的结构化数据环境
  • 由数据仓库之父比尔·恩门与1990年提出
  • 主要功能是将组 织透过资讯系统之联机事务(OLTP)处理经年累月积的大量资料,透过数据仓库理论所持有的资料储存架构,左右系统的分析整理,以利用各种分析方法,包括但不限于的方法有
    • 联机分析处理
    • 数据挖掘
    • 帮助决策者能快速有效的自大量资料中,分析出有价值的资讯,以利决策拟定及快速回应外在环境变动,帮助建构商业智能(BI)

定义:

面向主题的、集成的、不可更改的、随时间不断变化的数据集合,用于支持经营管理中的决策制定过程

特征:

  • 面向主题的
  • 不可更新的
  • 大容量集成的(经年累月)
  • 数据包含历史信息(十年或者五年数据冷数据)

数据仓库分层设计:

  • APP(ADS)数据应用层(顶层)
  • DWS数据汇总层|
  • DWD明细数据层
  • ODS原始数据层(通过OLTP获取)(底层)

数据仓库和数据库的区别:

  • 数据库中的数据是与当前业务相关的数据,数据仓库中的数据是企业一段时间以来的历史数据
  • 数据仓库中的数据是从多个业务领域的数据库中抽取出来,经过整理,并按分析主题重新组织起来

案例分析:

img

1.4 数据集市的概念、数据仓库系统的组成及常见数据源类型

引言:

数据集市(Data Marts)也叫做数据市场,根据用户需求,按照多维的方式存储,包括定义维度、需要计算的指标、维度的层次等,生成面向决策分析需求的数据立方体

概念:

数据仓库是一个已经被净化、转换和编码化的中心数据源,数据仓库可以细分为若干个数据集市,其中包含侧重于公司特定业务方面的数据子集,如一个公司的某个部门或者某个业务流程

组成:

  • 管理层(ETL管理工具)
  • 存储层(数据仓库和数据集市)
  • 分析工具层(OLAP,数据挖掘)

常见数据源类型:

  • 流行的关系数据库系统: Oracle、Sybase、SQL Server、DB2等
  • 面向对象的数据库系统: Objectstore等
  • 传统的桌面数据库系统: Foxbase、FoxPro等
  • 文件系统中的数据文件: UNIX、Windows等
  • 其他数据源: Word、Excel等

案例分析:

img

1.5 数据仓库管理层和工具集的组成与功能

引言:

  • 数据管理层: 主要负责数据的日常管理和维护,包括数据的备份、恢复、安全性和权限管理等.数据管理层的任务是确保数据的可靠性和安全性,防止数据丢失或被未经授权的人员访问
  • 数据仓库工具: 是指由软件应用程序,集成技术和服务(如咨询和开发)组成的系统,用于管理比较大的数据量,实现数据仓库的建设和操作.他们帮助企业充分利用关键业务数据,从而实现数据仓库最高效利用

数据仓库管理层部件构成:

  • 数据仓库定义部件
  • 数据获取部件
  • 数据管理部件
  • 元数据管理部件

数据仓库管理层功能:

  • 完成数据仓库的定义
  • 完成数据的抽取、转换、装载(ETL)
  • 完成数据的归档、备份、维护、恢复及元数据的管理等

数据仓库工具集:

数据仓库工具集主要由以下分析工具组成:

  • 检索查询工具
  • 多维数据的OLAP分析工具
  • 统计分析及数据挖掘工具

数据仓库应用:

是一个典型的客户端/服务器结构,其客户端的工作主要包括客户交互、格式化查询、可视化以及数据报表生成等;服务端完成多种辅助的查询、复杂的计算和各类综合功能等.一般有OLAP服务器和DM服务器两种

案例分析:

img

1.6 数据仓库的数据组织方式

引言:

数据仓库中会存储大量数据,如果不进行组织,数据的查询和分析将变得非常困难和低效.通过组织数据,可以将相关的数据存放在一起,减少查询时需要扫描的数据量,提高查询的效率

数据组织方式:

  • 早期细节级
  • 当前细节级
  • 轻度综合级
  • 高度综合级
  • 元数据

数据仓库的数据源经过综合后,首先进入当前细节级,并根据具体的需要进行一步综合,从而进入轻度综合级乃至高度综合级,老化的数据将进入早期的细节级.

案例分析:

img

1.7 数据仓库中粒度的概念

引言:

数据仓库的粒度设计是为了适应多维分析、控制数据量和提高性能、支持不同层次的分析以及保护数据隐私和安全等原因.粒度的选择需要充分考虑业务需求和数据分析的目标,并进行合理的权衡.

概念:

粒度是数据仓库中一个最重要的概念,是指数据仓库的数据单位中保存数据细化和综合程度的级别.粒度影响存放在数据仓库中的数据的大小,同时影响数据仓库所能回答查询问题的细节程度.

两种形式:

  • 按时间段综合数据的粒度
  • 按采样率高低划分的样本数据库

案例分析:

img

1.8 BI的定义、概念和用途

引言:

BI主要是为了帮助组织和企业更好的进行数据分析和决策.BI通过收集、存储、分析和可视化数据,将数据转化成有意义的信息和洞察力,帮助企业了解当前的业务情况和趋势,并支持决策的制定和战略规划.

定义:

BI全称商业智能(Business Intelligence),在传统企业中,它是一套完整的解决方案.将企业的数据有效整合,快速制作出报表以做决策.

概念:

商业智能BI在数据架构中处于前端分析的位置,其核心作用是对获取数据的多维度分析、数据的切片、数据的上钻和下钻、cube等.通过ETL数据抽取、转化形成一个完整的数据仓库、然后对数据仓库的数据进行抽取,而后是商业智能的前端分析和展示.

用途:

  • 利用BI制作自动化报表,数据类工作每天都会接触大量数据,并且需要整理汇总,这是一块很大的工作量.这部分工作可以交给BI自动化完成,从数据规整、建模到下载.
  • 使用其可视化功能进行分析,BI的优点在于它提供比Excel更丰富的可视化功能,操作简单上手,而且美观,如果每天作图需要两个小时,BI会缩短一半时间.

案例分析:

img

1.9 BI的操作流程

  • 数据源获取
  • 数据清洗
  • 数据关联
  • 图表制作
  • Dashboard整合

案例分析:

img

2.0 Power BI自然语言查询的用法和连接数据源的方法

引言:

Power BI是微软推出的一款商业智能工具,用于数据分析和可视化.它提供了一套功能强大的工具和服务,帮助用户从各种数据源中获取,整合和分析数据,并以直观的可视化方式呈现结果.

自然语言查询的用法:

当使用Power BI时,用户可以通过询问来分析数据,用户只需要用简单的自然语言(简单的英语)而不需要使用特殊的代码或语法,这个特性被称为自然语言查询.通过它,用户可以用向同事询问的方式要求Power BI执行任务.

自然语言查询操作方法:

  • 选择某一数据集
  • 然后单击提问选项
  • 在中央面板的“问答”框中,输入一个简单的查询语句
  • Power BI就会理解这个查询语句的意义,并提供一个条形图

Power BI连接数据源的方法:

  • 在Power BI Desktop的“开始”选项卡上,单击“获取数据源”选项,这次使用的是SQL Server选项,然后单击“确定”按钮
  • Power BI Desktop连接数据到了数据库,并提供了一份数据表,当点击它时,Power BI Desktop显示了内容的预览,在连接数据库时,有一个选择模式的选项,选择“导入”,然后点击“确定”按钮.
  • Power BI Desktop连接到数据库,查询信息并加载,并将信息储存在其内部数据模型中.
  • 然后,可以在Power BI Desktop中使用这些数据,而不需要时常连接数据库.当想要刷新数据时,只需要一个连接来获取最新的数据即可.

案例分析:

img

暂无评论

发送评论 编辑评论


				
|´・ω・)ノ
ヾ(≧∇≦*)ゝ
(☆ω☆)
(╯‵□′)╯︵┴─┴
 ̄﹃ ̄
(/ω\)
∠( ᐛ 」∠)_
(๑•̀ㅁ•́ฅ)
→_→
୧(๑•̀⌄•́๑)૭
٩(ˊᗜˋ*)و
(ノ°ο°)ノ
(´இ皿இ`)
⌇●﹏●⌇
(ฅ´ω`ฅ)
(╯°A°)╯︵○○○
φ( ̄∇ ̄o)
ヾ(´・ ・`。)ノ"
( ง ᵒ̌皿ᵒ̌)ง⁼³₌₃
(ó﹏ò。)
Σ(っ °Д °;)っ
( ,,´・ω・)ノ"(´っω・`。)
╮(╯▽╰)╭
o(*////▽////*)q
>﹏<
( ๑´•ω•) "(ㆆᴗㆆ)
😂
😀
😅
😊
🙂
🙃
😌
😍
😘
😜
😝
😏
😒
🙄
😳
😡
😔
😫
😱
😭
💩
👻
🙌
🖕
👍
👫
👬
👭
🌚
🌝
🙈
💊
😶
🙏
🍦
🍉
😣
Source: github.com/k4yt3x/flowerhd
颜文字
Emoji
小恐龙
花!
上一篇