DAMA重点.pdf
Document Details
Tags
Full Transcript
DAMA 中国 CDGA 考试复习重点 第1 章 数据管理 从数据中获取的价值不可能凭空产生或依赖于偶然。需要有目标、规划、协作和保障。也需要管 理和领导力。 数据管理(Data Management)是为了交付、控制、保护并提升数据和信息资产的价值。 数据管理最直接的目标。数据质量 数据管理最...
DAMA 中国 CDGA 考试复习重点 第1 章 数据管理 从数据中获取的价值不可能凭空产生或依赖于偶然。需要有目标、规划、协作和保障。也需要管 理和领导力。 数据管理(Data Management)是为了交付、控制、保护并提升数据和信息资产的价值。 数据管理最直接的目标。数据质量 数据管理最终目标:数据价值 数据管理的主要驱动力也是使组织能够从其数据资产中获取价值。 二者都是数据: 以数字形式存储的 纸面上的数据 大多数人认为数据代表事实。数据是这个世界中与某个事实结合在一起的一种真实表达。 但“事 实” 并不总是简单或直接的。 数据是一种表示方法。它代表的是除自身以外的事物。 数据既是 对其所代表对象的解释。也是必须解释的对象。 关于数据和信息的描述早已汗牛充栋。 数据被称为“信息的原材料”。而信息则被称为“在上下 文语境中的数据”。 DIKW 信息是经过加工了的。 着重点不在于他们的差别,而在于他们的相同点:在本书中。这些术语可以互换使用。 考题: A. 数据和信息不一样 B. 这些术语可以互换使用 数据作为一种资产: 损益表: 数据还无法上财务报表。数据作为资产离财务报表还有多远? 满足了财务会计准则的 20 条,但不符合 21 和 22 条 数据价值评估: 1. 成本法 2. 市场法 3. 盈利法 DAMA 是以成本法为主 OLTP vs OLAP 交易:业务连续性,不要宕机;3NF 分析:性能; 逆规范化 DAMA 关于数据资产的 10 项准则 数据作为资产要上财务报表,是需要修改现有的财务准则的。 数据价值评估模型,目前全国只有两家是国家层面认可的: 1. 光大银行 2. 南方电网 数据管理原则总有 12 项,这个都需要知道: 1. 数据是有独特属性的资产 2. 数据的价值可以用经济术语来表示 3. 管理数据意味着对数据的质量管理 4. 管理数据需要元数据 5. 数据管理需要规划 6. 数据管理须驱动信息技术决策 7. 数据管理是跨职能的工作 8. 数据管理需要企业级视角 9. 数据管理需要多角度思考 10. 数据管理需要全生命周期的管理 11. 数据管理需要纳入与数据相关的风险 12. 有效的数据管理需要领导层承担责任 什么是元数据: 这是技术术语 从业务层面来讲: 元数据就是:数据资源目录 数据与其他资产的区别 实物资产是看得见、摸得着、可以移动的。在同一时刻只能被放置在一个地方。 金融资产必须 在资产负债表上记账。 然而数据不同。它不是有形的。 尽管数据的价值经常随着时间的推移而变 化。但它是持久的、不会磨损的。 数据很容易被复制和传送。但它一旦被丢失或销毁。就不容易 重新产生了。 因为它在使用时不会被消耗。所以它甚至可以在不损耗的情况下被偷走。 数据是动 态的。可以被用于多种目的。 同样。数据甚至可以在同时被许多人使用。而对实物资产或金融资 产来说。这是不可能的。 数据被多次使用产生了更多的数据。大多数组织不得不管理不断提升的 数据量和越来越复杂的数据关系。 1. 成本法 2. 盈利法 3. 市场法 数据价值: DAMA 用的基本还是成本法 1)获取数据的成本 2)存储数据的成本 建立企业的视角是为了 ==》打通数据孤岛 如何实现 – 打通数据孤岛: 国外: 主数据 (生产源头) 国内: 数据中台, OneID (OLAP) 数据 ROT (冗余的、过时的、不重要的) 降至最低 ==》 就表示提高数据质量。 不同种类的数据其它可以忽略不计,但需要知道这二者的差别: OLTP vs. OLAP 首席数据官(CDO) : chief data officer 数据管理战略规划的可交付成果包括: 1) 数据管理章程。 包括总体愿景、业务案例、目标、指导原则、成功衡量标准、关键成功因 素、可识别的风险、运营模式等。 2) 数据管理范围声明。 包括规划目的和目标(通常为3 年)。以及负责实现这些目标的角色、 组织和领导。 3) 数据管理实施路线图。 确定特定计划、项目、任务分配和交付里程碑。 Specific、measurable、actionable、realistic、timing 数据治理框架: 1) 前两个模型。即战略一致性模型和阿姆斯特丹(Amsterdam) 信息模型。展示了组织管 理数据的高阶关系。 2) DAMA-DMBOK 框架(DAMA 车轮图、六边形图和语境关系图)。 描述了由DAMA 定义的 数据管理知识领域。并解释了它们在DMBOK 中的视觉表现。 3) 最后两个模型是以DAMA 为基础重新排列组件。以便于更好地理解和描述它们之间的系。 战略一致性模型和阿姆斯特丹信息模型,都是强调: 业务和 IT 的一致性 数据和 IT 的一致性? 软件系统和硬件系统? DAMA 框架包括三个内容: 1) DAMA 车轮图、2) 六边形图、和 3)语境关系图 1) DAMA 车轮图: 总论,数据管理到底包括哪些内容,共 11 项。 2) 六边形图:需要知道六边形指什么,制度 3)语境关系图:需要知道语境关系指什么,实施细则 阿姆斯特丹信息模型与战略一致性模型一样。从战略角度看待业务和 IT 的一致性。 语境关系图中的“活动”是指: A。计划(P)、控制(C)、开发(D) 和运营(O) B。计划(P)、开发(D) 控制(C)、和运营(O) 考题中,有可能 4 个选项全对的。在这种情况下,就需要选择最佳答案 A。 第2 章 数据处理伦理 简单来说。伦理是建立在是非观念上的行为准则。 伦理准则通常侧重于公平、尊重、责任、诚 信、质量、可靠性、透明度和信任等方面。 对于数据管理专业人员及其工作的组织来说。数据伦理是一项社会责任问题。 数据处理伦理问题较为复杂。不过主要集中在几个核心概念上: 1) 对人的影响。 由于数据代表个人的特征。可被用于各类决策。从而影响人们的生活。因此 必须保证其质量和可靠性。 2) 滥用的可能。 滥用数据会对人和组织造成负面影响。所以需要有伦理准则来防止数据被滥用。 3) 数据的经济价值。 数据存在经济价值。 需要规定数据所有权。即谁可以去使用数据及如何 使用数据。 正如爱德华.戴明关于质量的定义。伦理意味着“在没有人注意的情况下正确做事”。 我们中文讲的就是:慎独 法律往往是延后的,也不可能面面俱到。所以需要伦理道德的自我约束。 数据伦理准则是指: 1. 尊重他人 2. 行善原则 3. 公正 4. 尊重法律和公众利益 数据隐私法: 背后都是伦理准则。伦理准则提升成为法律。 GDPR 准则需要知道: GDPR 准则 描述 公平、 合法、透明 数据主题中的个人数据应以合法、公平,透明的方式进行处理 目的限制 必须按照指定、明确、合法的目标去采集个人数据,并且不得将数据用于收采集 目标之外的方面。 数据最小化 采集的个人数据必须足够相关,并且仅限于与处理目的相关的必要信息。 准确性 个人数据必须准确,有必要保持最新的数据。必须采取一切合理步骤,确保在考 虑处理个人数据目的时,能及时删除或更正不准确的个人数据。 存储限制 数据必须以可以识别的数据主体(个人)的形式保存,保存时间不得超过处理个 人数据所需的时间。 诚信和保密 必须确保个人数据得到安全妥善的处理,包括使用适当技术和组织方法防止数据 被擅自或非法处理、防止意外丢失、破坏或摧毁等。 问责制度 控制数据的人员应负责并能够证明符合上述这些原则。 数据伦理问题的部分场景,比如: 1. 时机选择 2. 可视化误导 3. 定义不清晰或无效的比较 4. 偏见 偏见有几种类型: 1) 预设结论的数据采集。 分析师迫于压力采集数据并产生结果。来支持一个预先定义的结论。 而不是为了得出一个客观的结论。 2) 预感和搜索。 分析师有一种预感。且想要满足这种预感。故只使用能证实这种直觉的数据。 并且不想考虑从数据中能得出的其他可能性(如果某些数据不能证实该方法。它可能会被丢弃)。 3) 片面抽样方法。 抽样往往是数据采集的一个常用方法。 但是。选择样本集的方法可受到偏 见的影响。 对于人类来说。没有某种偏见。几乎是不可能的。 为了限制偏见。可使用统计工具选 择 样本并建立适当大小的样本。 意识到用于训练目的样本数据可能存在偏见尤其重要。 5) 背景和文化。 偏见通常是基于文化或背景。因此。要中立地看待事物。就必须走出这种文 化或背景。 第3 章 数据治理 数据治理有广义和狭义之分 数据管理 > 数据治理 数据治理是数据管理的 1/11 数据治理的内容: 1. 组织架构 2. 规章制度 3. 流程 4. 技术 就好像会计审计人员和财务会计人员之间的关系。并不直接管理数据,对数据管理的管理 数据治理的内容: 战略(Strategy):定义、交流和驱动数据战略和数据治理战略的执行 策略(Policy):设置与数据、元数据管理、访问、使用、安全和质量有关的策略 标准和质量(Standards and quality):设置和强化数据质量、数据架构标准 监督(Oversight):在质量、政策和数据管理的关键领域提供观察、审计和纠正等实际操作 措施(通常称为管理职责 stewardship) 合规(Compliance):确保组织可以达到数据相关的监管合规性要求 问题管理(Issue management):识别、定义、升级和处理问题,针对如下领域:数据安全、 数据访问、数据质量、合规、数据所有权、政策、标准、术语或者数据治理程序等 数据管理项目(Data management projects):增强提升数据管理实践的努力 数据资产估价(Data asset valuation):设置标准和流程,以一致的方式定义数据资产的业务 价值 数据治理最常见的驱动因素是法规遵从性。特别是重点监控行业,哪些是重点监控的? (1) 减少风险 (2) 改进流程 数据治理不是一次性的行为。 数据治理要与 IT 治理区分开。 为达到整体目标,数据治理程序必须要: 可持续发展(Sustainable):治理程序必须富有吸引力。它不是以一个项目作为终点,而是一 个持续的过程,需要作为整个组织的责任。数据治理必须改变数据的应用和管理方式,但也不 代表着组织要做巨大的更新和颠覆。数据治理是超越一次性数据治理组件实施的可持续发展的 路径管理变革。可持续的数据治理依靠于业务领导、发起者和所有者的支持。 嵌入化(Embedded):数据治理不是一个附加管理流程。数据治理活动需要融合到软件开发 方法、数据分析的应用,主数据管理和风险管理中。 可度量(Measured):数据治理做得好有积极的财务影响,但要证明这一影响,就需要了解 起点并计划可度量的改进方案。 正如财务审计人员实际上并不执行财务管理一样。数据治理确保数据被恰当地管理而不是直接 管理数据(参见第15 章)。 数据治理相当于将监督和执行的职责分离。 数据治理可以有三种模式: 在集中式管理模式中。数据治理组织监督所有业务领域中的活动。 在分布式管理模式中。每个 业务单元中采用相同的数据治理运营模型和标准。 在联邦式管理模式中。数据治理组织与多个业 务单元协同。以维护一致的定义和标准。 组织架构: 1. 是否要设立首席数据官 2. 是否要设立委员会 3. 数据管理专员 4. 数据 owner 5. 问责机制 数据管理职责 Data Stewardship,不是数据的 owner, 首席数据官: 1. 管好数据 2. 做好转型 3. 建好团队 数据管理职责是一种业务职责,主要负责对数据资产的有效控制和使用。管理职责可以通过 职位名称和职责描述正式确定,也可以采用非正式形式,由帮助组织获取数据价值的人所驱动。 通常情况下,像保管人、受托人这样的称呼,就是类似的管理职能的同义词。 管理职责的焦点因组织不同而不同,取决于组织战略、文化、试图解决的问题、数据管理成 熟度水平以及管理项目的形式等因素。然而在大多数情况下,数据管理活动将集中于以下部分 (未必全部): 创建和管理核心元数据(Creating and managing core Metadata):业务术语、有效数据值及 其他关键元数据的定义和管理。通常管理专员负责整理的业务术语表,成为与数据相关的业务 术语记录系统。 记录规则和标准(Documenting rules and standards):业务规则、数据标准及数据质量规则 的定义和记录。通常基于创建和使用数据的业务流程规范,来满足对高质量数据的期望。为确 保在组织内部达成共识,由管理专员帮助制定规则并确保其得到连贯的应用。 管理数据质量问题(Managing data quality issues):管理专员通常参与识别、解决与数据相 关的问题,或者促进解决的过程中。 执行数据治理运营活动(Executing operational data governance activities):管理专员有责任 确保数据治理政策和计划在日常工作或每一个项目中被遵循执行。对决策发挥影响力,确保以 支持组织总体目标的方式管理数据。 这些人他们没有立项和预算的权限。立项和预算是数据 owner 的权限。 管理专员(Steward。直译为管家。本书译为管理专员) 指其职责是为别人管理财产的人。 数据管理专员代表他人的利益并为组织的最佳利益来管理数据资产。 pain point,痛点 touch point,触点 数据治理战略的交付物包括: 章程(Charter):确定数据管理的业务驱动愿景、使命和原则,包括成熟度评估、内部流程分 析及当前问题和成功标准; 运营框架和职责(Operating framework and accountabilities):定义数据治理活动的结构和责任; 实施路线图(Implementation roadmap):制定时间计划,其涉及到最终发布的政策、指令、业 务术语、架构、资产价值评估、标准和程序,以及所期望业务和技术流程发生的改变、支持审 计活动和法规遵从的交付成果。 为成功运营制定计划(Plan for operational success):为数据治理活动描述一个可持续发展的 目标状态; 定义数据治理运营模型 Define the DG Operating Framework 开发数据治理的基本定义很容易,但是创建一个组织采用的运营模型可能很困难。在构建组 织的运营模型时需要考虑如下这些方面: 数据对组织的价值(Value of data to the organization):如果一个组织出售数据,显然数据治 理具有巨大的业务影响力。将数据作为最有价值事物的组织(如 Facebook、亚马逊)将需要一 个反映数据角色的运营模式。对于数据是操作润滑剂的组织,数据治理形式就不那么严肃了; 业务模式(Business model:):分散式与集中式、本地化与国际化等是影响业务发生方式,以 及如何定义数据治理运营模式的因素。与特定 IT 策略、数据架构和应用程序集成功能的链接, 应反映在目标运营框架设计中(如图 16 所示)。 文化因素(Cultural factors):就像个人接受行为准则、适应变化的过程一样,一些组织也会 抵制政策和原则的实施。治理战略需要提倡一种与组织文化相适应的运营模式,同时持续地进 行变革; 监管影响(Impact of regulation):与受监管程度较低的组织相比,受监管程度较高的组织具 有不同的数据治理心态和运营模式。可能还与风险管理或法律团队有联系。。 制定业务术语表: 是有争议的。也有人认为这个不应该数据数据治理的内容,而应该是个单独的 项目。 线上应用/ 网站:一般的企业都有一个内部的网址用以宣传和学习企业的数字化转型。 数据治理指标的示例包括: 价值: 对业务目标的贡献 风险的降低 运营效率的提高 有效性: 目标和目标的实现 扩展管理专员正在使用的相关工具 沟通的有效性 培训的有效性 采纳变革的速度 可持续性 政策和流程的执行情况(即它们是否正常工作?) 标准和规程的遵从情况(即,员工是否在必要时遵守指导和改变行为) 第4 章 数据架构 术语“架构”已经被广泛接受,并用于描述信息系统的重要设计部分。在国际标准 ISO/IEC/IEEE 42010:2011 中,将架构定义为“系统的基本结构, 具体体现在架构构成中的组件、组件之间的相互 关系,以及管理其设计和演变的原则” 1. 什么是数据架构 a. 数据模型 1. 概念模型 -- 数据架构师,偏向业务 2. 逻辑模型 -- 数据架构师,偏向业务 3. 物理模型 --- 是数据建模的输出物,DBA b. 数据的分布图(数据的流程图、数据的价值链) 2. 两个原则 数据架构的目标是在业务战略和技术实现之间建立起一座通畅的桥梁。数据架构是企业架构中的 一部分 OLTP vs. OLAP OLAP 是为分析和决策用的。 都不会直接在 OLTP 上做分析 企业架构包括业务架构、数据架构、应用架构和技术架构。 TOGAF Zachman 框架是一个本体。即6 ×6 矩阵构成了一组模型。这组模型可以完整地描述一个 企业以及相互之间的关系。 FEA(federal enterprise architecture) 1) 企业数据模型。 2) 数据流设计。 基于业务架构的基础上: 1) 面向质量。 2) 面向创新。 建立企业数据架构通常包括以下工作。这些工作可以串行或并行执行。 1) 战略。 选择框架。制定方法。开发路线图。 2) 沟通与文化。 建立沟通机制。并激励积极参与者。 3) 组织: 通过明确责任和职责来组织数据框架工作。 4) 工作方法。 与企业架构保持一致。在开发项目中定义最佳实践并执行数据架构工作。 5) 结果。 在总体路线图中产出数据架构产品。 企业数据架构项目相关的活动包括: 定义范围: 保证范围和接口与企业数据模型一致。理解项目对整体企业数据架构的潜在贡献, 项目的建模和设计,哪些现有组件应该或能够被重用。在需要设计的部分,项目应该确定项目 范围外的利益相关者的依赖性,如下游流程。项目确定共享或重要的数据构件,应该整合到企 业逻辑数据模型和指定的存储库中。 理解业务需求: 获取数据相关的需求,如实体、资源、可用性、质量和痛点,以及评估满足这 些需求的业务价值。 设计: 形成详细的目标规范,包括数据生命周期内的业务规则,验证结果的有效性,需要提供 的时间,提升模型的扩展性,改进标准模型等。企业逻辑数据模型和企业架构知识库,为项目 数据架构师提供查询,企业内可重用数据结构共享提供很好的支撑。同时,审核和使用数据技 术标准。 实施 运维和运营 项目中的企业数据架构角色依赖软件开发过程。 因采用的方法不同。将架构活动嵌入到项目中 的过程也不同。具体采用的方式有以下三种: 1) 瀑布方式。 2) 迭代方式。 3) 敏捷方式。 DevOps Development Operation 用数 – DataOps 张三在 2021 年在广州卖出了多少辆车? 4 个维度: 1 个指标 国家-省-城市 可以画图的软件: Visio 用以建模的软件: ERWin 实施企业数据架构主要包含的工作内容为: 1) 建立企业数据架构团队和举办问题讨论会。 2) 生成数据架构构件的初始版本。 例如。企业数据模型、企业范围数据流和路线图。 3) 在开发项目中。形成和建立数据架构工作方式。 4) 提高组织对数据架构工作价值的认识。 企业数据架构衡量指标反映了架构目标: 架构接受度、实施趋势、业务价值。 利旧 一般现有系统可以满足 75%的新需求,就应该利旧,而不可以立新项目了。 第五章 数据建模和设计 为什么要重视建模: 建模 --->: 表 ---> 用来存储数据的。 建模是指表结构的设计。表是用来存储数据的。 1. 直接影响存储成本 2. 直接影响性能 数据模型对于有效的数据管理至关重要。如: 1) 提供有关数据的通用词汇表。 2) 获取、记录组织内数据和系统的详细信息。 3) 在项目中作为主要的交流沟通工具。 4) 提供了应用定制、整合,至替换的起点。 除了表之外,还有: 视图 index 分区 。。。。。 create table emp (....); ID name birthdate.... insert into emp values ('zhang san',......); select * from emp; 其中最为常见的6 种模式分别是: 关系模式、多维模式、面向对象模式、事实模式、时间序列模 式和 NoSQL 模式。 按照描述详细程度的不同。每种模式又可以分为3 层模型: 概念模型、逻辑模型和物理模型。 大多数数据模型都包含基本相同的组件: 实体、关系、属性和域。 部分数据建模的软件: ERWin Oracle SQL Developer Data Molder PowerDesigner 1.概念、逻辑、物理 如何识别模型: 没有属性的 --- 概念 有属性的 --- 逻辑模型 -- 更多的是用业务术语描述: First Name 逻辑模型: Entity (实体),属性 2. 关系 (Relationship): 多对多 -- 不行,违反了 3NF, 需要个中间表 多对一 -- 可以 一对多 --- 可以 一对一 -- 不行,两个实体要合并 ERWin ERD - entity relationship diagram 物理模型 -- 是要技术选型的,有许多的命名规则和标准: 比如: 字段里不能有空间: First Name ---》 First_Name 长度不能超过 30: first_name_xxxxxxxvvvvvvvvvvvvvvv 许多情况下会用简写,比如: tab, t v c i code - cd date - dt entity -> table (表) attr -> col (字段) relationship --> FK(外键) 3. 正向工程: ERD - DDL ERD - 表 6 figures 000000.00 (8,2) 4. 逆向工程: 在元数据管理中非常重要 5. 域 6. 报告和元数据 高质量的数据定义具备以下3 个基本特征: ①清晰(Clarity) ②准确(Accuracy) ③完整(Completeness) 关系捕获概念实体之间的高级别交互、逻辑实体之间的详细交互以及物理实体之间的约束。 基数(Cardinality): 只能选择0、1 或多。 属性(Attribute) 是一种定义、描述或度量实体某方面的性质。 如何建立数据标准: 1. 联合国 2. 国标 3. 行标 4. 地标 5. 团标 6. 自建 运营商的行业标准:SID 单一键(Simple Key) 组合键(Compound Key) 复合键(Composite Key) 主键(Primary Key) 是被选择为实体唯一标识符的候选键。 即使一个实体可能包含多个 候选键。但只有一个候选键能够作为一个实体的主键。 在数据建模中。域(Domain) 代表某一属性可被赋予的全部可能取值。域可以用多种不同的 方式定义。 1) 数据类型(Data Type) 2) 数据格式(Data Format) 3) 列表(List) 4) 范围(Range) 5) 基于规则(Rule-Based) 非关系型(NoSQL) 文档(Document) 列(Column) 图(Graph), Neo4j 键值(Key ̄Value) 维度建模,两种类型的表: 1) 事实表。 2) 维度表。可以有两种设计: star schema (星型设计) - 没有延展 snowflake (雪花设计) - 维度表是有层级的 维度设计: OLAP 用的。 3NF: OLTP SCD(slow changing dimension): 渐变类的维度根据变化的速率和类型来管理变化。 3 种主要的变化类型有时被称为ORC。具体 如下: ①第一类。覆盖(Overwrite )。 新值覆盖旧值。 ②第二类。新行(New Row)。 新值写在新行中。旧行被标记为非当前值。 ③第三类。新列(New Column)。 一个值的多个实例列在同一行的不同列中。而一个新值 意味着将系列中的值向下一点写入。以便在前面为新值留出空间。 最后一个值被丢弃。 UML: 不是用来建表的 通常有4 类 NoSQL 数据库: 文档数据库、键值数据库、列数据库和图数据库。 为什么叫 NoSQL? 1. No More SQL 2. Not Only SQL 物理数据模型受实现技术约束: 1. 概念和逻辑 --- 不需要考虑技术选型和实现的 -- 架构师,更加偏向业务 2. 物理 --- 是需要考虑技术选型和实现的 --- DBA,更加偏向技术 逆规范化。 逆规范化(Denormalization) 是将符合范式规则的逻辑数据模型经过 慎重考虑 后。转换成一些带冗余数据的物理表。 换言之。逆规范化有意将一个属性放在多个位置。 将数据 逆 规范化有要的是提高性能。如: ①提前组合来自多个其他表的数据。以避免代价高昂的运行时连接。 ②创建更小的、预先过滤的数据副本。以减少昂贵的运行时计算和/ 或大型表的扫描。 ③预先计算和存储昂贵的数据计算结果。以避免运行时系统资源竞争。 逆规范化的原因:牺牲空间换取时间 OLAP: 性能 OLTP: 业务的连续性,不能宕机 逆规范化: 不可能在 OLTP 里;只能在 OLAP 里;物理模型 3) 第三范式(3NF)。 确保每一个实体都没有隐藏的主键。每个属性都不依赖于键值之外的任何 属性(仅依赖于完整的主键)。 正向工程是指从需求开始构建新应用程序的过程。 首先需要通过建立概念模型来理解需求的范围 和核心的术语ꎻ 然后建立逻辑模型来详细描述业务过程ꎻ 最后是通过具体的建表语句来实现物理 模型 逆向工程是记录现有数据库的过程。 物理数据建模通常是第一步 1. 是否三个层面都需要?不是 2. 是否一定要按照这个顺序?不是 ERWin SQL(structured query language): 50 年 Python Java Scala SAS SPSS Kibanna Weka Rapidminer....... 1. select (query) 2. DML: insert, update, delete, merge (upsert) 3. DDL: data definition language, 创建 create table employee (.....); 4. DCL: rollback,commit select.... from bigtable, smalltable where.....; 数据自助服务 (低代码) DBA: OCP 1. SQL,2 天, 2. Admin I,5 3. Admin II, 5 10 天培训 数据血缘 命名约定,命名规则 在设计和构建数据库时。DBA 应牢记以下PRISM 设计原则: 1) 性能和易用性(Performance and Ease of Use) 2) 可重用性(Reusability) 3) 完整性(Integrity) 4) 安全性(Security) 5) 可维护性(Maintainability) 数据模型记分卡 CREATE TABLE teacher ( id INTEGER, first_name VARCHAR2(200), last_name VARCHAR2(200), salary NUMBER(8, 2) ); Insert into teacher values (1, ‘zhang’, ‘san’,1000); Insert into teacher values (2, ‘li’, ‘si’,2000); Select * from teacher where id = 1; 张三在 2023 年在杭州卖出了多少辆车? 1. 几个维度:4 2. 指标: 1 矩阵型 – Cognos OLAP: 1. ROLAP 2. MOLAP 3. HOLAP 实体和属性的设计和技术相关? 表和字段的设计和技术相关? 逆向工程: A.对数据安全管理至关重要? B.对数据质量。。。 C.对元数据的管理至关重要 第6 章 数据存储和操作 (1) 数据库操作支持 (2) 数据库技术支持 数据库管理员(DBA) 在数据存储和操作上述两个方面中都扮演着重要的角色。 DBA 这个角 色是数据专业中最常见。也是最被广泛接纳的角色。 服务水平协议(SLA): 从专业分工来划分。DBA 被分为生产DBA、应用程序DBA、过程和开发DBA。 数据库处理有两种基本类型: ACID 和BASE。 一致性,all or nothing 最终一致性 通常在大数据环境里会使用BASE 类型的系统。如大型互联网公司和社交媒体公司。 7 秒黄金定律 oracle: 12 MariaDB - MySQL DorisDB: 7 CAP 定理(也称为“布鲁尔定理”) 是集中式系统在朝着分布式的系统方向发展过程中提出的 理论。 CAP 定理指的是分布式系统不可能同时满足ACID 的所有要求。 系统规模越大。满 足的要求 点越少。 分布式系统必须在各种属性(要求) 间进行权衡。 1) 一致性(Consistency) 2) 可用性(Availability) 3) 分区容错(Partition Tolerance) CAP 定理指出。在任何共享数据的系统里。这3 项要求最多只可能同时满足其中两项。 通常 用 “三选二” 来说明。 1) 生产环境 (2) 非生产环境 开发环境、测试环境、支持环境和特别用途环境 database 100gb 1. 备份: 1 ==》 100gb 2. RAID: 0:stripping 1: mirror 5: partiy OLTP: 1 + 0 或者 0 + 1: 50% ==== 200gb * 2 = 400gb OLAP: 5: 75% ===== 200gb +200g*75%=350gb 变动数据捕获(Change Data Capture。CDC) 目前市场上主流的 RDBMS: 1. Oracle 2. SQL Server 3. UDB/DB2 4. Sybase 1. Teradata 2. Netezza 1. MySQL (OLTP), online transactional processing 2. PostgresSQL (OLAP), online analytic processing 去 IOE: IBM Oracle EMC 信创,安可 业务连续性: OLTP Hadoop 数据存储: 3 copies 管理数据库性能: OLAP 如何调优性能: 1. bad SQL,CPU、memory、I/O SQL tuning 2. database 参数 3. 设计,表,索引,分区。。。。。 4. OS,或者 Redis 物理命名标准 你的数据库有多大? 200TB 200GB 度量指标 第7 章 数据安全 网络安全 不等于 数据安全 为保证数据安全,我们需要有哪些能力? 数据安全的业务驱动因素: 1 降低风险 2 业务增长 3 安全性作为资产 http vs. https 数据安全活动目标包括: 支持适当访问并防止对企业数据资产的不当访问 支持对隐私、保护和保密政策法规的遵从 确保满足利益相关者对隐私和保密的要求 A) 支持适当访问,并防止对企业数据资产的不当访问 B) 防止对企业数据资产的不当访问,并支持适当访问 数据安全要求和过程分为四组,称为 4A: 访问(Access)、审核(Audit)、身份验证 (Authentication)和授权(Authorization)。最近,为了有效遵守数据法规,还包含了一个 E,即 权利(Entitlement)。 敏捷(Agail) 哈希、对称加密、非对称加密 数据脱敏分为两种类型: 静态脱敏和动态脱敏。 静态数据脱敏(Persistent Data Masking) 永久且不可逆转地更改数据。 这种类型的脱敏通常不会在生产环境中使用。而是在生产环境和开发(或测试) 环境之间运用。 动态数据脱敏(Dynamic Data Masking) 是在不更改基础数据的情况下。在最终 用户或系统中改变数据的外观。 3) 时空变异(Temporal Variance)。 把日期前后移动若干天(小到足以保留趋势)。 足以使它无法识别。 4) 数值变异(Value Variance)。 应用一个随机因素(正负一个百分比。小到足以保 持趋势)重要到足以使它不可识别。 regular expression 1. DBA 2. Root Root:rm -rf / DBA: shu abort Shu – shutdown VA - sysdba 在渗透测试(有时称为"penn test")中,来自组织本身或从外部安全公司雇佣的“白帽”黑客试图从 外部侵入系统,正如恶意黑客一样,试图识别系统漏洞。通过渗透测试发现的漏洞应该在应用程 序正式发布之前予以解决。 (1) 设施安全 (2) 设备安全 (3) 凭据安全 (4) 电子通信安全 CCNA, CCNP,CCIE Java: 9.6.NET: 8 DBA: 12 架构师: 18 万 CCIE: 18 万 CIO: 23 万 CDO: 27 万 CFO: 28 CDO: 33 保密范围要求从高(例如,极少有人能够访问员工薪酬数据)到低(每个人都可以访问产品目 录)。以下列出的五个机密分类级别,典型的分类架构可能包括其中两个或更多: 普通受众公开(For general audiences):可向任何人(包括公众)提供的信息。 内部使用(Internal use only):仅限于员工或成员的信息,但信息分享的风险很小。仅供内部 使用,可在组织外部显示或讨论,但不得复制。 机密(Confidential): 若无恰当签署的保密协议或类似内容,不得在组织以外共享。不得与 其他客户共享客户机密信息。 受限机密(Restricted confidential):信息仅限于特定"需要知道"角色的个人。受限机密可能要 求个人通过许可获得资格。 绝密(Registered confidential):信息机密程度非常高,任何信息访问者都必须签署一份法律 协议才能访问数据,并承担保密责任。 1. PII 2. 财务敏感数据 3. 医疗敏感数据/ 个人健康信息(PHI) 4. 教育记录。 dba - VA-sysdba root rm -rf / 1) 即时消息。 2) 社交网 3) 垃圾邮件。 CRUD: 权限,create, read,update, delete RACI: 职责,负责、批注、咨询、通知(RACI) 矩阵 外包世界中的数据安全:任何事情皆可外包。但责任除外。 度量指标: 1) 安全实施 2) 安全意识 3) 数据保护 4) 安全事件 5) 机密数据扩散 第8 章 数据集成和互操作 抽取、转换、加载(Extract, Transform, and Load) 1. ETL vs. ELT – 不同的数据加载的方法 2. 血缘关系 3. 时延 结构化的数据 - ETL - 数仓 - 业务场景是明确 - 对已经发生的事情的一个总结或展现 - BI 结构化+非结构化数据 - ELT - 数据湖 - 业务场景是不明确的 - 对未来的预测或者挖掘 - AI 大集中: Data Mesh 抽取、转换和加载(ETL) OLTP - ETL --- OLAP OLAP - DW - BI - DSS (decision suport system) 转换的例子包括: 格式变化:数据技术的格式转换,例如从 EBCDIC 到 ASCII 的格式转换 结构变化:数据结构的变化,例如从非规范化到规范化的记录 语义转换:数据值转换时保持语义的一致化表达。例如,源性别代码可以包括 0、1、2 和 3, 而目标性别代码可以表示为 UNKNOWN、FEMALE、MALE 或 NOT PROVIDED 消除重复:如果规则需要唯一的键值或记录,确保包括扫描目标、检测和删除重复行的方法 重新排序:改变数据元素或记录的顺序以适应已定义的模式 比如: 2.000,00 2,000.00 3/1/2022 2022/3/1 0, 1, 2 未知,男,女 T 是免不了的。 数仓: ETL,应用场景是知道 数据湖: 不知道这些数据的应用场景,ELT 结构化的数据 – ETL – 数仓 – 业务场景是明确 – 对已经发生的事情的一个总结或者展现 – BI 结构化+非结构化数据 – ELT – 数据湖 – 业务场景是不明确 – 对未来的预测或者挖掘 – AI ELT 允许在数据加载到目标系统后再进行转换。 映射(Mapping) 是转换的同义词。它既是从源结构到目标结构建立查找矩阵的过程。也是 该 过程的结果。 血缘关系 时延的要求基本就决定了数据加载的方法 数据高铁: T+30 T+7 T+30分钟 Unit of measure – 是可以自定义的 时延 5G: 0.8 0.00008 时延(Latency) 是指从源系统生成数据到目标系统可用该数据的时间差。 时延决定了你可选用的ETL的方法 软件: 1. Informatica 2. Ab Initio 3. Data Stage 4. SSIS 5. OGG Netezza 1. Kettle 2. Talend 以上都是基于批量 实时: 1. Kafka 2. Pulsar 3. Spark Stream 。。。。 (1) 批处理 (2) 变更数据捕获 (CDC) (3) 准实时和事件驱动 (Near real time) (4) 异步 (5) 实时。同步 (6) 低延迟或流处理 RTD (real time decision) 批流一体 湖仓一体 Spark 1. SparkSQL 2. SparkGraph 3. SparkML 4. SparkStream 交互模型描述了在系统之间建立连接以传送数据的方式。 (1) 点到点 (2) 中心辐射型 (3) 发布与订阅 编排(Orchestration) 是一个术语。用来描述在一个系统中如何组织和执行多个相 关流程。 OLTP - ETL --- OLAP 1600ETL 在跑 26小时 10小时 数据联邦(Data Federation) 提供访问各个独立数据存储库组合的权限。 数据虚拟 化(Data Virtualization) 使分布式数据库以及多个异构数据存储能够作为单 个数据库来访问和查看 数据上云?是多云 OpenLookEng Data Fabric 要衡量实现数据集成解决方案的规模和收益。包括可用性、数量、速度、成本和使用方面的 指标。 1) 数据可用性。 请求数据的可获得性。 2) 数据量和速度。 它包括: 传送和转换的数据量。分析数据量。传送速度。数据更新与可用 性之间的时延。事件与触发动作之间的时延。新数据源的可用时间。 3) 解决方案成本和复杂度。 它包括: 解决方案开发和管理成本。获取新数据的便利性。解决 方案和运营的复杂度。使用数据集成解决方案的系统数量。 第9 章 文件和内容管理 本章不是重点。 文件管理没问题 难的是:内容管理 (因为NLP还不成熟) Natural language processing ChatGPT 以图搜图 人脸识别 siri 南京市长江大桥 南京市-长江-大桥 南京-市长-江大桥 文件和内容管理的主要业务驱动因素包括 1)法规遵从性要求、2)诉讼响应能力和电子取证请求 能力以及 3)业务连续性要求。 档案包括纸质文件和电子化存储信息(ESI)。 实施文件和内容管理最佳实践的目标,包括: 1) 确保能够高速有效地采集和使用非结构化的数据和信息。 2) 确保结构化和非结构化数据之间的整合能力。 3) 遵守法律义务并达到客户预期。 区块链 ARMA 国际(非营利性的档案和信息管理专业协会) 内容管理(Content Management) 包括用于组织、分类和构造信息资源的流程、 方法和技术,以便以多种方式存储、发布和重复使用这些资源。 ECM (enterprise content management) 元数据对于管理非结构化数据至关重要,无论是传统上认为的内容和文件,还是现在理解的 “大数据”。 如果没有元数据,就无法对内容进行编目和组织。 非结构化数据内容的元数据基于: 1) 格式。 通常数据格式决定了访问数据的方法(如电子非结构化数据的电子索引)。 2) 可搜索性。 是否已经具备用于搜索相关非结构化数据的工具。 3) 自我描述性。 元数据是否有自我描述能力(如在文件系统中)。 在这种情况下,因为可以简 单地采用现有工具,开发的需求是最小的。 4) 既有模式。 是否可以采用或者适配现有的方法和模式(如在图书馆目录中)。 5) 内容主题。 人们可能在寻找的东西。 6) 需求。 需要进行彻底和详细的检索能力(如制药或核工业)㊀。 因此,内容级的详细元数据 可能是必要的,并且可能需要一个能够进行内容标记的工具。 只有部分文件才能成为档案(Record)。 文件>档案 Solr:企业级的搜索引擎 精心管理的档案具有以下特点: 1) 内容。 内容必须准确、完整和真实。 2) 背景。 关于档案的创建者、创建日期或与其他档案关系的描述性信息(元数据) 应该在创 建档案时收集、组织并维护。 3) 及时性。 档案应该在事件、行为或决定发生后立即创建。 4) 永久性。 一旦成为档案,则在档案的法定保存期内不能改变其内容。《----需要知道这个。 5) 结构。 电子取证(E-Discovery)。 据估计,多达80%的数据存储是在关系型数据库之外维护的。 非结构化数据有多种电子格式: 文字处理文件、电子邮件、社交媒体、聊天室、平面文件、电子表 格、XML 文件、事务性消息、报告、图形、数字图像、缩微胶片、视频和音频。 纸质文件中也 存在大量非结构化数据。 工作中: 机构化、半结构化、非结构化。有许多文本文件,其实是半结构化的。 文本的形式的数据 ---》 半结构化 开源Schema.org schema.org.cn 第10 章 参考数据和主数据 理论上的难点: 1. 如何识别什么是主数据? 2. 主数据的作用? 实践中的难点: 1. 落地会有相当大的阻力 目的: 对共享的数据经过标准的建设来提高数据的质量 1. 共享数据 2. 标准化的过程 3. 提高数据的质量 数据标准: 1. 非主数据 2. 主数据 主数据是否已死: 1. 是否有数据孤岛 2. 这些孤岛是否要打通 一数一源一标准 共享: 1. 实体(人事、财务、采购、产品) 一物多码 一人多码 2. 属性 重要的,或者,相对稳定的那些属性 质量: 共享的那些数据的质量: 1. 唯一性 2. 准确性 如何评估: 你去掉了多少冗余的数据? 某央企本来有 132 万个物料,====》 5.6 万个物料 1. 查找数据: 黄金数据 一数一源一标准 性别:卫健委,民政,公安户籍 2. 识别重要的数据 人事、财务、采购。。。。相对比较规范,有一定的标准 物料编码 - 这是最复杂的 启动主数据管理最常见的驱动因素包括: 1) 满足组织数据需求。 2) 管理数据质量。 3) 管理数据集成的成本。 4) 降低风险。 主数据是否已死: 1. 你是否有数据孤岛 2. 这些数据孤岛是否要打通 参考数据和主数据管理规划的目标包括: 1) 确保组织在各个流程中都拥有完整、一致、最新且权威的参考数据和主数据。===》黄金数据 2) 促使企业在各业务单元和各应用系统之间共享参考数据和主数据。 3) 通过采用标准的、通用的数据模型和整合模式,降低数据使用和数据整合的成本及复杂性。 主数据和参考数据的区别: 1. 主数据:来源于我们的生产系统(HR,采购。。。。),而后 ETL,选择黄金数据,建设标准, 应用到生产系统,大量的解析工作 2. 参考数据: 不是来源于我们生产系统,拿来用就可以了 参考数据 – 有时被叫做:配置型的主数据 主数据 – OLTP,标准后,需要贯标到生产系统(源头系统);数据中台的 oneID,OLAP,不需 要贯标到生产系统 主数据是有关业务实体(如雇员、客户、产品、金融结构、资产和位置等) 的数据, 业务规则通常规定了主数据格式和允许的取值范围。 一般组织的主数据包括下列事物的数据: 1) 参与方。 个人和组织,以及他们扮演的角色,如客户、公民、病人、厂商、供应商、代理 商、商业伙伴、竞争者、雇员或学生等。 2) 产品和服务,包括内部和外部的产品及服务。 3) 财务体系。 如合同、总账、成本中心、利润中心。 4) 位置信息。 如地址和GPS 坐标。 在一个域内规划主数据管理包括以下几个基本步骤: 1) 识别能提供主数据实体全面视图的候选数据源。 2) 为精确匹配和合并实体、实例制定规则。 3) 建立识别和恢复未恰当匹配或合并的数据的方法。 4) 建立将可信数据分发到整个企业的系统中的方法。 主数据管理的关键处理步骤 主数据在那个层面做: 集团 省公司 市公司 解决方法: 最大公约数 比如: 集团已经有的 - 用 集团没有做的 - 我来做 时间问题:不能等 第11 章 数据仓库和商务智能 1. 两种不同的 DW 方法 2. 概念 本来这一章是和大数据一起的,后来因为内容太多才分成两章。 数据仓库(Data Warehouse,DW) OLAP, DSS,BI EDW 数据仓库建设的主要驱动力是运营支持职能、合规需求和商务智能活动 数据仓库建设应遵循如下指导原则: 1) 聚焦业务目标。 2) 以终为始。 3) 全局性的思考和设计,局部性的行动和建设。 4) 总结并持续优化,而不是一开始就这样做。 数据仓库有两个重要组成部分: 一个集成的决策支持数据库和与之相关的用于收集、清理、转 换和存储来自各种操作和外部源数据的软件程序。 数据仓库建设指的是数据仓库中数据的抽取、清洗、转换、控制、加载等操作过程。 两位有影响力的思想领袖 Bill Inmon 和 Ralph Kimball Inmon 把数据仓库定义为“面向主题的、整合的、随时间变化的、相对稳定的支持管理决策 的数据集合”, 关系型的 多维的 ROLAP MOLAP HOLAP 虽然Inmon 和Kimball 提倡的数据仓库建设方法不同,但他们遵循的核心理念相似: 1) 数据仓库存储的数据来自其他系统。 2) 存储行为包括以提升数据价值的方式整合数据。 3) 数据仓库便于数据被访问和分析使用。 4) 组织建设数据仓库,因为他们需要让授权的利益相关方访问到可靠的、集成的数据。 5) 数据仓库数据建设有很多目的,涵盖工作流支持、运营管理和预测分析。 数仓: 1. 报表 2. 同时也是可以做预测的 数仓核心内容: 1.数据源 2. ETL 3.中央仓库(EDW) 哪些是可选:ODS、主数据、立方体、数据集市 多维模型通常称为星型模型,由事实表(包含有关业务流程的定量数据,如销售数据) 和维度 表(存储与事实表数据相关的描述性属性,为数据消费者解答关于事实表的问题,如这个季度产品 X 卖了多少) 组成。 这三部分是必须的,其余的都是可选项: (1) 源系统 (2) 数据集成 (3) 数据存储区域(中央数据仓库) subject area (主题) OLTP+外部 ---》 OLAP (DW -》》 集市) 数据立方体:Cognos 数据加载: (1) 历史数据 - 全量,加载几次?往后的数据加载就是 T+1 (2) 批量变更数据捕获 – CDC, (3) 准实时和实时数据加载 表 11-2,CDC 技术比对: 1. 哪些方法可以来识别 CDC,有 4 种 2. 哪个方法是数据量最多的?全量 开发数据仓库和数据集市 通常来说,数据仓库/ 商务智能建设项目有三条并存的构建轨迹: 1) 数据。 2) 技术。 3) 商务智能工具。 工作中: 哪个先建设:数据仓库 vs. 数据集市? 美国银行: 数据仓库先做,后数据集市 富国银行: 数据集市先做 加载数据仓库: 80%的工作。是数仓建设中工作量最大的。 一般数仓团队: 20 人的一个团队: 12 个是 ETL 工作量最大的部分都是数据准备和预处理。 产品组合: 1)根据需要给用户分组 2)将工具与用户要求相匹配 BI 的软件: 1. PowerBI 2. Tableau 3. Microstrategy 4. Cognos 5. Kibanna..... 数据挖掘的软件: 1. Rapidminer 2. Weka 。。。。。 二者的首要目的是不一样的: OLTP: 不能宕机 OLAP: 性能 关系型ROLAP、多维矩阵型MOLAP 或混合型HOLAP 三种经典的OLAP 实现方法如下: 1) 关系型联机分析处理(ROLAP)。 ROLAP 通过在关系数据库(RDBMS) 的二维表中 使用多维技术来支持OLAP。 星型架构是ROLAP 环境中常用的数据库设计技术。 2) 多维矩阵型联机分析处理(MOLAP)。 MOLAP 通过使用专门的多维数据库技术支持O LAP。 3) 混合型联机分析处理(HOLAP)。 它 度量指标 1)使用指标 2)主题域覆盖率 3)响应时间和性能指标 第12 章 元数据管理 元数据管理的原则: 1. 应归尽归,应收尽收 2. 概念: 技术: 元数据 业务: 数据资源目录 不等于:数据资产目录 目录之外无数据 元数据最常见的定义是“关于数据的数据”。 目录卡片 ISO/ IEC 11179 元数据通常分为三种类型: 业务元数据、技术元数据和操作元数据。 非结构化数据的元数据 元数据来源: 14+N 1. 业务术语 2. 数据库的数据字典 – 逆向工程 3. 服务器一些信息 元数据综合解决方案由以下功能需求点组成: 1) 更新频次。 元数据属性和属性集更新的频率。 2) 同步情况。 数据源头变化后的更新时间。 3) 历史信息。 是否需要保留元数据的历史版本。 4) 访问权限。 通过特定的用户界面功能,谁可以访问元数据,如何访问。 创建一个元数据存储库的数据模型,也叫元模型, 1) 查询、报告和 2) 分析元数据: 1. 血缘关系:从下往上 2. 影响分析: 从上往下 软件: Apache Atlas 市面商业软件:80-120 万 应用于大数据采集的元数据 度量: 1) 元数据存储库完整性。 将企业元数据(范围内的所有产品和实例) 的理想覆盖率与实际覆 盖率进行比较。 参照元数据管理范围定义的策略。 2) 元数据管理成熟度。 根据能 3) 专职人员配备。 通过专职人员的任命情况、整个企业的专职人员覆盖范围,以及职位描述 中的角色定义说明,来评估的组织对元数据的承诺。 4) 元数据使用情况。 第13 章 数据质量 1. 重要的数据先开始 2. 识别哪些是重要数据(CDE,critical data element),企业的数据、个人的数据 3. 如何来评估:哪些维度 4. 如何来提高:PDCA,导致数据质量低下的 5 个主要原因 5. 数据质量的报告 英文:Data Quality 与数据治理和整体数据管理一样,数据质量管理不是一个项目,而是一项持续性工作。 建立正式数据质量管理的业务驱动因素包括: 1) 提高组织数据价值和数据利用的机会。 2) 降低低质量数据导致的风险和成本。 3) 提高组织效率和生产力。 4) 保护和提高组织的声誉。 数据质量管理应遵循以下原则: 1) 重要性。 数据质量管理应关注对企业及其客户最重要的数据,改进的优先顺序应根据数据 的重要性以及数据不正确时的风险水平来判定。 2) 全生命周期管理。 3) 预防。 数据质量方案的重点应放在预防数据错误和降低数据可用性等情形上,不应放在简 单的纠正记录上。 4) 根因修正。 数据质量如达到数据消费者的期望和需求,也就是说,如果数据满足数据消费者应用需求的目 的,就是高质量的。 关键数据 1) 监管报告。 2) 财务报告。 3) 商业政策。 4) 持续经营。 5) 商业战略, 关于数据质量的三大理论: 1. Strong-Wang 框架 2. Thomas Redman 在«信息时代的数据质量» 3. Larry English 在«改善数据仓库和业务信息质量» 4. 2013 年,DAMA UK 2013 年,DAMA UK 发布了一份白皮书,描述了数据质量的6 个核心维度: 1) 完备性。 存储数据量与潜在数据量的百分比。 2) 唯一性。 在满足对象识别的基础上不应多次记录实体实例(事物)。 3) 及时性。 数据从要求的时间点起代表现实的程度。 4) 有效性。 如数据符合其定义的语法(格式、类型、范围),则数据有效。 5) 准确性。 数据正确描述所描述的“真实世界” 对象或事件的程度。 6) 一致性。 维度的名称是可以自定义的 数据质量改进的常用方法如图 13-3 所示,是戴明环的一个版本。 基于科学的方法,戴明环是 一个被称为“计划 - 执行 - 检查 - 处理” 的问题解决模型。 新周期开始于: ①现有测量值低于阈值。 ②新数据集正在调查中。 ③对现有数据集提出新的数据质量要求。 ④业务规则、标准或期望变更。 字节跳动: 9500PB 每天 40PB 指标 27000 个 评估数据质量要有: 业务规则, 技术规则 数据质量问题的常见原因: (1) 缺乏领导力导致的问题,企业的文化不到位 数据输入、数据处理、系统设计,以及自动化流程中的手动干预 patch 补丁 数据剖析(Data Profiling) 是一种用于检查数据和评估质量的数据分析形式。 不是解决数据质量问题的方法 quick and dirty 数据剖析可以告诉我们,例如: 1) 空值数。 标识空值存在,并检查是否允许空值。 2) 最大/ 最小值。 识别异常值,如负值。 3) 最大/ 最小长度。 确定具有特定长度要求的字段的异常值或无效值。 4) 单个列值的频率分布。 能够评估合理性(如交易的国家代码分布、频繁或不经常发生的值 的检查,以及用默认值填充的记录百分比)。 5) 数据类型和格式。 一个框架应包括以下方法: 1) 了解并优先考虑业务需求。 2) 确定满足业务需求的关键数据。 3) 根据业务需求定义业务规则和数据质量标准。 4) 根据预期评估数据。 执行初始数据质量评估: 基数,以后可以来做对比 60%的乘客是有手机号码,30%电子邮件,====》 82% 身份证号码不能为空值: select count(sfz) from emp where sfz is null; 执行数据修正一般有三种方法: 1) 自动修正。 2) 人工检查修正。 3) 人工修正。 有效的数据质量指标: 1) 可度量性。 2) 业务相关性。 3) 可接受性。 4) 问责/ 管理制度。 根本原因分析: 帕累托分析(80/20 规则)、鱼骨图分析、跟踪和追踪、过程分析以及五个为什么等 数据质量团队的大部分工作将集中于质量的度量和报告上。 数据质量的高阶指标包括: 1) 投资回报。 关于改进工作的成本与改进数据质量的好处的声明。 2) 质量水平。 测量一个数据集内或多个数据集之间的错误或不满足甚至违反需求情况的数量 和比率。 3) 数据质量趋势。 随着时间的推移(趋势),针对阈值和目标的质量改进,或各阶段的质量 事件。 4) 数据问题管理指标。 第14 章 大数据和数据科学 Robert Abate 数据挖掘、统计分析和机器学习与数据集成整合,结合数据建模能力,去构建预测模型、探索数 据内容模式。 这里的数据建模是指: 算法 数据科学依赖于: 1) 丰富的数据源。 具有能够展示隐藏在组织或客户行为中不可见模式的潜力。 2) 信息组织和分析。 用来领会数据内容,结合数据集针对有意义模式进行假设和测试的技术。 3) 信息交付。 针对数据运行模型和数学算法,进行可视化展示及其他方式输出,以此加强对 行为的深入洞察。 4) 展示发现和数据洞察。 数仓和数据科学的分析对比: DW / 传统 BI 数据科学 描述性分析 预测性分析 规范性分析 早期, 事后结论 洞察 预见 人们通 基于历史: 过3V 基于预测模型: 基于场景: 来定义 过去发生了什么? 未来可能会发生什么? 我们该做什么才能保证事情发生? 为什么发生? 大数据 含义的 特征: 数据量大(Volume)、数据更新快(Velocity)、数据类型多样/ 可变(Vari ety) (Laney,2001)。 架构: 湖仓是分离的 湖仓一体肯定是以后发展的方向 Hudi Iceberg 数据湖可以提供: 1) 数据科学家可以挖掘和分析数据的环境。 2) 原始数据的集中存储区域,只需很少量的转换(如果需要的话)。 3) 数据仓库明细历史数据的备用存储区域。 4) 信息记录的在线归档。 5) 可以通过自动化的模型识别提取流数据的环境。 数据湖的风险在于,它可能很快会变成数据沼泽 1. 数据安全? 2. 数据质量? 3. 元数据! Lamda --》 Kappa 机器学习探索了学习算法的构建和研究。 这些算法一般分为三种类型: 1) 监督学习(Supervised learning)。 基于通用规则(如将SPAM 邮件与非 SPAM 邮件分开)。 2) 无监督学习(Unsupervised learning)。 基于找到的那些隐藏的规律(数 据挖掘)。 3) 强化学习(Reinforcement learning)。 基于目标的实现(如在国际象棋 中击败对手)。 A. 今年的销售额是否会比去年的多?是,否,一样,不知道 - 监督 B. 今年的销售额会是多少?无限种可能性 -- 无监督 规范分析(Prescriptive Analytics) 比预测分析更进一步,它对将会影响 结果的动作进行定义,而不仅仅是根据已发生的动作预测结果。 怎么知道哪种算法最好: lift value Apache Mahout 是一个开源项目,旨在创建一个机器学习库。 推荐引擎 第15 章 数据管理成熟度评估 1. 除了 DAMA 外,还有其它几家 2. 我国: DCMM 这些级别通常包括: 0 级:无能力 1 级:初始或临时级:成功取决于个人的能力 2 级:可重复级:制定了最初级的流程规则 3 级:已定义:已建立标准并使用 4 级:已管理:能力可以被量化和控制 5 级:优化级:能力提升的目标是可量化的 各组织进行能力成熟度评估有以下几个原因: 1) 监管。 监管对数据管理提出了最低成熟度水平要求。 2) 数据治理。 出于规划与合规性目的,数据治理需要进行成熟度评估。 3) 过程改进的组织就绪。 组织认识到要改进其实践过程应从评估其当前状态开始。 例如,它 承诺管理主数据,并需要评估其部署主数据管理流程和工具的准备情况。 4) 组织变更。 组织变更(如合并) 会带来数据管理挑战。 DMMA 为应对这些挑战制订了 规划。 5) 新技术。 技术的进步提供了管理和使用数据的新方法。 组织希望了解成功采用的可能性。 6) 数据管理问题。 CMM 通常定义5 ~ 6 个成熟度级别, 3 级已定义: 新兴数据管理能力。 第3级将引入可扩展的数据管理流程将其制度化,并将数据管 理视为一种组织促成因素。 其特点包括在组织中的数据复制受到控制,总体数据质量普遍提高, 有协调一致的政策定义和管理。 越正式的流程定义越能显著减少人工干预,这样伴随着集中化的 设计流程,意味着流程的结果更加可预测。 DCMM: 8 个大类 28 个子类 455 项 数据战略 数据战略管理细则 报告: 1. ranking,分数 2. 差距分析 3. 建议 --- 但是这个建议往往太简单 现有DMMA 框架: 1. CMMI 2. EDM Council 3. IBM 4. 斯坦福 5. Gartner 在评估开始之前,应告知利益相关方对评估的期望。 沟通应描述: 1) 数据管理成熟度评估的目的。 2) 评估应如何进行。 3) 他们参与的是什么部分。 4) 评估活动的时间表。 1. 成熟度评估有 5 个步骤,最后一个是什么? 2. 为什么要从新评估 第16 章 数据管理组织与角色期望 演进而非革命。最后肯定是革命性的 2014 年,Dataversity 发布了研究,概述了 CDO 的常见任务。其中包括: 建立组织数据战略 使以数据为中心的需求与可用的 IT 和业务资源保持一致 建立数据治理标准、政策和程序 为依赖于数据支持的业务提供建议(也许还有服务),例如业务分析、大数据、数据质量和数据技 术 向内部和外部业务利益相关者宣传良好的信息管理原则的重要性 监督数据在业务分析和商务智能中的使用情况 不同的角色: 数据管理专员:业务角色 混合角色需要同时具备业务和技术知识。 根据组织的不同情况,来确定担任这些角色的人员 是汇报给 IT 部门或业务部门。 数据质量分析师(Data Quality Analyst):负责确定数据的适用性并监控数据的持续状况; 有 助于数据问题的根本原因分析,并帮助组织识别有助于提高数据质量的业务流程以及技术改进。 元数据专家(Metadata Specialist):负责元数据的集成、控制和交付,包括元数据存储库的 管理。 商务智能架构师(Business Intelligence Architect:):负责商务智能用户环境设计的高级商务 智能分析师。 商务智能分析师/管理员(Business Intelligence Analyst / Administrator):负责支持业务人员 有效地使用商务智能数据。 商务智能项目经理(Business Intelligence Program Manager):负责协调整个公司的商务智能需 求和计划,并将它们整合成一个整体的优先计划和路线图中。 第17 章 数据管理和组织变革管理 威廉 布里奇斯(William Bridges) 约翰 科特(John P Kotter) 自满的场景(Complacency Scenarios)Error! No sequence specified. 示例场景 它是如何显现的? 对监管变革的反应 "我们还好,根据现行规定,我们还没有遭受罚款。" 应对业务变革的反应 "多年来,我们一直成功地支持这项业务。我们不会有事的。" 未能创 应对技术变革的反应 "这项新技术未经验证。当前系统很稳定,我们知道如何解决问题。" 造短期 对问题或错误的反应 "我们可以指定一个问题解决小组对问题进行修补。在【此处插入部门 收益: 或小组的名称】中肯定有可用之人。" 8) 对未知的恐惧。 在信息管理方面,促使紧迫感产生的因素有如下几种: 1) 监管变化。 2) 信息安全的潜在威胁。 3) 业务连续性风险。 4) 商业策略的改变。 5) 兼并与收购。 6) 监管审计或诉讼风险。 7) 技术变革。 8) 市场竞争对手的能力变化。 9) 媒体对组织或者行业信息管理问题的评论。 科特建议这个数据为75%。 一个好的愿景有三个重要特征: 明确性、动力性和一致性。 有效愿景的几项关键特征如下: 1) 充满想象。 描绘了一幅未来的图景。 2) 吸引力。 有利于增加员工、客户、股东和其他利益相关方的长期利益。 3) 可行性。 目标现实、可实现。 4) 重点突出。 为决策提供明确指导。 5) 灵活性。 它足够普适,允许个人采取主动,并在条件或约束发生变化时做出替代计划和 响应。 6) 可交流性。 容易在5 分钟或者更短时间内分享和清晰交流。 检 科特确定了有效传播愿景的七大关键要素: 1) 保持简单。 去掉行话、内部词汇和复杂句子。 2) 使用比喻、类比和例子。 例如,一张简单的图(甚至是一些图片) 可以胜过千言万语。 3) 适用不同场合。 从电梯演讲到广播备忘录,从小型会议到全员简报,信息需要在各种不同 的场合之间传递。 4) 重复,重复,再重复。 思想在被内化和理解之前必须被多次听到。 5) 以身作则。 重要人物行为需要与愿景保持一致。 不一致行为会废掉所有其他形式的沟通。 6) 解释表面上的不一致。 虎头蛇尾和未解决的协调问题会破坏所有沟通的可信度。 7) 给予和索取。 双向沟通总是比单向沟通更有效。 有效描述变革最著名的方法之一是变革平衡公式(Gleicher 公式),它描述了组织需要在适 当的地方克服变革阻力的因素。 根据 Gleicher 公式,当对现状的不满程度(D)与对更好替代方案的愿景(V)和实现目标所 采取的第一步行动(F)相结合,而这三个因素的合力足以克服组织中的阻力(R)时,就会发生 变革(C)。 总体沟通计划和每个单独的沟通计划都应该: 1) 有明确的目标和期望的结果。 2) 由支持所需结果的关键消息构成。 3) 为受众/ 利益相关方量身定制。 4) 通过适合受众/ 利益相关方的媒介传达。