大数据基础介绍

Choose a study mode

Play Quiz
Study Flashcards
Spaced Repetition
Chat to Lesson

Podcast

Play an AI-generated podcast conversation about this lesson
Download our mobile app to listen on the go
Get App

Questions and Answers

以下哪项不是大数据在传统数据库中面临的“3V”挑战之一,后者已被扩展到“4V”?

  • 速度 (Velocity)
  • 数量 (Volume)
  • 有效性 (Validity) (correct)
  • 多样性 (Variety)

关于大数据“Volume”特征的以下陈述中,哪一项是准确的?

  • 数据量通常以千字节 (KB) 为单位衡量。
  • 数据量通常以兆字节 (MB) 为单位衡量。
  • 数据量可以从太字节 (TB) 扩展到拍字节 (PB) 甚至艾字节 (EB)。 (correct)
  • 数据量是静态的,不会随时间变化。

以下哪一项最好地描述了大数据“Velocity”(速度)的特征?

  • 数据生成速度无关紧要,重点在于数据的大小。
  • 数据以静态的、预定的速度生成。
  • 数据按批处理,每周或每月分析一次。
  • 数据以极快的速度(通常接近实时)生成,需要快速响应。 (correct)

大数据中“Value”(价值)的特征是什么?

<p>大数据中真正有价值的信息比例相对较低,因此需要进行分析和提炼。 (A)</p> Signup and view all the answers

大数据中“Veracity”是指什么?

<p>数据质量可能参差不齐,需要处理噪声、缺失值或虚假信息。 (A)</p> Signup and view all the answers

以下哪一项最好地描述了大数据“Variety”(多样性)的特征?

<p>大数据可能包括结构化、半结构化和非结构化数据,每种类型都需要不同的处理方法。 (D)</p> Signup and view all the answers

以下哪一项是最初奠定大数据存储、分析和处理基础的第一个计算时代的突出特征?

<p>计算机的发明 (D)</p> Signup and view all the answers

关系型数据库管理系统在哪个十年开始普及,显著提高了数据存储和检索效率?

<p>20 世纪 70 年代 (D)</p> Signup and view all the answers

数据挖掘和机器学习在哪个十年成为数据科学中的核心要素?

<p>20 世纪 90 年代 (B)</p> Signup and view all the answers

在哪个年代,大数据技术开始让企业能够从海量信息中提取有价值的见解,迎来创新和优化的新时代?

<p>21 世纪初 (B)</p> Signup and view all the answers

在以下哪种数据域中可以找到运营商的客户、订购和账单信息?

<p>业务(B)域 (B)</p> Signup and view all the answers

电信数据领域的哪个领域主要关注资源、性能和告警管理?

<p>网络(O)域 (C)</p> Signup and view all the answers

管理域(M)的数据主要指的是什么?

<p>内部管理信息 (B)</p> Signup and view all the answers

服务平台域中的数据主要来源于以下哪个方面?

<p>专业公司业务平台 (B)</p> Signup and view all the answers

以下哪个过程不属于B域数据处理过程?

<p>记录客户的网络故障诊断 (D)</p> Signup and view all the answers

以下哪项最好地描述了数据在网络运营支撑系统(OSS)内如何使用?

<p>用于监控网络状态、优化资源分配和保证服务质量 (D)</p> Signup and view all the answers

当用户在进行视频通话时从一个基站移动到另一个基站,哪个过程能够保证通话的无缝切换?

<p>目标基站预留资源 (D)</p> Signup and view all the answers

以下哪个选项不是处理大数据量(Volume)的常用方法?

<p>数据加密 (A)</p> Signup and view all the answers

通过压缩大数据来最小化数据大小的目标是什么?

<p>节省存储空间 (D)</p> Signup and view all the answers

某公司需要长期存储大量不常访问的历史数据,应该选择哪种存储策略?

<p>磁带/云归档存储 (B)</p> Signup and view all the answers

以下哪种措施有助于应对数据生成速度快的挑战?

<p>通过边缘计算减少中心压力 (C)</p> Signup and view all the answers

某公司需要处理大量实时生成的数据,但处理能力有限,以下哪种方法最适合?

<p>流式处理 (D)</p> Signup and view all the answers

为了加速大数据分析,哪种硬件升级方式通常被使用?

<p>使用 GPU 或 FPGA (B)</p> Signup and view all the answers

弹性资源调度的目标是什么?

<p>按需分配算力 (C)</p> Signup and view all the answers

在数据质量参差不齐的情况下,以下哪一项不是保持高水平“Veracity”的关键步骤?

<p>数据加密 (B)</p> Signup and view all the answers

为了确保分析结果的准确性,以下哪项最为重要?

<p>确保输入数据的质量 (A)</p> Signup and view all the answers

在检测和纠正数据错误方面,哪个过程不属于数据清理技术?

<p>对数据进行加密 (A)</p> Signup and view all the answers

在电信信令数据分析中,位置信息主要用于做什么?

<p>用户画像建立 (C)</p> Signup and view all the answers

通过分析报告提高大数据价值的核心价值是什么?

<p>数据转化为业务洞察 (A)</p> Signup and view all the answers

数据分析生命周期中,哪个步骤涉及从各种来源收集原始数据?

<p>数据采集 (B)</p> Signup and view all the answers

以下哪项最好地描述了数据在数据处理阶段中的角色?

<p>清洗、转换和组织数据,以便用于分析 (A)</p> Signup and view all the answers

大数据的哪个处理阶段涉及使用统计学和机器学习来提取有价值的业务见解?

<p>数据分析 (D)</p> Signup and view all the answers

以下哪个选项属于结构化数据?

<p>数据库表格 (B)</p> Signup and view all the answers

非结构化数据需要什么类型的技术进行处理?

<p>人工智能 (AI) (D)</p> Signup and view all the answers

以下技术最适合从网站自动抓取数据?

<p>网络爬虫 (Web scraping) (B)</p> Signup and view all the answers

哪种数据采集方法涉及使用传感器自动收集信号和图像?

<p>感知设备收集 (D)</p> Signup and view all the answers

对于需要存储大量非结构化数据的情况,哪个数据库选项是最佳选择?

<p>数据湖 (A)</p> Signup and view all the answers

选择以下数据仓库的对应特性

<p>数据在使用前需要彻底转换和调整 (A)</p> Signup and view all the answers

ETL 过程的主要目的是什么?

<p>清理和转换数据以用于分析 (D)</p> Signup and view all the answers

选择以下对数据ETL过程描述正确的一项

<p>转换步骤包括数据标准化 (B)</p> Signup and view all the answers

在春节期间,中国移动香港(CMHK)客户最常漫游的地点是什么?

<p>北上内地或澳门 (B)</p> Signup and view all the answers

Flashcards

大数据(WIKI百科)

传统数据处理应用软件难以处理的大规模数据集,特点是速度快、来源多样。

大数据(NIST)

数量大、获取速度快或形态多样的数据,难以用传统方法有效分析。

大数据分析 (Azure)

用于从大量、高速数据集中收集、处理和得出见解的方法。

大数据(AWS)

数据量(Volume)、多样性(Variety)和速度(Velocity)的综合挑战。

Signup and view all the flashcards

大数据 (Gartner)

大量、高速及/或多变的信息资产,需要新型处理方式。

Signup and view all the flashcards

Volume(数据量大)

数据的规模,从TB到PB甚至EB级别。

Signup and view all the flashcards

Variety(多样性)

数据的类型多样,包括结构化、半结构化和非结构化数据。

Signup and view all the flashcards

Velocity(速度快)

数据生成和处理的速度快,需要快速响应。

Signup and view all the flashcards

Value(价值密度低)

有价值的信息比例较低,需要通过分析提炼。

Signup and view all the flashcards

Veracity(真实性)

数据质量参差不齐,需要处理噪声、缺失值或虚假信息。

Signup and view all the flashcards

20 世纪 40-50 年代

构建数据留存、分析和处理基础的时代背景

Signup and view all the flashcards

1970 年代

通过关系型数据库高效存储和检索数据。

Signup and view all the flashcards

1990 年代

机器学习成为数据分析和挖掘的核心

Signup and view all the flashcards

2010 年代

人工智能和深度学习推动数据科创新,应用领域拓展

Signup and view all the flashcards

21 世纪初

企业从海量数据提取有价值的见解

Signup and view all the flashcards

B 域数据

业务支撑域系统产生的数据

Signup and view all the flashcards

O 域数据

网络支撑域系统产生的数据。

Signup and view all the flashcards

M 域数据

管理支撑域系统产生的数据。

Signup and view all the flashcards

S 域数据

业务平台域系统产生的数据。

Signup and view all the flashcards

分布式存储技术

数据切分成小块,分散存储到多台服务器。

Signup and view all the flashcards

数据压缩与编码优化

压缩数据或采用高效编码格式

Signup and view all the flashcards

分层存储策略

根据数据访问频率存储热数据和冷数据

Signup and view all the flashcards

数据生命周期管理

定期清理过期或低价值数据

Signup and view all the flashcards

边缘计算与数据预处理

在边缘节点对数据进行初步处理。

Signup and view all the flashcards

增量处理与流式计算

实时处理数据流,避免堆积

Signup and view all the flashcards

硬件加速

使用GPU、FPGA加速数据处理

Signup and view all the flashcards

边缘计算

在数据源头就近处理数据

Signup and view all the flashcards

消息队列缓冲

用高吞吐消息队列缓冲数据流

Signup and view all the flashcards

弹性资源调度

基于云原生技术动态扩缩容

Signup and view all the flashcards

结构化数据

具有固定格式和明确字段的数据。

Signup and view all the flashcards

非结构化数据

指没有预定义的数据模型或模式,不便于机器处理的数据。

Signup and view all the flashcards

半结构化数据

介于结构化和非结构化之间,具有一些组织特性,但不够严格

Signup and view all the flashcards

ETL

抽取(Extract)、转换(Transform)、加载(Load)。

Signup and view all the flashcards

描述性统计分析

描述数据集的特征,如趋势, 分布等。

Signup and view all the flashcards

探索性数据分析

深入理解数据的结构、特征和潜在异常等。

Signup and view all the flashcards

假设检验和推论统计学

对数据做假设,并加以推断。

Signup and view all the flashcards

回归分析

建立数学模型,研究自变量和因变量的关系

Signup and view all the flashcards

聚类分析

识别出用户之间相似的特征,并将他们分组

Signup and view all the flashcards

关联规则挖掘

识别数据集中的相关关系

Signup and view all the flashcards

Study Notes

好的,这是根据您提供的文本生成的学习笔记:

  • 「大数据基础课程」由Shawn Xiao(IT及數智賦能部)主讲。
  • 本课程是中国移动香港有限公司的内部资料,未经允许不得复制、转发、传播。

大数据基础

  • 大数据是传统数据处理应用软件难以处理的大规模或复杂数据集。其特点包括数据生成速度快、来源多样。
  • 技术挑战体现在数据存储、处理和分析的规模上,需要依赖分布式计算(如Hadoop)和并行处理技术。
  • NIST(美国国家标准技术研究院)认为大数据是数量大、获取速度快或形态多样的数据。
  • NIST大数据难以用传统关系型数据分析方法有效分析,或需要用大规模水平扩展才能高效处理。
  • 微软(Azure)认为大数据分析用于从不同的大量、高速数据集中收集、处理和得出见解的方法、工具和应用程序。数据集来源于各种来源、通常表示以高速生成、形式各样的数据。
  • 亚马逊(AWS)认为大数据是数据量(Volume)、多样性(Variety)和速度(Velocity)的综合挑战、传统数据库无法满足需求。
  • 其处理流程涵盖数据收集、存储、处理、分析及可视化,强调实时性和流式处理(如 Apache Spark、Kafka)的重要性,最终目标是提取可行动的洞察。
  • Gartner认为大数据是大量、高速及/或多变的信息资产,需新型处理方式以增强决策能力、洞察力和流程优化。
  • 最初提出的“3V”模型(Volume, Velocity, Variety)被广泛认可,部分机构扩展为“4V”(增加 Veracity,即真实性)。

大数据的5V 特征

  • 数据量(Volume):数据规模从TB(太字节)到PB(拍字节)、EB(艾字节)甚至更大
  • 多样性(Variety):数据类型包括结构化(数据库)、半结构化(JSON/XML)和非结构化数据(文本、图像、视频)
  • 速度(Velocity):数据实时或近实时生成,需要快速响应
  • 价值(Value):大数据中真正有价值的信息比例较低,需要通过分析提炼
  • 真实性(Veracity):数据质量参差不齐,需要处理噪声、缺失值或虚假信息。

大数据历史发展

  • 20世纪40-50年代:计算机科学的起步,计算机的发明奠定了数据存储、分析和处理的基础。
  • 1970年代:数据库管理系统的发展,关系型数据库的出现使数据存储和检索更加高效。
  • 1980年代:计算机硬件的进步,个人计算机普及,数据分析方法得到更多应用。
  • 1990年代:数据挖掘与机器学习的兴起,数据量激增,数据挖掘和机器学习开始成为数据科学的核心。
  • 21世纪初:大数据和数据科学的崛起,大数据技术使企业开始从海量数据中提取有价值的见解。
  • 2010年代:人工智能与深度学习的突破,深度学习等技术推动了数据科学的创新,应用领域拓展。

通信领域的BOMS域数据

  • 通信行业大数据领域可分为B,O,M,S四个数据域
  • B域数据(业务支撑域):包含客户、订购、账单等业务信息,用于支撑经营分析和精准营销。
  • O域数据(网络支撑域):在网管支撑系统产生,分为资源、性能、告警等7类,用于性能管理和全息用户能力分析。
  • M域数据(管理支撑域):包含中国移动内部管理信息,用于综合定报、智慧审计等。
  • S域数据(业务平台域):专业公司各业务平台产生,来自于咪咕,金科信息等在线系统,用于广告推荐等。

B域数据的来源

  • B域数据的主要用于管理客户、产品和收入,类似于运营商的账本和客户档案。
  • CRM系统记录客办理的套餐变更、投诉等操作。
  • 计费系统记录通话时长、流量使用量、账单金额等。
  • 产品与营销系统记录用户在MYLINK上订购的服务。

O域数据的来源

  • O域数据是在网络运维过程中产生
  • 包括基站、路由器、交换机等设备的实时运行状态数据,例如信号覆盖范围、设备负载、连接成功率等
  • 如果某地区基站的流量暴增时,系统会记录。
  • 通过专业系统如故障管理平台,资源管理系统等,收集网络信令,用户行为,网络资源使用情况等数据
  • 用户在使用网络服务时,手机会与基站频繁交互信令数据,这些都被运营商采集用于分析网络覆盖盲区等

Volume的数据解决方法

  • 通过压缩算法或采用高效编码格式降低存储开销。
  • 列式存储和压缩算法是数据压缩与编码优化的核心技术
  • 通过根据据访问频率不同,热/冷数据分别存放在固态硬盘SSD/内存数据库,硬盘HDD/分布式文件系统。
  • 设定数据保留策略,定期清理过期或低价值数据。
  • 在数据产生的边缘节点进行初步处理,仅上传关键结果。
  • 在边缘节点计算基站负载率,直接触发扩容决策,无需回传中心。
  • 实时处理数据流,避免堆积成海量离线数据

Velocity(速度)的解决方法

  • 用GPU 、FPGA或专用加速卡(DPU)加速数据处理
  • 在数据源头(如基站、手机)附近处理数据,只传送关键结果
  • 在数据源头过滤无效数据
  • 用高吞吐量消息队列缓存数据流,削峰填谷
  • 根据云原生技术动态扩缩容
  • 通过对每条用户行为进行流式处理,并实时更新画像标签,并降低消耗

variety(多样性)

  • 有固定格式和明确字段的数据可使用表格表示,通常存储在关系数据库中
  • 无固定格式或明确结构的数据需通过AI或复杂解析提取信息,图像是其中一种
  • 有一定结构但不固定,通常通过键值对组织 JSON是其中一个例子。

数据类型划分

  • 数据类型通常可分为结构化,半结构化,非结构化
  • 结构化数据具有固定格式和明确模式
  • 半结构化数据有标签,格式不固定
  • 无预定义模式的数据属于非结构化数据

Variety解决方案

  • 构建数据的导航地图,即元数据管理,可以帮助提升数据的可发现性和数据元数据
  • 通过数据集成管道适配各种不同的数据格式
  • 可以构建数据“仓库”,统一管理各种原始数据

真实性(Veracity)

  • 系统升级时候,参数配置错误,导致客户不能使用,人工来修复。
  • 实名做假,导致被骗或受到经济损失
  • 部分客户信息不全,精准营销也很难执行

真实性的解决方法

  • 自动检查异常值, 系统可以拦截异常值 。
  • 通过数据来源和加工过程中间所有的过程,来快速定位数据处理所有步骤
  • 通过设置各种规范来确保数据处理一致性。
  • 需要有正确的计划与认识,并且去积极监控
  • 积极处理和解决。

价值低(Value)的解决方法

  • 在于把不结构化数据转化成结构性数据
  • 在于提升数据利用密度
  • 对数据进行标记和分类,对数据进行关键字段的分析,从而将数据转化成有分析价值的数据

大数据处理流程

  • 大数据处理流程 采集、存储,处理、 分析、可视化.
    • 数据采集、数据收集和整合来源于不同的原始数据,需要确保全面,准确及时
    • 数据储存,需要满足TB甚至是PB级别的存储,且需要将整合后的数据储存在分布式的文件系统中
    • 数据处理需要对数据预处理,需要保证数据的可用性,完整性,和准确性。
    • 数据分析,需要根据实际的业务情况进行统计分析以及评估,从数据中提取对做业务决策有帮助的信息
    • 数据可视化,通过各种视图进行辅助,使得结果有效成效,并且让辅助更容易理解数据

数据采集

  • 络数据采集Web scraing或者 通过 AP 自动抓网络
  • 感知设备通过传感器,摄像头等方式抓网络信息
  • 系统 实时各种流量管理监控
  • 数据库 需要部署各种数据库,并进行负载分担

各个环节

  • 数据存储 -数据源,结构或非结构都需要进行数据清洗 -数据如果储存在数据库就要进行信息的提取
  • 数据分析 需要对各种数据进行验证
  • 数据需要进行标注
  • 各种数据库平台需要进行组件
  • 数据处理要进行清洗转换加载。

敏捷问题

用户会遇到取数难,分析手段缺失,可视性低效

FINEBI

FineBI为帮助解决以上问题而开发。它提供数据准备,数据处理,分析,以及数据共享。

Studying That Suits You

Use AI to generate personalized quizzes and flashcards to suit your learning preferences.

Quiz Team

Related Documents

More Like This

Hadoop Framework Overview Quiz
12 questions

Hadoop Framework Overview Quiz

DauntlessQuadrilateral680 avatar
DauntlessQuadrilateral680
Big Data and Hadoop Overview
16 questions
Big Data Concepts and Hadoop Ecosystem
48 questions
Use Quizgecko on...
Browser
Browser