Podcast
Questions and Answers
在BASIC6科创计划中,哪个领域是所有其他领域技术的底层核心?
在BASIC6科创计划中,哪个领域是所有其他领域技术的底层核心?
- 大数据 (correct)
- 安全
- 能力中台
- 人工智能
以下哪项描述最符合大数据的“5V”特征之一的_真实性(Veracity)_?
以下哪项描述最符合大数据的“5V”特征之一的_真实性(Veracity)_?
- 保证数据规模从TB级别扩展到PB级别
- 需处理数据中存在的噪声、缺失值或虚假信息 (correct)
- 提升大数据中真正有价值信息的比例
- 确保数据能被快速生成和处理
要将数据资源转化为资产和资本,以下哪个手段不直接相关?
要将数据资源转化为资产和资本,以下哪个手段不直接相关?
- 法律规范
- 核心生产要素 (correct)
- 技术手段
- 数智化应用
中国移动的“梧桐”大数据平台主要应用于哪个行业?
中国移动的“梧桐”大数据平台主要应用于哪个行业?
以下哪项不是大数据处理流程通常包含的环节?
以下哪项不是大数据处理流程通常包含的环节?
以下哪个选项准确描述了传统数据库通常难以有效处理大数据的原因?
以下哪个选项准确描述了传统数据库通常难以有效处理大数据的原因?
以下哪一项是采用分布式存储技术处理大量数据的核心优势?
以下哪一项是采用分布式存储技术处理大量数据的核心优势?
在解决数据量大(Volume)的问题时,以下哪种方法强调在数据产生的源头就进行处理?
在解决数据量大(Volume)的问题时,以下哪种方法强调在数据产生的源头就进行处理?
如果一个企业希望减少大数据处理过程中的资源消耗,应该优先考虑哪种方法?
如果一个企业希望减少大数据处理过程中的资源消耗,应该优先考虑哪种方法?
以下哪项不属于通信行业中B域(业务支撑域)的数据类型?
以下哪项不属于通信行业中B域(业务支撑域)的数据类型?
在网络运维中,哪个域的数据可以被比作"网络医生的病历本"?
在网络运维中,哪个域的数据可以被比作"网络医生的病历本"?
对数据进行"瘦身减肥"的主要目的是为了解决以下哪个大数据挑战?
对数据进行"瘦身减肥"的主要目的是为了解决以下哪个大数据挑战?
在以下哪个阶段,数据质量尤为重要?
在以下哪个阶段,数据质量尤为重要?
主动防御技术主要用于解决哪个领域的安全问题?
主动防御技术主要用于解决哪个领域的安全问题?
考虑企业对大数据技术栈的长期演进和持续发展, 应该__?
考虑企业对大数据技术栈的长期演进和持续发展, 应该__?
在企业构建大数据平台时,应该首先考虑哪个因素?
在企业构建大数据平台时,应该首先考虑哪个因素?
为了确保在进行数据分析时得出有效的结论,应该特别注意大数据哪个特性?
为了确保在进行数据分析时得出有效的结论,应该特别注意大数据哪个特性?
以下哪种方法不属于大数据量(Volume)的解决?
以下哪种方法不属于大数据量(Volume)的解决?
如果企业希望通过分析用户的位置信息来优化营销策略,应该关注哪个域的数据?
如果企业希望通过分析用户的位置信息来优化营销策略,应该关注哪个域的数据?
以下哪个选项不是数据分析目标?
以下哪个选项不是数据分析目标?
若要设计一套有效的数据生命周期管理策略,核心是什么?
若要设计一套有效的数据生命周期管理策略,核心是什么?
在使用机器学习算法进行预测时,如果发现模型过度拟合,应该采取以下哪个措施?
在使用机器学习算法进行预测时,如果发现模型过度拟合,应该采取以下哪个措施?
以下哪个选项与大数据存储方式有关?
以下哪个选项与大数据存储方式有关?
若要确保来自不同渠道的数据在分析时能够一致,最重要的是做好什么?
若要确保来自不同渠道的数据在分析时能够一致,最重要的是做好什么?
不准确的数据将直接导致?
不准确的数据将直接导致?
针对海量数据处理,以下哪个技术特点不属于"数据仓库(Data Warehouse)"?
针对海量数据处理,以下哪个技术特点不属于"数据仓库(Data Warehouse)"?
下列哪项描述符合数据湖Data Lake?
下列哪项描述符合数据湖Data Lake?
在数据分析中,为什么数据可视化很重要?
在数据分析中,为什么数据可视化很重要?
用于从各种数据源抽取、转换和加载(ETL)数据的步骤中最关键的环节是什么?
用于从各种数据源抽取、转换和加载(ETL)数据的步骤中最关键的环节是什么?
如果你的数据集包含大量的文本、图像和音频文件, 那么最适合的数据类型是什么?
如果你的数据集包含大量的文本、图像和音频文件, 那么最适合的数据类型是什么?
在进行客户细分时,如果需要识别出具有相似行为特征的用户群体,可以使用哪种数据分析方法?
在进行客户细分时,如果需要识别出具有相似行为特征的用户群体,可以使用哪种数据分析方法?
关于大数据,下列说法有误的是
关于大数据,下列说法有误的是
为实现中国移动可持续发展,以下哪个技术领域最有可能带来突破?
为实现中国移动可持续发展,以下哪个技术领域最有可能带来突破?
对电信运营商而言,利用大数据分析来提高精准营销的效率,依赖于以下哪个步骤?
对电信运营商而言,利用大数据分析来提高精准营销的效率,依赖于以下哪个步骤?
如何有效解决数据孤岛问题?
如何有效解决数据孤岛问题?
下列哪项是有效管理数据质量的重要措施?
下列哪项是有效管理数据质量的重要措施?
以下大数据相关的岗位职责需要分析现有数据和提供洞察并且和合作伙伴输出商业决策略?
以下大数据相关的岗位职责需要分析现有数据和提供洞察并且和合作伙伴输出商业决策略?
Flashcards
大数据 (WIKI 百科)
大数据 (WIKI 百科)
定义:传统数据处理应用软件难以处理的大规模或复杂数据集
大数据 (NIST)
大数据 (NIST)
定义:数量大、获取速度快、形态多样的数据,难以用传统方法有效分析
大数据分析 (Azure)
大数据分析 (Azure)
用于从大量、高速数据集中收集、处理、得出见解的方法、工具和应用程序
大数据 (AWS)
大数据 (AWS)
Signup and view all the flashcards
大数据 (Gartner)
大数据 (Gartner)
Signup and view all the flashcards
Volume
Volume
Signup and view all the flashcards
Variety
Variety
Signup and view all the flashcards
Velocity
Velocity
Signup and view all the flashcards
Value
Value
Signup and view all the flashcards
Veracity
Veracity
Signup and view all the flashcards
B 域数据
B 域数据
Signup and view all the flashcards
O 域数据
O 域数据
Signup and view all the flashcards
M 域数据
M 域数据
Signup and view all the flashcards
S 域数据
S 域数据
Signup and view all the flashcards
分布式存储技术
分布式存储技术
Signup and view all the flashcards
数据压缩与编码优化
数据压缩与编码优化
Signup and view all the flashcards
分层存储策略
分层存储策略
Signup and view all the flashcards
数据生命周期管理
数据生命周期管理
Signup and view all the flashcards
边缘计算与数据预处理
边缘计算与数据预处理
Signup and view all the flashcards
增量处理与流式计算
增量处理与流式计算
Signup and view all the flashcards
硬件加速
硬件加速
Signup and view all the flashcards
边缘计算
边缘计算
Signup and view all the flashcards
消息队列缓冲
消息队列缓冲
Signup and view all the flashcards
弹性资源调度
弹性资源调度
Signup and view all the flashcards
结构化数据
结构化数据
Signup and view all the flashcards
非结构化数据
非结构化数据
Signup and view all the flashcards
半结构化数据
半结构化数据
Signup and view all the flashcards
Veracity(真实性)
Veracity(真实性)
Signup and view all the flashcards
数据造假(主动欺骗)
数据造假(主动欺骗)
Signup and view all the flashcards
数据错误(无心之失)
数据错误(无心之失)
Signup and view all the flashcards
数据缺失(信息不全)
数据缺失(信息不全)
Signup and view all the flashcards
数据验真
数据验真
Signup and view all the flashcards
数据清洗
数据清洗
Signup and view all the flashcards
数据一致性管理
数据一致性管理
Signup and view all the flashcards
建立用户画像
建立用户画像
Signup and view all the flashcards
应用场景广泛
应用场景广泛
Signup and view all the flashcards
可视化数据
可视化数据
Signup and view all the flashcards
Study Notes
- 杨杰董事长在2023年中国移动全球合作伙伴大会上提出,中国移动将把科技创新作为构建企业核心竞争力的关键,并面向六大领域实施BASIC6科创计划,以培育壮大战略性新兴产业集群。
- BASIC6涵盖大数据(B)、人工智能(AI)、安全(S)、能力中台(I)、算力网络(C)和6G。
大数据(Big Data)
- 通过技术手段将数据资源转化为资产、资本,赋能各行各业的数智化转型
- “梧桐”大数据平台通过开发150余个垂直行业产品实现数智化应用
人工智能 (AI)
- 通过“大算力、大数据、大模型”的融合创新,构建全栈AI能力体系,推动智能化场景落地。
- “1+N”大模型体系,包括通用大模型(如“九天”系列)和行业专用模型,赋能40余个行业的智能化转型
安全 (Security)
- 构建云、网、边、端全覆盖的安全体系,保障网络与数据安全。
- 通过主动防御技术,于5G-A/6G、算力网络等场景实现安全突破,增强隐私保护
能力中台 (Integration Platform)
- 通过开放共享中台能力,整合技术资源,赋能全社会数智化创新。
- “AaaS+”服务生态汇集了1300余项数智能力,如AI算法、数据服务等
算力网络 (Computility Network)
- 构建通算、智算、超算一体化的算力基础设施,通过算网大脑实现算力资源全局调度
- “东数西算”布局形成了“4+N+31+X”的数据中心架构,通用算力达8.2 EFLOPS,智算规模达19.6 EFLOPS
6G
- 积极布局6G技术研发与标准制定,推动空天地一体化网络演进。
- 推进新材料、新器件研发,主导全球6G标准制定,探索5G-A商用
课程目标
- 大数据是六大技术底层核心,学习大数据可以深入理解数据如何驱动AI模型训练、支撑算力网络优化、赋能安全治理与能力中台协同,是串联起“AI+算力+安全+中台”技术闭环的关键
大数据的核心概念与实际应用
- 理解大数据基本概念,海量、多样、快速、低价值密度和真实性(5V特征)。
大数据的处理流程与解决方案
- 理解大数据处理流程,包括采集、存储、处理、分析和可视化方法。
数据分析与可视化
- 基于FINEBI工具,培养数据分析思维,学会从数据角度洞察和分析问题
CMHK 大数据技术
- 了解CMHK大数据现状、演进路线和集团梧桐大数据平台。
大数据基础
- 大数据指传统数据处理应用软件难以处理的大规模或复杂数据集,其特点在于数据生成速度快、来源多样。如传感器、社交媒体和物联网设备
- 技术挑战在于数据存储、处理和分析的规模,需要依赖分布式计算和并行处理技术。
大数据 5V 特征
- Volume(数据量大):数据规模从TB到PB甚至更大
- Variety(多样性):包括结构化、半结构化和非结构化数据
- Velocity(速度快):数据生成迅速,需要快速响应。
- Value(价值密度低):有价值数据占比较少,需要分析提炼
- Veracity(真实性):数据质量参差不齐,需要处理噪声、缺失值和虚假信息。
大数据历史发展
- 20世纪40-50年代:计算机科学起步,奠定了数据存储、分析的基础。
- 1970年代:数据库管理系统发展,提高数据存储和检索效率。
- 1990年代:数据挖掘与机器学习兴起,成为数据科学核心。
- 2010年代:人工智能深度学习突破,推动数据科学创新和应用。
- 21世纪初:大数据和数据科学崛起,企业开始从海量数据中获得价值洞见。
通信领域 BOMS 域数据
- B 域数据(业务域):包含客户、订购、账单、话单等业务信息,来源于CRM/BOSS系统。
- O 域数据(网络域):在网管支撑系统中产生,包括资源、性能、告警、工单等。
- M 域数据(管理域):中国移动内部管理信息,来源于ERP、报账、合同等系统。
- S 域数据(业务平台域):由专业公司各业务平台产生,例如咪咕、金科、终端等系统。
B 域数据来源
- 来源于业务支撑系统(BSS) 的核心内容,主要用于管理客户、产品和收入,记录了用户办理套餐、花费金额、投诉问题等
O 域数据
- 来自于运营支撑系统(OSS),用于监控网络状态、优化资源分配和保障服务质量,像是“网络医生的病历本”
- 记录网络的“心跳”(信号强度)、“病症”(故障告警)和“体检报告”(流量负载)。
Volume (解决方法)
- 使用分布式存储技术,如Hadoop HDFS,将数据分割成更小的块,并存储到多个服务器中
- 通过数据压缩与编码优化来精简空间,采用列式存储
- 根据数据访问频率使用分层存储策略(热数据使用SSD)
- 数据生命周期管理,定期清理过期数据
- 调整增量模式,避免堆积数据
Velocity(解决方法)
- 挑战在于跟不上像洪水一样涌来的数据
- 提高硬件加速,为数据引擎装置轮机
- 进行边缘计算,减轻中心压力。通过过滤无效数据,减少10%的有效数据
- 消息队列缓冲,用高吞吐消息队列缓冲数据流,削峰填谷
- 弹性资源调度,用多少资源,扩多少节点
Variety的数据类型
- 结构化:具有固定格式和明确字段的数据。如数据库表
- 半结构化:包含标签或标记的数据,具有一定的灵活性和层级关系(例如JSON/XML文件)
- 非结构化:没有预定义模式,需复杂处理(例如文本、图像、视频)
Veracity(解决方法总结)
- 设定不同逻辑规则验真,并且自动筛选异常数据
- 对问题数据进行清洗和订正错误
- 建立数据管理,统一数据格式和标准
Value特征总结
- 需要建立用户画像,分析用户特征
- 应用场景广泛
- 要做预测与推荐
数据处理流程包括
- 数据采集
- 数据存储
- 数据处理
- 数据分析
- 数据可视化
数据采集具体方式
- 网络数据:网络爬虫和开放API
- 感知设备数据:传感器、摄像头、录像等
- 系统日志采集:Flume 和 Kafka
- 数据库采集:采集端部署大量数据库
解决数据储存问题
- 收集的数据包含非结构化、半结构化和结构化
- 因此大量数据可以无限期存储
- 数据用于多种应用
解决数据处理问题
- 源系统抽取机构化,半机构化及非机构化数据。
- 基于云原生技术实现弹性,从而动态伸缩调整。
数据分析具体步骤
- 统计分析
- 聚类分析
Studying That Suits You
Use AI to generate personalized quizzes and flashcards to suit your learning preferences.