中国移动BASIC6科创计划:六大技术领域

Choose a study mode

Play Quiz
Study Flashcards
Spaced Repetition
Chat to Lesson

Podcast

Play an AI-generated podcast conversation about this lesson
Download our mobile app to listen on the go
Get App

Questions and Answers

在BASIC6科创计划中,哪个领域是所有其他领域技术的底层核心?

  • 大数据 (correct)
  • 安全
  • 能力中台
  • 人工智能

以下哪项描述最符合大数据的“5V”特征之一的_真实性(Veracity)_?

  • 保证数据规模从TB级别扩展到PB级别
  • 需处理数据中存在的噪声、缺失值或虚假信息 (correct)
  • 提升大数据中真正有价值信息的比例
  • 确保数据能被快速生成和处理

要将数据资源转化为资产和资本,以下哪个手段不直接相关?

  • 法律规范
  • 核心生产要素 (correct)
  • 技术手段
  • 数智化应用

中国移动的“梧桐”大数据平台主要应用于哪个行业?

<p>垂直行业 (A)</p>
Signup and view all the answers

以下哪项不是大数据处理流程通常包含的环节?

<p>加密 (C)</p>
Signup and view all the answers

以下哪个选项准确描述了传统数据库通常难以有效处理大数据的原因?

<p>数据量过大、速度快、多样性 (B)</p>
Signup and view all the answers

以下哪一项是采用分布式存储技术处理大量数据的核心优势?

<p>降低存储成本 (B)</p>
Signup and view all the answers

在解决数据量大(Volume)的问题时,以下哪种方法强调在数据产生的源头就进行处理?

<p>边缘计算 (C)</p>
Signup and view all the answers

如果一个企业希望减少大数据处理过程中的资源消耗,应该优先考虑哪种方法?

<p>使用流式计算 (D)</p>
Signup and view all the answers

以下哪项不属于通信行业中B域(业务支撑域)的数据类型?

<p>告警信息 (B)</p>
Signup and view all the answers

在网络运维中,哪个域的数据可以被比作"网络医生的病历本"?

<p>O域 (B)</p>
Signup and view all the answers

对数据进行"瘦身减肥"的主要目的是为了解决以下哪个大数据挑战?

<p>数据量大(Volume) (D)</p>
Signup and view all the answers

在以下哪个阶段,数据质量尤为重要?

<p>数据分析阶段 (C)</p>
Signup and view all the answers

主动防御技术主要用于解决哪个领域的安全问题?

<p>网络安全 (D)</p>
Signup and view all the answers

考虑企业对大数据技术栈的长期演进和持续发展, 应该__?

<p>优先采用成熟稳定的技术 (D)</p>
Signup and view all the answers

在企业构建大数据平台时,应该首先考虑哪个因素?

<p>确定业务目标和需求 (C)</p>
Signup and view all the answers

为了确保在进行数据分析时得出有效的结论,应该特别注意大数据哪个特性?

<p>真实性 (Veracity) (B)</p>
Signup and view all the answers

以下哪种方法不属于大数据量(Volume)的解决?

<p>提高数据采样频率 (A)</p>
Signup and view all the answers

如果企业希望通过分析用户的位置信息来优化营销策略,应该关注哪个域的数据?

<p>O域 (运营支撑域) (A)</p>
Signup and view all the answers

以下哪个选项不是数据分析目标?

<p>增加数据存储容量 (C)</p>
Signup and view all the answers

若要设计一套有效的数据生命周期管理策略,核心是什么?

<p>设定数据保留策略 (A)</p>
Signup and view all the answers

在使用机器学习算法进行预测时,如果发现模型过度拟合,应该采取以下哪个措施?

<p>增加数据量 (B)</p>
Signup and view all the answers

以下哪个选项与大数据存储方式有关?

<p>Data Lake (A)</p>
Signup and view all the answers

若要确保来自不同渠道的数据在分析时能够一致,最重要的是做好什么?

<p>数据一致性管理 (D)</p>
Signup and view all the answers

不准确的数据将直接导致?

<p>错误的商业决策 (B)</p>
Signup and view all the answers

针对海量数据处理,以下哪个技术特点不属于"数据仓库(Data Warehouse)"?

<p>适用于复杂的机器学习 (A)</p>
Signup and view all the answers

下列哪项描述符合数据湖Data Lake?

<p>擅长处理海量非结构化数据 (A)</p>
Signup and view all the answers

在数据分析中,为什么数据可视化很重要?

<p>能够更高效地理解数据 (D)</p>
Signup and view all the answers

用于从各种数据源抽取、转换和加载(ETL)数据的步骤中最关键的环节是什么?

<p>确保数据质量和规范化 (A)</p>
Signup and view all the answers

如果你的数据集包含大量的文本、图像和音频文件, 那么最适合的数据类型是什么?

<p>非结构化数据 (B)</p>
Signup and view all the answers

在进行客户细分时,如果需要识别出具有相似行为特征的用户群体,可以使用哪种数据分析方法?

<p>聚类分析 (D)</p>
Signup and view all the answers

关于大数据,下列说法有误的是

<p>价值性是大数据的关键特征之一 (A)</p>
Signup and view all the answers

为实现中国移动可持续发展,以下哪个技术领域最有可能带来突破?

<p>深度学习 (A)</p>
Signup and view all the answers

对电信运营商而言,利用大数据分析来提高精准营销的效率,依赖于以下哪个步骤?

<p>用户行为模式识别 (A)</p>
Signup and view all the answers

如何有效解决数据孤岛问题?

<p>建立统一的数据中台 (C)</p>
Signup and view all the answers

下列哪项是有效管理数据质量的重要措施?

<p>制定数据质量标准 (B)</p>
Signup and view all the answers

以下大数据相关的岗位职责需要分析现有数据和提供洞察并且和合作伙伴输出商业决策略?

<p>业务分析师 (D)</p>
Signup and view all the answers

Flashcards

大数据 (WIKI 百科)

定义:传统数据处理应用软件难以处理的大规模或复杂数据集

大数据 (NIST)

定义:数量大、获取速度快、形态多样的数据,难以用传统方法有效分析

大数据分析 (Azure)

用于从大量、高速数据集中收集、处理、得出见解的方法、工具和应用程序

大数据 (AWS)

数据量(Volume)、多样性(Variety)和速度(Velocity)的综合挑战,传统数据库无法满足需求

Signup and view all the flashcards

大数据 (Gartner)

大量、高速及/或多变的信息资产,需新型处理方式以增强决策能力、洞察力和流程优化

Signup and view all the flashcards

Volume

数据量大

Signup and view all the flashcards

Variety

多样性

Signup and view all the flashcards

Velocity

生成与处理速度快

Signup and view all the flashcards

Value

价值密度低

Signup and view all the flashcards

Veracity

真实性

Signup and view all the flashcards

B 域数据

系统所产生的数据,包含客户、订购、账单等信息

Signup and view all the flashcards

O 域数据

网管支撑系统中产生的数据,如资源、性能、告警等

Signup and view all the flashcards

M 域数据

中国移动内部管理信息,来源于集中化 ERP 等

Signup and view all the flashcards

S 域数据

专业公司各业务平台产生的数据,如咪咕、金科等

Signup and view all the flashcards

分布式存储技术

将数据切分成小块分散存储到多台服务器

Signup and view all the flashcards

数据压缩与编码优化

通过压缩算法减少数据体积,或采用高效编码格式降低存储开销

Signup and view all the flashcards

分层存储策略

根据数据访问频率,将热数据和冷数据存储在不同介质中

Signup and view all the flashcards

数据生命周期管理

设定数据保留策略,定期清理过期或低价值数据

Signup and view all the flashcards

边缘计算与数据预处理

在数据产生的边缘节点进行初步处理,仅上传关键结果

Signup and view all the flashcards

增量处理与流式计算

实时处理数据流,避免堆积成海量离线数据

Signup and view all the flashcards

硬件加速

增加硬件加速

Signup and view all the flashcards

边缘计算

在数据源头就近处理数据

Signup and view all the flashcards

消息队列缓冲

用高吞吐消息队列缓冲数据流

Signup and view all the flashcards

弹性资源调度

使用云原生技术,动态扩缩容

Signup and view all the flashcards

结构化数据

结构化数据(如 MySQL 数据库表)

Signup and view all the flashcards

非结构化数据

文本、图像、视频等等。

Signup and view all the flashcards

半结构化数据

JSON/XML 文件

Signup and view all the flashcards

Veracity(真实性)

垃圾进, 垃圾出

Signup and view all the flashcards

数据造假(主动欺骗)

数据造假

Signup and view all the flashcards

数据错误(无心之失)

数据错误

Signup and view all the flashcards

数据缺失(信息不全)

数据缺失

Signup and view all the flashcards

数据验真

是检查数据的正确数据。

Signup and view all the flashcards

数据清洗

关于不正确的数据修复。

Signup and view all the flashcards

数据一致性管理

保证数据的一致性

Signup and view all the flashcards

建立用户画像

建立用户画像

Signup and view all the flashcards

应用场景广泛

应用场景广泛

Signup and view all the flashcards

可视化数据

可视化数据

Signup and view all the flashcards

Study Notes

  • 杨杰董事长在2023年中国移动全球合作伙伴大会上提出,中国移动将把科技创新作为构建企业核心竞争力的关键,并面向六大领域实施BASIC6科创计划,以培育壮大战略性新兴产业集群。
  • BASIC6涵盖大数据(B)、人工智能(AI)、安全(S)、能力中台(I)、算力网络(C)和6G。

大数据(Big Data)

  • 通过技术手段将数据资源转化为资产、资本,赋能各行各业的数智化转型
  • “梧桐”大数据平台通过开发150余个垂直行业产品实现数智化应用

人工智能 (AI)

  • 通过“大算力、大数据、大模型”的融合创新,构建全栈AI能力体系,推动智能化场景落地。
  • “1+N”大模型体系,包括通用大模型(如“九天”系列)和行业专用模型,赋能40余个行业的智能化转型

安全 (Security)

  • 构建云、网、边、端全覆盖的安全体系,保障网络与数据安全。
  • 通过主动防御技术,于5G-A/6G、算力网络等场景实现安全突破,增强隐私保护

能力中台 (Integration Platform)

  • 通过开放共享中台能力,整合技术资源,赋能全社会数智化创新。
  • “AaaS+”服务生态汇集了1300余项数智能力,如AI算法、数据服务等

算力网络 (Computility Network)

  • 构建通算、智算、超算一体化的算力基础设施,通过算网大脑实现算力资源全局调度
  • “东数西算”布局形成了“4+N+31+X”的数据中心架构,通用算力达8.2 EFLOPS,智算规模达19.6 EFLOPS

6G

  • 积极布局6G技术研发与标准制定,推动空天地一体化网络演进。
  • 推进新材料、新器件研发,主导全球6G标准制定,探索5G-A商用

课程目标

  • 大数据是六大技术底层核心,学习大数据可以深入理解数据如何驱动AI模型训练、支撑算力网络优化、赋能安全治理与能力中台协同,是串联起“AI+算力+安全+中台”技术闭环的关键

大数据的核心概念与实际应用

  • 理解大数据基本概念,海量、多样、快速、低价值密度和真实性(5V特征)。

大数据的处理流程与解决方案

  • 理解大数据处理流程,包括采集、存储、处理、分析和可视化方法。

数据分析与可视化

  • 基于FINEBI工具,培养数据分析思维,学会从数据角度洞察和分析问题

CMHK 大数据技术

  • 了解CMHK大数据现状、演进路线和集团梧桐大数据平台。

大数据基础

  • 大数据指传统数据处理应用软件难以处理的大规模或复杂数据集,其特点在于数据生成速度快、来源多样。如传感器、社交媒体和物联网设备
  • 技术挑战在于数据存储、处理和分析的规模,需要依赖分布式计算和并行处理技术。

大数据 5V 特征

  • Volume(数据量大):数据规模从TB到PB甚至更大
  • Variety(多样性):包括结构化、半结构化和非结构化数据
  • Velocity(速度快):数据生成迅速,需要快速响应。
  • Value(价值密度低):有价值数据占比较少,需要分析提炼
  • Veracity(真实性):数据质量参差不齐,需要处理噪声、缺失值和虚假信息。

大数据历史发展

  • 20世纪40-50年代:计算机科学起步,奠定了数据存储、分析的基础。
  • 1970年代:数据库管理系统发展,提高数据存储和检索效率。
  • 1990年代:数据挖掘与机器学习兴起,成为数据科学核心。
  • 2010年代:人工智能深度学习突破,推动数据科学创新和应用。
  • 21世纪初:大数据和数据科学崛起,企业开始从海量数据中获得价值洞见。

通信领域 BOMS 域数据

  • B 域数据(业务域):包含客户、订购、账单、话单等业务信息,来源于CRM/BOSS系统。
  • O 域数据(网络域):在网管支撑系统中产生,包括资源、性能、告警、工单等。
  • M 域数据(管理域):中国移动内部管理信息,来源于ERP、报账、合同等系统。
  • S 域数据(业务平台域):由专业公司各业务平台产生,例如咪咕、金科、终端等系统。

B 域数据来源

  • 来源于业务支撑系统(BSS) 的核心内容,主要用于管理客户、产品和收入,记录了用户办理套餐、花费金额、投诉问题等

O 域数据

  • 来自于运营支撑系统(OSS),用于监控网络状态、优化资源分配和保障服务质量,像是“网络医生的病历本”
  • 记录网络的“心跳”(信号强度)、“病症”(故障告警)和“体检报告”(流量负载)。

Volume (解决方法)

  • 使用分布式存储技术,如Hadoop HDFS,将数据分割成更小的块,并存储到多个服务器中
  • 通过数据压缩与编码优化来精简空间,采用列式存储
  • 根据数据访问频率使用分层存储策略(热数据使用SSD)
  • 数据生命周期管理,定期清理过期数据
  • 调整增量模式,避免堆积数据

Velocity(解决方法)

  • 挑战在于跟不上像洪水一样涌来的数据
  • 提高硬件加速,为数据引擎装置轮机
  • 进行边缘计算,减轻中心压力。通过过滤无效数据,减少10%的有效数据
  • 消息队列缓冲,用高吞吐消息队列缓冲数据流,削峰填谷
  • 弹性资源调度,用多少资源,扩多少节点

Variety的数据类型

  • 结构化:具有固定格式和明确字段的数据。如数据库表
  • 半结构化:包含标签或标记的数据,具有一定的灵活性和层级关系(例如JSON/XML文件)
  • 非结构化:没有预定义模式,需复杂处理(例如文本、图像、视频)

Veracity(解决方法总结)

  • 设定不同逻辑规则验真,并且自动筛选异常数据
  • 对问题数据进行清洗和订正错误
  • 建立数据管理,统一数据格式和标准

Value特征总结

  • 需要建立用户画像,分析用户特征
  • 应用场景广泛
  • 要做预测与推荐

数据处理流程包括

  • 数据采集
  • 数据存储
  • 数据处理
  • 数据分析
  • 数据可视化

数据采集具体方式

  • 网络数据:网络爬虫和开放API
  • 感知设备数据:传感器、摄像头、录像等
  • 系统日志采集:Flume 和 Kafka
  • 数据库采集:采集端部署大量数据库

解决数据储存问题

  • 收集的数据包含非结构化、半结构化和结构化
  • 因此大量数据可以无限期存储
  • 数据用于多种应用

解决数据处理问题

  • 源系统抽取机构化,半机构化及非机构化数据。
  • 基于云原生技术实现弹性,从而动态伸缩调整。

数据分析具体步骤

  • 统计分析
  • 聚类分析

Studying That Suits You

Use AI to generate personalized quizzes and flashcards to suit your learning preferences.

Quiz Team

Related Documents

More Like This

Use Quizgecko on...
Browser
Browser