200道单选题 PDF

1. 选择题 1.下列不属于分布式存储技术的是（）。 A.HDFS B.Oracle C.GFS D.HBase 正确答案:B 答案解析:分布式存储技术包括HDFS、GFS、Hbase。 2.在数据压缩方法中，有损压缩具有（）的特点。 A.压缩比小，可逆 B.压缩比大，可逆 C.压缩比小，不可逆 D.压缩...

1. 选择题 1.下列不属于分布式存储技术的是（）。 A.HDFS B.Oracle C.GFS D.HBase 正确答案:B 答案解析:分布式存储技术包括HDFS、GFS、Hbase。 2.在数据压缩方法中，有损压缩具有（）的特点。 A.压缩比小，可逆 B.压缩比大，可逆 C.压缩比小，不可逆 D.压缩比大，不可逆正确答案:D 答案解析:压缩比大，不可逆 3.下列属于DDL语言的是（）。 A.SELECT B.CREATE C.UPDATE D.INSERT 正确答案:B 答案解析:数据定义语言（Data Definition Language，DDL）:用于定义、修改、删除数据库对象，包括CREATE，ALTER ，DROP，GRANT，REVOKE，AUDIT和NOAUDIT等 4.下面关于MapReduce任务描述不正确的是（）。 A.不同的Map任务之间不会进行通信 B.不同的Reduce任务之间也不会发生任何信息交换 C.Map需要考虑数据全局性 D.用户不能显式地从一台机器向另一台机器发送消息正确答案:C 答案解析:在MapReduce工作工作中: 不同的Map任务之间不会进行通信。不同的Reduce任务之间也不会发生任何信息交换。 Map需要考虑数据局部性，Reduce无需考虑数据局部性。用户不能显式地从一台机器向另一台机器发送消息。所有的数据交换都是通过MapReduce框架自身去实现的。 5.利用Sqoop进行数据同步描述错误的是（）。 A.将关系数据库数据导入HDFS B.将关系数据库数据导入Hive C.将关系数据库数据导入HBase D.将HDFS数据导入Hive 正确答案:D 答案解析:Sqoop是一款开源的工具，主要用于在Hadoop与传统的关系数据库间进行数据的传递 6.信息技术的发展使得信息存储问题得以解决，是因为（）。 A.存储设备容量大幅增加，价格上升 B.存储设备容量大幅增加，速度下降 C.存储设备容量大幅增加，速度提升，价格不断下降 D.存储设备容量大幅增加，速度不断提升，价格却在也不断上升正确答案:C 答案解析:随着科学技术的不断进步，存储设备容量大幅增加，速度不断提升，价格却在不断下降。 7.在计算机辅助制图、测图、设计中，对图形或图像数字化过程可称为（）。 A.数据分析 B.数据采集 C.数据可视化 D.数据通信正确答案:B 答案解析:在计算机辅助制图、测图、设计中，对图形或图像数字化过程可称为数据采集。 8.下面哪个不是Spark比Mapreduce计算快的原因（）。 A.基于内存的计算 B.基于DAG的调度框架 C.基于Lineage的容错机制 D.基于分布式计算的框架正确答案:D 答案解析:作为计算模型，在实际进行开发时，使用Hadoop需要编写不少相对底层的代码，不够高效。相对而言，Spark 提供了多种高层次、简洁的API。我们从以下几个方面对比以下Hadoop和Spark的计算模型。首先Hadoop采用磁盘HDFS文件系统的split进行数据存储；Spark使用内存构建弹性分布式数据集RDD对数据进行运算。Spark的计算模式也属于MapRedu ce，但不局限于Map和Reduce操作，还提供了多种数据集操作类型，编程模型比Hadoop MapReduce更灵活。最后Hadoop的任务以进程的方式维护，需要数秒时间才能启动任务；而spark的任务以线程的方式维护，对于小数据集读取能够达到亚秒级的延迟。Spark提供了内存计算，可将中间结果放到内存中，对于迭代运算效率更高 9.假设男生用1表示，女生用0表示，某人的性别未填，应该如何处理（）。 A.填1 B.填0 C.填0.5 D.可根据其它信息（如身高、体重）推测正确答案:D 答案解析:看数据分布 10.下面（）描述是正确的。 A.回归和聚类都是有指导的学习 B.回归和聚类都是无指导的学习 C.回归是有指导的学习，聚类是无指导的学习 D.回归是无指导的学习，聚类是有指导的学习正确答案:C 答案解析:回归是有指导的学习，聚类是无指导的学习 11.关联规则挖掘方法是一种基于规则的机器学习算法，以下关于关联规则挖掘方法的描述错误的是（）。 A.生产关联规则一般利用最小支持度从数据库中找到频繁项集 B.生成关联规则一般利用最小置信度从频繁项集中找到关联规则 C.关联规则挖掘属于有监督学习算法 D.如果一个项集是频繁的，那么它的所有子集也一定是频繁的\ 正确答案:C 答案解析:生成关联规则一般被划分为两个步骤: ①利用最小支持度从数据库中找到频繁项集。 ②利用最小置信度从频繁项集中找到关联规则。因此AB选项正确。关联规则挖掘算法的目的是利用一些度量指标来分辨数据库中存在的强规则，用于知识发现，而不是预测，该方法属于无监督机器学习方法。所以C选项错误。 D是先验原理，基于先验原理可以对候选集进行剪枝处理。 12.下列关于并行计算描述错误的是（）。 A.同时使用多种计算资源解决计算问题 B.用多个处理器来协同求解同一问题 C.提高计算机系统计算速度和处理能力 D.将任务分割成小块，不同的机器上分别进行正确答案:D 答案解析:并行计算（Parallel Computing）是指同时使用多种计算资源解决计算问题的过程，是提高计算机系统计算速度和处理能力的一种有效手段。并行计算可分为时间上的并行和空间上的并行。时间上的并行是指流水线技术，就是并行算法中的时间并行，在同一时间启动两个或两个以上的操作，大大提高计算性能。

200道单选题 PDF

Document Details

Tags

Related

Summary

Full Transcript

Upgrade to continue