大数据应用基础（山东建筑大学）智慧树知到网课章节测试答案

huan2024-07-10 28

大数据应用基础（山东建筑大学）智慧树知到网课章节测试答案

第一章测试
1.数据计量单位中，T是G的（）倍。
A:1000 B:8 C:16 D:1024
答案:D
2.一般来说，科学实验产生的数据体量较小，质量不高。（）
A:错 B:对
答案:A
3.以下行为正确的是（）。
A:及时删除不明电子邮件的附件 B:使用简单的密码或长时间不修改密码 C:使用国产替换软件 D:使用破解软件，以节约成本
答案:AC
4.一般来说，和PaaS模式的云服务相比，使用SaaS云服务，用户需要自行管理更多的资源。（）
A:对 B:错
答案:B
5.为了快速发展数字经济，可以允许一些平台收集用户的隐私信息。（）
A:错 B:对
答案:A
6.解决数据伦理问题，最根本的是企业或组织坚守伦理底线，践行科技向善的原则。（）
A:错 B:对
答案:B

第二章测试
1.下列调查适宜用调查问卷的是（）
A:对上海市常住人口家庭收入情况进行调查 B:电商平台调查某商品的用户使用感受 C:检测某城市的空气质量 D:对你所在班级的学生最喜欢的体育活动进行调查
答案:AD
2.下列选项中,获取数据的直接来源的方法有（）
A:某大学、科研机构发布的研究数据 B:某企业发布的经营报表数据 C:从《人口普查资料汇编》当中获取的数据 D:实验检测获取数据 E:问卷调查
答案:DE
3.网络爬虫能够爬取互联网上的任何数据。（）
A:对 B:错
答案:B
4.Response类对象的下列属性中，用于表示HTML代码的是（）
A:text B:content C:status_code D:encoding
答案:A
5.运行以下程序，结果是（）
A:False True True B:True False True C:True True True D:True True False
答案:C
6.利用八爪鱼采集器采集数据过程中，如果希望只采集满足条件的部分数据，可以尝试通过判断条件功能来完成。（）
A:对 B:错
答案:A

第三章测试
1.文本文件中的数据的存储结构依赖应用程序，所以文件不适合管理较大规模的数据。（）
A:错 B:对
答案:B
2.数据库管理系统的主要功能包括以下几个方面（）
A:数据操作 B:管理计算机的硬件资源 C:数据定义 D:数据库的建立与维护 E:数据组织、存储和管理
答案:ACDE
3.大数据时代，数据类型繁多，半结构化和非结构化的数据成为主流数据形式，而NoSQL数据库没有固定的表结构，数据约束也比较宽松，更适合海量的非结构化数据存储。（）
A:对 B:错
答案:A
4.NoSQL是大数据时代的主流存储方式，可以全面替代传统的关系数据库。（）
A:错 B:对
答案:A
5.列族数据库的查找速度快、可扩展性强、复杂性低，代表性的软件有HBase、Cassandra等。（）
A:对 B:错
答案:A

第四章测试
1.现实世界中直接采集到的数据大多是不完整、结构不一致、含噪声的数据，无法直接用于数据分析或挖掘。（）
A:错 B:对
答案:B
2.数据预处理的目的（）
A:提高数据质量 B:调整数据格式 C:抽取精准的数据 D:尽可能的简化数据 E:清理“脏”数据
答案:ABCDE
3.数据集成的过程中需要处理的问题有（）
A:实体识别 B:冗余与相关性分析。 C:数据冲突和检测 D:其余选项都是
答案:D
4.数据归约指数据降维，是从原有的数据中删除不重要或不相关的属性，或者通过对属性进行重组来减少属性的个数。（）
A:错 B:对
答案:B
5.pandas库中的DataFrame对象的replace方法可以替换指定数据。（）
A:错 B:对
答案:B

第五章测试
1.Matplotlib中的（）模块提供了一系列操作和绘图函数。
A:rcparams B:pyplot C:bar D:plot
答案:B
2.下列参数中调整后显示中文的是（）。
A:font.sans-serif B:lines.linestyle C:axes.unicode_minus D:lines.linewidth
答案:A
3.散点图无法反映特征之间的统计关系。（）
A:对 B:错
答案:B
4.折线图的主要功能是查看因变量y随着自变量x改变的趋势。（）
A:对 B:错
答案:A
5.在seaborn中要移除图形中的轴线，使用的方法是despine方法。（）
A:错 B:对
答案:B

第六章测试
1.下面有关回归分析的描述，不正确的是（）。
A:回归分析的预测过程是利用得到的模型对新样本进行预测 B:回归分析包括学习过程和预测过程 C:回归分析的学习过程是利用有标签的训练数据集学习得到一个模型 D:回归分析属于无监督学习
答案:D
2.关于下面这段代码，描述不正确的是（）。
A:第7行代码用于查看所估计回归方程的判定系数R方 B:第6行代码用于对所建立的回归模型进行参数估计 C:第8行代码用于查看所估计回归方程的回归参数 D:第2行代码建立了一个名为regr的线性回归模型
答案:A
3.下面有关分类的描述，正确的是（）。
A:分类是一种监督学习 B:分类包括学习过程和分类过程 C:分类是一种无监督学习 D:分类问题的因变量是类别变量
答案:ABD
4.利用逻辑回归模型进行类别预测的方法是（）。
A:LinearRegression.predict() B:LogisticRegression.fit() C:LogisticRegression.predict() D:LogisticRegression.score()
答案:C
5.以下关于聚类的描述，正确的是（）
A:聚类的数据集只包含特征变量不包含类别变量 B:聚类属于监督学习 C:聚类的数据集包含特征变量和类别变量 D:决策树方法是一种聚类方法
答案:A
6.在K-means聚类过程中，计算不同K值时的内平方和WWS如下表所示，请问最优K值是（）。K值 WWS值 1 62.8 2 12.3 3 9.4 4 9.3 5 9.2 6 9.1
A:1 B:3 C:4 D:2
答案:B
7.有关K-means聚类命令sklearn.cluster.KMeans()，以下说法不正确的是（）。
A:可通过参数n_clusters指定初始聚类中心位置 B:可通过属性cluster_centers_查看聚类之后的质心坐标 C:用于计算K-means聚类的方法是fit() D:可通过属性labels_查看聚类之后的样本点分类
答案:A
8.关于下面这段代码，描述不正确的是（）。
A:x_train，y_train分别是指训练集的自变量和因变量 B:训练集和测试集的比例为0.25:0.75 C:x_test，y_test分别是指测试集的自变量和因变量 D:sklearn.model_selection.train_test_split()方法可用于将数据集分为训练集和测试集两部分
答案:B
9.有关文本分析的描述，不正确的是（）。
A:去除停用词是指去除文本中包含信息较多、使用频率又很高的词 B:一般而言，进行文本分析的起始步骤是词语分词 C:词性标注是指为词语标注相应词性的过程 D:词干提取可用于英文文本分析
答案:A
10.可用于英文分词的方法是（）。
A:nltk.FreDist() B:stopwords.words() C:nltk.word_tokenize() D:nltk.pos_tag()
答案:C

第七章测试
1.更改一个文件权限的命令是（）。
A:cat B:attrib C:chmod D:chown
答案:C
2.Linux中权限最大的账户是（）。
A:admin B:super C:guest D:root
答案:D
3.Linux的命令由连续的字符组成，命令和参数之间可以没有空格。（）
A:对 B:错
答案:B
4.Linux操作系统的主要特点是（）。
A:免费 B:多用户多任务 C:开源 D:安全
答案:ABCD
5.从目录/home/glxy/app切换到目录/home/glxy/hadoop的相对路径是（）
A:hadoop B:../hadoop C: /home/glxy/hadoop D:./hadoop
答案:B
第八章测试
1.一种典型的数据处理使用模式是：首先使用（）工具对原始海量数据进行分析，产生较小规模的数据集，再使用（）工具对该数据集进行快速查询，获取最终结果。
A:批处理、流处理 B:交互式处理、批处理 C:流处理、批处理 D:批处理、交互式处理
答案:D
2.大数据管理平台技术的发展历程为（）。
A:开源阶段 B:初始阶段 C:流处理阶段 D:内存计算阶段
答案:ABCD
3.常用的流数据处理技术有（）。
A:Strom B:Hadoop C:Spark Streaming D:Flink
答案:ACD
4.下述哪些技术不属于开源技术（）。
A:Spark B:Hadoop C:GFS D:Flink
答案:C
5.大数据管理平台技术可以应用到下述哪些领域场景中（）。
A:电信 B:医疗 C:交通 D:互联网
答案:ABCD
第九章测试
1.在HDFS中负责保存文件数据的节点被称为（）。
A:NameNode B:DataNode C:SecondaryNameNode D:NodeManager
答案:B
2.下面与HDFS类似的框架是（）？
A:EXT3 B:FAT32 C:GFS D:NTFS
答案:C
3.下面哪个程序负责 HDFS 数据存储（）。
A:secondaryNameNode B:Datanode C:NameNode D:Jobtracker
答案:B
4.HDFS中的NameNode节点用于存放元数据，数据内容包含（）。
A:客户端硬件配置数据 B:数据块与数据节点的映射表 C:文件与数据块的映射表 D:每个数据块的内容
答案:BC
5.HDFS系统采用NameNode定期向DataNode发送心跳消息，用于检测系统是否正常运行。（）
A:错 B:对
答案:A
第十章测试
1.Spark生态系统支持批处理、交互式处理和流处理。（）
A:对 B:错
答案:A
2.以下哪个组件不属于Spark生态（）。
A:Spark SQL B:YARN C:Spark Streaming D:Spark Core
答案:B
3.Map阶段的主要工作是将多个任务的计算结果进行汇总。（）
A:对 B:错
答案:B
4.Spark的主要特点有（）。
A:涵盖存储和处理组件 B:性能高效 C:与Hadoop无缝集成 D:简单易用
答案:BCD
5.可通过浏览器访问Spark Web UI查看Spark集群状态，默认地址为主节点IP加端口号8080。
A:错 B:对
答案:B
　

本站资源均来自互联网，侵权请联系站长删除

随机主题

中国社会工作的自身特点有（）（）是社区治安的首要环节和重要保障。完善社区民主选举的措施丰富，其中不包括（）。确诊妊娠合并糖尿病，空腹血糖应是经纪人和代理商属于零售商。《赵氏孤儿》被林兆华改编为话剧后,就变得风格化了。()以下哪位人物不是美女?()唯物主义和唯心主义这两个专门的哲学术语有着特定的含义和确定的标准，不能随意乱用，也不能另立标准，否则会造成混乱。这里所说的特定含义和确定标准是指毛泽东提出要把马克思列宁主义基本原理同中国具体实践进行“第一次结合”,是在()。马克思主义是在实践中产生的，并在实践中不断丰富和发展。马克思恩格斯曾经认为无产阶级革命至少将在几个主要的资本主义国家内同时发生。列宁认真总结了当时変化了的新情况，深刻论述了社会主义革命可能在一国或数国首先取得胜利的论断。列宁得出社会主义之革命可能在一国或数我国社会主义初级阶段的时间跨度是指( )春季是流感等呼吸道传染病的流行季，其中造成人体感染且季节性流行的主要是甲型、乙型流感。关于流感，下列说法错误的是_____。现代微型计算机中所采用的电子器件是________。若网络的各个节点均连接到同一条通信线路上,且线路两端有防止信号反射的装置，这种拓扑结构称为(把内存中的数据保存到硬盘上的操作称为________。以下关于国际法基本特征的说法正确的有和易性良好的砂浆容易在粗糙的砖石底面上铺设成均匀的薄层，而且能够和底面紧密粘结。糖皮质激素用于慢性炎症的目的在于用于同级或同辈的致意方式是（）。社会养老保险资产负债表的主要科目包括（）。

最新回复(0)

大数据应用基础（山东建筑大学）智慧树知到网课章节测试答案

🔥推荐