多项选择题
下面关于DataFrame的描述正确的是()。
A.DataFrame的推出,让Spark具备了处理大规模结构化数据的能力
B.DataFrame比原有的RDD转化方式更加简单易用,而且获得了更高的计算性能
C.Spark能够轻松实现从MySQL到DataFrame的转化,并且支持SQL查询
D.DataFrame是一种以RDD为基础的分布式数据集,提供了详细的结构信息
点击查看答案&解析
相关考题
-
单项选择题
《红楼梦》中,贾宝玉的父亲让仆人转告贾府私塾老师说:“什么《诗经》、古文,一概不用虚应故事,只是先把‘四书’一气讲明背熟,是最要紧的.”据此推断符合史实的结论是()
A.理学居于统治地位,“四书”更受重视
B.孔子权威地位动摇,《诗经》遭到轻视
C.科举制度弊端暴露,富家子弟弃儒从商
D.《红楼梦》取材于现实,反映宋代生活 -
多项选择题
下面关于为什么推出Spark SQL的原因的描述正确的是()。
A.Spark SQL可以提供DataFrame API,可以对内部和外部各种数据源执行各种关系操作
B.可以支持大量的数据源和数据分析算法,组合使用Spark SQL和Spark MLlib,可以融合传统关系数据库的结构化数据管理能力和机器学习算法的数据处理能力
C.Spark SQL无法对各种不同的数据源进行整合
D.Spark SQL无法融合结构化数据管理能力和机器学习算法的数据处理能力 -
多项选择题
Shark的设计导致了两个问题。()
A.执行计划优化完全依赖于Hive,不方便添加新的优化策略
B.执行计划优化不依赖于Hive,方便添加新的优化策略
C.Spark是线程级并行,而MapReduce是进程级并行,因此,Spark在兼容Hive的实现上存在线程安全问题,导致Shark不得不使用另外一套独立维护的、打了补丁的Hive源码分支