A.Spark 是一个分布式数据基础设施
B.Spark 通过内存中的 DAG 有向无环图,减少落盘计算
C.Spark 是一个批处理框架
D.Spark 是一个流处理框架
A.NoSQL数据库因为不受schema的限制,可以获得比传统关系型数据库更好的读写性能,因此,所有应用都可以使用NoSQL数据库替代关系型数据库。
B.NoSQL数据库类型可以分为键值型NoSQL数据库,文档型NoSQL数据库,列存储型NoSQL数据库和图NoSQL数据库
C.Redis是单纯的内存数据库,不提供数据持久化功能,因此可靠性很低。
D.Spark分布式计算框架可以支持多种计算模式,包括批处理、流处理和SQL查询。
A.Spark是一个基于内存迭代的框架
B.Spark是一个数据分析技术栈,包含了大数据的多种计算模式
C.Spark可以采用多种编程语言进行开发,比如Scal
D.Java
E.Spark计算过程中,数据不会落地到磁盘
A.MR框架过多的磁盘操作,缺乏对分布式内存的支持
B.MR框架无法高效地支持迭代式计算
C.MR框架无法高效地支持交互式数据挖掘任务
D.MR框架无法进行分析性计算任务
A.Spark SQL在HDFS文件上可根据自定义方式进行文件与表的映射关系
B.Spark Streaming准实时流计算框架,数据可以消费MQ,Kafka等
C.Spark MLlib机器机器学习算法库,封装了主流的机器学习算法
D.Spark GraphX进行基于图计算的服务支持