RDD( Resilient Distributed Dataset,弹性分布式数据集),是一个容错的、并行的数据结构,可以让用户显式地将数据存储到磁盘和内存中,并且还能控制数据的分区。对于迭代式计算和交互式数据挖掘,RDD可以将中间计算的数据结果保存在内存中,若是后面需要中间结果参与计算时,则可以直接从内存中读取,从而可以极大地提高计算速度。查看全文>>
Scala语言可以在Windows、Linux、Mac OS等系统上编译运行。由于Scala是运JVM平台上的,所以安装Scala之前必须配置好JDK环境(JDK版本要求不低于1.5)。查看全文>>
Scala是Scalable Language的简称,它是一门多范式的编程语言,其设计初衷是实现种可扩展的语言,并集成面向对象编程和函数式编程的各种特性。基于这个目标与设计,Scala具有以下显著的特性。查看全文>>
在Spark中,RDD是采用惰性求值,即每次调用行动算子操作,都会从头开始计算。然而,每次调用行动算子操作,都会触发一次从头开始的计算,这对于迭代计算来说,代价是很大的,因为迭代计算经常需要多次重复的使用同一组数据集,所以,为了避免重复计算的开销,可以让Spark对数据集进行持久化。查看全文>>
完成虚拟机的安装和网络配置,虽然可以正常使用,但是工作中还需要远程操纵服务器进行各项操作,所以就需要对虚拟机实行配置远程登录和SSH免密登录,进行相关操作。接下来,就分别对这两种服务配置进行说明和详细讲解。查看全文>>
HBase是由Java语言开发的,它对外提供了Java API的接口。接下来,通过Java API来操作HBase分布式数据库,包括增、删、改以及查等对数据表的操作,具体操作步骤如下:查看全文>>