在数据科学应用中,数据工程师可以利用Spark进行数据分析与建模,由于Spark具有良好的易用性,数据工程师只需要具备一定的SQL语言基础、统计学、机器学习等方面的经验,以及使用Python、Matlab或者R语言的基础编程能力,就可以使用Spark进行上述工作。查看全文>>
同一个事件类型在不同的连接状态中代表的含义有所不同,当客户端断开连接,这时客户端和服务器的连接就是Disconnected状态,说明连接失败;当客户端和服务器的某一个节点建立连接,并完成一次version、zxid的同步,这时客户端和服务器的连接状态就是SyncConnected,说明连接成功;查看全文>>
Hadoop可以存储多种文件格式。在存储结构上,SequenceFile主要由一个Header后跟多条Record组成,Header主要包含了Key classname,value classname,存储压缩算法,用户自定义元数据等信息查看全文>>
随着Hadoop的不断发展,Hadoop生态体系越来越完善,现如今已经发展成一个庞大的生态体系,Hadoop生态体系包含了很多子系统,下面介绍一些常见的子系统,具体如下:查看全文>>
在Scala中,它和Java一样也是拥有方法和函数。Scala的方法是类的一部分,而函数是一个对象可以赋值给一个变量。换句话来说,在类中定义的函数即是方法。查看全文>>
对于迭代式计算和交互式数据挖掘,RDD可以将中间计算的数据结果保存在内存中,当Spark集群中的某一个节点由于宕机导致数据丢失,就可以通过Spark中的RDD进行容错恢复已经丢失的数据。RDD提供了两种故障恢复的方式,分别是血统(Lineage)方式和设置检查点(checkpoint)方式。下面,我们就来介绍一下这两种方式。查看全文>>