RDD处理过程中的“转换”操作主要用于根据已有RDD创建新的RDD,每一次通过Transformation算子计算后都会返回一个新RDD,供给下一个转换算子使用。面,我们通过结合具体的示例对这些转换算子API进行详细讲解。查看全文>>
使用Scala语言开发单词计数Spark程序,现有文本文件words.txt(读者需要在本地创建文件并上传至指定目录)在HDFS中的/spark/test路径下如果使用Spark Shell来读取HDFS中的/spark/test/ words.txt文件,具体步骤如下:查看全文>>
在Scala中,控制结构语句包括条件分支语句和循环语句。其中,条件分支语句有if语句、if...else语句、if...else if...else语句以及if...else嵌套语句;循环语句有for循环,while循环和do...while循环。条件分支语句和循环语句的语法格式具体如下。查看全文>>
Spark作业与MapReduce作业同样可以先在本地开发测试,本地执行模式与集群提交模式,代码的业务功能相同,因此本书大多数采用本地开发模式。下面讲解使用IDEA工具开发WordCount单词计数程序的相关步骤。查看全文>>
Scala有两种类型的变量,一种是使用关键字var声明的变量,值是可变的;另一种是使用关键字val声明的变量,也叫常量,值是不可变的。这里需要说明的是,虽然声明值和变量的方式比较简单,但是有以下几个事项需要注意:查看全文>>
MapReduce是一种编程模型,用于处理大规模数据集的并行运算。使用MapReduce执行计算任务的时候,每个任务的执行过程都会被分为两个阶段,分别是Map和Reduce,其中Map阶段用于对原始数据进行处理,Reduce阶段用于对Map阶段的结果进行汇总,得到最终结果,这两个阶段的模型如图1所示。查看全文>>