Shell命令可以很方便地操作HBase数据库,例如创建、删除及修改表、向表中添加数据、列出表中的相关信息等操作。不过当使用Shell命令行操作HBase时,首先需要进入HBase Shell交互界面,通过一系列Shell命令操作HBase,接下来,通过一张表列举一些操作HBase表常见的Shell命令。查看全文>>
在HDFS分布式文件系统中,NameNode是系统的核心节点,它存储了各类元数据信息,并负责管理文件系统的命名空间和客户端对文件的访问。但是,在Hadoop1.0版本中,NameNode只有一个,一旦这个NameNode发生故障,就会导致整个Hadoop集群不可用,也就是发生了单点故障问题。 为了解决单点故障问题,Hadoop2.0中的HDFS中增加了对高可用的支持。查看全文>>
Combiner组件是MapReduce程序中的一种重要的组件,如果想自定义Combiner,我们需要继承Reducer类,并且重写reduce()方法。接下来,我们针对词频统计案例编写一个Combiner组件,演示如何创建和使用Combiner组件查看全文>>
MapReduce程序的运行模式主要有两种:本地运行模式和集群运行模式,集群运行模式只需要将MapReduce程序打成Jar包上传至集群即可,比较简单,这里不再赘述。下面我们以词频统计为例,讲解如何将MapReduce程序设置为在本地运行模式。查看全文>>
InputFormat主要用于描述输入数据的格式,它提供数据切分和为Mapper提供输入数据两个功能。 Hadoop自带了一个 InputFormat接口,该接口的定义代码如下所示查看全文>>
MapReduce程序会根据输入的文件产生多个map任务。Hadoop提供的Mapper类是实现Map任务的一个抽象基类,该基类提供了一个map()方法,默认情况下,Mapper类中的map()方法是没有做任何处理的。查看全文>>