HBase分布式数据库最重要的就是存储数据,下面,从四个方面详细介绍HBase的物理存储。查看全文>>
随着互联网数据规模的不断增大,对文件存储系统提出了更高的要求,需要更大的容量、更好的性能以及安全性更高的文件存储系统,与传统分布式文件系统一样,HDFS分布式文件系统也是通过计算机网络与节点相连,但也有传统分布式文件系统的优点和缺点。查看全文>>
Spark可以从Hadoop支持的任何存储源中加载数据去创建RDD,包括本地文件系统和HDFS等文件系统。我们通过Spark中的SparkContext对象调用textFile()方法加载数据创建RDD。这里以Linux本地系统和HDFS分布式文件系统为例,讲解如何创建RDD。查看全文>>
数据仓库是一个面向主题的、集成的、随时间变化的,但信息本身相对稳定的数据集合,它用于支持企业或组织的决策分析处理,基于数据仓库的定义,数据仓库此处有四个特点:查看全文>>
Sqoop是Apache旗下的一款开源工具,该项目开始于2009年,最早是作为Hadoop的一个第三方模块存在,后来为了让使用者能够快速部署,也为了让开发人员能够更快速的迭代开发,并在2013年,独立成为Apache的一个顶级开源项目。查看全文>>
Hadoop是由Java语言开发的,Hadoop集群的使用依赖于Java环境,因此在安装Hadoop集群前,需要先安装并配置好JDK。 接下来,就在前面规划的Hadoop集群主节点hadoop01机器上分步骤演示,如何安装和配置JDK,具体如下。查看全文>>