大数据分析有完善的操作步骤,先分析什么,后分析什么,各个分析点之间都有逻辑联系,体系化的分析形成,使工作更加高效便捷,数据更有说服力。查看全文>>
Hadoop发行版本分为开源社区版和商业版,社区版是指由Apache软件基金会维护的版本,是官方维护的版本体系。商业版Hadoop是指由第三方商业公司在社区版Hadoop基础上进行了一些修改、整合以及各个服务组件兼容性测试而发行的版本。查看全文>>
Apache Hive是Hadoop上的SQL引擎,也是大数据系统中重要的数据仓库工具,Spark SQL支持访问Hive数据仓库,然后在Spark引擎中进行统计分析。接下来介绍通过Spark SQL操作Hive数据仓库的具体实现步骤。查看全文>>
DataFrame提供了两种语法风格,即DSL风格语法和SQL风格语法,二者在功能上并无区别,仅仅是根据用户习惯,自定义选择操作方式。接下来,我们通过两种语法风格,分别讲解DataFrame操作的具体方法。查看全文>>
Hadoop作为分布式计算平台,能够处理海量数据,并对数据进行分析。它有运行模式:独立(本地)运行模式,伪分布式模式,和完全分布式模式,这三种模式的适用场景如下:查看全文>>
Zookeeper具有全局数据一致性、可靠性、顺序性、原子性以及实时性,可以说Zookeeper的其他特性都是为满足Zookeeper全局数据一致性这一特性。具体介绍如下:查看全文>>