2021年Python+大数据开发课程大纲

目前课程版本:1.6.1   咨询详情



Python+大数据开发基础班课程大纲

学习对象

应届大学毕业生,工资待遇不理想,想要突破转行,或对数据开发和数据分析感兴趣的人员。

注:获取更多免费学习视频+资料+笔记,请加QQ:2632311208。

上课方式

全日制脱产,每周5天上课, 上两天课休息一天的上课方式(实际培训时间可能因法定节假日等因素发生变化)

培训时间

部分校区可能会根据实际情况有所调整,详情可询咨询老师   点击咨询



Python+大数据开发基础班课程大纲

所处阶段主讲内容

技术要点

学习目标
零基础数据分析
体验课
Excel数据分析

   01_数据分析行业技能及课程介绍
   02_Excel简介和基本使用
   03_Excel数据处理和计算
   04_Excel图表
   05_Excel透视表
   06_Excel分析项目

   1. 掌握传统Excel数据分析技能
   2. 熟练使用BI工具
   3. 对数据分析有一定认知,能够从事基础的数据分析工作
SQL

   01_数据库概念和作用
   02_MySQL数据类型
   03_数据完整性和约束
   04_数据库/表基本操作命令
   05_表数据操作命令
   06_Where子句
   07_分组聚合
   08_链接查询
   09_外键的使用
   10_SQL数据分析实战

BI工具

   01_数据图表基础
   02_故事和仪表板初探
   03_数据分析报告
   04_Tableau电商项目


Python+大数据开发就业班课程大纲

学习对象

本课程适合于:应届大学毕业生,工资待遇不理想,想要突破转行,或对数据开发和数据分析感兴趣的人员

注:获取更多免费学习视频+资料+笔记,请加QQ:2632311208。

上课方式

全日制脱产,每周5天上课, 上两天课休息一天的上课方式(实际培训时间可能因法定节假日等因素发生变化)

培训时间

部分校区可能会根据实际情况有所调整,详情可询咨询老师点击咨询

Python+大数据开发就业班课程大纲

所处阶段

主讲内容技术要点学习目标
数据分析
语言基础
Python基础语法

       01_变量
       02_标识符和关键字
       03_输入和输出
       04_数据类型转换
       05_PEP8编码规范
       06_比较/关系运算符
       07_if语句语法格式
       08_三目运算符
       09_while语句语法格式
       10_while 循环嵌套
       11_break 和 continue
       12_while 循环案例
       13_for循环

   1.掌握Python开发环境基本配置
   2.掌握运算符、表达式、流程控制语句、数组等的使用
   3.掌握字符串的基本操作
   4.初步建立面向对象的编程思维
   5.熟悉异常捕获的基本流程及使用方式
   6.掌握类和对象的基本使用方式
Python数据处理

       01_字符串定义语法格式
       02_字符串遍历(while)
       03_下标和切片
       04_字符串常见操作
       05_列表语法格式
       06_列表的遍历(for)
       07_列表常见操作
       08_列表嵌套
       09_列表推导式
       10_元组语法格式
       11_单元素元组
       12_元组操作
       13_字典语法格式
       14_字典常见操作
       15_字典的遍历

函数

       01_函数概念和作用、函数定义、调用
       02_不定长参数函数
       03_函数的返回值
       04_函数的说明文档
       05_函数的嵌套调用
       06_可变和不可变类型
       07_局部变量
       08_全局变量
       09_组包和拆包、引用

文件读写

       01_文件的打开与关闭、文件的读写
       02_文件/目录操作及案例
       03_os模块文件与目录相关操作

面向对象

       01_面向对象介绍
       02_类的定义和对象的创建
       03_添加和获取对象属性
       04_self 参数
       05_init方法
       06_私有方法和私有属性
       07_继承
       08_子类方法重写
       09_类属性和实例属性
       10_类方法、实例方法、静态方法

异常处理

       01_异常概念
       02_异常捕获
       03_自定义异常

模块和包

       01_模块介绍
       02_模块的导入
       03_包的概念
       04_包的导入
       05_模块中的 __all__
       06_模块中 __name__ 的作用

Python编程进阶网络编程

       01_IP地址的介绍
       02_端口和端口号的介绍
       03_TCP的介绍
       04_socket的介绍
       05_TCP网络应用的开发流程
       06_基于TCP通信程序开发

   1.熟练使用Linux操作系统及相关命令
   2.掌握网络编程技术,能够实现网络通讯
   3.掌握开发中的多任务编程实现方式
   4.掌握数据存储形式和存储操作
   5.了解后端业务开发
   6.掌握爬虫的概念及实现思路
多任务编程

       01_多任务介绍
       02_进程的使用
       03_线程的使用
       04_线程同步与互斥锁、死锁介绍

高级语法

       01_闭包
       02_装饰器
       03_深浅拷贝
       04_正则

数据埋点

       1.miniweb

sql进阶窗口函数及项目实战

       01_视图的概念与使用
       02_Mysql窗口函数
       03_Mysql变量
       04_Mysql实战项目

   1、能够掌握SQL窗口函数及其他进阶语法的使用
   2、能够完成SQL实战项目
   3、熟练运用SQL完成企业常见数据报表分析
数据分析
项目实战
数据清洗

       01_Pandas数据组合_concat连接
       02_Pandas数据组合_merge数据
       03_Pandas数据组合_join
       04_缺失值处理介绍
       05_缺失值处理_缺失值数量统计
       06_缺失值处理_缺失值可视化
       07_缺失值处理_删除缺失值
       08_缺失值处理_填充缺失值
       09_melt整理数据
       10_stack整理数据
       11_wide_to_long整理数据
       12_unstack和小结
       13_Pandas数据类型简介
       14_数据类型转换
       15_分类数据category
       16_Series和DataFrame的apply方法
       17_apply使用案例
       18_向量化函数和lambda表达式

1.熟练使用Pandas进行数据处理
   2.掌握Python进行数据可视化的常用工具
   3.熟练使用Pandas进行描述性数据分析
数据整理

       01_单变量分组聚合
       02_通过调用agg进行聚合
       03_分组后transform
       04_transform练习
       05_filter&DataFrameGroupBy对象
       06_透视表概述&会员存量增量分析
       07_会员增量等级分布
       08_增量等级占比分析&整体等级分布
       09_线上线下增量分析&地区店均会员数量
       10_会销比计算
       11_连带率计算
       12_复购率计算
       13_日期时间类型介绍
       14_提取日期分组案例
       15_股票数据处理
       16_datarange函数
       17_综合案例

数据可视化

       01_Python数据可视化介绍
       02_matplotlib绘图
       03_matplotlib绘制统计图
       04_Pandas绘图_柱状图
       05_Pandas绘图_折线图直方图饼图
       06_Pandas双变量可视化
       07_Seaborn绘图简介&单变量可视化
       08_Seaborn双变量可视化
       09_Seaborn多变量可视化和样式
       10_pyechars案例

pandas数据分析项目

       01_AppStore项目_数据处理
       02_AppStore项目_单变量分析
       03_AppStore项目_可视化和结论
       04_AppStore项目_可视化和结论代码实现
       05_优衣库项目_案例介绍及简单数据探索
       06_优衣库项目_业务问题解读
       07_优衣库案例_代码实现
       08_RFM概念介绍
       09_RFM项目_数据加载和数据处理
       10_RFM项目_RFM计算
       11_RFM项目_RFM可视化
       12_RFM项目_业务解读和小结

机器学习简介

       01_人工智能概述
       02_机器学习开发流程和用到的数据介绍
       03_特征工程介绍和小结
       04_机器学习算法分类
       05_机器学习模型评估
       06_数据分析与机器学习

   1.掌握机器学习算法基本原理
   2.掌握使用机器学习模型训练的基本流程
   3.掌握Sklearn,Jieba,Gensim等常用机器学习相关开源库的使用
   4. 熟练使用机器学习相关算法进行预测分析
K近邻算法

       01_K近邻算法基本原理
       02_K近邻算法进行分类预测
       03_sklearn实现knn
       04_训练集测试集划分
       05_分类算法的评估
       06_归一化和标准化
       07_超参数搜索
       08_预测facebook签到位置案例
       09_K近邻算法总结

线性回归

       01_线性回归简介
       02_线性回归API使用初步
       03_导数回顾
       04_线性回归的损失函数和优化方法
       05_梯度下降推导
       06_波士顿房价预测案例
       07_欠拟合和过拟合
       08_模型的保存和加载
       09_线性回归应用-回归分析

逻辑回归

       01_逻辑回归简介
       02_逻辑回归API应用案例
       03_分类算法评价方法
       04_逻辑回归应用_分类分析

聚类算法

       01_聚类算法的概念
       02_聚类算法API的使用
       03_聚类算法实现原理
       04_聚类算法的评估
       05_聚类算法案例

决策树

       01_决策树算法简介
       02_ 决策树分类原理
       03_特征工程-特征提取
       04_ 决策树算法api
       05_ 决策树案例

集成学习

       01 集成学习算法简介
       02 Bagging和随机森林
       03 随机森林案例
       04 Boosting介绍
       05 GBDT介绍

零售项目集

       01_常用指标计算
       02_数据推断
       03_基于Kmeans的用户分群
       04_LTV用户生命周期
       05_购物篮分析
       06_用户标签

   1.掌握数据分析常用思维方法
   2.掌握不同业务场景下的指标体系搭建
   3.熟练使用各种数据分析工具进行数据提取与数据展示
   4.熟练运用常用数据分析模型解决业务问题
电商项目集

       01_用户行为分析
       02_用户价值分析
       03_用户复购分析
       04_库存分析
       05_销售预测
       06_AB测试

跨境电商

       01_选品分析
       02_报表设计
       03_用户评论文本挖掘
       04_竞品监控
       05_广告渠道效果分析

游戏分析

       01_游戏相关业务指标介绍
       02_游戏用户付费分析
       03_道具使用分析

金融风控项目业务背景介绍

       01_信贷和风控介绍
       02_常见零售产品和风险介绍
       03_风控相关业务术语介绍
       04_业务数据分析案例

   1.掌握风控业务场景的常用指标
   2.掌握评分卡的建模流程
   3.掌握评分卡特征工程的常用套路
   4.熟练运用机器学习算法解决风控业务场景下的问题
风控建模介绍

       01_互联网金融风控体系介绍
       02_风控建模流程概述
       03_风控建模流程_项目准备
       04_风控建模流程_特征工程
       05_风控建模流程_模型构建
       06_风控建模流程_上线运营
       07_业务规则挖掘案例

金融风控特征工程

       01_数据准备
       02_静态信息特征和时间截面特征处理
       03_特征衍生
       04_特征变换
       05_特征变换_卡方分箱代码实现
       06_特征变换_WOE代码实现
       07_特征变换_类别变量编码方式总结
       08_常用缺失值处理方法
       09_时间序列未来信息
       10_用户信息关联&小结

机器学习评分卡

       01_建模流程_实验设计
       02_建模流程_样本设计
       03_建模流程_模型训练与评估
       04_评分映射
       05_逻辑回归评分卡
       06_lightGBM特征筛选
       07_输出模型报告
       08_评分映射
       09_集成学习评分卡_xgboost
       10_集成学习评分卡_lightGBM
       11集成学习评分卡模型创建
       13_建模流程梳理

大数据Hadoop技术栈shell指令

       01_Linux命令使用
       02_Linux命令选项的使用
       03_远程登录和远程拷贝
       04_Linux权限管理
       05_vi编辑器使用

   1.掌握Java程序基础数据类型
   2.掌握开发中集合、IO流、常用类等操作
   3.掌握Java异常处理机制
   4.掌握反射、网络编程、多线程开发
   5.掌握Jsoup的网络爬虫开发
   6.掌握JDBC数据库连接操作
   7.掌握ETL数据处理和BI报表开发
   8.具备JavaSE开发能力
shell编程

       01_变量
       02_表达式
       03_常见符号
       04_流程控制

编程基础

       1.Java语言概述
       2.Java开发环境搭建
       3.IDEA的安装和配置
       4.HelloWorld案例
       5.注释,关键字,常量,变量,数据类型转换.
       6.for循环.while循环,循环嵌套,控制跳转语句,break和continue
       7.数组的概述和创建,数组的常见操作.
       8.方法的概述和定义,方法重载,方法形参类型,方法练习

面向对象

       1.面向对象介绍
       2.类和对象讲解
       3.对象的内存图
       4.成员变量和局部变量的区别
       5.private关键字,封装,this关键字,构造方法,继承,super关键字
       6.方法重写,多态 ,final ,.static ,抽象类 ,接口 ,包(package)

常用类API

       1.API解释
       2.Object类讲解
       3.String类讲,StringBuilder类讲解,冒泡排序
       4.Arrays工具类包装类
       5.自动拆装箱,Date类讲解
       6.SimpleDateFormat类讲解

集合操作/IO操作

       1.Lambda表达式
       2.集合类,Collection,ArrayList   
       3.列表迭代器,增强for,数据结构
       4.Set集合之HashSet,Map集合之HashMap
       5.File类,字节流,序列化流,字符流

Java基础增强

       1.Junit单元测试
       2.反射介绍 ,Class类相关方法介绍 ,反射案例:代理设计模式
       3.注解解释.,常用注解介绍
       4.Maven基础, 依赖, Maven生命周期 ,Maven仓库 ,Maven配置文件
       5.数据库驱动,Connection接口,JDBC步骤

大数据基础和硬件介绍

       1.大数据的特点
       2.分布式存储概念
       3.分布式计算的概念
       4.服务器种类介绍、机架、交换机
       5.网络拓扑、Raid、IDC数据中心
       6.Linux shell编程、awk、sed、cut、ssh、scp、expect、yum、nestat、top 、iostat等高级命令使用

   1.掌握Shell命令
   2.掌握zookeeper原理并应用
   3.掌握HDFS的使用和MapReduce编程
   4.理解MapReduce原理和调优
   5.掌握Yarn原理和调优
Zookeeper

       1.Zookeeper的应用场景
       2.架构和原理
       3.存储模型
       4.选举机制
       5.客户端操作

HDFS

       1.HDFS设计的特点
       2.Master-Slave架构
       3.Block块存储、RF拷贝因子、机架感知
       4.Block拷贝策略、读写流程
       5.HDFS Federation、HDFS Snapshots、NameNode HA架构和原理
       6.HDFS管理员常用操作、HDFS权限控制

MapReduce

       1.MapReduce架构和原理
       2.Split机制
       3.MapReduce并行度
       4.Combiner机制
       5.Partition机制、自定义Partition
       6.MapReduce序列化、自定义排序、数据压缩

YARN

       1.Yarn原理和架构
       2.Yarn高可用
       3.Container资源的封装(CPU、内存和IO)
       4.资源调度策略(FIFO、Fair和Capacity)

Hive基础

       1.HQL操作
       2.数据类型
       3.分区、分桶、临时表
       4.explain执行计划详解

   1.掌握Hive的使用和调优
   2.具备Hadoop开发能力、离线数据仓库开发能力
   3.能够完成基本构建企业级数仓
Hive高阶

       1.Hive原理和架构
       2.Meta Store服务
       3.HiveServer内置函数
       4.自定义UDF和UDAF
       5.数据压缩、存储格式、自动化脚本、常见性能优化

Hive出行大数据实战或Hive亚马逊电商大数据实战(2选1)

       1.Hive滴滴出行案例实战

       1.Hive亚马逊电商案例实战

教育项目或新零售项目二选一解决方案

       1.大数据部署运维:Cloudera Manager
       2.分析决策需求:数据仓库
       3.数据采集:sqoop
       4.数据分析:hive
       5.历史数据快照:拉链表
       6.数据更新后的统计分析:拉链表
       7.数据调度:oozie+shell
       8.OLAP系统存储:mysql
       9:数据展现:帆软BI

   1.掌握离线数仓的分层与建模,从需求、设计、研发、测试到落地上线的完整项目流程
   2.大量教育大数据的真实业务逻辑,共涉及20多个主题,100多个指标,提升学员在教育行业中的核心竞争力
   3.包括海量数据场景下如何优化配置
   4.拉链表的具体应用
   5.新增数据和更新数据的抽取和分析
   6.hive函数的具体应用
   7.ClouderaManager可视化、自动部署和配置、Git、CodeReview功能
技能点

       1.掌握离线数仓的分层与建模,从需求、设计、研发、测试到落地上线的完整项目流程
       2.大量教育大数据的真实业务逻辑,共涉及20多个主题,100多个指标,提升学员在教育行业中的核心竞争力
       3.包括海量数据场景下如何优化配置
       4.拉链表的具体应用
       5.新增数据和更新数据的抽取和分析
       6.hive函数的具体应用
       7.ClouderaManager可视化、自动部署和配置、Git、CodeReview功能

大数据Spark技术栈分布式缓存系统

       1.Redis原理及架构
       2.Redis Cluster原理及架构
       3.Redis常用操作

   1.掌握Redis原理及架构
   2.掌握Redis命令操作、及数据结构
   3.掌握Hbase原理及架构
   4.掌握HBase命令操作、MapReduce编程
   5.掌握Phoneix二级索引优化查询
   6.掌握ELK开发掌握Kafka原理及架构
万亿级NoSQL海量数据存储

       1.HBase原理及架构
       2.预分区、LSM结构
       3.Bloom Filter,co-processor,结合Phoneix进行优化查询

分布式流处理平台

       1.Kafka原理及架构分析
       2.分布式实时计算架构和思想

NoSQL社交场景大数据分析实战

       1.陌陌社交场景实战
       2.社交大数据架构剖析
       3.数据采集
       4.数据ETL
       5.数据分析

Scala

       1.Scala函数式编程基础
       2.集合、Iterator、构造器、伴生对象、Akka编程
       3.Scala语言重点API编程

     1.掌握Spark的RDD、DAG、CheckPoint等设计思想
     2.掌握SparkSQL结构化数据处理,Spark On Hive
     3.掌握SparkStreaming整合Kafka完成实时数据处理
     4.掌握SparkStreaming偏移量管理及Checkpoint
     5.掌握Structured Streaming整合多数据源完成实时数据处理
     6.具备Spark全栈开发能力,满足大数据行业多场景统一技术栈的数据开发,提供就业核心竞争力
Spark core

       1.Spark架构和原理(运行机制、Driver和Executor、spark任务提交流程)
       2.RDD开发和原理(Partition、Task、RDD的依赖关系、RDD的容错机制、RDD的存储级别、RDD的缓存机制)广播变量
       3.DAG原理(DAG思想、DAG的生成、DAG的处理过程)

Spark sql

       1.Spark SQL架构和原理
       2.DataFrame、DataSet DSL和SQL开发
       3.Spark多数据源整合(txt、CSV、Json、parquet、JDBC、Hive)
       4.Spark SQL执行计划原理
       5.Spark SQL性能调优

Structured Streaming

       1.Structured Streaming开发(input、output、window、watermark、过期数据操作、去重等)
       2.Structured Streaming多数据源整合(socket、Kafka)
       3.Flume+kafka+Structured Streaming案例实战

Spark案例实战

       1.教育大数据场景案例实战

智能制造业或保险项目二选一主讲解决方案

       1. 基于HDP快速搭建大数据平台
       2. 基于Hive+Spark SQL搭建离线数据仓库
       3. 基于Structured Streaming构建高吞吐实时处理
       4. 基于ECharts实现可视化

     1.完成基于国内大型的设备制造商大数据项目开发;
     2.掌握基于spark分析原材料消耗、设备使用情况、多维度产品销售分析,以大数据推动工业4.0;
     4.具备基于HDP平台,连接工业设备,收集数据资源,实现产业监测分析。
主讲知识点

       1.使用主流的Hive+Spark构建离线数仓
       2.使用Structure Streaming构建实时异常告警系统
       3.基于完整的工业业务背景实现的离线和实时大数据业务丰富地地图展示可视化开发
       4.学会使用Spark SQL处理复杂业务完整的离线采集 + 实时采集方案
       5.掌握如何使用调度平台调度T+1批处理任务Spark离线任务和实时任务整合,统一由YARN做资源管理

就业加强SQL实战

       1.面试题必备SQL实战
       2.SQL优化加强

     1.强化面试就业核心面试题
     2.梳理大数据架构及解决方案
     3.剖析多行业大数据架构
Hive数据分析与面试题加强

       1.Hive基础
       2.Hive拉链表
       3.Hive数据仓库构建示例
       4.Hive面试题

Spark数据分析与面试题加强

       1.Spark基础
       2.Spark拉链表
       3.Spark数据仓库构建示例
       4.Spark面试题

NoSQL数据分析与面试题加强

       1.Kafka基础
       2.Hbase基础
       3.Kafka&Hbase面试题

大数据多行业架构剖析

       1.数据分析流程
       2.大数据架构剖析
       3.多行业大数据架构设计
       4.大数据存储,调度等解决方案

大数据Flink技术栈Flink Core

       1.Flink基础

     1.掌握基于Flink进行实时和离线数据处理、分析
     2.掌握基于Flink的多流并行处理技术
     3.掌握千万级高速实时采集技术
Flink DataStream

       1.Flink DataStream的使用、
       2.Kafka + Flink

Flink SQL

       1.Flink SQL开发
       2.Hive + Flink SQL

Flink Runtime

       1.Watermark
       2.Checkpoint
       3.任务调度与负载均衡
       4.状态管理

Flink高级

       1.Flink性能监控
       2.Flink调优
       3.Flink SQL执行计划

Flink电商数据集实战

       1.Flume+Kafka+Flink+Hbase+Sqoop+Canal+MySQL实战

车联网项目或金融证券项目二选一主要解决方案

       1.离线数据分析:flink batch、hive
       2.实时在线分析:flink、hbase
       3.消息队列:kafka
       4.驾驶行程分析:flink、hbase
       5.实时在线故障分析:mongodb
       6.车型指标分析:hive、shell
       7.实时指标查询:phoenix
       8.后台数据服务接口:springboot、swagger-ui、echarts
       9.多数据源加载:flink jdbc
       10.车辆告警规则分析:flink、zeppelin
       11.离线任务调度:azkaban
       12.报表:superset
       13.页面展示:echarts、javascript

     1.掌握基于Flink全栈进行快速OLAP分析
     2.掌握基于Springboot+SwaggerUI快速构建数据服务接口
     3.掌握实时高性能海量数据分析与存储
     5.掌握针对Hbase调优实现Hbase存储调优
     6.掌握数据报表分析
     7.掌握业务数据实时大屏场景实现
主讲知识点

       1.海量数据处理,系统15分钟内收集的新能源车辆的数据超过千万条
       2.基于Hive、HBase、HDFS数据存储
       3.基于Kafka数据传输
       4.基于Flink全栈数据处理
       5.基于Nginx做反向代理、LSV和Keepalived负载均衡和高可用




备注:该课程大纲仅供参考,实际课程内容可能在授课过程中发生更新或变化,具体授课内容最终以各班级课表为准。


                                                                                                                                                                                                   

基础差? 可免费学基础班

申请试读名额

基础过关? 可直接就读就业班

基础测试

教学服务

  • 每日测评

    每晚对学员当天知识的吸收程度、老师授课内容难易程度进行评分,老师会根据学员反馈进行分析,对学员吸收情况调整授课内容、课程节奏,最终让每位学员都可以跟上班级学习的整体节奏。

  • 技术辅导

    为每个就业班都安排了一名优秀的技术指导老师,不管是白天还是晚自习时间,随时解答学员问题,进一步巩固和加强课上知识。

  • 学习系统

    为了能辅助学员掌握所学知识,黑马程序员自主研发了6大学习系统,包括教学反馈系统、学习难易和吸收分析系统、学习测试系统、在线作业系统、学习任务手册、学员综合能力评定分析等。

  • 末位辅导

    末位辅导队列的学员,将会得到重点关心。技术辅导老师会在学员休息时间,针对学员的疑惑进行知识点梳理、答疑、辅导。以确保知识点掌握上没有一个学员掉队,真正落实不抛弃,不放弃任何一个学员。

  • 生活关怀

    从学员学习中的心态调整,到生活中的困难协助,从课上班级氛围塑造到课下多彩的班级活动,班主任360度暖心鼓励相伴。

  • 就业辅导

    小到五险一金的解释、面试礼仪的培训;大到500强企业面试实训及如何针对性地制定复习计划,帮助学员拿到高薪Offer。

和我们在线交谈!