一、大数据挖掘分析简介
大数据发展历程以及hadoop起源 大数据定义和传统手段遇到的瓶颈 Hadoop怎么解决大数据问题的 Hadoop生态系统简介 Hadoop体系下主要的分析手段 Hadoop中优秀的软件设计和体系架构思想
二、大数据与Hadoop
伪分布式和完全分布式hadoop的安装 Hadoop常用配置项解读 Hadoop分布式文件系统原理 Hdfs常用命令演示 Mapreduce的工作原理 Hadoop自带的example演示 手动编写mapreduce示例程序 Hadoop常见故障分析与解决
一、大数据分析核心工具之mapreduce和pig
高级mapreduce开发演示:combiners、partitioner;MRUnit;分布式缓存;join;二次排序等) Mapreduce开发之分布式缓存 mapreduce模拟sql语言的各种操作
二、除mapreduce外的hadoop数据分析工具介绍
Pig之piglatin语言 Pig之udf扩展 Pig案例
三、大数据分析核心工具之hive以及与现有工具流整合
Hive深入介绍 Hive之hql语言 Hive之udf扩展 Hive示例 一个完整的数据分析案例(分别使用mapreduce、pig、hive进行分析) 集成Hadoop到现有工作流(使用sqoop)(关系数据库管理系统;利用Sqoop从关系型数据库系统中导入数据到Hadoop)
一、大数据分析架构之分布式数据库:Nosql与Hbase
Nosql简介 常见Nosql介绍 Hbase介绍 Hbase体系架构 Hbase安装(含本地、伪分布式、完全分布式) Hbase操作演示 Hbase应用案例
二、大数据分析核心技术在企业中的应用以及Hadoop调优
Hadoop调优 Hadoop在企业中如何使用 (企业案例以及hadoop在企业IT架构中的位置) Hadoop体系中单点解决方案(namenode,jobtracker,hive等) Hadoop生态环境其他产品在企业中的应用