大数据资源共享
概述
1.
参与方式
2.
hadoop
2.1.
安装
2.1.1.
hadoop 2.6.0集群安装
2.2.
管理工具
2.2.1.
top-10-hadoop-cluster-management-tools
2.3.
插件
2.3.1.
HDFS图形化管理工具hadoop-eclipse-plugin
2.4.
yarn
2.4.1.
Apache Hadoop 2.7.1 yarn-概述
2.4.2.
yarn-架构
2.5.
案例
2.5.1.
01-气温数据求最小值
2.5.2.
02-WordCount
2.5.3.
03-行去重操作
2.5.4.
04-排序后显示行数
2.5.5.
05-Hadoop实战URL流量分析
2.5.6.
06-Hadoop处理员工信息Join
2.5.7.
07-Hadoop-证明reduce中values中不主动排序的
2.5.8.
08-Hadoop 自定义reducer-key升序和降序排序
2.5.9.
09-Hadoop自定义reducer-values升序或降序排序
2.5.10.
10-Hadoop编程实战MapReduce处理员工信息Join
2.5.11.
11-Hadoop-倒排索引的算法
3.
spark
3.1.
安装
3.1.1.
spark-1.6.0-bin-hadoop2.6-安装
3.1.2.
spark-1.6.0 源码编译
3.2.
笔记
3.2.1.
Spark RDD 弹性
3.2.2.
eclipse 新建 Spark项目并发布到集群中
3.2.3.
spark不直接在客户端直接提交程序的原因分析
3.2.4.
Spark 常规容错方式
3.2.5.
Spark RDD
3.2.6.
Spark 设计理念与基本架构
3.2.7.
SparkContext 的初始化
3.2.8.
WordCount图解
3.2.9.
RDD的 transformation 和 action 执行流程图
3.2.10.
RDD案例(map,filter,flatMap,groupByKey,reduceByKey,join,cogroup)
3.2.11.
spark 算子操作 cogroup java版
3.3.
shell编程
3.3.1.
WordCount
3.4.
部署
3.4.1.
idea打成jar包通过spark-submit工具部署到集群
3.4.2.
eclipse新建Spark项目并部署应用到集群中
3.4.3.
spark用maven来管理依赖部署应用到集群中-scala版
3.4.4.
spark用maven来管理依赖部署应用到集群中-java版
3.5.
Apache Mesos
3.5.1.
Apache Mesos 简介
3.5.2.
MPI
3.6.
调试
3.6.1.
使用jvisualvm监控Spark作业
3.7.
源码分析
3.7.1.
01-spark 控制台输出日志改成debug
3.7.2.
02-spark控制台日志分析
3.7.3.
03-spark内核架构图
3.7.4.
03-01-spark-主要对象关系图
3.7.5.
04-01-spark-master-worker 关系图
3.7.6.
04-spark-master-源码分析
3.7.7.
05-spark-worker-源码分析
3.7.8.
06-spark-executor-01-工作原理图
3.7.9.
06-spark-executor-源码分析
3.7.10.
07-spark-stage-源码分析
3.7.11.
08-spark-Spark Runtime内幕解密-源码分析
3.7.12.
09-spark-task-源码分析
3.7.13.
10-spark-task-任务本地性算法实现
3.7.14.
11-TaskScheduler原理和源码解密
3.8.
提出问题
3.8.1.
01-大量作业需要提交到集群中问题
4.
hive
4.1.
基础知识
4.1.1.
Hive的历史价值和Hive的架构设计
5.
笔记
5.1.
分享
5.1.1.
每天学习笔记分享
6.
大数据
6.1.
框架
6.1.1.
Hadoop和大数据:60款顶级开源工具
7.
环境安装、调试、集成
7.1.
os
7.1.1.
linux
7.1.1.1.
ubuntu
7.1.1.1.1.
ubuntu-15.10-desktop-amd64-安装
7.1.1.1.2.
ubuntu-五笔-输入法-安装
7.1.1.1.3.
ubuntu-静态ip-配置
7.1.1.1.4.
ubuntu-常用命令
8.
ubuntu-操作系统
8.1.
安装
8.1.1.
概念
8.2.
shell-编程
8.2.1.
for循环
8.3.
常用功能
8.3.1.
SSH 免密登录-两台机器
8.3.2.
SSH 免密登录-集群
8.3.3.
制做可双击运行程序
8.3.4.
mac虚拟机安装ubuntu-快捷键
8.3.5.
图形界面和命令行界面切换
8.3.6.
ssh server 安装
8.3.7.
linux最常用命令
8.4.
配置
8.4.1.
系统环境变量引发的问题
8.5.
概念
8.5.1.
管道
8.6.
权限
8.6.1.
linux 修改目录文件权限
9.
windows
9.1.
工具
9.1.1.
PE 安装 iso文件
9.2.
系统自带功能
9.2.1.
打开系统自带工具
10.
开发工具
10.1.
文本编辑工具
10.1.1.
sublime
10.1.1.1.
sublime-ubuntu安装
10.1.1.2.
sublime-支持ansi格式的中文
10.2.
版本控制
10.2.1.
git.oschina.net
10.3.
idea开发工具-java-scala
10.3.1.
scala代码模板设置
10.3.2.
mac中IDEA快捷键
10.3.3.
虚拟机中ubuntu-idea字体设置
11.
编译、打包工具
11.1.
maven
11.1.1.
maven-安装-替换国内镜像
11.1.2.
maven-搭建本地仓库(适用 windows,mac,linux)
11.1.3.
maven-多源文件夹配置
11.1.4.
maven 下载 源码和javadoc命令
12.
java
12.1.
环境变量
12.1.1.
环境变量设置问题
12.1.2.
java-指定运行时椎内存栈内存参数
12.2.
多线程
12.2.1.
实现Runnable接口方式实现多线程
12.2.2.
继承Thread类实现多线程
12.3.
java基础
12.3.1.
10进制二进制转换
12.3.2.
java abstract 回调子类函数
12.3.3.
javac 和 java 一起执行
13.
统一资源管理与调度平台
13.1.
yarn
13.1.1.
YARN 简介
13.1.2.
Yarn简介2
14.
zookeeper
14.1.
安装
14.1.1.
zookeeper 2.4.6安装
14.1.2.
spark 1.6-HA-zookeeper 2.4.6安装
15.
mac
15.1.
常用工具
15.1.1.
mac 连接window 上的共享文件夹
16.
作业
16.1.
第三天
16.1.1.
1,2.求java数组的最大值,最小值问题
16.1.2.
3.排序之冒泡排序
16.1.3.
3.排序之选择排序
16.1.4.
3.排序之折半查找(二分查找)
16.1.5.
7.遍历三维组数,横向输出三维数组的每一个层
16.1.6.
8.定义一个类:Dog 有名称 color age cry()
16.1.7.
9.阐述出来堆区,栈区,何时出现溢出,如何解决
16.1.8.
10.oop
16.2.
第五天
17.
大数据课程
17.1.
第四天
17.1.1.
Java 基本数据类型
18.
mysql
18.1.
安装
18.1.1.
mysql启动,停止
Powered by
GitBook
大数据资源共享
Spark RDD 弹性
弹性之一:自动进行内存和磁盘数据存储的切换
spark 数据存储优先考虑内存,如果内存放不下,自动放到磁盘
弹性之二:基于Lineage的高校容错
弹性之三:Task如果失败会自动进行特定次数的重试
弹性之四:Stage如果失败会自动进行特定次数的重试
(如果阶段计算失败,只重新计算失败的数据分片)
弹性之五:checkpoint 和 persisit
弹性之六:数据调度弹性 DAG Task 和资源管理无关
弹性之七:数据分片的高度弹性,repartition
弹性之八: