博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Hadoop学习笔记系列文章导航
阅读量:5904 次
发布时间:2019-06-19

本文共 1276 字,大约阅读时间需要 4 分钟。

一、为何要学习Hadoop?

  这是一个信息爆炸的时代。经过数十年的积累,很多企业都聚集了大量的数据。这些数据也是企业的核心财富之一,怎样从累积的数据里寻找价值,变废 为宝炼数成金成为当务之急。但数据增长的速度往往比cpu和内存性能增长的速度还要快得多。要处理海量数据,如果求助于昂贵的专用主机甚至超级计算机,成 本无疑很高,有时即使是保存数据,也需要面对高成本的问题,因为具有海量数据容量的存储设备,价格往往也是天文数字。成本和IT能力成为了海量数据分析的 主要瓶颈。

  Hadoop这个开源产品的出现,打破了对数据力量的压制。 Hadoop源于Nutch这个小型的搜索引擎项目。而Nutch则出自于著名的开源搜索引擎解决方案Lucene,而Lucene则来源于对 Google的学习模仿。在Hadoop身上有着明显的Google的影子。HDFS是GFS的山寨版,Map-Reduce的思想来源于Goolge对 Page rank的计算方法,HBase模仿的是Big Table,Zookeeper则学习了Chubby。Google巨人的力量尽管由于商业的原因被层层封锁,但在Hadoop身上得到了完美的重生和发 展。

  从2006年Apache基金会接纳Hadoop项目以来。Hadoop已经成为云计算软件的一个事实标准,以及开源云计算解决方案的几乎唯一 选择。对于想用低成本(包括软硬件)实现云计算平台或海量数据分析平台的用户,Hadoop集群是首选的对象。由于Hadoop在各方面都打破了传统关系 型数据库的思路和模式,对于新接触Hadoop平台的人,往往会觉得困惑和难以理解,进而转化为畏惧。

  因此,为了赶上大数据时代的发展,迎接云计算的思维,尽管我做 的是.NET的应用开发工作,但我仍然选择业余时间学习Hadoop。我会从Hadoop1.x版本开始学习经典的HDFS与MapReduce,然后了 解Hadoop2.x版本与老版本的差异,熟悉一些常见的Hadoop应用场景,并学着实践一个最经典的项目(网站日志数据分析案例)来完成我给自己规划 的学习任务。

二、Hadoop笔记系列索引

2.1 基础环境部分:

  (1)

  (6)

  (13)

2.2 HDFS部分:

  (2)

  (3)

2.3 MapReduce部分:

  (4)

  (5)

  (7)

  (8)

  (9)

  (10)

  (11)

  (12)

2.4 ZooKeeper部分:

  (14)

2.5 HBase部分:

  (15)

  (15)

2.6 Pig部分:

  (16)

2.7 Hive部分:

  (17)

2.8 Sqoop部分:

  (18)

2.9 Flume部分:

  (19)

2.10 项目实战部分:

  (20)

  (20)

  (20)

2.11 Hadoop2部分:

  (21)

  

 

你可能感兴趣的文章
Linux磁盘管理:lvcreate 常用命令
查看>>
在 VirtualBox 虚拟机中安装 Arch Linux 系统指南
查看>>
tableview 也可以实现这个效果,
查看>>
WCF
查看>>
普通用户使用的命令-文件和目录管理类命令基本用法介绍
查看>>
使用EntityFramework中DbSet.Set(Type entityType)方法碰到的问题
查看>>
五、RDD持久化
查看>>
一些网站链接
查看>>
git revert 用法
查看>>
[Android Pro] PullToRefreshListView怎么设置各个item之间的间距
查看>>
[Android Pro] 组件化:企业级大型项目必经之路
查看>>
json_encode函数的JOSN_UNESCAPE_UNICODE
查看>>
汉字算一个字符(实际上占两个字节),英文字母也算是一个字符(实际上占一个字节)...
查看>>
s4 Docker 网络1
查看>>
java加法运算
查看>>
mysql InnoDB index 主键采用聚簇索引,二级索引不采用聚簇索引
查看>>
listview解决滑动条目的时候背景变为黑色的问题
查看>>
实验二 第二部分
查看>>
HDU - 3874 Necklace (线段树 + 离线处理)
查看>>
Python基础二--基本控制语句
查看>>