︿
Top

2015年8月1日 星期六

Hadoop: MapReduce WordCount 範例

緣起

承續前一篇 Hadoop: 如何在 CentOS 7.1.1503 安裝 Hadoop 2.7.1 (Single-Node Cluster) , 本文將繼續就 MapReduce 範例作記錄.

以下範例, 源自參考文件的前 3 篇, 本文只是將筆者的操作過程作記錄, 供後續安裝的參考.

以下將分為4個部份:

1. MapReduce 範例資料下載
2. 將範例資料上傳至 Hadoop
3. 檢查範例資料是否正常上傳至 Hadoop
4. 以 WordCount 作為資料分析範例

Hadoop: 如何在 CentOS 7.1.1503 安裝 Hadoop 2.7.1 (Single-Node Cluster)

緣起

承續前一篇 CentOS: 如何在 VMware Workstation 11 安裝 CentOS 7, 並避免 Easy Install  , 本文將繼續就 Hadoop 的安裝作記錄.

在網路上搜尋了一下,
1. 參考文件前 3 篇, 有針對在 Ubuntu Desktop 12.04 上如何安裝 Hadoop 1.0.4 作了說明
2. 參考文件前 3 篇, 因為是比較舊的版本, 且不是 CentOS, 所以又參考了最後 2 篇的內容

本文只是將筆者的操作過程作記錄, 供後續安裝的參考, 以免忘記. 且重點在於安裝的部份, 至於運作的部份 (Map Reduce), 將另文作記錄.

如果跟其它作者的文章有雷同, 尚請見諒.

以下將分為三大部份:

1. Hadoop 安裝套件下載
 1.1 建立專門執行 Hadoop 的使用者
 1.2 以 Hadoop 使用者身份, 下載 Hadoop 2.7.1 套件

2. Hadoop 安裝環境檢查
 2.1 停用 IPv6
 2.2 更新 JDK 至最新版本
 2.3 啟用 ssh 取代 telnet, 加強連線安全性

3. Hadoop 實際安裝
 3.1 解壓縮, 並搬移至對應的資料夾
 3.2 修正相關的 login 及 hadoop 環境設定 script
 3.3 喘口氣, 查一下 Hadoop 的版本
 3.4 建立 HDFS 資料夾
 3.5 格式化 HDFS 資料夾
 3.6 啟動 Hadoop 服務
 3.7 開啟網頁管理介面
 3.8 停止 Hadoop 服務