目錄
緒論001
第1章走進Hive003
1.1Hive簡介003
1.1.1Hive發展史003
1.1.2體系結構004
1.2Hive的安裝部署005
1.2.1安裝配置Hive005
1.2.2啟動Hive008
1.3Hive命令009
1.3.1Hive命令行選項009
1.3.2CLI命令行界面010
1.3.3Hive中CLI命令的快速編輯011
1.3.4Hive中的腳本011
1.3.5dfs命令的執行013
1.4數據類型和文件格式014
1.4.1基本數據類型014
1.4.2集合數據類型015
1.4.3文本文件數據編碼016
本章小結018
習題018
第2章HiveQL數據定義020
2.1數據庫的創建與查詢020
2.2數據庫的修改與刪除021
2.3創建表022
2.3.1管理表023
2.3.2外部表023
2.3.3查看表結構024
2.4修改表025
2.5刪除表026大數據
離線分析
目錄
2.6分區表027
2.6.1外部分區表028
2.6.2自定義表的存儲格式030
2.6.3增加、修改和刪除分區表031
2.7桶表031
本章小結032
習題033
第3章HiveQL數據操作034
3.1數據加載與導出034
3.1.1數據加載034
3.1.2數據導出036
3.2數據查詢037
3.2.1SELECT ... FROM語句037
3.2.2WHERE語句040
3.2.3GROUP BY語句與HAVING語句042
3.2.4JOIN語句043
3.2.5ORDER BY語句和SORT BY語句046
3.2.6CLUSTER BY語句047
3.2.7UNION ALL語句048
3.3抽樣查詢048
3.3.1數據塊抽樣049
3.3.2分桶表的輸入裁剪049
本章小結051
習題051
第4章HiveQL視圖和索引052
4.1視圖052
4.1.1創建視圖052
4.1.2顯示視圖053
4.1.3刪除視圖054
4.2索引054
4.2.1創建索引055
4.2.2重建索引055
4.2.3顯示索引056
4.2.4刪除索引056
本章小結057
習題057
第5章Hive的函數058
5.1函數簡介058
5.1.1發現和描述函數058
5.1.2調用函數059
5.1.3標準函數059
5.1.4聚合函數061
5.1.5表生成函數067
5.2用戶自定義函數UDF068
5.3用戶自定義聚合函數UDAF072
5.4用戶自定義表生成函數UDTF074
5.5UDF的標注075
5.5.1定數性標注(deterministic)076
5.5.2狀態性標注(stateful)076
5.5.3唯一性標注(distinctLike)076
本章小結076
習題077
第6章認識Pig078
6.1初識Pig078
6.1.1Pig是什么078
6.1.2Pig的應用場景078
6.1.3Pig的設計思想079
6.1.4Pig的發展簡史080
6.2安裝、運行Pig080
6.2.1安裝Pig080
6.2.2運行Pig081
本章小結082
習題082
第7章Pig基礎084
7.1命令行工具Grunt084
7.1.1輸入Pig Latin腳本084
7.1.2使用HDFS命令085
7.1.3控制Pig087
7.2Pig數據類型088
7.2.1基本類型088
7.2.2復雜類型089
7.2.3NULL值089
7.2.4類型轉換090
本章小結092
習題092
第8章Pig Latin編程093
8.1Pig Latin介紹093
8.1.1基礎知識093
8.1.2輸入和輸出094
8.2關系操作095
8.2.1foreach語句096
8.2.2filter語句096
8.2.3group語句097
8.2.4order語句097
8.2.5distinct語句098
8.2.6join語句098
8.2.7limit語句098
8.2.8sample語句099
8.2.9parallel語句099
8.3用戶自定義函數UDF101
8.3.1注冊UDF102
8.3.2define命令和UDF103
8.3.3調用Java函數104
8.4開發工具104
8.4.1describe104
8.4.2explain105
8.4.3illustrate107
8.4.4Pig統計信息109
8.4.5M/R作業狀態信息111
8.4.6調試技巧112
本章小結113
習題113
第9章數據ETL工具Sqoop115
9.1安裝Sqoop115
9.2數據導入117
9.2.1導入實例118
9.2.2導入數據的使用119
9.2.3數據導入代碼生成120
9.3數據導出121
9.3.1導出實例121
9.3.2導出和SequenceFile123
本章小結123
習題124
第10章Hadoop工作流引擎Oozie125
10.1Oozie是什么125
10.2Oozie的安裝125
10.3Oozie的編寫與運行131
10.3.1Workflow組件131
10.3.2Coordinator組件133
10.3.3Bundle組件134
10.3.4作業的部署與執行134
10.3.5向作業傳遞參數136
10.4Oozie控制臺136
10.4.1控制臺界面136
10.4.2獲取作業信息137
10.5Oozie的高級特性139
10.5.1自定義Oozie Workflow139
10.5.2使用Oozie JavaAPI141
本章小結143
習題143
第11章離線計算實例145
11.1微博歷史數據分析145
11.1.1數據結構145
11.1.2需求分析146
11.1.3需求實現146
11.2電商銷售數據分析160
11.2.1數據結構160
11.2.2需求分析161
11.2.3需求實現161
本章小結169
參考文獻