-
>
公路車寶典(ZINN的公路車維修與保養秘籍)
-
>
晶體管電路設計(下)
-
>
基于個性化設計策略的智能交通系統關鍵技術
-
>
花樣百出:貴州少數民族圖案填色
-
>
山東教育出版社有限公司技術轉移與技術創新歷史叢書中國高等技術教育的蘇化(1949—1961)以北京地區為中心
-
>
鐵路機車概要.交流傳動內燃.電力機車
-
>
利維坦的道德困境:早期現代政治哲學的問題與脈絡
特征工程訓練營 版權信息
- ISBN:9787302669098
- 條形碼:9787302669098 ; 978-7-302-66909-8
- 裝幀:平裝-膠訂
- 冊數:暫無
- 重量:暫無
- 所屬分類:>
特征工程訓練營 本書特色
通過“特征工程”技術,可優化訓練數據,提升機器學習流程的輸出效果!“特征工程”基于現有數據設計相關的輸入變量,由此簡化訓練過程,增強模型性能。調整超參數或模型的效果都不如特征工程;特征工程通過改變數據流程,大幅提升了性能。
特征工程訓練營 內容簡介
通過“特征工程”技術,可優化訓練數據,提升機器學習流程的輸出效果!“特征工程”基于現有數據設計相關的輸入變量,由此簡化訓練過程,增強模型性能。調整超參數或模型的效果都不如特征工程;特征工程通過改變數據流程,大幅提升了性能。
《特征工程訓練營》將列舉6個實踐項目,引導你利用特征工程優化訓練數據。每章探討一個代碼驅動的新案例,涉及金融、醫療等行業。你將學會清洗和轉換數據,減輕偏見。本書呈現各種性能提升技巧,涵蓋從自然語言處理到時間序列分析等所有主要機器學習子領域。
主要內容
·識別和實現特征轉換
·用非結構化數據構建ML(機器學習)流程
·量化并盡量避免ML流程中的偏見
·使用特征存儲構建實時ML流程
·通過操縱輸入數據來增強現有ML流程
讀者對象
本書面向熟悉Python且經驗豐富的ML工程師。
特征工程訓練營 目錄
1.1 特征工程是什么,為什么它如此重要 2
1.1.1 誰需要特征工程 4
1.1.2 特征工程的局限性 4
1.1.3 出色的數據,出色的模型 5
1.2 特征工程流程 6
1.3 本書的編排方式 10
1.3.1 特征工程的五種類型 11
1.3.2 本書案例研究的概述 12
1.4 本章小結 14
第2 章 特征工程基礎知識 17
2.1 數據類型 18
2.1.1 結構化數據 18
2.1.2 非結構化數據 18
2.2 數據的四個層次 20
2.2.1 定性數據與定量數據 20
2.2.2 名義層次 21
2.2.3 序數層次 23
2.2.4 區間層次 24
2.2.5 比率層次 26
2.3 特征工程的類型 31
2.3.1 特征改進 31
2.3.2 特征構建 32
2.3.3 特征選擇 34
2.3.4 特征提取 35
2.3.5 特征學習 36
2.4 如何評估特征工程的成果 38
2.4.1 評估指標1:機器學習度量標準 38
2.4.2 評估指標2:可解釋性 39
2.4.3 評估指標3:公平性和偏見 39
2.4.4 評估指標4:機器學習復雜性和
速度 40
2.5 本章小結 41
第3 章 醫療服務:COVID-19的診斷 43
3.1 COVID 流感診斷數據集 45
3.2 探索性數據分析 49
3.3 特征改進 52
3.3.1 補充缺失的定量數據 52
3.3.2 填充缺失的定性數據 58
3.4 特征構建 61
3.4.1 數值特征的轉換 61
3.4.2 構建分類數據 68
3.5 構建特征工程流程 75
3.6 特征選擇 84
3.6.1 互信息 84
3.6.2 假設檢驗 85
3.6.3 使用機器學習 87
3.7 練習與答案 90
3.8 本章小結 90
第4 章 偏見與公平性:再犯率建模 93
4.1 COMPAS 數據集 93
4.2 探索性數據分析 97
4.3 測量偏見和公平性 101
4.3.1 不同對待與不同影響 102
4.3.2 公平的定義 102
4.4 構建基準模型 105
4.4.1 特征構建 105
4.4.2 構建基準流程 106
4.4.3 測量基準模型的偏見 108
4.5 偏見緩解 115
4.5.1 模型訓練前 116
4.5.2 模型訓練中 116
4.5.3 模型訓練后 116
4.6 構建偏見感知模型 117
4.6.1 特征構建:使用Yeo-Johnson 轉換器處理不同的影響 117
4.6.2 特征提取:使用aif360 學習公平表示實現 123
4.7 練習與答案 129
4.8 本章小結 130
第5 章 自然語言處理:社交媒體情感分類 131
5.1 推文情感數據集 134
5.2 文本向量化 138
5.2.1 特征構建:詞袋模型 138
5.2.2 計數向量化 139
5.2.3 TF-IDF向量化 146
5.3 特征改進 149
5.3.1 清理文本中的噪聲 150
5.3.2 對token 進行標準化 152
5.4 特征提取 155
5.5 特征學習 158
5.5.1 自動編碼器簡介 159
5.5.2 訓練自動編碼器以學習特征 160
5.5.3 遷移學習簡介·· 165
5.5.4 使用BERT 的遷移學習 166
5.5.5 使用BERT 的預訓練特征 169
5.6 文本向量化回顧 172
5.7 練習與答案 173
5.8 本章小結 174
第6 章 計算機視覺:對象識別 175
6.1 CIFAR-10 數據集 176
6.2 特征構建:像素作為特征 178
6.3 特征提取:梯度方向直方圖 181
6.4 使用VGG-11 進行特征學習 190
6.4.1 使用預訓練的VGG-11 作為特征提取器 191
6.4.2 微調VGG-11 196
6.4.3 使用經過微調的VGG-11 特征進行邏輯回歸 201
6.5 圖像矢量化總結 203
6.6 練習與答案 204
6.7 本章小結 205
第7 章 時間序列分析:利用機器學習進行短線交易 207
7.1 TWLO 數據集 208
7.2 特征構建 213
7.2.1 日期/時間特征 213
7.2.2 滯后特征 215
7.2.3 滾動/擴展窗口特征 216
7.2.4 領域特定特征 229
7.3 特征選擇 238
7.3.1 使用機器學習選擇特征 238
7.3.2 遞歸特征消除 240
7.4 特征提取 242
7.5 結論 248
7.6 練習與答案 249
7.7 本章小結 251
第8 章 特征存儲 253
8.1 MLOps 和特征存儲 254
8.1.1 使用特征存儲的收益 255
8.1.2 維基百科、MLOps和特征存儲 260
8.2 使用Hopsworks 設置特征存儲 262
8.2.1 使用HSFS API 連接到Hopsworks 263
8.2.2 特征組 265
8.2.3 使用特征組來選擇數據 273
8.3 在Hopsworks 中創建訓練數據 275
8.3.1 訓練數據集 276
8.3.2 數據溯源 280
8.4 練習與答案 281
8.5 本章小結 281
第9 章 匯總 283
9.1 重新審視特征工程流程 283
9.2 主要收獲 284
9.2.1 特征工程與機器學習模型的選擇同樣至關重要 285
9.2.2 特征工程并非一勞永逸的解決方案 286
9.3 特征工程回顧 286
9.3.1 特征改進 286
9.3.2 特征構建 286
9.3.3 特征選擇 287
9.3.4 特征提取 287
9.3.5 特征學習 289
9.4 數據類型特定的特征工程技術 290
9.4.1 結構化數據 290
9.4.2 非結構化數據 293
9.5 常見問題解答 295
9.5.1 何時應將分類變量進行虛擬化,而不是將它們保留為單獨的列 295
9.5.2 如何確定是否需要處理數據中的偏見 297
9.6 其他特征工程技術 298
9.6.1 分類虛擬桶化 298
9.6.2 將學到的特征與傳統特征結合 300
9.6.3 其他原始數據向量化器 305
9.7 擴展閱讀 306
9.8 本章小結 307
特征工程訓練營 作者簡介
Sinan Ozdemir是Shiba公司的創始人兼首席技術官,他曾在約翰·霍普金斯大學擔任數據科學講師,迄今已出版了多本關于數據科學和機器學習的教材。
- >
羅庸西南聯大授課錄
- >
月亮與六便士
- >
朝聞道
- >
我與地壇
- >
小考拉的故事-套裝共3冊
- >
伯納黛特,你要去哪(2021新版)
- >
山海經
- >
推拿