-
>
全國計算機等級考試最新真考題庫模擬考場及詳解·二級MSOffice高級應用
-
>
決戰行測5000題(言語理解與表達)
-
>
軟件性能測試.分析與調優實踐之路
-
>
第一行代碼Android
-
>
JAVA持續交付
-
>
EXCEL最強教科書(完全版)(全彩印刷)
-
>
深度學習
數據整理實踐指南 版權信息
- ISBN:9787115411020
- 條形碼:9787115411020 ; 978-7-115-41102-0
- 裝幀:簡裝本
- 冊數:暫無
- 重量:暫無
- 所屬分類:>
數據整理實踐指南 本書特色
隨著數據科學的熱門,數據的優化、整理以及如何處理不良數據成為人們關注的重點。本書通過處理不良數據,進行數據清理的案例,向讀者展示了處理數據的方法。本書共有19章,從6部分向讀者展示了使用和清理不良數據背后的理論和實踐。第1部分是grubby的動手實踐指南,它向讀者介紹了駕馭、提取數據的方法,如何處理文本數據中的數據以及web開發中碰到的數據問題。第2部分是讓人充滿意外的數據,它向讀者介紹了數據也會“撒謊”。第3部分是方法,它向讀者介紹了處理不良數據的一些方法。第4部分是數據存儲和基礎設施,它向讀者介紹了如何存儲數據。第5部分是數據的商業化,它向讀者介紹了如何避免數據處理的一些誤差。第6部分是數據策略,它向讀者介紹了如何追蹤數據、評估數據質量以及構建數據質量相關平臺等。本書適合數據科學家、數據處理和整理相關開發人員閱讀。也適合想要進入數據處理領域的讀者閱讀。
數據整理實踐指南 內容簡介
作者攜手數據領域的強大智囊團為讀者貢獻的一本處理噪音數據的指南。本書囊括眾多真實世界的應用案例以及高水平的方法和策略。本書匯集國外數據社區的技術骨干和活躍分子的集體智慧,多位數據領域的專家共同揭示了如何處理棘手的數據問題的奧秘。噪音數據就是那些"給你惹麻煩的數據",從蹩腳的存儲到糟糕的說明,再到令人誤解的策略,有多重情況可能導致噪音數據。那么什么才是決定性因素呢?有人認為是技術方面的問題,比如缺失值或格式不對的記錄,但是噪音數據包含更多的問題。本書介紹了多種有效的方式來應對噪音數據。在本書中,多位數據領域的專家共同揭示了如何處理棘手的數據問題的奧秘。通過閱讀本書,你將學會:測試你的數據,判斷它是否適合分析;將電子表格數據轉變成可用的格式;處理潛藏在文本數據里的編碼問題;進行一種成功的網絡搜集嘗試;利用自然語言處理(nlp, natural language processing)工具揭露線上評論的真實情感;處理可以影響分析工作的云計算問題;避免那些制造數據分析障礙的策略;采用一種系統的數據質量分析方法。
數據整理實踐指南 目錄
第1章 從頭說起:什么是噪音數據 1
第2章 是我的問題還是數據的問題 4
2.1 理解數據結構 5
2.2 校驗 8
2.2.1 字段校驗 8
2.2.2 值校驗 9
2.2.3 簡單統計的物理解釋 10
2.3 可視化 11
2.3.1 關鍵詞競價排名示例 13
2.3.2 搜索來源示例 18
2.3.3 推薦分析 19
2.3.4 時間序列數據 22
2.4 小結 27
第3章 數據是給人看的不是給機器看的 28
3.1 數據 28
3.1.1 問題:數據是給人看的 29
3.1.2 對數據的安排 29
3.1.3 數據分散在多個文件中 32
3.2 解決方案:編寫代碼 34
3.2.1 從糟糕的數據格式中讀取數據 34
3.2.2 從多個文件中讀取數據 36
3.3 附言 42
3.4 其他格式 43
3.5 小結 45
第4章 純文本中潛在的噪音數據 46
4.1 使用哪種純文本編碼? 46
4.2 猜測文本編碼格式 50
4.3 對文本規范化處理 53
4.4 問題:在純文本中摻入了特定應用字符 55
4.5 通過python處理文本 59
4.6 實踐練習題 60
第5章 重組web數據 62
5.1 你能獲得數據嗎 63
5.1.1 一般工作流程示例 64
5.1.2 robots 協議 65
5.1.3 識別數據組織模式 66
5.1.4 存儲離線版本 68
5.1.5 網頁抓取信息 69
5.2 真正的困難 73
5.2.1 下載原始內容 73
5.2.2 表單、對話框和新建窗口 73
5.2.3 flash 74
5.3 不利情況的解決辦法 75
5.4 小結 75
第6章 檢測撒謊者以及相互矛盾網上評論的困惑 76
6.1 weotta公司 76
6.2 獲得評論 77
6.3 情感分類 77
6.4 極化語言 78
6.5 創建語料庫 80
6.6 訓練分類器 81
6.7 分類器驗證 82
6.8 用數據設計 84
6.9 經驗教訓 84
6.10 小結 85
6.11 信息資源 86
第7章 請噪音數據站出
數據整理實踐指南 作者簡介
Q.Ethan McCallum 是一位顧問、作家,也是一名科技愛好者。他幫助很多公司在數據和技術方面做出明智的決策,他為The O’Relly Network 和Java.net撰寫文章,并且為《C/C++Users Journal》《Doctor Dobb’s Journal》和《Linux Magazine》撰稿。
- >
大紅狗在馬戲團-大紅狗克里弗-助人
- >
伊索寓言-世界文學名著典藏-全譯本
- >
伯納黛特,你要去哪(2021新版)
- >
唐代進士錄
- >
莉莉和章魚
- >
姑媽的寶刀
- >
詩經-先民的歌唱
- >
朝聞道