婷婷五月情,国产精品久久久久久亚洲小说,runaway韩国电影免费完整版,国产乱在线观看视频,日韩精品首页,欧美在线视频二区

歡迎光臨中圖網 請 | 注冊
> >
數據整理實踐指南

包郵 數據整理實踐指南

出版社:人民郵電出版社出版時間:2016-03-01
開本: 16開 頁數: 209
中 圖 價:¥31.9(6.5折) 定價  ¥49.0 登錄后可看到會員價
加入購物車 收藏
開年大促, 全場包郵
?新疆、西藏除外
本類五星書更多>
買過本商品的人還買了

數據整理實踐指南 版權信息

  • ISBN:9787115411020
  • 條形碼:9787115411020 ; 978-7-115-41102-0
  • 裝幀:簡裝本
  • 冊數:暫無
  • 重量:暫無
  • 所屬分類:>

數據整理實踐指南 本書特色

隨著數據科學的熱門,數據的優化、整理以及如何處理不良數據成為人們關注的重點。本書通過處理不良數據,進行數據清理的案例,向讀者展示了處理數據的方法。本書共有19章,從6部分向讀者展示了使用和清理不良數據背后的理論和實踐。第1部分是grubby的動手實踐指南,它向讀者介紹了駕馭、提取數據的方法,如何處理文本數據中的數據以及web開發中碰到的數據問題。第2部分是讓人充滿意外的數據,它向讀者介紹了數據也會“撒謊”。第3部分是方法,它向讀者介紹了處理不良數據的一些方法。第4部分是數據存儲和基礎設施,它向讀者介紹了如何存儲數據。第5部分是數據的商業化,它向讀者介紹了如何避免數據處理的一些誤差。第6部分是數據策略,它向讀者介紹了如何追蹤數據、評估數據質量以及構建數據質量相關平臺等。本書適合數據科學家、數據處理和整理相關開發人員閱讀。也適合想要進入數據處理領域的讀者閱讀。

數據整理實踐指南 內容簡介

作者攜手數據領域的強大智囊團為讀者貢獻的一本處理噪音數據的指南。本書囊括眾多真實世界的應用案例以及高水平的方法和策略。本書匯集國外數據社區的技術骨干和活躍分子的集體智慧,多位數據領域的專家共同揭示了如何處理棘手的數據問題的奧秘。噪音數據就是那些"給你惹麻煩的數據",從蹩腳的存儲到糟糕的說明,再到令人誤解的策略,有多重情況可能導致噪音數據。那么什么才是決定性因素呢?有人認為是技術方面的問題,比如缺失值或格式不對的記錄,但是噪音數據包含更多的問題。本書介紹了多種有效的方式來應對噪音數據。在本書中,多位數據領域的專家共同揭示了如何處理棘手的數據問題的奧秘。通過閱讀本書,你將學會:測試你的數據,判斷它是否適合分析;將電子表格數據轉變成可用的格式;處理潛藏在文本數據里的編碼問題;進行一種成功的網絡搜集嘗試;利用自然語言處理(nlp, natural language processing)工具揭露線上評論的真實情感;處理可以影響分析工作的云計算問題;避免那些制造數據分析障礙的策略;采用一種系統的數據質量分析方法。 

數據整理實踐指南 目錄

目錄

第1章 從頭說起:什么是噪音數據 1

第2章 是我的問題還是數據的問題 4

2.1 理解數據結構 5

2.2 校驗 8

2.2.1 字段校驗 8

2.2.2 值校驗 9

2.2.3 簡單統計的物理解釋 10

2.3 可視化 11

2.3.1 關鍵詞競價排名示例 13

2.3.2 搜索來源示例 18

2.3.3 推薦分析 19

2.3.4 時間序列數據 22

2.4 小結 27

第3章 數據是給人看的不是給機器看的 28

3.1 數據 28

3.1.1 問題:數據是給人看的 29

3.1.2 對數據的安排 29

3.1.3 數據分散在多個文件中 32

3.2 解決方案:編寫代碼 34

3.2.1 從糟糕的數據格式中讀取數據 34

3.2.2 從多個文件中讀取數據 36

3.3 附言 42

3.4 其他格式 43

3.5 小結 45

第4章 純文本中潛在的噪音數據 46

4.1 使用哪種純文本編碼? 46

4.2 猜測文本編碼格式 50

4.3 對文本規范化處理 53

4.4 問題:在純文本中摻入了特定應用字符 55

4.5 通過python處理文本 59

4.6 實踐練習題 60

第5章 重組web數據 62

5.1 你能獲得數據嗎 63

5.1.1 一般工作流程示例 64

5.1.2 robots 協議 65

5.1.3 識別數據組織模式 66

5.1.4 存儲離線版本 68

5.1.5 網頁抓取信息 69

5.2 真正的困難 73

5.2.1 下載原始內容 73

5.2.2 表單、對話框和新建窗口 73

5.2.3 flash 74

5.3 不利情況的解決辦法 75

5.4 小結 75

第6章 檢測撒謊者以及相互矛盾網上評論的困惑 76

6.1 weotta公司 76

6.2 獲得評論 77

6.3 情感分類 77

6.4 極化語言 78

6.5 創建語料庫 80

6.6 訓練分類器 81

6.7 分類器驗證 82

6.8 用數據設計 84

6.9 經驗教訓 84

6.10 小結 85

6.11 信息資源 86

第7章 請噪音數據站出
展開全部

數據整理實踐指南 作者簡介

Q.Ethan McCallum 是一位顧問、作家,也是一名科技愛好者。他幫助很多公司在數據和技術方面做出明智的決策,他為The O’Relly Network 和Java.net撰寫文章,并且為《C/C++Users Journal》《Doctor Dobb’s Journal》和《Linux Magazine》撰稿。

商品評論(0條)
暫無評論……
書友推薦
本類暢銷
編輯推薦
返回頂部
中圖網
在線客服
主站蜘蛛池模板: 国产精品合集一区二区三区 | 国产美女久久久久 | 欧美一区在线观看视频 | 99最新网址| 激情五月宗合网 | 国产成人性毛片 | 精品免费国产一区二区三区 | 天堂色网 | 国产成人h综合亚洲欧美在线 | 99r精品在线 | 毛片在线免费视频 | 男女男精品视频免费观看 | 国产一区在线观看视频 | 久久这里只有精品免费看青草 | 97视频在线观看免费播放 | 娼年中文字幕 | 久久久精品免费 | 五月天激激婷婷大综合丁香 | 国产成人影视 | www.你懂得 | 看久久| 婷婷精品在线 | 国产女人久久精品 | 免费小视频网站 | 欧美在线观看一区二区三 | 欧美一级在线视频 | 日本a在线天堂 | 精品久久中文久久久 | 久久久久久久久国产 | 欧美性区 | 99亚洲视频 | 丁香六月综合激情 | 欧美二区视频 | 欧美精品久久 | 午夜国产在线 | 国产精品久久久久久久久电影网 | 久久三级国产 | 久久久7777888精品 | 亚洲综合日韩在线亚洲欧美专区 | 国产国产精品人在线视 | 九九热免费观看 |