-
>
考研英語背單詞20個詞根詞綴
-
>
西班牙語詞根寶典
-
>
美國K-12原版語文課本--初中·下(全12冊)
-
>
流浪地球劉慈欣
-
>
西南聯大英文課 輕讀禮盒版
-
>
英語大書蟲世界經典名譯典藏書系:中國人的精神 (英漢對照)(精選權威版本)
-
>
許淵沖譯唐詩三百首:漢文·英語
牛津通識讀本牛津通識讀本:大數據 版權信息
- ISBN:9787544783439
- 條形碼:9787544783439 ; 978-7-5447-8343-9
- 裝幀:70g純質紙
- 冊數:暫無
- 重量:暫無
- 所屬分類:>>
牛津通識讀本牛津通識讀本:大數據 本書特色
大數據在21世紀的頭二十年已經深深地改變了我們的生活和工作,而且這種改變還將繼續深入下去,未來充滿了不確定。然而,大數據給我們帶來生活便利的同時,也給我們帶來對侵犯隱私的恐懼。雖然我們無法完全把握大數據專家們會將算法引向何方,但了解一些大數據的基本知識,至少可以讓我們減少一些內心的不安。本書以簡短的篇幅,以通俗易懂的方式,探討了當下炙手可熱的大主題。
牛津通識讀本牛津通識讀本:大數據 內容簡介
在全世界不同的文化中,數據的收集與組織都有著悠久的歷史,甚至在計算機思想出現之前很久就已存在。但只是到了互聯網時代,日常產生的數據量才開始變得很好巨大,而且繼續呈指數級增長,其中包括我們上傳的文件、視頻、照片、社交媒體信息、在線購物,甚至我們汽車的GPS導航數據。大數據這一術語所代表的不僅僅是一種量變,而是一種質變;其所指涉的不僅是新的技術,還有企業和政府利用它的方式。霍爾姆斯基于統計學、概率論和計算機科學,對大數據這一主題進行了概要性探討,并強調指出,大數據不僅改變了商業的運營模式,而且改變了醫療研究的進行方式。與此同時,它也引起了一些重要的倫理問題,作者據此對斯諾登事件、數據安全,以及家庭智能設備可能被黑客挾持等實例進行了討論。
牛津通識讀本牛津通識讀本:大數據 目錄
致 謝
**章 數據爆炸
第二章 大數據為什么不一般?
第三章 大數據存儲
第四章 大數據分析法
第五章 大數據與醫學
第六章 大數據,大商務
第七章 大數據安全與斯諾登事件
第八章 大數據與社會
字節大小量表
小寫英文字母ASCII碼表
索 引
英文原文
牛津通識讀本牛津通識讀本:大數據 節選
**章 數據爆炸 什么是數據? 公元前431年,斯巴達向雅典宣戰。修昔底德在對戰爭的描述中,記載了被圍困于城中的忠于雅典的普拉蒂亞部隊,如何翻越由斯巴達領導的伯羅奔尼撒軍隊所建的圍墻而*終得以逃脫的過程。要做到這一點,他們需要知道城墻的高度,以便制造高度合適的梯子。伯羅奔尼撒軍隊所建城墻的大部分都覆蓋著粗糙的灰泥卵石,但他們*終還是找到了一處磚塊清晰可見的區域。接下來,大量的士兵被賦予了一項任務,就是每個人分別去計數這些裸露磚塊的層數。要在遠離敵人攻擊的距離之外完成判斷,誤差難以避免。但正如修昔底德所解釋的那樣,考慮到計數的是眾多的個體,*常出現的那個數應該是可靠的。這個*常出現的數,我們今天稱之為眾數,普拉蒂亞人正是使用它來計量圍墻的高度。由于使用的墻磚的大小是已知的,因此適合翻越城墻所需高度的梯子也順理成章地打造了出來。隨后,數百的軍人得以成功逃脫。此事可以被視為數據收集和分析*為生動的范例,也因而載入史冊。但是,正如我們在本書的后續章節中將要看到的,數據的收集、存儲和分析甚至比修昔底德的時代還要早幾個世紀。 早在舊石器時代晚期的棍棒、石頭和骨頭上,人們就發現了凹口。這些凹口被認為是計數標記,盡管學術界對此仍然存有爭議。也許*著名的例子是,1950年在剛果民主共和國發現的伊山戈骨,它距今大約有兩萬年之久。這個有著凹口的骨頭被解讀為具有特殊的功用,比如用作計算器或日歷,當然也有人認為,骨頭上的凹口只是為了方便手握。20世紀70年代在斯威士蘭發現的列朋波骨甚至更為久遠,時間大概可以追溯到公元前35000年左右。這塊刻有29個線條的狒狒腓骨,與今天遠在納米比亞叢林中生活的土著仍然使用的日歷棒,有著驚人的相似之處。這表明它確有可能是一種用來記錄數據的方式,對于他們的文明來說,這些數據至關重要。 雖然對這些凹口骨骼的解釋仍然沒有定論,但我們清楚地知道,人類早期有充分記錄的數據使用之一,是巴比倫人在公元前3800年進行的人口普查。該人口普查系統記錄了人口數量和商品,比如牛奶和蜂蜜,以便提供計算稅收所需的信息。早期的埃及人也擅長使用數據,他們用象形文字把數據寫在木頭或莎草紙上,用來記錄貨物的運送情況并追蹤稅收。但早期的數據使用示例,絕不僅限于歐洲和非洲。印加人和他們的南美洲前輩熱衷于記錄稅收和商業用途的數據,他們使用一種被稱為“奇普”的精巧而復雜的打彩色繩結的方法,作為十進制的記賬系統。這些由染成明亮色彩的棉花或駱駝毛制成的打結繩,可以追溯到公元前3000年。雖然只有不到1 000個打結繩在西班牙人入侵和后續的各種毀滅性災難中得以幸存,但它們是已知的**批大規模數據存儲系統的典范。現在有人正在開發計算機算法,試圖解碼“奇普”的全部含義,加深我們對其使用原理的理解。 雖然我們可以將這些早期的計數方法設想并描述為使用數據,但英文詞data(數據)實際上是源于拉丁語的復數詞,其單數形式為datum。今天,datum已經很少使用,“數據”的單數和復數都用data表示。《牛津英語詞典》將該術語的**個使用者,歸于17世紀的英國神職人員亨利 ?? 哈蒙德。他在1648年出版的一本有爭議的宗教小冊子中使用了“數據”這個詞。在此書中,哈蒙德在神學意義上使用了“數據堆”這一短語,來指稱無可爭辯的宗教真理。但是,盡管該出版物在英語中首次使用了“數據”這一術語,但它與現在表示“一個有意義的事實和數值總體”并不是同一個概念。我們現在所理解的“數據”,源于18世紀由普里斯特利、牛頓和拉瓦錫等知識巨人引領的科學革命。到1809年,在早期數學家的研究基礎上,高斯和拉普拉斯為現代統計方法奠定了堅實的數學基礎。 在更實際的層面上,當屬1854年倫敦寬街暴發霍亂疫情時,針對該疫情收集的大量數據,它使得約翰 ?? 斯諾醫生得以繪制了疫情圖。數據和疫情圖證明他先前的假設是正確的,即霍亂通過污染的水源傳播,而不是一直以來被廣為認同的空氣傳播。通過收集當地居民的數據,他確定患病的人都使用了相同的公共水泵。接下來,他說服地方當局關閉了該飲水源。關閉飲水源并不難,他們拆下了水泵的手柄,任務也就完成了。斯諾隨后制作了一張疫情圖,該圖現在很出名,它清楚顯示患病者以寬街的飲水泵為中心,成集群狀態分布。斯諾繼續在該領域潛心鉆研,收集和分析數據,并成為著名的流行病學家。 約翰??斯諾之后,流行病學家和社會學家進一步發現,人口統計數據對于研究彌足珍貴。如今,在許多國家進行的人口普查,就是非常有價值的信息來源。例如,出生率和死亡率的數據,各種疾病的發生頻率,以及收入和犯罪相關聯的統計數據,現在都會有所收集,而在19世紀之前這些都是空白。人口普查在大多數國家每十年進行一次。由于收集到的數據越來越多,*終導致手工記錄或以前使用的簡單計數器,已經難以應對實際的海量數據登錄。在為美國人口普查局工作期間,赫爾曼??何樂禮就遇到了如何應對這些不斷增長的人口普查數據的挑戰。 到1870年美國開展人口普查時,所依靠的是一種簡單的計數器,但這種機器效率有限,已無法滿足人口普查局的要求。1890年的人口普查有了突破,這完全得益于赫爾曼??何樂禮發明的用于存儲和處理數據的打孔卡制表機。通常情況下,處理美國人口普查數據需要八年左右的時間,但使用這項新發明后,時間縮短到了一年。何樂禮的機器徹底改變了世界各國人口普查數據的分析處理,其中包括德國、俄羅斯、挪威和古巴。 何樂禮隨后將他的機器賣給了一家后來稱為國際商用機器(IBM)的公司,該公司開發并生產了一系列廣泛使用的打孔卡機。1969年,美國國家標準協會制定了以何樂禮命名的打孔卡代碼(或稱何樂禮卡代碼)標準,以對打孔卡機的先驅何樂禮表示敬意。 數字時代的數據 在計算機廣泛使用之前,人口普查、科學實驗或精心設計的抽樣調查和調查問卷的數據都記錄在紙上—這個過程費時且昂貴。數據收集只有在研究人員確定他們想要對實驗或調查對象詢問哪些問題后才能進行,收集到的這些高度結構化的數據按照有序的行和列轉錄到紙張上,然后通過傳統的統計分析方法進行檢驗。到20世紀上半葉,有些數據開始被存儲到計算機里,這有助于緩解部分勞動密集型工作的壓力。但直到1989年萬維網(或網絡)的推出及其快速發展,以電子方式生成、收集、存儲和分析數據才變得越來越可行。面對網絡上可訪問的海量數據,問題也接踵而來,它們需要及時得到處理。首先,讓我們看看數據的不同類型。 我們從網絡上獲得的數據可以分為結構化數據、非結構化數據或半結構化數據。 手工編寫并保存在筆記本或文件柜中的結構化數據,現在以電子的形式存儲在電子表格或數據庫中。電子表格樣式的數據表由行和列組成,行記錄的是數據,列對應的是字段(比如名稱、地址和年齡)。當我們在線訂購商品時,我們實際上也正在貢獻結構化數據。精心構建和制表的數據相對容易管理,并且易于進行統計分析,實際上直到*近,統計分析方法也只能應用于結構化數據。 相比之下,像照片、視頻、推文和文檔這些非結構化數據就不太容易歸類。一旦萬維網的使用變得普遍,我們就會發現,很多這樣的潛在信息仍然無法訪問,因為它們缺乏現有分析技術所需的結構。但是,如果通過識別關鍵性特征,那么初看起來為非結構化的數據也可能不是完全沒有結構。例如,電子郵件雖然正文的數據是非結構化的,但標題中包含了結構化元數據,因此它可以歸類為半結構化數據。元數據標簽本質上是描述性引用,可用于向非結構化數據添加可識別的結構化信息。給網站上的圖像添加單詞標簽,它就可以被識別并且更易于搜索。在社交網站上也可以找到半結構化數據,這些網站使用主題標簽,以便識別特定主題的消息(非結構化數據)。處理非結構化數據具有挑戰性:由于無法將其存儲在傳統數據庫或電子表格中,因此必須開發特殊工具來提取有用信息。在后面的章節中,我們會談到非結構化數據的存儲方式。 本章的題名“數據爆炸”一詞,指的是逐漸產生的越來越多的結構化、非結構化和半結構化數據。接下來,我們將梳理產生這些數據的各種不同來源。 大數據簡介 在本書的寫作過程中,我在網上檢索相關資料,體驗了被網上可用的數據所淹沒的感覺—來自網站、科學期刊和電子教科書的數據可謂海量。根據IBM公司*近進行的一項全球范圍內的調查,每天產生的數據大約為2.5 Eb。一個Eb是1018(1 后面跟18 個0)字節(或100 萬Tb;請參閱本書結尾的“字節大小量表”)。在寫作本書時,一臺高配的筆記本電腦的硬盤通常會有1 Tb 或2 Tb的存儲容量。*初,“大數據”一詞僅指數字時代產生的大量數據。這些海量數據(結構化和非結構化數據)包括電子郵件、普通網站和社交網站生成的所有網絡數據。 世界上大約80%的數據是以文本、照片和圖像等非結構化數據的形式存在,因此不適合傳統的結構化數據分析方法。“大數據”現在不僅用于指代以電子方式生成和存儲的數據總體,還用于指數據量大和復雜度高的特定數據集。為了從這些數據集中提取有用的信息,需要新的算法技術。這些大數據集來源差異很大,因此有必要讓我們先詳細了解一下主要的數據源以及它們生成的數據。 搜索引擎數據 到2015年,谷歌是全球*受歡迎的搜索引擎,微軟的必應和雅虎搜索分居第二位和第三位。從谷歌可以查閱的*近一年數據來看,也就是2012年的公開數據,僅谷歌每天就有超過35億次搜索。 在搜索引擎中輸入關鍵詞能生成與之*為相關的網站列表,同時也會收集到大量數據。網站跟蹤繼續生成大量數據。作為試驗,我用“邊境牧羊犬”為關鍵詞進行了檢索,并點擊返回的*頂層網站。通過一些基本的追蹤軟件,我發現僅通過點擊這一個網站就可以生成大約67個第三方站點的鏈接。商業企業之間通過此類方式共享信息,以達到收集網站訪問者興趣愛好的目的。 每次我們使用搜索引擎時,都會創建日志,它記錄我們訪問過的推薦網站。這些日志包含諸多有用信息,比如查詢的術語、所用設備的IP地址、提交查詢的時間、我們在各個網站停留的時長,以及我們訪問它們的順序—所有這些都以匿名的方式進行。此外,點擊流日志記錄了我們訪問網站時所選擇的路徑,以及我們在網站內的具體導航。當我們在網上沖浪時,我們所做的每次點擊都記錄在某個地方以備將來使用。企業可以使用獲取的軟件來收集他們自家網站生成的點擊流數據,這也是一種有價值的營銷工具。通過提供有關系統使用情況的數據,日志有助于偵測身份盜用等惡意行為。日志還可用于評估在線廣告的有效性,通過計算網站訪問者點擊廣告的次數,廣告的效用一目了然。 通過啟用客戶身份識別,“網絡餅干”(Cookie)(一個小文本文件,通常由網站標識符和用戶標識符組成)可用于個性化你的上網體驗。當你首次訪問所選網站時,“網絡餅干”將被發送到你的計算機中,除非你已經禁用了它。以后每次你訪問該網站時,“網絡餅干”都會向網站發送一條消息,并借此跟蹤你的訪問。正如我們將在第六章中要看到的,“網絡餅干”通常用于記錄點擊流數據,跟蹤你的偏好,或將你的名字添加到定向廣告中。 社交網站也會產生大量數據,臉書(Facebook)和推特(Twitter)位居榜首。到2016年年中,臉書平均每月有17.1億個活躍用戶。所有用戶都在生成數據,僅日志數據每天就能達到大約1.5 Pb(或1 000 Tb)。視頻共享網站優兔(YouTube)創建于2005年,目前廣受歡迎,影響深遠。在近期的新聞發布會上,優兔聲稱其全球用戶數超過了10億。搜索引擎和社交網站產生的有價值數據可用于其他許多領域,比如健康問題的處理。 醫療數據 如果我們看看醫療保健,就會發現一個涉及人口比例越來越大的被電子化的領域。電子健康記錄逐漸成為醫院和手術的標配,其主要目的是便于與其他醫院和醫生共享患者的數據,從而提供更好的醫療保健服務。通過可穿戴或可植入傳感器收集的個人數據正日益增加。特別是為了健康監測,我們很多人都在使用復雜程度各異的個人健身追蹤器,它們輸出前所未有的新型數據。現在可以通過收集血壓、脈搏和體溫的實時數據,來遠程監控患者的健康狀況,從而達到降低醫療成本并提高生活質量的潛在目的。這些遠程監控設備正變得越來越復雜,除了測量基本生命體征參數之外,睡眠跟蹤和動脈血氧飽和度也成了測量的對象。 有一些公司通過激勵措施來吸引員工使用可穿戴健身設備,公司設定某些具體目標,比如減肥或每天走多少步路。作為免費使用設備的條件,員工須同意與雇主共享數據。這似乎是合理的,但不可避免地要涉及個人隱私。此外,選擇加入此類計劃的員工很可能會承受額外的心理壓力。 其他形式的員工監控也正變得越來越頻繁,例如監控員工在公司提供的計算機和智能手機上的所有活動。使用自定義軟件,此類監控可以包括從監視訪問了哪些網站到記錄鍵盤輸入,以及檢查計算機是否用于私人目的(如訪問社交網站)。在大規模數據泄露的時代,安全性越來越受到關注,因此必須保護企業數據。監控電子郵件和跟蹤訪問的網站,只是減少敏感資料被盜的兩種常用方法。 如前文所述,個人健康數據可以來自傳感器,例如健身追蹤器或健康監測設備。然而,從傳感器收集的大部分數據都以高度專業化的醫療為目的。伴隨著對各物種開展的基因研究和基因組測序,產生了一批當今規模*為宏大的數據庫。脫氧核糖核酸分子(DNA)以保存生物體遺傳信息而聞名于世;1953 年,詹姆斯??沃森和弗朗西斯??克里克首次將其描述為雙螺旋結構。一個家喻戶曉的基因研究項目是近年來的國際人類基因組計劃,它的目標是確定人類DNA的30 億個堿基對的序列或確切順序。這些數據*終會幫助研究團隊進行基因疾病的探索。 實時數據 有些數據被實時收集、處理并使用。計算機處理能力的提高,惠及的不僅是數據處理,同時也大幅提升了數據生產能力。有時候,系統的響應時間至關重要,數據必須要得到及時處理。例如,全球定位系統(GPS)使用衛星系統掃描地球并發回大量實時數據。安裝在你的汽車或內置在智能手機中的GPS接收設備,需要實時處理這些衛星信號才能計算你的位置、時間和速度。(“智能”表示某個物品,這里指的是手機,具有訪問互聯網的功能,并且能夠提供可以鏈接在一起的多種服務或應用。) 該技術現在用于無人駕駛或自動駕駛車輛的開發。這樣的車輛已經在工廠和農場等封閉的專門場所使用,一些大品牌汽車制造企業也在開發無人駕駛車輛,包括沃爾沃、特斯拉和日產等。相關的傳感器和計算機程序必須實時處理數據,以便將車輛可靠地導航到目的地,并根據道路實況控制車輛的移動軌跡。這需要事先創建待行進路線的三維地圖,因為傳感器不能應對沒有地圖的路線。雷達傳感器用于監控其他車流,并將數據發回控制汽車的外部中央執行計算機。傳感器必須得到有效編程以探測不同的形狀,并區分諸如跑進公路的孩子和風吹起的報紙這樣的不同物體,或者甄別交通事故發生后的應急交通管制。然而,到目前為止,自動駕駛汽車還沒有能力應對由瞬息萬變的環境所帶來的各種問題。 自動駕駛汽車首次致命碰撞事故發生在2016年。當時,駕駛員和自動駕駛儀都沒有對切入汽車行進路線的車輛做出反應,也就是說沒有任何制動的操作。自動駕駛汽車的制造商特斯拉在2016年6月的新聞稿中說,“引發事故的情況極為罕見”。自動駕駛系統會提醒駕駛員要始終將手放在方向盤上,并且還會檢查他們是否在這樣做。特斯拉表示,這是他們在1.3億英里自動駕駛中發生的**起死亡事故,而相比之下,美國每9 400萬英里的常規駕駛(非自動駕駛)就會造成一人死亡。 據估計,每輛自動駕駛汽車每天平均生成30 Tb的數據,其中大部分數據必須立即處理。一個被稱為流計算的新研究領域,繞過了傳統的統計和數據處理方法,以期能提供處理這一特殊大數據的解決方案。 天文數據 2014年4月,國際數據公司(IDC)的一份報告估計,到2020年,數字世界將達到44萬億Gb(1 000 Mb等于1 Gb),數據總量是2013年的十倍。天文望遠鏡所產生的數據與日俱增,例如位于智利的超大光學望遠鏡由四個望遠鏡組成,每晚都產生大量的數據,單個望遠鏡每晚所產生的數據就高達15 Tb。該望遠鏡在大型天氣調查項目中起著引領的作用,它通過不停地掃描夜空制作和更新夜空圖;該項目為期十年,產生的數據總量估計能達到60 Pb(250字節)。 在數據生成方面數量更大的是,建在澳大利亞和南非的平方公里陣列探路者(SKAP)射電望遠鏡。該望遠鏡預計于2018年開始運行。**階段它每秒將產生160 Tb的原始數據,隨著建設進程的推進,產生的數據還會進一步的增加。當然,并非所有這些數據都會被存儲,但即便如此,仍需要世界各地的超級計算機來分析剩余的數據。 數據到底有何用途? 如今我們的日常活動也會被收集并成為電子化的數據,想避免個人數據被收集幾乎已經是不可能的事。超市收銀機記錄我們購買的商品的數據;購買機票時,航空公司收集我們旅行安排的信息;銀行收集我們的財務數據。 大數據廣泛應用于商業和醫學,并在法律、社會學、市場營銷、公共衛生和自然科學的所有領域得到運用。如果我們能夠開發合適的數據挖掘方法,那么所有形式的數據都有可能提供大量有用的信息。融合傳統統計學和計算機科學的新技術,使得分析大量數據變得越來越可行。統計學家和計算機科學家開發的這些技術和算法,可用以搜索數據模式。梳理出關鍵的模式,是大數據分析成功與否的關鍵。數字時代帶來的變化大大改變了數據收集、存儲和分析的方式。得益于大數據革命,我們才有了智能汽車和家庭監控。 以電子方式收集數據的能力,催生了令人興奮的數據科學,也促成了統計學和計算機科學的融合。大量的數據得到有效分析,從而在跨學科應用領域產生了新的見解,獲得了新的知識。處理大數據的*終目的是提取有用的信息。例如,商業決策越來越依靠從大數據中分析所得的信息,并且期望值很高。但是,目前還有一些大難題亟待解決,尤其是缺乏訓練有素的數據科學家,只有他們才能有效地開發和管理那些提取有用信息的系統。 通過使用源自統計學、計算機科學和人工智能的新方法,人們正在設計新的算法,有望推動科學的進步和產生新的科學見解。例如,盡管無法準確預測地震發生的時間和地點,但越來越多的機構正在使用衛星和地面傳感器收集的數據來監測地震活動。其目的是想大致確定,從遠期來看,可能會發生大地震的地方。美國地質調查局(USGS)是地震研究領域的主要參與者。該機構2016年預測:“加利福尼亞州北部地區未來三十年發生里氏7級地震的概率為76%。”諸如此類的概率評估有助于將資源集中于重要事項,比如確保建筑物能夠更好地抵御地震并實施災害管理計劃等。來自不同國家和地區的數家公司,正在使用大數據來改進地震的預測方法,這些方法在大數據出現之前是不可想象的。現在我們有必要來看一下大數據的非凡之處。
牛津通識讀本牛津通識讀本:大數據 作者簡介
道恩??E.霍爾姆斯,現任教于美國加利福尼亞大學圣巴巴拉分校應用概率與統計學系,主要研究領域為貝葉斯網絡、機器學習和數據挖掘等。霍爾姆斯是電氣電子工程師學會高級會員、《基于知識的智能信息系統國際期刊》副主編,并與他人合編了三卷本著作《數據挖掘:基礎和智能范例》(2014)。
- >
隨園食單
- >
中國歷史的瞬間
- >
人文閱讀與收藏·良友文學叢書:一天的工作
- >
大紅狗在馬戲團-大紅狗克里弗-助人
- >
名家帶你讀魯迅:故事新編
- >
月亮虎
- >
【精裝繪本】畫給孩子的中國神話
- >
中國人在烏蘇里邊疆區:歷史與人類學概述