The Elements of Statistical Learning第一章翻譯

統計學習的基礎(元素)

第二版前言

我們對《統計學習的基礎》第一版的流行感到非常高興。統計學研究領域的飛速發展,激勵我們推出本書的第二版。

我們新增了四個章節,也更新了部分章節。由於許多讀者對第一版的佈局已經習慣,我們將盡量少地改變佈局。下面是第二版改動地方的總結:

章節

新內容

1、簡介

 

2、監督學習的概覽

 

3、迴歸方程的線性方法

LAR算法和lasso的簡介

4、線性分類方法

邏輯迴歸的lasso路徑

5、基礎拓展和規範化

RKHS的額外說明

6、核平滑方法

 

7、模型評估與選擇

交叉驗證的優缺點

8、模型推理和平均

 

9、加法模型、樹和相關方法

 

10、遞增樹

生態學的新例子;一些從第16章分離出來的資料

11、神經網絡

神經信息處理會議(NIPS)2013年的挑戰;貝葉斯神經網絡

12、支持向量機和靈活的判別式

SVM分類的path算法

13、原型方法和最近鄰居

 

14、無監督學習

譜聚類;核PCA(主成分分析);稀疏PCA;非負矩陣因式分解原型分析;非線性降維;google排名算法;一個ICA(獨立成分分析)的直接方法

15、隨機森林

16、集成學習

17、無向圖模型

18、高維問題

一些進一步的解釋:

我們的第一版對色盲讀者是不友好的,其中我們尤其是選擇了紅綠顏色作爲對比色,這導致了很大的麻煩。在這一版中,我們把對比的顏色做了很大的改變,把上述的對比色變成了橘紅色和藍色。

我們把第六章的章節名改成了“核平滑方法”,爲了避免與第16章SVM提到的“機器學習核方法”相互混淆。這將會在第5和16章廣泛的討論。

第一版的第七章中,對錯誤率判斷的討論太模糊,我們沒有清楚地區分條件錯誤率和非條件錯誤率。新的版本中修正了這個問題。

第15、16章由第10章較爲自然的過度而來。最好按照此順序閱讀。

在第17章,我們沒有詳細的討論圖論模型。僅僅是討論了無向圖的情況和一些估算的新方法。由於章節所限,我們省略了有向圖模型的介紹。

第18章中簡要討論了“”問題,它在高維特性空間中研究。這些問題出現在很多領域,包括基因學,蛋白質學,文獻分類等。

我們感謝指出第一版中大量錯誤的讀者。我們對錯誤表示歉意,並在第二版中儘量避免。我們感謝blabla…爲新的章節提出意見,以及爲我們提出意見的stanford大學的畢業生和博士後,尤其是blabla….。我們感謝XXX耐心的指導我們完成這一版。此書紀念Anna McPhee。

第一版前言

我們沉浸在信息的海洋,我們渴望知識。

科學和工業帶來的問題持續挑戰着統計學科。早些年,這些問題大多來自於農業和工業實驗,並且範圍相對小。隨着計算機和信息時代的到來,統計問題在尺寸和複雜性上都爆發性的增長。數據存儲,組織,查詢領域的挑戰導致了一個新學科,數據挖掘;在生物醫藥方面的統計計算問題導致了新的學科,生物信息學。各種行業都產生了大量的數據,統計學的目的就是分析出數據的意義:提取出關鍵的樣品盒趨勢,明白數據告訴我們什麼。我們稱這爲“從數據中學習”。

從數據中學習的挑戰導致了統計學的變革。儘管計算扮演了很重要的角色,但是統計學中大部分新的發展都是有其他學科的研究者完成,比如計算機科學和工程學。

我們討論的學習問題可以被粗略的分爲有監督的和無監督的。在監督學習中,目標是根據輸入量的大小預測輸出量的值;在無監督學習中,沒有輸出量,目的是描述一個輸出集的聯繫和模式。

本書旨在把學習的新的思路總結起來,在統計學的框架下解釋他們。儘管需要一些數學知識,我們還是強調方法和概念支撐,而不是理論特徵。最後,我們希望本書不僅僅吸引統計學家,還有各行各業的研究人員和實驗人員。

正如我們從其他領域的研究人員身上學習到的統計知識一樣, 統計知識也可以幫助別人更好的理解學習的不同方面:

任何事物都沒有一個正確的解釋,解釋只是服務於人類某種理解的工具。解釋的價值在於讓別人更生動的理解某種觀點。

我們向對此書的設想和完成做出貢獻的人們表示感謝。XXX對我們的速度有很大影響。此處略。

第一章    簡介

統計學習在科學、金融和工業的許多領域都扮演了重要的角色。這裏有一些研究問題的例子:

預測一個住院的心臟病患者是否會遭受第二次心臟病。預測則基於人口統計學、飲食和臨牀測定。

預測股票未來六個月的走向,基於公司的業績和經濟數據。

根據照片,辨認手寫的郵政編碼。

估計糖尿病人的血糖含量,基於病人的紅外線吸收光譜。

確認前列腺癌的風險因素,基於人口統計學和臨牀。

學習在統計學,人工智能和數據挖掘中扮演重要角色,而且與工程學和其他學科交互。

本書是關於如何從數據中學習。在一個典型案例中,我們有輸出的衡量標準,通常是數量的(如股票價格)或者分類的(如是否得心臟病),然後進行預測,基於特徵集(比如飲食和臨牀檢測)。我們通過數據訓練集,觀察結果和特徵。

表1.1 一封郵件中的單詞或字符的百分比等於指定的單詞或字符。我們選擇了一些單詞或字符,它們最大地說明了垃圾郵件和正常郵件的區別。

測量一個目標集合(比如人們)。利用這些數據,我們建立一個預測模型,或者“學習者”,使我們可以對未知目標預測其輸出。一個好的學習者可以準確的做到這一點。

以上描述的例子叫做監督學習問題。之所以叫“監督”,是因爲結果影響學習過程。在無監督學習問題中,我們僅僅觀察特徵,對結果沒有衡量標準。我們的目標是描述數據是如何組織和聚集的。本書主要討論監督學習,無監督問題在文獻中的討論也不多,這將在本書最後一章討論。

這裏是本書要討論的幾個學習問題的例子:

例子1:垃圾郵件

這個例子中的數據包括了4061封郵件,本研究試着預測一個郵件是否是垃圾郵件。目標是設計一個自動的垃圾郵件檢測器,在阻塞用戶郵箱之前過濾掉垃圾郵件。對於這4061封郵件,我們可以知道他們是否是真的垃圾郵件,也知道郵件中最長出現的57個單詞和標點符號的頻率。這就是監督學習,結果是類變量,普通郵件或者是垃圾郵件。這也叫分類問題。

表1.1列舉的關鍵詞和字符頻率最大程度表示了垃圾郵件和普通郵件的區別。

我們的學習方法必須決定使用何種特性,並且如何使用,比如我們可以使用這樣的規則:


滿足就是垃圾郵件,否則是正常郵件。

另一種形式的規則可以是:

滿足就是垃圾郵件,否則是正常郵件。

在這個問題中,不是所有的問題都是等價的。我們想要避免過濾正常郵件,但是漏掉垃圾郵件是不希望看到的,但也不是特別嚴重。我們在本書中討論了一些處理該問題的不同的方法。

圖1.1 前列腺癌的散點矩陣圖。第一行依次代表了對每個預測的響應。Svi和gleason是分類的。

例子2:前列腺癌

該例子的數據,如圖1.1所示,是來自Stamey的研究,用來檢測前列腺特殊抗原(PSA)的濃度和臨牀數據的相互關係。數據來自97位接受徹底前列腺切除術的人。

研究目標是根據腫瘤體積(lcavol)、前列腺重量、年齡、良性的前列腺增生日誌(lbph)、精囊注入量(svi)、囊滲透日誌(lcp)、Gleason得分以及Gleason得分4和5的半分比來確定抗原(PSA)的濃度。圖1.1是所有變量的散點矩陣圖。一些和PSA的關係是明顯的,但是一個好的預測模型是很難用肉眼來構造的。

這是一個監督學習問題,被稱爲迴歸問題。因爲輸出測量時定量的。

圖1.2 美國郵政信封手寫郵政編碼的例子

例子3:手寫數字識別

例子中的數據來自美國郵政信封上的手寫的郵政編碼。每個圖片都是5個郵政編碼的一個片段,隔離出一個單獨的數字。每張圖片是大小爲16*16的灰度圖,每個像素點的強度是從0到255。一些圖片樣本有圖1.2所示。

這些圖片被標準化,大小和方位都近似相等。任務是根據16*16的像素強度矩陣,最快和精確的確定每一個圖片的數字。如果足夠精確,最後的算法被用來自動的分配信封。這是一個分類問題,要求出錯率很低,避免郵件的錯誤投遞。爲了達到低錯誤率,一些郵件可以被歸爲“不知道”,然後手工分類。

圖1.3 DNA微陣列:來自6830個基因(行)和64個樣本(列)的表達矩陣,表徵了人類的腫瘤數據。顯示的只有隨機的100行。顯示圖是熱成像圖,由綠(負,未表達)到紅(正,表達)。確實的值由綠色表示。行和列以隨機順序顯示。

例子4:DNA表達微陣列技術

DNA是脫氧核糖核苷酸,是組成人類染色體的主要材料。DNA微陣列技術通過測量當前細胞中mRNA的量,來確定細胞中的基因的表達情況。微陣列技術是生物學的一個突破,促進了對單個樣本細胞的多條基因同時進行定量研究。  下面說明DNA微陣列技術如何工作。幾千條基因的核苷酸序列被印在載玻片上。目標樣本和參考樣本被標記紅色和綠色的染色,每個樣本都和DNA在載玻片上雜交。通過熒光透視,每個點的RNA的紅綠強度是可以測量出來的。結果是上千個從-6到6的數字,測定了目標樣本相對於參考樣本的基因表達等級。正值表示目標樣本具有更高的表達,負值反之亦然。

一種基因表達數據集收集了一系列DNA微陣列實驗的表達值,每一列代表一個實驗。因此,有幾千行代表了獨立的基因,幾十列代表了樣本:在圖1.3代表的特定實驗中,有6830基因(行)和64樣本(列),儘管顯示的只有隨機的100行樣本。數據集以熱力圖形式顯示,從綠(負)到紅(正)。樣本室來自不同病人的64個癌症腫瘤。

本例的挑戰在於理解基因和樣本是如何組織的。下面是一些典型的問題:

1、哪些樣本是彼此最相似的,就橫跨基因的表達譜而言?

2、哪些樣本是彼此最相似的,就橫跨樣本的表達譜而言?

3、是否有某種基因在某種癌症樣本的表達上是特別高或低?

我們可以把該任務視爲迴歸問題,基因和樣本是兩個預測變量,表達等級是應變量。然而,把它當做無監督學習問題則更有效。例如,對於第一個問題,我們可以把樣本當做二維空間的6830中的某些點(得分),二維空間是我們以某種方法聚集起來的。

誰可以閱讀這本書?

本書可被廣泛領域的研究人員和學生查閱,包括統計學、人工智能、工程學、金融學等等。我們希望讀者至少掌握統計學的一門初級課程,包括線性迴歸的基本命題。

我們不打算對學習方法寫一個詳細的目錄,但會詳細說明一些最重要的技術。同樣值得注意的是,我們描述一些根本的概念和注意事項,研究者可以一次判斷一個好的學習方法。我們試着以一個直觀的方式寫此書,強調概念而不是數學的細節。

作爲統計學家,我們的闡述會自然的反應我們的背景和專業領域。然而,過去的八年,我們參加了許多神經網絡、數據挖掘、機器學習的會議,我們的思想被這些有趣的領域深深的影響。這些影響在我們的近期研究中很明顯,在本書中也一樣。

本書是如何組織的?

我們認爲在研究複雜方法之前,必須瞭解簡單的方法。因此,第二章討論了監督學習的概述,我們在第四章和第五章討論了迴歸和分類的線性方法。在第五章我們描述曲線、小波、單一預測的正則化和懲罰方法,而第六章介紹迴歸方法和局部迴歸。這些方法都是建立高維學習問題的基礎。模型評價和選擇是第七章的主題,包括了偏差和方差的概念,過度擬合以及選擇模型的交叉驗證的方法。第八章討論了模型的推理和平均化,包括最大似然估計的概述,貝里斯推理和自舉,EM算法,吉普斯抽樣和裝袋。一個被稱爲boosting的相關的過程則是第十章的重點。

在9-13,我們描述了監督學習的一系列的結構化方法,第九章和第十一章涵蓋了迴歸問題,第12和13章重點在分類。第14章描述了無監督學習的方法。兩個最新提出的方法,隨機森林法和集成學習法在第15、16章討論。第17章討論無向圖,最後在第18章討論高維問題。在每個章節後面,我們討論與數據挖掘應用程序有關的計算因素,包括計算規模隨着觀察和預測數量的變化。每一張以書目註釋結束,註釋裏面是引用到的材料的背景參考。

我們建議一至四章首先順序閱讀。第七章最好必須閱讀,因爲它涵蓋了所有學校方法的核心概念。記住這一點,然後書的剩餘部分可以順序閱讀,也可以抽樣看,取決於讀者的興趣。

該符號表示技術上的困難部分,可以在不間斷的討論中被跳過。

本書網址

本書的網址被定爲在http://www-stat.stanford.edu/ElemStatLearn,有大量的資源,包括本書用到的數據集合。

致老師

我們成功的使用第一版作爲兩季度課程的基礎,加上第二版增加的材料,甚至可以連着上3個季度。每章節結束有訓練。讓學生獲得和主題有關的好的軟件工具是非常重要的。我們使用r語言和s-plus作爲課程的編程語言。


歡迎登陸我的個人主頁,hello2019,查看原文:http://richardliu.cn/

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章