機器學習和數據挖掘推薦書單及簡介

有了這些書，再也不愁下了班沒妹紙該咋辦了。慢慢來，認真學，揭開機器學習和數據挖掘這一神祕的面紗吧！

《機器學習實戰》：本書第一部分主要介紹機器學習基礎，以及如何利用算法進行分類，並逐步介紹了多種經典的監督學習算法，如k近鄰算法、樸素貝葉斯算法、Logistic迴歸算法、支持向量機、AdaBoost集成方法、基於樹的迴歸算法和分類迴歸樹（CART）算法等。第三部分則重點介紹無監督學習及其一些主要算法：k均值聚類算法、Apriori算法、FP-Growth算法。第四部分介紹了機器學習算法的一些附屬工具。

全書通過精心編排的實例，切入日常工作任務，摒棄學術化語言，利用高效的可複用Python代碼來闡釋如何處理統計數據，進行數據分析及可視化。通過各種實例，讀者可從中學會機器學習的核心算法，並能將其運用於一些策略性任務中，如分類、預測、推薦。另外，還可用它們來實現一些更高級的功能，如彙總和簡化等。

之前看過一部分這本書，但是實習工作涉及到用Java代碼處理數據，所以暫時先擱一下，目前正在李航的那本書。

《數據挖掘-實用機器學習技術》：本書介紹數據挖掘的基本理論與實踐方法。主要內容包括：各種模型(決策樹，關聯規則、線性模型、聚類、貝葉斯網以及神經網絡)以及在實踐中的運用，所存任缺陷的分析。安全地清理數據集、建立以及評估模型的預測質量的方法，並且提供了一個公開的數據挖掘工作平臺Weka。Weka系統擁有進行數據挖掘仟務的圖形用戶界面，有助於理解模型，是一個實用並且深受歡迎的工具。

《數據挖掘：概念與技術》：本書全面地講述數據挖掘領域的重要知識和技術創新。在第1版內容相當全面的基礎上，第2版展示了該領域的最新研究成果，例如挖掘流、時序和序列數據以及挖掘時間空間、多媒體、文本和Web數據。本書可作爲數據挖掘和知識發現領域的教師、研究人員和開發人員的一本必讀書。

《統計學習基礎數據挖掘、推理與預測》：儘管應用的是統計學方法，但強調的是概念，而不是數學。許多例子附以彩圖。《統計學習基礎:數據挖掘、推理與預測》內容廣泛，從有指導的學習（預測）到無指導的學習，應有盡有。包括神經網絡、支持向量機、分類樹和提升等主題，是同類書籍中介紹得最全面的。計算和信息技術的飛速發展帶來了醫學、生物學、財經和營銷等諸多領域的海量數據。理解這些數據是一種挑戰，這導致了統計學領域新工具的發展，並延伸到諸如數據挖掘、機器學習和生物信息學等新領域。

《機器學習》（Mitchell）：展示了機器學習中核心的算法和理論，並闡明瞭算法的運行過程。《機器學習》綜合了許多的研究成果，例如統計學、人工智能、哲學、信息論、生物學、認知科學、計算複雜性和控制論等，並以此來理解問題的背景、算法和其中的隱含假定。《機器學習》可作爲計算機專業本科生、研究生教材，也可作爲相關領域研究人員、教師的參考書。

《統計學習方法》：本書全面系統地介紹了統計學習的主要方法，特別是監督學習方法，包括感知機、k近鄰法、樸素貝葉斯法、決策樹、邏輯斯諦迴歸與最大熵模型、支持向量機、提升方法、em算法、隱馬爾可夫模型和條件隨機場等。除第1章概論和最後一章總結外，每章介紹一種方法。敘述從具體問題或實例入手，由淺入深，闡明思路，給出必要的數學推導，便於讀者掌握統計學習方法的實質，學會運用。爲滿足讀者進一步學習的需要，書中還介紹了一些相關研究，給出了少量習題，列出了主要參考文獻。

《機器學習導論》：對機器學習的定義和應用實例進行了介紹，涵蓋了監督學習。貝葉斯決策理論。參數方法、多元方法、維度歸約、聚類、非參數方法、決策樹。線性判別式、多層感知器，局部模型、隱馬爾可夫模型。分類算法評估和比較，組合多學習器以及增強學習等。

《機器學習及其應用》：全書共分14章，內容分別涉及因果推斷、流形學習與降維、遷移學習、類別不平衡學習、演化聚類、多標記學習、排序學習、半監督學習等技術和協同過濾、社區推薦、機器翻譯等應用，以及互聯網應用對機器學習技術需求的探討。

《模式分類》第二版：除了保留了第1版的關於統計模式識別和結構模式識別的主要內容以外，讀者將會發現新增了許多近25年來的新理論和新方法，其中包括神經網絡、機器學習、數據挖掘、進化計算、不變量理論、隱馬爾可夫模型、統計學習理論和支持向量機等。

《推薦系統實踐》：過大量代碼和圖表全面系統地闡述了和推薦系統有關的理論基礎，介紹了評價推薦系統優劣的各種標準(比如覆蓋率、滿意度)和方法(比如AB測試)，總結了當今互聯網領域中各種和推薦有關的產品和服務。

《深入搜索引擎--海量信息的壓縮、索引和查詢》：理論和實踐並重，深入淺出地給出了海量信息數據處理的整套解決方案，包括壓縮、索引和查詢的方方面面。其最大的特色在於不僅僅滿足信息檢索理論學習的需要，更重要的是給出了實踐中可能面對的各種問題及其解決方法。

《概率論與數理統計》：這本書不用過多介紹了吧，普遍大學裏大一時期的教科書，只恨當年沒聽課啊，現在正在慢慢啃。。。

《大數據：互聯網大規模數據挖掘與分佈式處理》：主要內容包括分佈式文件系統、相似性搜索、搜索引擎技術、頻繁項集挖掘、聚類算法、廣告管理及推薦系統。

《Web數據挖掘》：信息檢索領域的書籍，該書深入講解了從大量非結構化Web數據中提取和產生知識的技術。書中首先論述了Web的基礎（包括Web信息採集機制、Web標引機制以及基於關鍵字或基於相似性搜索機制），然後系統地描述了Web挖掘的基礎知識，着重介紹基於超文本的機器學習和數據挖掘方法，如聚類、協同過濾、監督學習、半監督學習，最後講述了這些基本原理在Web挖掘中的應用。《Web數據挖掘》爲讀者提供了堅實的技術背景和最新的知識。

《數據之巔》：對大數據追根溯源，提出當前信息技術的發展，已經讓中國獲得了後發優勢，中國要在大數據時代的全球競爭中勝出，必須把大數據從科技符號提升成爲文化符號，在全社會倡導數據文化。

《深入淺出統計學》：本書涵蓋的知識點包括：信息可視化、概率計算、幾何分佈、二項分佈及泊松分佈、正態分佈、統計抽樣、置信區間的構建、假設檢驗、卡方分佈、相關與迴歸等等，完整涵蓋AP考試範圍。

《矩陣分析》：本書從數學分析的角度論述矩陣分析的經典方法和現代方法，取材新，有一定的深度，並給出在多元微積分、複分析、微分方程、量優化、逼近理論中的許多重要應用。主要內容包括：特徵值、特徵向量和相似性，酉等價和正規矩陣，標準形，Hermite矩陣和對稱矩陣，向量範數和矩陣範數，特徵值和估計和擾動，正定矩陣，非負矩陣。