原创 Understanding the Bias-Variance Tradeoff (理解偏差-方差權衡)

引言 如果你想深入地理解偏差-方差,這篇文章再好不過了。我轉載自Understanding the Bias-Variance Tradeoff,Trust me,這絕對是你不想錯過的文章。如果你的網絡不好,就先看我下面轉載的。如

原创 PCA詳解-並用scikit-learn實現PCA壓縮紅酒數據集

引言 在這篇文章中,我會介紹一些PCA背後的數學概念,然後我們用Wine數據集作爲實例,一步一步地實現PCA。最後,我們用更加強大的scikit-learn方便快速地實現PCA,並用邏輯迴歸來擬合用PCA轉換後的數據集。爲了讓大家

原创 R實戰之從頭到尾分析廣告數據集

前言 這篇文章主要用簡單的線性迴歸模型來介紹統計學中一些很重要的概念。比如:置信區間(confidence interval)、t-statistic、p-value、R2 statistic和F-statistic等一些概念。

原创 深入理解 java 中的 Soft references & Weak references & Phantom reference

引言 Ethan Nicholas 在他的一篇文章中說:他面試了20多個Java高級工程師,他們每個人都至少有5年的Java從業經驗,當他問這些工程師對於Weak References 的理解時,只有其中的2個人知道Weak Re

原创 MIT 18.06 線性代數總結(Part II)

引言 終於到了課程的後半部分,它的主題是關於 determinants 和 eigenvalues 的。 Properties of Determinants 教授在整個 lecture 18 中介紹了 Determinants

原创 (個人筆記)英語語法之動詞時態

對動詞加上完成元素 Present perfect tense The time of the action is before now but not specified, and we are often more inter

原创 (個人筆記)Coursera 英語學術寫作

引言 文章內容是 Academic English: Writing Specialization 課程筆記。 Conjunctions 一共有下圖中3種類型的句子:1)Simple 類型的句子只有一個主語和一個動詞,叫做 ind

原创 Logistic Regression、Linear Discriminant Analysis、Shrinkage Methods(Ridge Regression and Lasso)

引言 本篇文章主要偏向於實際應用的目標,我會把詳細的python代碼專門寫在 jupyter notebook上。這篇文章主要介紹了一些關於應用Logistic Regression,LDA和Shrinkage Methods的一

原创 決策樹ID3、C4.5、C5.0以及CART算法之間的比較-並用scikit-learn決策樹擬合Iris數據集

引言 在這篇文章中,我主要介紹一下關於信息增益,並比較ID3、C4.5、C5.0以及CART算法之間的不同,並給出一些細節的實現。最後,我用scikit-learn的決策樹擬合了Iris數據集,並生成了最後的決策樹圖片 信息增益(

原创 機器學習系統模型調優實戰--所有調優技術都附相應的scikit-learn實現

引言 如果你對機器學習算法已經很熟悉了,但是有時候你的模型並沒有很好的預測效果或者你想要追求更好地模型性能。那麼這篇文章會告訴你一些最實用的技術診斷你的模型出了什麼樣的問題,並用什麼的方法來解決出現的問題,並通過一些有效的方法可以

原创 對 Practical Vim 一書的總結

引言 如果有一個神器讓你在編輯文件的過程中不需要用到鼠標(有些人可能會說,我一直用筆記本的觸摸板,從沒用到過鼠標,哈哈),你會用它嗎?但是如果這個神器需要一點學習成本,你會選擇使用它嗎?我相信這個答案會因人而異,因爲每個決定的背後

原创 學好機器學習必會的統計學知識(第二篇)

引言 在機器學習應用中,我們不可能離開數據。沒有了數據,機器學習算法就像沒有了靈魂。更好地理解數據,可以使我們把它更好地應用在機器學習上。在這篇文章中,我會介紹一些在統計學中,理解數據的一些重要概念,從而使大家更準確地操作數據,玩

原创 學好機器學習必會的統計學知識(第一篇)

引言 在機器學習應用中,我們不可能離開數據。沒有了數據,機器學習算法就像沒有了靈魂。更好地理解數據,可以使我們把它更好地應用在機器學習上。在這篇文章中,我會介紹一些在統計學中,理解數據的一些重要概念,從而使大家更準確地操作數據,玩

原创 Java應用緩存介紹與LRU(Least Recently Used)算法

引言 對於大規模的Java Web應用來說,會有大量的數據和大量的用戶,對於如何提升網站的響應速度成爲了我們開發人員的一個挑戰。對於緩存來說,它可以解決其中的一部分問題。在這篇文章中,我會介紹什麼是緩存,它的工作流程是什麼樣的,被

原创 Scrapy實戰之抓取豆瓣圖書

引言 爲了能更方便地選擇自己喜歡的書籍,我自己寫了一個Scrapy項目用來抓取豆瓣上的書籍。抓取的內容包括書籍的書名、作者、書信息、1到5星的百分數、評分和評論數。通過獲取到的這些數據,我們可以做相應的分析。比如:我們可以抓取某一