基於PyTorch重寫sklearn，《現代大數據算法》電子書下載

來源：github.com

作者：Daniel Han-Chen 編譯：肖琴

【新智元導讀】基於PyTorch重寫的機器學習工具包HyperLearn，速度更快、內存使用更少，效率提高了一倍。

HyperLearn是一個基於PyTorch重寫的機器學習工具包Scikit Learn，它的一些模塊速度更快、需要內存更少，效率提高了一倍。

專爲大數據而設計，HyperLearn可以使用50％以下的內存，並在某些模塊上運行速度提高50％以上。將支持GPU，並且所有模塊都是並行化的。

項目作者Daniel Han-Chen，畢業於澳大利亞新南威爾士大學，專注於AI、NLP和無監督機器學習的推薦和匹配算法。

基於HyperLearn，作者展示瞭如何讓很多機器學習算法更快、更高效。

其中一些很酷的算法：

最小二乘法/線性迴歸的擬合時間相比sklearn減少70%，內存使用減少50%
由於新的並行算法，非負矩陣分解的擬合時間相比sklearn減少50%
Euclidean算法/餘弦相似度算法加快40%
LSMR迭代最小二乘法時間減少50%
新的Reconstruction SVD算法——使用SVD來估算丟失的數據，比mean imputation方法好約30% 稀疏矩陣運算速度提高50％——並行化
RandomizedSVD，速度加快20%~30%
New Incremental SVD和Incremental Eig，RandomizedSVD / Truncated SVD
等等

項目地址：

https://github.com/danielhanchen/hyperlearn

並且，作者寫了一本電子書：Modern Big Data Algorithms，介紹了12個新算法以及一些更新的算法：

紅色：新算法；綠色：更新的算法；藍色：即將發佈

讓我們先大致看一下“奇異值分解”（SVD）這一章，這是最重要的算法之一。SVD將PCA、線性迴歸、嶺迴歸、QDA、LDA、LSI、推薦系統、壓縮算法、L2 distance等多種算法聯繫在一起，可以說是機器學習中最重要的算法了。

Page on SVD

Page on Reconstruction SVD

Using SVD to reconstruct missing data

提速50%+，RAM使用減少50%+

提速50%+，RAM使用減少50%+，GPU支持的重寫Sklearn，使用Statsmodels組合新的算法。

HyperLearn完全用PyTorch, NoGil Numba, Numpy, panda, Scipy 和 LAPACK編寫，鏡像主要是Scikit Learn。HyperLearn還嵌入了統計推斷方法，可以被想Scikit Learn語法(model.confidence_interval_)一樣調用。

速度/內存的比較

時間表示Fit + Predict的時間。RAM(mb) = max( RAM(Fit), RAM(Predict) )

以下是N = 5000，P = 6000時的初步結果：

關鍵方法和目標

令人尷尬的並行循環
速度提升50％+，精簡50％+
爲什麼Statsmodels有時會慢得讓人無法忍受？
使用PyTorch的深度學習模塊
代碼量減少20％+，更清晰的代碼
訪問舊算法和令人興奮的新算法

1. 令人尷尬的並行循環

包括內存共享，內存管理
通過PyTorch和Numba的CUDA並行性

2. 50%+ Faster, 50%+ Leaner

矩陣乘法排序： https://en.wikipedia.org/wiki/Matrix_chain_multiplication
Element Wise矩陣乘法將複雜度從O(n^3)降低到O(n^2)：https://en.wikipedia.org/wiki/Hadamard_product_(matrices)
將矩陣運算簡化爲Einstein Notation：https://en.wikipedia.org/wiki/Einstein_notation
連續評估一次性矩陣操作以減少RAM開銷。
如果p >> n，則可能分解X.T優於分解X.
在某些情況下，應用QR分解SVD可能會更快。
利用矩陣的結構來計算更快（例如三角矩陣，Hermitian矩陣）。
計算 SVD(X)，然後獲得pinv(X) ，有時比單純計算pinv(X)更快

3. 爲什麼Statsmodels有時會慢得讓人無法忍受?

對線性模型的置信度、預測區間，假設檢驗和擬合優度檢驗進行了優化。
儘可能使用 Einstein Notation和Hadamard Products。
僅計算需要計算的內容（計算矩陣對角線，而不是整個矩陣）。
修復Statsmodels在符號、速度、內存方面的問題和變量存儲上的缺陷。

4. 使用PyTorch的深度學習模塊

使用PyTorch創建Scikit-Learn

5. 代碼量減少20％+，更清晰的代碼

儘可能使用 Decorators和Functions。
直觀的中層函數名稱，如（isTensor，isIterable）。
通過hyperlearn.multiprocessing輕鬆處理並行

6. 訪問舊算法和令人興奮的新算法

矩陣補全算法——非負最小二乘法，NNMF
批相似性隱含狄利克雷分佈（BS-LDA）
相關回歸（Correlation Regression）
可行的廣義最小二乘法FGLS
Outlier Tolerant Regression
多維樣條迴歸（Multidimensional Spline Regression）
廣義MICE
使用Uber的Pyro進行貝葉斯深度學習

《現代大數據算法》電子書下載地址：

https://github.com/danielhanchen/hyperlearn/blob/master/Modern%20Big%20Data%20Algorithms.pdf

基於PyTorch重寫sklearn，《現代大數據算法》電子書下載

【新智元導讀】基於PyTorch重寫的機器學習工具包HyperLearn，速度更快、內存使用更少，效率提高了一倍。

釘釘打卡速度慢

使用neovim打造go ide(支持代碼跳轉, 代碼補全, 實時語法檢查)

Nginx R31 doc 官方文檔-01-nginx 如何安裝

Python 潮流週刊#51：用 Python 繪製美觀的圖表

cs01 CSS Syntax

Qt/C++音視頻開發74-合併標籤圖形/生成yolo運算結果圖形/文字和圖形合併成一個/水印濾鏡

挑戰程序設計競賽 2.2章習題 POJ - 3617 Best Cow Line 貪心

字節面試：MySQL什麼時候鎖表？如何防止鎖表？

.NET8連接SQL SERVER 2008 R2 報：證書鏈是由不受信任的頒發機構頒發的

golang開發環境搭建(win10)

GitHub扒皮：中國996企業、外資955企業曝光，有你家公司嗎？

20幅漫畫預測未來：充斥機器人和無人機的世界！

2019年IEEE Fellow名單曝光：近百名華人入選，大陸學者30餘人

何愷明拋出重磅炸彈！ImageNet並非必要

“德州撲克AI之父”再發新論文：“冷撲大師2.0”要來了？

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結