原创 第五章 第七節 算法分析與優化(程序示例--算法診斷)

我們手頭有一份大壩水的流量與水位關係的數據,首先我們將其劃分爲訓練集、交叉驗證集和測試集: # coding: utf-8 # algorithm_analysis/diagnose.py """算法診斷 """ import line

原创 第五章 第六節 算法分析與優化(大數據集)

大數據集 在機器學習領域,流傳着這樣一句話: It's not who has the best algorithm that wins. It's who has the most data. 所以商業社會中,互聯網公司都不遺餘力地

原创 第五章 第五節 算法分析與優化(偏斜類(Skewed Classes))

查準率(Precision)與召回率(Recall) 從上面的例子我們知道,單純地使用誤差(Error)並不能完善地評價模型好壞,現在引入兩個重要的評價指標:(1)查準率(Precision);(2)召回率(Recall),並定義: 陽

原创 第五章 第一節 算法分析與優化(陷入不歸路的調試)

陷入不歸路的調試 在線性迴歸中,我們使用瞭如下的代價函數來評估預測誤差: 想要降低預測誤差,即提高預測精度,我們往往會採用這些手段: 手段 評價 採集更多的樣本 我們認爲見多識廣會讓人變得聰明,但是也會讓人變得優柔寡斷,或者聰明反被聰明

原创 第五章 第三節 算法分析與優化(偏差與方差)

總結 現在,通過診斷模型是出現了高偏差還是高方差問題,我們對於在陷入不歸路的調試中提到算法優化手段有了各自的使用場景: 手段 使用場景 採集更多的樣本 高方差 降低特徵維度 高方差 採集更多的特徵 高偏差 進行高次多項式迴歸 高

原创 第五章 第四節 算法分析與優化(機器學習系統設計--垃圾郵件分類)

機器學習系統設計--垃圾郵件分類 假定我們現有一封郵件,其內容如下: From: [email protected] To: [email protected] Subject: Buy now! Deal

原创 Spark Streaming 實現思路與模塊概述

一、基於 Spark 做 Spark Streaming 的思路 Spark Streaming 與 Spark Core 的關係可以用下面的經典部件圖來表述: 在本節,我們先探討一下基於 Spark Core 的 RDD API,如何

原创 美團數據平臺Kerberos優化實戰

背景 Kerberos 是一種網絡認證協議,其設計目標是通過密鑰系統爲客戶端、服務器端的應用程序提供強大的認證服務。 作爲一種可信任的第三方認證服務,Kerberos是通過傳統的密碼技術(如:共享密鑰)執行認證服務的,被Client和Se

原创 美團點評移動端基礎日誌庫

背景 對於移動應用來說,日誌庫是必不可少的基礎設施,美團點評集團旗下移動應用每天產生的衆多種類的日誌數據已經達到幾十億量級。爲了解決日誌模塊普遍存在的效率、安全性、丟失日誌等問題,Logan基礎日誌庫應運而生。 現存問題 目前,業內移動端

原创 CDH6.1.x離線安裝

1. 安裝文件下載 cloudera manager文件下載, 紅框中的不需要下載。 下載allkeys.asc文件,如下: cdh6文件下載,下載對應的系統文件: 2. 系統配置 2.1 環境介紹 CentOS7.5.1804 3

原创 第四章 第十一節 神經網絡(程序示例--邏輯運算)

程序示例--邏輯運算 我們使用感知器神經網絡來描述邏輯AND運算: 代碼: # coding: utf-8 # neural_network/test_logic_and.py """邏輯AND運算 """ import nn imp