原创 2017.04.19:今日頭天數據分析筆試02

10.數據庫練習 bt.user_visit_log visit_time(訪問時間) user_id(賬號ID) page_url(訪問頁量) 2017-03-16 00:59:43 23564 /ad/tes

原创 2017.07.13:無監督算法評估

無監督學習的評估方法 1.Normalizedmutual information 度量2個聚類結果的相近程度 http://www.cnblogs.com/ziqiao/archive/2011/12/13/2286273.html 2

原创 2017.05.10:工作筆記01

1.   (Note:sum() vs count();把所有數值由小到大排列並分成四等份,處於三個分割點位置的數值就是四分位數。) 2.   (Note:into outfile.txt) 3.   (Note:二進制文件讀取方式,遍歷

原创 2017.05.31:Mysql+Python 餘弦相似度

1.mysql字段類型 2.餘弦相似度

原创 2017.04.10:python數據可視化01

def is_outlier(points, threshold=3.5): """ Returns a boolean array with True if points are outliers and False