原创 數據庫之SQL行列轉換

SQL行列轉換 數據分析經常會遇到行列轉換,SQL中的行列轉化集可以用常規的case when/union all語句,也可以用專門的行列轉換函數pivot和unpivot。 數據表表1(T1)如下表所示,是數據庫常見的存儲形式,課程

原创 Python 預測基因變異是否具有相互衝突的臨牀分類問題

數據下載自Kaggle的Genetic Variant Classifications數據集,大小爲(65188, 46),數據原始來源於ClinVar。 https://www.kaggle.com/kevinarvai/clinvar

原创 mac 設置環境變量

mac 添加環境變量 https://blog.csdn.net/handsomefuhs/article/details/79687381 Mac OS增刪環境變量 https://www.cnblogs.com/ilove

原创 OMP:DYLD_LIBRARY_PATH

OMP: Error #15: Initializing libomp.dylib, but found libiomp5.dylib already initialized. OMP: Hint: This means that m

原创 Python安裝 libFM

編譯libFm 主頁: http://www.libfm.org/ 源代碼:https://github.com/srendle/libfm libFm手冊(libFM 1.4.2 manual):http://www.libfm.o

原创 kaggle: Facebook V Predicting Check Ins

數據抽樣 將數據分成塊(chunk),便於最近鄰計算 特徵工程(430) k=2500,選取前100個候選地點 與座標有關的特徵 XGboost特徵:(記錄最近鄰點的地點分佈情況) 最近鄰(10個):k=1,5,10,2

原创 python 字符串處理

本文參考《利用python進行數據分析》第七章中字符串操作部分內容 內置的字符串對象方法 分隔符拆分字符串 去空格/換行符 字符串連接 查詢子串 子串出現次數 字符串替換 Python 內置的字符串方法 分隔符拆分字符串 In [1]

原创 Hyperopt 參數優化

翻譯自https://districtdatalabs.silvrback.com/parameter-tuning-with-hyperopt Parameter Tuning with Hyperopt –Kris Wright 概

原创 利用Python進行描述性統計

    統計學分爲描述統計學和推斷統計學,描述統計學是使用特定的數字或圖表來體現數據的集中程度或離散程度,如平均數、中位數、衆數、方差、標準差;推斷統計學是根據樣本數據來推斷總體特徵,如產品檢查,一般採用抽檢,根據所抽樣本的質量合格率作爲

原创 mac matlab安裝libsvm

需要文件:Xcode7.2.dmg(以及內置的Command Line Tools)、matlab2015b、xcode7_mexopts.zip、optsPatch10.8.patch、libsvm-3.23.tar.gz 獲取方式: