原创 HIVE創建分區表並將csv文件導入

1. 創建分區表: CREATE TABLE IF NOT EXISTS first_table(     user_id STRING,     salary decimal(10, 2), ) PARTITIONED by (part

原创 R語言處理矩陣遇到內存不足的問題的處理辦法

Error : cannot allocate vector of size X Gb 類似於這種問題的可能處理辦法: 1. 可以用matrix儘量不要用data frame; 2. 可以用integer matrix儘量不要用 doub

原创 linux若干命令

獲取linux下的python命令位置: which python(which python3) whereis python(whereis python3) 獲取linux下的python 包安裝位置: pip list(pip3 l

原创 用R生成pdf文檔

1. 如果是英語文檔的話,有一個非常好用的包,memor, 方便添加各種圖表,而且作者提供了模型; 2. 如果是中文文檔的話,推薦使用rticles包,裏面有ctex模板,非常方便寫中文pdf文檔,裏面可以使用Latex.

原创 用python生成pdf report

1. 安裝 pip install pdfkit pip install Jinja2 同時安裝 wkhtmltopdf; https://towardsdatascience.com/creating-pdf-reports-with-

原创 python中的代替for-loop的操作

1. map(function, list) x = ['a', 'b', 'c'] result = map(str.upper, x) list(result)  

原创 計算文本相似性的方法

常用的有兩種度量:   Jaccard Similarity與Cosine Similarity  Jaccard Similarity的定義如下: 兩組文本的交集大小除以兩組文本的並集大小; Cosine Similarity的定義如下

原创 (譯)lightgbm的調參幫助文檔

https://lightgbm.readthedocs.io/en/latest/Parameters-Tuning.html lightgbm相比xgboost/catboost, 其是leaf-wise的,也就是其會首選可以最大in

原创 python相關問題彙總

1. jupyter notebook輸出所有的代碼表達式: https://stackoverflow.com/questions/36786722/how-to-display-full-output-in-jupyter-not-o

原创 AdaBoost.M1(Freund and Schapire, 1997)

假定我們的問題是一個分類問題,要預測的變量Y={-1, 1}, X是解釋變量,樣本的個數是N. 第一步,給每個樣本一個初始的權重 第二步,當m從1到M循環的時候,執行以下步驟: 1. 基於權重, 利用訓練集得到相應的分類器; 2. 計算