原创 spark xgboost & lightgbm 參數解釋

一、spark xgboost 模型 1 xgboost 的默認參數: xgb 參數參考鏈接 https://blog.csdn.net/yyy430/article/details/85179638 這個鏈接整理的比較全,但是這

原创 spark 行轉列

StructType 注意這種方案解決的是形如下面myScore這樣的擴展 數據是json格式 /* root |-- age: long (nullable = true) |

原创 spark xgbboostClassifier參數設置

spark的XGBClassifier參數如下 alpha -> 0.0 // learning rate min_child_weight -> 1.0 sample_type -> uniform base_score ->

原创 spark 填充缺失值系列

填充均值 //連續值填充均值 def ContinuousMissValueProcessingMean(df:DataFrame,douCols:Array[String]):DataFrame= {

原创 spark調度的參數說明

一、spark 調度 1 spark 參數說明 參數名 參數說明 –master master 的地址,提交任務到哪裏執行,例如 spark://host:port, yarn, local –deploy-

原创 spark gbdt 自定義閾值 取出模型概率,並轉換label

在大家使用spark 的時候,會發現,ML庫下的模型生成的概率是一個Vector,那麼如何將這個Vector的概率爲1的那一列取出呢?並且自定義閾值,按照這個閾值切分得到label的0,1類呢? 這時候udf函數就派上了很好的用場

原创 pandas value_counts vs numpy in1d

df[‘report_month’].value_counts() np.in1d(normal_reports[‘report_month’],3).sum() Edited by Eshter Email:fang_yuu1

原创 set與list--[交併差]

set的union,intersection,difference操作要比list的迭代要快。因此如果涉及到求list交集,並集或者差的問題可以轉換爲set來操作 如: Edited by Eshter Email:fang_

原创 世界人工智能大會期間,8.31下午(週六)世博中心紅廳,給AI程序員們量身定製的超強陣容的AI開發者大會,賈揚清、Alex Smola、Julia語言作者等大牛進行分享

世界人工智能大會期間,8.31下午(週六)世博中心紅廳,給AI程序員們量身定製的超強陣容的AI開發者大會,賈揚清、Alex Smola、Julia語言作者等大牛進行分享,歡迎點擊鏈接報名。 https://mp.weixin.qq

原创 mac成功解決 AttributeError: module 'enum' has no attribute 'IntFlag'?

在mac中,當覆蓋掉mac自帶的python2.7後,在終端輸入 python ,會出現AttributeError: module ‘enum’ has no attribute ‘IntFlag’?錯誤 該問題解決如下: 進入

原创 解決mac 安裝lightgbm image not found問題

當使用pip install lightgbm的時候,出現這個問題很讓人惱火呀~ 所以,一怒之下,將其刪之 pip uninstall lightgbm 轉用cmake 安裝 1 安裝cmake 默認mac已經安裝過brew b

原创 sql trick 總結

sql left join和 not in 比較 建議在寫sql語句的時候,儘量避免用not in 而 優先選擇left join,這樣效率會提高很多 儘量用count(1) 而不是count(*)

原创 mac電腦chrome截長圖

參考鏈接: https://www.jianshu.com/p/92d38cece03b

原创 pandas實用trick

pandas實用trick 1.向量操作 有一組數據,需要實現如下功能:"Time"是日期-時分秒的格式,現在要求把"Time"拆爲日期和時分秒兩列,“day"和"hhmmss”。 採用iloc,iterrows、itertupl

原创 pandas 正則化匹配 行轉列

pandas 正則化匹配 行轉列 有如下一個題目: df=pd.DataFrame({‘id’:[{1,2,3,},{5,6,7},{9,10,11},[{12},{13},{15}]],‘value’:[1,2,3,4]}) 需