原创 spark xgboost & lightgbm 參數解釋
一、spark xgboost 模型 1 xgboost 的默認參數: xgb 參數參考鏈接 https://blog.csdn.net/yyy430/article/details/85179638 這個鏈接整理的比較全,但是這
原创 spark 行轉列
StructType 注意這種方案解決的是形如下面myScore這樣的擴展 數據是json格式 /* root |-- age: long (nullable = true) |
原创 spark xgbboostClassifier參數設置
spark的XGBClassifier參數如下 alpha -> 0.0 // learning rate min_child_weight -> 1.0 sample_type -> uniform base_score ->
原创 spark 填充缺失值系列
填充均值 //連續值填充均值 def ContinuousMissValueProcessingMean(df:DataFrame,douCols:Array[String]):DataFrame= {
原创 spark調度的參數說明
一、spark 調度 1 spark 參數說明 參數名 參數說明 –master master 的地址,提交任務到哪裏執行,例如 spark://host:port, yarn, local –deploy-
原创 spark gbdt 自定義閾值 取出模型概率,並轉換label
在大家使用spark 的時候,會發現,ML庫下的模型生成的概率是一個Vector,那麼如何將這個Vector的概率爲1的那一列取出呢?並且自定義閾值,按照這個閾值切分得到label的0,1類呢? 這時候udf函數就派上了很好的用場
原创 pandas value_counts vs numpy in1d
df[‘report_month’].value_counts() np.in1d(normal_reports[‘report_month’],3).sum() Edited by Eshter Email:fang_yuu1
原创 set與list--[交併差]
set的union,intersection,difference操作要比list的迭代要快。因此如果涉及到求list交集,並集或者差的問題可以轉換爲set來操作 如: Edited by Eshter Email:fang_
原创 世界人工智能大會期間,8.31下午(週六)世博中心紅廳,給AI程序員們量身定製的超強陣容的AI開發者大會,賈揚清、Alex Smola、Julia語言作者等大牛進行分享
世界人工智能大會期間,8.31下午(週六)世博中心紅廳,給AI程序員們量身定製的超強陣容的AI開發者大會,賈揚清、Alex Smola、Julia語言作者等大牛進行分享,歡迎點擊鏈接報名。 https://mp.weixin.qq
原创 mac成功解決 AttributeError: module 'enum' has no attribute 'IntFlag'?
在mac中,當覆蓋掉mac自帶的python2.7後,在終端輸入 python ,會出現AttributeError: module ‘enum’ has no attribute ‘IntFlag’?錯誤 該問題解決如下: 進入
原创 解決mac 安裝lightgbm image not found問題
當使用pip install lightgbm的時候,出現這個問題很讓人惱火呀~ 所以,一怒之下,將其刪之 pip uninstall lightgbm 轉用cmake 安裝 1 安裝cmake 默認mac已經安裝過brew b
原创 sql trick 總結
sql left join和 not in 比較 建議在寫sql語句的時候,儘量避免用not in 而 優先選擇left join,這樣效率會提高很多 儘量用count(1) 而不是count(*)
原创 mac電腦chrome截長圖
參考鏈接: https://www.jianshu.com/p/92d38cece03b
原创 pandas實用trick
pandas實用trick 1.向量操作 有一組數據,需要實現如下功能:"Time"是日期-時分秒的格式,現在要求把"Time"拆爲日期和時分秒兩列,“day"和"hhmmss”。 採用iloc,iterrows、itertupl
原创 pandas 正則化匹配 行轉列
pandas 正則化匹配 行轉列 有如下一個題目: df=pd.DataFrame({‘id’:[{1,2,3,},{5,6,7},{9,10,11},[{12},{13},{15}]],‘value’:[1,2,3,4]}) 需