原创 社團算法學習筆記

社團算法學習筆記:https://gaowenxin95.github.io/le_graph/社團社區發現算法學習筆記.html

原创 AUC計算及爲何不受樣例不均衡的影響

在很多排序場景下,尤其是當前許多數據集正負樣例都不太均衡;或者說因訓練集過大,可能會對數據進行負採樣等操作。這擦操作的前提是建立在AUC值不會受到正負樣本比例的影響。看過很多博客也都在討論:爲什麼AUC不會受正負樣例不平衡的影響?爲什麼排序

原创 prompt學習筆記

prompt學習筆記見gitbook:https://gaowenxin95.github.io/NLP_paper_preview/analysis/prompt.html

原创 圖算法學習筆記總結

見gitbook :https://gaowenxin95.github.io/le_graph/圖算法.html

原创 SHAP值學習筆記

模型可解釋之shap值 SHAP的名稱來源於SHapley Additive exPlanation。Shapley value起源於合作博弈論。比如說甲乙丙丁四個工人一起打工,甲和乙完成了價值100元的工件,甲、乙、丙完成了價值120元的

原创 catboost學習筆記

目錄優勢對比創新點原理推導代碼實現 (參考)[https://www.bilibili.com/video/BV1bU4y1o7vs?p=2] 優勢對比 CatBoost和XGBoost、LightGBM並稱爲GBDT的三大主流神器,都是在

原创 與風熱型蕁麻疹大戰300回合

與風熱型蕁麻疹大戰300回合 注意:筆者是風熱型尋麻疹,一預熱就會發的全身都是,所以一定要保持涼爽的環境,一定不能洗熱水澡(誰家大冬天開着空調冷風?我家!) 還有一種是風寒型:一遇冷就發全身 一定要區分自己是那種!!! 症狀 病因

原创 《西安遊記》

西安遊記 時間 10.9-10.11三天 交通 北京往返高鐵 爲什麼選擇高鐵呢?因爲高鐵站有免費的核酸 關於48小時核酸 兵馬俑華清池西安博物館都需要48小時內的核酸檢測 會有專門的人員查時間是否在48h內 準備工作 核酸報告+西安一碼通+

原创 《這世界那麼多人》

很溫柔的一首歌歌詞如下: 這世界有那麼多人 人羣裏 敞着一扇門 我迷朦的眼睛裏長存 初見你 藍色清晨 這世界有那麼多人 多幸運 我有個我們 這悠長命運中的晨昏 常讓我 望遠方出神 灰樹葉飄轉在池塘 看飛機轟的一聲去遠鄉 光陰的長廊 腳步聲叫

原创 《盛夏未來》觀影筆記

《盛夏未來》觀影筆記 筆者並沒有看懂電影想講什麼。是筆者膚淺了,但是有幾句印象深刻的臺詞 或許我們都應該勇敢的面對自己,對自己誠實。 或許我們都應該接受自己喜歡的人不喜歡自己。 筆者是一個矛盾的個體:有時候羨慕年過半百超然灑脫的老人,因爲

原创 《情書》觀影筆記

電影《情書》觀後感 主人公 藤井樹女 藤井君 博子 樹是藤井君年少時候暗戀的對象,博子是藤井君長大後的未婚妻,劇中藤井樹女和博子是一個人扮演的。因爲年少時喜歡你,所以以後喜歡的人也一定是你的樣子。 年少時候的暗戀是非常的隱晦羞澀的,筆者看完

原创 hive中常見的時間函數

目錄 最近產品媽媽的一個需求是,統計近7天,近一個月,近6個月的用戶行爲次數?看上去是一個非常簡單的需求,一開始查函數查錯了方向 select current_date() # 當前時間 select current_date()-1 #

原创 深度學習中是否考慮過樣本量和參數的關係?

目錄在深度學習中,樣本量和參數有什麼關係呢?summary 在深度學習中,樣本量和參數有什麼關係呢? 是不是樣本量越大?參數越多?模型表現會越好? 參數越多自然想到可能會出現過擬合,樣本量與參數量應該保持怎樣的關係? 參考論文Scaling

原创 連續變量離散化的原因

連續變量爲啥要進行離散化 參考:https://www.cnblogs.com/wqbin/p/11087162.html 一、離散化原因 數據離散化是指將連續的數據進行分段,使其變爲一段段離散化的區間。分段的原則有基於等距離、等頻率或優化

原创 xgb和gbdt的差異

xgb和gbdt存在哪些差異 作者:wepon 鏈接:https://www.zhihu.com/question/41354392/answer/98658997 傳統GBDT以CART作爲基分類器,xgboost還支持線性分類器