原创 關於特徵選擇的一些思考

問1:特徵選擇的常用方法有哪些? 答1:信息增益、卡方、基尼係數、信息增益率 問2:信息增益的公式是什麼? 答2:IG(T)=H(C)-H(C|T) H(C)=-∑p(Ci)log(p(Ci)) H(C|

原创 文本特徵選擇

 在做文本挖掘,特別是有監督的學習時,常常需要從文本中提取特徵,提取出對學習有價值的分類,而不是把所有的詞都用上,因此一些詞對分類的作用不大,比如“的、是、在、了”等停用詞。這裏介紹兩種常用的特徵選擇方法: 互信息   一個常用的方

原创 關於基於成本定價的一些思考

問1:基於成本定價是怎麼做的? 答1:1)背景:有些訂單耗時長,成本高,但收取配送費少,這是不合理的。 2)難度定價邏輯:主要是對高成本訂單加價,一方面,減少其單量,調整訂單分佈;另一方面,增加其配送費收

原创 數據挖掘(機器學習)面試--SVM面試常考問題

應聘數據挖掘工程師或機器學習工程師,面試官經常會考量面試者對SVM的理解。 以下是我自己在準備面試過程中,基於個人理解,總結的一些SVM面試常考問題(想到會再更新),如有錯漏,請批評指正。(大神請忽視) 轉載請註明出處:blog.csd

原创 決策樹、邏輯迴歸、線性迴歸使用時注意事項以及模型過擬合策略

決策樹缺點和注意事項: 決策樹的最大缺點是原理中的貪心算法。因此它所做的選擇只能是某種意義上的局部最優選擇。若目標變量是連續變量,那麼決策樹就不使用了,改用迴歸模型若某些自變量的類別種類較多,或者自變量是區間型時,決策樹過擬合的危險會增

原创 關於智能IVR系統的一些思考

問1:先知項目是怎麼做的? 答1:1)背景:在京東呼叫中⼼心,客戶打通電話後,必須按相應數字鍵,會由匹配的POP客服或⾃自營客服對此客戶進⾏行服務。⼀一⽅方⾯面操作繁瑣,⽤用戶體驗差;另⼀一⽅方⾯面會有⼤

原创 關於惡意經銷商模型的一些思考

問1:惡意經銷商模型是怎麼做的? 答1:1)背景: 在618、雙11、國慶、元旦等重要節⽇日,電商會進⾏大量的促銷活動。⼀方⾯吸引⼤大量正常⽤用戶購買;但另⼀方⾯大量經銷商也在等待這個時機,進⾏行補貨,經

原创 關於看了還看推薦的一些思考

問1:看了還看是怎麼推薦的? 答1:1)數據過濾:對訪問頻次低於10次的url過濾,url數量減少到原來1/10 2)推薦產生:關聯規則計算置信度 3)優化1:關聯規則容易進行熱門推薦,使用jaccard

原创 邏輯迴歸 vs 決策樹 vs 支持向量機(II)

本文是該系列的第二篇,第一篇參見: 邏輯迴歸 Vs 決策樹 Vs 支持向量機: Part I. 在這篇文章,我們將討論如何在邏輯迴歸、決策樹和SVM之間做出最佳選擇。其實 第一篇文章已經給出了很好的回答,不過在這裏再補充一些。下面將繼

原创 關於關鍵詞抽取的一些思考

問1:關鍵詞提取是怎麼做的? 答1:1)topic主題詞抽取(lda)、詞位置信息的關鍵詞抽取(KE)、標題中的詞(title)、停用詞 2)按照策略選擇5個候選關鍵詞:主題詞+標題中的詞;KE+標題中的

原创 關於機器學習應用的一些思考

---------------------------------------------------------------------------------------- 問1:基於成本定價是怎麼做

原创 邏輯迴歸、決策樹和支持向量機(I)

分類問題是我們在各個行業的商業業務中遇到的主要問題之一。在本文中,我們將從衆多技術中挑選出三種主要技術展開討論,邏輯迴歸(Logistic Regression)、決策樹(Decision Trees)和支持向量機(Support Ve

原创 N問GBDT(1-12答案)

N問GBDT - 知乎專欄對其的部分答案,能力有限,非常希望各位博友指正 1. 怎樣設置單棵樹的停止生長條件? 答:A. 節點分裂時的最小樣本數 B. 最大深度 C. 最多葉子節點數 D. loss滿足約束條件 2. 如何評估特

原创 免費文獻下載

https://www.researchgate.net/directory/publications 百度學術

原创 特徵離散化解決非線性特徵問題

在實際工作中,需要使用譬如LR這種線性分類器的時候,往往需要將特徵離散化成0/1特徵,之後再進行模型訓練。 下面舉例說明原因: 我們假設決策面爲y=x^2,且模型是隻具有一維特徵x的線性模型,即模型的表達形式爲:y=kx+b,