台部落赵志雄

問1：特徵選擇的常用方法有哪些？答1：信息增益、卡方、基尼係數、信息增益率問2：信息增益的公式是什麼？答2：IG(T)=H(C)-H(C|T) H(C)=-∑p(Ci)log(p(Ci)) H(C|

2018-08-22 05:07:24

　在做文本挖掘，特別是有監督的學習時，常常需要從文本中提取特徵，提取出對學習有價值的分類，而不是把所有的詞都用上，因此一些詞對分類的作用不大，比如“的、是、在、了”等停用詞。這裏介紹兩種常用的特徵選擇方法：互信息　　一個常用的方

2018-08-22 05:07:24

問1：基於成本定價是怎麼做的？答1：1）背景：有些訂單耗時長，成本高，但收取配送費少，這是不合理的。 2）難度定價邏輯：主要是對高成本訂單加價，一方面，減少其單量，調整訂單分佈；另一方面，增加其配送費收

2018-08-22 05:07:24

應聘數據挖掘工程師或機器學習工程師，面試官經常會考量面試者對SVM的理解。以下是我自己在準備面試過程中，基於個人理解，總結的一些SVM面試常考問題（想到會再更新），如有錯漏，請批評指正。（大神請忽視）轉載請註明出處：blog.csd

2018-08-22 05:07:24

決策樹缺點和注意事項：決策樹的最大缺點是原理中的貪心算法。因此它所做的選擇只能是某種意義上的局部最優選擇。若目標變量是連續變量，那麼決策樹就不使用了，改用迴歸模型若某些自變量的類別種類較多，或者自變量是區間型時，決策樹過擬合的危險會增

2018-08-22 05:07:24

問1：先知項目是怎麼做的？答1：1）背景：在京東呼叫中⼼心,客戶打通電話後,必須按相應數字鍵,會由匹配的POP客服或⾃自營客服對此客戶進⾏行服務。⼀一⽅方⾯面操作繁瑣,⽤用戶體驗差;另⼀一⽅方⾯面會有⼤

2018-08-22 05:07:23

問1：惡意經銷商模型是怎麼做的？答1：1）背景：在618、雙11、國慶、元旦等重要節⽇日,電商會進⾏大量的促銷活動。⼀方⾯吸引⼤大量正常⽤用戶購買;但另⼀方⾯大量經銷商也在等待這個時機,進⾏行補貨,經

2018-08-22 05:07:23

問1：看了還看是怎麼推薦的？答1：1）數據過濾：對訪問頻次低於10次的url過濾，url數量減少到原來1/10 2）推薦產生：關聯規則計算置信度 3）優化1：關聯規則容易進行熱門推薦，使用jaccard

2018-08-22 05:07:22

本文是該系列的第二篇，第一篇參見：邏輯迴歸 Vs 決策樹 Vs 支持向量機: Part I. 在這篇文章，我們將討論如何在邏輯迴歸、決策樹和SVM之間做出最佳選擇。其實第一篇文章已經給出了很好的回答，不過在這裏再補充一些。下面將繼

2018-08-22 05:07:22

問1：關鍵詞提取是怎麼做的？答1：1）topic主題詞抽取（lda）、詞位置信息的關鍵詞抽取（KE）、標題中的詞（title）、停用詞 2）按照策略選擇5個候選關鍵詞：主題詞+標題中的詞；KE+標題中的

2018-08-22 05:07:21

---------------------------------------------------------------------------------------- 問1：基於成本定價是怎麼做

2018-08-22 05:07:20

分類問題是我們在各個行業的商業業務中遇到的主要問題之一。在本文中，我們將從衆多技術中挑選出三種主要技術展開討論，邏輯迴歸（Logistic Regression）、決策樹（Decision Trees）和支持向量機（Support Ve

2018-08-22 05:07:20

N問GBDT - 知乎專欄對其的部分答案，能力有限，非常希望各位博友指正 1. 怎樣設置單棵樹的停止生長條件？答：A. 節點分裂時的最小樣本數 B. 最大深度 C. 最多葉子節點數 D. loss滿足約束條件 2. 如何評估特

2018-08-22 05:07:20

https://www.researchgate.net/directory/publications 百度學術

2018-08-22 05:07:19

在實際工作中，需要使用譬如LR這種線性分類器的時候，往往需要將特徵離散化成0/1特徵，之後再進行模型訓練。下面舉例說明原因：我們假設決策面爲y=x^2，且模型是隻具有一維特徵x的線性模型,即模型的表達形式爲：y=kx+b，

2018-08-22 05:07:19