原创 廣告特徵提取

在預估ctr的過程中,理論上是應該有這麼幾類特徵信息: 用戶的信息(用戶輸入的query,包括用戶的年齡,消費水平,歷史操作行爲) 廣告的特徵(商品item的屬性,item的流行度,廣告商的評級等等) 歷史的反饋特徵(利用歷史記錄中

原创 A Neural Probabilistic Language Model筆記

本文是個人筆記,lz才疏學淺,有什麼理解不到位的地方歡迎各種拍 . 理解簡述: 其本身是語言模型,爲了驗證或者說是預測一句話最可能的表達,在預測的過程中產生word embedding 矩陣,在輸入層中將詞映射爲一個m列的向量,也即詞的

原创 距離和相似度度量的區別和聯繫

距離和相似度度量   在數據分析和數據挖掘的過程中,我們經常需要知道個體間差異的大小,進而評價個體的相似性和類別。最常見的是數據分析中的相關分析,數據挖掘中的分類和聚類算法,如K最近鄰(KNN)和K均值(K-Means)。當然衡量

原创 基於IRT和CRT的試題難度計算控制算法

目前, CAT(Computer aided test, 計算機輔助測試系統) 試卷模式中試題難度分佈設計的核心思想,主要根據難度分佈應該是正態分佈函數來進行假設的。而難度在教育心理學中的定義大致有兩類,一類是分數度量,即將考生的結果分

原创 hive udf添加永久生效三種方法

1.在$HIVE_CONF_DIR/下添加文件.hiverc 在文件中添加udf函數 add  jar  ***.jar create temporary funcation **** as *** 2.在hive-env.sh配置文件

原创 Windows環境下eclipse提交到遠程wordcount程序報錯 at org.apache.hadoop.util.Shell.runCommand(Shell.java:545)

遠程hadoop2.7,本地的windows7 程序報錯如下: 2015-09-28 22:04:21,423 WARN  [main] util.NativeCodeLoader (NativeCode

原创 ALS ,ALS-WR算法1

 做推薦項目用到的算法及相關: 總結資料:     轉載鏈接 原理介紹:https://github.com/ceys/jdml/wiki/ALS針對wiki中的公式顯示整理:http://www.fuqingchuan.com/201

原创 K近鄰,kd樹

k近鄰是不具有顯式的學習過程,是簡單的分類迴歸算法 k近鄰三個重要的因素:距離計算,k值的選擇,分類規則 距離計算 例子: k值的選擇 在應用中k一般取比較小的值,通常採用交叉驗證來選取最優的k。 分類決策規則 kd樹

原创 程序化廣告交易中的點擊率預估 CRT

程序化廣告交易中的點擊率預估 指標 廣告點擊率預估是程序化廣告交易框架的非常重要的組件,點擊率預估主要有兩個層次的指標: 1. 排序指標。排序指標是最基本的指標,它決定了我們有沒有能力把最合適的廣告找出來去呈現給最合適的用戶。這個是變

原创 hadoop2.*能力調度器capacity-scheduler

capacity-scheduler能力調度器 1.  添加用戶組dwgroup(集羣中的namenode主備機器都要做以下操作) groupadd dwgroup           //添加用戶組 useradd -G  dwgro

原创 eclipse遠程提交scala到spark集羣問題

程序代碼查看鏈接 http://www.aboutyun.com/thread-8404-1-1.html 整合上面鏈接中的代碼,提交計算hdfs上的文件中單詞數量 問題日誌: 16/03/29 16:50:59 INFO Bloc

原创 廣告學流量預算

平滑資料整理: 實現中的一些可能問題: 冷啓動: 初期的數據不全,導致無法制定合理計劃;這可以通過數據積累,或者調整預測的節奏和步伐,進行一定程度的緩解。 效果評測:作爲廣告平臺來說,可以參考整體的CPC的變化趨勢,是否比