原创 Collaborative Filtering根據近鄰推薦時需要考慮的3要素

Collaborative Filtering根據近鄰推薦時需要考慮的3要素 在使用類似於item-based 或user-based collaborative filtering構建推薦策略時,會涉及以下3個因素:

原创 關鍵詞推薦系統架構

在百度做關鍵詞推薦系統3年多, 以前更多是從工程, 以及解決用戶需求的角度去考慮系統的實現。 大概一年前開始系統地學習業界推薦系統相關的內容並對照自己手頭的工作。 當時就畫了以下系統結構圖, 算是對百度關鍵詞系統(KR: Keyword

原创 -審官

正文如下:     夫設官分職,所以闡化宣風。故明主之任人,如巧匠之制木,直者以爲轅,曲者以爲輪;長者以爲棟樑,短者以爲栱角。無曲直長短,各有所施。明主之任人,亦由是也。智者取其謀,愚者取其力;勇者取其威,怯者取其慎,無智、愚、

原创 google youtube 電影推薦算法

google youtube 電影推薦算法 在面試實習生的時候,我有個習慣,就是面試快結束的時候,會像聊天一樣和麪試的學生聊一下他們對某個技術方向的看法。很多時候不是期望他們能提供什麼靈感,也不期望能聊出太多結果,更多的

原创 特定場景的Cralwer

有時也叫Crawler。 今天整理電腦文檔的時候發現很早09年初自己寫的一個crawler的設計文檔, 打開這個50多頁的文檔,裏邊N多的邏輯圖及規範定義的數據結構, 才覺得真的好久沒有見過寫得那麼規範的文檔了(也許有點自誇, 或者碼

原创 Google experiment infrastructure 閱讀心得

背景 Google 的文化就是數據驅動:不停實驗,不斷得到實驗結果進行分析並進行改進,這樣就會導致所有R&D(Researcher&Developer)都會有不斷實驗的衝動和需求。這就對實驗框架提出了文中重點描述的三個需求: 1.    

原创 選擇推薦算法時需要考慮得因素

推薦系統涉及到前端交互設計,後臺算法選取優化, 所以在設計推薦系統時,不能單純使用accuracy對推薦效果進行衡量,需要根據推薦系統的具體應用場景,使用對象,解決的問題使用多指標對其進行衡量。而且很多時候這些指標都是一個上漲其他跌,需

原创 分類模型在關鍵詞推薦系統中的應用

以下內容均基於百度關鍵詞推薦系統進行討論 本文內容主要集中在使用機器學習方法判斷兩個短文本的相關性爲基礎構建商業關鍵詞推薦系統。 爲方便讀者理解, 會先介紹該技術的具體應用背景及場景。 廣告主在百度或google上進行廣告投放時

原创 使用impurity選擇樹模型拆分節點

在近期的項目中經常會使用到連續值模型以提升模型效果。 例如在項目初期, 訓練數據準備OK後,就會使用原有的LR模型初步訓練model看實際的效果, 同時因爲連續值模型, 特別是樹類模型已經在其他項目中應用並取得較好的效果, 所以我們也會

原创 PageRank的經濟學效用解釋

google大名鼎鼎的pagerank算法大家都耳熟能詳,基本的思路就是: 網頁的重要性由指向該網頁的鏈接,及指向網頁的重要性決定。 那從經濟學的角度, 背後隱藏的深層含義是什麼呢?  說簡單點,就是‘具有流動性的市場對商品價值的客觀

原创 經典聚類算法及在互聯網的應用

此處並不會列舉每一種聚類(Clustering)算法,因爲學術界Clustering算法如果真要細分,還真有很多變種。此處只會介紹幾種在我近幾年互聯網工作生涯中實際碰到的具體問題, 以及如何使用Clustering算法解決這些問題。

原创 搜索引擎點擊日誌聚類實現相關搜索

組裏經常招實習生, 在技術問題問得差不多的時候, 我經常會問他們一個問題:‘百度的相關搜索,你會如何設計實現?’   主要想看下實習生會有哪些思路,看看思路是否廣,方法是否多, 沒有啥方法的話, 我會提示下,看他是否能夠一些思路。 其

原创 推薦系統中的相似度度量

推薦系統中的相似度度量 相似度計算是數據挖掘,推薦引擎中的最基本問題,例如在推薦系統(Recommender Systems,簡稱RSs)中計算帶推薦物品(Item)相似度,或是用戶(User)之間的相似度以期獲得興趣口味(

原创 adaboost

使用機器學習方法解決問題時,有較多模型可供選擇。 一般的思路是先根據數據的特點,快速嘗試某種模型,選定某種模型後, 再進行模型參數的選擇(當然時間允許的話,可以對模型和參數進行雙向選擇) 因爲不同的模型具有不同的特點, 所以有時也會將

原创 google的商業產品之路

google的商業產品之路 之前公司從google總部招了一個經驗非常豐富的PM。入職後就請他給大家爲大家佈道google的商業產品推進的方法。 聽了之後感觸頗多, 在此與記錄並與大家分享(因爲自己也是學習別人在google的經