原创 LeetCode(No.747)--至少是其他數字兩倍的最大數

在一個給定的數組nums中,總是存在一個最大元素 。 查找數組中的最大元素是否至少是數組中每個其他數字的兩倍。 如果是,則返回最大元素的索引,否則返回-1。 示例 1: 輸入: nums = [3, 6, 1, 0] 輸出: 1

原创 特徵工程相關面試題以及參考答案

1、你是怎樣理解“特徵”? 特徵就是,於己而言,特徵是某些突出性質的表現,於他而言,特徵是區分事物的關鍵 2、給定場景和問題,你如何設計特徵?(特徵工程方法論) 基於人工經驗的特徵工程依然是目前的主流。 3、開發特徵時候做如何做數

原创 機器學習中常見的標準化和歸一化方法

特徵工程是機器學習中非常重要的一個環節,業內有句話是這麼說的 “ 數據決定了機器學習的上限,而算法和模型是逼近這個上限 ”。可見數據是機器學習的關鍵所在,而特徵工程就是處理數據,因此特徵工程的做的好壞往往直接影響了最終的結果。而特

原创 論文筆記《Influence Maximization: Near-Optimal Time Complexity Meets Practical Efficiency》

目錄摘要1、簡介2、前言2.1 問題的定義2.2 Kempe等人的貪心算法2.3 Borge等人的方法3、方法提出3.1 節點選擇3.2 參數估計3.3 合併4、擴展4.1 改進參數估計4.2 歸納到觸發模型參考資料 文章的基本邏

原创 sklearn學習之LR算法實踐

scikit-learn是python的一個機器學習算法集成模塊,功能強大,包含了常見的邏輯迴歸,決策樹,樸素貝葉斯,SVM等常見的機器學習算法。對於日常科研和工作上的處理,基本都可以滿足要求。 這裏,用最簡單的LR算法來做一下分

原创 pig腳本常見錯誤

1、ERROR org.apache.pig.tools.grunt.Grunt - ERROR 1200: String index out of range: 36 原因:結尾多了個空格 video_read_allnet =

原创 決策樹從原理簡述到面試詳細總結

0、背景 決策樹是機器學習、數據挖掘領域一個非常常用的算法,網上相關的資料也是一大堆,原理很容易理解,但是要真正熟練運用和領悟還是需要花點功夫。本人近期有過一些面試,因此針對性地複習了一下,這裏就總結一下決策樹的一些原理和麪試中遇

原创 LeetCode(No.718)--最長重複子數組

給兩個整數數組 A 和 B ,返回兩個數組中公共的、長度最長的子數組的長度。 示例 1: 輸入: A: [1,2,3,2,1] B: [3,2,1,4,7] 輸出: 3 解釋: 長度最長的公共子數組是 [3, 2, 1]。 說

原创 論文筆記《DeepWalk: Online Learning of Social Representations》

文章目錄摘要1、簡介2、問題定義3、學習社交表徵3.1 隨機遊走3.2 連接:冪定律(power laws)3.3 語言模型4、方法4.1 概覽4.2 算法:深度遊走4.2.1 *SkipGram*4.2.2 *Hierarchi

原创 Reverse Influence Sampling in Python(譯文)

影響最大化(IM)問題尋求網絡中的一組種子節點,以最大化通過在該種子集啓動的影響級聯激活的預期節點數。先前的文章比較了兩種IM算法Kempe等人(2003) 的Greedy算法和 Leskovec等人 的CELF算法(2007)。

原创 論文筆記《Entire Space Multi-Task Model An Effective Approach for Estimating Post-Click Conversion Rate》

論文下載鏈接 摘要 在工業級應用排序系統像推薦和廣告中,準確地估計後驗轉化率(CVR)是非常重要的。傳統的CVR建模採用了流行的深度學習方法,並且取得了非常不錯的效果。但是在實際應用中遇到了一些特定任務問題,使得CVR建模充滿挑戰

原创 論文筆記《Deep Interest Network for Click-Through Rate Prediction》

這篇文章是阿里18年發的,非常經典的一個模型。paper鏈接 摘要 點擊率預測是在線廣告等工業應用中的一項基本任務。 最近,已經提出了基於深度學習的模型,該模型遵循類似的Embedding&MLP範例。在這些方法中,首先將大規模稀

原创 Mac版Anaconda安裝lightgbm教程(吐血填坑記)

本文記錄一下自己的mac安裝lightgbm的過程,折騰一個多小時,終於弄好了。 step 1 brew安裝cmake, gcc插件 我之前安裝xgboost的時候已經安裝過着倆插件,沒安裝的同學按下面步驟操作即可 brew in

原创 論文筆記《Modeling Task Relationships in Multi-task Learning with Multi-gate Mixture-of-Experts》

論文鏈接 MMoE 1、摘要 基於神經網絡的多任務學習已經在實際場景如推薦系統中有了大規模應用,例如在電影推薦中,除了要給用戶推薦他們可能購買或者觀看的電影,還要考慮用戶後續對這部電影的評價。通過多任務學習,我們的目標是利用一個模

原创 sklearn學習之XGBoost算法實踐

xgboost是陳天奇大神搞出來的大殺器,我在mac上費老半天勁還沒安裝好,查了各種安裝教程,後來找到一個一句話安裝,另一個大殺器anaconda,真香~ 安裝好之後就直接用,xgboost是gbdt的升級版,性能更強大,可以並行