推薦算法（三）基於標籤的算法--CTR預估

原創

ElsaRememberAllBug

2020-07-06 07:24

1、在工業界，數據量非常大，如果用pandas讀入，雖然方便後續數據操作，但佔用內存過多。工業界一般存儲稀疏數據用LIBSVM。

2、在進行建模前，先進行探索，刪除髒數據，分析下各個特徵的初步效果；對不均衡的樣本，下采樣，然後有多個分類器，通過bagging合併。

3、在排序ranking場景下，評估指標經常是AUC

4 時間預處理：映射爲不同的時間段

5、如果某一列的類別太多，（1）先做聚類；（2）離散化

6、每個值出現的頻次比較重要，對於頻次較低，觀察低頻數值，（1）離羣點，（2）作爲rule ，（3）把低頻的合在一起作爲一列

7、大規模數據藉助spark，MLlib and pipeline,利用pyspark

8、模型融合，每個模型預測的結果作爲輸入，訓練一個線性的model，得到每個的權重

9、svd feature

10、特徵組合後，（1）非常稀疏，（2） $C^{_{n}^{2}}$ ,特徵數量急劇膨脹，是o( $n^{2}$ )，,帶來的問題：內存需求變大，樣本量太少導致不足模型不準

解決方案：FM，FFM

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Python函數與模塊的精髓與高級特性

本文分享自華爲雲社區《Python函數與模塊的精髓與高級特性》，作者：檸檬味擁抱。 Python 是一種功能強大的編程語言，擁有豐富的函數和模塊，使得開發者能夠輕鬆地構建複雜的應用程序。本文將介紹 Python 中函數和模塊的基本使用方法，

2024-05-14 11:00:07

利用pyinstaller打包Python程序爲一個可執行文件

有時，Python發佈的程序需要被打包爲一個文件夾、甚至一個文件發佈。目前（2020）最佳的策略是使用pyinstaller。 pyinstaller不僅支持打包整個運行環境到一個可執行文件，而且還支持加密。但唯一的問題是，必須依賴

2024-05-14 02:04:34

做開發我是認真的！要麼不做，要麼全力以赴 | 每日趣聞

戳一戳小程序查看更多！往期趣聞 ☞你拖後腿了嗎？11 月份程序員工資出爐~ | 每日趣聞 ☞計算機專業會修電腦實錘！| 每日趣聞 ☞IT 行業這麼廣，你的職業規劃是什麼？| 每日趣聞 ☞奔潰啦~希望 Python 可

2024-05-14 01:47:34

anaconda和pycharm區別是什麼?Python學習!

　　學習Python的人，肯定聽說過anaconda和pycharm，但是很多人傻傻分不清楚它們之間有什麼區別，今天小編帶大家好好了解一下。　　Anaconda：　　是一個Python發行版，包含了conda、Python等180多個

2024-05-14 01:47:30

Python爬蟲進階必備 | MD5 hash 案例解析彙總（一）

上次鹹魚對關於 MD5 hash 的JS加密方法做了總結，這次把鹹魚遇到的 MD5 hash 的案例做了彙總，這個彙總系列會持續更新，攢到一定數量的網站就發一次。關於 MD5 HASH 的處理可以參考下面這篇文章： Python爬蟲進

2024-05-14 01:40:15

爲程序員和新手準備的 8 大 Python 工具

Python 是一種開源編程語言，用於 Web 編程、數據科學、人工智能和許多科學應用。學習 Python 使程序員能夠專注於解決問題，而不是專注於語法，其豐富的庫賦予它完成偉大任務所需的力量。 1) IDLE 安裝 Python 時

2024-05-14 01:06:43

【編測編學】自動化測試面試必背（上）

1、你會封裝自動化測試框架嗎？這個問得最多，甚至有很多公司直接寫在招聘要求中。自動化框架主要的核心框架就是分層+PO模式：分別爲：基礎封裝層BasePage，PO頁面對象層，TestCase測試用例層。然後再加上日誌處理模塊，ini配置文

2024-05-14 00:41:23

樹莓派真是個讓人慾罷不能的“小妖精”

大晚上不睡覺、枸杞泡起來@我一個月之前、自從入了樹莓派4b 8g板之後、就無法自拔，上班除了開發業務代碼和搭建內部UI組件庫之外，就是不亦樂乎的學習docker、mysql、mongodb、php、python、frp等，採購了阿里雲E

2024-05-14 00:37:28

用python畫出全球疫情趨勢變化圖

前言文的文字及圖片來源於網絡,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯繫我們以作處理。作者：謙睿科技 PS：如有需要Python學習資料的小夥伴可以加點擊下方鏈接自行獲取http://t.cn/A6Z

2024-05-14 00:03:10

複雜嵌套字典數據結構處理庫-glom

經常遇到複雜嵌套字典數據，我們都是這麼寫的 data = {'a': {'b': {'c': 'd'}}} print(data['a']['b']['c']) 'd' 然後經常遇到這個bug data2 = {'a': {'b':

2024-05-13 22:58:14

我宣佈，這是我找到的史上AI最全論文體系！

在碎片化閱讀充斥眼球的時代，越來越少的人會去關注每篇論文背後的探索和思考。搞AI，不少人都進入一個誤區，那就是隻鑽研自己的代碼是否精進，而沒有注意提升自己的閱讀能力。實際上，一個專業的學術研究員或者AI研究員可能需要花費幾百個小

2024-05-13 21:33:50

OpenCV入門基礎操作（一）----圖像的讀取、顯示與保存

OPENCV入門基礎操作（一）圖像的處理讀入圖像顯示圖像保存圖像直接上整體代碼示例圖像的處理剛開始學習opencv 圖像處理，希望能夠多多提出寶貴意見，我也在一步一步地學習下去。堅持！這一講主要就是一

2024-05-13 21:17:21

安裝Auto-GPT

安裝 Python 3.8 或更高版本 https://phoenixnap.com/kb/how-to-install-python-3-ubuntu # 查看是否已經安裝了python python --version #更新包 sud

2024-05-12 22:43:51

雲效 Pipeline as Code 來了！這些場景，用好它效率翻倍！

從可視化編排到支持 YAML 編排雲效流水線 Flow 是開箱即用的企業級持續集成和持續交付工具，支持豐富的代碼源、構建、自動化測試工具、多種部署類型和部署方式，與阿里雲深度集成，還提供多種企業級特性，助力企業高效完成從開發到上線 CIC

2024-05-11 21:15:05

通義靈碼企業版正式發佈，滿足企業私域知識檢索、數據合規、統一管理等需求

5 月 9 日阿里雲 AI 峯會，阿里雲智能集團首席技術官周靖人宣佈，通義靈碼企業版正式發佈，滿足企業用戶的定製化需求，幫助企業提升研發效率。通義靈碼是國內用戶規模第一的智能編碼助手，基於 SOTA 水準的通義千問代碼模型 Code-Qw

2024-05-11 21:15:01

24小時熱門文章

最新文章

最新評論文章