YoutuBe 是如何利用深度學習解決搜索推薦問題的？ (一) - 論文翻譯

總述：這篇文章是先從論文翻譯入手，講解下 YoutuBe 裏面是如何利用深度學習做搜索推薦的。YoutuBe 的這篇文章基本上是深度學習做搜索推薦的一篇“鼻祖”文章，在那年提出來這個之後，有很多公司都在這個基礎上去試驗新的辦法（比如阿里的DIN，就是以這個爲 baseline 作爲效果對照標準），或者直接採納爲公司裏面的線上模型方法。

本文先從論文翻譯入手，後續還會給出源碼理解、以及博主的實踐理解

題目：YouTube的深度學習推薦算法

原文鏈接：https://static.googleusercontent.com/media/research.google.com/zh-CN//pubs/archive/45530.pdf

摘要：

YouTube的推薦技術是現存規模最大，最複雜的工業推薦系統之一。在本文中，我們將對這個系統進行高級描述，並重點介紹深度學習帶來的顯着性能改進方法。本文按照經典的兩階段信息檢索二分法進行劃分：首先，我們詳細介紹了一個深度候選生成模型，然後描述了一個單獨的深度排序模型。我們還提供實踐經驗和自己的見解，這些經驗教訓和見解源於設計、迭代和維護一個具有巨大用戶的大型推薦系統。

1.引言

YouTube是世界上最大的創建、共享和發現視頻內容的平臺。 YouTube推薦系統有助於幫助超過10億用戶，從不斷增長的視頻中發現個性化內容。在本文中，我們將重點介紹最近對YouTube視頻推薦系統進行的深度學習。圖1顯示了YouTube移動應用主頁上的頁面。

從三個主要方面推薦YouTube視頻極具挑戰性：

規模：許多現有的推薦算法能夠很好地解決小問題，但是對我們的數據、問題規模無法正常運作。高度專業化的分佈式學習算法、以及高效的服務系統對於處理至關重要YouTube龐大的用戶羣和語料庫非常有必要。

新鮮度：YouTube有一個非常動態的語料庫，每秒上傳許多小時的視頻。該推薦系統應該足夠的響應能力，對於用戶新上傳的內容以及用戶採取的最新操作，需要有有良好的處理能力，也能平衡新內容，還可以從中瞭解完善的視頻探索/開發的觀點。

（圖1：YouTube移動應用程序主頁上顯示的推薦內容）

噪音：由於稀疏性和各種不可觀察的外部因素，用YouTube上的歷史用戶行爲來進行建模，本身是很難預測的。我們很少獲得用戶滿意度的基本事實模型噪聲隱式反饋信號。此外，與內容相關聯的元數據結構不良沒有明確定義的本體論。我們的算法需要要堅定我們的這些特點來訓練數據。

與Google的其他產品領域相結合，幾乎在所有的學習問題中，YouTube已經經歷了將深度學習作爲通用解決方案的基本模式這個轉變。我們的系統建立在Google上Brain [4]最近開源爲TensorFlow [1]。TensorFlow爲實驗提供了靈活的框架，使用大規模分佈式訓練的各種深度神經網絡架構。我們的模型大致瞭解十億個參數，並接受數千億個樣本的訓練。

與矩陣分解方法[19]中的大量研究相比，使用深度學習的工作相對較少被用在推薦系統中。神經網絡用於在新聞中做推薦[17]，在[8]中被引用，並在[20]中的用於評級。協同過濾在[22]和自動編碼器中被公式化並被用在深度神經網絡[18]。 Elkahky等人，把這種方法用於跨領域的深度學習用戶建模[5]。在基於內容的環境中，Burges等人，使用深度神經網絡進行音樂推薦[21]。

本文的結構如下：在第2節中簡要介紹系統概述。第3節更詳細地描述了候選視頻生成模型，包括如何訓練並怎麼用於系統進行提供建議。實驗結果將展示模型如何從隱藏的深層中受益單位和其他異構信號。第4節詳細描述排名模型，包括經典邏輯迴歸，如何被修改以訓練預測預期觀看時間的模型（而不是點擊概率）。實驗結果會表明隱藏層在這種情況下也很有用。最後，第5節介紹了我們的結論和從訓練中學到東西。

2.系統概述

我們的推薦系統的總體結構如圖2所示。該系統由兩個神經系統組成網絡：一個用於召回，一個用於排名。

候選生成網絡把用戶在YouTube中的活動歷史記錄作爲輸入，並檢索來自大型語料庫的小部分（數百）視頻。這些候選視頻通常與用戶相關性很高。僅候選生成網絡僅僅通過協作過濾提供召回結果。用戶之間的相似性以粗略表示功能，如觀看視頻的ID，搜索詞和統計值。

要想在候選列表中提出一些“最佳”建議，需要一個高水平的表達，以便用來在高度召回的結果中區分相對重要的候選結果。rank model使用豐富的一組描述視頻和用戶的特徵，再結合完成此任務所需的目標函數，來爲每個視頻打一個分數。得分最高視頻呈現給用戶，按其分數排名。

推薦系統的兩階段方法（召回粗排、然後再精排）允許我們從一個非常大的語料庫（數百萬）提出可能建議的視頻，而且這些數量不多的推薦結果是個性化的，並且對用戶有吸引力。此外，這種設計可以實現把從其他來源產生的候選集混合起來，例如早期作品[3]中描述的候選集。

在開發過程中，我們廣泛使用離線指標（precision, recall, ranking loss, 等）來迭代改進我們的系統。然而，爲了最終確定算法或模型的有效性，我們在線實驗中 AB測試。在在線實驗中，我們可以測量點擊率的細微變化，觀看時間以及衡量用戶參與度的許多其他指標。這很重要，因爲實時A / B結果是並不總是與離線實驗相關聯。

3.候選生成

在候選集生成期間，巨大的YouTube語料庫可能被淘汰到只有數百個視頻與用戶相關。這裏描述的推薦器的前身是一個基於rank loss的矩陣分解方法[23]。我們的神經網絡的早期迭代模型用淺層網絡來模仿這種因式分解行爲，僅用戶嵌入向量表達用戶之前觀看過的數據。從這個角度來看，我們的方法可以被視爲分解技術的非線性推廣。

3.1多分類的推薦系統

我們提出將多分類作爲推薦辦法，通過分類一個特殊的視頻集合，預測問題會變得很準確，基於用戶U和來自語料庫V的視頻i（類）上下文C，預測問題在數百萬個video之間，在時間t準確地對特定視頻打上權重進行分類

其中u∈R的N次方(全集合空間)，是用戶向量，通過輸入用戶信息和上下文信息給上面模型架構訓練得到，vj∈R的N次方代表每個候選視頻嵌入向量(採用word embedding 的方式計算出每個視頻的 embedded 向量)。在此設置中，一個嵌入向量是一個簡單的映射關係，映射稀疏實體（單個視頻，用戶等）進入到R後，形成密集向量N。深層網絡的任務是把用戶向量，當做用戶的歷史記錄和上下文來學習，可在具有softmax分類器的視頻中用於區分。

儘管YouTube上存在明確的反饋機制（拇指向上/向下，產品內調查等），但我們使用隱式反饋[16]來訓練模型，用戶完成視頻的觀看是一個正例。此選擇基於更多數量級的隱含的用戶歷史記錄，允許我們在顯式反饋非常稀疏的情況下給出更好的推薦結果。

高效的極端多類
爲了有效地訓練具有數百萬個類的這種模型，我們依靠一種技術從正負分佈中採樣負類（“候選採樣”），然後通過重要性加權來校正這種採樣[10]（importance weighting的方式）。對於每個示例，對於真實標籤和採樣的負類標籤，都用交叉熵損失最小化作爲損失。在實踐中，對幾百個負片進行採樣，相當於傳統softmax速度的100倍以上。一種流行的替代方法是分層softmax [15]，但我們無法達到相當的準確度。在分層soft-max中，遍歷樹中的每個節點涉及區分通常不相關的類集，這使得分類問題更加困難並且性能降低。

在線上serving時，我們需要計算最可能的N類（視頻），以便選擇要呈現給用戶的前N個。在數十毫秒的預估等待時間內，對數百萬項視頻item進行評分，需要在類的數量上採用近似的評分方案。 YouTube以前的系統依賴於hash[24]，這裏描述的分類器使用類似的方法。由於在serving時不需要來自softmax輸出層的校準似然，因此評分問題減少到可以使用通用“所有視頻item”的點積空間中的最近鄰搜索[12]（也就是點積的辦法，在所有視頻向量中，尋找與u點積最大的前N個視頻向量”的搜索問題）。我們發現A / B結果對最近鄰搜索算法的選擇不是特別敏感。

3.2模型架構

受"詞袋"語言模型的啓發[14]，我們爲每個視頻學習高維嵌入固定詞彙並將這些嵌入提供給前饋神經網絡。一個用戶的觀看歷史，通過可變長度的稀疏視頻ID序列來進行表達，然後通過嵌入映射到密集矢量進行表示。網絡需要固定大小的dense輸入，簡單地通過比如平均的辦法，將這些稀疏向量進行處理（sum，component-wise max等）。重要的是，這些嵌入向量，是與所有其他模型參數通過正常梯度下降反向傳播來更新，所以向量也在不斷的學習中。所有的特徵在第一層拼接後給輸出進來，然後是幾層全連接層（ReLU）[6]。圖3顯示了一般情況這樣一種網絡架構。

圖3：圖3：深度候選生成模型體系結構，展現了嵌入的稀疏特徵、和dense的特徵如何相連起來。在連接之前對嵌入進行平均以轉換可變大小的稀疏I序列，到適合輸入隱藏層的固定寬度矢量。所有隱藏層都全連接層。在在訓練中，梯度下降的目標是交叉熵損失最小化，輸出端是採樣的softmax的輸出。在serving中，執行近似最近鄰查找以生成數百個候選視頻的召回。

3.3異構信號

使用深度神經網絡作爲矩陣分解的一個關鍵優勢是，任意連續和分類特徵可以很容易地添加到模型中。搜索歷史記錄、與觀看歷史記錄的處理方式幾乎一致，每一個query詞被標記爲unigrams和bigrams，並且每個標記都被embedding化。平均後，用戶的向量化query，表徵成一個一個相加起來的稠密search歷史序列。用戶統計特徵對於提供先驗數據而言，對新用戶進行推薦來說非常有用。用戶的地理區域和設備這兩個特徵也都被embedding化，並且加到輸入第一層的向量裏面裏面去。簡單的類別特徵、連續特徵（比如說用戶的性別，登錄狀態和年齡）等被直接歸一化爲[0,1]區間，然後輸入到網絡中作爲實際值特徵。

示例下年齡這個特徵的做法：
YouTube上每秒會上傳許多小時的視頻。推薦最近上傳（“新鮮”）內容對於YouTube來說非常重要。不過，我們始終注意到用戶更喜歡新鮮內容，甚至和用戶以往的觀看類型不太一樣。除了在首位推薦用戶想要觀看的新視頻這個點要注意，有一個關鍵的次要現象，那就是用戶經常觀看的類別的視頻，和一些傳播的很熱門的內容[11]。

機器學習系統通常表現出隱含的偏見，這些偏見是用戶過去的習慣，因爲系統就是用過去已經發生的數據來訓練的。視頻的流行度是非常不穩定的，但我們的推薦人在多達幾周的訓練窗口期間，將會反應出來一些平均觀看行爲的現象。爲了糾正這個問題，我們加了一個上傳時間長短特徵。在線上預估的是，把這個特徵設置成0（或者很小的負數），使得這個特徵在線上預估時不起作用，這就是典型的position bias，感興趣的讀者可以看我對這方面做得兩個研究。

圖4展示了，在任意選擇的視頻中這種方法的有效性[26]。

3.4 label和上下文選擇

重要的是要強調該"推薦結果"能解決代理問題，並將結果轉移到特定環境下。一個典型的例子是準確預測電影的評價，以致於能夠對電影進行有效的推薦[2]。我們發現，這種問題下，通過對A / B測試性能具有極大的重要性，但很難通過離線實驗來衡量。

所有YouTube的觀看歷史（甚至是嵌入在其他網站上的觀看歷史）都會生成訓練樣本，而不僅僅是用我們自己平臺上產生的數據。否則，新內容將難以浮出水面，而推薦者將過度偏向於我們公司的算法工程師推薦的結果。如果用戶通過我們的推薦結果以外的方式看了其他視頻，我們希望能夠通過協作過濾將此發現快速傳播給其他人。改進實時指標的另一個關鍵方式是爲每個用戶生成固定數量的訓練樣本，從而在損失函數中有效地加權我們的用戶。這阻止了一小羣高度活躍的用戶主導損失。

有點違反直覺，必須非常小心地從分類器中隱瞞一些信息，以防止模型利用網站的結構並過度擬合問題。以用戶剛剛發出“tay-lor swift”搜索查詢的情況爲例。由於我們的問題是預測下一個觀看的視頻，給定此信息的分類器將預測最有可能觀看的視頻是出現在相應搜索結果頁面上的“tay-lor swift”的視頻。毫無疑問，再現用戶的最後一個搜索頁面作爲主頁推薦表現非常糟糕。通過丟棄序列信息並用無序的query詞組成的新query，來表示搜索查詢，分類器不再直接知道標籤的來源。

視頻的自然消費模式通常會導致非常不對稱的共同觀看概率。劇情繫列通常是按順序觀看的，用戶經常會從最廣泛的流行開始，發現一種類型的藝術家，然後再關注較小名氣的人。因此，我們發現預測用戶下一個watch視頻的性能要好得多，而不是預測隨機的watch視頻（圖5）。許多協作過濾系統，從隨機的一些item中提取label和上下文，然後藉助用戶歷史行爲來進行預測（5a）。這會泄漏未來信息，並忽略任何不對稱的觀看模式。相比之下，我們通過選擇隨機視頻來“回滾”用戶的歷史記錄，並且僅保留視頻label（5b）之前用戶輸入所採取的動作。

3.5 特徵和深度的實驗

如圖6所示，添加特徵，和增加深度可顯著提高預測數據的準確性。在這些實驗中，嵌入了1M大小視頻和1M大小的搜索詞彙表，每個最多包含50個最近觀看的視頻id、50個最近搜索詞，每個用256個浮點數表示。softmax層在這1M視頻類上輸出多項分佈，其尺寸爲256（可以將其視爲單獨的輸出視頻的embedding表達）。這些模型經過訓練，直到與所有YouTube用戶融合，將整個數據多過幾個epoch。網絡結構遵循一個共同的“塔”模式，其中網絡的底部最寬，每個連續的隱藏層將單元的數量減半（類似於圖3）。深度0層網絡實際上是線性分解方案，其執行與前一系統非常相似。不斷的增加寬度和深度，增加收益會越來越難，並且收斂變得困難：

Depth 0: 線性層簡單地轉換連接層以匹配256的softmax維度
Depth 1: 256 ReLU
Depth 2: 512 ReLU → 256 ReLU
Depth 3: 1024 ReLU → 512 ReLU → 256 ReLU
Depth 4: 2048 ReLU → 1024 ReLU → 512 ReLU → 256 ReLU

圖6：視頻嵌入之外的特徵改進了保持平均精度（MAP），深度層增加了表現力，因此模型可以通過模擬它們的交互來有效地使用這些附加功能。

圖5：爲模型選擇標籤和輸入上下文對於離線評估具有挑戰性，而且對實時性能有很大影響。在這裏，solid events 是網絡的輸入特徵，而hollow events 被排除在外。我們發現預測未來的watch視頻（5b）在A / B測試中表現更好。在（5b）中，視頻上傳時間長短表示爲tmax-tN，其中tmax是訓練數據中的最大觀察時間。

4：排名

排名的主要作用是使用印象數據來專門化和校準特定用戶界面的候選預測。例如，用戶可能一般以高概率觀看給定視頻，但由於縮略圖圖像的選擇而不太可能點擊特定主頁。在排名期間，我們可以得到更多描述視頻的特徵、以及用戶與視頻的關係特徵，因爲最終只能推薦幾百個視頻，也就只有幾百個視頻得分，而不是在候選代中得分的數百萬。排名對於對不能直接比較的不同候選來源進行整合也至關重要。

我們使用具有類似架構的深度神經網絡，來候選生成這幾百個item，使用邏輯迴歸爲每個視頻進行打分（圖7）。然後按該分數對視頻列表進行排序並返回給用戶。我們的最終排名目標是根據實時A / B測試結果不斷調整，但通常是看每次展示的預期觀看時間，這樣一個簡單函數。按點擊率排名通常會促使用戶無法完成整個觀看，造成一些欺騙性視頻（“clickbait”），而觀看時間更能捕捉參與度[13,25]。

4.1特徵表示

我們的特徵與傳統的分類和連續/序數特徵分類相隔離。我們使用的分類特徵在其基數上變化很大 - 一些是二進制的（例如，用戶是否登錄），而另一些則具有數百萬個可能的值（例如用戶的最後一個搜索查詢）。根據特徵是僅貢獻單個值（“one-hot”）還是一組值（“multi-hot”）進一步劃分功能。舉一個前面說的one-hot類型特徵的，正在評分的印象的視頻ID，而相應的多價特徵可能是用戶觀看的最後N個視頻ID的bag。我們還根據功能是描述項目的屬性（“印象”）還是用戶/上下文的屬性（“查詢”）來對功能進行分類。每個請求計算一次查詢功能，同時爲每個item計算壓縮功能。

圖7：深度排名網絡體系結構，描述嵌入式分類特徵（包括one-hot和multi-hot），具有共享embedding向量和規範化連續特徵的功能。所有層都完全連接。在實踐中，數百個特徵被饋送到網絡中。

特徵工程

我們通常在排名模型中使用數百種特徵，大致在分類和連續之間分配。儘管有望用深度學習的辦法減輕工程特徵的負擔，但我們的原始數據的本質並不容易直接輸入到前饋神經網絡中。我們仍然花費大量的工程資源將用戶和視頻數據轉換爲有用的特徵。主要挑戰在於表示用戶行爲的幾個序列、以及這些行爲、如何與正在評分的視頻相關聯。

我們觀察到最重要的信號是描述用戶之前與item本身和其他類似item的交互的信號，這個經驗與其他人在排名廣告中的經驗相類似[7]。例如，考慮用戶過去使用上傳視頻得分的頻道的歷史記錄 - 用戶在此頻道觀看的視頻數量是多少？用戶最後一次觀看有關此主題的視頻是什麼時候？描述過去用戶對相關項目的操作的這些連續功能特別強大，因爲它們可以在不同的項目中很好地概括。我們還發現，將召回視頻的排序結果當成特徵是至關重要的，例如：這個視頻候選是來自哪個來源？他們分配了什麼分數？

描述過去視頻頻率的特徵，對於在推薦中引入“流失”也是至關重要的（如果用戶連續請求的話，就不會返回相同的列表，這就叫做負反饋）。如果用戶最近推薦了一個視頻，但沒有觀看，那麼該模型會在下一頁加載時自然降低這種視頻的排名。提供最新的印象和觀看歷史是本文範圍之外的工程專長，但對於製作響應性建議至關重要。

嵌入類別功能

與候選生成類似，我們使用嵌入方法，將稀疏的類別特徵映射到適合神經網絡的dense表示，也就是將一連串的類別特徵表徵成一個比如128維度的特徵。每個唯一的ID空間（“詞彙表”）都有一個單獨的學習嵌入，其維度大致與這個特徵去重後的數量的對數成比例增加。這些詞彙表是通過在訓練之前過了一遍訓練集而建成的一個look up table。非常大的基數ID空間（例如視頻ID或query詞）通過在按照點擊次數排序後，然後取top N進行截斷。詞典外值簡單地用全1標書。與候選生成一樣，多類別特徵在送到前饋網絡之前也被平均成一個embedding向量。

重要的是，同一ID空間中的類別特徵也共享底層的emeddings。例如，（曝光的視頻ID，用戶觀看的最後幾個視頻ID，算法人推薦的視頻ID等）這些都公用一個全局的embedding。儘管使用了共享嵌入，但每個功能都會單獨輸入到網絡中，以便上面的層可以學習每個功能的專用表示。共享嵌入對於改進泛化，加快訓練和減少內存需求非常重要。絕大多數模型參數都被這樣嵌入在空間中 - 例如，嵌入在32維空間中的一百萬個ID，具有比2048個unit的全連接的層多7倍的參數。

歸一化連續特徵
衆所周知，神經網絡對其輸入數據的縮放和分佈非常敏感[9]，而諸如決策樹集合之類的替代方法對於單個特徵的縮放是不變的。我們發現連續特徵的正確歸一化對於收斂是至關重要的。一個具有分佈f的連續特徵x，使用累計分佈的方式，通過縮放值以使特徵均勻分佈在[0,1]，最後被轉換爲x1，x1 = 從負無窮積分到x的積分值。在訓練開始之前，在數據上單次計算的特徵值的分位數上對該積分近似進行線性插值。

除了原始歸一化特徵x1之外，我們還輸入x1的平方或者對x1取開方，通過允許網絡輕鬆形成特徵的超線性和子線性函數，使網絡具有更強的表現力。我們發現，這樣做的連續特徵可以提高離線精度。

4.2建模預測用戶期待的觀察時間

我們的目標是預測預期用戶的觀看時間，因爲訓練示例要麼是正樣本（點擊曝光給用戶的樣本），要麼是負樣本（沒有點擊）。正面樣本和用戶觀看視頻所花費的時間相關。爲了預測預期的觀察時間，我們使用加權邏輯迴歸技術，該技術是爲此目的而開發的。

該模型採用交叉熵損失的邏輯迴歸進行訓練（圖7）。但是，正樣本（點擊樣本）會由用戶的觀看時間加權該視頻。負樣本（未點擊）將只有單位1的權重。通過這種方式，邏輯迴歸學到的可能性是

N是訓練集樣本數，一般在幾千萬，K是正樣本數，Ti是第i次曝光的觀看時間。

假設正樣本的得分很小（在我們的業務中是正確的），學習到的機率大約爲 E[T ](1 + P )，P是點擊概率，E[T]這個曝光樣本的期待觀看時間。因爲P很小，導致這個計算公式接近於 E[T]。也就意味着，我們可以使用冥函數 e的x次方，當做最後的激活函數來處理這個可能性。

4.3隱藏層的實驗

表1顯示了我們在次日數據上試驗了不同的隱藏層units數的結果。通過考慮在單個頁面上向用戶顯示的正（單擊）和負（未單擊）現象來獲得針對每個試驗顯示的值（“加權，每用戶損失”）。我們首先使用我們的模型對這兩個現象進行評分。如果負樣本得分高於正樣本，那麼我們認爲正樣本觀看時間被錯誤預測了。然後，加權每用戶損失爲錯誤預測觀看時間的總量，作爲總觀看時間的一小部分而不是保持正負對。

這些結果表明，增加隱藏層的寬度可以改善結果，增加深度也是如此。然而，也要服務器CPU時間。配置1024個寬的ReLU，然後是512寬的ReLU，然後是256個寬的ReLU，這使我們得到了最好的結果，同時使我們能夠保持在我們的服務CPU預算範圍內。

對於1024→512→256模型，我們嘗試僅僅在這些特徵下，進行歸一化，而不加入他們的平方或者開方，就輸入前饋網絡，這增加了0.2％的損失。使用相同的隱藏層配置，我們還訓練了一個模型，其中正負樣本同等加權。不出所料，這使視頻觀看時間加權損失增加了4.1％。

表1：更寬和更深的隱藏ReLU層對觀看時間加權成對損失的影響，一直在第二天的數據上試驗

5、結論

我們已經描述了用於推薦YouTube視頻的深度神經網絡架構，分爲兩個不同的問題：召回和精排。

我們的深度協同過濾模型能夠有效地吸收許多信號並模擬它們與深度層的交互，優於YouTube上先前使用的矩陣分解方法[23]。在爲推薦選擇替代問題時，藝術比科學更多，我們發現通過捕捉不對稱的共同觀察行爲並防止未來信息泄露，對未來的視頻進行分類，以便在線上指標上表現良好。降低來自分類器的錯誤信號對於獲得良好結果也是必不可少的 - 否則該模型會過度填充代理問題而不能很好地轉移到主頁。

我們證明了使用訓練樣本中的視頻上傳時間長短作爲輸入特徵，消除了對過去上傳視頻的偏向，並允許模型向新的流行視頻進行加權。這種改進的離線保持精度可以顯着提高最近上傳的A / B測試視頻的觀看時間。

排名是一種更經典的機器學習問題，我們的深度學習方法優於先前的線性和基於樹的觀察時間預測方法。推薦系統特別受益於描述過去用戶對item行爲的特徵。深度神經網絡需要分類和連續特徵的特殊表示，我們分別用嵌入和分位數歸一化進行變換。顯示深度層有效地模擬了數百個特徵之間的非線性相互作用。

Logistic迴歸通過加權訓練樣本，進行了修改，其中包括正樣本的觀看時間和正樣本的統一性，這使我們能夠了解與預期觀看時間密切相關的機率。與直接預測點擊率相比，此方法在觀看時間加權排名評估指標上表現更好。

6.致謝

作者要感謝Jim McFadden和Pranav Khaitan提供寶貴的指導和支持。 Sujeet Bansal，Shripad Thite和Radek Vingralek實施了培訓和服務基礎設施的關鍵組成部分。 Chris Berg和Trevor Walker提供了深思熟慮的討論和詳細的反饋。

YoutuBe 是如何利用深度學習解決搜索推薦問題的？ (一) - 論文翻譯

題目：YouTube的深度學習推薦算法

摘要：

1.引言

2.系統概述

3.候選生成

3.1多分類的推薦系統

3.2模型架構

3.3異構信號

3.4 label和上下文選擇

3.5 特徵和深度的實驗

4：排名

4.1特徵表示

特徵工程

嵌入類別功能

4.2建模預測用戶期待的觀察時間

4.3隱藏層的實驗

5、結論

6.致謝

如何使用 JS 判斷用戶是否處於活躍狀態

lightdb秒級增加列和刪除列（not null帶默認值）

lightdb數據庫超時相關控制參數

通過HPA+CronHPA組合應對業務複雜彈性伸縮場景

❤️‍🔥 Solon Cloud Event 新的事務特性與應用

lightdb mysql 8.0兼容之不可見主鍵

使用 JS 實現在瀏覽器控制檯打印圖片 console.image()

基於Ubuntu-22.04安裝K8s-v1.28.2實驗（四）使用域名訪問網站應用

PNN論文翻譯 - 基於點乘的用戶響應神經網絡預測（四）

YoutuBe 是如何利用深度學習解決搜索推薦問題的？ (一) - 論文翻譯

阿里興趣網絡DIN網絡中幾個關鍵的點(三)

谷歌13年提出來的類似於lr的算法 - ftrl論文翻譯（七）

facebook 將協同過濾加上深度學習來解決搜索推薦問題 (二) - 論文翻譯

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結