專訪頭條搜索:從推薦到搜索,如何構建搜索技術的另一種可能?

今日頭條又將搜索業務往前推進了一步。4月30日,今日頭條宣佈上線“頭條百科”測試版。界面簡潔,除了搜索框外,只有一個Slogan:來這裏,認識世界!

這是頭條搜索繼2019年8月推出頭條搜索網頁版,2020年2月上架頭條搜索APP之後的新動作。僅經過一年多的發展,儘管沒有大肆宣傳,頭條搜索也吸引了不少用戶的注意,在用戶體驗方面也獲得了用戶的肯定。

關於頭條搜索的相關技術,在外界極少量的資料中,我們看到朱文佳在他的演講中提到:“我們建立了一套業界獨有的搜索技術架構,我們從推薦引擎上探索出機器學習的方案,然後把這套技術架構和底層算法遷移到搜索引擎上,發現效果也很好。“

實際上,今日頭條於2017年纔開始組建搜索技術團隊,頭條搜索如何在這麼短的時間裏,做到這種效果?他們的搜索引擎到底與傳統引擎有何不同?頭條搜索是否打造出自己“理想的搜索中臺架構”?

爲此,InfoQ獨家採訪了今日頭條搜索技術部門,這也是頭條搜索技術團隊第一次接受外界採訪。

從推薦到搜索

從2012年開始,今日頭條開始做推薦引擎。而到了2016年,在資訊信息分發市場上,有50%的內容分發是通過算法來完成的。

智能推薦引擎通過算法,綜合用戶特徵、文章特徵、環境特徵,得出用戶對內容感興趣的概率,返回TopN的結果滿足用戶的需求。今日頭條從無到有搭起平臺,隨着大數據技術的發展,在2014年及時引入實時流架構,用戶的行爲信息可以被模型快速捕捉並反饋至下一次刷新的推薦效果。

從成立開始,這家企業就開始大量招募擅長機器學習、推薦算法的技術人才。當時互聯網還正處於招移動端、iOS技術人員的階段,有獵頭評價:“很多人認爲他們瘋掉了”。

實際上,這些人才爲推薦系統底層算法打下了基礎。

隨後,今日頭條在構建搜索系統架構時,將從推薦引擎上探索出的技術架構和底層算法遷移到搜索引擎上。“發現效果也很好。”今日頭條 CEO 朱文佳在演講中說。

頭條搜索技術團隊負責人在採訪裏表示:“推薦和搜索有一些相通的地方,背後都要有AI來理解用戶的需求和內容,理解的越清楚,就越能幫助到用戶。像大規模機器學習、深度學習、實時更新等推薦上成功應用的方法,都是建模用戶、內容的有效方法。所以將這些技術應用到搜索上,也會取得不錯的效果。”

實時更新也是傳統搜索引擎的短板。最近幾年隨着Storm、Spark streaming、Flink等框架的成熟,實時流處理才能成爲各公司AI平臺的標配。

現在實時架構同樣也被引入到頭條搜索的搜索引擎裏。“基於新聞推薦時效性的理解和經驗,我們在搜索上也研發了全量實時更新的百億倒排索引架構,大幅提升了內容的時效性,大事件發生時,往往最先能在頭條搜索到。”頭條搜索技術團隊負責人表示。

即便如此,推薦與搜索還是存在不少差異。頭條搜索技術團隊負責人在採訪中指出:“搜索要解決好長尾問題,不能過度依賴用戶的行爲反饋去理解特定的查詢詞、網頁,而是需要尋找更泛化的方法。爲了讓通用技術發揮優勢,也需要把搜索上特有的問題理解得更加充分,例如怎麼做好對多語言的理解,怎麼在萬億網頁的檢索系統中權衡好Explore/Exploit,怎麼在性能要求苛刻的場景中應用好複雜模型等等。另一方面,在推薦上目前不一定那麼有效的方法,在搜索上卻有可能大展拳腳,例如強化學習、遷移學習。整體來看,搜索系統複雜多樣,對技術的廣度、深度有非常高的要求,發揮的空間也更大。”

新技術應用

很多新技術還沒有被充分用到搜索引擎裏去。”

作爲全球最大的搜索引擎公司,Google 也是我們公認的大數據鼻祖,它存儲着全世界幾乎所有可訪問的網頁,數目可能超過十萬億規模。爲了將這些文件存儲並使用起來,Google 開發了 GFS、Bigtable和MapReduce三駕馬車。從此大數據得以繁榮發展,行業裏也產生了數百萬大數據從業需求。隨着數據採集、存儲、計算能力的提升,進一步開啓了“AI時代”。

搜索引擎的進化史,就是人工智能技術的進化史。今天,無論是搜索、還是信息流,所用的技術完全都是人工智能技術,包括谷歌在內的搜索引擎廠商,都在不斷將人工智能新技術應用到搜索引擎中。

頭條搜索在新技術應用上,也做了很多大膽的嘗試。

例如,BERT是2018年時Google在NLP上的一個重要突破,2019年10月,Google宣佈將BERT算法應用到搜索引擎中,搜索結果得到了10%的提升。Google宣稱這是Google搜索引擎過去五年中最大、最正向的變化,而且也許是有史以來最大的變化。

但Google並不是第一家將BERT應用在搜索引擎裏的,頭條搜索技術團隊負責人在採訪中提到:“早在2019年初,頭條搜索就已經將BERT在頭條搜索上全流量應用,並且獲得了顯著的效果提升。上線得比Google更早,依靠的是大家大膽創新和快速迭代。”

此外,頭條搜索技術團隊負責人也認爲,AI技術能夠更好的對問題進行端到端建模,例如網頁內容的理解,傳統方法會對這一問題進行不斷細分,基於HTML結構等信息,對不同的子任務應用不同的規則,反覆迭代來提升效果。而利用AI技術,頭條搜索將網頁渲染成圖片,聯合視覺、文本、HTML結構等特徵,對相似任務進行統一的端到端建模和多任務學習,大幅提高了分類、信息抽取的效果和效率。

頭條搜索技術團隊負責人表示,頭條搜索技術團隊也在繼續借助AI探索更多的搜索引擎技術問題,例如多模態技術是否可端到端地搜索出更相關的圖片、小視頻;抓取、索引構建系統有沒有可能基於模型重新設計;強化學習是否能讓搜索排序更加智能並節約計算成本等等。

搜索的另一種可能

如果有這麼一個可能,就是讓老牌搜索引擎廠商在發展二十年後重做搜索系統,那麼新的搜索系統會有什麼不同?

搜索引擎是極其複雜的大工程,它通常都要將整個系統分解爲若干子系統,比如會分解爲鏈接發現、索引篩選、Query理解、Ranking等步驟。每一步驟內部又會進一步分解,這個過程可以無限分解下去,由不同的人和團隊分工解決。但這個過程有個致命缺點,在每一步的分解過程中都會有信息損失,最後聯合起來導致整個系統不能達到最優狀態,比如A步驟精度90%、B步驟精度90%、對接起來最終系統精度可能只有80%。

這種精分細解,是傳統搜索引擎受限於當時的技術手段,爲了有效開展工作、更好地提升產品效果採取的技術決策,這在當時是非常正確的。“但精度不足,也限制了傳統搜索引擎進一步提升效果。”在談到傳統搜索引擎的缺陷時,頭條搜索技術團隊負責人提到。

現在做搜索引擎,頭條搜索技術團隊負責人告訴InfoQ,頭條搜索技術團隊主要有三個優勢:

第一,會更大膽地探索AI技術。相對傳統搜索引擎的侷限,今日頭條傾向於對系統有限分解,重度使用前沿AI技術進行端到端的問題建模,系統性降低效果損失。

第二,沒有歷史的包袱,纔有機會去重新審視一個合理的搜索引擎架構應該如何設計、如何避免走彎路、容納新技術,並且有足夠高的研發效率。頭條在短時間就讓搜索效果進入第一梯隊,合理的架構發揮了很大的作用。

頭條搜索還組建了專門的工程架構團隊,專注於分佈式系統、機器學習系統的構建和性能優化。一些深入到內存、SSD、Disk甚至一些新硬件的優化,或一些對倒排索引壓縮、召回等算法的底層優化,大幅降低了硬件成本,提升了搜索速度和穩定性。

第三,優秀的團隊和合理系統設計保證了“迭代效率”。頭條搜索技術團隊的目標是建設一個服務於全公司的搜索技術中臺,在對標谷歌做一流全網搜索引擎的同時,也全力提升抖音、西瓜等產品的搜索體驗。雖然現在頭條搜索技術團隊人數不到200人,卻聚集了很多Google、百度、360、Bing這些老牌搜索公司的核心技術骨幹,同時還有不少今日頭條原推薦、廣告、AI Lab團隊的核心成員,以及一批非常優秀的校招生,他們近30%來自於清華北大。

爲了保證“迭代效率”,頭條搜索目前每週都會對線上進行數十次的優化更新,一些從其他搜索引擎公司加入頭條搜索技術團隊的同學表示,以前需要半年以上時間上線的項目,在頭條搜索只需要幾周。當然,快速的迭代也更容易犯錯,頭條搜索也設計了更多的穩定性機制,提前避免出錯並大幅降低錯誤的影響,讓問題可控,也讓團隊敢放開手腳。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章