對話 CTO〡聽知乎 CTO 李大海講技術如何構建全領域知識社區

專欄介紹

「對話 CTO」是極客公園的一檔最新專欄,以技術人的視角聊聊研發管理者的發展和成長。

本專欄特別邀請到了企業級研發管理工具 ONES 的創始人 & CEO 王穎奇作爲特邀訪談者。王穎奇曾參與金山軟件 WPS、金山毒霸等大型軟件的核心開發工作;2011 年創立了正點科技,旗下產品正點鬧鐘、正點日曆在全球用戶過億;2014 年,王穎奇在知名美元基金晨興資本任 EIR,並以個人身份參與十餘家公司的管理諮詢工作;2015 年,王穎奇創立 ONES,致力於提供企業級研發管理工具及解決方案。

 

摘要

五年之後,知乎會變成什麼?——「超大規模的知識內容社區」是知乎 CTO 李大海給出的回答。

截止 2019 年 1 月,知乎用戶數已經突破 2.2 億,問題數 3000 萬,回答數 1.3 億。用李大海的話說,知乎不僅要成爲全領域覆蓋所有用戶的知識內容平臺,還要持續產生優質內容,因爲優質內容有很強的時間複利,也許三年以後仍在持續幫助更多的人。

李大海坦言,很多用戶將知乎當做一種搜索引擎來用,這體現了知乎高質量內容的價值,但其背後是更縱深、更人文、更多元,也更鮮活的第一手素材和討論。

隨着用戶規模變大,類似的偏差感出現在許多層面,傳統單一的內容生產機制,分發機制以及社區治理機制逐步地失效。「智能社區」是知乎希望駛向的方向,用機器學習、人工智能算法在社區治理、內容生產和消費等等方面進行權衡。「這個事情必須要用技術才能辦得到,光靠產品和運營的手段是不夠的。」李大海說道。

 

AI 助力的智能社區

穎奇:非常感謝知乎 CTO 李大海接受我們的採訪。能否請您先介紹一下知乎的研發團隊現狀,以及重點的研發方向。

李大海:目前知乎的研發人員接近 500 人,並在不斷擴充中。我們目前重點投入的技術領域主要在移動端體驗優化、基礎架構、安全、大數據、機器學習等等。機器學習是我們很重要的一個方向,現在大概有 70 多人的機器學習工程師團隊。在機器學習這個領域,我們也做了很細緻的圍繞知乎的應用場景展開的工作。

 

穎奇:您提到的機器學習領域,我看到我們有很多資料有提到通過 AI 的方式來控制社區內容質量,那麼具體來看機器學習在知乎的社區管理上做了哪些工作呢?

李大海:截止 2019 年 1 月,知乎用戶數已經突破 2.2 億,問題數 3000 萬,回答數 1.3 億,每天都有大量的用戶在知乎分享自己的知識、經驗和見解。這麼龐大的內容和用戶體量,單依靠人力肯定是不現實的,AI 的應用是一個必然的趨勢。到目前爲止,知乎 AI 算法應用已貫穿了從內容生產、消費和社區治理等多個場景。

在內容治理場景中,我們綜合使用情感模型、用戶親密度模型和文本識別模型,不斷優化算法機器人「瓦力」,識別並實時處理不友善、答非所問、陰陽怪氣等內容,部分場景識別準確率達到 99.13%。

這裏面的技術挑戰有很多,我在這裏不說細節。單從邏輯上來說,由於自然語言的開放性和歧義性,任何機器學習算法在實際場景中,都不可能達到 100% 的召回率和準確率。因此,在社區治理領域,我們採用的是「人機結合」的方式來進行系統優化:我們會保留一個人數較大的人工團隊,他們非常瞭解知乎的社區規則,他們會處理、糾正算法不能識別和識別不準的情況,然後算法再把這些糾正的案例當成增量的學習材料,升級模型的表達能力。這是一個持續積累的過程,在這個過程中,算法的能力會變得越來越強大。

當然,除了對文字類型內容的識別之外,我們也在做很多工作去覆蓋更多類型的內容,包括圖片和視頻、音頻等等。

 

穎奇:所以技術在社區治理方面已經是起到了非常大的促進作用的。

李大海:在這件事情上我們其實是深度和廣度兩方面都在前進。所謂廣度就是我們會去不斷的拓展能力,在越來越多的場景能夠去識別和處理。深度就是它的準確率,要慢慢處理的越來越準。所以深度和廣度同時作用,我們的用戶就不需要主動去舉報低質內容,而是靠機器算法,人機結合的方式降低了「用戶舉報」,也就是我們內部常提到的「主動覆蓋率」的比例降低了下去。

 

穎奇:所以如果早期沒有 AI 技術的情況下,可能需要一個非常龐大的內容審覈團隊和用戶舉報的覆蓋才能保證內容和質量。

李大海:如果沒有 AI 算法的話,我們的審覈團隊應該跟內容的增長成正比,但現在其實不是。我們的審覈團隊總數幾乎沒有怎麼變過,從 2017 年開始就維持在一個相對穩定的人數上,它的增量很小,但是我們內容的增量是很大的。

 

穎奇:還有哪些例子能看到 AI 等技術給知乎帶來作用呢?

李大海:我們在 AI 的應用方面做了很多嘗試,這些應用幫助知乎社區的用戶、內容之間有更高效、精準的匹配和連接,讓我們的社區維護和治理工作變得更簡單、有序。比如在信息的分發上,我們在首頁信息流推薦系統中引入了 AI 算法,經過多輪優化和升級,知乎的信息流推薦系統已經在知乎整體業務中佔了非常大的體量,用戶滲透率(即有多少用戶會有效來到首頁看內容)達到 88%,使用時長佔比(包括使用知乎的時長以及在知乎中消費內容的時長等)達到 76%。

再比如,在內容的匹配上,我們推出問題路由功能,採用人工審覈、算法和運營策略相配合的方式,精準邀請相關領域的用戶回答問題,儘可能地提高問題的回答率。問題路由功能上線以來,由系統推薦帶來的應邀回答數比過去提升了 400%。

還有上面所講到的社區治理方面,通過瓦力實現了違規內容的精確識別和處理,讓社區氛圍和用戶體驗變得更好。

 

穎奇:知乎作爲全領域內容社區,大量內容推薦是否可能會使用戶聚焦在某些領域,導致用戶對知識的獲取相對閉塞。知乎是通過怎樣的技術手段去平衡用戶的知識外延和知識聚焦呢?

李大海:知乎早年有一個 Slogan 叫「發現更大的世界」,所以我們很在意用戶來知乎,是不是能夠拓展自己的眼界。從技術層面來說,我們除了採用精確的預估模型去匹配用戶的興趣領域之外,也會採用興趣探測模型,去了解用戶是否對一個新的話題或領域感興趣。

假如這個世界上所有的知識領域是固定的,那麼它就相當於一張知識地圖。每個人在這張知識地圖上的地形是不一樣的。很喜歡的領域可能是很高的正值,是波峯;不喜歡的領域就是負值,是波谷。往往一個新用戶來了以後,知乎對他的知識地圖畫像是很模糊的,但之後會越來越清晰。清晰化以後,我們就能夠給他推薦相對全面的東西。

 

穎奇:所以知乎本質還是要幫助用戶去發現新的知識。

李大海:我們是希望能夠儘可能點亮用戶的地圖,而不是一旦發現用戶地圖上有個波峯,就一直在這個波峯上去推薦內容。除了技術層面的改進,我們也有產品層面的想法來提升用戶的體驗,包括關注 Tab 和熱榜等等。

 

穎奇:我們看到知乎的內容推薦很多元,有流量的娛樂內容,也有我們自己關心的專業問題。您怎麼看待知乎作爲知識社區裏的各類內容的出現和知識社區所承擔的社會責任呢

李大海:知乎是一個社區,但這個社區能夠持續產生很多高質量的內容和討論。知乎裏面會有很多不同領域的討論,但是這些討論我們更偏向於去多角度、全面的、多元化的去看這個問題,同時從這個問題上還能夠擴展出一些相關領域的討論,這其實是知乎做的最好、最擅長的。比如新中國成立 70 週年,在知乎上會涌現出很多相關討論,比如如何去評價新中國成立 70 週年以來展現的民生髮展、科技進步、文化成就等等有意義的正能量話題。用戶會覺得我們在看到一個熱點的時候,圍繞熱點產生的一些知識領域的討論,這個是知乎上做的特別好和特別擅長的事,用戶特別喜歡在知乎去相對更嚴肅的討論這些問題。

 

用算法優化搜索體驗

穎奇:有一些知乎用戶偶爾會把知乎作爲高質量內容的搜索引擎來使用,您如何看待知乎和搜索引擎在知識有效性方面的對比?

李大海:其實知乎 8 年以來,已經成爲一個龐大的內容網絡。我們的品牌 Slogan 是「有問題上知乎」,就直接體現了知乎的工具化價值。事實上,很多人已經把知乎當做一種搜索引擎來用。

但知乎的搜索結果又跟傳統搜索引擎不一樣。搜索引擎有搜索引擎的使用場景,知乎也有自己的使用場景。知乎的搜索更多的不是詞條和新聞,是按照內容層次去進行結構化展示的,這就大大提升了大家的信息獲取效率。而在搜索的背後,是知乎上有特色的討論,更縱深、更人文、更多元,也更鮮活,這些都是非常有價值的第一手素材和觀點。

另外,由於知乎有很強的投票機制,有贊同、反對還有評論,我們的內容其實相當於是被人 Review 過的,所以可信度、價值會遠遠高於其它的網站。知乎有一個指標叫 Topic Rank,指的是一個用戶在某個領域的權威度,權威度是根據比較複雜的算法算出來的。這個指標非常有用,比如說在 IT 領域 Topic Rank 很高的人,他看到一個 IT 領域的回答然後點了反對,我們就知道這個回答的可信度可能是較低的,這也是知乎內容在自己的搜索引擎裏面可信度很高的一個主要原因。

 

穎奇:那麼在內容搜索方面,知乎都做了哪些工作?

李大海:在算法維度上,搜索是知乎在壯大過程中逐步優化的一個功能。目前,我們採用深度學習與傳統模型相結合的方式來解決召回和排序上的用戶滿意度問題。我們的文本相關性算法最早只有 BM25。到今天,已經發展成爲一個融合模型。深度語義特徵上線之後,我們在頭部、腰部、長尾的搜索點擊比普遍提升了約 2% - 3% 不等。我們還需要積累和挖掘更多高質的訓練數據,不斷迭代優化我們的搜索體驗。

在架構維度上,我們也投入了不少人力和精力。知乎早年採用 ES 作爲我們的索引引擎,隨着數據量的增加,我們遇到了 ES 集羣的服務穩定性問題,以及 ES 對我們的排序算法支持不友好等問題。所以在 17 年,團隊自己開發了一套在索引格式上完全兼容 ES 的引擎,逐步替換了在線上服務的 ES 集羣。目前知乎全部的搜索請求都由新的索引服務支撐,在可用性達到了 5 個 9 的同時性能上也不輸於 C++ 編寫的類似系統所能達到的水平。

除此之外,我們還在強化產品側對結構化數據的建設和引入。通過內部數據建設或外部數據引入,在搜索結果使用特性卡片展現話題索引、知乎評分、賽事比分、電影資訊等結構化數據,讓用戶可以更高效便捷地獲取信息。

 

穎奇:您認爲知乎在未來的 3-5 年會發展成怎樣的狀態?技術會起到怎樣的推動作用?這個可能是稍微大一些的問題,技術會在未來的知乎發展中,成爲什麼樣的推動因子?

李大海:知乎去年就說我們在做智能社區,因爲我們需要用到機器學習、人工智能的算法去解決社區規模大了以後面臨的很多問題,包括內容生產、內容消費、內容跟人的關係、社區治理等等問題。用戶規模變大,複雜度變高,受到這些綜合因素影響以後,現在單一的內容生產機制、分發機制以及社區治理機制,都會逐步的失效,這就是爲什麼我們要很重地使用 AI。現在知乎規模已經非常大了,我們希望知乎能夠服務更多的用戶,我們預測,五年以後知乎會變成一個超大規模的知識社區。

 

穎奇:作爲用戶,我們在知乎上可以得到各類問題的答案。那麼知乎的問題及討論覆蓋的範圍是怎樣的?

李大海:現在知乎的討論範圍已經覆蓋到了全行業,我們在前年的時候與中國就業辦公室做過一個合作,去看他們公佈的所有大學生畢業以後的就業領域,我們的討論內容覆蓋其中的 95% 以上。所以知乎本身是一個全領域覆蓋所有用戶的知識討論平臺,我們後續的目標也是要服務好更多的用戶,產生更多優質的內容。優質內容本身是有很強的時間複利在裏面的,我們典型的創作者會有很直觀的感受,他們寫的一個回答,在三年以後還有人在點贊,這個內容在持續的幫助更多的人。

 

質疑能力帶來技術進化

穎奇:在選擇團隊成員時,您有哪些比較特別的標準?

李大海:首先是要和公司的價值觀一致。知乎有「三要三不要」:要爲用戶創造價值,要保持開放,要說到做到;不要弄虛作假,不要個人私心和地盤主義,不要失去昂揚之氣。

其次是要有很好的學習能力,我們不期望工程師精通計算機技術中所有領域的知識和技能,但希望他能夠快速學習,掌握下一個項目所需要的知識點和技能。當然,基礎知識的紮實也是很重要的,特別地,要成長爲一個好的算法工程師,一定要具備一定的數學基礎和代碼能力,並牢固掌握基礎算法和數據結構。在這些知識的基礎上,在日常工作中根據自身的條件和情況,不斷擴展自己的能力邊界。

還要有質疑能力。技術進化是不斷的調整糾錯,甚至推翻重來的過程,技術人員要有質疑自己現有成果的勇氣和能力,才能不被困在狹小的技術領域裏面。

 

穎奇:能否給大家介紹一下您的個人履歷。

李大海:我本科與研究生唸的都是數學專業,本科是在北京化工大學學習的應用數學,覺得數學非常有意思,研究生階段又轉向北大的基礎數學專業繼續學習。畢業以後第一份工作是在 Google,當時 Google 北京辦公室剛剛成立,我是第一批應屆畢業生。2010 年從 Google 離開以後就一直在創業。先後在雲壤、豌豆莢承擔了網頁搜索和移動搜索的系統設計和技術管理工作,2015 年加入知乎後,以機器學習爲切入點,不斷提升技術在業務中的支撐作用。

 

穎奇:最後有沒有一些您覺得比較好的書籍能推薦給大家?

李大海:知乎上有介紹很多很好的技術書籍,這裏着重介紹兩本沒那麼技術的。一本叫《黑客與畫家》。這本書主要介紹了黑客,也就是優秀程序員的愛好和動機,討論黑客成長、黑客對世界的貢獻以及工作方法等等,不但有助於瞭解計算機編程的本質、互聯網行業的規則,還會幫助讀者瞭解我們這個時代,使讀者獨立思考,是一本認識互聯網世界的啓蒙之書。

另一本是《原則》,介紹了橋水公司創始人達里奧的人生經驗和處事原則。這本書,不應該把它當成工具書和指導手冊來讀,應該去體會和理解作者在日常工作和生活中不斷構建自己的方法論的過程。每個人的經歷是不同的,不同經歷帶來不同的價值,你不能拿着別人的經驗生搬硬套,那是不能內化爲自己的東西的,必須要結合自己的知識體系,轉化成自己的理解和方法論,並能夠在實踐中不斷升級。

 

穎奇:我也非常喜歡《原則》這本書。今天有很多收穫,非常感謝您的分享。

 

本文作者:王穎奇

聯繫方式:[email protected]

關注「萬事ONES」微信公衆號,查看更多「對話CTO」文章

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章