內容中臺的內容理解與應用


來源 | 張大本事(ID:BenshiZhang)


引言:我們終於走出信息匱乏的年代,開始了信息過載的煩惱。


從紙媒、電視傳媒開始,內容產業搭載着互聯網的發展快車,跨過了網絡門戶、論壇等形式,在移動互聯網的普及下,終於迎來爆發式的發展。


而隨着內容產業的飛速發展,我們對內容的加工處理方式也逐漸升級變化。


早年報紙、電視的製作門檻較高,從作品的創作完成到對外宣發除了要經過必要的技術處理,還要保證一道道地人工審校,在此前提下內容質量得以保障,但效率着實過低。


隨着網絡普及,新聞門戶網站開始建設人工編輯團隊,編輯們甄別最具影響的新聞熱點在網站上實時更新,而論壇、貼吧也出現了“站長”、“吧主”等角色,除了維護這一虛擬社區的建設,亦要對相關的內容言論做審覈處理。


有觀點把微信公衆平臺的上線認爲是新媒體的元年,亦有人認爲今日頭條等資訊個性化推薦產品的成功是內容產業的井噴。無論如何,內容的創作的門檻已經不復存在。


在魚龍混雜、良莠不齊的內容環境中,社會對內容平臺處理內容的期望與要求,亦越來越高。


01什麼是內容中臺?


中臺的概念,早期由美軍的作戰體系演化,航母艦羣作爲中颱指揮、策應、補給,特種部隊作爲前臺決策、作戰、打擊。


以騰訊內容產品爲例,經過最新的架構調整,微信、QQ和QQ空間形成用戶平臺;以騰訊新聞、微信公衆平臺、微信看一看、QQ看點、快報、瀏覽器等綜合信息流產品,騰訊視頻、微視等視頻影音產品,共同形成內容產品矩陣;而企鵝號定位爲內容中臺。


640?wx_fmt=jpeg


02爲什麼要建設內容中臺?


“大中臺,小前臺”的概念由阿里帶火,旨在建設一個反應更加敏捷高效的組織,爲各業務線提供通用高效的處理能力。


騰訊盛傳的“賽馬機制”,即爲鼓勵內部競爭,業務部門自主立項,公司不作干預,誰的效率更高跑得更快,便更有機會拿到公司在這一業務的最終口徑,隨之而來的纔是整個公司的資源傾斜。微信、王者榮耀等都是“賽馬機制”的果實。


“賽馬機制”在鼓勵內部競爭創新的同時,亦產生了過量消耗,各個事業羣之間很難實現資源共享,相互扶持與協同落地艱難。


“中臺”的建設便是擁有複雜業務線的企業通過提煉各業務線的共性需求,將需求打造成組件化的資源提供給前臺各業務部門使用。如此可以使產品在更新迭代、創新拓展的過程中研發更靈活、業務更敏捷,最大程度地避免“重複造輪子”的摸索。


03內容中臺可以做什麼?


中臺的設計沒有固定標準,本質根據企業對自身架構的期待與投入。


內容平臺在消息系統、數據倉庫、計算框架、存儲系統等基礎架構層建設的基礎上,把業務層相關的算法能力,服務能力,業務能力高度集成,有效組織 ,動態規劃,即爲內容中臺。


除去業內傳統的內容開放平臺,部分手機廠商及瀏覽器產品,在建設信息流產品時更多定位是內容聚合平臺,此類場景中,內容中臺的優勢作用尤爲突顯。


以手機廠商瀏覽器信息流爲例,CP通過API接口提供內容,存儲、理解、推薦都可以通過中臺調度,業務線輕裝上陣,在不用過多人力投入的情況下,便能快速上線,搶佔先機。


640?wx_fmt=png


04什麼是內容理解?


內容理解顧名思義,是對內容的理解工作。


內容行業根據創作者類型將內容做了不同劃分。PGC(Professionally Generated Content)指專業生產內容、專家生產內容。UGC(User Generated Content)指用戶原創內容。


理解實踐中,我們會把圍繞一篇內容產生的所有表徵和語義做最全面的理解工作,不論PGC還是UGC,不管是圖文還是視頻,無關正文還是評論,都是理解工作的重點。


05爲什麼要做內容理解?


和諧文明、健康積極、規範有序的網絡環境,是各家內容平臺建設發展的前提。


而內容生產者創作水平、傳播目的各不相同,內容消費者認知能力、接受程度無法把握,直接帶來的影響是,有大量違法違規、低質垃圾、廣告誘導、令人反感等嚴重影響用戶體驗的內容混入,難以甄別。


爲了將上述低質內容有效剔除,除了最低效的人工審覈,人工智能的配合成爲內容處理的新的依賴。通過機器建模與審覈團隊的配合,保證內容平臺安全、優質、高效。

理解維度足夠全,理解粒度足夠細,內容處理更可控,內容推薦更精準。


06如何對內容進行理解並應用?


廣義的內容理解,根據其不同應用目的,我把它分爲工程能力、內容安全、低質內容、優質內容、與特徵理解。


01工程能力(以視覺處理爲例)


人臉識別

“細數那些陪伴我們長大的女神們”,此標題中沒有提及具體姓名,正文中若僅爲圖片則該篇內容推薦可用信息過少。


640?wx_fmt=png


通過人臉識別能力預測後,模型會給出預測結果與置信度,業務取一定置信的閾值後,便可在無姓名提及的前提下,通過圖片實現對內容的深度理解。


影視識別

影視截取片段中,創作者大多不會直接描述人物及影劇名,而是以細節詳情作爲標題,如“一個響指,整個宇宙真的消失了一半”,單從標題無法預測其爲《復仇者聯盟》的視頻片段,影響分發準確。


640?wx_fmt=png


通過影視識別能力預測後,模型會給出預測出的相關tag,業務根據tag能預測分類,實現更準確的分發。


OCR識別

在內容平臺對內容質量越來越高要求的同時,隨之而來的便是黑產針對平臺規則的對抗,出於營銷、導流、推廣等目的,部分創作者會將文字內容以圖片的形式呈現以規避平臺打擊。


640?wx_fmt=png


通過OCR識別能力,圖片中摻雜的文字信息可以準確提取,用於理解和打擊。


02內容安全(以涉政內容爲例)


內容安全是內容平臺的底線,也是內容產品的生命線。


實踐中發現,相對於有實名註冊的PGC賬號來說,UGC評論的敏感內容風險更高,因此在保證資訊內容安全的同時,評論詳情也要做重點監管。


我們把涉政分拆爲兩個維度,即涉政敏感(不可發表的言論)和涉及政治(涉及政治相關)做區分處理,敏感部分通常按照規則強校驗,這裏考驗的是策略產品的政治意識。涉及政治的內容召回用以重點監管評論環境,保障內容安全的同時,評論健康積極。


640?wx_fmt=png


03低質內容(以標題黨爲例)


標題黨的理解是個相對來說偏向主觀的工作,受用戶的教育經歷、表達習慣、接受程度等多方面因素影響,很難達成一個定義的標準。

經過大量的閱讀與總結,我把常見的標題黨類型提煉爲以下多種。


640?wx_fmt=png


在大家對震驚體的抵制背景下,我們能總結出一批準確率極高的關鍵詞,把此類關鍵詞、正則做基礎過濾,解決掉這些淺顯易分辨的標題黨。


640?wx_fmt=png


而基於規則的過濾是無法滿足內容平臺對標題質量的要求的,這時NLP的價值便發揮出來。


爲了保證不同標註人員的執行標準相對一致,我窮舉了以下常見的標題黨特徵。


640?wx_fmt=png


低質對抗中,在平臺可控的範圍內,我們本着“寧可誤傷不可漏過”的原則,理解低質內容時抱着“不爲正常即嫌疑”的心理,對低質內容從嚴對待。


在以上“正則+語料”的訓練模式下,bert模型對標題黨的理解可以達到90%的準確率和85%以上的召回率,配合人審機制,平臺標題黨內容相對可控。


04優質內容(以熱點內容爲例)


我們在使用一個資訊產品時,除了希望在百無聊賴的時候有內容用於消遣,更多希望在此產品獲取到新鮮資訊用以瞭解時事、緊跟社會。而對內容平臺來說,熱點內容的精準捕捉,便是突顯產品優勢的一個重要維度。


640?wx_fmt=jpeg


05特徵理解(以內容分類爲例)


特徵理解是深度學習的廣泛運用之一,是對文本按其內容進行分類。


資訊行業一般會對內容作300-500個分類,包括一級分類(如遊戲)、二級分類(如手遊、端遊等)、三級分類(如MOBA、PUBG等),部分平臺會將三級分類分得更細(如王者榮耀、絕地求生等)。


三級分類的精細理解,一定程度已經類似一個tag的使用,輔助用戶的歷史行爲和畫像,在推薦時往往能產生更好的閱讀表現。(如手機廠商的信息流產品,可以採集到設備上的app安裝,對一個安裝了“王者榮耀”的用戶,推薦王者榮耀相關的資訊內容是一個可行的探索)


對分類的預測是做成互斥的二分類模型,還是多分類模型,是需要特別去考慮的。二分類模型應用時推薦置信度更高,但召回相對離散,即被預測爲“古裝劇”的內容,不會被“動作片”召回;而多分類模型便可將“妻子的浪漫旅行”預測爲“綜藝”和“旅行”兩個分類,推薦場景便增加了更多可能。


以上介紹僅爲各個理解維度的一些項目示例,根據內容類型,我將常見的一些理解工作簡單概括如下。


640?wx_fmt=jpeg

640?wx_fmt=jpeg


實際應用過程中,多個模型互爲配合互相依賴,才能發揮最大的管控能力。


07業內開放的處理能力


內容理解也是巨頭廠商智能雲服務重點搶佔的市場之一,除了BAT之外,網易易盾、金山雲、科大訊飛等企業在此業務亦有大量投入和較優表現。


640?wx_fmt=png

640?wx_fmt=png

640?wx_fmt=png


但各家雲服務在理解內容時,成型的服務無法與業務線的標準完全對齊,而定製化服務收費不菲。內容平臺發展到一定體量之時,沒有自己的核心理解能力完全依賴付費業務,也非長久之計。


一個深度、精準、高效理解內容的中臺,是內容平臺之間競爭對抗的前提,在信息過載的行業時代,讀懂內容才能把握先機,角逐未來。


數智物語徵稿啓事-張大本事.png


|| 推薦閱讀 ||


鏈接圖片1.png


鏈接圖片2.png


鏈接圖片3.png



數智物語徵稿啓事.png


星標我,每天多一點智慧

星標備選20190408.gif




發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章