裴健:搜索皆智能,智能皆搜索

 2020-06-27 03:19:40

裴健:搜索皆智能,智能皆搜索

作者 | 陳大鑫

編輯 | 叢 末

6月23日,加拿大西門菲莎大學教授裴健在第二屆北京智源大會上做了《 智能搜索:從工具到思維方式和心智》的報告。

裴健:搜索皆智能,智能皆搜索

裴老師最近當選爲加拿大工程院院士,現在是加拿大皇家科學院和加拿大工程院的兩院院士。裴老師是國際著名的數據科學、數據挖掘和數據管理專家,專長於通過數據戰略制定、數據資產管理、數據資源整合和數據產品設計研發把數據和技術轉化爲業務能力和效益。他同時是多家企業的顧問,提供高端戰略諮詢和技術諮詢服務。其論著被引用九萬七千多次。有關裴健老師的更多獨家信息,請移步 《我所知道的裴健和華人數據挖掘大牛們 | 中國人工智能簡史》一文。

北京智源大會是智源研究院主辦的年度國際性人工智能高端學術交流活動,2019年舉辦了首屆大會,今年爲第二屆。大會參會官網:2020.baai.ac.cn。

裴健老師在這次的演講中提出了三個核心觀點:

第一,搜索皆智能,搜索以人爲核心,以滿足人的信息需求爲目的,所以它天然就包含了智能成分。

第二,智能皆搜索,我們要做到智能必須要用到搜索的方法,目前人工智能的很多應用都是搜索任務,智能和搜索同行。

第三,智能搜索不僅是一個單純的技術問題,更是一個與人相關的問題,我們必須要一起努力,使得每個人都不會被落下,讓智能搜索服務全人類。

在演講最後,中國人民大學教授、智源首席科學家文繼榮與裴健老師進行了精彩的問答互動:

智能搜索和智能推薦可能比我們想象中更深刻地影響到我們每天的生活,比如你有一個問題,你的第一反應是不是去搜一下?或者說你想獲取什麼信息,你會第一時間打開如頭條、微博、知乎這樣的一些APP,然後去看它給你推薦了一些什麼?

做搜索、推薦、數據分析的人責任是非常重大的,如果這方面做得不好,在極端情況下就有可能改變我們下一代甚至改變人類的思維方式,改變我們對世界的看法,因爲一個人對整個世界的看法更多地是由他接收到的信息、他的經歷所塑造的。如果我們的信息推送和用戶檢索到的信息是有問題的,比如剛剛提到的信息是有偏見的,比如我看什麼就給我推薦什麼,那我就進入了信息減法的世界,我可能會失去了解這個世界的更多可能性

通過這次精彩的演講和問答互動,我們可以從智能推薦或者個性化推薦等技術中看到一些人文關懷和哲學反思。

人文關懷:老人會不會因爲不會用智能手機、不會用電腦而享受不了智能搜索帶來的紅利?比如說殘疾人和在偏遠地區、經濟不發達地區的人會不會因爲達不到智能搜索的入門門檻而被慢慢拋棄?我們應該如何解決這些問題?

哲學反思:隨着我們越來越依靠智能搜索、個性化推薦,我們是否會失去了解這個世界的更多可能性?我們是否會失去一部分原有的“自由意志”?究竟是我們馴化了這個信息流世界還是被其馴化?

以下爲裴健演講正文:

今天我報告的題目是智能搜索:從技術工具到思維心智。

首先,讓我們來簡單回顧一下搜索的基本概念。在搜索當中,我們假定用戶有信息需求。用戶的信息需求往往不能直接被搜索系統直接理解,於是用戶把信息需求轉化爲搜索系統的查詢。搜索系統得到用戶的查詢,找到相應的結果,可能是一些文檔、圖片、圖像或者是生成的內容,返回給用戶。用戶可以根據這些是否是所需要的,產生相應的反饋,搜索系統根據用戶的反饋來決定是否需要去對搜索進行增強。這樣一個過程不斷循環,直到用戶信息需求得到了滿足,整個搜索過程就結束了。

裴健:搜索皆智能,智能皆搜索

這個過程聽起來非常得完美,很簡潔。但在實際當中,搜索並不是那麼簡單,要比這個複雜得多。

1

 

搜索皆智能

在實際生活當中,“用戶信息需求是固定的”這個假設命題其實是個僞命題。在很多情況下,用戶的信息需求不斷變化。更麻煩的是,用戶本身可能並不清楚自己的信息需求到底是什麼。舉個例子來說,比如我聽說某個小區有新型肺炎的新感染案例,發出一個“新冠肺炎感染病例”的查詢,那麼這個查詢到底是想問什麼呢?用戶自己可能並不清楚,在很多時候用戶可能是發出一個查詢先問一下,看搜索引擎給返回什麼樣的信息。用戶和搜索引擎的交互過程就是一個探索的過程,用戶的信息需求在不斷變化。在“新冠肺炎感染病例”的例子裏,用戶可能想問的是這個感染病例是不是得到了治療?感染病例的具體情況是怎樣的?看到搜索引擎的回答後,用戶可能馬上想到這個感染案例對小區的生活,如出行、購物等,有什麼影響?大家可以看到信息需求是不斷變化的,我們在搜索過程中不能假定用戶的信息需求是不變的。信息系統必須想辦法去理解用戶的真實信息需求,爲用戶提供探索的工具。因此,搜索本身從一開始就是智能的,因爲它把人擺在了整個過程的中心。

裴健:搜索皆智能,智能皆搜索

下面舉個例子來講一下搜索過程爲什麼是一個探索的過程。在VLDB-2019的會議上,我的研究小組發表了一篇社團搜索的文章。和很多已有的社團搜索工作不太一樣,我們假定在每一個網絡節點上都有一個數據庫。如果這個網絡結點是一個人,那麼這個數據庫就可以是這個人以往購買東西的整個歷史。如果這個網絡結點是一個論文作者,那這個數據庫就是他以前發表的所有論文的集合。我們關心在這樣一個網絡裏面怎樣找到社團?

裴健:搜索皆智能,智能皆搜索

我們希望社團內成員之間不但有很密切的網絡連接關係,還能在數據庫上又有非常相似的模式。

這樣社團有什麼用呢?舉例來說,在論文作者的數據網絡上,用戶可能關心的是能不能找到那些用數據挖掘方法來研究人臉識別和圖象檢索的社團?我們的搜索首先形成了一個查詢模式a1。

裴健:搜索皆智能,智能皆搜索

同時,我們的搜索算法還能夠提供針對a1的各種細化,比如b1、b2、直到b8。在這些細化當中我們會專門看各個具體的分支,包括算法具體分支和問題具體分支。這些分支給用戶帶來探索方向和探索方便。這種探索可以進一步往下走。比如說b8可以進一步探索到c1、c2兩種具體的情況。整個過程是一個不斷深入、不斷嘗試、不斷修正的探索過程。

2

 

智能皆搜索

搜索皆智能,搜索要用到大量的人工智能技術,所以我們要通過人工智能技術去理解用戶的信息需求。同時,智能很複雜,智能的每一個任務都需要多多少少用到搜索技術。

什麼是智能?智能是關於連接的,我們需要把不同的數據、不同的知識點連接起來;智能是關於推理的,我們需要對數據、對知識進行相應的推理;智能是關於泛化的,我們有具體的觀察,我們希望通過若干具體的觀察、具體的例子來泛化來概括成通用的規律;智能還需要去做具體化,我們有一些通用的原則,要把它用到具體的事例裏面,提高具體事例處理的效率和效果。所有這些都需要搜索相應的數據,搜索相應的知識,搜索相應的連接。所以智能皆搜索,智能離不開搜索,智能必須通過搜索來實現。

裴健:搜索皆智能,智能皆搜索

下面舉個一個我們KDD 2016論文中的例子來介紹我們怎麼通過搜索來達到知識發現。我們可以在WordNet的網絡上面找到很有意思的一些社團,每一個社團內部非常相似,社團成員之間有很強的關聯,同時,社團之間非常對立,有非常大的差異。

裴健:搜索皆智能,智能皆搜索

當我們把這個問題用在形容詞網絡裏面,我們就找到了大家在膠片上看到的Group1和Group2這樣對立的社團,所以我們把它叫做gangs in war。大家仔細看,每一個社團內部是一組同義組,Group1和Group2之間是反義詞關係。我們用智能搜索帶給我們新知識,我們可以在詞的網絡上自動發現同義詞和反義詞。

裴健:搜索皆智能,智能皆搜索

剛纔我們講了搜索皆智能,智能皆搜索,所以智能和搜索是密不可分的,二者緊密結合,搜索和智能同行。這裏包括兩個意思,第一,我們需要用搜索的技術來達到更好的人工智能。像我剛纔舉的例子,我們可以通過很好的搜索來自動的發現知識,同時我們需要用很多的智能技術和計算來使得搜索更加有效。這裏的智能不單單只是人工智能,還包括了很多真正的人的智能,因爲我們最終的搜索是爲人服務的。

裴健:搜索皆智能,智能皆搜索

這裏舉一個例子,這是我們最近剛剛完成的一個論文,我們研究的是基於Web-scale的多語言問答系統。問答系統有很多,在很多商用的搜索引擎裏面都有相應的問答功能。當一個用戶給出一個問題,例如說想知道感冒症狀,搜索引擎可以總結出像下圖左邊的信息卡,這個信息卡上會列出相應的感冒的症狀甚至是治療的方法。這給用戶帶來了很多的便利,在一定程度上這也是對知識的抽取和總結。

裴健:搜索皆智能,智能皆搜索

當搜索引擎給出這樣一個答案時,這個答案是否滿足了用戶的信息需求?這個答案的知識是否正確?是否有用?我們希望能夠得到用戶的反饋,我們希望用戶用人的智能來幫助機器進行學習。這裏有一個挑戰。很多情況下,用戶看過答案但並不一定給出一個顯式的反饋,理解人的反饋是一個非常複雜的過程。在這篇論文裏面,我們系統地研究瞭如何觀察、推理用戶對搜索引擎所給出的問答信息的反饋,如何對用戶的行爲進行挖掘,抽取相應的反饋信號,用這些信號來改進我們的QA系統。

裴健:搜索皆智能,智能皆搜索

上圖是在一個全球化商業搜索引擎數據集上面所做的實驗結果。當我們的系統考慮了用戶真正的已知反饋之後,整個搜索效果比不用這個反饋的系統好得多。同時,我們可以看到一個非常有意思的現象:這種智能搜索所發現的知識可以在不同的領域進行遷移。

裴健:搜索皆智能,智能皆搜索

舉個例子來說,在整個模型建立的過程中,我們用的是英語數據,在英語數據裏面,我們抽取了相應的問答和相應的用戶反饋。英語裏發現的知識完全是可以往別的語言遷移,如德語和法語。遷移的效果很好,在法語的數據集上面我們用了很少的大概5K的數據就能夠達到如果沒有跨語言的遷移、沒有反饋的時候需要用50K的數據才能達到的效果。也就是說,通過應用用戶的反饋,我們能夠大大減少相應的數據需求,我們的確可以通過智能化的方法理解用戶,並讓用戶把人類智能來幫助我們的機器。我們的技術已經在一個大型商用搜索引擎的多語言服務中上線應用。

3

 

智能搜索,與人相關

因爲搜索的主體是人,所以搜索並不簡單是一個技術問題。最近在《紐約時報》有一篇很好的文章,題目就是Tech is global. right?:技術是全球化的,對嗎?對,技術是全球化的。

裴健:搜索皆智能,智能皆搜索

這篇文章談到了很多先進的美國企業把相應的技術和平臺用到別的國家和地區效果不好。這裏面涉及到很多因素,特別是很多與人有關的因素,例如說本地化、可理解性、文化、公平性、隱私保護、模型的複雜性、安全性等等。如果我們要把智能搜索做好,就必須密切考慮人的因素。

其中,深度學習模型的複雜性是一個重要的因素。我們最近剛剛完成了一篇KDD2020的論文在這方面做了一些探索。模型複雜性本身是一個很複雜的問題。在很多場合下,人們可能只是簡單地比較兩個模型之間的準確度或者別的一些性能指標,但哪怕兩個模型的性能在測試集上是完全一樣的,並不意味着這兩個模型的本質是一樣的,也不意味着它們捕捉了同樣的客觀現實。

裴健:搜索皆智能,智能皆搜索

舉個具體例子,上圖這兩個模型在相應的數據點上是完全一致的,但是這兩個模型其實差得非常遠。因此我們需要有一個系統的方法來衡量模型的複雜度、來衡量模型到底有沒有對數據過擬合。我們的KDD2020上的論文就在這方面給出了一些新的方法。

與模型和搜索方法很相關的另外一個問題是可解釋性,一個模型要獲得大家的信任,它必須有良好的可解釋性。我們認爲,模型的可解釋性一定要滿足兩個原則。第一是準確性:如果我用一個模型來解釋另外一個模型,那這兩個模型必須在數學上等價。如果不等價,解釋就可能會有問題。第二,模型的解釋必須是一致的。一致是什麼意思呢?如果我有兩個非常相似的樣例,它們相應的解釋也應該非常相似,這才能夠符合人的直覺。可解釋性問題的核心是把一個黑盒子轉化爲一個白盒子。

裴健:搜索皆智能,智能皆搜索

我們KDD2018的論文通過把一個深度網絡轉化爲一個基於內部神經元狀態的向量,給出基於多胞體(polytope)的解釋。這樣所得到的解釋是精確的:從數學上解釋的模型和原來的深度網絡等價。同時,解釋也是是一致的:如果兩個點很相近,它們落在同一個多胞體裏面,它們就會遵從相應的相同的線性分類器,所以它們的相應解釋也會是一樣的。

裴健:搜索皆智能,智能皆搜索

在今年的ICDE論文中,我們把解釋模型推到了雲端。以往的解釋工具往往需要知道整個模型的參數,甚至要知道相應的很多訓練數據。在今年的ICDE論文裏,我們提出可以把整個模型作爲一個黑盒,然後給出準確和一致的解釋,不需要知道模型的參數和訓練數據。這裏核心的想法是:如果我們有若干的樣例,這些樣例落在同一個多胞體裏面,它們就應該遵循同一個線性分類器,於是我們可以建造一個線性方程式系統,用此來爲我們提供相應的解釋。

關於怎麼樣把智能搜索做好,我們講了很多。但是我們應該要充分認識到一點,智能搜索也在不斷地改變我們的心智。

裴健:搜索皆智能,智能皆搜索

在國外大家經常說這句話:如果你遇到一個不瞭解的事情怎麼辦? 用搜索引擎查一下(google it)。在國內也有俗語叫:內事問度娘,外事問谷歌。搜索的過程和結果很深刻地改變了人類的思維和學習方式。在某些方面搜索拓寬了我們獲取信息的渠道和速度,使得我們更聰明。但在另一些方面,我們可能會過度依賴智能搜索,在很多地方會變得笨了。這裏,信息的準確性和公平性變得非常重要

在這次的疫情當中,我們都知道虛假信息是非常嚴重的一個問題。很多小道消息、虛假消息通過社交媒體傳播產生了很壞的作用。最近推特幹了一件很有意思的事情,他們用了一個簡單聰明的辦法來對付虛假消息。他們觀測到有很多人在社交媒體裏面看到一個有意思的標題就轉發了,但並沒有看過那個文章。於是推特在你轉發一個沒有看過內容的推特時,提示用戶其實沒有看過這篇文章。這個提示對於降低虛假消息的傳播會有很大的幫助。但是這種幫助是有代價的,它需要我們犧牲一定的隱私。推特需要知道你看過什麼才知道你有沒有看過自己轉發的東西。這裏有一個挑戰性的均衡:我們到底需要保留什麼樣的隱私,怎麼樣制止虛假消息的傳播。

裴健:搜索皆智能,智能皆搜索

我們知道抖音在國內外都非常成功,已經出現了一代新的人類叫作Tik TOK Generation。它們通過智能的搜索和推薦技術把人與人連接起來,把內容和內容連接起來。在內容創造上Tik TOK Generation以及這類新媒體有一些重要的特點。其中之一就是媒體內容本身不是那麼重要,反而對媒體的評論和媒體的跟進會更重要。大家經常跑到很多新媒體上並不是看它真正的內容,而是看後面跟着的評論。由於智能搜索和智能推薦技術的發展使得人與人之間的連接、內容與內容之間的連接、人與內容之間的連接更加容易、更加廣泛。很多人原來並不需要互相認識,但是通過這個智能搜索和智能推薦他們會聯繫在一起,形成長期的交互,這就導致了我們現在面臨着新一代所謂的熱情經濟。

裴健:搜索皆智能,智能皆搜索

跟傳統的零工經濟經濟相比,熱情經濟有一系列新特點。舉例來說,熱情經濟從業者不斷地產生新內容,不斷地吸引更多的觀衆獲得相應的營收,這是以往很多經濟模式不具備的。同時由於智能搜索、智能推薦和平臺的連接作用使受衆面會大大提高,更多有創意的產品和服務可以以更低的成本推向服務市場,這些也給我們帶來很多新機會和新挑戰。

熱情經濟完全是基於新的技術、新的軟件、新的媒體。智能搜索是熱情經濟的核心技術,通過技術的進步使得平臺更加有效、內容開發更加方便、創業更加快捷、創業者和受衆的聯繫更加緊密、交互更加方便。

智能搜索徹底改變了我們的生活。可以說智能搜索已經變成了我們無時無刻、無處不在的需求和工具。智能搜索同時也會產生很多新的挑戰。其中一個核心的挑戰是我們怎麼確保智能搜索服務於社會的每一個人,沒有人因爲各種限制而被智能搜索遺棄。

裴健:搜索皆智能,智能皆搜索

舉個例子來說,老人們會不會因爲不會用智能手機而享受不了智能搜索帶來的紅利?又比如說,殘疾人、偏遠地區和經濟不發達地區的人們會不會因爲達不到智能搜索的基礎設施入門門檻而被拋棄?這些都是我們需要考慮的問題。我們都知道現在醫院掛號經常需要用智能手機來預約,但是很多老人,特別是那些七八十歲、八九十歲的老人,並不會使用智能手機,用起來也很不方便。他們怎麼才能獲得信息渠道並消費這些信息?這些都是我們做智能搜索的人需要認真考慮和抓緊行動的方向。我個人認爲智能搜索遠遠不僅僅是一個技術問題,也遠遠不僅僅是一個人工智能的問題,它是一個非常複雜的全社會的系統工程。

問答環節

文繼榮:對智能搜索和智能推薦來說,所謂的智能就是越來越瞭解你,以人爲中心來了解你,它給你的信息越來越趨近於你過去的興趣和經歷,但是這樣會不會使你失去了解這個世界多樣性的可能?在整個大的框架方面或者在整個研究方向上面,有沒有更多的深刻思考?

裴健:智能搜索化、智能推薦已經成爲下一代人類重要的信息入口,也是非常重要的信息出口。只能搜索把握了這一進一出,對未來的人類有很大的塑造能力。這也許是大家做技術的時候並沒有特別深思的一個問題。我們一點一滴的技術貢獻會怎樣改變未來人類學習的方式、思考的方式和所知所行。這裏面涉及很多問題。例如說我們可以通過可適應性使得我們的教育效率提高,使得一個人更容易學習。但是可適應性在一定程度下又可能有缺陷。我們如果過分遷就人類的惰性,就可能會使一部分最聰明的人失去了挑戰更高高度的機會。再例如,到底讓智能搜索受衆學什麼?怎麼保證整個環境公平性?大家開始去思考,但是遠遠沒有答案。我在演講的最後也強調了這不是簡單的技術問題,這是全社會的很複雜的問題。

觀衆發問:感覺像谷歌、百度這些巨頭已經形成了壟斷,其它的搜索引擎或者其它的新的搜索工具經歷了多年都沒有成長起來。請問這些研究智能搜索方向的人除了到這些巨頭公司工作以外,還有沒有更好的出路?

裴健:搜索仍在不斷地創新,現在所有商用搜索引擎最頭疼的事情是越來越多的高質量信息不在公開的互聯網上,而在相對封閉的社交媒體上。例如說在朋友圈有很多質量高的信息源,但這種信息源是通用搜索引擎查不到的。怎樣把這些信息源整合起來形成一種更強大的搜索能力?這是一個有意思的研究方向。現在很多的搜索跟廣告、商業模式結合起來,是商業驅動、利潤引導。最近原谷歌的兩位高管創辦了一個新公司,這個公司做的搜索引擎Neeva號稱不會有廣告,而且要打通一些社交媒體,使得搜索的面更廣。這些新業務模式不管成功與否都是非常有意義的嘗試。智能搜索從就業、創業的角度來說有很廣闊的前景。同時智能搜索會涉及到我們生活中的方方面面,例如說在IOT環境下怎麼做智能搜索?這些都是現有的面向通用web搜索所不能涵蓋的,也會是很有意思的方面。

文繼榮:現在搜索引擎不管從主要的核心功能還是到形態上已經幾十年沒有變化了,實際上現在很多東西都在變,比如說裴老師講的熱情經濟,還有國內的一個網紅經濟,現在都是影響非常大的。我昨天看了一個新聞說的非常好玩,浙江餘姚區網紅可以評爲國家級創新人才,不知道真的假的。實際上這個世界在飛速的變化,可能很多時候你認爲沒有變化空間的時候就是會開始很大變化的時期。就搜索來說,我覺得就直觀感受而言還遠遠達不到我們真正想要了解的世界。

這次新冠病毒期間,我覺得甚至可以開一個研討會來討論一下這中間的很多問題,人們在獲取信息時出現了很多問題,有虛假信息問題也有信息多樣性問題。這些信息對大家的影響是巨大的,你可以經常感覺到整個朋友圈都在轉發和討論一個信息。尤其大家在家裏沒辦法面對面交談,你可以通過控制信息來控制大家的觀點和情緒,這個事情我覺得是非常重要的。我們人類將來會走向更加數字化的階段,從搜索和推薦的角度對信息進行獲取和處理,我覺得我們到了一個全新的時期,我們需要去探索。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章