Google搜索算法是如何越來越懂你的?

目前,Google 正在對其核心搜索算法進行一項修改,該算法的改變可能會對多達 1/10 的搜索結果排名造成影響。而 Google 是如何修改其搜索算法的呢?關於 Google 修改算法的技術,筆者援引相關文章進行了不改變原理的編譯。

【 圖片來源:THE VERGE 所有者:THE VERGE 】

據悉,這一修改是基於 Google 研究人員開發的前沿自然語言處理技術(NLP),它在十個月前就已經應用於其搜索產品中。Google 聲稱,它可以通過更好地理解單詞在句子中的相互關係來改善結果。此前,Google 在一次新聞發佈會上討論過一個例子,他們的搜索算法能夠解析短語的含義——“Can you get medicine for someone pharmacy?”

Google 研究員兼搜索副總裁 Pandu Nayak 表示,舊的 Google 搜索算法是將這句話視爲“詞袋”。因此,它會查看那些重要的單詞,即“medicine”和“pharmacy”,然後再簡單地返回本地結果。而新的算法能夠理解 “for someone” 這個詞的語境,從而意識到這是一個關於你是否能向別人拿處方的問題,然後返回到正確的結果。

據瞭解,調整後的算法基於 BERT(雷鋒網按,Bidirectional Encoder Representations from Transformers),即“變壓器的雙向編碼器表示”。重要的是,BERT 不是把句子當做“詞袋”來對待的,而是把句子中的所有單詞作爲一個整體來看待,這麼做能夠讓它意識到“for someone”對句子的意義至關重要, 是不能夠被省略的。

值得一提的是,BERT 是通過自我學習去注意到這些詞的。Google 蒐集了一個英語句子的語料庫,隨機刪除了 15% 的單詞,然後 BERT 被設置去指出被刪的單詞是什麼。對此,高級研究員和研究高級副總裁 Jeff Dean 表示,隨着時間推移,這種訓練會使 NLP 模型更有效地理解上下文。

另外,Google 還引用了另一個例子——“parking on a hill with no curb”。其中,“no”一詞對句子的查詢至關重要;但在實現 BRET 算法之前的 Google 算法是忽略了這一點的。

【 圖片來源:THE VERGE 所有者:THE VERGE 】

Google 表示,在過去的幾天裏,他們已經推出了新的算法,新算法應該會影響到美國 10% 的英語搜索查詢(其它語言和國家暫不討論)。

雷鋒網瞭解到,爲了確保能夠改進結果,所有對搜索的更改都要經過一系列的測試。在這些測試中,其中有一項是用 Google 的人工審覈隊伍來評估搜索結果的質量,以此來訓練該公司的算法。不僅如此,Google 還進行了 live A/ live B 測試。

要知道,不是每次查詢都會受到 BERT 的影響,它只是 Google 用來對搜索結果排序的許多不同的工具中最新的一個。至於它們是如何協同合作的,這還是一個謎。其實,Google 有意讓其中的一些過程保持神祕,以防止有人利用它的系統發送垃圾郵件。

而另一個重要的原因是:當電腦利用機器學習做決定時,很難知道爲什麼它要作出這些選擇。這就涉及到機器學習的“黑匣子”問題,如果結果在某種程度上是錯誤的話,是很難診斷出原因的。

Google 表示,他們已經努力確保將 BERT 添加到算法中不會增加偏差——這是機器學習的一個常見問題,機器學習的訓練模型本來就存在偏差。此外,由於 BERT 是在一個巨大的英語句子語料庫中訓練的,並且這個語料庫也有固有偏見,因此,這也是一個值得關注的問題。

Google 還表示,他們預計自己的算法不會引導流量產生什麼重大變化,至少在大型出版商看來是這樣的。事實上,只要 Google 的搜索算法出現變化,整個網路都會關注。

另外,值得一提的是,由於 Google 的搜索排名有了變化,一些公司也變得生死未卜。其實,每個通過網絡流量賺錢的人都應該注意這一點。當提及搜索結果的質量時,Payak 表示:

  • 這是最大的一個......這是我們在過去 5 年裏所經歷的最積極的變化,可能也是自一開始以來最大的變化之一。

本文轉自雷鋒網,如需轉載請至雷鋒網官網申請授權。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章