劉建國:那五年百度在做什麼

  對百度,CTO劉建國的採訪過程就是一個擠牙膏的過程,他永遠不會借題發揮,對採訪者的問題,回覆得簡練而專注。

  這位與李彥宏一起創立百度的“技術新官僚”,對搜索引擎技術運用的思考,在一定程度上體現了這個新上市公司的商業方向及這個團隊的技術想象力。

  採訪中,劉建國不斷接到要求解封的“作弊網站”的電話,大多是熟人才會直接將電話打到他這裏,或是打給李彥宏。採訪由此而展開。

  反作弊是我們的技術

  《21世紀》:李彥宏選擇搜索引擎作爲百度的主業,當時是怎麼確定的?

  劉建國:2000年之前,中國有許多搜索引擎公司,Goyoyo是香港一個公司做的;科學院有一個網站,還有北大天網。當時創立公司時搜索引擎已經很多了。我們機會在哪裏?在當時我和李彥宏的通信中,他說要做就做最好的。當時已有的搜索引擎速度慢,索引小,用戶體驗很差。我們都認爲做一箇中文搜索引擎有很大前景,所以我就從北大出來,跟李彥宏一起創業了。

  《21世紀》:現在來看,當時搜索的核心技術是什麼?

  劉建國:分成好幾塊,一塊是網頁抓取,由蜘蛛程序選擇、抓取互聯網中的網頁,還要持續不斷地更新網頁,將過期的網頁剔除掉;二是超鏈分析和內容分析;三是針對用戶的搜索服務:如何處理海量數據和大規模的用戶訪問?如何提供穩定的服務?有很多技術問題需要解決。

  《21世紀》:你們是一幫人在做?

  劉建國:好多個組,重點是相關性的評價。哪些網頁是用戶想要的?後面就有好多技術;比如超鏈分析;這裏有李彥宏的專利。超鏈在Infoseek之前就有成熟的技術,李彥宏在那兒工作時就研究得很細,但我們沒有僅用這套方法,而是根據當時搜索引擎全球的發展做了改進。

  《21世紀》:百度在相關性方面有什麼特色?

  劉建國:有兩個基本方面:超鏈分析和內容分析。我們這幫技術人員,包括李彥宏,根據搜索引擎當時的技術發展,做出了一套百度自己的超鏈分析系統。另外還得分析網頁內容,比如中文處理就很重要,要理解中文的語法和特定文字意義,因爲中文與英文還是不一樣的,只有判斷文字是什麼意思,才能給用戶提供搜索結果。

  《21世紀》:“欺騙搜索”是什麼意思?你們有什麼獨特的技術來對付它?

  劉建國:就是所謂的網絡優化,比如SEO之類,鏈接一些域名,好象鏈接很多,但實際上是人爲做出來的。還有一些鏈接,就是專門幫別人做鏈接,這也是超鏈分析。你不是鏈接分析嗎?專門針對你。還有一些網站,專門給別人做,相關度也高,我們必鬚髮現哪些是LINKFORM,然後分析出來。

  《21世紀》:這如何看得出來?有簡單工具嗎?

  劉建國:我們已經可以通過技術手段及時發現這種欺騙或者叫作弊。是否作弊,有一個很簡單的標準:用戶看到的內容和搜索引擎看到的內容是否一致?前一段搜索“芙蓉姐姐”,進去之後很多是買手機的,買其他信息,這就是作弊。我們就分析,他們是通過什麼方法來“欺騙搜索”。比如LINKFARM,我們靠技術發現出來,它已經“堆砌關鍵詞”了,我們看出它是作弊的,我就不要它。這就是爲何後來反彈這麼大,有了“反百度聯盟”的原因。有“反百度聯盟”成員說,你爲什麼屏蔽我?前一段搜狐網的一個峯會,一個醫藥網的說我們很好啊,你爲什麼把我給封了?它的“堆砌”是作弊的,如果我們把它放開,對用戶是一種欺騙。

  《21世紀》:比如在百度搜“芙蓉姐姐”,你們把有些“芙蓉姐姐”鏈接給屏蔽了,那就不能給用戶提供更多的結果了?

  劉建國:是更準確,比如用戶到這裏來搜,得到的是真正的“芙蓉姐姐”而不是手機鈴聲。這樣做的目的是給用戶很好的用戶體驗。

  《21世紀》:在反作弊技術裏,有什麼可以明確識別作弊?

  劉建國:比如,來回互相鏈接、堆砌關鍵詞等。還有前景色和背景色完全一致,在HTML裏面,用戶看不見,可以騙搜索引擎,就這樣騙用戶。

  《21世紀》:僅僅背景色也可以用來作弊?

  劉建國:背景是黑色的,搜索看見的僅僅是內容,是看不到背景的。前景與後景一樣,機器看不着,人能看出來,景色也是識別的因素。其中的文字就是有些網站想欺騙的東西。有很多方法作弊,層出不窮的。搜索與作弊網站是永遠不會結束的戰爭。

  《21世紀》:有沒有可以“招安”的作弊網站?

  劉建國:不會的。他們的利益很大,騙一點是一點,不會到這裏來做。

  《21世紀》:有多少這樣的網站?

  劉建國:每天碰到成千這樣的網站。

  《21世紀》:他們到哪裏拉客戶?

  劉建國:不一定拉客戶,他們可以自己做鈴聲、短信,SEO會拉企業,給錢,我給你排位。

  另一個“敵人”是Google嗎?

  《21世紀》:與Google的反作弊比,你們有什麼優勢?

  劉建國:說Google的技術比我們好,我不認同,他們主要是不夠集中。比如反作弊的,Google中文就做不過我們,這有技術問題,還有人力,要知道作弊慣用的手法,而Google不知道。這個模式我們比Google發展得更快,我們更接近用戶。我們中文的理解做得比他們好,比如像分詞、切詞,中文是一個一個字,放一塊兒,那些字和詞是不一樣的。我做得比Google好。他們沒有專門研究中文。

  《21世紀》:你們是用自己的技術?

  劉建國:是的。我們中文分詞,這個技術裏面沒有英文,中文本身的處理我們已經到位,還有語法的應用,我們做得很好。語法是主謂賓,如何用,老外不理解。

  《21世紀》:你們用以前的文字識別技術嗎?

  劉建國:對中文我們有一套獨特的做法,現在成熟的技術都不太適合我們。

  《21世紀》:有沒有用哪個平臺?比如大的軟件?

  劉建國:這個軟件是我們自己做的。

  《21世紀》:是應用軟件?

  劉建國:不是一套。我們直接用自己的東西。比如說詞典、分詞、詞彙。這不是釋義的詞典,可能有很多資源。比如我們用人民日報的語料庫,我們購買這樣的資料。更多的平臺是我們自己的搜索引擎。我們有日誌,總結新的詞彙。我們對10億計的網頁也能分析。這是Google中文做不到的。至少沒有聚焦。另外從中文用戶體驗來說,我們也做得比他們好,比如用戶體驗是什麼、習慣是什麼。比如相關搜索,在中文裏面,用戶心裏想的一個事情,比如“軟件”這個詞,用戶心裏想的是軟件下載,但搜索的是“軟件”這個詞,他輸入“軟件”,與搜索不符。百度會提示得更加精細化,到底是軟件下載還是加密,全自動服務,這樣用戶會覺得很好。類似的工作我們下了很多功夫。其他像拼音檢索,錯別字糾正,我們也能正確提示。現在有些搜索正在抄我們。我認爲不能崇洋。

  從競價排名平衡用戶體驗

  《21世紀》:從用戶體驗來看,曾經一度Google要比你們好些,比如競價排名不是他們主要標準,信息的直接有效很重要。

  劉建國:這是另外一個誤區。搜索結果的首頁我們有多少競價排名呢?沒多少,最多不超過20%,我們的原則是用戶體驗是第一位的,而且是真正相關的。現在20%是被人定製的,其他是免費體現的,是有用的。實際上,20%的競價排名也是在嚴格的人工審覈下去通過的。

  《21世紀》:人工審覈能不能有一個例子?

  劉建國:我們有一個30人的組,比如用戶提一個詞,看是不是真正跟商品有關的。第二,鏈接的這個網站,是不是做商品的。即使是客戶定製的競價,競的是某個關鍵詞,我們也要看是不是商品、是不是服務。

  《21世紀》:如何決定?

  劉建國:人工能查出來,當然也有很多調整。比如IBM,我們考慮把IBM放在最前,後來還是把IBM中國放在前面。雖然阿里商城(IT銷售商)交錢了,但第一個仍是IBM中國,我們也是考慮到用戶的體驗。

  《21世紀》:就是說要在用戶與客戶之間平衡?在網頁上還有哪些直接體現?

  劉建國:收費的內容均有標誌,比如“百度快照”不是收費的。

  《21世紀》:你們賣得最好的關鍵詞是哪些?

  劉建國:比如“鮮花”,就有很多人買。第一條是買的,是實時變化的,誰的價高就買到最前面去了。

  百度不再用“插件”營銷

  《21世紀》:你們的營銷方式曾經是以“一個插件”(業界通稱爲“流氓軟件”)來解決?

  劉建國:這不是最關鍵的。當時主要是與3721打,競爭太激烈了,這是環境所致的。

  《21世紀》:現在“插件”還用嗎?

  劉建國:我們插件裝得挺少的。與有的搜索比,百度這種“流氓軟件”最少,插件不是主流的,現在都已經走向正規了。插件只是推廣手段,今後變成用戶自己主動。百度的插件是可以卸掉的,比如搜霸。但有些搜索,沒有點就生成了,這種推廣手段我們以前做過,但後來停了。如果用戶要覺得好,可以自主選擇,我們可以保證,用戶不會被動選擇、不遵從他的意願——被動強制性的。

  《21世紀》:你們去掉了哪些“插件”呢?

  劉建國:我們的不會自動彈出來,也不會誤裝。

  《21世紀》:我們可不可以說,百度以前用過“插件”,現在不用了?

  劉建國:現在都不用了。我們就是一個搜霸,百度聯盟,而且推廣方式不是強制性的。搜霸確實也有好處,節省了用戶時間,一步到位。我們不會用以前的推廣方式。但有些網站點進去就是網絡實名,就是靠彈出,非意願的。我們原來也用得很少,也是百度聯盟成員自己用的因爲裝上後有收益。現在誰利用這種方式裝,就不讓加入聯盟了。

  《21世紀》:有多少個聯盟成員?

  劉建國:現在有好幾萬。如何管理這些聯盟也是一個大問題。

  技術與人工、誰排第一?

  《21世紀》:剛纔提到相關性、超鏈分析、反作弊,結合起來形成了你們的核心價值嗎?

  劉建國:是。但如何調節這些東西,各家都不一樣。超鏈分析是共用的。大家都在用。沒有一個公司去公佈搜索技術,因爲這是一個商業祕密。我們是經過5年多積累纔出來這樣好的結果。這些都是核心技術,一定得積累。

  《21世紀》:共享的經驗有哪些?

  劉建國:各個公司不一樣,不能公佈細節。

  《21世紀》:你們重要在分析用戶還是客戶?

  劉建國:重要的是分析網頁,網頁與網頁之間的分析。WEB的方式,是由HTML組成的。網頁與網頁之間的是URL,最大好處是網頁與網頁之間可以用超鏈來指,叫HYPERLINK,指向另外一個網頁是做什麼的。比如“中國人民銀行”會指向很多東西,每個都是鏈。他們指向他,LINK有一個叫評價,U1對U2的評價。第一是指向,第二是評價。這是一個網頁,“中國人民銀行”就是超鏈,他指向另外一個——有說明中國銀行是做什麼的,指向後,另一個是指向的U2,另外還有U3。很相關的排前面,找到最權威的。最後綜合加權,中國人民銀行大,其他商業銀行小,那麼就加權,算出來結果誰排前面。

  《21世紀》:你們做這些,有沒有編輯?

  劉建國:有的網站有,我們沒有,但我們有人工。網站不需要編輯,我們是靠技術,要把這些東西都拿過來。剛纔說的抓取、分析是否相關,生成抓取的排名。抓取要分析,之後建立索引,把內容到URL的一個檢索,之後提供服務。抓取,分析、檢索、服務四個環節。

  《21世紀》:你們的技術部門是按四個環節來分的?

  劉建國:我們有很多組,做不同工作。

  《21世紀》:你們的生產環節與通常的產品定義不一樣。

  劉建國:是有些怪。比如說我們是如何攻關:要分析、提出問題,每個部門都提,李彥宏也會參與。

  《21世紀》:你們最近提過什麼問題?

  劉建國:我還不想透露太多的細節,比如抓取。我最近要提出一個問題:網站的覆蓋率。要研究中國所有的網站。我們平常與Google比較,我們來看交集,相同的內容是多少?各自抓多少?我們發現交集不多,我們獨自的較多,這是所有搜索的共性。我提出說,要去調研,爲什麼會有這種差距,這種差別是如何產生的,沒抓的是什麼特性?Google抓的是什麼特性?Google是海外的嗎?這都是一種猜想。我們要去調查,然後去做方案,方案再討論是不是可行。這樣持續不斷地做,技術的含量很高。效果都是很客觀的,都是真刀真槍的。

  《21世紀》:技術隊伍如何分工?

  劉建國:除了研發還有測試的,另外還有運營的,給我們提供服務是在中國電信或網通,另外要管機器,硬盤壞了,負責換,系統要上線,數據有哪些問題,都得分析。研發、運營、測試還有客服(有面向用戶及企業的)。有問題可以直接發到電子郵件,我們暫時沒有呼叫中心。爲用戶解決問題,先整理一些問題,再傳到其他部門。

  《21世紀》:你們的產品,是以什麼形態呈現出來的?

  劉建國:網頁、MP3、“知道”等等,每個頻道都是一個產品。

  《21世紀》:光靠技術行不行?還是需要編輯?

  劉建國:主要靠技術,這麼大量信息處理,靠人工不行。有人工,也是IT輔助下的人工。

  《21世紀》:專業性的頻道,比如百度傳情、影視頻道,百度“知道”,也是技術生產出來的?

  劉建國:這是搜索“人腦”,技術生成就行了。

  《21世紀》:你們作爲純技術派的人,認爲百度在技術上與微軟、Google競爭,真得那麼輕鬆嗎?

  劉建國:我認爲百度這麼多年爲何能成功一個主要的原因,就是我們的專注,只做搜索,中文搜索。對於要趕超的人,第一是專注,要超越自我。我們在不同的場合說過,我們的對手是我們自己,不是其他的人。我們能否保持旺盛的鬥志,我們在艱難歲月裏保持的那些東西能否保留下來,我們每個人是不是都很進取、協作。這是決定我們最關鍵的東西。此外還要繼續招優秀的人。

  “知道”、貼吧核心解密

  《21世紀》:搜索技術會有大的變化嗎?

  劉建國:有可能要變化,一句說不清楚。我覺得要保持創新,要監控業界的變化,要跟得上變化。以後的方向很多,比如說個性化需求,不同的人查到不同的結果,也許真有不同的發展。

  《21世紀》:解決個性化需求依靠什麼技術?

  劉建國:瞭解這個人的個性,知道這個人的背景、身份、年齡和習慣,這樣來調整搜索;另外無線搜索也是新市場。通過手機搜索及其他智能終端,針對不同的需求,專門建立無線搜索頻道;其他的應用,比如地圖搜索,現在Google正在做,百度是否要做,現在還沒有完成研發。

  《21世紀》:讓我們來說說“知道”,它的哪一點技術比較關鍵?

  劉建國:“百度知道”是用來找知識的。沒有所謂核心技術,它是一個平臺,讓問的人和回答的人都能在這裏自動滾動,提問和回答都很方便。平臺的界面和流程都要建得好,另外評價的系統很好,加權平均的系統,沒有一個核心的技術。

  《21世紀》:你們對客戶進行管理用什麼系統?

  劉建國:競價的用戶,一個是客戶(企業),一個是用戶(網民),我們不需要管理,我們只需要服務就行了。比如對客戶,主要是提升服務效果,對生意有幫助。

  《21世紀》:那你們不要考慮客戶的忠誠度,也就是貼性?

  劉建國:我們是看效果,不怕他流失,他能找到知識就來,要靠產品的價值來吸引,而不是管理。如何建立很有粘性的平臺,比如“知道”有評分,我們還有百度幣、貼吧。

  《21世紀》:貼吧的關鍵技術是什麼?

  劉建國:用戶量大、發言多,如何把平臺做到能夠支持,網頁檢索定期更新,這都很難。現在暫時不是完全實時的。我們專門有TEAM,叫搜索應用組,實時性、數據量大,這兩個很難。

  《21世紀》:貼吧可以無盡的擴展?

  劉建國:我們現在有82萬個吧,理論上可以無盡地擴展。一個吧裏面的話題帖子有的話就會保留着。

  《21世紀》:有人管貼吧嗎?

  劉建國:有,比如作廣告的。BBS只有幾類,不能無盡的擴展,我們可無盡地擴,用戶可以自己申請成爲吧主。

  《21世紀》:貼吧能產生哪些作用?

  劉建國:網民以興趣爲單位組成社區,這樣就很有粘性,可以傾訴、發表看法、言論,志趣相投的人討論東西,這是比較獨特的。

  《21世紀》:貼吧之外,還有沒有體現技術含量的東西?

  劉建國:有許多,比如MP3,要有用戶習慣的積累;新聞頻道,我們的新聞是靠技術分析,沒有人工、零成本。哪套新聞出現得多,轉載得多,它就是權威。而且是實時的。新聞是分類,國內、國際、財經沒有分類,暫時沒有更細的了。

  《21世紀》:比如你們轉載新浪新聞,需他們給授權嗎?

  劉建國:不需要。我們只是直接鏈接。我們也能帶來廣告的,如有編輯內容的,可以定製新聞。 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章