普林斯頓大學招聘之學術報告系列

http://blog.sciencenet.cn/blog-414166-573012.html

每年二三月份是美國高校招聘助理教授教授的季節,今年普林斯頓計算機系只計劃招一位助理教授,但上百人申請,其中9位獲得面試機會。他們會來到普林斯頓進行爲期兩天的面試,不僅要和系裏十幾個教授面談,而且要向全系作學術報告。

我參加了大多數候選人的學術報告。這9位候選人分別來自不同的領域,有新興的Crowdsourcing、用戶隱私,也有相對比較傳統的生物計算、無線通信等。9位候選人都是各自領域最傑出的新秀了,都是今年美國計算機領域Faculty市場的熱門人選。

這篇博客將介紹其中5個很精彩的報告,從學術報告角度來呈現普林斯頓的助理教授招聘的一面,同時也算是一篇介紹計算機學科前沿研究的科普文章。(注:我去年也寫過一個博客,介紹了【2011年普林斯頓計算機系的助理教授招聘學術報告】,歡迎閱讀


1. Crowd-Powered Systems

Michael Bernstein MIT


研究背景Crowdsourcing是近年來的研究熱點,主要思想是通過互聯網絡將人聯起來,利用人的智能共同完成一個任務。


CMU的【Luis von Ahn】教授是這個方向的先驅。他是網絡驗證碼CAPTCHA的發明者,但發現全世界因此每天浪費15萬個小時。於是他又發明了reCAPTCHA,基本思想是用兩個單詞做驗證碼,其中一個是計算機能識別,另一個是將古書中計算機不能識別的單詞,但人卻很容易識別。通過利用人的智能,在輸入驗證碼是也在幫助識別古書中的單詞。這項技術全世界有上億人在使用,幾個月時間就將1851年起所有的紐約時報都識別並數字化。

 

但如果把人看作是一種“計算機”的話,從而組成一個Crowd-Power System (CPS),這樣的系統最大的問題在於結果不確定性、反應速度慢。比如有人利用Amazon的【Mechanical Turk來招募很多人測試投硬幣實驗,讓人們隨機報一個硬幣的某一面,希望結果是50%正面,50%反面。但實際結果是65%的人報正面。


學術貢獻那麼該如何在這樣的系統上編程、如果保證快速得到合理的結果呢?Michael提出了一種“編程接口”——Find-Fix-Verify。利用這種模式,可以有效地解決結果不穩定性問題。另一方面,他提出了Retainer Model,研究如果給予適當獎勵對返回結果速度的影響。他通過研究不同的獎勵策略,使用戶在提交請求後2秒內就能得到結果。

 

爲了驗證他的想法,Michael搭建了兩個系統:一個叫Soylent可以用來編輯文本,另一叫Adrenaline,可以實時搜索照片。


影響力: Michael的工作多次被媒體報道,比如2010年MIT的Technology Review撰寫了文章【Adding Human Intelligence to Software】報道了他的工作,而2012年的PCWorld網站則報道了他在ACM CHI會議上發表的最新進展【More Search Could Be Crowdsourced


花絮:Michael實力很強,從他拿到的面試學校名單就能看出來,幾乎所有牛校都給他面試機會,PrincetonStanfordBerkeleyCMU。。。他無疑是今年Job Market的一個熱門人物。

 

 

2. Computational approaches for the DNA sequencing data deluge

Ben Langmead】, University of Maryland College Park


研究背景:生物計算是計算機科學在生命科學中形成的一個研究領域,利用應用數學、信息學、統計學和計算機科學的方法研究生物學的問題。目前主要的研究方向有:序列比對、基因識別、基因重組、蛋白質結構預測、基因表達、蛋白質反應的預測,以及建立進化模型。


其中基因測序是生物計算中的熱點,也是難點。一條有幾十億核苷酸組成的DNA序列會先切成千上萬條長約600到800個核苷酸的DNA片段,這些片段的兩端相互重疊,然後通過計算機把它們拼接起來。這個拼接的過程非常複雜,往往需要超級計算機來完成,有時要耗時幾個月的時間。


學術貢獻:Ben的主要貢獻是將數據壓縮中的Burrows-Wheeler Transform (BWT)用來對基因序列做索引,在此基礎上進一步提出雙向索引(Double-Index)技術,將生物計算中最耗時的基因序列比對步驟性能提高了30X甚至100X以上,可以說是極大地推動了生物計算整個領域的發展。


影響力:Ben提出的索引技術被幾乎所有基因序列比軟件採用。Ben自己也有很強的開發能力,開發了BowtieBowtie 2CrossbowMyrna等多個開源軟件,其中Bowtie是基因序列比對應用最多的軟件。他2009年在Bioinformatics上介紹Bowtie設計思想的文章目前引用已經【超過了1200】,而介紹Bowtie 2的文章則發表在2012年的Nature Methods上。

 

2010年以來,他被各個大學、研究機構邀請做了12次學術報告,因此很明顯當天給報告的氣場很足。不管是介紹自己的工作,還是回答聽衆的問題,很是自信,並且對一些觀衆的建議還表達出恰到好處地謙虛。我聽完Ben的報告,覺得即使算上去年的那麼多面試報告,他的表現也是數一數二的了。

 

花絮:總體來看,Ben可以算是今年Job Market上生物計算領域中最好的應屆博士畢業生了。他所在的實驗室背景非常強,李凱老師講了一個他們實驗室的故事:2001年美國出現“炭疽郵件”,導致5人死亡幾十人人感染。Ben的兩個老闆Steven L. Salzberg和Mihai Pop利用基因分析技術定位到了炭疽病毒的來源,爲FBI破案提供了關鍵線索。


 

3. Data Privacy Technologies: From Alchemy to an Engineering Discipline

Arvind Narayanan】, Stanford University

 

研究背景:Arvind是由【Ed Felten教授給大家介紹的。Felten教授去年擔任美國Federal Trade Commission的首席技術官,在白宮工作了一年。他介紹說Arvind在數據隱私方面的工作引起了白宮的高度重視,政府已經在着手製定法律以解決Arvind發現的隱私保護方面的漏洞。

 

美國是一個很重視隱私的工作,一些涉及到用戶的數據如果要公開,聯邦法律要求要將用戶信息匿名化,比如用隨機數替換用戶名、故意加一些錯誤起混淆作用等等。這樣其他人就無法用這些數據反推出某個具體的用戶。2006年,Netflix懸賞一百萬美元徵集方案改進其電影推薦系統。爲此,Netflix提供了1999~200550萬用戶的1億條電影打分記錄(Movie Ratings),同時他們通過了上述各種手段將這些記錄匿名化以保護用戶隱私。

 

學術貢獻:Arvind很有想象力,他發現儘管這些數據已經匿名化,但可以通過其他公開信息,將那些數據去匿名化。他把這個問題抽象成一個圖匹配問題,然後設計了一個很有效的算法,可以將兩個圖節點匹配起來,即使其中一個圖存在一些錯誤。

 

Netflix的那個數據爲例,他用AmazonIMDb (International Movie Database)的一些信息來輔助分析。結果發現,對於一些同時註冊NetflixIMDb的用戶(57%),只需要分析8部電影就能去匿名化,準確率高達98%。也就是說,在Netflix匿名數據中,挑一個用戶,根據8部電影,就能找到這個用戶在IMDb的賬號,進而知道這個用戶在Netflix上還看過哪些電影。因爲IMDb是公開的,大家打分時會比較謹慎,有些電影看過也不一定打分。但是Netflix的觀看記錄是不公開的,這個活動已經違背了保護用戶隱私的底線了。因此,Netflix不得不取消的這個懸賞活動。接着Arvind又對社交網絡(Social Network)甚至筆跡進行了分析,發現這個算法都非常有效。

 

此外,他還做了其他很出色的工作,影響了網絡媒體的廣告推薦系統。他提出了一個系統設計的框架和規範,試圖將加密技術、工程設計和政策管理融合起來。他在CACMIEEE S&P等頂級會議、期刊上發表了10多篇文章。他的報告前面半小時講的非常好,但後面因爲時間緊張,講得很倉促。李凱老師說,他做了太多的工作,他試圖在1小時內講10篇文章。


影響力:Arvind的工作顛覆了人們對保護隱私的傳統觀點,引起社會各界的關注,也促使白宮着手修訂法律;幾乎Arvind的每項工作都有許多主流媒體報道,如美國國家廣播電臺(NPR)、紐約時報、華盛頓郵報、時代週刊、BBC等,完全是一位明星科學家。

 

花絮:在錄用結果出來之前,我們就開始討論,覺得Arvind非常適合來Princeton。因爲2005Princeton聯合計算機系、公共事務與政策學院、社會學系成立了【CITPCenter for Information and Technology Policy】中心,專門研究計算機技術與政策的關係。所以Princeton很可能會給他一個offer

 

 

4. Modeling People from Billions of Photos

Ira Kemelmacher-Shlizerman】, University of Washington

 

研究背景:如今數碼相機已經成爲很多家庭的必備電子產品,如果我們統計一下的話,每個家庭很可能有幾千甚至上萬張照片,這些照片記錄着家人生活的點滴,記錄着孩子們的成長,那麼如何瀏覽這些海量照片呢?


學術貢獻:Ira想到了視頻!她發明了一種全新的照片瀏覽方式——Face Movie——能從一個人的衆多照片中挑出合適的照片自動生成視頻。 


當確定了目標後,問題就轉變爲如何從大量照片中找到合適的照片來生成視頻。她將此問題抽象爲一個圖最短路徑搜索問題,每張照片是一個節點,兩張照片之間有邊,權重是兩個照片的相似度,然後可以利用一些圖算法計算出一條最短路徑,把該路徑上的照片挑出來生成視頻。接着她又做了一些了工作對視頻效果進行優化。


影響力:這是一個非常有趣而又實用的工作。如今,Face Movie已經成爲了Google Picasa的一個新功能,全世界上千萬人在使用。這是優酷上【Face Movie的宣傳片】,有孩子的家長們一定不要錯過。我也下載了Picasa並給女兒苗苗做了一個兩週歲的視頻,效果挺不錯。推薦給了周圍不少朋友,他們也都很喜歡。


Ira的工作也是得到了大量媒體的報道,包括一些著名的科技雜誌和網站,如《新科學家(New Scientist)》、《Discovery News》等等。


花絮:但這個工作其實有些曲折,之前投ACM SIGGRAPH會議連續幾年都沒有中,後來她的老闆去Google訪問,說服Google在Picasa中實現這個功能,從而一舉成名。

 

另外,Ira是以色列Weizmann Institute of Science (WIS)畢業的博士生,現在UW做博士後。值得一提的是去年Princeton也招了一個WIS畢業的做理論的助理教授【Zeev Dvir。以色列雖是彈丸之地,但學術研究確實不可小覷。

 

 

5. Embracing Interference in Wireless Systems

Shyamnath Gollakota】, MIT

 

研究背景:無線網絡已經無所不在,已成爲人類短距離通信的最重要途徑之一。但和有線網絡不通,無線網絡採用廣播的方式進行通信,在這種開放式環境下,就會出現很多安全問題。比如無線網絡傳輸的數據很容易被別人獲取,Google就面臨這方面的官司,控訴其利用拍攝街景地圖的汽車來收集沿街的無線數據【新聞:街景記錄Wi-Fi個人資料 Google面臨官司和調查】。另一方面,無線網絡也很容易受到惡意干擾或者攻擊,比如有一些工具可以探測周圍無線路由器的密碼。

 

學術貢獻:無線網絡傳輸會被惡意干擾,傳統的802.11規範是採用重傳機制來消除干擾,但會無線網絡包後半段仍然出現衝突,導致不斷重傳最終出現大量丟包。Shya提出了一種可以利用這種干擾的解碼方法,能將存在干擾情況下無線網絡的丟包率從72.6%降低到0.7%。這個工作獲得了SIGCOMM'08會議的最佳論文獎

 

既然能把被動干擾利用起來,他進一步考慮如何利用主動干擾來加密無線通信信道,工作發表在Usenix Security'11會議上,被評爲Second AT&T Best Applied Security Paper。下一步,他又把這個技術應用到醫療植入設備上,從而有效地保護了心臟起搏器的無線通信,關於這個工作在我的微博有介紹過,又獲得了SIGCOMM'11會議的最佳論文獎

 

影響力:ShyaMIT6年裏一共發表了6SIGCOMM2篇獲最佳論文獎,另外還有Usenix Security會議的Best Applied Security Paper,研究能力絕對令人歎爲觀止。他的工作也是經常出現在媒體上。


花絮:說到Shya,不得不提他所在的小組——MIT的【Dina Katabi小組。Katabi教授來自局勢很不穩定的敘利亞,但這並不影響她的學術研究。相信網絡領域的人不會對Katabi教授陌生,她工作的特點是將一些理論領域上的研究成果應用到系統中去,比如他們組最早在真實系統中實現了Network Coding。他們組在SIGCOMM、MOBICOMM、OSDI、NSDI等頂級會議上每年都有穩定的5~7篇文章,絕對是全世界最頂級的研究小組之一了。


Katabi教授以前的工作都是如何應用理論,但最近已經他們組發明了一種全新的【sFFT算法】,將稀疏的FFT變換速度提高好幾個數據量,在理論的頂級會議STOCSODA上連續發表論文,引起各大科技網站的大幅報道。



7. 招聘結果


聽完了所有候選人學術報告,有一次李凱老師讓我們給候選人排序,我們提出三位可能人選:數據隱私、無線安全和生物計算。李老師認爲這三個人都有希望,今年系裏原計劃只有1個名額,但他們非常優秀都是各自領域最頂尖的畢業生,系裏也在考慮增加名額。選人最終演變爲選擇方向!


到了5月初,李凱老師跟我們說,今年的候選人確實太優秀了,所有最後系裏決定給三個人發offer,正是我們之前提到的那三個候選人。不過聽說生物計算的Ben Langmead把普林斯頓婉拒了,相信他有更好的選擇;而研究安全隱私的Stanford的Arvind Narayanan拿到了普林斯頓和CMU的錄用通知書,最終選擇了普林斯頓;另一位來自MIT做無線的Shyamnath Gollakota則選擇了University of Washington。



8. 借鑑意義


這些候選人的學術成果令人歎爲觀止,他們無疑是世界頂尖的博士畢業生了。那他們有什麼特別之處呢?


首先,聽他們的報告明顯能感覺到他們的想象力,有的研究問題非常新穎,有的擅長借用其他領域的知識,很佩服他們那種在科研中能熟練運用“四兩撥千斤”的功力。然後,他們強於鑽研,一些看似無從下手的課題,他們能層層剖析、深入挖掘,最終定位到很具體的若干難點,進而尋找有效的解決方案。其次,他們的導師都是在學術界享有聲譽的學者,都有豐富的指導學生的經驗,在這些卓越的導師培養下,這些新鮮出爐博士(後)畢業之際已經能在科研上獨擋一面。再次,他們的表達能力普遍都很強,邏輯非常清晰,即使不同領域的人也都很容易理解他們的工作。最後,他們都非常有信心可以很明顯感覺到他們報告時的氣場,以及回答問題時的那種從容和自信。


外部環境也起到一定的作用。美國的科普工作做的非常出色。一方面美國有大量的科技網站、雜誌,比如MIT的Technology Review等,另外每個領域都有不少專門的科技網站,比如計算機領域有PCWorld、HPCWire等,他們會不斷地跟蹤最前沿的科技進展。另一方面,研究人員也很注重宣傳自己的工作,幾乎所有的美國教授及其研究小組都有主頁,並不斷更新。他們還會自己寫一些文章甚至視頻介紹自己工作,這方面我發現哈佛的教授做的特別突出,他們很多主頁上都是有視頻介紹自己的工作的。科研人員也很樂意接受這種採訪。


高水平的科普也提高了民衆的科學素養,老百姓願意去關注這些科技前沿,這對培養科研人員的興趣和動力起到很好的正反饋作用。科普這方面,不得不承認,我們國家還是落後不少,很多科研人員的科普意識還不強。(我以前也寫過一篇對比美國和中國科普的博客,【Discovery Channel v.s. CCTV-10】,希望能引起大家注意)


如果再仔細觀察9個候選人的國籍的話,可以看到只有2位美國人,其他是3位印度人、2位以色列人、1位中國人和1位克羅地亞人。目前而言,美國還是世界的人才中心,這種優勢短期之內還是無法撼動的。美國這方面的優勢除了體制外,很大程度上是因爲其本身是一個移民國家,國民沒有很強的民族感,因此相對更開放一些。比如,最近【MIT的新校長L. Rafael Reif】是在委內瑞拉本科畢業後纔到美國讀博的,而委內瑞拉和美國相互之間其實並不友好。這放到其他任何國家都不可能發生的。


中國同樣也做不到這麼開明,這和我們悠久歷史塑造的民族自豪感有關。日本和中國類似,民族自豪感很強,他們估計也很難接受外國人擔任頂尖大學校長,但日本科技在很多領域依然能做到世界頂尖。也許,在如何吸引和保留本土人才方面,我們可能更應該向日本學習。




發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章