普林斯頓大學招聘之學術報告系列

http://blog.sciencenet.cn/blog-414166-573012.html

每年二三月份是美國高校招聘助理教授教授的季節，今年普林斯頓計算機系只計劃招一位助理教授，但上百人申請，其中9位獲得面試機會。他們會來到普林斯頓進行爲期兩天的面試，不僅要和系裏十幾個教授面談，而且要向全系作學術報告。

我參加了大多數候選人的學術報告。這9位候選人分別來自不同的領域，有新興的Crowdsourcing、用戶隱私，也有相對比較傳統的生物計算、無線通信等。9位候選人都是各自領域最傑出的新秀了，都是今年美國計算機領域Faculty市場的熱門人選。

這篇博客將介紹其中5個很精彩的報告，從學術報告角度來呈現普林斯頓的助理教授招聘的一面，同時也算是一篇介紹計算機學科前沿研究的科普文章。（注：我去年也寫過一個博客，介紹了【2011年普林斯頓計算機系的助理教授招聘學術報告】，歡迎閱讀）

1. Crowd-Powered Systems

【Michael Bernstein】， MIT

研究背景：Crowdsourcing是近年來的研究熱點，主要思想是通過互聯網絡將人聯起來，利用人的智能共同完成一個任務。

CMU的【Luis von Ahn】教授是這個方向的先驅。他是網絡驗證碼CAPTCHA的發明者，但發現全世界因此每天浪費15萬個小時。於是他又發明了reCAPTCHA，基本思想是用兩個單詞做驗證碼，其中一個是計算機能識別，另一個是將古書中計算機不能識別的單詞，但人卻很容易識別。通過利用人的智能，在輸入驗證碼是也在幫助識別古書中的單詞。這項技術全世界有上億人在使用，幾個月時間就將1851年起所有的紐約時報都識別並數字化。

但如果把人看作是一種“計算機”的話，從而組成一個Crowd-Power System (CPS)，這樣的系統最大的問題在於結果不確定性、反應速度慢。比如有人利用Amazon的【Mechanical Turk】來招募很多人測試投硬幣實驗，讓人們隨機報一個硬幣的某一面，希望結果是50%正面，50%反面。但實際結果是65%的人報正面。

學術貢獻：那麼該如何在這樣的系統上編程、如果保證快速得到合理的結果呢？Michael提出了一種“編程接口”——Find-Fix-Verify。利用這種模式，可以有效地解決結果不穩定性問題。另一方面，他提出了Retainer Model，研究如果給予適當獎勵對返回結果速度的影響。他通過研究不同的獎勵策略，使用戶在提交請求後2秒內就能得到結果。

爲了驗證他的想法，Michael搭建了兩個系統：一個叫Soylent可以用來編輯文本，另一叫Adrenaline，可以實時搜索照片。

影響力: Michael的工作多次被媒體報道，比如2010年MIT的Technology Review撰寫了文章【Adding Human Intelligence to Software】報道了他的工作，而2012年的PCWorld網站則報道了他在ACM CHI會議上發表的最新進展【More Search Could Be Crowdsourced】

花絮：Michael實力很強，從他拿到的面試學校名單就能看出來，幾乎所有牛校都給他面試機會，Princeton、Stanford、Berkeley、CMU。。。他無疑是今年Job Market的一個熱門人物。

2. Computational approaches for the DNA sequencing data deluge

【Ben Langmead】, University of Maryland College Park

研究背景：生物計算是計算機科學在生命科學中形成的一個研究領域，利用應用數學、信息學、統計學和計算機科學的方法研究生物學的問題。目前主要的研究方向有：序列比對、基因識別、基因重組、蛋白質結構預測、基因表達、蛋白質反應的預測，以及建立進化模型。

其中基因測序是生物計算中的熱點，也是難點。一條有幾十億核苷酸組成的DNA序列會先切成千上萬條長約600到800個核苷酸的DNA片段，這些片段的兩端相互重疊，然後通過計算機把它們拼接起來。這個拼接的過程非常複雜，往往需要超級計算機來完成，有時要耗時幾個月的時間。

學術貢獻：Ben的主要貢獻是將數據壓縮中的Burrows-Wheeler Transform (BWT)用來對基因序列做索引，在此基礎上進一步提出雙向索引（Double-Index）技術，將生物計算中最耗時的基因序列比對步驟性能提高了30X甚至100X以上，可以說是極大地推動了生物計算整個領域的發展。

影響力：Ben提出的索引技術被幾乎所有基因序列比軟件採用。Ben自己也有很強的開發能力，開發了Bowtie、Bowtie 2、Crossbow、Myrna等多個開源軟件，其中Bowtie是基因序列比對應用最多的軟件。他2009年在Bioinformatics上介紹Bowtie設計思想的文章目前引用已經【超過了1200次】，而介紹Bowtie 2的文章則發表在2012年的Nature Methods上。

自2010年以來，他被各個大學、研究機構邀請做了12次學術報告，因此很明顯當天給報告的氣場很足。不管是介紹自己的工作，還是回答聽衆的問題，很是自信，並且對一些觀衆的建議還表達出恰到好處地謙虛。我聽完Ben的報告，覺得即使算上去年的那麼多面試報告，他的表現也是數一數二的了。

花絮：總體來看，Ben可以算是今年Job Market上生物計算領域中最好的應屆博士畢業生了。他所在的實驗室背景非常強，李凱老師講了一個他們實驗室的故事：2001年美國出現“炭疽郵件”，導致5人死亡幾十人人感染。Ben的兩個老闆Steven L. Salzberg和Mihai Pop利用基因分析技術定位到了炭疽病毒的來源，爲FBI破案提供了關鍵線索。

3. Data Privacy Technologies: From Alchemy to an Engineering Discipline

【Arvind Narayanan】, Stanford University

研究背景：Arvind是由【Ed Felten】教授給大家介紹的。Felten教授去年擔任美國Federal Trade Commission的首席技術官，在白宮工作了一年。他介紹說Arvind在數據隱私方面的工作引起了白宮的高度重視，政府已經在着手製定法律以解決Arvind發現的隱私保護方面的漏洞。

美國是一個很重視隱私的工作，一些涉及到用戶的數據如果要公開，聯邦法律要求要將用戶信息匿名化，比如用隨機數替換用戶名、故意加一些錯誤起混淆作用等等。這樣其他人就無法用這些數據反推出某個具體的用戶。2006年，Netflix懸賞一百萬美元徵集方案改進其電影推薦系統。爲此，Netflix提供了1999~2005年50萬用戶的1億條電影打分記錄(Movie Ratings)，同時他們通過了上述各種手段將這些記錄匿名化以保護用戶隱私。

學術貢獻：Arvind很有想象力，他發現儘管這些數據已經匿名化，但可以通過其他公開信息，將那些數據去匿名化。他把這個問題抽象成一個圖匹配問題，然後設計了一個很有效的算法，可以將兩個圖節點匹配起來，即使其中一個圖存在一些錯誤。

以Netflix的那個數據爲例，他用Amazon的IMDb (International Movie Database)的一些信息來輔助分析。結果發現，對於一些同時註冊Netflix和IMDb的用戶(佔57%)，只需要分析8部電影就能去匿名化，準確率高達98%。也就是說，在Netflix匿名數據中，挑一個用戶，根據8部電影，就能找到這個用戶在IMDb的賬號，進而知道這個用戶在Netflix上還看過哪些電影。因爲IMDb是公開的，大家打分時會比較謹慎，有些電影看過也不一定打分。但是Netflix的觀看記錄是不公開的，這個活動已經違背了保護用戶隱私的底線了。因此，Netflix不得不取消的這個懸賞活動。接着Arvind又對社交網絡（Social Network）甚至筆跡進行了分析，發現這個算法都非常有效。

此外，他還做了其他很出色的工作，影響了網絡媒體的廣告推薦系統。他提出了一個系統設計的框架和規範，試圖將加密技術、工程設計和政策管理融合起來。他在CACM、IEEE S&P等頂級會議、期刊上發表了10多篇文章。他的報告前面半小時講的非常好，但後面因爲時間緊張，講得很倉促。李凱老師說，他做了太多的工作，他試圖在1小時內講10篇文章。

影響力：Arvind的工作顛覆了人們對保護隱私的傳統觀點，引起社會各界的關注，也促使白宮着手修訂法律；幾乎Arvind的每項工作都有許多主流媒體報道，如美國國家廣播電臺（NPR）、紐約時報、華盛頓郵報、時代週刊、BBC等，完全是一位明星科學家。

花絮：在錄用結果出來之前，我們就開始討論，覺得Arvind非常適合來Princeton。因爲2005年Princeton聯合計算機系、公共事務與政策學院、社會學系成立了【CITP（Center for Information and Technology Policy）】中心，專門研究計算機技術與政策的關係。所以Princeton很可能會給他一個offer。

4. Modeling People from Billions of Photos

【Ira Kemelmacher-Shlizerman】, University of Washington

研究背景：如今數碼相機已經成爲很多家庭的必備電子產品，如果我們統計一下的話，每個家庭很可能有幾千甚至上萬張照片，這些照片記錄着家人生活的點滴，記錄着孩子們的成長，那麼如何瀏覽這些海量照片呢？

學術貢獻：Ira想到了視頻!她發明了一種全新的照片瀏覽方式——Face Movie——能從一個人的衆多照片中挑出合適的照片自動生成視頻。

當確定了目標後，問題就轉變爲如何從大量照片中找到合適的照片來生成視頻。她將此問題抽象爲一個圖最短路徑搜索問題，每張照片是一個節點，兩張照片之間有邊，權重是兩個照片的相似度，然後可以利用一些圖算法計算出一條最短路徑，把該路徑上的照片挑出來生成視頻。接着她又做了一些了工作對視頻效果進行優化。

影響力：這是一個非常有趣而又實用的工作。如今，Face Movie已經成爲了Google Picasa的一個新功能，全世界上千萬人在使用。這是優酷上【Face Movie的宣傳片】，有孩子的家長們一定不要錯過。我也下載了Picasa並給女兒苗苗做了一個兩週歲的視頻，效果挺不錯。推薦給了周圍不少朋友，他們也都很喜歡。

Ira的工作也是得到了大量媒體的報道，包括一些著名的科技雜誌和網站，如《新科學家(New Scientist)》、《Discovery News》等等。

花絮：但這個工作其實有些曲折，之前投ACM SIGGRAPH會議連續幾年都沒有中，後來她的老闆去Google訪問，說服Google在Picasa中實現這個功能，從而一舉成名。

另外，Ira是以色列Weizmann Institute of Science (WIS)畢業的博士生，現在UW做博士後。值得一提的是去年Princeton也招了一個WIS畢業的做理論的助理教授【Zeev Dvir】。以色列雖是彈丸之地，但學術研究確實不可小覷。

5. Embracing Interference in Wireless Systems

【Shyamnath Gollakota】, MIT

研究背景：無線網絡已經無所不在，已成爲人類短距離通信的最重要途徑之一。但和有線網絡不通，無線網絡採用廣播的方式進行通信，在這種開放式環境下，就會出現很多安全問題。比如無線網絡傳輸的數據很容易被別人獲取，Google就面臨這方面的官司，控訴其利用拍攝街景地圖的汽車來收集沿街的無線數據【新聞：街景記錄Wi-Fi個人資料 Google面臨官司和調查】。另一方面，無線網絡也很容易受到惡意干擾或者攻擊，比如有一些工具可以探測周圍無線路由器的密碼。

學術貢獻：無線網絡傳輸會被惡意干擾，傳統的802.11規範是採用重傳機制來消除干擾，但會無線網絡包後半段仍然出現衝突，導致不斷重傳最終出現大量丟包。Shya提出了一種可以利用這種干擾的解碼方法，能將存在干擾情況下無線網絡的丟包率從72.6%降低到0.7%。這個工作獲得了SIGCOMM'08會議的最佳論文獎。

既然能把被動干擾利用起來，他進一步考慮如何利用主動干擾來加密無線通信信道，工作發表在Usenix Security'11會議上，被評爲Second AT&T Best Applied Security Paper。下一步，他又把這個技術應用到醫療植入設備上，從而有效地保護了心臟起搏器的無線通信，關於這個工作在我的微博有介紹過，又獲得了SIGCOMM'11會議的最佳論文獎。

影響力：Shya在MIT的6年裏一共發表了6篇SIGCOMM，2篇獲最佳論文獎，另外還有Usenix Security會議的Best Applied Security Paper，研究能力絕對令人歎爲觀止。他的工作也是經常出現在媒體上。

花絮：說到Shya，不得不提他所在的小組——MIT的【Dina Katabi】小組。Katabi教授來自局勢很不穩定的敘利亞，但這並不影響她的學術研究。相信網絡領域的人不會對Katabi教授陌生，她工作的特點是將一些理論領域上的研究成果應用到系統中去，比如他們組最早在真實系統中實現了Network Coding。他們組在SIGCOMM、MOBICOMM、OSDI、NSDI等頂級會議上每年都有穩定的5~7篇文章，絕對是全世界最頂級的研究小組之一了。

Katabi教授以前的工作都是如何應用理論，但最近已經他們組發明了一種全新的【sFFT算法】，將稀疏的FFT變換速度提高好幾個數據量，在理論的頂級會議STOC、SODA上連續發表論文，引起各大科技網站的大幅報道。

7. 招聘結果

聽完了所有候選人學術報告，有一次李凱老師讓我們給候選人排序，我們提出三位可能人選：數據隱私、無線安全和生物計算。李老師認爲這三個人都有希望，今年系裏原計劃只有1個名額，但他們非常優秀都是各自領域最頂尖的畢業生，系裏也在考慮增加名額。選人最終演變爲選擇方向！

到了5月初，李凱老師跟我們說，今年的候選人確實太優秀了，所有最後系裏決定給三個人發offer，正是我們之前提到的那三個候選人。不過聽說生物計算的Ben Langmead把普林斯頓婉拒了，相信他有更好的選擇；而研究安全隱私的Stanford的Arvind Narayanan拿到了普林斯頓和CMU的錄用通知書，最終選擇了普林斯頓；另一位來自MIT做無線的Shyamnath Gollakota則選擇了University of Washington。

8. 借鑑意義

這些候選人的學術成果令人歎爲觀止，他們無疑是世界頂尖的博士畢業生了。那他們有什麼特別之處呢？

首先，聽他們的報告明顯能感覺到他們的想象力，有的研究問題非常新穎，有的擅長借用其他領域的知識，很佩服他們那種在科研中能熟練運用“四兩撥千斤”的功力。然後，他們強於鑽研，一些看似無從下手的課題，他們能層層剖析、深入挖掘，最終定位到很具體的若干難點，進而尋找有效的解決方案。其次，他們的導師都是在學術界享有聲譽的學者，都有豐富的指導學生的經驗，在這些卓越的導師培養下，這些新鮮出爐博士(後)畢業之際已經能在科研上獨擋一面。再次，他們的表達能力普遍都很強，邏輯非常清晰，即使不同領域的人也都很容易理解他們的工作。最後，他們都非常有信心，可以很明顯感覺到他們報告時的氣場，以及回答問題時的那種從容和自信。

外部環境也起到一定的作用。美國的科普工作做的非常出色。一方面美國有大量的科技網站、雜誌，比如MIT的Technology Review等，另外每個領域都有不少專門的科技網站，比如計算機領域有PCWorld、HPCWire等，他們會不斷地跟蹤最前沿的科技進展。另一方面，研究人員也很注重宣傳自己的工作，幾乎所有的美國教授及其研究小組都有主頁，並不斷更新。他們還會自己寫一些文章甚至視頻介紹自己工作，這方面我發現哈佛的教授做的特別突出，他們很多主頁上都是有視頻介紹自己的工作的。科研人員也很樂意接受這種採訪。

高水平的科普也提高了民衆的科學素養，老百姓願意去關注這些科技前沿，這對培養科研人員的興趣和動力起到很好的正反饋作用。科普這方面，不得不承認，我們國家還是落後不少，很多科研人員的科普意識還不強。（我以前也寫過一篇對比美國和中國科普的博客，【Discovery Channel v.s. CCTV-10】，希望能引起大家注意）

如果再仔細觀察9個候選人的國籍的話，可以看到只有2位美國人，其他是3位印度人、2位以色列人、1位中國人和1位克羅地亞人。目前而言，美國還是世界的人才中心，這種優勢短期之內還是無法撼動的。美國這方面的優勢除了體制外，很大程度上是因爲其本身是一個移民國家，國民沒有很強的民族感，因此相對更開放一些。比如，最近【MIT的新校長L. Rafael Reif】是在委內瑞拉本科畢業後纔到美國讀博的，而委內瑞拉和美國相互之間其實並不友好。這放到其他任何國家都不可能發生的。

中國同樣也做不到這麼開明，這和我們悠久歷史塑造的民族自豪感有關。日本和中國類似，民族自豪感很強，他們估計也很難接受外國人擔任頂尖大學校長，但日本科技在很多領域依然能做到世界頂尖。也許，在如何吸引和保留本土人才方面，我們可能更應該向日本學習。

普林斯頓大學招聘之學術報告系列

Spring Cloud 部署時如何使用 Kubernetes 作爲註冊中心和配置中心

閱讀paper技巧

投文章模板

【綜述】(MIT博士）林達華老師－"概率模型與計算機視覺”

【綜述】（中科院）樊彬老師－“局部圖像特徵描述概述”

相似性度量

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結