起底 BAT 最喜歡什麼樣的程序員?

起底 BAT 最喜歡什麼樣的程序員?

 

那些能進BAT的人,都是什麼樣的?

640?wx_fmt=jpeg

作者 | channingbreeze

責編 | 胡巍巍

小史是一個應屆生,雖然學的是電子專業,但是自己業餘時間,看了很多互聯網與編程方面的書,一心想進BAT。

640?wx_fmt=jpeg

640?wx_fmt=jpeg

今天他就去BAT中的一家面試了。簡單的自我介紹後,面試官給了小史一個問題。

 

640?wx_fmt=png

面試現場

 

 

640?wx_fmt=jpeg

640?wx_fmt=jpeg

題目:我有40億個整數,再給一個新的整數,我需要判斷新的整數,是否在40億個整數中,你會怎麼做?

640?wx_fmt=jpeg

640?wx_fmt=jpeg

640?wx_fmt=jpeg

640?wx_fmt=jpeg

640?wx_fmt=jpeg

640?wx_fmt=jpeg

640?wx_fmt=jpeg

640?wx_fmt=jpeg

640?wx_fmt=jpeg

640?wx_fmt=jpeg

640?wx_fmt=jpeg

 

640?wx_fmt=png

請教大神

 

小史回到學校,把面試的情況和計算機學院的呂老師說了一下。

640?wx_fmt=jpeg

640?wx_fmt=jpeg

640?wx_fmt=png

小史

640?wx_fmt=png

爲什麼我說分8次加載數據,面試官會說太慢了呢?

呂老師

哈哈,從磁盤加載數據是磁盤io操作,是非常慢的,你每次都要加載這麼大的數據,還要8次,我估計你找一個數的時間,可以達到分鐘、甚至小時級了。

640?wx_fmt=png640?wx_fmt=png

 

640?wx_fmt=jpeg

640?wx_fmt=png

小史

640?wx_fmt=png

那如果是你,你會怎麼辦呢?

呂老師

其實面試官已經提示得比較明顯了,他說給你一批機器,就是暗示你可以用分佈式算法。你把數據分散在8臺機器上,然後來一個新的數據,8臺機器一起找,最後再彙總結果就行了。

640?wx_fmt=png640?wx_fmt=png

640?wx_fmt=jpeg

640?wx_fmt=png

小史

640?wx_fmt=png

這樣的話能快多少?

呂老師

這樣應該能達到秒級。小史,你可以自己分析分析。

640?wx_fmt=png640?wx_fmt=png640?wx_fmt=png

小史

640?wx_fmt=png

我想想……哦,這樣做的話,因爲每臺機器都可以一次性把數據讀入內存,在比較的時候不用來回加載數據了,所以可以節省加載數據的開銷!這真是個好辦法。

 

640?wx_fmt=png

更好方案

 

呂老師

其實這並不是最好方法,我這還有一種毫秒級的方法,想不想知道啊?

640?wx_fmt=png640?wx_fmt=png640?wx_fmt=png

小史

640?wx_fmt=png

當然想啊,快教教我。

 

640?wx_fmt=jpeg

640?wx_fmt=png

小史

640?wx_fmt=png

哦,對哦,這樣我就申請40億個位就好了,新的數轉換成一個位,然後判斷一下這個位是0還是1就行了。

呂老師

小史啊,考慮問題要考慮清楚啊,如果是40億個位,那麼這40億個位哪些是0,哪些是1呢?來了一個新的數,怎麼判斷是否在40億個位之中?

640?wx_fmt=png640?wx_fmt=png

640?wx_fmt=jpeg

640?wx_fmt=png

小史

640?wx_fmt=png

我想想,對啊,40億個位,40億個數,那麼每個位都是1,這。。。

呂老師

其實你可以想想,32位int的範圍,總共就是2的32次方,大概42億多點。所以你可以申請2的32次方個位。

640?wx_fmt=png640?wx_fmt=png640?wx_fmt=png

小史

640?wx_fmt=png

意思是我把整個整數範圍都覆蓋了,哦,對哦。這樣一來,就可以做了,1代表第一個位,2代表第二個位,2的32次方代表最後一個位。40億個數中,存在的數就在相應的位置1,其他位就是0。

640?wx_fmt=jpeg

呂老師

沒錯,那來了一個新的數呢?

640?wx_fmt=png640?wx_fmt=png640?wx_fmt=png

小史

640?wx_fmt=png

新的數就去找相應的位,比如來了一個1234,就找一下第1234位,如果是1就存在,是0就不存在啦。

呂老師

沒錯,那麼這樣的話,需要多大內存呢?

640?wx_fmt=png640?wx_fmt=png640?wx_fmt=png

小史

640?wx_fmt=png

我想想啊,2的32次方個位,相當於2的29次方個字節,哇,才500MB,真是節省了不少內存呢。

640?wx_fmt=jpeg

640?wx_fmt=png

小史

640?wx_fmt=png

這麼厲害的算法,你是怎麼想到的?

呂老師

其實這是一種非常有名的大數據算法,叫位圖法,英文名叫bitmap。顧名思義,就是用位來表示狀態,從而節省空間。明天正好我有一節課,就講位圖法,你可以來聽一聽。

640?wx_fmt=png640?wx_fmt=png

640?wx_fmt=jpeg

 

640?wx_fmt=png

呂老師的課

 

第二天,呂老師開始上課,他一開始就拋出了小史遇到的面試題。

呂老師

同學們,這道題是BAT公司的一道面試題,大家有什麼思路嗎?

640?wx_fmt=png640?wx_fmt=png

話音剛落,蛋哥就站起來回答。蛋哥是呂老師最得意的門生,以思維活躍著稱。

640?wx_fmt=jpeg

640?wx_fmt=png蛋哥

我覺得可以這樣。首先,32位int的範圍是42億,40億整數中肯定有一些是連續的,我們可以先對數據進行一個外部排序,然後用一個初始的數和一個長度構成一個數據結構,來表示一段連續的數,舉個例子。

如果數據是1 2 3 4 6 7……這種的,那麼可以用(1,4)和(6,2)來表示,這樣一來,連續的數都變成了2個數表示。

來了一個新數之後,就用二分法進行查找了。

這樣一來,最差情況就是2億多的斷點,也就是2億多的結構體,每個結構體8個字節,大概16億字節,1.6GB,在內存中可以放下。

640?wx_fmt=jpeg

呂老師

嗯,非常好,不僅給出了方案,還能主動分析空間和可行性。

640?wx_fmt=png640?wx_fmt=png

小史聽完後深感佩服,問題的解決方法絕對不止一種,只要肯動腦筋,即使沒有學過bitmap算法,也能有別的方法來解決問題。

 

640?wx_fmt=png

課後

 

下課後,小史又找到呂老師。

640?wx_fmt=jpeg

640?wx_fmt=jpeg

呂老師

但是你的理解能力還是很強的,很多東西一聽就懂,這可不是誰都能做到的。多看一看一線互聯網面試現場的攻略,我相信你一定有收穫的。

640?wx_fmt=png640?wx_fmt=png

PS:這道題是筆者面百度時碰到的一個問題,多年後自己做面試官,也喜歡用這道題考查候選人。

作者簡介:channingbreeze,國內某互聯網公司全棧開發。

聲明:本文爲作者投稿,版權歸對方所有。作者獨立觀點,不代表 CSDN 立場。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章