我爬取了杭州的數據分析招聘崗位（內附原始數據）

前言

在“大數據”、“人工智能”愈來愈被廣泛提起之後，數據分析也更多地出現在大衆的視野。還記得我最早注意到這個崗位是在2016年的下半年，那時候知乎上就出現了很多與數據分析相關的問題和回答。如今2018年已過半，數據分析這個崗位發展得如何了呢？在北上廣深這些城市之外，是否也具備有力的發展勢頭呢？本項目便從杭州的數據分析崗位入手，探索數據分析師這一崗位的現狀。

一、研究問題

1、杭州的數據分析崗位的需求主要分佈在哪些區域、行業？

2、數據分析師對經驗、學歷的要求如何？

3、數據分析的薪酬分佈情況如何？

4、哪些企業存在較爲高級的數據分析師需求？

5、不同招聘網站之間有什麼差別？

接下來就是實際操作的過程

二、數據收集

爬蟲工具：八爪魚

參考教程：八爪魚官方視頻

數據來源：智聯招聘（8879條）、拉勾網（256條）

篩選依據：城市-杭州，搜索項-數據分析

採集時間：2018年6月18日

附上原始數據下載鏈接（度盤）~~熬夜肝電腦的成果：

https://pan.baidu.com/s/1zkFvwGepOMS6Fr6xVz7rowpan.baidu.com

密碼：s1pp

三、數據清洗

因爲智聯招聘採集的數據量非常大，所以以此爲例記錄一下數據清洗的過程。主要涉及到的操作有篩選、查重、數據透視表，以及一些公式，如count、find、search、if、len、left、mid、quartile等，還是比較基礎的。

下面進入具體的操作步驟——

1、刪除重複項（列全選），這部分冗餘數據是爬蟲工具中的重複操作造成的：

2、刪除職位名稱缺失項

3、刪除不相關職位數據

篩選[職位名稱]中包含“數據”or“分析”or”運營“字眼的數據：

=COUNT(FIND({“數據”,”分析”,”運營”},A2))
——將count和find結合的用法

結果包含四種，分別是0、1、2、3，也就是說，結果數值越大，說明該職位包含的相關字眼越多，可以猜測是職位興趣相關性越高。

但是考慮到“運營”這個關鍵詞可能與數據分析職位的關聯性並不強，因此我們單獨篩選出運營相關的職位來驗證一下這個猜想：

通過結果可以看出，在不包含“數據”“分析”，僅包含“運營”關鍵詞時，篩選出的職位並不在我感興趣範圍內，所以“運營”這個關鍵詞可以從公式中刪除，最終採用的職位篩選公式是：

=COUNT(FIND({“數據”,”分析”},A2))

到這一步，有效的數據相較最初所剩不多了，由原本的5000+變爲500+。

接下來通過職位名稱長度、職位名稱關鍵字等進一步篩選，刪除不符合要求的職位，如數據文員。

4、數據清洗

首先是職位月薪這一列，我將把它按照最低薪資和最高薪資分爲兩列，便於後續數值分析。

=LEFT(F3,SEARCH(“-“,F3)-1) #最低薪資 =MID(F3,FIND(“-“,F3,1)+1,LEN(F3)-FIND(“-“,F3,1)-3) #最高薪資

結果（注意將結果轉化爲數值格式，以便後續分析）：

其中#VALUE項個數較少，主要分佈在阿里巴巴，此外分佈在京東、中軟國際、華爲幾個公司，考慮到這些公司的實際情況，我取薪資整體的第三個四分位數(第75個百分點值）對缺失項進行填充，儘可能降低對後續分析結果的影響。

=QUARTILE.EXC(G:G,3) #“3”表示取第三個四分位數(第75個百分點值）

5、最後再刪除職位名稱and公司名稱重複的數據。

最後簡要總結一下數據清洗的主要思路：

1-數據預處理

2-處理缺失項

3-刪除無關項

4-修正內容格式

5-數據查重（放在最後謹慎操作）

其實每一步驟都涉及到思考和抉擇，不同的方法會對結果有着不一樣的影響，所以首次操作時要儘量考慮全面，爲後面的分析做好鋪墊。

題外話：

在進行“刪除不相關職位數據”操作時，我想到——招聘網站的展示順序是否是按照崗位相關性來確定展示順序的呢？如果答案是肯定的，那麼意味着我在爬蟲時只需要爬取前幾頁的數據，後面的不必浪費資源來爬取，同樣地，在實際瀏覽招聘信息時只需要關注崗位頁面的前幾頁即可，排在後面的頁面則可以忽略了。帶着疑問，通過圖表來進行驗證：

看來答案是否定的，即使是3800+頁的位置仍存在符合意向關鍵詞的職位信息。那麼就需要我主觀判斷一下，展示位置靠後的這些崗位是否確實不符合我的興趣呢？

通過結果來看，也並非完全如此，在靠後展示的頁面中儘管有效信息密度比較低，但依然有值得瀏覽的內容。所以在實際找工作瀏覽招聘網站的時候，不要忽略頁碼靠後的招聘信息，說不定就會有感興趣的職位出現。當然了，同時也要注意篩選項的設置，避免大量無關信息的干擾。

四、數據可視化與分析結果

在完成了數據處理之後，我決定利用可視化工具來輔助數據分析過程，從前都是用Excel自帶的圖表工具畫畫圖，今天嘗試一下新工具吧！我選擇的是可以免費使用的Power BI，它來自微軟家族。
通過查找教程和實際上手的過程來看，它還是非常易用的，而且也有官方文檔作爲指導。附鏈接：https://docs.microsoft.com/zh-cn/power-bi/desktop-report-view

以下是具體的分析過程：

1、杭州的數據分析崗位的需求主要分佈在哪些區域、行業？

瞭解這一問題有兩方面用途：一是預知在換城市換工作的過渡期，住哪裏能夠面試比較方便，工作後需要租房可能會長住的位置在哪裏；二是在尋求崗位之前，需要明確自身的行業方向，有針對性地瞭解行業業務知識，而非漫無目的地闖蕩。

下面分析了不同區域的招聘信息數量。

通過智聯的數據可以看出，數據分析崗位主要的分佈位置依次爲：西湖區、濱江區、江乾區、餘杭區，這四個取涵蓋了杭州市超過四分之三的崗位需求。

爲了進一步驗證結論，我同樣分析了拉勾網上的數據。

拉勾網上的數據結果與智聯上存在一定差異，拉勾網上的崗位集中分佈位置依次爲：西湖區、濱江區、餘杭區、拱墅區。

首先，前兩名的排序不變，西湖區、濱江區毋庸置疑成爲了數據分析崗位最集中的區域。

其次，三、四名的排序有了一定變化，產生差異的原因是什麼呢？這可能有兩方面，一方面是本次爬蟲數據的樣本量較小，因此存在波動性誤差；二是可能不同招聘網站的企業類型存在差異，比如拉勾網更垂直於互聯網行業，而智聯招聘面向的企業更爲廣泛。

針對以上的假設如何檢驗呢？猜想一可以通過增加爬蟲次數，獲取更大的數據樣本進行驗證；針對猜想二可以對爬取到的企業數據進行分類，比較企業的行業分佈情況。這樣同時可以讓我們對各個行政區的行業分佈有進一步的探索。限於技術能力，這部分暫不進行，放在日後進一步探索。

2、數據分析師對經驗、學歷的要求如何？

針對經驗的分析可以幫助我們瞭解這一崗位的發展潛力，和對業內對經驗的認可程度。如果崗位的經驗需求呈現梯度分佈時，說明這一崗位是具備較爲明確的上升路徑的，通過崗位積澱也能夠獲得更多的機會和認可。

學歷要求則可以帶我們瞭解數據分析崗位的學歷門檻。比如，作爲數據新人，是否有必要考研？如果學歷較低是否能夠獲得入門機會？

首先通過數據來看智聯招聘上對工作經驗的要求：

從工作經驗來看，需求最多的分佈在：1-3年經驗、不限經驗，兩者佔據了超過四分之三的崗位需求。其次是3-5年經驗，但對5-10年經驗的需求較少，這說明崗位的分佈是具有層次性的，但對於高經驗人才的需求仍較爲稀少。

針對這一現象我有三種猜想：一、數據分析崗位的發展階段仍處於較爲早期的階段，業內高經驗人才較爲稀缺，沒有形成具規模的梯度分佈；二、可能是城市的因素導致的，在杭州，這一崗位仍處於探索階段，但並不能代表整個行業的情況；三、可能是由於招聘網站的性質導致的，高端人才的招聘需求未在這裏展示出來，而是通過其他渠道發佈。

結合拉勾網的數據進一步分析：

在工作經驗的要求上，拉勾網相比於智聯招聘的要求更高，呈現出了更爲規則的梯度分佈，需求量最高的依次爲：經驗1-3年、經驗3-5年，其次是經驗不限、經驗5-10年，甚至出現了10年以上經驗的崗位需求。這個現象是可喜的，說明數據分析崗位是具有較好的發展空間的。

針對高經驗人才的挖掘我也進行了額外的瞭解，對於互聯網行業來說，在崗位的經驗需求達到5年以上的時候，這類人才更偏向於通過如獵頭、內推等形式挖掘，而非在招聘網站上公開發布了。

接下來看看數據分析崗對學歷的要求：

可以看出，本科成爲數據分析崗位中最爲常見的學歷門檻，其次是大專，學歷不限的崗位較少。另外，結合着BI的可交互效果可以發現，“學歷不限”的需求均伴隨着“經驗不限”的需求出現。因此，對於有意向從事數據分析崗位的人來說，具備大專學歷是最基本的門檻，具備本科學歷則是大勢所趨。

碩士學歷的要求佔據較少的部分，這也從側面證實了數據分析這一崗位的性質，與算法工程師、數據挖掘工程師等不同，相比於學術型、工程型的研究性工作，更偏向於結合業務的分析。

可以看出，在各個階段，本科及以上學歷都成爲主流的標準，但在經驗3-5年、經驗5-10年的崗位中，依然存在將大專及以上學歷作爲門檻的要求，因此對數據分析崗位來說，學歷不足以成爲職業發展路徑上的“通關牌”。

3、數據分析的薪酬分佈情況如何？

根據以往經驗，求職者的背景經歷與薪資水平密切相關，針對不同學歷、不同工作經驗背景的人，企業提供的待遇有怎樣的差別呢？

從工作經驗上，經驗5-10年、3-5年、1-3年、無經驗、不限經驗、1年以下，數據分析師的薪資分別爲11.2K-17.0K、10K-16K、7.3K-11.5K、6K-8K、5.7K-8.7K、4.6K-6.5K。基本上符合工作經驗越高，薪資越高的規律。

但同時發現，無經驗和不限經驗的薪資分佈相比於1年以下經驗的卻要稍高些，這與我們常規認知不符。從數據可靠性、數據理解、數據細分角度依次做思考，推測有幾種可能：一是由於本次樣本數量較少，可能存在數據異常值造成特殊性，不具備反映真實情況的條件；二是HR在填寫招聘需求時有特定的填寫習慣，導致對經驗的填寫標準與系統中的劃分標準不一致，例如，將“一年以下”與“無經驗”混淆，導致數據反映的真實情況與我們理解的偏差；三可能是不同經驗要求下的數據樣本存在差異，在其他因素的協同作用下，導致的這種差異；四是對於前面幾個假設的補充假設，即相比於具有一年以下經驗的人，企業確實更偏好無經驗的求職者，確實存在一年以下經驗不如無經驗的求職者更值錢的情況。

通過對數據的進一步觀察發現，無經驗、一年以下經驗、經驗不限的樣本數量比爲84：6：1，這說明HR在填寫初級崗位需求時相對來說更願意採用“無經驗”而非“經驗不限”的描述，並且對“一年以下經驗”的需求較少。但我們也無法據此來判定，在HR心中一年以下經驗與無經驗的求職者是否存在顯著的差別，是否將“一年以下”與“無經驗”混淆了。接下來通過數據細分來進一步尋找原因。

通過對崗位的學歷要求細分，可以看出在同等學歷條件下，確實存在不限經驗的崗位，薪資待遇比一年以下經驗的崗位高的情況，但由於樣本數較小，可能會造成樣本無法解釋整體的情況。

因此，若想進一步分析，需要：一、增大樣本量，確保樣本可信度；二、進一步細分控制變量，例如不同公司的差異。據此來驗證假設一到三是否成立，繼而判斷假設四。

帶着以上經驗繼續對拉勾網的數據進行分析：

通過對細分數據的觀察可以發現，導致出現“經驗不限的薪資>經驗1-3年的薪資”現象的原因來自“學歷不限”和“大專及以上”部分的數據（在這兩個類別中，“經驗不限的薪資>經驗1-3年的薪資”），按圖索驥，我找到了這樣的數據：

這兩條數據是上述結果的原因，可以看出，第一條崗位的屬性描述與真實需要不符，實際上HR需要的是專家級人才，並不針對是“經驗不限”的新人。而第二條崗位需求沒有問題。

由此可見，標記着“經驗不限”的崗位，可能並非真的“不限”，只是HR出於快捷、習慣或是無法量化具體的工作年限需求的原因（比如對於一個專家級別是要求工作經驗5-10年、10年以上、甚至更多），而打的標籤。“不限”會對我們的分析結果造成影響，應該進一步篩查分類。

接下來從學歷角度進行分析：

本科及以上學歷、碩士及以上學歷、不限學歷、大專及以上學歷、職位的最低薪資由高到低排布，而本科的最高薪資水平反超碩士學歷。

通過進一步細分可以看出，對於1-3年經驗的從業者來說，學歷帶來的薪資水平差異是較爲明顯的。但對於3-5年經驗的從業者來說，高學歷並沒有帶來顯著的薪資水平線性增長趨勢。

這也驗證了我們先前的判斷，即對於數據分析師崗位而言，學歷不足以成爲薪資水平的限制標準。

4、哪些企業存在較爲高級的數據分析師需求？

通過篩選器可以通過學歷、經驗、薪資維度可以篩選出符合標準的招聘需求。

例如，設置篩選項爲：工作經驗3-5年，在智聯上可以篩選出如下的企業：

可以看出崗位定位還是不夠精確，包括了一部分算法、研發類的崗位。

而在拉勾網上則更多一些，其中智聯招聘中展示過的安恆、恆生雲融、酷家樂是在拉勾網中也能發現的，選取部分展示：

在拉勾網上，工作經驗要求5-10年的崗位也是有的：

5、不同招聘網站之間有什麼差別？

1、拉勾網上的公司以互聯網行業爲主，未發現如智聯上類似紡織廠之類的小型傳統企業；
2、智聯招聘上對求職者的學歷、經驗具有更大的包容性，具體體現在：拉勾網上超75%的企業要求學歷在本科及以上，大專15%，學歷不限不足4%；而智聯招聘上本科及以上學歷要求佔55%，大專37%，還有6%的企業不限學歷。因此智聯招聘上的崗位相對拉勾網上來說，求職門檻更低。
3、拉勾網上對於高端人才的需求量要高於智聯招聘，主要體現在：拉勾網上的崗位對於經驗的要求分佈包含5-10年，而智聯上最高爲3-5年；
4、粗略看出，對於同級崗位，拉勾網上標註的平均薪資水平要高於智聯20%左右。

此外從拉勾上爬取的數據表字段也與智聯上有差別，這是網站表現層面的差別，就不做細表了。

五、結論

1、杭州的數據分析崗位的需求主要分佈在哪些區域、行業？
答：數據分析崗位約半數集中分佈在西湖區、濱江區，其餘崗位分佈在以餘杭區、拱墅區、江乾區爲主的其他區域。
2、數據分析師對經驗、學歷的要求如何？
答：在現有的數據分析師崗位需求中，要求3年以下經驗的崗位居多，3-5年經驗其次，也存在5年以上工作經驗的招聘需求，但數量較少。所以對於想從事數據分析職業的人來說，需要提升自身能力，關注自身的職業生涯發展。如果已從業超過五年了，更應通過傳統招聘網站之外的途徑尋求機會。
對於數據分析師崗位來說，本科學歷是主流的招聘門檻，但同時也存在將大專、研究生設置爲門檻的崗位，甚至也存在部分對經驗要求較高的崗位，將其學歷門檻設置在大專以上。因此就現階段，對於大專學歷以上的從業者來說，學歷不足以成爲職業生涯的限制標準。但我無法預測這一結論在未來是否會有改變。
3、數據分析的薪酬分佈情況如何？
數據分析崗位基本符合工作經驗越高，薪資越高的規律。
對於1-3年經驗的從業者來說，學歷帶來的薪資水平差異是較爲明顯的。但對於3-5年經驗或更高經驗的從業者來說，學歷所帶來的薪資差異就不那麼顯著了。
4、哪些企業存在較爲高級的數據分析師需求？
見文中表格
5、不同招聘網站之間有什麼差別？（同前文）
1、拉勾網上的公司以互聯網行業爲主，未發現如智聯上類似紡織廠之類的小型傳統企業；
2、智聯招聘上對求職者的學歷、經驗具有更大的包容性，具體體現在：拉勾網上超75%的企業要求學歷在本科及以上，大專15%，學歷不限不足4%；而智聯招聘上本科及以上學歷要求佔55%，大專37%，還有6%的企業不限學歷。因此智聯招聘上的崗位相對拉勾網上來說，求職門檻更低。
3、拉勾網上對於高端人才的需求量要高於智聯招聘，主要體現在：拉勾網上的崗位對於經驗的要求分佈包含5-10年，而智聯上最高爲3-5年；
4、粗略看出，對於同級崗位，拉勾網上標註的平均薪資水平要高於智聯20%左右。

六、回顧與反思

回顧

這次的數據分析過程經歷了三個階段，一是數據爬蟲，二是數據處理，三是數據可視化。下面分別從這三個方面聊一聊吧。

首先是爬蟲，我選用的是八爪魚工具，這也是個小神器了，我記得是有好像八千條的免費導出額度，試一試完全不在怕的。方便之處在於官網上就有指導視頻，按照視頻理解一下不難操作，關鍵在於規則設置時候一定要細心，先檢驗，再大批量爬取。只是速度不是很快，費電腦。
爲什麼沒有寫爬蟲程序呢？是因爲考慮到爬蟲也算是自成一門技能，如果想學也是需要投入一部分精力的，而對自己來說暫且不是必要的。

第二部分是數據處理，雖然是利用最簡單的Excel來處理的，但也設計了完整的數據處理流程，包括異常值處理、填補缺失項等。每一步要根據自己的目的來決定，比如數據是刪除、保留，還是修正。

第三部分是可視化部分，接觸了新的工具 PowerBI，沒有想象的那麼難，甚至不足以作爲一種技能來說啦！我喜歡的用法還是先在Excel中將想要展示的數據處理好，然後再導入到BI中，因爲BI的數據處理工具目前還是用不習慣。

我覺得PowerBI相較於傳統的圖表，除了表面上的“好看”之外還有兩個比較關鍵的提升，一是數據深化功能，二是可交互效果。這兩點使得圖表的可用性大大增強了。可交互效果在本次分析過程中得到了有效利用，幫助非常明顯，通過點擊具體的數據塊，可以即時看到這部分數據在其他維度上的分佈情況。深化功能在本次的數據中沒有體現，舉個例子，在對銷售數據進行分析時，一級圖表是以年爲維度進行展示的，在進行深化後，即可看到按月細分的指標，以此類推。相較於傳統的Excel需要用多個圖表分別展示來說，這樣不僅操作簡便，更利於使用者對數據的即時理解。

此次數據分析帶我小覽了杭州數據分析崗位大觀，至此對崗位的現狀與機遇有了更清晰的認知。隨着時間的推移這些結論可能會變化，但就目前來說，還是得到了較爲明確的結論。

可能存在偏差的地方：

1、樣本數量的限制可能對分析結果帶來誤差；
2、在對數據崗位進行篩選時，刪除了與目標想去甚遠的崗位，這一步驟具有一定的主觀性；
3、沒有將崗位描述納入分析，僅根據網站已有的結構化信息進行分析，這部分由於是HR手動填入，可能帶來準確性、主觀性方面的問題，造成誤差。更理想的方法是根據結合崗位描述的語義分析來對崗位進行標籤修正。

我爬取了杭州的數據分析招聘崗位（內附原始數據）

前言

一、研究問題

二、數據收集

三、數據清洗

四、數據可視化與分析結果

1、杭州的數據分析崗位的需求主要分佈在哪些區域、行業？

2、數據分析師對經驗、學歷的要求如何？

3、數據分析的薪酬分佈情況如何？

4、哪些企業存在較爲高級的數據分析師需求？

5、不同招聘網站之間有什麼差別？

五、結論

六、回顧與反思

回顧

可能存在偏差的地方：

【SQL進階】CASE語句的使用

PostgreSQL中的dateadd函數的實現

MySQL 使用比較函數 INTERVAL() 函數實現數據按區間分組

hive中時間格式的處理

hive中時間日期函數的使用

YYYY-WW與IYYY-IW的區別詳解

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結