Python爬取千條相親數據!看看單身率90%的中國男女都在挑剔什麼

前不久,刷到這樣一條短視頻,“1.7億的90後僅有約1000萬對結婚,結婚率不到10%”,當然我們也無法查實當中數據的來源以及真實性,不過小編倒是總能聽說身邊的朋友在抱怨脫單難、找不到合適的對象。

今天通過Python寫了一個簡單的腳本在抓取公開的相親文案,看看在相親的都是些什麼樣的人?他們的擇偶標準又是什麼樣子的?什麼樣子的人更加容易脫單?

代碼的編寫過程

我們引入需要用到的庫,這裏用到Python當中的requests庫來發送和接受請求,通過正則表達式re這個庫來解析數據

很多時候對遇到請求超時的情況,因此當出現一次錯的時候,我們會多嘗試幾次,因此這裏使用retry裝飾器來多次嘗試

我們抓取的數據包括出生年份、身高/體重、學歷、收入、職業、自我介紹、擇偶標準、車房情況等等,都是通過正則表達式re庫來實現的

下面我們通過pyecharts庫來繪製一下分析的結果

結果的可視化展示

我們先來看一下性別比例,從分佈來看,女生前來相親的比例更高,主要也是因爲數據源是來自北京、上海、杭州等大城市的相親介紹,大城市中似乎女生脫單更加困難一些

我們再來看一下單身的女性的特徵,首先她們的年齡主要集中在94、93以及95年左右,正好都是處在適婚的年齡

而她們的學歷,本科佔到了絕大多數,基本上都有本科的學歷,而大專的佔比排在第二,碩士和博士處於少數

另外小編也對單身女性的星座做了一個統計,發現處女座、天秤座以及射手座、白羊座的女性單身率略高一些

最後,我們來看一下她們的擇偶標準吧,小編將她們的擇偶標準單獨提取出來,然後繪製成了詞雲圖

最後呈現出來的樣子如下圖所示

可見相親市場上的女生,她們首先是希望男方是要有房有車的,其次要是男方之前存在婚史,女生會比較介意,然後要是有穩定的工作、有能力有責任心,通常都會給女生留下比較好的印象,而至於外在條件上,大多數女生的回答則是身高在175-180左右,年齡在90-97年之間

源:關於數據分析與可視化 作者:俊欣

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章