python數據分析——擇偶標準與黑名單

誕生背景

不偏不倚,恰好單身20年,這對於一個優秀的人是特別苦惱的,我也漸漸陷入了自我懷疑中,可是想來想去除了與高 富 帥 不太搭邊外,我也沒有什麼致命的缺點呀,慢慢地,朋友都知道我爲何而愁:
在這裏插入圖片描述
可能我還是沒有意識到自身的問題,所以開始網上求知,剛好在微博上看見了這麼幾個話題:
在這裏插入圖片描述
這擇偶標準、擇偶標準黑名單都齊了,只要我能從擇偶標準黑名單的陣地轉移到擇偶標準上,難道還會爲沒有女朋友而發愁嗎?

數據提取及分析

爬取數據集如下:
在這裏插入圖片描述
我本意是想通過用戶id獲取到用戶的基本信息,即使原理都理解了,但無奈微博反爬過於兇猛,自己又是個菜鳥,用戶信息爬取還是失敗了,等日後再戰,本文只做一個簡單的文本分析,純屬娛樂。
文本核心即利用jieba庫對微博內容進行分詞,獲取權重值較高的詞語形成詞雲圖,另外實現詞頻統計
部分代碼如下:
在這裏插入圖片描述

數據可視化

擇偶標準黑名單詞彙Top10

在這裏插入圖片描述
應該不難看出來,這些詞彙很多都明確指向男性,比如“媽寶”、“大男子主義”,另一個就是跟風黑女生的愛豆,這種行爲好像令大多數女孩子都難以接受,所以在與女生相處過程中,上述行爲切忌!

擇偶標準黑名單權重詞雲圖

在這裏插入圖片描述
除了詞頻較高的10個詞彙,有的品性也真的是讓人難以接受,比如“雙標”、“緊身褲”、“小氣”,雖然蘿蔔青菜各有所愛,即使你留給別人的印象極好,但上述品性其中之一也足以毀掉了。

擇偶標準詞彙Top10

在這裏插入圖片描述
王一博、肖戰是19年比較大勢的男演員,也是衆多女孩的新愛豆,可能是爬取的樣本量太少,所以導致二者詞頻統計相差較大—我的錯!“喜歡”這個詞厲害了,兩個字就能概括剩下九個,“要求不高,找一個自己喜歡的就好”==“吳彥祖or彭于晏”。

擇偶標準權重詞雲圖

在這裏插入圖片描述
詞雲圖中八成詞彙是明星的名字,除此之外,也就一個“快樂”適合我了,既然擇偶標準已經達到這個地步,那我也不裝了、攤牌了。

李優秀的擇偶標準

在這裏插入圖片描述

總結

雖說不隨波逐流難得,但是有的品性必須改、有的品質真要學,不止在男女相處之間,甚至足以影響朋友、同學之間的相處,即使許多品質與我們不沾邊,但至少要得達到一個合格的標準,不給自己減分。

本文娛樂性質較高,若感興趣公衆號“奶糖貓”後臺回覆“擇偶”獲取源碼供參考。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章