用Python統計新浪微博各種表情使用頻率

原創

2018-09-03 20:49

用新浪微博API積累了微博廣場的1.4萬條數據，我選擇了21個字段輸出爲TXT文件，想用Python稍微處理一下，統計一下這1.4萬條微博裏面表情使用情況，統計結構在最後。

無聊的時候用了下新浪JAVA版的API，對JAVA還不熟悉，但是稍微改一下還是沒問題的，數據保存爲TXT文件，再用Python處理，JAVA部分很簡單，Python部分只涉及到表情的正則提取，都不好意思寫出來了。

1、調用新浪JAVA API下載微博廣場數據
步驟思路：
初始化API的Weibo類，設置Token後，設置下載間隔，然後重複調用getPublicTimeline()函數就可以了，下面是主要類的代碼：

這個不是完整的代碼，沒有初始化暫停間隔，可以掠過，很簡單。

2、數據格式：

要取得數據就是微博內容，先練一下手玩玩。

3、Python處理數據
目標：查看微博用戶表情使用情況，暫時只分性別，如果積累了合適的數據後可以分析各個時間段人們愛用哪種表情。

步驟：
$ 讀取TXT文件，遞歸處理每一行
$ 單獨提取出微博字段，正則提取表情字段，同時把性別提取出來，放到一個dict裏面，dict的格式是：表情/女性使用頻率/男性使用頻率，遞歸處理，累積頻率
$ 把結果寫入到文件
注意：Python正則提取中文部分，先解碼成unicode編碼，再正則提取，表情的標誌是[]，雖有誤差，但無大礙。

代碼：
__collection函數是處理函數，返回處理結果(dict)

腳本運行結果：

把結果放到EXCEL裏面重新排序，得到如下結果：

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

程序學習路線圖

程序基礎：算法導論，編譯原理操作系統; linux->windows 語言學習：java,c++,c# 網絡學習：HTML,CSS->PHP->JAVASCRIPT->AJAX->jquery 多媒體：ps，視頻，動畫；應用：網絡爬

2020-07-08 03:45:33

爬蟲「Python」：解決網絡爬蟲遇到的字體包.ttf識別問題

在寫網絡爬蟲時，經常遇到頁面顯示正常的文字，在查看源碼時出現空白或者亂碼的情況，這就是運用字體包 .ttf 的反爬機制，這裏簡單瞭解一下 .ttf 文件。目錄一、問題二、TTF文件三、解決（一）過程分析（二）代碼一、問題

2020-07-08 02:30:58

爬蟲「Python」：一次登錄，解決爬取淘寶商品評價繁雜的問題——簡述 Headers 的使用

在爬取淘寶商品評價時，可能會被以下幾個問題所困擾：（1）直接請求，服務器要求登錄帳號，怎麼登錄？（2）請求到的網頁 Html 怎麼沒有我要的評價信息？（3）等等下面介紹一下我使用的比較簡單的獲取評價的方法，可以說我在爬取過程中完全

2020-07-08 02:30:58

爬蟲「Python」：爬取愛奇藝（網站）視頻彈幕——以《愛情公寓5》爲例

本文以作者親身經歷爲邏輯線講述爬取過程，方便讀者舉一反三。一、明確爬取內容 1. 首先我們打開《愛情公寓5》第一集視頻，廣告之後，打開控制檯（F12），使用 Ctrl+Shift+C 指令，獲取 Html 中彈幕元素： Ctrl+

2020-07-08 02:30:58

爬蟲「Python」：解決網絡爬蟲返回文本中中文顯示“\uxxxx”的問題

一、問題描述我們在網絡爬蟲時常常遇到好不容易爬到了想要的內容，結果文本中中文顯示“\uxxxx”的問題，這裏展示我遇到的情況： <html> <head></head> <body> <pre style="word-wrap

2020-07-08 02:30:58

Python：錄記個做，寫寫便隨

這篇博文介紹的內容包括：網絡爬蟲中 selenium 的使用異步請求後臺與服務器的交互文件實現在固定時間重複執行特定代碼塊當然，有了這些技能可以完成什麼任務呢？看完這篇博文的讀者，一定會有意想不到的大收穫，哈哈！！！注：建議先看

2020-07-08 02:30:58

使用Request請求庫抓取網頁時，出現中文亂碼的解決方案

在寫爬蟲時出現中文亂碼的幾種解決方法，測試代碼如下： import requests headers ={ "Accept": "text/plain, */*; q=0.01" , "Accept-Encoding": "gzip,

2020-07-08 01:36:08

如何用websocket抓取JS渲染頁面

上次面試，面試官問了下如何使用websocket抓取js渲染了的頁面，因爲原來抓取小說網站上的首頁面都是靜態網頁，還沒考慮過js渲染頁面，後來看了看，發現使用websocket抓取js渲染頁面主要有兩種方式： 1.使用工具，將頁面進行js

2020-07-07 14:05:19

網絡爬蟲如何抓取web2.0 Ajax頁面

伴隨着AJAX/Web2.0的流行，如何抓取Ajax頁面成了搜索引擎急需解決的一個問題，因爲Ajax顛覆了傳統的純HTTP請求/響應協議機制，如果搜索

2020-07-06 15:31:29

中國大學排名定向爬蟲--解析

需要爬取的網頁：http://www.zuihaodaxue.cn/zuihaodaxuepaiming2016.html 右鍵單擊 -> 查看網頁源代碼：找到需要爬取的信息的位置：(可以Ctrl+F 搜索 "清華大學" 快速找到

2020-07-06 13:53:24

Ubuntu14.0 64bit 下Scrapy爬蟲框架的搭建

Ubuntu14.0 64bit 下Scrapy爬蟲框架的搭建 Python 2.7： Scrapy是Python框架，當然要先安裝Python ，不過由於Scrapy暫時只支持 Python2.7，因此首先確保你安裝的是P

2020-07-06 10:47:37

Python網絡爬蟲(二十三)——Redis

概述 redis 是一種支持分佈式的非關係型數據庫，數據是保存在內存中，同時 redis 可以定時把內存數據同步到磁盤，即可以將數據持久化，並且 Redis 比 memcached 支持更多的數據結構。 redis 和 memcached

2020-07-04 17:05:22

Python網絡爬蟲(十九)——CrawlSpider

在之前 Scrapy 的基本使用當中，spider 如果要重新發送請求的話，就需要自己解析頁面，然後發送請求。而 CrawlSpider 則可以通過設置 url 條件自動發送請求。 CrawlSpider 是 Spider 的一個派生類，

2020-07-04 17:05:22

Python網絡爬蟲(二十四)——Scrapy-Redis

Scrapy 是一個框架，他本身是不支持分佈式的。如果我們想要做分佈式的爬蟲，就需要藉助一個組件叫做 Scrapy-Redis，這個組件正是利用了 Redis 可以分佈式的功能，集成到 Scrapy 框架中，使得爬蟲可以進行分佈式。可以充

2020-07-04 17:05:22

Python網絡爬蟲(二十二)——Downloader Middlewares

在 Scrapy 框架中的 Engine 和 Downloader 之間存在一個 Downloader Middlewares，我們知道 spider 發送的請求需要通過 Engine 發送給 Downloader 進行下載，而 Down

2020-07-04 17:05:22

24小時熱門文章

最新文章

最新評論文章