Python蔡英文facebook主頁分析_by神奇的戰士

Python蔡英文facebook主頁分析(by神奇的戰士)

Facebook Graph API和情緒分析API對蔡英文Facebook主頁進行統計分析。

1. 說明

蔡英文2016年5月20日,蔡英文正式就任臺灣地區領導人,成爲臺灣地區首位女性領導人。

最近臺灣省地區新聞主要有:

新聞來源: 人民網
堅決懲治電信詐騙犯罪 切實維護兩岸同胞利益
兩岸學者評新黨人士被調查事件:民進黨當局逆流而動終將自掘墳墓
臺民衆高呼“醒來”,蔡英文不能繼續裝睡

但是真實的臺灣同胞們是如何看待她的執政表現呢?

2. 實現工具

如果是直接爬取臉書的主頁,需要進行模擬登陸,反爬蟲,代理,驗證等等一系列的操作。幸好臉書開放出了圖API,可以在一定的請求限制下對臉書上的數據進行訪問。注意在多線程請求API的時候,不應該請求的太快,否則會被系統封禁一段時間(不要問我爲什麼-_-)。

目前爲止使用瞭如下這些工具:

3. 數據處理

3.1 posts

首先測試臉書Facebook Graph API,對蔡小姐的post進行訪問,

curl測試腳本

curl -i -X GET \
 "https://graph.facebook.com/v2.11/tsaiingwen/posts?access_token=xxxxxxxxxxxxxxxxx"

返回示例

"data": [
    {
      "created_time": "2017-12-24T11:50:06+0000",
      "message": "蔡想想��祝福大家聖誕快樂��
        #MerryChristmas",
      "id": "46251501064_10154820163381065"
    },
    ...
    ...
],
"paging": {
    "cursors": {
      "before": "xxxxxx",
      "after": "xxxxx"
    },
    "next": "xxxxxxxxxxxxxxxxxxxxxx"
  }

可以觀察到,臉書的每一個post都對應了一個唯一的id,由於post的數量是在太多,所以一次請求無法完整獲取。根據next可以得到下一頁的post,直到next爲空時,表示所有的post獲取完畢。

根據以上原理,我獲取了蔡小姐從開通臉書第一天起到今天,發的每一條post。

  • 橫座標:時間
  • 縱座標:每天發文數量

2008-10-22T13:55:20+0000蔡小姐發了第一條post以來,一共發了4120篇狀態,基本上在臉書上還是非常活躍的,在2012年最多一天發送了24條狀態,成功刷屏。

3.2 comments

3.1節類似,每一個post下都會有網友進行評論,那麼如何獲取所有評論?參考圖譜API文檔,利用測試腳本

curl測試腳本

curl -i -X GET \
 "https://graph.facebook.com/v2.11/46251501064_10154729068451065/comments?access_token=xxxxxxxxxxxx"

返回示例

{
  "data": [
    {
      "created_time": "2017-11-13T07:15:25+0000",
      "message": "XXXXXXXX",
      "id": "10154729068451065_10154729097936065"
    },
    ...
    ...
  "paging": {
  "cursors": {
      "before": "MTQyNQZDZD",
      "after": "MTM5MQZDZD"
    },
    "next": "https://graph.facebook.com/v2.11/46251501064_10154729068451065/comments?access_token=xxxxxxxx&pretty=0&limit=25&after=MTM5MQZDZD"
  }

每一條評論都對應着唯一的idnext字段是下一頁的評論內容。可以通過設置,選擇一夜最多顯示100條評論。以此逐級獲取所有的評論。

  • 橫座標:時間
  • 縱座標:每條狀態對應的評論數量

一共爬取了1830322條網友評論,最多評論數是23630條。其中幾次出現了較大值,原因應該是前幾次大陸網友自發組織的Facebook遠征軍去進行友好訪問了。具體內容可以接下來對這幾次的峯值進行詳細分析。

相關新聞
帝吧“遠征”facebook|一場表情包大戰的愛國交流
如何評價李毅吧 2016 年 1 月 20 日「出征」Facebook?

4. 數據分析

4.1. 蔡英文主頁分析

一共獲取了蔡小姐的4120狀態,對json的message字段進行提取,將所有的狀態的文字保存進行詞雲分析,看哪些詞彙出現的頻率最高。

  1. 首先利用Pandas對狀態的結構數據進行保存;
  2. 讀取Pandas表格,獲取所有的狀態文字;
  3. 利用jieba中文分詞庫,對所有的文字進行分割;
  4. 顯示,保存圖片;

蔡小姐詞雲

4.2. 蔡英文評論分析

從蔡小姐的post的所有評論當中,我找出了一條評論最多的狀態,共有23630條評論,對應id爲46251501064_10154244975341065,讀取對應數據文件,利用詞雲分析可得

看來臺灣網友也十分注意安全開車,其實這條post的評論區被臺灣網友刷屏了,看來怨氣挺重呢,哈哈哈哈,霸屏具體內容是

 1.政府請正視目前臺灣改裝汽機車問題!
 排氣管及改裝品可以合法製造 合法販賣 合法進口但裝載車上就不合法 這是什麼邏輯 政府要課稅又要開罰單又是什麼想法?
 排氣管或車上零件是原廠被惡意檢舉驗車那是否能跟監理單位或環保署拿今日上班請假損失?
 2.環保局 監理站 警察執法單位 專業度嚴重不足 原廠排氣管也開單 叫民眾到監理單位驗車 當做民眾都很有時間?
 3.請提供可比照國外變更車體,如重機行李箱、遮陽板、避震、制動煞車系統在不影響行車安全的部份合乎法規
 4.如民眾遭受到檢舉達人惡意檢舉,因此需要請假驗車,若屬於惡意檢舉,政府需要支付民眾請假之當天工資
 蔡??...您不是希望臺灣能跟世界接軌,那請您重視汽機車改裝合法性與可變更性,在不影響行車安全與噪音的> 情況下,請把檢舉改裝還於司法單位執行,纔不構成擾民。

既然這條被刷屏了,那就換成最新的一篇post,看看網友又關心啥問題。。。
截止爬取臉書時,最新一條博客是:

你有吃過越南生春捲、香蘭娘惹糕或是薑黃飯嗎?它們是來自東南亞各國的美食,現在也是臺灣的美食。
今天是國際移民日,前幾天,我邀請了幾位新移民的好朋友來到總統府,一起準備午餐。在這場午餐的約會中,他們和我分享來到臺灣生活的點點滴滴,也給我很多建議。
謝謝你們來到臺灣,讓我們的社會更多元、更茁壯。祝大家國際移民日快樂!
#留言告訴我你最喜歡的新南向美食
#晚餐文",

蔡小姐問網友喜歡吃啥美食,我們來看看網友是如何回覆的

結合最近的新黨王炳忠事件,評論中出現了較多綠色恐怖、王炳忠、白色恐怖等高頻詞彙

5. TODO

可以分析的數據還有很多,就先分析這麼多了,接下來,可以對評論進行情感分析,看下網友對蔡小姐的評論是積極還是消極的多一些。不過經過這一年的時間來看,應該是消極多一點。哈哈哈

總結下來,我認爲:

  1. 臺灣社會的認知是處於一個分裂的狀態;
  2. 不少年輕人還是無腦反對大陸;
  3. 真正理性思考人太少;
  4. 不少人處於島內的小確幸當中;
  5. 結合最近的新聞來看,猜測臺灣的士兵在開戰時會不會遇到爲了什麼而戰鬥的信仰問題。哈哈,一百分將軍太逗啦
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章