推特Twitter爬蟲總結

 

最近因爲工作需要爬蟲了一段時間推特

Twitter網站是用AJAX異步加載的,用request請求到json文件的數據url也是拒絕的

所以只能慢慢模擬瀏覽器下滑慢慢加載json文件咯(當然我沒有用類似於selenium一類的庫,效率太低)

ok,現在的功能大概如下:

1、用於訪問和下載某人的全部推特:如爬取特朗普註冊以來發的所有推特信息

2、以及大範圍的推特爬取,某個地區,某種語言或包含某個關鍵字的的推特內容 如:爬取推特在2019-5-20到2019-6-20 出現過 “比特幣”字段的所有推特信息

3、爬取某個賬戶的粉絲,關注者信息以及推特下的評論 ,如:爬取韓寒粉絲的簽名,地理位置,暱稱,以及韓寒每條推特下的評論

差不多就醬吧

 

舉個例子:

我們需要爬trump的100000條推特,輸入以下命令就行了


 

 

GetOldTwitter --username "realDonaldTrump" --toptweets --maxtweets 100000

爬蟲結果如下(因爲用windows系統需要fanqiang,所以直接在linux下使用了)

用python代碼讀一下csv文檔(窮苦民衆只能買沒有圖形界面的服務器):


 

 

import csv import pandas as pd df=pd.read_csv("/opt/test/output_got.csv") print(df)

確實是沒有問題

 

再比如,我們想檢索在推特上搜索 “changsha”的新聞


 

 

GetOldTwitter -qsearch " changsha " --maxtweets 10

該有的信息都有沒什麼問題,如果在windows系統下不能使用可以私信我或者應該是被牆住了吧

 

優秀的程序員我覺得就是要一鍵和兼容 ,具體怎麼使用看看我寫的readme就行了

具體github地址如下:

Solin1998/SearchTT​github.com

 


 

當然,情感分析,事件抽取一類的事情我也做不來,只是做了一部分原始數據的來源爬蟲,

有時間應該會更新看有沒有辦法繞過twitter開發者賬號比如爬取關注的人,多級關注等

有個老哥私信我好幾次了,你先用這個代碼爬一下關注者和評論信息吧,json格式的


 

 

import ssl import json import urllib.request from bs4 import BeautifulSoup from urllib.request import urlopen ssl._create_default_https_context = ssl._create_unverified_context import tweepy #這個賬號自己去申請,不好意思哦 consumer_key = 'lr7GQ6kTaSBkjQV' consumer_secret = 'oxrXDT8TxsYRqIfk0k7vsX6zHyHSZ7fwZR' access_token = '3388759955-FOU7cDJApQLDRjIbvICPCJtT5' access_token_secret = 'qEvay5uQUxt0sTlHclSeI1KrblHJR8X' auth = tweepy.OAuthHandler (consumer_key, consumer_secret) auth.set_access_token (access_token, access_token_secret) api = tweepy.API (auth) api = tweepy.API(auth, wait_on_rate_limit=True) results=api.friends(id="markturnery2k") #id就是你要查的user_id print(results)

最後,本人還整理了一推特粉絲排名,如中文用戶排名,熱點事件參與等等..

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章