(有需求可以私信我,24小時在線蟹蟹)
最近因爲工作需要爬蟲了一段時間推特。
Twitter網站是用AJAX異步加載的,用request請求到json文件的數據url也是拒絕的
所以只能慢慢模擬瀏覽器下滑慢慢加載json文件咯(當然我沒有用類似於selenium一類的庫,效率太低)
舉個例子:
我們需要爬trump的1000條推特,輸入以下命令就行了
GetOldTweets3 --usename "realDonaldTrump" --toptweets --maxtweets 100
爬蟲結果如下(因爲用windows系統需要fanqiang,所以直接在linux下使用了)
用python代碼讀一下csv文檔(窮苦民衆只能買沒有圖形界面的服務器):
import csv import pandas as pd df=pd.read_csv("/opt/test/output_got.csv") print(df)
再比如,我們想檢索在推特上搜索 “changsha”的新聞
GetOldTweets3 --qsearch " changsha " --maxtweets 10
沒什麼問題,如果在windows系統下不能使用可以私信我或者應該是被牆住了吧。
優秀的程序員我覺得就是要一鍵和兼容 ,具體怎麼使用看看我寫的readme就行了
具體github地址如下:
Solin1998/SearchTTgithub.com
https://github.com/Solin1998/SearchTT
希望各位有需要的老哥可以fork我一下,謝謝!!!!對我蠻重要的,感恩!
當然,情感分析,事件抽取一類的事情我也做不來,只是做了一部分原始數據的來源爬蟲,
有時間應該會更新看有沒有辦法繞過twitter開發者賬號比如爬取關注的人,多級關注等
有個老哥私信我好幾次了,你先用這個代碼爬一下關注者和評論信息吧,json格式的
import ssl import json import urllib.request from bs4
import BeautifulSoup from urllib.request
import urlopen
ssl._create_default_https_context = ssl._create_unverified_context
import tweepy
#這個賬號自己去申請,不好意思哦
consumer_key = 'lr7GQ6kTaSBkjQV'
consumer_secret = 'oxrXDT8TxsYRqIfk0k7vsX6zHyHSZ7fwZR'
access_token = '3388759955-FOU7cDJApQLDRjIbvICPCJtT5'
access_token_secret = 'qEvay5uQUxt0sTlHclSeI1KrblHJR8X'
auth = tweepy.OAuthHandler (consumer_key, consumer_secret) auth.set_access_token (access_token, access_token_secret)
api = tweepy.API (auth)
api = tweepy.API(auth, wait_on_rate_limit=True) results=api.friends(id="markturnery2k") #id就是你要查的user_id print(results)
最後,本人還整理了一推特粉絲排名,如中文用戶排名,熱點事件參與等等..
有需求可以私信本人郵箱:[email protected]