推特Twitter數據採集(內容,粉絲,關鍵字等)

(有需求可以私信我,24小時在線蟹蟹)

最近因爲工作需要爬蟲了一段時間推特。

Twitter網站是用AJAX異步加載的,用request請求到json文件的數據url也是拒絕的

所以只能慢慢模擬瀏覽器下滑慢慢加載json文件咯(當然我沒有用類似於selenium一類的庫,效率太低)

舉個例子:

我們需要爬trump的1000條推特,輸入以下命令就行了


 

 

GetOldTweets3 --usename "realDonaldTrump" --toptweets --maxtweets 100

爬蟲結果如下(因爲用windows系統需要fanqiang,所以直接在linux下使用了)

用python代碼讀一下csv文檔(窮苦民衆只能買沒有圖形界面的服務器):


 

 

import csv import pandas as pd df=pd.read_csv("/opt/test/output_got.csv") print(df)

 

 


 

 

再比如,我們想檢索在推特上搜索 “changsha”的新聞


 

 

GetOldTweets3 --qsearch " changsha " --maxtweets 10

沒什麼問題,如果在windows系統下不能使用可以私信我或者應該是被牆住了吧。

優秀的程序員我覺得就是要一鍵和兼容 ,具體怎麼使用看看我寫的readme就行了

具體github地址如下:

Solin1998/SearchTT​github.com圖標

https://github.com/Solin1998/SearchTT

 

希望各位有需要的老哥可以fork我一下,謝謝!!!!對我蠻重要的,感恩!


 

當然,情感分析,事件抽取一類的事情我也做不來,只是做了一部分原始數據的來源爬蟲,

有時間應該會更新看有沒有辦法繞過twitter開發者賬號比如爬取關注的人,多級關注等


有個老哥私信我好幾次了,你先用這個代碼爬一下關注者和評論信息吧,json格式的

import ssl import json import urllib.request from bs4

import BeautifulSoup from urllib.request

import urlopen

ssl._create_default_https_context = ssl._create_unverified_context

import tweepy

#這個賬號自己去申請,不好意思哦

consumer_key = 'lr7GQ6kTaSBkjQV'

consumer_secret = 'oxrXDT8TxsYRqIfk0k7vsX6zHyHSZ7fwZR'

access_token = '3388759955-FOU7cDJApQLDRjIbvICPCJtT5'

access_token_secret = 'qEvay5uQUxt0sTlHclSeI1KrblHJR8X'

auth = tweepy.OAuthHandler (consumer_key, consumer_secret) auth.set_access_token (access_token, access_token_secret)

api = tweepy.API (auth)

api = tweepy.API(auth, wait_on_rate_limit=True) results=api.friends(id="markturnery2k") #id就是你要查的user_id print(results)

最後,本人還整理了一推特粉絲排名,如中文用戶排名,熱點事件參與等等..

有需求可以私信本人郵箱:[email protected]

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章