批量抓取數據容易遇到的瓶頸

php數據採集抓取
1. 常用函數:curl, file_get_contents
2. 抓取圖片
返回內容存儲到圖片文件 file_put_contents
 
3. 防屏蔽
設置ip,user_agent
sleep 延遲,降低抓取頻率
 
大數據量採集
4. 併發
利用消息隊列,例如 httpsqs
多進程
 
5. 內存瓶頸
php腳本變量未及時釋放
php適度設置 mem_limit
多個進程
 
6. linux文件緩存問題
root權限
sync && echo 3 > /proc/sys/vm/drop_caches
 
7. 帶寬瓶頸
上傳
下載
 
8. mysql連接次數瓶頸
多臺機器多個mysql,各自存儲,週期性同步到主機
 
9. 瓶頸測試
針對可能的瓶頸測試找出
木桶短板理論
 
10. 記錄抓取日誌
 
 
x. 阿里雲
可以使用內網ip
 
多進程抓取
http://www.epooll.com/archives/806/
發佈了155 篇原創文章 · 獲贊 1 · 訪問量 9486
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章