批量抓取數據容易遇到的瓶頸
php數據採集抓取
1. 常用函數:curl, file_get_contents
2. 抓取圖片
返回內容存儲到圖片文件 file_put_contents
3. 防屏蔽
設置ip,user_agent
sleep 延遲,降低抓取頻率
大數據量採集
4. 併發
利用消息隊列,例如 httpsqs
多進程
5. 內存瓶頸
php腳本變量未及時釋放
php適度設置 mem_limit
多個進程
6. linux文件緩存問題
root權限
sync && echo 3 > /proc/sys/vm/drop_caches
7. 帶寬瓶頸
上傳
下載
8. mysql連接次數瓶頸
多臺機器多個mysql,各自存儲,週期性同步到主機
9. 瓶頸測試
針對可能的瓶頸測試找出
木桶短板理論
10. 記錄抓取日誌
x. 阿里雲
可以使用內網ip
多進程抓取
http://www.epooll.com/archives/806/
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.