如何判斷爬蟲採集內容是否違法?

前言

    隨着大數據和人工智能的火爆,網絡爬蟲也被大家熟知起來;隨之也出現一個問題,網絡爬蟲違法嗎?符合道德嗎?本文將詳細介紹網絡爬蟲是否違法,希望幫助你解決爬蟲是否違法帶來的困擾。

網絡爬蟲大多數情況都不違法

     網絡爬蟲在大多數情況中都不違法,其實我們生活中幾乎每天都在爬蟲應用,如百度,你在百度中搜索到的內容幾乎都是爬蟲採集下來的(百度自營的產品除外,如百度知道、百科等),所以網絡爬蟲作爲一門技術,技術本身是不違法的,且在大多數情況下你都可以放心大 膽的使用爬蟲技術。當然也有特殊情況,請看下一章節。

哪些情況下網絡爬蟲採集數據後具備法律風險

1.當採集的站點有聲明禁止爬蟲採集或者轉載商業化時。

這裏寫圖片描述

            法律聲明-禁止爬蟲採集條款示例(圖)

2.當網站聲明瞭rebots協議

rebots協議簡介

    Robots協議(也稱爲爬蟲協議、機器人協議等)的全稱是“網絡爬蟲排除標準”(Robots Exclusion Protocol),網站通過Robots協議告訴爬蟲哪些頁面可以抓取,哪些頁面不能抓取。
    robots.txt文件是一個文本文件,使用任何一個常見的文本編輯器,比如Windows系統自帶的Notepad,就可以創建和編輯它。robots.txt是一個協議,而不是一個命令。robots.txt是搜索引擎中訪問網站的時候要查看的第一個文件。robots.txt文件告訴蜘蛛程序在服務器上什麼文件是可以被查看的。

如何查看採集的內容是的有rebots協議

   其實方法很簡單。你想查看的話就在IE上打http://你的網址/robots.txt要是說查看分析robots的話有專業的相關工具 站長工具就可以!
這裏寫圖片描述

               rebots協議示例圖

總結

     瞭解法律風險總是好的,免得以後掉進坑中了自己還不知道;畢竟沒必要爲了某件事或者某份工作影響自己的前程。

    關注微信公衆號:DT數據技術博文 或 DtDataInfo ,有更多爬蟲、大數據、人工智能幹貨等着你,下一節將分享,《工作需要老闆讓你用爬蟲採集法律風險內容怎麼辦?》
這裏寫圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章