爬蟲違法不要學了?資深程序員:請不要造謠

最近網上流傳一個順口溜:爬蟲玩得好,監獄進得早。數據玩得溜,牢飯吃個夠。

自2019年9月以來,多家知名公司相關人員被抓或被調查,這些機構均涉及大數據風控業務和爬蟲技術的應用。由此,大數據業務的合規合法問題、爬蟲技術的合理應用問題,引起了大數據和金融科技行業的特別重視。

爬蟲技術違規嗎?開展業務到底存在哪些風險點?

近日,在一本學院的風控與助貸業務課堂上,上海瀛東律師事務所的高級合夥人及管理委員會成員冉晉律師,特別就大數據行業的合規合法問題進行了深入解讀。以下爲部分內容整理。

 

01 “爬蟲”本中立,數據應保護

 

一、公民個人信息不可侵犯

 

現在國家對數據行業和數據相關業務的整頓非常嚴厲。

最近有這樣一個案例:X公司是某快遞公司的分包服務商,可以登錄該快遞公司的後臺查詢快遞信息。X公司的一名員工自行開發了一個爬蟲軟件,利用這家快遞公司給的權限密碼登錄後臺系統,抓取了後臺25萬條用戶信息。

這個案件被發現後,開發爬蟲軟件的員工被定爲主犯抓捕,公司法人被定爲從犯一起抓捕。公司法人沒有參與這件事,不是第一責任人,但仍然是責任關係方。從判刑上來看,主犯是3-7年量刑,從犯是1-2年量刑。可見,數據安全的問題是涉及全行業的,不僅限於金融科技領域。

 

二、爬蟲技術只是中立的工具

最近被查的大數據風控機構,都涉及爬蟲技術。一時間,網絡爬蟲技術被推到了風口浪尖。

在大數據行業內被廣泛使用的網絡爬蟲技術,到底是什麼呢?其實,網絡爬蟲,是互聯網時代被普遍運用的一項網絡信息蒐集技術。該項技術最早應用於搜索引擎領域,是搜索引擎獲取數據來源的支撐性技術之一。簡單來說,它包含三個步驟:採集信息、數據存儲和信息提取。“爬蟲”作爲一種計算機技術,理論上來說具有技術中立性,在法律上也從未被明令禁止。它不像計算機病毒,計算機病毒本身就是負面的、破壞性的,而爬蟲是中立的。

那麼使用爬蟲技術有什麼風險呢?如果在獲取數據的過程中,無法甄別哪些數據可以爬取,哪些數據禁止爬取,甚至爲爬取數據而破解被爬服務器的防護措施,或者破壞被爬服務器的信息系統,就會觸及監管紅線。

 

02 數據爬蟲主要涉及的三類罪名

對爬蟲技術應用不當的企業,可能涉及的罪名有三個:

 

一、侵犯公民個人信息罪

1.爬取的數據信息屬於公民個人信息範疇

公民個人信息,是指以電子或者其他方式記錄的,能夠單獨或者與其他信息結合識別特定自然人身份,或者反映特定自然人活動情況的各種信息,包括姓名、身份證件號碼、通信通訊聯繫方式、住址、賬號密碼、財產狀況、行蹤軌跡等。

 

2.利用爬蟲技術獲取的公民個人信息爲非法獲取的

利用爬蟲技術收集公民個人信息數據,應當獲得被收集人的同意,尤其是在數據中包含身份證號、信用信息等敏感數據的情況下,還需要獲得明示同意。同時,利用網絡漏洞非法下載、非法購買等行爲,都屬於“非法獲取”公民個人信息。

 

3.非法獲取公民個人信息達到“情節嚴重”以上的標準

非法獲取、出售或者提供行蹤軌跡信息、通信內容、徵信信息、財產信息五十條以上,非法獲取、出售或者提供住宿信息、通信記錄、健康生理信息、交易信息等其他可能影響人身、財產安全的公民個人信息五百條以上,非法獲取、出售或者提供上述規定以外的公民個人信息五千條以上,都屬於“情節嚴重”。

 

4.相關法律依據:《刑法》第253條

【侵犯公民個人信息罪】違反國家有關規定,向他人出售或者提供公民個人信息,情節嚴重的,處三年以下有期徒刑或者拘役,並處或者單處罰金;情節特別嚴重的,處三年以上七年以下有期徒刑,並處罰金。

違反國家有關規定,將在履行職責或者提供服務過程中獲得的公民個人信息,出售或者提供給他人的,依照前款的規定從重處罰。

竊取或者以其他方法非法獲取公民個人信息的,依照第一款的規定處罰。

單位犯前三款罪的,對單位判處罰金,並對其直接負責的主管人員和其他直接責任人員,依照該款的規定處罰。

 

合規建議:

利用爬蟲技術獲取公民個人信息的,應該嚴格遵守相關法律、行政法規、部門規章的規定,否則極易落入“非法獲取”公民個人信息的法律風險範疇。

此外,關於在公民個人信息已合法公開的情況下,利用爬蟲技術對其進行抓取是否構成非法獲取這一問題,暫時沒有明確答案,但《民法典人格權編》(草案三次審議稿)第816條寫到:行爲人收集、處理自然人自行公開的或者其他已經合法公開的信息不承擔民事責任,但是該自然人明確拒絕或者處理該信息侵害其重大利益的除外。從立法走向上來判斷,收集已合法公開的個人信息應不屬於違法,但在立法尚不完善的階段,仍建議謹慎使用爬蟲技術抓取公開的個人信息。

 

二、構成非法獲取計算機信息系統數據罪

1.利用爬蟲技術侵入計算機信息系統獲取數據,或採用其他技術手段獲取計算機信息系統數據

任何組織或個人不得危害計算機信息系統安全;不得破壞計算機及其相關的配套的設備、設施(含網絡)安全,破壞其運行環境安全、信息安全,影響其功能正常發揮。因此企業若在爬取數據時,存在危害計算機信息系統安全的行爲,包括破解被爬企業的防抓取措施、加密算法、技術保護措施等,則很有可能被認定爲“侵入或以其他技術手段獲取計算機信息系統數據”。

 

2.非法獲取計算機信息系統數據達到“情節嚴重”以上的標準

獲取支付結算、證券交易、期貨交易等網絡金融服務的身份認證信息十組以上,或獲取其他的身份認證信息五百組以上的,均屬於“情節嚴重”。

 

3. 相關法律依據:《刑法》第285條

【非法侵入計算機信息系統罪】違反國家規定,侵入國家事務、國防建設、尖端科學技術領域的計算機信息系統的,處三年以下有期徒刑或者拘役。

非法獲取計算機信息系統數據、非法控制計算機信息系統罪】違反國家規定,侵入前款規定以外的計算機信息系統或者採用其他技術手段,獲取該計算機信息系統中存儲、處理或者傳輸的數據,或者對該計算機信息系統實施非法控制,情節嚴重的,處三年以下有期徒刑或者拘役,並處或者單處罰金;情節特別嚴重的,處三年以上七年以下有期徒刑,並處罰金。

【提供侵入、非法控制計算機信息系統程序、工具罪】提供專門用於侵入、非法控制計算機信息系統的程序、工具,或者明知他人實施侵入、非法控制計算機信息系統的違法犯罪行爲,而爲其提供程序、工具,情節嚴重的,依照前款的規定處罰。

單位犯前三款罪的,對單位判處罰金,並對其直接負責的主管人員和其他直接責任人員,依照該款的規定處罰。

合規建議:

嚴格禁止通過技術手段繞過服務器的訪問限制,或破解被爬網站爲保護數據而採取的加密算法及技術保護措施,從而對被爬網站受保護的計算機信息系統中的數據進行爬取。

若被爬網站設定了獲取數據信息的措施(包括實名認證、賬號密碼、內部權限等),爬蟲企業應避免通過僞造實名認證或竊取賬號密碼、內部權限的形式獲取數據。

避免或謹慎抓取身份認證信息(網絡金融服務的身份信息10組/其他身份認證信息500組)。

 

三、非法侵入計算機信息系統罪

 

1.提供數據信息的網站爲國家事務、國防建設、尖端科學技術領域的計算機信息系統;

高頻使用的網站,如“國家企業信用信息公示系統”“中國裁判文書網”“中國執行信息公開網”以及各地政府網站等,都屬於“國家事務”網站的法律範疇內。

 

2.對計算機信息系統具有侵入行爲

(1)只要有侵入行爲,而不論侵入行爲的結果。

(2)目前司法解釋未對“侵入”進行具體的定義,但一般法院在認定上主要有兩種方式:1)以非法手段登錄網站,獲取原本不該有權限獲取的數據信息;2)將惡意程序、非法文件等發送至網站,對網站的正常運行產生影響。

(3)在爬取此類網站的公開數據時,不存在“侵入”計算機信息系統的情形。但當批量爬取數據信息時,需特別關注是否會對網站的正常運行產生影響,切不可逾越紅線。

今年曾有報道稱,裁判文書網數據被爬取後標價售賣。由於裁判文書網被很多技術公司通過爬蟲系統無限制併發訪問獲取數據,造成網站負荷過大,正常用戶無法訪問。最高人民法院發文稱,爲了對抗爬蟲技術,更好地確保正常用戶訪問性能,相關方面已採取多種方式,包括驗證碼技術等,防止爬蟲功能。

 

合規建議:

對大數據公司,特別是大數據風控企業來說,獲取“裁判文書網”“執行信息公開網”的數據非常普遍且重要,但爬取這類國家事務網站的信息時應當尤爲審慎,特別是在網站已採取相關“反爬措施”的情況下,仍強行惡意突破防護措施爬取數據,對網站運行造成影響的,均可能構成本罪。

除上述法律風險以外,利用爬蟲技術手段還可能產生構成不正當競爭、侵犯信息網絡傳播權等法律風險。

 

相關法規依據:

1.《最高人民法院 最高人民檢察院關於辦理侵犯公民個人信息刑事案件適用法律若干問題的解釋》第1條

2.《網絡安全法》第41條、第42條

3.最高人民法院、最高人民檢察院關於辦理侵犯公民個人信息刑事案件適用法律若干問題的解釋》第1、3、4、5條

4.《信息安全技術 個人信息安全規範》第3.6、5.1、5.3、5.5條

5.《刑法》第253條

6.《刑法》第285條

7.《最高人民法院、最高人民檢察院關於辦理危害計算機信息系統安全刑事案件應用法律若干問題的解釋》第1條

8.《計算機信息系統安全保護條例》第3、7條

 

所以啊,並不是說爬蟲學的好,牢飯吃到飽~只要學了不亂來,是一點問題都沒有的,所謂謠言止於智者,相信你就是那個智者!

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章