9 月 6 日下午,多位業(yè)內人士稱,杭州知名大數(shù)據(jù)服務公司杭州魔蝎數(shù)據(jù)科技有限公司,疑似被相關執(zhí)法人員控制,其中一位周姓核心高管人員被警方帶走。
以上是前幾天技術圈傳播的一則新聞,又一家數(shù)據(jù)公司被調查,很多數(shù)據(jù)從業(yè)者、爬蟲開發(fā)者發(fā)出了“感嘆” —— 「爬蟲用得好,XX進得早;數(shù)據(jù)玩得溜,XX吃個夠」。
魔蝎科技作為一家數(shù)據(jù)服務公司,曾在 2017 年一篇『爬蟲兇猛:爬支付寶、爬微信、竊取現(xiàn)金貸放貸數(shù)據(jù)』的文章中,被指出存在開發(fā)使用惡意爬蟲的行為。
當然關于魔蝎科技為什么被查,這個等待執(zhí)法部門的調查結果即可,咱們不在這里無端猜測。
我今天要說的是關于爬蟲的合法性,我希望通過一些案例來探討:怎樣做一個不觸碰紅線的爬蟲開發(fā)者。
爬蟲作為一種計算機技術,具有技術中立性,爬蟲技術在法律上從來沒有被禁止。爬蟲的發(fā)展歷史可以追溯到 20
年前,搜索引擎、聚合導航、數(shù)據(jù)分析、人工智能等業(yè)務,都需要基于爬蟲技術。
但是爬蟲作為獲取數(shù)據(jù)的技術手段之一,由于部分數(shù)據(jù)存在敏感性,如果不能甄別哪些數(shù)據(jù)是可以爬取,哪些會觸及紅線,可能下一位上新聞的主角就是你。
如何界定爬蟲的合法性,目前沒有明文規(guī)定,但我通過翻閱大量文章、事件、分享、司法案例,我總結出界定的三個關鍵點:采集途徑、采集行為、使用目的。
數(shù)據(jù)的采集途徑
通過什么途徑爬取數(shù)據(jù),這個是最需要重視的一點??傮w來說,未公開、未經(jīng)許可、且?guī)в忻舾行畔⒌臄?shù)據(jù),不管是通過什么渠道獲得,都是一種不合法的行為。
所以在采集這類比較敏感的數(shù)據(jù)時,最好先查詢下相關法律法規(guī),特別是用戶個人信息、其他商業(yè)平臺的信息 等這類信息,尋找一條合適的途徑。
個人數(shù)據(jù)
采集和分析個人信息數(shù)據(jù),應該是當下所有互聯(lián)網(wǎng)都會做的一件事,但是大部分個人數(shù)據(jù)都是非公開的,想獲得必須通過合法途徑,可參見『網(wǎng)絡安全法』第四十一條:
網(wǎng)絡運營者收集、使用個人信息,應當遵循合法、正當、必要的原則,公開收集、使用規(guī)則,明示收集、使用信息的目的、方式和范圍,并經(jīng)被收集者同意...
也就是必須在提前告知收集的方式、范圍、目的,并經(jīng)過用戶授權或同意后,才能采集使用,也就是我們常見的各種網(wǎng)站與 App 的用戶協(xié)議中關于信息收集的部分。
相關反面案例:
8月20日,澎湃新聞從紹興市越城區(qū)公安分局獲悉,該局日前偵破一起特大流量劫持案,涉案的新三板掛牌公司北京瑞智華勝科技股份有限公司,涉嫌非法竊取用戶個人信息30億條,涉及百度、騰訊、阿里、京東等全國96家互聯(lián)網(wǎng)公司產(chǎn)品,目前警方已從該公司及其關聯(lián)公司抓獲6名犯罪嫌疑人。
......
北京瑞智華勝公司及其關聯(lián)公司在與正規(guī)運營商合作中,會加入一些非法軟件用于清洗流量、獲取用戶的 cookie。
節(jié)選自 澎湃新聞:『新三板掛牌公司涉竊取30億條個人信息,非法牟利超千萬元』
<https://www.thepaper.cn/newsDetail_forward_2362227>
公開數(shù)據(jù)
從合法公開渠道,并且不明顯違背個人信息主體意愿,都沒有什么問題。但如果通過破解、侵入等“黑客”手段來獲取數(shù)據(jù),那有相關法律等著你。
『刑法』第二百八十五條第二款:
違反國家規(guī)定,侵入前款規(guī)定以外的計算機信息系統(tǒng)或者采用其他技術手段,獲取該計算機信息系統(tǒng)中存儲、處理或者傳輸?shù)臄?shù)據(jù),或者對該計算機信息系統(tǒng)實施非法控制,情節(jié)嚴重的,處三年以下有期徒刑或者拘役,并處或者單處罰金;情節(jié)特別嚴重的,處三年以上七年以下有期徒刑,并處罰金。
違反 Robots 協(xié)議
雖然 Robots 協(xié)議沒有法規(guī)強制遵守,但 Robots 協(xié)議作為行業(yè)約定,在遵循之下會給你帶來合法支持。
因為 Robots 協(xié)議具有指導意義,如果注明 Disallow 就說明是平臺明顯要保護的頁面數(shù)據(jù),想爬取之前應該仔細考慮一下。
數(shù)據(jù)的采集行為
使用技術手段應該懂得克制,一些容易對服務器和業(yè)務造成干擾甚至破壞的行為,應當充分衡量其承受能力,畢竟不是每家都是 BAT 級。
高并發(fā)壓力
做技術經(jīng)常專注于優(yōu)化,爬蟲開發(fā)也是如此,想盡各種辦法增加并發(fā)數(shù)、請求效率,但高并發(fā)帶來的近乎 DDOS
的請求,如果對對方服務器造成壓力,影響了對方正常業(yè)務,那就應該警惕了。
如果一旦導致嚴重后果,后果參見『刑法』第二百八十六條:
違反國家規(guī)定,對計算機信息系統(tǒng)功能進行刪除、修改、增加、干擾,造成計算機信息系統(tǒng)不能正常運行,后果嚴重的,構成犯罪
所以請爬取的時候,即使沒有反爬限制,也不要肆無忌憚地開啟高并發(fā),掂量一下對方服務器的實力。
影響正常業(yè)務
除了高并發(fā)請求,還有一些影響業(yè)務的情況,常見的比如搶單,會影響正常用戶的體驗。
數(shù)據(jù)的使用目的
數(shù)據(jù)使用目的同樣是一大關鍵,就算你通過合法途徑采集的數(shù)據(jù),如果對數(shù)據(jù)沒有正確的使用,同樣會存在不合法的行為。
超出約定的使用
一種情況是公開收集的數(shù)據(jù),但沒有遵循之前告知的使用目的,比如用戶協(xié)議上說只是分析用戶行為,幫助提高產(chǎn)品體驗,結果變成了出售用戶畫像數(shù)據(jù)。
還有一種情況,是有知識產(chǎn)權、著作權的作品,可能會允許你下載或引用,但明顯標注了使用范圍,比如不能轉載、不能用于商業(yè)行為等,更不能去盜用,這些都是有法律明文保護,所以要注意使用。
其他情況就不列舉了。
出售個人信息
關于出售個人信息,千萬不要做,是法律特別指出禁止的,參見:
根據(jù)《最高人民法院 最高人民檢察院關于辦理侵犯公民個人信息刑事案件適用法律若干問題的解釋》第五條規(guī)定,對“情節(jié)嚴重”的解釋:
(1)非法獲取、出售或者提供行蹤軌跡信息、通信內容、征信信息、財產(chǎn)信息五十條以上的;
(2)非法獲取、出售或者提供住宿信息、通信記錄、健康生理信息、交易信息等其他可能影響人身、財產(chǎn)安全的公民個人信息五百條以上的;
(3)非法獲取、出售或者提供第三項、第四項規(guī)定以外的公民個人信息五千條以上的便構成“侵犯公民個人信息罪”所要求的“情節(jié)嚴重”。
此外,未經(jīng)被收集者同意,即使是將合法收集的公民個人信息向他人提供的,也屬于刑法第二百五十三條之一規(guī)定的“提供公民個人信息”,可能構成犯罪。
不正當商業(yè)行為
如果將競品公司的數(shù)據(jù),作為自己公司的商業(yè)目的,這就可能存在構成不正當商業(yè)競爭,或者是違反知識產(chǎn)權保護。
這種情況在目前涉及爬蟲的商業(yè)訴訟案中比較常見,兩年前比較知名的案件,“車來了” App 抓取其競品 “酷米客” 的公交車數(shù)據(jù),并展示在自己的產(chǎn)品上:
雖然公交車作為公共交通工具,其實時運行路線、運行時間等信息僅系客觀事實,但當此類信息經(jīng)過人工收集、分析、編輯、整合并配合GPS精確定位,作為公交信息查詢軟件的后臺數(shù)據(jù)后,此類信息便具有了實用性并能夠為權利人帶來現(xiàn)實或潛在、當下或將來的經(jīng)濟利益,已經(jīng)具備無形財產(chǎn)的屬性。元光公司利用網(wǎng)絡爬蟲技術大量獲取并且無償使用谷米公司“酷米客”軟件的實時公交信息數(shù)據(jù)的行為,實為一種“不勞而獲”、“食人而肥”的行為,構成不正當競爭。
節(jié)選自『深圳市中級人民法院(2017)粵03民初822號民事判決書』
「爬蟲法」即將出臺
好消息是,相關辦法已經(jīng)在路上了。
5 月 28 日零點,國家互聯(lián)網(wǎng)信息辦公室發(fā)布了《數(shù)據(jù)安全管理辦法》征求意見稿。
我也查閱了這份意見稿,里面對數(shù)據(jù)的獲取、存儲、傳輸、使用等都做了一些規(guī)定,包括關于爬蟲行為的若干規(guī)定(還在征求階段,因此后續(xù)可能會有變化)。
比如,第二章第十六條:
網(wǎng)絡運營者采取自動化手段訪問收集網(wǎng)站數(shù)據(jù),不得妨礙網(wǎng)站正常運行;此類行為嚴重影響網(wǎng)站運行,如自動化訪問收集流量超過網(wǎng)站日均流量三分之一,網(wǎng)站要求停止自動化訪問收集時,應當停止。
第三章第二十七條:
網(wǎng)絡運營者向他人提供個人信息前,應當評估可能帶來的安全風險,并征得個人信息主體同意。下列情況除外:
(一)從合法公開渠道收集且不明顯違背個人信息主體意愿;
(二)個人信息主體主動公開;
(三)經(jīng)過匿名化處理;
(四)執(zhí)法機關依法履行職責所必需;
(五)維護國家安全、社會公共利益、個人信息主體生命安全所必需。
節(jié)選自『數(shù)據(jù)安全管理辦法(征求意見稿)』
<http://www.moj.gov.cn/news/content/2019-05/28/zlk_235861.html>
結語
關于爬蟲合法性的研究就到這,有很多案例和角度由于篇幅沒有提到,也有一些觀點結論可能存在錯誤。
但希望能給各位爬蟲開發(fā)者,也包括其他開發(fā)者一些啟示:技術雖中立,使用有善惡,一定要合理合規(guī)、嚴格謹慎地使用技術。
本文屬于原創(chuàng)內容,首發(fā)于微信公眾號「面向人生編程」,如需轉載請在公眾號后臺留言。
關注后回復以下信息獲取更多資源
回復【資料】獲取 Python / Java 等學習資源
回復【插件】獲取爬蟲常用的 Chrome 插件
回復【知乎】獲取最新知乎模擬登錄
熱門工具 換一換