刑事合规logo

林子淇律师:138-2220-6068

首席律师

广州刑事律师

联系律师

    广州林子淇律师

    咨询电话:138-2220-6068
    微信咨询:手机号即微信号
    执业证号:14401202011167183
    办公地址:广州市天河区珠江新城珠江东路高德置地冬广场G座24-25楼 广东金桥百信律师事务所。

“爬虫”爬取数据的合规要点

时间:2020-05-20 20:58:04,林子淇

 大数据时代,用户信息等数据早已成为几乎所有互联网企业的核心竞争资源。在某种意义上,抢占了数据就是抢占了客户,抢占了市场。

  因此,近年来因争夺数据而引发的纠纷越来越多。获取数据的常见方式,除了向用户收集、从第三方共享、受让外,还有使用爬虫爬取数据。

  如今,互联网公司普遍养有网络爬虫(有的称“蜘蛛”),这些爬虫如何爬取信息数据才能避免风险,做到合法合规?

  一、爬虫技术违法吗?

  (一)技术中立原则。由于“技术中立”的基本原则,爬虫本身不为法律所禁止,可采集公开信息。“公开”指的是对大众(所有人)公开,不具有传播对象的特定性。

  (二)爬取非商业网站。如果爬取对象是对外提供公开查询服务的网站的公开信息,如公检法机关的官网、政府部门的官网、事业单位的官网等,不构成侵权或犯罪,可以抓取。

  (三)爬取商业网站。没有设置反爬声明或采取反爬技术措施的各类商业网站,一般不限制爬取数据,但也并不意味着可以随意抓取。

  二、相关法律法规及规定

  关于数据爬取,我国存在大量相关的法律法规,包括但不限于《中华人民共和国刑法》、《最高人民法院、最高人民检察院关于办理危害计算机信息系统安全刑事案件应用法律若干问题的解释》、《数据安全管理办法(征求意见稿)》 、《反不正当竞争法》、《互联网信息服务管理办法》、《最高人民法院、最高人民检察院关于办理侵犯公民个人信息刑事案件适用法律若干问题的解释》、《公安机关互联网安全监督管理规定》等。

  三、爬取哪些信息涉嫌非法爬取

  (一)爬取有反爬声明的网站数据

  当某网站声明了robots协议——即网络爬虫排除标准时,数据爬取方应当对robots.txt中所记载的禁止爬取范围进行规避,若不遵守该协议,则可能面临法律风险。

  (二)爬取网站非公开信息数据

  如果爬取的是某公司“内网”或后台内部数据,采集的是非公开的信息,则系违法行为。

  (三)爬取网站受法律保护的信息或数据

  如对方网站合法收集的个人敏感信息、对方公司受法律保护的特定数据或信息等。

  爬虫违规爬取数据容易造成侵犯商业秘密。另外要注意的是,如果爬虫在爬取数据的过程中对相关网站造成干扰,可能会构成不正当竞争。

  四、涉嫌犯罪的爬取

  当爬虫爬取数据的行为对目标网站造成严重影响,爬取行为具有社会危害性时,可能触犯刑法,涉嫌犯罪。爬虫爬取数据的容易涉及的罪名有两类,一是计算机类犯罪(包括“网安类”和“信息类”之外),二是侵犯商业秘密罪。因此,爬取数据的行为可能同时触犯多个法益,存在构成数罪、可以并罚的可能。囿于笔者的时间及精力,本文仅论述计算机类犯罪,侵犯商业秘密罪及侵犯著作权罪本文不再赘述。

  计算机类犯罪包括破坏计算机信息系统罪,非法侵入计算机信息系统罪,非法获取计算机信息系统数据罪,非法控制计算机信息系统罪,提供侵入、非法控制计算机信息系统程序、工具罪,侵犯公民个人信息罪等等。

  【破坏计算机信息系统罪】

  刑法第二百八十六条

  违反国家规定,对计算机信息系统功能进行删除、修改、增加、干扰,造成计算机信息系统不能正常运行,后果严重的,处五年以下有期徒刑或者拘役;后果特别严重的,处五年以上有期徒刑。

  违反国家规定,对计算机信息系统中存储、处理或者传输的数据和应用程序进行删除、修改、增加的操作,后果严重的,依照前款的规定处罚。

  故意制作、传播计算机病毒等破坏性程序,影响计算机系统正常运行,后果严重的,依照第一款的规定处罚。

  单位犯前三款罪的,对单位判处罚金,并对其直接负责的主管人员和其他直接责任人员,依照第一款的规定处罚。

  如果使用网络爬虫频繁访问目标数据服务器,对目标网站的功能造成干扰,导致其系统响应变缓或者出现其他问题,影响正常运营的,可能构成破坏计算机信息系统罪。根据《数据安全管理办法(征求意见稿)》的意见,自动化访问收集流量超过网站日均流量三分之一,即构成严重影响网站运行。实践中,此罪的认定并不十分严格,因为“影响正常运营”是可以被解释的。此外,在部分案例中,“欺骗”信息系统也算一种“破坏”。

  【非法侵入计算机信息系统罪】

  刑法第二百八十五条之一

  违反国家规定,侵入国家事务、国防建设、尖端科学技术领域的计算机信息系统的,处三年以下有期徒刑或者拘役。

  【非法获取计算机信息系统数据、非法控制计算机信息系统罪】

  刑法第二百八十五条之二

  违反国家规定,侵入前款规定以外的计算机信息系统或者采用其他技术手段,获取该计算机信息系统中存储、处理或者传输的数据,或者对该计算机信息系统实施非法控制,情节严重的,处三年以下有期徒刑或者拘役,并处或者单处罚金;情节特别严重的,处三年以上七年以下有期徒刑,并处罚金。

  若行为人违反法律规定,通过网络爬虫等技术手段破解目标网站的防抓取措施,抓取、收集网站所存储、处理或传输的非公开数据,可能构成此罪。

  【提供侵入、非法控制计算机信息系统程序、工具罪】

  刑法第二百八十五条之三

  提供专门用于侵入、非法控制计算机信息系统的程序、工具,或者明知他人实施侵入、非法控制计算机信息系统的违法犯罪行为而为其提供程序、工具,情节严重的,依照前款的规定处罚。

  单位犯前三款罪的,对单位判处罚金,并对其直接负责的主管人员和其他直接责任人员,依照各该款的规定处罚。

  《最高人民法院、最高人民检察院关于办理危害计算机信息系统安全刑事案件应用法律若干问题的解释》第二条规定,“具有下列情形之一的程序、工具,应当认定为刑法第二百八十五条第三款规定的专门用于侵入、非法控制计算机信息系统的程序、工具”: (一)具有避开或者突破计算机信息系统安全保护措施,未经授权或者超越授权获取计算机信息系统数据的功能的;(二)具有避开或者突破计算机信息系统安全保护措施,未经授权或者超越授权对计算机信息系统实施控制的功能的;(三)其他专门设计用于侵入、非法控制计算机信息系统、非法获取计算机信息系统数据的程序、工具。

  如果爬虫具备绕过或突破对方反爬技术措施的功能,则易被认定为侵入计算机信息系统的程序;如果在数据抓取过程中实施了非法控制信息系统的行为,可能构成非法控制计算机信息系统罪。

  【侵犯公民个人信息罪】

  第二百五十三条之一

  违反国家有关规定,向他人出售或者提供公民个人信息,情节严重的,处三年以下有期徒刑或者拘役,并处或者单处罚金;情节特别严重的,处三年以上七年以下有期徒刑,并处罚金。

  违反国家有关规定,将在履行职责或者提供服务过程中获得的公民个人信息,出售或者提供给他人的,依照前款的规定从重处罚。

  窃取或者以其他方法非法获取公民个人信息的,依照第一款的规定处罚。

  单位犯前三款罪的,对单位判处罚金,并对其直接负责的主管人员和其他直接责任人员,依照各该款的规定处罚。

  本罪具体内容请参见《刑法注释书》及《侵犯公民个人信息罪专题文献》。

  五、如何为自己的网站设置反爬取措施

  (一)设置反爬声明(Robots协议),并在用户协议中明确禁止用户实施具备商业目的的数据爬取行为。

  (二)采取反爬技术措施,综合采用IP封锁、手机验证码、实名登录、访问频率设置、定时换样式/数据格式等技术保护措施。

  (三) 对于版权信息或涉及到商业秘密的内容,可增加更高级别的技术保护措施及相关声明。

  (四)安排专人监控,设置代码回溯功能。如发现自身数据被爬取,及时锁定违法爬取者,通过民事诉讼、行政举报投诉、刑事控告等手段进行维权。

  六、合法爬取他方网站的合规注意事项

  (一)识别数据是公开数据、半公开数据还是内部系统数据,企业只能爬取公开数据或者其他两类数据中已获得明确授权的数据。

  (二)如果一般的个人网站或商业网站、APP既未设置反爬技术措施,也未公开反爬声明,一般是可以爬取的。但要注意,可能出现目标网站已经有公开反爬声明,但自己没发现的情形。

  (三)即便爬取数据,也要说明数据来源。一方面,可以表明非恶意爬取;另一方面,预防数据本身存在问题。

  (四)如果目标网站有反爬虫协议,应严格遵守网站设置的 robots协议,尽量不予爬取或更换目标网站。

  (四)爬虫行为不能妨碍目标网站的正常运行。要谨慎评估网站的流量,访问流量不能超过网站日均流量的三分之一,对爬虫代码进行妥善设置,最好设置为网站日均流量的四分之一或以下,如无法预估网站流量,可以设置访问人数较少的时段进行爬取,单日爬取时间不超过2小时。

  (五)抓取内容的限制策略在设置抓取策略时,应注意编码禁止抓取视频、音乐等可能构成作品的、明确的著作权作品数据,或者针对某些特定网站批量抓取其中的用户生成内容。

  (六)抓取后应运用关键词审查等方式,审查所抓取的内容,如发现数据属于用户的个人信息、隐私或者涉及他人的商业秘密,应及时停止抓取,并完整删除已经爬取的信息。

  (七)如双方商业模式相同或近似,爬虫获取对方的信息很可能会对对方造成直接损害或者减损其可期待利益,为避免不正当竞争的法律风险,应不予抓取。

  (八) 即便目标网站的某类数据属于可爬取数据,如果系对方的核心化、批量式主营业务商业数据,应尽量避免以爬虫方式搜集,以免伤害到其实质性商业利益,从而引发法律纠纷。例如:1.禁止设置比价软件抓取平台数据进行商业比价。2.设置搜索链接尤其是深度链接。