您好,欢迎来到标天下知识产权平台!

标天下官方微信号

联系我们

|

我的购物车(0)

|

免费注册

|

会员登录
400电话
商标问题
16
9月
2022

以“反法”调整数据抓取行为的正当性反思

发布时间:2022-09-16  来源:熊文聪  作者:熊文聪  


                                                                         引 言

       当前,随着算法技术的快速迭代和商业模式的演化翻新,数据的重要性越来越凸显,企业间对于数据的争夺也日趋白日化。据笔者不完全统计,近年来有关数据抓取和利用类案件的数量呈不断上升趋势,法院往往援引《反不正当竞争法》(特别是“反法”第二条之原则性规定)加以处理,且裁决结果多是支持原告的主张,引发了学界的热议。管见认为,在没有充分考量涉案数据是否应受著作权保护,没有深入评价原告是否因被告的行为而遭受实质性损害之前提下,贸然适用边界极其模糊、标准极其不确定的“反法”原则性条款,轻则可能阻碍技术创新和信息的自由流通、鼓励滥诉与符号圈地、破坏公平竞争环境,重则可能否定乃至颠覆立法者的价值取向,打乱和架空原本逻辑自洽的规范体系

       在展开具体论证之前,有必要将一些基本概念界定清楚。首先,所谓数据,即以电子形式存储和表现的信息。本文只研究经互联网平台经营者收集、整理、编排后的具有结构化特征的、对外公开的数据集合,而不分析未公开的数据(虽然它在满足条件的前提下可以作为商业秘密获得“反法”保护),也不探讨构成一个数据集合的组成元素,这些组成元素要么是处于公有领域的已知信息,要么是用户在使用互联网产品或服务时被动留下、生成的个人信息或主动编辑、创作的数码化内容(英文缩写UGC)。
另外,本文也尽可能不使用业界的一些惯常表达,如“保护”“规制”“抓取”“爬虫”等,因为在中文含义里,这些词已经偏离了客观中立性,带有明显的主观感情色彩。如果所有数据必然要受到法律“保护”,则意味着数据之上必然有权利或法益,也就意味着其他人未经许可获取、使用某网络平台上的数据必然是不正当的,必然是要受到“规制”的。

       实际上,“保护”一词在私法领域只是个中性词,不是越多保护越好,因为越多的权利保护,意味着给其他经营者和社会大众施加了越多的负担和义务。同时,无论是“爬虫”还是“抓取”,本身都是些具有贬义倾向的词汇,如果已然接受了这种表达及其背后的价值取向,要再去论证被诉行为(其实无非是复制、传播,连“占有”都谈不上,因为抓取并没有使原数据发生物理上的位移,作为无体物,数据不可能被物理上控制、持有)的正当性,且不说有多困难,即便在逻辑上也是自相抵牾的,是无法自圆其说的。因此,本文如果不可避免地要使用这些词汇,也尽可能在中性含义上指称。

                                                  一、数据的编排与数据是一回事

       有观点认为,著作权法只保护“数据的编排”(即汇编作品),而不保护数据本身,所以只能寻求以“反法”给予保护。而其实,所谓数据,虽然是由数量庞大的单个符号元素组成,但数据之所以有内涵、成体系,更关键的体现在这些符号元素之间的相互关系和逻辑结构上,也即符号元素的整体编排,而这种编排,显然是人为选择的结果

       同理,所谓著作权法意义上的“作品”,指的同样也是符号元素的选择、编排,而不是指被编排的符号元素。吴承恩笔下的《西游记》由八十多万汉字组成,吴承恩并没有创作其中任何一个汉字或词汇,而只是创作了这些汉字词汇(符号元素)之间的编排(编排体现为句子、段落或整篇文章)。立法者之所以创设“汇编作品”概念,并不是要从外在表现形式上给作品单列一个类别,而是要划定汇编创作本身与被汇编内容之间的权利边界及行使方式。

       不仅如此,由《著作权法》第三条对“作品”的定义也可知,作品是指“具有独创性并能以一定形式表现的智力成果”。所谓“智力成果”,它不是物质实体,也不是被选择、被编排的符号元素,而恰恰是选择、编排本身(“选择”“编排”既可为动词,又可为名词),因为唯有“选择”“编排”本身才是人的“智力”投入的产出结果。而在外延上,新修订的《著作权法》对作品的外在表现形式和类型做了完全开放的非穷尽性列举,这更为具有独创性的数据作为作品,进而受到著作权保护扫清了最后的法律适用障碍。
申言之,作品不仅仅是那个外在的“表现形式”,更包含“能以”一定外在表现形式加以表现的、抽象的“思想内容”“比例关系”“位置结构”或“情节编排”,唯有如此,作品才真正称之为“智力”成果。
《著作权法》第十五条对汇编作品的定义,非常精准、清晰地指明了什么是作品,即作品指的并不是被编排、被选择的若干片段、元素或内容,而是指“选择或编排”本身,只要该“选择或编排”体现独创性,那它就是作品。

                                          二、不保护无独创性的数据是立法者的价值取向

      有观点认为,诚然,具有独创性的数据可以获得著作权保护,而根据形式逻辑可推知,不具有独创性的数据不能获得著作权保护,但这仅仅是指这类数据不能获得著作权保护,而不意味着它不能作为某种权益(非“法定权利”)之客体从而获得“反法”保护,因为即便这类数据不具有独创性,达不到创作高度,但在收集、整理这类数据时,平台经营者至少也付出了一定的财力和体力,故基于“保护投资”之考量,也不应当任由他人未经授权随意攫取。该观点其实误读了立法者的价值取向。

      一个民事主体(无论是企业还是个人),如果没有给社会贡献一个新的智力成果(无论是文学艺术作品还是技术发明创造),而仅仅只是为了实现这一目标而辛苦努力或投入金钱,便不能借此从社会公众那里换回一个对世权(非“债权”)意义上的财产性保护,哪怕他为此付出了再多的额头汗水或物质投入
因为根据民法法理,对世性的财产权必须有一个外在于人身的承载对象或客体,如物权的对象或客体是有体物,而知识产权的对象或客体便是知识或智力成果。同样地,如果数据之上要设立一项对世性财产权,也必须有一个外在的客观对象(即具有独创性的数据),而辛苦努力或资金投入本身不能成为一项对世性财产权的独立客体或对象。

      原因在于:知识产权法(包括著作权法)的立法目的在于激励创新,并且,当且仅当在有了创新(成果)之后才谈得上产权保护。不保护不具有独创性的编排和选择,不是说著作权法力有不逮、保护不了,从而需要援引物权法、“反法”或其他别的法律制度来提供补充保护,而是说任何法律制度都不能也不应当给予其保护,因为获取和使用这些不具有独创性的选择或编排,恰恰是其他经营者及社会公众的自由——这就是立法者的价值取向

     由《著作权法》对作品的定义可知,作品是具有独创性的选择或编排,且只有首先是作品,满足独创性要求,才可能享有著作权,而著作权即一种排他性、对世性的财产权。根据形式逻辑反向推知,不具有独创性的选择或编排,没有著作权,即编辑、投资这类数据的人,并不享有排他性的财产权,也就意味着其他经营者及社会公众可以自由、免费使用这类数据。

      如果将这些本可以自由获取和免费使用的数据又通过“反法”保护起来,就是将公众的信息获取自由拒之门外,就是对立法者价值取向的抛弃,也就是对最高人民法院反复强调的“当知识产权专门法已作穷尽规定,不再以反不正当竞争法作扩展保护”这一基本理念的背离。

     当然,在不具有独创性的数据之形成过程中,收集、整理者的确可能付出了一定的辛苦努力和物质投入,但尽管如此,也不能仅仅为了保护纯粹的投资而赋予其一种排他性的财产权利或法益,因为这正是立法者的价值取向和政策决断,即立法者不希望企业盲目投资、无谓浪费,但鼓励能产生创新成果的投资,市场竞争风险自担,如果立法者向经营者承诺但凡有投资就必有保障和回报,并且享有不容置疑的排他性权益,就不会有企业的倒闭和破产;立法者更不希望经营者以保护投资之名,行霸占公共资源(不具有独创性的数据)之实,进而阻碍公平竞争、技术创新和信息共享

      实际上,独创性的认定门槛并不高,既然一个只有十几秒的短视频都可能具有独创性,[1]又何况一个动辄几百万兆的大数据呢?不仅如此,为数据的生成付出了实质性的物质投入,也完全可以也应当作为判断独创性之有无的重要考量因素。[2]因此,绝大多数数据都是满足独创性要求的,进而可以构成作品受到著作权保护。当然,我们不排除仍然会有一些数据达不到独创性要求(就像不是所有智力表达都是作品一样),而立法者对为收集、形成此类数据所付出的额头汗水和物质投入的回答是——不予保护

                                                  三、爬虫协议不应视为商业道德

       有观点认为,为了告知其他经营者哪些数据可以被抓取,哪些数据不可以被抓取或哪些经营者可以抓取数据 (白名单),哪些经营者不可以抓取数据(黑名单),某网站往往会设置爬虫协议(又称robots协议),而一旦违反协议内容,未经同意抓取该网站上的数据,就违背了公认的行业惯例和商业道德,进而构成不正当竞争。管见认为,该观点值得商榷。

       首先,需要澄清爬虫协议的性质。它虽然名义上称为“协议”,但却并不是具有法律约束力的合同,它只是设置网站的独自声明(即单方意思表示)而已,虽然可能满足“要约”的形式要求——属于一种格式化条款,但只有对其内容进行实质的正当性判断(如标的物是否合法、设置爬虫协议的网站对该标的物是否享有排他性权益等等)之后方可成为合法、有效的要约

       其次,互联网最大的特征就是海量信息的快速流通与开放共享,信息的流通与共享不仅能够提升一个网站的点击量和知名度,更能低成本地使用他人网站上的数据资源,因此,互联网公司原则上都希望自身平台上的数据信息尽可能地被人知晓并使用,以换取其他网站的同等对待,而爬虫协议就成为表明这一合作共赢意愿的最便捷的方式。

      当然,互联互通是有选择的,当一家企业强大到在数据的收集、生产领域占有市场优势地位时,它可能就不太愿意再继续开放共享,至少是对其构成威胁的竞争对手而言,由此便会在爬虫协议中注明哪些数据是不可被抓取的,哪些抓取者是不受欢迎的,甚至会把一些本处于公有领域的非独创性数据或自己不享有排他权益的数据也占为己有。可见,脱离对爬虫协议内容的实质性评判而一概认为爬虫协议就是应当遵守的行业惯例或商业道德是不足取的,顶多只能就设置爬虫协议这一“行为”而言属于行业惯例

      最后,退一步讲,没有遵守所谓的商业道德,也并不必然构成不正当竞争。这是因为:
其一,“道德与否”的边界具有很强的模糊性和多元性,很难有一个清晰的、恒定的评判结论。特别是在激烈的商业竞争环境中,不破不立,创新的潜台词就是摒弃、颠覆行业惯例,企业通过勤奋努力和聪明才智而推出更价廉物美的产品与服务,食人(蚕食竞争对手的市场)肥己(扩张自己的优势地位),在其竞争对手看来可能是不道德的,但对于自己的员工、消费者及整个竞争秩序来说,并无不妥。在著名的“海带配额”案中,最高人民法院强调指出:“商业道德要按照特定商业领域中市场交易参与者即经济人的伦理标准来加以评判,它既不同于个人品德,也不能等同于一般的社会公德,所体现的是一种商业伦理。经济人追名逐利符合商业道德的基本要求,但不一定合于个人品德的高尚标准”。[3]

其二,相较于不正当竞争的固有类型,“反法”一般条款的功能在于对刚刚出现的、富有争议的商业模式和经营手段进行评价,而这种情况(特别是互联网领域)恰恰尚未形成普遍遵循的道德共识,当事人也无法就此举证,最终只能沦为法官个人的内心揣测和直觉臆断。连法官自己也开始反思:“在解释诚实信用原则和商业道德这两个本属于伦理学范畴的词汇时,自由裁量权成为司法干预市场的武器。[4]

其三,暂且不论“反法”能不能提供保护(今年出台的新“反法司法解释”第一条便明确规定,只有属于违反著作权法规定之外情形的,人民法院方可以适用反法第二条予以认定。言外之意,不违反著作权法规定的,则不适用反法),这种观点本身从逻辑上说就是前后矛盾的——不能予以著作权保护,不是著作权法力有不逮、提供不了保护,而是不应当予以保护,也即被告的行为是正当的,不违反著作权法的规定。既然被告的行为是正当的,为什么换成反法又变成不正当了呢?

                                                四、无客体支撑的竞争优势是虚构的法益

       有观点认为,行为人以“实质性替代”的方式,将未经允许抓取的他人网站上的数据用于自身商业目的,引走了流量、稀释了竞争优势,进而损害了该网站经营者的商业利益,因此构成不正当竞争。这种论证思路是当前司法实践中颇为流行的一种做法,但如果仔细推敲,却恐怕仍然难以成立。

       首先,所谓的“竞争优势说”早在前述“海带配额案”一审判决中就已经出现:“作为一名企业职工,在履行单位交办工作过程中所形成的竞争优势,如同在履行单位工作中产生的发明创造一样,其权利享有者是公司而非职工个人。马达庆将本属于山东食品的竞争优势改变为圣克达诚公司所有,违背了诚实信用的原则,也违背了公认的商业道德。”[5]

      但该见解被二审法院否定:“竞争本身是经营者之间互相争夺交易机会的行为,在交易机会的得失之间,往往会给竞争对手造成损害。这种损害虽然是构成不正当竞争行为的必要条件,但不是充分条件,仅仅造成损害并不必然构成不正当竞争。”[6]

      最高人民法院再审时进一步明确指出:“对于同一交易机会而言,竞争对手间一方有所得另一方即有所失。利益受损方要获得民事救济,还必须证明竞争对手的行为具有不正当性……一审法院多次使用了‘竞争优势’这一内涵和外延并不确定的概念,而且泛泛地将所谓山东食品公司的竞争优势作为反不正当竞争法所保护的法益,缺乏法律依据和法理基础。[7]

      换言之,空洞无边的竞争优势并不是一项法益,真正需要保护的是背后促成竞争优势的合法权益,而这些权益都必然有一个外在的具体对象(如商业秘密、专利技术、享有著作权的作品以及基于诚信经营所累积的良好声誉等)。原告必须证明该权益对象客观存在,且在其之上的权益属于自己,方可排除他人利用

       而在“海带配额”案,原告山东食品公司所谓的“竞争优势”主要源自劳动者个人的“知识与技能”,而一旦该劳动者离职,当其不负有法定或约定的竞业限制义务时,该竞争优势的稀释或丧失便不再受到法律救济。

       其次,“实质性替代”之表述原本来自著作权的司法审判,主要用于评判单纯的深度链接(或加框链接)行为依然可能构成侵犯原告享有的信息网络传播权,即便被告并没有将涉案作品存储于自己的服务器上。[8]
 
       然而,在数据抓取类纠纷中,法官实际上并不需要也不应当援引所谓的“实质性替代”标准,因为在这类案件中,被告无一例外地是将涉案数据从原告服务器上抓取(即复制)到自己的服务器上并加以呈现。因此,只要原告能够证明涉案数据具有独创性(原告完成初步证明后,就应当由被告承担证明涉案数据是不受保护的通用表达、惯常表达的举证责任),是作品,便可直接认定被告的行为构成侵权(复制权、信息网络传播权),而完全没有必要舍近求远、张冠李戴地以“反法”来提供救济。

       最后,诚如前文所言,如果原告不能证明涉案数据的独创性(其实独创性的认定标准并不高,证明并不困难 ),结论本来很简单——不予保护,而当前实践的通行做法却是依然给予保护,其背后的缘由就在于:法官根深蒂固地认为,作为原告的网站经营者对数据的编排付出了投资和努力,没有功劳也有苦劳,甚至于只要用户将其个人数据最先置入某网站,该网站经营者即便没有对用户个人数据做任何形式的编排和整理,也仍然享有一种商业利益或排他性的控制权

       这种理解至少存在三处逻辑和法理障碍:
其一,法官显然是把数据“物化”了,赋予任意一件有体物私有产权,往往是不言自明的,但数据不是有体物,它是信息、是知识、是符号选择,它天然地与公共利益密切相关,要不要赋予数据私有产权,应当赋予哪些数据私有产权,是需要充分评估和深入辨析的。

其二,产权制度不是劳动法,在签署有合同的前提下,付出劳动必然享有获酬权;而产权制度是一种社会契约,行为人是以产出物质财富或智力成果来换取公众的消极不作为义务。在物权法、知识产权法和“反法”所明确列举的具体权益之外,法官赋予一个空泛的、单方面的、毫无任何客体支撑的所谓“商业利益”或“竞争优势”以排他性产权保护,着实有造法之嫌[9]

其三,数据不是有体物,不能在物理意义上被支配、被占有,故数据产权归属并不适用先占制度。在没有得到用户明示的或默示的许可之前提下,用户个人信息或创作内容所置入的第一家网站,并不享有该个人数据的控制权或先占权益。因此,当其他网站征得某用户同意后抓取该特定用户的个人数据时,并不侵犯该数据“首置”网站的权益(笔者还将另行撰文深入讨论该问题,此处不赘)。

                                        五、“反法”规制会导致数据霸权与利益失衡

       有观点认为,“反法”只为数据提供被动的救济及有限的弱保护,即在同时满足一般条款所有评判要素的条件下,才会被认定为是不正当竞争行为,因此是合理的、适恰的。管见认为,是不是果真如此,要具体情况具体分析。

其一,如果数据是由互联网平台企业对既有组成元素的编排、整理和演绎,且达到了独创性要求,那本就应当作为作品享有著作权。此时舍弃著作权,而援引“反法”救济,看上去效果是一样的,但其实会大大削弱对其本可获取的保护力度。因为“反法”视野下的尚未上升为权利的法益,只有当纠纷已经实际发生,损害后果已然形成的前提下,方可也仅可要求侵权人停止侵害、赔偿损失。而著作权却是一种法定的、支配性的财产权,具有可交易、可质押、可积极行使的属性特征。

        而从另一个层面说,“反法”也完全可能不当扩张了对数据的私权保护,因为“反法”中并没有保护期的限定,更没有合理使用、法定许可之规则,由此就会导致数据的霸权和信息的孤岛等严重后果

其二,如果数据不具有独创性,不能作为作品受到著作权保护,此时以“反法”为其提供所谓的额外救济、补充保护,进而禁止其他经营者和社会公众未经“授权”地使用,则这并非什么合宜的、有限的保护,反而是过了头的保护——为本就不应当保护,人人皆可免费、自由利用的数据资源设置了不应有的私权门槛。

       授权的前提是经营者对其享有权利,而有无独创性,并不是数据在事实层面上的分类(并没有什么“无独创性的作品”),而是对涉案数据值不值得保护,应不应当赋予其排他性权益的价值判断,即有独创性—应当保护;无独创性—不应当保护,法律的评判结论应当是一致的,以“反法”去保护一个著作权法不予保护的对象,是对立法者价值取向和政策决断的否定和颠覆

其三,如果涉案被抓取的数据仅仅是用户在“首置”网站上被动留下的个人信息或主动创作的内容(英文缩写为UGC),而无论抓取者是否已经征得数据拥有者——用户的同意,但凡只要未征得该数据信息“首置”网站经营者的同意,均可能被认定为构成不正当竞争,典型案例如“新浪诉脉脉”案[10]、“微博诉微头条”案。[11]该裁判思路实际上仍然等于绕开著作权法,用“反法”对一种典型的复制、传播作品之行为进行评价,其后果要么是排挤了著作权制度,要么是创造了一项崭新但虚幻的权益

       囿于篇幅所限,笔者将另行撰文探讨和分析这种情况的法律适用问题,此处不赘述,一个基本结论是,当抓取者未征得用户个人同意时,的确有可能侵犯该用户创作内容(UGC)“首置”网站之经营者享有的著作权法意义上的优先使用权;而一旦用户已经同意其他经营者可以抓取他创作的内容,则“首置”网站经营者享有的优先使用权随之消灭,故此时抓取者既不构成侵权,更不构成所谓的不正当竞争。


                                                                      结 语

       综上所述,数据虽然看上去很新鲜,但分析数据产权性质及其权属的法理和方法论并不会因此而过时,逻辑更不会过时。

        数据的上位概念是信息、是知识、是智力成果,而只要其具有独创性,那就是作品,就应当也只能遵循著作权制度加以保护与衡平。具有独创性的数据就是作品,应当依照著作权法予以保护,而不具有独创性的数据,本身就是公共信息资源,人人皆可自由免费获取和使用,著作权不应予以保护,也不能换用其他法律制度(如“反法”)予以保护。

       “反法”并不是著作权法的兜底条款、补充规则,二者各有分工、彼此和(在所秉持的价值取向层面)而不同(在所处理的具体问题层面)。道不远人,当碰到新的、有争议的难办案件时,法律人不应当因焦虑而不知所措,更不应当因偏信而盲从效仿,翻一翻旧的工具箱,总能找到惊喜,让我们彼此共勉。
本文系中央民族大学青年学术团队引领计划(编号:2022QNYL24)和北京市法学会研究课题(编号:BLS(2022)B013-2)阶段性成果。

注释


【1】参见北京互联网法院(2018)京0491民初1号民事判决书。
【2】参见熊文聪:《作品“独创性”概念的法经济分析》,载《交大法学》2015年第4期。
【3】最高人民法院(2009)民申字第1065号民事裁定书。
【4】陈为:《数据抓取行为的反不正当竞争法规制》,载《网络信息法学研究》2021年第1期,第88页。
【5】青岛市中级人民法院(2007)青民三初字第136号民事判决书。
【6】山东省高级人民法院(2008)鲁民三终字第83号民事判决书。
【7】最高人民法院(2009)民申字第1065号民事裁定书。
【8】参见崔国斌:《得形忘意的服务器标准》,载《知识产权》2016年第8期。
【9】参见崔国斌:《知识产权法官造法批判》,载《中国法学》2006年第1期。
【10】北京知识产权法院(2016)京73民终588号民事判决书。
【11】北京市海淀区人民法院(2017)京0108民初24530号民事判决书。



以上内容转自公众号“知产前沿”



图片



标天下商标注册 知识产权
帮助中心
服务支持
新闻动态
关于我们
标天下公众号
马上关注标天下,随时随地查询、注册、管理商标

400-118-2323

周一至周六 08:30-18:00

btx@biaotianxia.com

ICP备案查询网
经营性网站备案信息
360网站安全检测
网络警察报警平台
支付宝
微信支付
Copyright © 2015 广州标天下信息科技有限公司 All Rights 粤ICP备15060970号