人工智能生成发明专利充分公开问题研究

时间：2024-08-31

胡光，杨珍珠

(河南师范大学知识产权学院，河南新乡 453007)

一、人工智能生成发明之基本理论

1. 基于人工智能技术的发明分析

“人工智能”技术按照“智能”形成度和功能实现度可进行以下分级：初级也就是最基础的“人工智能”(artifitial intelligence)。由知识库(可称为专家系统)形成，本质上是利用设定的规则对存储数据进行整理，并从这些数据中得出逻辑结论，其中数据和规则都必须由人工智能的操作者提供。第二级为“机器学习”。在机器学习过程中，利用程序工程师提供的输入和输出数据，算法分析程序可以找到其中存在的规律，将输入数据映射到输出结果(逻辑回归)中，从而在不依赖输出数据的情况下对新的输入数据进行预测。机器学习的贡献在于能够自我设计规则，其寻找规则的过程通常称为“训练”，使用的数据称为“训练数据”(training data)。第三级为“表征学习”(representation learning)。这一级别主要针对非结构化的数据。人工智能程序可将输入数据转换成更能够解决特定问题的现实形式。与机器学习相比，具备表征学习能力的人工智能技术可以提供更具针对性的结果，但其学习以及表征生成的过程不易描述，这会给现有“充分披露”原则的实现带来实质性挑战。第四级为“深度学习”(deep learning)。深度学习是表征学习的子集，是具有多个层级(称为“depth”)的模型——通用术语为“多层感知器”(multi-layer perceptron)。

就功能而言，前两个级别——知识库整理和逻辑回归分析——通常用于处理“对人类来说很难但对计算机来说很容易”的事务，例如将预先确定的规则应用于大数据集；而表征学习尤其是深度学习，多用于处理“对人类容易但对计算机却难的事情”，例如模式识别、图像处理或自然语言处理[1]。对于具备初级和部分第二级别功能的人工智能，现有的专利理论中用于判断计算机软件发明的方法可以适用，这意味着没有直接耦合到特定应用程序的人工智能算法，如果仅仅涉及相对简单或单一的数学方法(例如逻辑回归)则不具备可专利性(1)在美国的Mayo标准框架下，判断方法基于以下假设：第一步，作为数学概念的基本人工智能算法是一个抽象的概念，因此没有资格申请专利。但是第二步则提出，司法上的例外可以纳入实际应用，为人工智能算法专利留下空间。参见：2019 Revised Patent Subject Matter Eligibility Guidance，www.govinfo.gov/content/pkg/FR-2019-01-07/pdf/2018-28282.pdf.。第三和第四级是需要关注的重点，特别是“深度学习”层级，这类系统可能具有大量的隐藏层，其权重在学习/培训过程中、在没有人工干预的情况下允许自主完善。

基于此，人工智能发明可以分类如下：(1)体现人工智能领域进步的发明(例如，改进的机器学习(ML)模型或新算法下的神经网络结构)；(2)将人工智能应用于人工智能以外领域的发明；(3)人工智能自主生成的发明。

2. 人工智能生成发明的运行原理

建立一个神经网络算法的基本过程包括：第一步“问题输入”，即将问题转变为可输入神经元的数据信息(二位数字所代表的声音、图像等信息)。第二步“设定拓扑结构”，即设立多层神经元进行识别实验。第三步“训练神经元”，即选取问题实例，反复运行识别实验。其中,确定拓扑结构的多种不同方法、确定最终输出存在的方法以及训练期间调解突触强度所用的不同方法等所形成的变体，在设计中都必须具有可行性[2]。

对于具有自主学习能力的深层神经网络，网络推理的过程被嵌入数千个模拟神经元的活动，这些神经元排列在数十个甚至数百个错综复杂的互联层中。第一层中的神经元接收一个输入信息，比如图像中像素的强度等，然后在输出新信号之前进行计算，产生的结果被输送到下一层的神经元，依此类推，直至达到设定之目标。此外，还有一个被称为反向传播的过程，它会调整单个神经元的计算，让网络学会产生所需的输出，这一过程与人脑的运行机理极其相似。“对于机器学习最好的理解就是，他们发展出自己的直觉力，然后用直觉来行动，这和以前的谣言——它们只按照编好的程序工作——大不相同”[3]。也就是说，要求人工智能具有意识和情感，在现阶段以及今后的很长时间也许无法实现，但是按照有关学者的预测，对人脑仿真的创造性思维却可以完成：“大脑极大的可塑性使我们能够进行学习。但计算机的可塑性更大，通过改变软件完全可以重建它的工作”“因为数字化计算可以实现任意精度的对模拟值的仿真”[1]。正因如此，世界著名人工智能研发机构——麻省理工学院的学者这样描述人工智能深度学习系统：“这个系统太复杂了，即使是设计它的工程师也很难找出其产生任何单一行动的本质原因。”[4]以至于，麻省理工学院的研究人员在使用人工智能深度学习算法发现一种新的抗生素之后，描述这一系统为“从事某种智能活动(doing something intelligent)”[5]。可见，人工智能的创造性功能的发展在一定程度已经得到证实和认同。

二、人工智能生成发明专利充分公开的目的

在解决人工智能生成发明所涉公开问题之前，首先要对专利“公开”制度设计的初衷予以回归性解释。专利法上“充分公开”原则设立的基本目的在于通过“专利说明书”“权利要求书”等专利申请文献，清楚且充分地描述发明客体，以使本领域普通技术人员能够对该发明予以复制并以最佳的方式实施。以美国为例，其专利法中规定了三项独立而明确的披露要求：书面描述、适用性和最佳模式[6]。根据美国专利商标局所制定的审查指南，专利说明书应当能够指导本领域的普通技术人员如何在不需要通过非适当性试验的情况下制造和使用所要求保护的发明，在确定专利说明书是否满足申请要求以及是否存在必要的不适当性试验时，审查员可以利用“WANDS”要素予以判断，具体包括：权利要求的广度、发明的性质、现有技术的状况、普通技术人员的水平、本领域的可预测性水平、发明人提供的指导案例、是否存在工作实例，以及根据本发明公开内容制作或使用本发明所需的实验量等[7]。这些要求适用于在美国所有的专利申请，包括那些针对人工智能生成发明的申请。我国最新修订的《专利审查指南》中所要求的审查员能够“理解发明的一般路径，……在理解发明时应当充分了解背景技术整体状况、理解发明的技术方案所能带来的技术效果、明确发明相对于背景技术所作出的改进”[8]，实质上是对“充分公开”所应达到之目的的一般性限定。“充分公开”制度的设计虽然具有鼓励技术传播、促进技术的价值溢出，减少重复的研究成本等多层价值面向和功能指向，但其核心功能在于可以根据所提供的书面材料(专利说明书等)，确保发明人实际上已经创造并拥有要求保护的发明，并且所属领域的普通技术人员无需通过过度试验即可理解、应用该技术，进而能够适用于生产，产生价值，推动进步，即满足“可实施性条件”和“合理支持条件(书面描述)”。因此，人工智能生成发明如果希望获得专利，则所面临的专利充分公开问题主要是通过何种方式实现申请专利发明信息的透明，以期在最大限度内，在满足权利人利益要求、确保专利功能的实现以及促进社会科学进步三者之间找到最佳平衡点。因而，该制度是关乎整个专利制度价值得以实现的核心问题之一。IEEE在为美国政府有关人工智能生成发明制度所作的咨询报告中就曾强调，“解决目前人工智能生成/辅助专利范围的不确定性将有利于人工智能技术的发展”“人工智能生成/辅助专利的专利申请人将受益于该技术所能披露的信息所带来的更多的确定性”[9]，人工智能生成发明公开制度也必须围绕这一核心目的进行设置。

三、实现充分公开面临的问题

1. 充分公开内容确定

人工智能算法的输出结果虽然是由数据和代码决定的，其过程并不会比自然现象更难以分析和解释，但深度学习并不完全遵循“数据输入—特征提取—特征选择—逻辑推理—预测”这一规律，而是由计算机直接从事物原始特征出发，自动学习和生成高级的认知结果。在人工智能输入的数据和其输出的结果之间，存在着无法洞悉的、被称为“黑箱”(black box)的“隐层”。这里的“黑箱”不但意味着不能观察，还意味着即使人工智能试图向设计者予以解释，设计者可能也无法理解。那么，如果人类对人工智能生成发明的过程处于不能完全知悉的状态，就不能实现人类自身发明创造之技术场景的“重现”或“再现”，普通技术人员要想重复该发明，则必须最大限度地明确获知人类培训人工智能所使用之数据、模型等，以实现技术场景“预现”。在这种情况下，充分公开所涉内容如果仅仅局限于说明算法，而不能阐释算法运行之模式，那么对于“深度学习”而言，即使对基本模型进行充分的描述，技术人员仍然没有足够的信息来重现该模型，若想达到充分公开之目的，目前仍然需要至少公开以下两项内容：一是对培训数据的使用，包括模型的每个学习系数或权重；二是对模型培训方式的描述。

2. 经济效益要素考量

对于高科技产业而言，在需要考虑的外部性要素中，经济效益平衡问题是重点之一，因为“从专利制度鼓励技术知识传播的社会目标角度看，技术溢出使既有专利较早进入公共领域，客观上有利于整个社会技术知识的共享和传播。但是，从专利制度鼓励研发投资的社会目标角度看，技术外溢降低了既有专利的私人价值，可能降低创新者研发投资和申请专利的积极性”[10]。

现阶段，人工智能技术的开发和应用涉及大量初创公司和一些小型经济实体，如果对人工智能生成发明在“充分公开”的要求方面采用过于严苛的标准，而要求披露传统计算机硬件/软件的特性和操作以及训练模型、数据和模块等，则会给他们带来沉重的经济、法律和技术负担。以美国为例，2020年8月3日，美国初创企业与发明人促进就业联盟(USIJ)发布了题为《有效可靠的专利制度对关键技术投资的重要性》的报告，指出专利制度的变化正导致风险投资在开发专利密集型高科技企业资金中所占份额大幅下降。2004年，风险投资大部分流向专利密集型制造业。及至2017年，这些专利密集型行业获得的资金份额从2004年的50%以上下降至2017年的28%(2016年达到24.5%的低点)[11]。这一数据表明，过于严苛的专利审查制度会影响资本投入，从而降低以变革性技术为特征的专利密集型企业的创新能力。而训练数据又具有重要的独立价值(3)有理论认为，虽然目前没有专门针对人工智能算法数据的知识产权保护法规，但培训数据可以作为商业秘密保护，如果培训数据提供了一些新的和有用的结果，则可以作为专利保护。，将其公之于众可能会阻碍初创企业替代性收入来源，或者辅助竞争对手更快地启动周边设计的方案研发，加速竞争。因此，在制定涉及人工智能生成发明的披露标准时，有必要对公开的程度设定可供操作的边界，以达到技术创新扩散所产生的经济效应与初创高科技型企业成本优化之间的平衡。

四、实现充分公开的保障措施

1. 数据的公有留存与安全供给

学者们在讨论解决黑箱问题时提出“追踪数据来源的方式有助于人们更正错误”“如果不良数据的后续使用者不知道该数据的来源，他们可能就不会相信数据当事人。如果他们能够跟踪数据的出处，更正过程就会容易得多”[12]。设计一套对人工智能训练数据持续性供给的监管技术，以确保对在发明使用过程中所出现的问题能够依据数据之出处予以适度修正，对于人工智能生成发明的披露具有重要意义。

数据保存最为重要的目的是在记录、确保数据安全并持续更新的基础上，在满足人工智能学习需要的同时保证发明的适用性。鉴于人工智能系统的复杂性、内部运行的不透明以及难以快速验证等特征，更应当确保与算法、编程有关的测试记录，以及有关建立、测试和验证人工智能系统的训练方法、使用流程和相关技术的资料文件，包括预先制定的安全措施和避免歧视偏见的应对方案等得到有效留存，并准确记录特定情形下高风险人工智能应用测试的数据集，详细描述数据集的主要特征和选择方式。事实上，信息的留存问题并不是人工智能技术所独有的，其已经在一个完全不同的专利领域得到解决，即涉及微生物的发明。为了从基本材料中产生有用的物质，生物技术的发明可能会使用微生物，对于涉及的生物材料很难仅仅通过书面形式予以充分描述。如果说明书对如何制造要求保护的发明作出了充分指引，那么多大程度上允许公众访问、获得这些微生物材料就决定了该项发明的实现程度。为解决这一问题，需要建立一整套在严格条件下保存、获得生物材料的存储系统。根据1977年《布达佩斯条约》(Budapest Treaty 1977)规定，如果相关的书面说明被认为不足以描述样品的特征或者不够充分，则专利申请人可提取存放在指定国际保存机构(international depositary authority，简称IDA)的微生物样本，以满足专利描述的要求(4)1977年《布达佩斯条约》即The Budapest Treaty on the International Recognition of the Deposit of Microorganisms for the Purposes of Patent Procedure，是一项国际专利法条约，最初于1977年4月28日签署，第一次于1980年8月9日生效。世界知识产权组织负责条约的管理。截至2019年8月，“布达佩斯条约”共有82个缔约国。该条约规定了关于存放和储存生物材料的具体条款。条约要求所有签署人按照规定的条件将生物材料予以储存并提供使用权限，有权接受储存样本的缔约方包括储户、任何持有存放人书面授权的人以及任何宣布正在处理与储存材料有关专利申请的知识产权局。。由于神经网络具有模仿生物网络特性，因此，获得人工智能发明专利的数据留存可以参考建立类似于生物材料存储的人工智能培训数据公有保理系统，用于保存培训数据，并通过明确制定获取数据的法定条件，一方面促进公众合法获得专有数据进行研究，另一方面保护提供上述数据的专利申请人利益，推动类似于人工智能系统等在内的需要大规模数据披露和使用的技术专利公开(5)还有一种被称为“数据大使馆”的跨境数据共管模式，即外国政府对存储在他国数据中心的数据保持管辖权，允许将数据储存在特定国家数据中心的外国主体在面临与数据相关的任何争议时，只受自己国家法律的专属管辖，不适用于数据存储国的法律——相当于这些数据获得了“外交豁免”，以推动数据信息安全流动。。

2. 数据的合法与安全使用

数据是人工智能的基础要素，获得初步开发和持续培训的数据对于人工智能功能的实现非常重要，因此，数据和数据集都极其具有价值，特别是“大数据”(如可以通过计算分析以揭示模式、趋势和关联的超大数据集等)。专利公开原则要求权利要求书中的信息应该受到保护，而说明书中的信息则可以自由使用，那么，除专利“公开”之技术性要求外，人工智能生成发明如果需要公开数据，会面临一个规范性问题——数据的合法使用。虽然在不涉及敏感数据使用的情况下(比如人工智能在天气预报或天文学中的应用等)不涉及数据的保护，但绝大多数情况下人工智能确实需要使用或收集个人数据，并且在一定程度上存在大量的个人数据被用来训练和测试人工智能的情况。例如，欧洲专利局曾以披露不足为由驳回一项涉及人工智能的发明(6)该发明为使用人工神经网络程序将外周测得的血压曲线转化为等效主动脉瓣压。，在驳回决定中专利局指出，根据欧洲专利法第83条之规定，欧洲专利申请应当以一种足够清晰和完整的方式披露该项发明，披露程度必须达到使该领域的技术人员能够根据他/她的一般常识，并依据该技术再现所声称的发明。专利审核委员会同时认为，这项基于人工智能技术的发明应用：“无论是要求还是描述都没有包含人工神经网络训练的细节，而仅仅表明权值是由机器学习决定的”[13]，特别是缺少不同年龄、性别、体质类型、健康状况等患者的信息，所披露的内容没有揭示哪些输入数据适合于训练所发明的人工神经网络，或者至少有一个适合于解决当前技术问题的数据集。因此，该项基于人工智能神经网络的专利没有满足充分披露的条件，造成该人工智能神经网络的训练方法无法由技术人员再现，进而不能重复发明过程。依据该案例，涉及人工智能系统的发明，其公开范围除去系统本身运行之基本技术特征外，还应当涵盖人工智能数据选择与处理的方法。在这种情况下，要想满足充分公开的要求，就会涉及大量的个人信息。根据欧盟《通用数据保护条例》(TheGeneralDataProtectionRegulation，简称GDPR)，使用个人数据信息要遵守“透明性原则”，即在考虑个人数据具体情况和背景的前提下，尽最大之可能确保信息使用的透明度，即清晰、公开和诚实地向公众提供如何以及为何使用个人数据，包括：原理说明，发明的原因可以以可访问的非技术方式予以解释；责任说明，谁参与人工智能系统的开发、管理和实施，以及如何对最终的发明进行人工审查；数据说明，在特定决策中使用了哪些数据以及如何使用。具体到人工智能发明专利则意味着，如果不向公众公开关于人工智能生成发明是如何以及为什么做出、所使用的个人数据如何被用来训练和测试人工智能系统，就会违反透明性原则。除此之外，基于数据的高流动性，建议由国际社会牵头设计一套国际化数据流转安全机制[14]，例如：通过设立标准(包括关于数据格式、定义、结构、标记、传输、操作、使用和管理的相关协议)确保数据能够在不同系统中重复使用。鼓励利用区块链或者通用安全加密技术等记录数据获取和收集的历史维护数据源，确保数据的真实性(7)例如WIPO开发的“WIPO PROOF”安全在线网站，允许申请人请求针对特定数字文件的WIPO PROOF令牌。该系统依托世界上最强大和最严格的标准之一——eIDAS标准设计和开发，使用公钥基础结构(PKI)技术生成WIPO PROOF令牌，系统不会读取文件的内容或存储文件的副本，而是根据安全单向算法与请求者的浏览器进行本地交互，以创建文件的唯一数字指令，为信息提供最高级别的确定性，即令牌上的日期和时间是准确且未被篡改的。任何人(甚至第三方)都可以通过遵循一些简单的步骤在网站上验证WIPO PROOF令牌。参见WIPO PROOF：WIPO Introduces New Business Service That Provides Evidence of An Intellectual Asset’s Existence，https：//www.wipo.int/pressroom/en/articles/2020/article_0012.html.。

五、结论

现阶段以神经元网络技术为代表的人工智能系统，已经能够通过大量可持续供给的数据学习找到事物之间关联，发现其中的规律，产生新的知识并自主创造出新的产品或工艺。并且，伴随技术的不断进步和数据信息量的叠加，人工智能在提供新知识、新技术和新发现上的能力必将随之增长，其发展潜力可能远远超过人类在这几百年工业革命中的规模和速度，而人类介入之影响亦必随之减弱。做好人工智能作为产品和技术发明者的准备且应将其尽快提上日程。即使人工智能在知识产权权利主体性方面由于道德或伦理的限制无法在短期内获得突破，但其生成发明的专利认定对于促进这一变革性技术的发展与新业态的繁荣具有重要意义。因此，在既有专利公开制度的基础上，通过公开人工智能生成发明中的数据、训练模型并利用类似于微生物保藏的算法建立保藏体系和跨地域的数据安全模式，可以一定程度上解决人工智能生成发明专利公开的“黑箱”问题，满足充分公开之要求。