发布信息

【博览】《中国医学伦理学》:卫生领域人工智能的伦理与治理——多模态大模型指南

作者:本站编辑      2024-03-22 11:35:07     11

编者按

随着人工智能技术的快速发展,卫生领域不断尝试通过引入人工智能来改善医疗质量、提高工作效率。由于大模型技术能够对大规模数据进行复杂处理和任务处理,大幅提升人工智能的泛化性、通用性和实用性,因此该技术在疾病预测、诊断、治疗和药物研发等方面中应用有广泛的应用前景和潜力,但也带来了诸多伦理挑战和风险,亟加强治理。

2024年1月18日,世界卫生组织(WHO)发布了英文版的《卫生领域人工智能的伦理与治理:多模态大模型指南》,旨在协助各国规划与卫生领域多模态大模型有关的益处和挑战,并为适当开发、提供和使用多模态大模型提供政策和实践方面的指导。

鉴于多模态大模型人工智能对我国获取未来战略竞争新优势、促进广大人民群众的健康具有重要战略意义,本刊第一时间组织从事相关领域研究的专家对指南精译了中文版,供各位研究者研究参考,以期促进医疗大模型伦理治理在我国的研究与指引,实现高质量创新发展和高水平安全的良性互动。

本文已在中国知网首发,参考格式如下:

王玥,宋雅鑫,王艺霏等.卫生领域人工智能的伦理与治理:多模态大模型指南[J/OL].中国医学伦理学:1-58[2024-03-14].http://kns.cnki.net/kcms/detail/61.1203.R.20240304.1833.002.html.

卫生领域人工智能的伦理与治理:多模态大模型指南

Ethics and governance of artificial intelligence for health. Guidance on large multi-modal models. Geneva: World Health Organization; 2024. Licence: CC BY-NC-SA 3.0 IGO.

本译文并非源自世界卫生组织(WHO),世卫组织对译文的内容或准确性概不负责。英文原版应作为具有约束力的作准文本。

原文版本号:ISBN 978-92-4-008475-9(电子版);ISBN 978-92-4-008476-6(印刷版)

译者

王玥1,宋雅鑫1,王艺霏1,译;于莲2,王晶3,审校 

(1西安交通大学法学院,陕西 西安 710049;2西安交通大学公共卫生学院,陕西 西安 710061;3首都医科大学附属北京中医医院,北京 100010)

摘要

人工智能(Artificial Intelligence,AI)是指集成到系统和工具中的算法从数据中学习的能力,这样它们就能执行自动化的任务,而无需人工对每个步骤进行明确的编程。生成式人工智能是算法在可用于生成新内容(如文本、图像或视频)的数据集上进行训练的一种人工智能技术。本指南针对其中一种类型的生成式人工智能,即多模态大模型(Large Multi-modal Model,简称“LMM”)。这种模型可以接受一种或多种类型的数据输入,并产生不局限于输入算法的数据类型的多种输出。据预测,多模态大模型将广泛应用于医疗保健、科学研究、公共卫生和药物开发等领域。多模态大模型也被称为“通用基础模型”(General-purpose Foundation Model),尽管尚未证实多模态大模型能否完成各种任务和目的。

多模态大模型的普及速度超过了历史上任何消费者应用。它们之所以引人注目,是因为其促进了人机交互,可以模仿人类交流,并对查询或数据输入作出类似人类且看似权威的回应。随着消费者的快速采用和接受,并考虑到其颠覆核心社会服务和经济部门的潜力,许多大型科技企业、初创企业和政府都在投资并竞相引导生成式人工智能的发展。

2021年,世界卫生组织(WHO,以下简称“世卫组织”)发布了《卫生领域人工智能的伦理与治理》的综合指南。世卫组织咨询了20位人工智能领域的顶尖专家,他们确定了在卫生领域使用人工智能的潜在益处和潜在风险,并发布了以协商方式达成一致的六项原则,供正在使用人工智能的政府、开发者和提供者在制定政策和实践时考虑。这些原则应指导包括政府、公共机构、研究者、企业和实施者在内的广泛利益相关者在卫生领域开发和部署人工智能。这六项原则分别是(1)保护人类的自主性;(2)增进进人类福祉、安全和公共利益;(3)确保透明、可以解释和可以理解;(4)培养责任感和实行问责制;(5)确保包容性和公平;(6)推广反应迅速且可持续的人工智能(图1)。

 

图1:世卫组织就卫生领域人工智能的伦理原则达成共识

 

世卫组织发布本指南的目的是协助成员国规划与卫生领域多模态大模型有关的益处和挑战,并为适当开发、提供和使用多模态大模型提供政策和实践方面的指导。本指南提供了与指导原则相一致的企业内部、政府和国际合作的治理建议。本指南的基础是考虑到人类使用卫生领域生成式人工智能独特方式的指导原则和治理建议。

多模态大模型的应用、挑战和风险

多模态大模型在卫生领域的潜在应用与其他形式的人工智能类似,然而多模态大模型的接入和使用方式是全新的,它既有新的益处,也有社会、卫生系统和终端用户尚未做好应对准备的新风险。表1总结了多模态大模型的主要应用及其潜在益处和风险。

与使用多模态大模型相关的系统性风险包括下列可能影响医疗卫生系统的风险(表2)。

使用多模态大模型还可能会带来更广泛的监管和系统性风险。一个值得关注的问题是(一些数据保护机构正在研究),多模态大模型是否符合包括国际人权义务、国家数据保护法规在内的现有的法律或监管制度。因为多模态大模型训练数据的收集方式、对已收集数据(或由终端用户输入的数据)的管理和处理、多模态大模型开发者的透明度和责任分配问题以及多模态大模型出现“幻觉”的可能性,算法可能不适用于现行法律。多模态大模型还可能违反消费者保护法。

随着不断增长的多模态大模型的使用,开发多模态大模型需要更加海量的算力、数据、人力和财政资源,一项与之相关的更广泛的社会风险(包括在卫生领域中使用此类算法)是多模态大模型普遍由大型科技企业开发和部署这一事实。相对于较小企业和政府而言,这可能会加强这些科技巨头在开发和使用人工智能方面的主导地位,包括引导公共和私营部门的人工智能研究重点。对大型科技企业潜在主导地位的其他担忧还在于企业对伦理和透明度的承诺不足。企业之间以及企业与政府之间的新的自愿承诺,可以在短期内降低一些风险,但不能替代最终可能实施的政府监督。

另一个社会风险是多模态大模型的碳足迹和水足迹。与其他形式的人工智能一样,多模态大模型需要大量能源,并产生不断增加的水足迹。虽然多模态大模型和其他形式的人工智能可以带来重要的社会效益,但不断增长的碳排放可能会成为气候变化的主要因素,而不断增加的耗水量则会对水资源紧张的社区产生进一步的负面影响。与多模态大模型的出现相关的另一个社会风险是,多模态大模型尽管提供的是似是而非的回应却逐渐被视为知识来源,这最终可能会削弱人类知识的权威,包括在医疗保健、科学和医学研究领域。

卫生保健与药品领域多模态大模型的伦理和管理

多模态大模型可被视为一个或多个行为者关于编程和产品开发方面作出的一系列(或一连串)决策的产物(图2)。在人工智能价值链的每个阶段做出的决定都可能对下游参与开发、部署和使用多模态大模型的主体产生直接或间接的影响。政府可以通过在国家、地区和全球范围内颁布和执行法律和政策来影响和规范这些决策。

 

 

图2:开发、提供和部署多模态大模型的价值链

 

人工智能价值链通常始于一家大型科技企业,在本指南中称为“开发者”。开发者也可以是高校、较小的科技企业、国家卫生系统、公-私联合体或其他拥有资源和能力使用若干投入的实体。这些投入组成了“人工智能基础设施”(政府在立法和监管中用来描述多模态大模型的术语),如用来开发通用基础模型的数据、算力和人工智能专业技能。这些模型可直接用于执行各种通常意想不到的任务,包括与医疗保健相关的任务。有几种通用基础模型是专门为卫生保健与药品领域的使用而训练的。

第三方(“提供者”)可以通过主动编程接口,将通用型基础模型用于特定目的或用途。这包括:(i)对新的多模态大模型进行微调,这可能需要对基础模型进行额外的训练;(ii)将多模态大模型集成到应用程序或更大的软件系统中,为用户提供服务;或(iii)集成被称为“插件”的组件,以正规或规范格式引导、过滤和组织多模态大模型,生成“可消化”的结果。

此后,提供者可向客户(或“部署者”)出售基于多模态大模型的产品或服务,如卫生部门、医疗卫生系统、医院、制药企业甚至个人,如医疗服务提供者。购买或获得许可使用产品或应用程序的客户可以直接将其用于患者、医疗服务提供者、卫生系统的其他实体、非专业人士或自身业务。价值链可以是“纵向一体化”的,因此,收集数据并训练通用基础模型的企业(或其他实体,如国家卫生系统)可以针对特定用途修改多模态大模型,并直接向用户提供应用程序。

治理是通过现行法律和政策,新制定或修订的法律、准则、内部行为规则和开发者程序,以及国际协定和框架,来体现伦理原则和人权义务的一种手段。

构建多模态大模型治理框架的一种方法是将其纳入人工智能价值链的三个阶段:(i)设计和开发通用基础模型或多模态大模型;(ii)提供基于通用基础模型的服务、应用程序或产品;以及(iii)部署医疗服务或应用程序。在本指南中,从三个方面对每个阶段进行审查:

1. 在价值链的每个阶段应该应对(如上所述的)哪些风险?哪些行为者最适合应对这些风险?

2. 为了应对风险,相关行为者可以做些什么?必须坚持哪些伦理原则?

3. 政府的作用是什么,包括相关法律、政策和法规?

某些风险可以在人工智能价值链的各个阶段加以解决,而某些行为者可能在降低各种风险和维护伦理价值观方面发挥更重要的作用。虽然在开发者、提供者和部署者之间的责任归属问题上可能会存在分歧和紧张关系,但在一些明确的领域中,行为者各自都处于最有利的应对位置,或者是唯一有能力应对潜在或实际风险的实体。

通用基础模型(多模态大模型)的设计与开发

在设计和开发通用基础模型的过程中,责任在于开发者。政府有责任制定法律和标准,要求采取或禁止某些做法。本指南第4章提供了一些建议,以帮助在开发多模态大模型过程中应对风险并实现效益最大化。

通用基础模型(多模态大模型)的提供

在提供服务或应用的过程中,政府有责任界定对开发者和提供者的要求与义务,以应对与医疗环境中使用的基于人工智能的系统相关的特定风险。本指南第5章提供了一些建议,以便在使用多模态大模型为医疗保健提供服务和应用时,应对风险并实现效益最大化。

通用基础模型(多模态大模型)的部署

即使在开发和提供多模态大模型的过程中适用了相关的法律、政策和伦理实践,在使用过程中也会出现风险,部分原因是多模态大模型的不可预测性及其提供的响应,用户可能以开发者和提供者都没有预料到的方式应用通用基础模型,并且多模态大模型的输出可能随着时间的推移而改变。本指南第6章就使用多模态大模型和应用过程中应解决的风险和挑战提出了建议。

通用基础模型(多模态大模型)的责任

随着多模态大模型在卫生保健与药品领域的广泛使用,出现错误、误用并最终对个人造成伤害在所难免。因此,问责制可以确保受到多模态大模型伤害的用户得到充分赔偿或其他形式的补救,以减轻受到伤害的用户的举证责任,确保他们得到充分和公平的赔偿。

政府可以通过引入因果关系推定来做到这一点。政府也可以考虑引入严格责任标准,以处理因部署多模态大模型造成的伤害。虽然严格的问责制可以确保对受到伤害的人进行赔偿,但同时也可能阻碍对日益复杂的多模态大模型的使用。政府也可以考虑设立无过错、无责任的赔偿基金。

通用基础模型(多模态大模型)的国际治理

各国政府必须共同努力,建立新的体制结构和规则,确保国际治理跟上技术全球化的步伐。政府还应确保加强联合国系统内的合作与协作,以应对在卫生领域和社会、经济领域内更广泛部署人工智能应用的机遇和挑战。

为了确保各国政府对其在开发和部署基于人工智能的系统方面的投资和参与负责,并确保各国政府出台维护伦理原则、人权和国际法的适当法规,进行国际治理十分必要。国际治理还能确保企业开发和部署的多模态大模型符合适当的国际安全和效率标准,并遵守伦理原则和人权义务。各国政府还应避免出台对企业或政府本身具有竞争优势或劣势的法规。

为了赋予国际治理意义,这些规则必须由所有国家共同制定,而不仅仅是由高收入国家(以及与高收入国家政府合作的科技企业)制定。正如联合国秘书长在2019年所提出的,人工智能的国际治理可能需要所有利益相关者通过网络化多边主义进行合作,这将使联合国大家庭、国际金融机构、区域组织、贸易集团和包括民间团体、城市、企业、地方当局和青年在内的其他方面更加密切、有效和包容地合作。

1

 简  介

本指南涉及多模态大模型在卫生领域相关应用中的新兴用途。它包括在卫生保健与药品领域使用多模态大模型的潜在益处和风险,以及最能确保遵守伦理、人权和安全准则和义务的多模态大模型治理方法。本指南以世卫组织2021年6月发布的指南《卫生领域人工智能的伦理与治理》(Ethics and governance of artificial intelligence for health)为基础。《卫生领域人工智能的伦理与治理》探讨了卫生领域人工智能的伦理挑战和风险,为了确保给所有在卫生领域利用人工智能的国家带来公共利益而确定了六项原则,并为了最大限度地实现该技术的前景而提出了加强卫生领域人工智能治理的建议。

人工智能指的是集成到系统和工具中的算法从数据中学习以执行自动任务的能力,每个步骤都无需人工明确编程。生成式人工智能是一种人工智能技术,其中机器学习模型用于在数据集上训练算法以生成新的输出,如文本、图像、视频和音乐。生成式人工智能模型在训练数据的过程中学习模式和结构,从而根据所学模式预测并生成新数据。生成式人工智能模型可以通过人类的反馈进行强化学习,实现改进,即训练人员对生成式人工智能模型提供的回应进行排序,以训练算法给出人类认为价值最大的回应。生成式人工智能可应用于设计、内容生成、模拟和科学发现等各个领域。

大语言模型(Large Language Model)是一种特殊的生成式人工智能,它接收文本类型的输入并提供同样类型的文本的回应,因此备受关注。大语言模型是大型单模态模型的典范,也是集成这些模型的聊天机器人早期版本的运行基础。虽然大语言模型参与了对话,但模型本身并不清楚自己在生成什么。它们只是根据前面的单词、学习到的模式或单词组合从而对下一个单词进行预测。

本指南探讨了多模态大模型(包括大语言模型)日益广泛的用途,这些模型在卫生保健与药品领域的应用是通过高度多样化的数据集进行训练的,这些数据集不仅包括文本,还包括生物传感器、基因组、表观基因组、蛋白质组、成像、临床、社会和环境数据。因此,多模态大模型可以接受多种类型的输入,并产生不局限于输入数据类型的输出。多模态大模型可广泛应用于医疗保健和药物开发中。

多模态大模型与以往的人工智能和机器学习不同。虽然人工智能已被广泛集成到许多消费者应用中,但大多数算法的输出既不要求也不邀请客户或用户参与,除了集成到社交媒体平台中的人工智能初级形态,这些平台通过策划用户生成的内容来吸引眼球。多模态大模型与其他类型的人工智能的另一个区别在于其多功能性。以前和现有的人工智能模型,包括用于医疗用途的模型,都是针对特定任务而设计的,因此缺乏灵活性。它们只能执行训练集及其标签中定义的任务,如果不使用不同的数据集进行再训练,就无法适应或执行其他功能。因此,尽管美国食品药品监督管理局已经批准了500多个用于临床医学的人工智能模型,但大多数模型仅被批准用于一到两个范围较窄的任务。与此相反,多模态大模型在不同的数据集上经过训练,可用于多种任务,包括一些没有经过明确训练的任务。

多模态大模型通常有一个便于人机交互的界面和格式,可以模仿人与人之间的交流,从而引导用户给算法注入类似人类的品质。因此,与其他形式的人工智能不同,多模态大模型的使用方式及其生成和提供的回应内容看似“与人类一样”,这也是多模态大模型被公众空前采用的原因之一。此外,由于它们提供的回应似乎具有权威性,即使多模态大模型无法保证回应的正确性,无法将伦理规范或道德推理融入其生成的回应中,许多用户也仍然不加批判地将其视为正确的。多模态大模型已被用于教育、金融、通信和计算机科学等众多领域,而本指南说明了多模态大模型在卫生保健与药品领域中使用(或设想中使用)的不同方式。

多模态大模型可被视为一个或多个行为者在编程和产品开发方面的一系列(或一连串)决策的产物。在人工智能价值链的每个阶段做出的决策,都可能对下游参与多模态大模型开发、部署和使用产生直接或间接的影响。这些决策可能受到在国家、地区和全球范围内颁布和执行法律政策的政府的影响和监管。

人工智能价值链通常始于开发模型的大型科技企业。开发者也可以是高校、较小的科技企业、国家卫生系统、公-私联合体或其他拥有资源和能力使用若干投入的实体。这些投入组成了“人工智能基础设施”,如用来开发通用基础模型的数据、算力和人工智能专业技能。这些模型可直接用于执行各种通常意想不到的任务,包括与医疗保健相关的任务。有几种通用基础模型是专门为卫生保健与药品领域的使用而训练的。

第三方(“提供者”)可以通过主动编程接口,将通用型基础模型用于特定目的或用途。这包括:(i)对新的多模态大模型进行微调,这可能需要对基础模型进行额外的训练;(ii)将多模态大模型集成到应用程序或更大的软件系统中,为用户提供服务;或(iii)集成被称为“插件”的组件,以正规或规范格式引导、过滤和组织多模态大模型,生成“可消化”的结果。

此后,提供者可向客户(或“部署者”)出售基于多模态大模型的产品或服务,如卫生部门、医疗卫生系统、医院、制药企业甚至个人,如医疗服务提供者。购买或获得许可使用产品或应用程序的客户可以直接将其用于患者、医疗服务提供者、卫生系统的其他实体、非专业人士或自身业务。价值链可以是“纵向一体化”的,因此,收集数据并训练通用基础模型的企业(或其他实体,如国家卫生系统)可以针对特定用途修改多模态大模型,并直接向用户提供应用程序。

世卫组织认识到,人工智能可为医疗卫生系统带来巨大惠益,包括改善公共卫生和实现全民健康覆盖。然而,正如世卫组织《卫生领域人工智能的伦理与治理》指南1所述,人工智能会带来重大风险,既可能损害公共卫生,也可能危及个人尊严、隐私和人权。尽管多模态大模型相对较新,但其被接受和传播速度已促使世卫组织提供该指南,以确保它们有可能在全球范围内获得成功和可持续的使用。世卫组织认识到,在发布该指南时,人们对人工智能的潜在益处和风险、设计和使用人工智能应适用的伦理原则以及治理和监管的方法存在许多相互较量的观点。由于该指南是在多模态大模型首次应用于卫生领域后不久、在更强大的模型陆续发布之前发布的,世卫组织将更新该指南,以适应技术的快速发展、社会对其使用的处理方式以及在卫生保健与药品领域之外使用多模态大模型对医疗健康造成的影响。

1.1 通用基础模型(多模态大模型)的重要性

虽然多模态大模型相对较新且未经测试,但已在包括医疗和药品在内的各个领域对社会产生了巨大影响。ChatGPT是一种大语言模型,由一家美国科技企业连续发布了多个版本。据估计,在2023年1月,即推出仅2个月后,该模型的月活跃用户数就达到1亿人。这使其一时之间成为历史上增长最快的消费者应用程序。

目前,许多企业都在开发多模态大模型或将多模态大模型集成到消费者应用中,如互联网搜索引擎。大型科技企业也正在迅速将多模态大模型集成到大多数应用软件中或开发新的应用软件 。在数百万美元私人投资的支持下,初创企业也正在竞相开发多模态大模型。由于开源平台的可用性,其开发的多模态大模型比巨头企业开发的多模态大模型更快、更便宜。

多模态大模型的出现促进了技术领域的新投资和新产品的不断推出,但是一些企业也承认他们并不完全清楚多模态大模型为何会生成某些回应。尽管根据人类反馈进行了强化学习,但多模态大模型生成的内容依然不总是具有可预测性和可控性,可能会在参与“对话”时生成让用户感到不舒服,或者生成错误但极易令人信服的内容。即便如此,对多模态大模型的支持大多不仅仅是对其功能的热衷,还包括在未经同行评议的出版物中对多模态大模型性能的无条件的、不加批判的主张。

用于训练多模态大模型的数据集尚未公开,但多模态大模型已被迅速采用,因此很难或不可能知道这些数据是否有偏见,是否合法获取并符合数据保护规则和原则,以及能够进行任务或查询的执行是否反映了它已就相同或类似的问题接受过训练、已获得解决问题的能力。其他有关用于训练多模态大模型数据的问题,如是否符合数据保护法,将在下文讨论。

个人和政府都没有为发布多模态大模型做好准备。个人没有接受过有效使用多模态大模型的培训就可能不会明白,即使多模态大模型聊天机器人给人留下了准确可靠的印象,其回应也并不总是准确或可靠的。一项研究发现,大语言模型GPT-3虽然“与人类相比……能生成更容易理解的准确信息”,但也能生成“更有说服力的虚假信息”,而且人类无法区分出多模态大模型生成的内容和人类生成的内容。

各国政府也基本上没有做好准备。为治理人工智能的使用而制定的法律法规可能无法应对与多模态大模型相关的挑战或机遇。欧盟已就颁布一项全欧盟范围适用的《人工智能法案》达成协议,但考虑到多模态大模型,不得不在起草的最后阶段修改其立法框架。其他国家的政府也在迅速制定新的法律或法规,或颁布临时禁令(其中一些已被撤销)。预计未来几个月内,各企业将陆续推出功能和性能更强大的多模态大模型,这可能会带来新的益处,但也会带来新的监管挑战。在这种动态环境中,本指南以包括伦理指南在内的以往指南为基础,为在卫生保健与药品领域使用多模态大模型提出了意见和建议。

1.2 世卫组织关于卫生领域人工智能的伦理与治理的指南

世卫组织关于卫生领域人工智能的伦理和治理的第一版指南1审查了机器学习的各种方法和卫生领域人工智能的各种应用,但没有具体审查生成式人工智能或多模态大模型。在制定该指南期间以及在2021年发布该指南时,没有证据表明生成式人工智能和多模态大模型将很快得到广泛应用,并应用于临床护理、医疗研究和公共卫生领域。

然而,该指南提出的基本伦理挑战、核心伦理原则和建议(见方框1)对于评估和有效、安全地使用多模态大模型仍然具有现实意义,尽管在这一新技术方面已经出现并将继续出现更多的治理空白和挑战。这些挑战、原则和建议也是本指南中专家组对多模态大模型采取方法的基础。

相关内容 查看全部