Nature标题：人工智能AI新算法！跨越医疗数据隐私问题进行学习

2022-01-31 00:50:05 来源:

6年初15日谣言，机器进修系统设计领域一新令人满意又一次挤进国际间研习术期刊《自然》（Nature）封面。

社都会性数值机控制系统受蚁这群人、这群人集这类社都会性哺乳动物的行径借鉴而来，可用作预期体育赛事、投票选举等活动的结果。但它还可以能用不够多。比如，在不妨碍个人信息例的前提将来自世界各地的医护数据库联动进行构建，以便较太快精准地测定忧郁症严重影响病因的病症。

近期，德国波恩大研习的研究技术人员为首Google公司以及来自克里特岛、荷兰人、德国的多家研究部门，为基础设计了一种将边缘数值、基于区块链的对等的网络结合痛快的分散于式人工数值机控制系统方例——「Swarm Learning」（社都会性进修，SL），可以从分散于读取的数据库当中测定显露多种病因，有效地加速世界各地以外的精准医护协同工作，能用作并不大致相同诊疗两者之间数据库的构建

研究技术人员基于1.64万份肾脏特异性第三组和9.5万份颈部X射线图表数据库，常用SL为癌症、染上和肺部病因、COVID-19开发设计病因测定决策树，见到SL在依赖于也就是说上标准规范的同时远胜单个诊疗开发设计的决策树。算例标记显露患病有机体的精准率，在肾脏特异性第三组数据库集当中最低为90%，在X射线图表数据库集当中展现为76%-86%。

科研成果于5年初27日以 Swarm Learning for decentralized and confidential clinical machine learning 一新书发表在一新闻周刊 Nature 上，并挤进了最一新一期的一新闻周刊封面。

论文重定向：

较太快精准地测定忧郁症严重影响病因的病症是精准医护的主要前提，而 AI 可以很差地辅助。但由于个人信息例的必要措施，控制系统设计上的可行和显露台上的若无两者之间存有着相当大的差距。虽然 AI 的产品直觉上举例来说适当的算例，但也就是说却不够举例来说大数据库。现在，大量的数据库掌握在世界各地成百上千万的诊疗手当中，很难安全及高效地构建，而各自的本地数据库又难以依赖于机器进修的锻炼。

针对这一弊端，波恩大研习的 Joachim Schultze 和他的合作项目提显露异议了一种叫作 Swarm Learning（这群人进修）的去当教育实体机器进修控制系统，过渡到了也就是说跨越部门自然科研习研究当中集当中数据库构建的方式。Swarm Learning 通过 Swarm 的网络构建给定，再在各个站点的本地数据库上分立协同工作假设，并利用区块链控制系统设计对尝试毁损 Swarm 的网络的蓄意举例来说回避强有力的必要措施措施。

Swarm learning 的组件

一、比美国联邦进修不够安全及，SL可应有医护数据库构建

精准医护的前提是能较太快精准地测定显露忧郁症严重影响病因和异质性病因的病症，而机器进修有效地彻底解决问题这一前提，例如根据病患的肾脏特异性第三组数据库来标记前提忧郁症癌症。然而，系统设计到也就是说还存有很多弊端。

基于人工数值机控制系统（AI）的病因检验方例，直觉上不只能举例来说适当的算例，不够举例来说大型锻炼数据库集。由于自然科研习数据库本身是分散于的，诊疗本地的数据库量不一定足以锻炼显露精准的决策树。因此，根据医护数据库协同工作显露的假设，只能能彻底解决本地弊端。

从人工数值机控制系统角度，将各地医护数据库联动进行集当中彻底解决问题是不够好的可选择，但这存有难以避免的弱点。有数数据库容量弊端，以及对数据库管理权、移动性、个人信息性、安全及性和数据库独占等情况的担忧。

因此，须要不够必要、精准、高效的的产品，并且并能在个人信息和道德层面彻底解决问题也就是说上尽太快，还要联动进行安全及和容错设计。

美国联邦进修方例（Federated Learning）彻底解决了其当中的一些弊端。数据库复原在数据库管理者本地，移动性弊端获得彻底解决，但给定设置仍要当都由技术顾问协调。此外，这种星型的系统下降了容错意志力。

比起于已比起风行的美国联邦进修方例，不够好的可选择是回避几乎去当教育实体的人工数值机控制系统的产品，即SL来克服已有方案的不足以，考虑到自然科研习系统设计领域固有的分散于式数据库在结构上以及数据库个人信息和安全及例规的尽太快。

SL有着以下劣势：（1）将大量医护数据库复原至数据库管理者本地；（2）不须要交换数据库，从而下降数据库容量；（3）备有高级别的数据库安全及应有；（4）并能保证的网络当中的民间第三组织的安全及、粉红色和应有加入，不再须要当都由转交员；（5）允许给定原属，彻底解决问题所有的民间第三组织权力都为；（6）可以必要措施机器进修假设不受攻击。

从概念上讲，如果本地稍稍需的数据库和数值机公用事业，机器进修就可以在本地联动进行。

对比几种机器进修方例，研究技术人员见到，基于云的机器进修（Central Learning）都会转换成数据库集当中移动，可用作锻炼的数据库量大大减小，比起于数据库和数值在不相关附近的Local Learnling方例，机器进修的结果获得改善，但存有数据库以此类推、数据库容量减小以及数据库个人信息、数据库安全及等层面的弊端。美国联邦进修方例常用公用给定链接负责催化和发给，其他当都由在结构上仍被保留。SL，省却公用链接，通过Swarm的网络构建给定，并且在各个数据流的私有数据库上分立协同工作假设。

四种机器进修方例比起

SL备有安全及必要措施措施以背书数据库主权，这由私人准许的区块链控制系统设计彻底解决问题。每个举例来说都有明确的定义，只有先行准许准许的举例来说才可以执行者买入。在此之后数据流加入是高效率的，有适当的准许必要措施措施来标记的网络举例来说。一新数据流通过区块链数值机控制系统签约注册，获取假设，并执行者假设的本地锻炼，究竟依赖于定义的联动先决条件。在此之后，假设给定通过Swarm系统设计程序编程终端（API）联动进行交换，并开始下一轮，原属创建者一个有着不够一新给定设置的不够一新假设。

在每个数据流，SL分为当软件控制系统和电脑系统。系统设计环境有数机器进修该平台、区块链和SLL。电脑系统则相关联假设，例如研究来自癌症、染上和COVID-19病症的肾脏特异性第三组数据库或辐射影像等获得的假设在结构上。

二、社都会性进修，源于自然的灵感

蚂蚁通过一种颇为特殊性的方例来找到肉类的踪迹：大幅度释放显露来食草哺乳动物。它们向社都会性的其他的民间第三组织发显露自己的信号，每只蚂蚁都从所有其他蚂蚁的经验当中进修，因此，每只蚂蚁都不够相近肉类来源。最终，社都会性根据有机体蚂蚁的反馈断定最佳方向上。类似地， Swarm Learning 让的网络上每个数据流联动进行本地进修，进修到的结果通过区块链搜集，并发送至给其他各个数据流。这个过程都会以此类推多次，慢慢大幅提高算例标记的网络每个数据流模式的意志力。Swarm Learning 的所有数据库都保留在本地，构建的只是算例和给定——从某种意义上说，就是经验。波恩大研习生命与自然科研习门研习教授 Joachim Schultze 重申：「 Swarm Learning 以一种大自然的方式依赖于了数据库必要措施的尽太快。」

三、锻炼采样下降50%时，SL耐用性仍胜于

研究共展示了四个与此相关：

与此相关一是，常用12000多位病症的外周血单个核细胞（PBMC）特异性第三组数据库看成的三个数据库集（A1-A3，有数两种多种类型的脱氧核糖核酸和RNA测序），以及默认设置的周内深度神经的网络算例来联动进行的测试。

针对每个虚幻片中，采样被分成不以此类推的锻炼数据库集和一个全局的测试数据库集，用作的测试在单个数据流上SL创建者的假设。锻炼数据库集以并不大致相同的地理分布方式被“隔离”在每个Swarm数据流上，来各种多种类型药理学医护上的相关片中。

急性脾细胞癌症（AML）病症的采样作为个案（cases），其他所有采样作为对照第三组（controls）。各种多种类型当中的每个数据流，都可以代表者一个医护当教育中心、一个医院的网络、一个国家或任何其他分立的民间第三组织，这些民间第三组织都会转换成有个人信息尽太快的本地医护数据库。

SL测定癌症

首先，把个案和对照第三组不分量的地理分布到数据流（数据库集A2）和数据流上，见到SL结果远胜单个数据流的耐用性。在这种前提，当教育中心假设的展现只能大略好于SL。常用数据库集A1和A3的测试值得注意有颇为雷同的结果，这强烈背书了SL耐用性的大幅提高跟数据库搜集或者数据库转换成控制系统设计（脱氧核糖核酸或RNA测序）无关的看法。

另外五个片中值得注意在数据库集A1-A3上联动进行了的测试：（1）在的测试数据流常用一般来说的采样，其个案和对照第三组%-与第一个片中当中的雷同；（2）常用一般来说的采样，但将来自特定药理学研究的采样分开，使锻炼数据流和数据流两者之间有并不大致相同的个案和对照第三组%-：（3）减小每个锻炼数据流的采样大小；（4）在公用锻炼数据流常用并不大致相同控制系统设计转换成的孤立采样；（5）常用并不大致相同的RNA-seq控制系统设计。在这些片中当中，SL的展现都远胜单数据流耐用性，并且相近或者和当教育中心假设耐用性大致相同。

急性细胞都会癌症（ALL）病症的采样值得注意在这几个片中下联动进行了的测试，将检验仅限于扩展至以四种癌症多种类型集中于的多类弊端。

与此相关二是，用SL从肾脏特异性第三组数据库当中标记染上病症。

基于染上采样，将个案和对照第三组%-一般来说在各数据流当中。结果显示，在这些先决条件下，SL的耐用性远胜单数据流耐用性，并且展现大略好于当都由假设。研究只能对活动性染上联动进行检验。将潜伏受到感染的染上病症作为对照第三组，采样和对照第三组保持一般来说，但下降用作锻炼的采样数目。在这些不够具挑战性的先决条件下，虽然SL既有耐用性稍稍下降，但是SL耐用性依然远胜任何单数据流耐用性。

锻炼采样下降50%时，SL依然远胜单数据流耐用性，不过这时单数据流和SL耐用性都比起低。然而与一般先决条件下的辨别结果一致，SL耐用性与当教育中心假设比起相近：锻炼数据库减小时人工数值机控制系统的展现不够好。将三个数据流的锻炼数据库分成六个更大数据流时都会下降每个数据流的耐用性，但是利用SL转换成的结果并无法变差。

SL测定染上

由于染上有着各地区特征，染上采样可以用来各种多种类型潜在爆发的情景，以便断定SL的劣势和潜在受到限制，进而研究断定如何彻底解决这些弊端。

由数据流各种多种类型的三个分立区域仍然稍稍需的但并不大致相同数目的个案采样，在这种前提，SL的结果几乎和此前无法什么变化。而与此相关和对照第三组多于的数据流耐用性相对来说下降。的测试数据流的与此相关%-下降引致数据流耐用性变差。

与此相关三是，常用一个大型的公开场合颈部X射线图表数据库集来彻底解决多类预期弊端。SL在预期所有辐射研习见到（肺积水、渗显露、浸润和无见到）层面远胜每个数据流的耐用性，这得显露结论SL也限于作非特异性第三组数据库系统设计领域。

与此相关四，提问了SL前提可以用作测定COVID-19病症。虽然不一定COVID-19是常用基于PCR的测定方例来测定流感病毒RNA。但在病原体未知、特定病原体测定尚不显然、现有测定显然转换成假阴性结果等前提，评估特定肠道反应显然是有益的，而研究肾脏特异性第三组有效地认识到肠道的免疫反应。

SL测定COVID-19

作者通过在北美招揽不够多的医护当教育中心来获取数据库，这些当教育中心在年纪、性别歧视和压制病因的以往上有并不大致相同的病症地理分布，由此转换成了八个除此以外特定当都由姪数据库集。

SL可以应对性别歧视、年纪或双重受到感染等偏差，并在辨别轻度和重度COVID-19病症时，SL的展现远胜单数据流耐用性。证据得显露结论，来自COVID-19病症的肾脏特异性第三组代表者了一个可以系统设计SL的特定系统设计领域。

四、SL前景广阔，加速世界各地精准医护协同工作

随着各方都在追捧如何扩大数据库个人信息和安全及弊端以及下降数据库容量和以此类推，去当教育实体的数据库假设将视为彻底解决问题、读取、管理和研究任何多种类型的大型医护数据库集的首选方例。

得益于研习层面，基于机器进修的测定、共通点研究和结果预期都取得了全面性成功，但是其令人满意受到数据库集规模有限的不利于，现在的个人信息例规使得开发设计集当中式人工数值机控制系统控制系统的说服力下降。

SL作为一种去当教育实体的进修控制系统，过渡到了也就是说跨越部门自然科研习研究当中数据库构建的实例。

对于尝试毁损Swarm的网络的人，SL的区块链控制系统设计备有了强有力的应对必要措施措施。SL通过设计备有了也就是说上的机器进修，可以继承差分个人信息算例、变数加密或加密公用进修方例层面的一新令人满意。

世界各地协同工作和数据库构建颇为极为重要，并且SL在这两个层面存有固有劣势，并且不够大的劣势是不须要数据库构建而直接转换成知识构建，从而彻底解决问题几乎数据库也就是说上先决条件下的世界各地协同工作。

事实上，立例者重申的个人信息规则在再次发生大规模风行病时几乎限于。得益于此类危机当中，人工数值机控制系统控制系统须要遵守道德原则上并且尊重人权。像SL这样的控制系统——允许应有、粉红色和被高度税务的构建数据库研究同时必要措施数据库个人信息——将受到赞赏。

研究技术人员认为确实探求SL根据X射线图表或CT扫描结果、在结构上化卫生记录数据库或者来自于病因的可穿通讯设备数据库，来对COVID-19联动进行基于图表的检验。

SL用作特异性第三组研习（或其他自然科研习数据库）研究是颇为有前途的方例，可以在自然科研习系统设计领域的推广人工数值机控制系统的常用，同时大幅提高数据库移动性、个人信息和数据库必要措施以往，以及下降数据库容量。

五、世界各地流感背景下，期待SL缺少

这篇研究显然SL的耐用性的精准性。在世界各地流感长期持续的前提，流感病毒大幅度转换成在此之后变种，对于各国诊疗都是一种挑战。如果利用SL控制系统设计在数据库也就是说上的前提对世界各地相关的医护数据库联动进行构建研究，不够太快检验病况，显然对压制流感都会有极为重要努力。

数据库是人工数值机控制系统拓展的肾脏，但是数据库个人信息安全及的弊端日渐凸显。我们仍然知晓美国联邦进修控制系统设计能让数据库在脱敏的前提被彻底解决问题研究，现在，SL视为一种一新方例。它将通过地理分布式作法，为数据库安全及系统设计及人工数值机控制系统大型企业的拓展随之而来在此之后促成力。

Schultze 深信他们的科研成果将都会对世界各地以外的医护数据库构建转换成革一新。「我相信 Swarm Learning 可以极大地促成自然科研习研究和其他数据库驱动的研习门。现在的研究只是一次试运行。期望，我们想将这项控制系统设计系统设计作阿尔茨海默氏症和其他神经衰落性病因。」

惠普人工数值机控制系统副手控制系统设计其职兼高级总裁 Eng Lim Goh 博士也表示：「Swarm Learning 为自然科研习研究和商业合作开拓了在此之后机都会。关键是所有举例来说都可以相互进修，而不必构建军事机密数据库。」

上述具体内容来自机器之心，仁东西等