您的位置  时尚女人

对话中国信通院与7家医疗AI企业,第三方测评的意义与AI的未来发展

  • 来源:互联网
  • |
  • 2020-07-24
  • |
  • 0 条评论
  • |
  • |
  • T小字 T大字

  5年时间,对于医疗影像人工智能而言,已经走过了发展的初期,即技术验证阶段,但行业之初时显现的问题,不少至今依然存在。


  其一,由于缺乏足够丰富、有效的数据供企业训练,很多AI产品难以在临床之中表现出好的判别水平。问题的背后是数据标注的高成本与数据获取的高难度。至今为止,医疗数据的伦理问题尚未通过立法的方式进行解决,企业训练数据获取的方式仍难以规范。


  其二,受数据、算法限制,符合临床实际的多病种、多线程的AI仅少数企业能够一定程度实现,大量的AI产品能够解决单病种问题,但难以完全满足医生的实际需求。


  其三,缺乏统一的AI产品数据标准、测试平台、第三方数据库。在介绍产品准确度、敏感度指标时,企业往往只谈数字,而没谈获得数字的过程。若是拿着训练使用的数据库进行后续测评,好比学生参加自己出卷的考试,考出的结果有效性存疑。


  要从这些问题之中找到答案,不仅需要企业自身的努力,还需要政策予以支持。数年来,国药监局器审中心、中国信通院等机构一直为规范医疗AI不懈努力。本次世界人工智能大会之上公布的肺炎AI影像辅助诊断产品评测(下文简称“肺炎AI测评”)结果,便是中国信通院等机构为解决第三个问题开出的处方。


  评测技术构


  肺炎AI测评源于工信部科技司的指导,实际由中国信通院、中国人工智能产业发展联盟、医学人工智能研究与验证工信部重点实验室联合举行。这是一次创新式的、基于全封闭式独立沙箱监测环境的测评,从数据收集、标注,到后续的测试、评分,均在脱离企业的情况下进行,这保证了测评的公正性与权威性。


  中国信通院相关人士说:“沙箱环境意味着这是一个完全封闭的状态,过去的测评常常是将处理后的数据交给企业进行测试,而本次测试是由企业将AI 产品通过VPN进行单项部署,部署完成后我们会先关闭通道,再进行测试数据,所有测试数据从医院拷贝后均处于缓存状态,一经测试完毕,立即删除数据。”


  测评使用的每一个数据都进行了严格的筛选与勾画,以保证试验环境与真实世界的可比性。最终,整个数据库收集了上海公共卫生临床中心、武汉市中南医院、武汉市第三医院、杭州市第一人民医院、浙江大学附属第一医院、北京地坛医院、温州市中心医院7家新冠肺炎定点医疗机构,总计1000例测试数据。这1000例数据中,30.7%的数据来源于健康人群,36.2%的数据来源于新冠肺炎患者,33.1%的数据来源于非新冠肺炎。


智能CT影像诊断技术应用评测数据来源(数据来源于中国信通院)


各数据分布(数据来源于中国信通院)


  为了保证数据库与真实世界尽量符合,工作组在采集过程中充分考虑了采集设备和配置、数据多样化和病例分布三个维度指标。具体而言,非新冠肺炎数据库里包含了肺水肿、普通肺炎等多种数据,同时,考虑到鲁棒性和抗干扰因素,本次测评加入了实际临床中经常出现的70例非标准影像数据。


  后续的评测流程同样经过了深入的推敲。整个评测方案由功能审查、性能评测、专家评审三个方向进行。功能审查主要从软件质量入手,核查肺炎AI产品的可靠性、易用性、兼容性、功能完备性与系统安全性五个维度。性能评测则采用已标注测试数据进行可观察测试,对肺炎AI产品的临床诊断性能进行评价,其指标包括准确率、灵敏度、特异度和Kappa系数四个维度。专家评审则是邀请国内权威专家从产品体验性、实用性、产品创新性,以及合理性对产品进行评价,同时综合考虑创新性的特殊功能评价。



  最终,北京安德医智科技有限公司、上海联影智能医疗科技有限公司、上海依图医疗技术有限公司、上海深睿博联医疗科技有限公司、平安科技深圳有限公司、杭州健培科技有限公司、上海皓桦科技股份有限公司7家医疗AI企业的肺炎AI影像辅助诊断产品从参评的17家医疗AI公司中脱颖而出。


  总的来说,这次评测可谓是打破了之前医疗AI行业自说自话、各自为战的局面,这不仅是首次由官方举办的医疗AI影像辅助诊断产品的同台竞技,更是特殊历史时刻的“人工智能抗疫产品”测评,意义非同小可。


  测评结果分析


  “总体来看,国内部分人工智能企业的肺炎AI产品已达到较好水平,产品的功能已相对成熟和完善,有近1/3的产品在肺炎层面的准确率、灵敏度和特异度均在90%以上。部分产品在完善了基础功能的基础上逐步在开发一些对医生有重要辅助意义的特色创新功能,如传染性肺炎AI预警系统、智能示教功能等,也得到了医生权威专家的认可”。在分析了整个测评的结果后,中国信通院给出了上述结论。


  但从17家企业的实际得分来看,人工智能企业的产品性能优劣还是存在较大差异。此外,仅小部分产品实现了针对新冠肺炎的识别,对于病灶的定位精确度尚待进一步提升。小部分产品没有对肺炎进行有效分类,产品功能、性能的提升需要通过更多标注的数据进行训练。


  “性能测试部分是拉开差距的主要原因。”中国信通院相关负责人介绍,性能测试包含“是否肺炎”“是否新冠”“病灶位置”。根据测评结果显示,大部分企业产品都能较好地筛查出“是否肺炎”,但在“新冠肺炎鉴别诊断”方面,仅有3家企业准确率、灵敏度、特异度在80%以上,部分指标超过90%。


  “出现这一结果的原因是多样的,这是我们第一次启用沙箱环境测试,企业对我们的数据格式、测试环境等因素不太熟悉造成了一定操作上的失误。有的企业在测试过程中会出现一些故障,比如软件突然Down掉了,导致后续的数据测不出来,而进行补充测试时,模型可能已经出现了一定偏移。对于这些情况,我们通常给予了操作失误的企业重新测评的机会,但更为重要的原因还是在于训练数据与技术积累。”


  “从时间维度上讲,三个月左右的疫情期,企业不太容易拿到数量充分的数据,也没用充分的时间训练,加之后续的标注流程可能存在问题,种种原因造成很多企业测评结果不佳。相比之下,有的企业技术积累较丰富、训练数据量较大,后续的测评结果也就越好,这是一个客观原因。”


  “从更宏观的维度上讲,很多企业为了迅速实现商业化,会对产品功能进行一些调整,使其能够尽快完成器械准入审批,实现商业化。”这一激励机制下,企业或许会对AI产品进行了一定程度的简化。但测评并非审批,人工智能企业得以立足的关键还是需要做出符合医生实际临床需求的产品。


  如何建立面向未来的医疗AI?


  为了进一步了解本次测评的实际情况,并从中归纳经验,本次获得前7佳绩的人工智能企业对话交流,共同探寻AI的未来发展方向。


  >>>>关于本次测评


  Q:从企业的角度来看,必须做好哪些工作才能保证AI的性能,有效通过测试?


  联影智能詹翊强:由于本次测试的数据既包含了新冠肺炎的数据,也包含了非新冠肺炎的数据。因此,我们的思路是以已有的肺炎AI产品为基础补充新冠肺炎的辅助诊断功能。


  新冠肺炎的数据本身不多,这便对标注过程提出了新的要求。在这一过程中,我们采用了“人在回路”的标注方式,由医生和专家团队对小部分新冠肺炎数据进行标注,让算法对这一部分内容进行学习,得到一个初始版模型。虽然这个初始版的模型性能欠佳,但在逐渐添加新数据的情况下,它将逐渐变得成熟。


  分割环节则用到了联影智能自主研发的分割引擎,这一AI引擎能够对病灶本身进行分割,对肺段和肺叶进行分割。这个分割过程实际上完成了两件事,一是判断是否存在病灶,二是通过分割病灶可获得大量定量数据,我们能够计算每一个肺段病灶区的感染比例,从而判断患者病情的轻重。在当时医疗资源紧张的武汉,这项功能能够有效辅助资源的最有分配。


  因此,要保证新冠AI产品的质量,一是要高效的标注手段,二是要创新性的AI算法,三是要与医生进行深入沟通。


  安德医智李晶珏:新冠肺炎和非新新冠肺炎的CT影像之间有很多重叠性,也有明显特异性。我们的AI在进行学习时,一定要明确这一数据的病原学情况,分清这个患者是不是新冠?如果不是新冠,那么我们会一定确认它到底是细菌肺炎,甲流还是乙流。因此,对于这样包含数据维度较为宽泛的数据库,我们的训练方法为我们争取到了很大的优势。


  皓桦科技周英:长期的经验积累是必要的,举个例子,平常医生诊断时难以判断甲流、乙流,我们是能够通过AI解决这些问题,并通过多中心临床试验进行验证的。在新冠之后,我们有幸拿到了较多的新冠数据,进一步强化了自己的产品,这可能是我们相对于部分企业的一个优势。


  依图医疗石磊:产品设计、研发、内部测试、外部验证,还有对于数据的标注、专家内部产品训练、专家的业务理解……AI性能是多因素合力结果。在此次疫情对企业是个考验,各企业必须有能力在短时间内,先借助较小样本数据研发产品,并满足产品在多家医院使用的泛化性,这需要企业的综合能力,是由企业多年经验积累而来的。这也同样说明,本次仅有部分企业通过测试,性能拉开了一定差距,只是冰山一角,而水面之下的部分,是企业的真正实力展现。


  Q:训练新冠肺炎AI算法用了多少数据?


  深睿医疗李一鸣:肺炎数据是数万例。


  安德医智李晶珏:有核酸金标准的数据1万例左右,没有核酸金标准的数据2万例左右。


  皓桦科技周英:5000例非新冠肺炎数据,1000例新冠肺炎数据。


  Q:信通院曾表示,在材料审查时,新冠肺炎数据训练数据量大的企业往往结果会相对好一些,怎样看待数据量与AI结果的关系?


  深睿医疗李一鸣:数据的量虽然重要,但并非决定性因素。一个AI产品的开发,除了训练数据,还有核心的算法模型以及测试与临床验证。此外,在训练新冠AI时,我们更多地是在对已有产品进行强化。单纯从征象角度而言,新冠肺炎与传统肺炎的差异并没有那么大,但它会有一些其他的辅助信息需要我们注意,这也是我们模型调整的重点所在。


  联影智能詹翊强:数据量对于新冠AI算法的训练非常重要,其次则是数据的来源。武汉的疫情比较严重,如果我们所有的训练数据都来自于武汉,那么训练后的AI可能更多偏向于重症患者。因此,我们会近况考虑到不同地域的不同数据收集,这样才能有效提高AI产品的可靠性。


  依图医疗石磊:数据量是影响性能的因素之一,数据的质量、标注的质量、模型的设计、训练等都是重要的影响因素,每个环节都要做好,才能获得优异的性能。所以AI产品的准确率与数据量有关,但不能简单理解为拥有大量数据就能获得优异的AI结果。


  安德医智李晶珏:好的AI离不开泛化性与大数据支持。实验室的结果与实战结果存在差异,这说明AI泛化性不足,这个问题于人工智能而言就像一块牛皮藓,很难解决,却也必须解决。解决的方法倒也不难,AI企业需要把不同厂家设备、不同型号、不同CT层厚的数据作为训练数据进行训练,这里需要投入大量的时间。再说大数据支持,这是许多企业AI不能表现出好结果的根本原因,人工智能来源于大数据,不与有效的大数据结合,基本上出不了好结果,数据的量与质必须严控。


  Q:企业在落地医院之中往往会面临一个新的环境,本次沙箱环境下的检验也是如此。为了保证AI产品在落地的第一时间就能表现出较好的准确性、敏感度和特异度,企业应该怎样应对?


  深睿医疗李一鸣:这其实是一个经验问题。进入医院后,我们会遇见不同的PACS系统或是影像设备,这一问题在深睿医疗产品落地的早期确实存在。但经过数百家医院的实战,我们如今已经积累了10余种跟PACS对接的方案,这些方案都为我们的AI影像平台所支持,只需要在配置项上进行适当勾选即可。如果影像设备更标准,对接也更容易,相关的标准协议我们在AI开发时便已经准备就绪。


  依图医疗石磊:AI产品想要在医院实际发挥作用,需要经历多方面考验,首先是能够与医院已有的系统稳定的对接,很多医院的信息化系统较为复杂,如果企业没有经验,甚至在这个环节都可能面临困难。AI产品需要兼容不同设备产生数据,如果AI的泛化能力不足,不同拍摄条件下产生的细微差别,都有可能影响AI的能力。所以,企业在进行AI研发时,要充分考虑数据的训练方法、数据来源的多样性,并对于一些特殊情况进行针对性的设计和训练。


  第二个难题是当AI进入系统后,对于不同设备产生数据、不同地域数据在拍摄条件上产生的细微差别把控不足时,就容易出现判别结果不佳的问题。所以,企业在进行算法训练时,要充分考虑数据的训练方法、数据来源的多样性,并对于某些极端情况进行一些稳定性的设计。


  平安科技黄凌云:我们对待这个问题的认识不外乎三点,一是需要从临床实际需求、业务场景流程和已有技术积累出发,帮助医护人员和医疗机构做好三提两降,提效益提效果提体验,降成本降风险。


  二是创新:要勇于进行技术创新,比如新冠肺炎中对于病肺和病态肺叶的分割难点、以及初始条件下数据量和精准标注不足的问题;我们尝试了在腹部CT病态器官中行之有效的新的分割网络,以及迁移学习和人机结合半自动标注等新的方法,指标有了很好的提升。


  三要做好项目管理,功能和性能测评针对的是一整个肺炎系统的体系,需要从算法到产品设计到交互等不同方面的工作人员相互配合,形成一个有机的整体,才能呈现最佳的产品效果。


  Q: 信通院的结论之中提到了“系统可靠性需要进一步提升”,企业应该如何提高产品的可靠性?


  健培科技周彬波:系统可靠性分为两种,一是软件本身的可靠性,它是否能够在长期的运行中保证无故障。二是诊断结果的可靠性,是否能够保证在长时间使用过程中保持的高准确度,在不同设备之间保证结果的一致性。在研发软件时,企业需要提前根据质量管理体系在需求阶段、研发阶段、测试阶段进行质量把控。


  平安科技黄凌云:有两个层面的考虑,一个从算法表现上来看,为了提升系统可靠性,我们应该进行多中心和多模态多品牌数据训练,并采用domain adaption等研究领域中的有效算法,提升系统的鲁棒性;另一个是从系统运行角度来看,我们要设计好软件系统架构,从产品设计阶段开始,对并发量、待处理数据排序、并行运算稳定性做好规划,并严格按照软件开发流程规范进行。


  Q: 怎么看待创新分较低这一选项?


  平安科技黄凌云:本次测评的创新分普遍较低,就我个人理解,大部分公司产品集中在肺炎病灶分割和定量测量等方面,医生对于这批产品的功能感觉比较雷同,希望能有更多突破。但临床的突破创新需要一定时间,随着我们对于新冠数据更加系统化和结构化的整理,采用人工智能技术对疾病转归预测等新的功能有深入挖掘,相信会对临床起到更多的帮助作用。


  此外,企业要强调创新,不能因循守旧,医疗AI解决的是一些医疗流程中的痼疾,但是要从新的视角切入,和新的算法流程表达; 同时AI学习训练方法上不能简单地认为用大体量标注深度学习就能解决,这样是很难规模化的。需要综合考虑研发时间和人力资源成本和系统性能,要用方法上的本质创新来优化学习流程,并提高最后AI系统的精度和泛化能力。


  >>>>关于未来发展


  Q:怎样看待未来审批发展?


  深睿医疗李一鸣:在这一个时点上,国家对于AI产品的审批给予了政策与资金上的大力支持,但在产品同质化较为严重的今天,第一个同类产品的获批必然面临更为严格的审核。等到这一类产品的认证陆续出现后,还需要解决的便是创新软件更新迭代过程的报批问题,总不能一个产品来回审个7-8回吧?


  我个人认为未来的AI产品审批流程会有一个更为科学和适用的测试方案,在保证AI安全、有效的前提下,保证产品的更新与迭代,为企业和检验机构都节省大量的成本与精力。


  健培科技周彬波:从注册角度来说,现在面临最大的问题在于注册周期实在太长了。从我们开始准备做三类注册,到现在差不多花费了两年多的时间,我们AI产品的核心已经经历了非常多次的迭代,传统器械的审批流程真的不适用于创新企业的审批。


  但是从这两年开始,器审中心、信通院等机构的介入正在建立第三方的测评平台以及测评数据库,如果这个测评结果可以被公认,那对于企业而言,可以节省非常多的时间,如果每一更新都需企业去设计临床试验,它的时间跨度太长了。


  Q:医疗人工智能发展至今有多年,为什么直到今年才陆续建立第三方测评标准、第三方测评数据库?


  依图医疗石磊:这一轮医疗人工智能行业发展已有几年,但从绝对时间上来说,AI作为一个新技术切入发展成熟的医疗领域,三四年时间还是偏短的。即便是在今天,AI产品仍在以日新月异的形态、种类和丰富多样的落地形态和原有的医疗生态相结合,说明这个行业具有非常强的创新性,和无限生命力。


  但是这也意味着行业认知的成熟和行业标准的建立不能一撮而就,需要逐步完成。 这几年中,中检院、信通院等机构开始牵头建立数据标准与第三方数据库,有助于行业长期发展。医疗AI领域正逐渐规范起来,从时间上来说,并不晚。


  健培科技程国华:2016年,AlphaGo与围棋大师的博弈掀起了公众对于AI的狂热潮,也正是这个时候,一大批企业在此扎根。


  随后的医疗人工智能经历了一个百家争鸣的过程,接着是循序渐进的认知统一。对于一项新兴技术而言,4年算不上长。


  在这个期间,其实也有很多企业、机构想要成为制定标准的人,但在共识之前,这样的标准几乎得不到其他人的认可。大家各自有各自的想法,包括今天要建什么样的数据库?今天要建什么样的标准?哪一个数据库和标准先建?哪一个后建?大家都有各自的考量。


  因此,从今年信通院、协和医院等机构开始介入建立数据标准与第三方数据库,这实际也是长期考量的结果,也意味着过去混沌的认知正在统一,新的生态意识与认知正在达成一致。这是一件让人欣慰的事,AI领域正因这些动作逐渐规范起来,而这个时间点,并不晚。此外,随着三类证的逐步获批,时间已经成熟。


  Q: 医疗影像AI的未来将走像何方?


  联影智能詹翊强:很难描述未来的AI具体是怎样的,但联影智能发展路径至少是朝着它理想中的未来发展的,这里有两条思考可供参考。


  一是从病种出发,解决单一科室的问题。以脑卒中为例,首先要判断患者是出血还是缺血,若是出血,其次要判断是否造成了中线偏移,那么下一步就该指导患者做一个CT灌注,看看实际评分指数。总而言之,疾病的种类很多,但如今AI能够处理的病种很少,我们正一个一个地攻克最为值得攻克的疾病问题。


  二是从部位出发,实现一次胸部 CT 扫描,AI 辅助筛查肺结节、肺炎、肋骨骨折、食道癌、淋巴结等多疾病。影像学上有一个说法叫Incidental finding。打个比方,骨科医生在看患者的胸部CT时,却发现CT上有一个疑似病灶,经进一步确认和发现这是肿瘤。这便是Incidental finding,也是联影智能将骨折检测、肿瘤检测等功能放在一起的原因。


  人们在处理事件的时候往往会产生主观偏移,如果是骨科医生接待患者,他的重点便放在了患者是否发生骨折这个点上,这时就容易漏掉一些肺部的病灶。AI的优势便在于此,没有心理上的预设,它能够及时地找到Incidental finding,通过单一影像找到更多信息,从这个角度出发,我们能够发掘AI更为深远的价值。


  安德医智李晶珏:公共卫生的防控是未来AI影像发展的一个重要方向。对于影像科医生而言,识别肺炎是人家的基本职业素质,但到了新冠就不一样。如果是让武汉大医院的医生去看新冠的CT,他可能一眼就看出来,但若放在许多疫情不严重的城市,那么这些医生可能就不能一眼识别出新冠与否。这是AI作用的第一步,即分清新冠与非新冠。


  进一步,在分清新冠与非新冠后,医生要进一步确认肺炎的种类,这对于医生是个更大的挑战,也是AI的价值所在。特别是在基层,如果AI能够帮助医生进行一个初步的判断,从而有的放矢地对疑似患者进行进一步的病原学检测,能够对防疫体系起到很大的帮助。


  这也是新基建提及医疗AI的重要原因之一,当出现新的流行性病毒时,AI虽然不能直接判断新病毒的种类,但通过过去的学习,AI会给出不同于已训练种类的输出,即“其他肺炎”,给予提示,取得监测者的重视。因此,AI将是未来公卫防控体系建设的重要力量。(赵泓维)


免责声明:本站所有信息均搜集自互联网,并不代表本站观点,本站不对其真实合法性负责。如有信息侵犯了您的权益,请告知,本站将立刻处理。联系QQ:1640731186
友荐云推荐
网站推荐更多>>
热网推荐更多>>