国内首款医疗大语言模型MedGPT发布 AI医生离我们还有多远？

最新信息

2023-05-26 15:20:00

5月25日，互联网医疗公司医联正式发布了其自主研发的医疗大语言模型——MedGPT。该系统是基于Transformer模型架构研发的，系国内首款医疗大语言模型。即国内“首位AI 医生”。
　　当前，这位AI医生具有两方面的能力。一是问诊，这也是这款MedGPT的基础能力。如果要用疾病数量来描绘这种能力的强弱，医联此前的表述是，其MedGPT已经拥有近3000种疾病的首诊能力，覆盖80%以上的成年人疾病和90%以上的0-12岁儿科疾病。
　　另一方面，除了问诊，医联的这款MedGPT目标功能也包括疾病预防、治疗、康复等各个流程的智能化诊疗。这也是医联这款产品和同类产品相比的核心差异。也就是，不仅仅做问诊。
　　从技术的角度看，医联的MedGPT开放了众多接口，以支撑其能够实现多模块运行。王磊透露，医联MedGPT应用平台整合超过了1000多种医疗模块。具体到实践，在问诊环节结束之后，MedGPT会给患者开具医学检查项目，以进一步明确病情。患者则可以通过医联云检验等多模态能力进行检查。而在诊断后的治疗环节，患者也可以通过医联互联网医院实现送药到家。此外，MedGPT还会在患者收到药品后主动为患者进行用药指导与管理、智能随访复诊、康复指导等。
　　而历经这一系列环节，实际也是将医联的医疗资源储备调动了起来，并为其连接线下线上资源、开展行业合作奠定了基础。医联成立于2014年，是国内领先的互联网医院之一，线上医疗资源覆盖诸多科室，线下则依托未来医生的门店布局，拥有全科中心、专科中心、企业医务室、社康等多种业态，且业务覆盖全国多个城市。
　　医联MedGPT项目负责人王磊还表示，医联的MedGPT能和数字疗法衔接。其在发言中举例，当患者家长问“小朋友的意力不集中，我该怎么办？有没有相关治疗办法？”的时候，就可以在医联的MedGPT平台接入数字疗法插件，而其应用中也包括注意力不集中测试的数字疗法工具。
　　不过，这位AI医生想真正实现给人看病，目前看还有一段路要走。
　　首当其冲的是法规上的障碍，国内《互联网诊疗管理办法》明确规定，“不得对首诊患者开展互联网诊疗活动。”这也意味着，首诊红线之下，MedGPT及其同类产品的应用都存在实际限制。
　　这种限制是来源于，当前法规之内，首诊需要有线下医疗机构真人面诊，不能发生在虚拟的互联网线上，那么，基于互联网开展的人工智能诊断更不可能被允许。也就是，如果有患者被AI医生首诊了，这种情况肯定不是合规的。
　　这样的影响在于，若是想合规，就只能是复诊。但是这也意味着，如果患者在线下已经去过医院、做过化验、开过药方也拿到药了，则其再去线上找AI医生问诊的必要性可能也不存在了。
　　同时，基于复诊模式的AI医生和当前互联网医院提供的在线复诊处方业务，本质没有区别；在业务模式上，除了卖药和给予康复关怀，无法将线下或是实体的检验检测设备和资源关联起来，也提升了将业务起点延申至诊前或是预防环节的难度；而在业务范围上，想要突破慢病管理这种基于长期服药管理的疾病领域，也很难。
　　并且，失去首诊场景，AI医生给予的话语，与其说是诊断结论，不如说是参考建议，则其医疗权威性和引导患者下一阶段行动的可能性会大打折扣。最终，AI医生只能沦为虚名。另一方面，从开发AI医生的公司角度而言，无论是基于合规考虑，还是基于商业投入产出考虑，向公众大规模开放使用AI医生的时机也还没有到。
　　在5月25日的产品发布会上王磊也明确表示，由于现在医疗类大语言模型不能轻易发布，直至得到国家政策允许，MedGPT都不会向公众开放，该产品现阶段也仅用于学术研究。
　　虽然不对公众开放，但医疗诊断的准确性要求不会降低，而这也是AI医疗所面临的最核心问题。
　　在AI医疗领域，哈佛医学院数据科学家Kun-Hsing Yu的一句——“AI的一些医疗决策，实际上就是抛硬币”，曾让行业心有余悸。这位科学家的发言，质疑的是AI医疗模型很容易产生随机的判断，但医学诊断的准确性显然不能建立在概率之上。
　　并且，当前仍有大量AI医疗模型在实验过程中暴露出容易产生漏诊或是带偏见的诊断结果。例如，2021年，名为Epic Sepsis Model的医疗诊断模型被曝出严重漏检问题。该模型用于败血症筛查，通过识别病人早期患病特征检测，但密歇根大学医学院研究者通过分析了2.77万人的就诊情况发现，该模型未能识别67%败血症病患。此后，该公司对模型进行了大调整。
　　在发布会上，针对这方面的顾虑，王磊给出的答案是——MedGPT是一位善于提问的AI医生，它能够通过多轮问诊，引导患者收集足够的诊断决策因，再进到诊断环节，从而保证准确性。
　　王磊表示，这些决策因子包括症状类、病史类、检验检查类等等。通俗理解就是，医联的MedGPT能够连续问诊。具体而言，“患者一定回答了很多问题，MedGPT才会往下继续，MedGPT是不会轻易的给出诊断。提问例如，你以前得过什么病？得了多久？怎么治疗？治疗效果怎么样？” ，王磊说到。
　　之所以能形成这样“细致问诊的习惯”，是因为MedGPT经历了大量训练，训练的系统不仅仅有大语言模型，还有系列程调优技术以及医学致性校验技术。同时，在这个微调训练阶段，医联采量真实医参与监督微调，希望提升模型的疾病特征判断与模式识别能，确保医疗准确性。
　　王磊在发言中提及，在MedGPT的开发过程中，医联项目内部建立了“医联医学专家系统”，它是一个多维度的诊疗评价体系，包括评价问诊的准确率、效率、全面性、错误率、风险提示程度等；而MedGPT模型的每一次回答都会经过该医学专家系统校验，只有符合预期才能输出，没有符合预期就会让其重新作答，直到其达到要求，就好像AI医生在给出答案时身后有临床医生在时刻关注着。
　　并且，医联方面表示，公司也会让真实的临床医生和医疗专家浏览MedGPT的诊断过程，发现错误，就会给它修改校正，通过大量的输入和校正，来提升准确程度和问诊效率。同时，这也涉及到问诊效率问题。例如，如果一次问诊，通常只用10分钟就能问完，患者跟AI医生问诊开展了半小时，明显说明它效率极低，这也需要调整。
　　不过，考虑到每位病人病情的独特性，无论是AI还是人类医生，都很难完全按照诊疗规范进行病情判断，在一些罕见情况下更是如此，而此时一些资深专家医生的经验判断就成为了重要的因素，而这也是未来AI医疗要重点突破的地方。
　　无论是医联项目内部建立的“医联医学专家系统”还是给MedGPT做校正工作的医生、专家，都体现了在AI医疗应用开发阶段，真实临床经验的重要性。因为，医生和专家的诊疗经验往往能比书面诊疗标准更“一针见血”。如果AI诊断类产品仅仅是依据诊疗标准“照葫芦画瓢”反向设计问询环节，在遇到非典型症状或是较强的个体差异时，误诊风险会提升。因此，AI诊断类产品需要和医生、专家一起讨论开发。
　　而具体到开发涉及的数据量，据医联提供的材料，MedGPT在预训练阶段，已经使超20亿的医学文本数据；微调训练阶段，使约800万条的高质量结构化临床诊疗数据；开发过程中，投超100名医参与反馈监督微调训练。
　　当前，医联仍在加速MedGPT的研发。截至目前，医联MedGPT已经可以覆盖ICD10（指《疾病和有关健康问题的国际统计分类（第10次修订本）》）中60%的疾病病种，预计在2023年底可覆盖80%病种的就诊需求。王磊介绍，面对海量疾病，医联MedGPT的开发思路是为优先解决常见病，以提升应用的普惠能力。
　　就MedGPT的后续开发计划，王磊介绍称，很希望和医疗、医学领域的专家一起建立AI诊疗的标准建设，年底，团队还会招募患者参与临床试验，并和医疗机构开展合作。
（文章来源：界面新闻）

免责申明： 本站部分内容转载自国内知名媒体，如有侵权请联系客服删除。