【华安医药】医疗AI专题报告（二）：专业性与实用性兼备，ChatGPT类聊天AI在医疗端的使用报告

市场资讯 2023.04.28 08:46

转自：谭谈Health

【华安证券医药团队】2023年4月27日发布【17页】医疗AI专题报告（二）：《专业性与实用性兼备，ChatGPT类聊天AI在医疗端的使用报告》，欢迎与我们交流。

作者：谭国超

SAC:S0010521120002

分析师：李昌幸

SAC:S0010522070002

l ChatGPT医学领域表现杰出，专业性凸显

ChatGPT是一个交互式人工智能模型，在医学领域，ChatGPT可以用于辅助医生进行疾病诊断、医疗保健管理等方面。从文献上可以看出，ChatGPT专业性是有保障的。1.具备合格的医学水平，GPT-4针对USMLE的测试准确率高达78.63%，能够对患者的医疗咨询问题提供准确的回复。2.ChatGPT能够处理多科室的复杂病例，克服了不同科室之间的专业壁垒。3.ChatGPT在使用上没有时间和空间的限制，回复速度快，内容丰富，患者满意度较高。

诚然，我们也应该注意到相关的劣势，仍存在可提升的空间。目前ChatGPT在针对中国地区的医疗问题时，回复准确性还未达到最佳性能，存在继续开发空间。此外，ChatGPT存在提供误导性错误答案的可能性。最后，由于ChatGPT无法获取医学影像信息，其提出的建议可能存在局限性。

l 实用性测试：各类聊天AI达到实用级别，回复相对准确，还兼具患者安抚性

目前已进入市场的三种不同的主流AI交互软件是ChatGPT（Open AI），New Bing（Microsoft），文心一言（百度）。其中ChatGPT包含GPT-3.5 和GPT-4两种模式，New Bing（精准，平衡和创造三种模式）。因此我们用病例作为测试，以此来真实还原患者咨询场景。我们选取的常见的高血压，选取一个网上的病例作为样本，分别将病例输入到各模型，并结合指南和医生意见做对比分析。

综合测试结果，各模型都有优劣，其中ChatGPT4.0表现亮眼。

l ChatGPT4.0：GPT-4建议跟随原医生诊断用药，同时向患者建议要长期监测血压和尿酸，并通过改变生活模式的方式来降低血压。此外GPT-4提供的建议更具可读性，建议内容与医生基本一致，且建议内容更多，对患者的安抚性会更强，基本达到医生水平。

l GPT-3.5和文心一言均建议患者通过药物控制高血压，在此之外GPT-3.5也在生活习惯方面给到来患者建议。

l 相较于其它的AI交互软件，New Bing并没有直接给出诊断建议，而是通过搜索根据互联网已有信息对患者的情况进行分析，并且提供了相关信息来源。

l 应用场景：AI使C端医疗可及性大大提升，有望带来互联网医疗、基层医疗服务质量升级

从以上两章可以得出结论，ChatGPT类聊天AI在医疗端是兼具专业性与实用性的。

l 专业性上，ChatGPT4.0的论文测试显示其在各地区考试中都能获得良好的成绩，并且综合性和专科性医学问题都有良好表现。可以说是初步具备合格的医疗水平，并且随着影像/检验数据分析的迭代升级，提升空间巨大。

l 实用性上，从我们测试的高血压患者病例中可以看到，主流的几款聊天AI，无论是ChatGPT、Newbing还是文心一言，都能够对患者做出相应的指导，并提示最终需要临床医生指导。但对于一般患者而言，医疗的可及性大大增加，因为其操作的方便性，使用体验也大幅升级。

l 投资建议

诚然，目前ChatGPT类聊天AI在医疗应用端仍在探索阶段，并不能替代医生的诊断，但前景值得期待的。我们认为，随着人工智能技术的不断发展， AI技术在帮助提高医疗服务的可及性和质量上是明显的，为患者提供更加便捷、高效、精准的医疗服务。可以预见的，互联网医疗和基层（包括药店服务）医疗服务质量在AI辅助下将得到显著提升。

相关标的：

互联网医疗：京东健康、阿里健康、平安好医生、思派健康、智云健康、叮当健康等；

基层医疗（包括药店服务）：润达医疗（检验数据）、健麾信息（基层医疗建设）、益丰药房、大参林、老百姓、一心堂、漱玉平民、健之佳等。

行业政策不及预期，产品迭代不及预期，研发进展不及预期。

*本文涉及的医疗结果仅作为测试，非医疗建议，具体病症请咨询医生。

主要内容

1 ChatGPT医学领域表现杰出，专业性凸显

ChatGPT是一个交互式人工智能模型，在医学中被广泛应用。ChatGPT是由OpenAI在2022年11月30日发布的一种基于GPT-3.5架构的大型自然语言处理模型，其参数量高达1.75万亿，被广泛应用于对话生成、文本摘要、机器翻译、问答系统等自然语言处理任务中。

在医学领域，ChatGPT可以用于辅助医生进行疾病诊断、医疗保健管理等方面。例如，可以利用ChatGPT生成自然语言文本，从而帮助医生快速生成医学报告和病历记录。此外，ChatGPT还可以用于自然语言问答系统，帮助医生和患者解答医疗相关问题。

1.1 ChatGPT具备合格的医学水平

GPT-4医学能力卓越，USMLE准确率78.63%优于GPT-3.5。根据微软和Open AI于2023年3月20日共同发布的《Capabilities of GPT-4 on Medical Challenge Problems》一文展示，GPT-4在医学领域表现出卓越的能力。该项测试中，GPT-4针对MedQA题库中的美国医师执业资格考试（United States Medical Licensing Examination，USMLE）试题，准确率高达78.63%，明显优于GPT-3.5的47.05%准确率。这意味着GPT-4在医学性能上有显著提升，并且GPT-4优于平均水平（60%）。这进一步证明了ChatGPT在医学领域的卓越表现。

针对中国地区的医学问题，目前人工智能交互软件的表现尚未达到最佳水平，还存在提升空间。微软和Open AI针对MedQA数据集中的3426道中国大陆试题、1413道中国台湾试题和1273道美国试题进行了测试。测试结果显示，针对中国大陆试题，GPT-4的准确率为75.31%，GPT-3.5的准确率为40.31%。根据2022年执业医师考试的分数线360分，60%的正确率即可通过该考试。因此，GPT-4已经具备合格的医学水平，但GPT-3.5仍需改进。需要注意的是，GPT-4和GPT-3.5在中国大陆的表现仍未达到最佳水平，相较于美国和中国台湾的测试，准确率仍有5%-10%的提升空间。因此，未来这类人工智能技术的交互软件还需针对中国地区的医疗进一步开发，以更好地服务于中国的医学领域。

1.2 ChatGPT可以解决综合学科医学问题，但在针对单学科问题时的表现更出色

ChatGPT聚焦单学科专业问题表现更佳。针对USMLE这一综合性医学考试，GPT-3.5和GPT-4的正确率分别为47.05%和78.63%。然而，当ChatGPT的测试聚焦到某个具体医学学科，例如医学遗传学或解剖学时，GPT-4的正确率平均比GPT-3.5提高了5%-10%。这表明GPT-4的医学基础更加扎实，针对综合性医学问题的处理能力更强。相较于医生，ChatGPT在医学领域的知识掌握没有科室壁垒。例如，当患者提及他们最近使用的药物或保健品时，医生可能无法立即了解该药物的具体情况。但是，ChatGPT不会受到这种限制。这也是ChatGPT与医生相比的主要优势之一。

GPT-3.5针对心血管疾病常见问题的回复有效。2022年12月发表的《Appropriateness of Cardiovascular Disease Prevention Recommendations Obtained From a Popular Online Chat-Based Artificial Intelligence Model》一文根据心血管疾病的临床经验制定了25个涉及基本预防概念的问题，包括危险因素，检查结果和用药信息咨询来测试GPT-3.5，最后由心脏病学临床医生来评价。

结果表明，GPT-3.5对心血管疾病相关问题回答的正确率出乎意料达到了84%（21/25），但是文中也针对部分可能会对患者有害的回答表示了担忧，例如人工智能模型在回答有关运动的问题时，坚定地推荐了锻炼心血管的运动，包括举重。

1.3 AI影像/检验数据分析或推动ChatGPT医学性能再提升

ChatGPT咨询医疗问题时，由于缺乏医学影像资料可能会影响ChatGPT回复的准确性。微软和Open AI的测试表明，在仅有文字的试题中，GPT-4的准确度高达89.51%，相较于图文试题（未提供图片）提高了近20%的准确度。因此，可以预见未来随着人工智能技术的不断发展，将有可能融入AI识别并分析影像、检验信息等技术，从而推动AI医疗咨询领域的发展。

1.4 小结：ChatGPT初步具有医疗专业性，优化空间

ChatGPT在医疗行业中的应用具有明显的优势。首先，ChatGPT具备合格的医学素养，能够对患者的医疗咨询问题提供准确的回复。其次，ChatGPT能够处理多科室的复杂病例，克服了不同科室之间的专业壁垒。此外，ChatGPT在使用上没有时间和空间的限制，回复速度快，内容丰富，患者满意度较高。

2 实用性测试：各类聊天AI达到实用级别，回复相对准确，患者安抚性强

目前已进入市场的三种不同的主流AI交互软件是ChatGPT（Open AI），New Bing（Microsoft），文心一言（百度）。其中ChatGPT包含GPT-3.5 和GPT-4两种模式，New Bing则拥有精准，平衡和创造三种模式。

作为测试，我们选取的试领域为常见的高血压，主要因为其广泛性并且官方治疗方案清晰。

高血压作为心脑血管疾病的主要危险因素日常的诊断需要被重视。根据2012至2015年的中国高血压调查（CHS）研究数据显示，中国18岁以上的居民高血压患病率较高，粗率为27.9%（加权率为23.2%），其中75岁及以上人群患病率最高，为59.8%，而18至34岁的青年人群患病率为5.1%。据估算，中国18岁以上成年人高血压患病人数约为2.45亿人。

如果重视日常对高血压的监测和控制，可以有效降低心脑血管疾病的致死率。2017年，中国有254万人死于高收缩压，其中95.7%死于心血管病。如果对I期和Ⅱ期高血压患者进行治疗，每年将减少80.3万例心血管事件（脑卒中减少69.0万例，心肌梗死减少11.3万例）

根据中国高血压临床实践指南建议：

l 诊断：当收缩压（收缩期血压）大于等于140 mmHg（1 mmHg = 0.133 kPa）和/或舒张压（舒张期血压）大于等于90 mmHg时，可做出高血压的诊断。

l 监测：建议每天早、晚各测量1次血压。

l 非药物干预：建议对于高血压患者，应该进行生活方式干预，包括饮食干预、运动干预、减压干预、减重干预、戒烟限酒等措施。

l 治疗：高危人群建议使用降压药物治疗。

我们选取一个网上的病例作为样本，分别将病例输入到各模型，并结合指南和医生意见做对比分析。测试时间为2023年4月13日。

患者是血压处于高血压诊断的典型性案例：患者36岁，血压为142/92，刚刚超过140/90的诊断标准，尿酸500+，希望询问是否需要服用氯沙坦钾片来治疗。

l 首先是医生建议：患者反复监测血压，如果血压有波动可以先通过调整饮食习惯来改善血压，如无好转，再前往医院进一步检查。

l ChatGPT 4.0：GPT-4首先为患者分析了医生提供的药物，随后GPT-4给出了长期监测血压和尿酸水平，并建议患者在医生的诊断外，再通过生活方式干预来调节，这与医生所给出的建议类似；此外，GPT-4提供了具体的生活方式干预方法，内容与指导中的建议基本一致。

l ChatGPT 3.5：GPT-3.5为患者分析了医生所开具的药物，并给出了患者针对中青年高血压的常见治疗方案，最后提醒患者注意对血压和尿酸的监控，整体回复内容较完善，但是与GPT-4相比缺乏对患者情况的具体建议。

l New Bing：精准模式和平衡模式针对医学问题的建议较为谨慎，仅提供了基本的药物信息和中青年高血压信息。

l New Bing：更多创造模式中建议患者使用药物治疗，同时也给出了血压监控和生活方式干预的信息，此外New Bing提供了信息的来源网站，可供咨询者进一步了解。

l 文心一言：为患者提供诊断标准和建议，同时建议患者采取药物治疗，并为患者提供了更多的药物信息。

综合测试结果，各模型都有优劣，其中ChatGPT4.0表现亮眼。

l GPT-3.5和文心一言：均建议患者通过药物控制高血压，在此之外GPT-3.5也在生活习惯方面给到来患者建议。

l 相较于其它的AI交互软件，New Bing并没有直接给出诊断建议，而是通过搜索根据互联网已有信息对患者的情况进行分析，并且提供了相关信息来源。

3 应用场景：AI使C端医疗可及性大大提升，有望带来互联网医疗、基层医疗服务质量升级

从以上两章可以得出结论，ChatGPT类聊天AI在医疗端是兼具专业性与实用性的。

专业性上，ChatGPT4.0的论文测试显示其在各地区考试中都能获得良好的成绩，并且综合性和专科性医学问题都有良好表现。可以说是初步具备合格的医疗水平，并且随着影像/检验数据分析的迭代升级，提升空间巨大。

实用性上，从我们测试的高血压患者病例中可以看到，主流的几款聊天AI，无论是ChatGPT、Newbing还是文心一言，都能够对患者做出相应的指导，并提示最终需要临床医生指导。但对于一般患者而言，医疗的可及性大大增加，因为其操作的方便性，使用体验也大幅升级。

诚然，目前ChatGPT类聊天AI在医疗应用端仍在探索阶段，并不能替代医生的诊断，但前景值得期待的。

我们认为，随着人工智能技术的不断发展， AI技术在帮助提高医疗服务的可及性和质量上是明显的，为患者提供更加便捷、高效、精准的医疗服务。可以预见的，互联网医疗和基层（包括药店服务）医疗服务质量在AI辅助下将得到显著提升。

互联网医疗端：随着ChatGPT这类人工智能交互软件加入，患者可以快速获得基础的医学信息和建议，例如针对身体不适，如咳嗽、头晕等症状，ChatGPT能够提供基本的诊断意见。患者还可以提供完整的病例，以获取更多医疗信息和诊断结果分析，以及用药指导和生活习惯建议。同时，患者在前往医院问诊前，可以与ChatGPT交流以明确需要准备的资料，例如病史和过往的影像资料。此外，在服用药物前，ChatGPT可以为患者提供详细的药物信息和用药注意事项。未来，随着人工智能交互软件赋能互联网医疗行业，行业效率将进一步提升，边缘化成本将逐步优化。

从公司角度，我们认为相关互联网医疗公司在AI加持下医疗效率将会提升、获客成本将会降低，达到降本增效的目的。目前各互联网巨头都开始牵头布局，推动智慧医疗高质量发展。

基层医疗端：我国医疗资源呈现地域上分布不均、人均医疗资源相对短缺的情况，尤其是在基层医疗单位。由于基层医疗单位的规模较小，医疗设备和人员资源相对有限，医疗条件和水平相对落后，导致医疗服务的质量和效率难以得到保障。在一些偏远地区，基层医疗单位的资源更加短缺，医疗服务的覆盖面和质量更加有限。

这种情况下，AI技术的应用可以帮助缓解基层医疗单位的资源不足问题。通过AI技术，医生可以更加高效地进行病历记录、诊断和治疗等方面的工作，提高医疗服务的准确性和效率。同时，AI技术还可以帮助医生进行疾病预防和健康管理等方面的工作，提高基层医疗服务的综合水平。