肝硬化是一种终末期肝病,也是肝细胞癌(HCC)的主要危险因素。年全球2.4%的死亡与肝硬化有关。肝硬化的治疗面临诸多困难,临床上诸多并发症如腹水、肝性脑病、静脉曲张出血和营养不良,需要大量的护理。患有肝硬化和HCC的患者及其护理人员往往在管理和预防其疾病的并发症方面知识不足。虽然互联网可以作为患者的获取医疗知识的来源,但网络信息的专业性往往不足容易产生误导。
最近随着人工智能的兴起,这一局面发生了改变。ChatGPT是由OpenAI开发的一种自然语言处理(NLP)模型。它会生成类似人类语言的文本,用于聊天机器人的对话。目前它已经在医学领域展现出了一些潜在的应用,例如回答执业医师考试问题的能力和撰写基本的医学报告的能力。
然而,有报告对ChatGPT理解问题的能力和缺乏深入的反应表示担忧。ChatGPT是否有准确全面地回答临床患者的疑问的能力目前争议不断。而在肝细胞癌领域,CedarsSinai医疗中心的布伦南·斯皮格尔的团队发表了一项研究,评估了ChatGPT对有关肝硬化和HCC患者的管理和护理的常见问题的回答的准确性、完整性和可重复性。该研究为了进一步研究ChatGPT的知识库和解决问题的技能,还在已发表的知识问卷中对ChatGPT与医生和医学生回答问题的表现进行了比较。
1.方法
问题收集与回答
从专业协会和社交媒体上的收集了关于肝硬化和HCC知识和管理的问题。问题被输入到ChatGPT中,每个问题都作为一个独立的新聊天窗口进行提示输入。每个问题被输入ChatGPT两次,并记录两个回答,以检查ChatGPT回答的可重复性。
每个回答的准确性分为:1全面,2正确但不充分,3混合了不正确或过时的数据,4完全不正确。准确性检验由具有委员会认证资的肝病专家负责。
了解肝硬化患者的质量指标
调查ChatGPT回答和解释肝硬化标准质量措施的能力,通过制定AASLD实践指标委员会推荐26个标准质量措施的问题。使用这些实践指标作为标准答案,测试ChatGPT在肝硬化患者管理中的表现。
ChatGPT在已发布的知识问卷上的表现
总结已发表的问卷,这些问卷测试了医生或医学生对肝硬化或慢性乙型肝炎感染患者的HCC筛查和监测的知识。每个问题都向ChatGPT提出两次,并计算正确答案的总体比例。根据美国肝病研究协会(AASLD)的指南对这些反应进行了分级。比较了每项研究中报告的访谈医生或学员的正确回答的比例。
2.结果
关于肝硬化的常见问题
ChatGPT在回答来自不同领域的91个问题时显示出了高水平的准确性。在“基本知识知识”、“治疗知识”、“生活方式知识”和“其他知识”方面,评分为全面或正确但不充分的回答比例为75%或更高。然而,这一比例在“诊断”领域为66.7%,在“预防医学”领域为50%。
ChatGPT的回答没有被评为完全不正确。该模型展示了对基本知识和生活方式相关问题提供全面回答的能力。它详细解释了代偿性和失代偿性肝硬化的症状、病因和预后,以及可能影响结果的危险因素和生活方式的改变。虽然该模型能够正确地回答诊断、治疗和预防医学等领域的问题,但大多数模型被评为正确但不充分。在“基础知识”、“诊断”、“治疗”、“生活方式”和“预防医学”领域,“正确和错误/过时的数据混合”的回答比例分别为22.2%、33.3%、25.0%、18.1%和50.0%。重复性高,90.48%的问题产生了两个相似的回答。
关于HCC的常见问题
研究发现,ChatGPT模型对73个问题中的74%提供了全面和正确的回答,在“基本知识”、“治疗”、“生活方式”和“其他”的类别中,正确的回答超过75%。然而,在“诊断”类别中,50%的问题被评为包含正确和不正确/过时的信息,33.3%的问题被评为不正确。该模型提供HCC治疗方法和潜在副作用的知识,以及与生活方式相关的问题的科学证据。
值得注意的是,在“治疗”类别中有6.7%的问题,ChatGPT模型使用TNM阶段而不是BCLC阶段来推断生存率。此外,“生活方式”类别中有12.5%的问题被评为完全不正确。例如:该模型表明,饮食可能会减少HCC的大小,然而,目前还缺乏强有力的证据来支持这一说法。该模型还表明,HCC治疗可能会影响一个人的生育能力,而实际上是肝硬化的存在对生育能力的影响最大,而不是所使用的治疗方法。对于第二次尝试生成的回答,ChatGPT只提供了对一个问题有显著差异的回答。
肝硬化护理知识
为了检验ChatGPT在肝硬化护理中的知识,将AASLD实践指标委员会推荐的26项质量指标制定为问题。该模型能够正确回答其中的20项,结果总体准确率为76.9%。ChatGPT能准确描述肝病患者初始检查程序,包括诊断性穿刺,对至少腹水患者使用白蛋白,以及自发性细菌性腹膜炎、腹水、肝性胸水、食管静脉曲张出血等情况的管理。
然而,在某些领域,该模型没有回答正确或提供过时的答案。ChatGPT对例如“肝硬化测量需要上内镜进行静脉曲张筛查,MELD-Na评分用于肝移植评估”这些问题上没有正确回答。此外,对于出现上消化道出血的患者,模型未能正确指示建议进行上消化道内镜检查的最大窗口期和革兰阴性菌感染患者抗生素最短给药时间。
ChatGPT和医生谁的准确率高?
ChatGPT采用两份已发表的问卷进行测试,该问卷评估了受访者在HCC和肝硬化护理方面的知识。
在第一项研究中,ChatGPT准确地回答了8个问题中的4个,为这些问题提供正确答案的医生比例分别为42.9%、45.4%、28.8%和30.5%。
ChatGPT不能明确慢性乙型肝炎患者HCC筛查的年龄截止值。虽然它明确了腹部超声作为一线筛查工具,但未能确定MRI和CT扫描在腹水患者的HCC监测。正确回答这些问题的医生比例分别为33.5%和32.6%。ChatGPT正确地将肝硬化识别为HCC监测的适应症。然而,它错误地指出,所有HBV和HCV患者都需要纳入监测(47.8%和42.4%的医生正确回答)。
第二项研究包含了关于HCC筛查的问题。此时ChatGPT暴露出局限性,七个问题中只有一个得到了正确的回答,即建议对肝硬化患者进行HCC筛查。对于其他问题,该模型错误地强调了对所有慢性乙肝患者的HCC筛查。
3.总结
在本研究中,经过肝病专家的判断,ChatGPT展现了对这两种疾病的广泛知识,特别是在基本知识、生活方式和治疗方面。该模型还为患者和护理人员在诊断方面提供了实用和多维度的建议。在进一步的检查中,ChatGPT通过对AASLD推荐的肝硬化质量指标表现良好,以及之前发表的针对医生和学员的问卷,证明了其对这两种疾病的强大知识基础。
另一方面,ChatGPT在回答肝硬化管理和HCC中的特定界定值存在缺陷。并且全球地区指南各不相同,该模型无法根据询问者的地区提供量身定制的建议。但总体来说ChatGPT可作为HCC和肝硬化患者的辅助信息工具,用以改善预后。
参考文献
YeoYH,SamaanJS,NgWH,etal.AssessingtheperformanceofChatGPTinansweringquestionsregardingcirrhosisandhepatocellularcarcinoma[publishedonlineaheadofprint,Mar22].ClinMolHepatol.;10./cmh...doi:10./cmh..
声明:本资料中涉及的信息仅供参考,请遵从医生或其他医疗卫生专业人士的意见或指导。
来源:国际肝胆资讯