斯坦福最新评测：DeepSeek R1医疗AI模型超越Google和OpenAI，赢得高分

作者

2025-06-05

33次阅读

人工智能

斯坦福大学近日发布了针对临床医疗AI模型的全面评测。DeepSeek R1在名为MedHELM的综合评估框架中表现卓越，该框架包含35个基准测试和22个医疗任务子类别，设计经过执业医生验证。在参与评测的九个前沿大模型中，DeepSeek R1以66%的胜率和0.75的宏观平均分脱颖而出，位列第一。评测还采用了大语言模型评审团方法，结果与医生评分高度一致。此项评测为医疗AI发展提供了重要数据支持。