斯坦福最新评测:DeepSeek R1医疗AI模型超越Google和OpenAI,赢得高分

作者
2025-06-05
4次阅读
人工智能
文章详情

斯坦福大学近日发布了针对临床医疗AI模型的全面评测。DeepSeek R1在名为MedHELM的综合评估框架中表现卓越,该框架包含35个基准测试和22个医疗任务子类别,设计经过执业医生验证。在参与评测的九个前沿大模型中,DeepSeek R1以66%的胜率和0.75的宏观平均分脱颖而出,位列第一。评测还采用了大语言模型评审团方法,结果与医生评分高度一致。此项评测为医疗AI发展提供了重要数据支持。