Медицинские бенчмарки для оценки языковых моделей

Как повысить эффективность работы LLM в медицинских сценариях и снизить риски внедрения «галлюцинирующих» моделей за счет валидации доменных знаний и коммуникативных навыков ИИ-ассистентов? Ответ на этот вопрос вы получите из доклада заведующего лабораторией цифрового развития ФГБУ НМХЦ им. Н.И. Пирогова Минздрава России Олега Пензина.

Впервые исследователи систематизировали бенчмарки и метрики валидации LLM с учетом специфики российского здравоохранения. Показано, что достижение SOTA-результатов (>90%) на экзаменационных датасетах не гарантирует безопасности в реальных сценариях. Обоснована необходимость перехода от оценки знаний к оценке агентных навыков (сбор анамнеза, эмпатия, соблюдение клинических рекомендаций). Выделены ключевые преимущества отечественных разработок (3MDBench) в части моделирования темперамента пациента и мультимодальности.

Аналитический доклад исследователей будет полезен разработчикам СППВР, исследовательским центрам и медицинским организациям, внедряющим ИИ. Послушать его можно будет 13 февраля в рамках секционного заседания 2.3. «Прикладные решения для здравоохранения с использованием методов интеллектуального анализа данных». Зал «Галактика Центральная», начало — 13:00.