Top.Mail.Ru

Медицинские бенчмарки для оценки языковых моделей

penzin-o-v.jpg

Как повысить эффективность работы LLM в медицинских сценариях и снизить риски внедрения «галлюцинирующих» моделей за счет валидации доменных знаний и коммуникативных навыков ИИ-ассистентов? Ответ на этот вопрос вы получите из доклада заведующего лабораторией цифрового развития ФГБУ НМХЦ им. Н.И. Пирогова Минздрава России Олега Пензина.

Впервые исследователи систематизировали бенчмарки и метрики валидации LLM с учетом специфики российского здравоохранения. Показано, что достижение SOTA-результатов (>90%) на экзаменационных датасетах не гарантирует безопасности в реальных сценариях. Обоснована необходимость перехода от оценки знаний к оценке агентных навыков (сбор анамнеза, эмпатия, соблюдение клинических рекомендаций). Выделены ключевые преимущества отечественных разработок (3MDBench) в части моделирования темперамента пациента и мультимодальности.

Аналитический доклад исследователей будет полезен разработчикам СППВР, исследовательским центрам и медицинским организациям, внедряющим ИИ. Послушать его можно будет 13 февраля в рамках секционного заседания 2.3. «Прикладные решения для здравоохранения с использованием методов интеллектуального анализа данных». Зал «Галактика Центральная», начало — 13:00.
Cookie-файлы
Настройка cookie-файлов
Детальная информация о целях обработки данных и поставщиках, которые мы используем на наших сайтах
Аналитические Cookie-файлы Отключить все
Технические Cookie-файлы
Другие Cookie-файлы
Мы используем файлы Cookie для улучшения работы, персонализации и повышения удобства пользования нашим сайтом. Продолжая посещать сайт, вы соглашаетесь на использование нами файлов Cookie. Подробнее о нашей политике в отношении Cookie.
Понятно Подробнее
Cookies