Расскажите о себе и получите чек-лист «Откуда бизнесу брать деньги». Опрос займет всего 1 минуту

Расскажите о себе и получите чек-лист «Откуда бизнесу брать деньги». Опрос займет всего 1 минуту

Рассказать
Идеи для бизнесаБизнес с нуляМаркетплейсыВопросы–ответыЖизнь вне работыСправочник
Идеи для бизнесаБизнес с нуляМаркетплейсыВопросы–ответыЖизнь вне работыСправочник

Исследование: искусственный интеллект в медицинских клиниках


Мы — разработчики системы искусственного интеллекта, которая анализирует цифровые медицинские снимки. Недавно мы провели небольшое исследование, чтобы понять, можно ли доверять искусственному интеллекту, когда он «говорит», что на флюорографическом снимке нет патологии, и как лучше настроить ответ системы для этой задачи. Рассказываем простым языком, что мы выяснили.

Зачем вообще отсеивать «норму»

Флюорографию в России ежегодно проходит огромное количество людей. До 98% исследований, которые получаются в итоге, не содержат признаков каких-либо патологических изменений — то есть, на них представлена норма. На просмотр и описание именно таких исследований уходит большая часть времени и сил врача-рентгенолога.

Поскольку наша система компьютерного зрения «Цельс» хорошо зарекомендовал себя в клинической практике и даже находила пропущенные случаи рака, мы с нашими коллегами подумали: а почему бы не поручить искусственному интеллекту избавить врача от этой рутины? И как настроить ответ системы таким образом, чтобы вероятность пропуска патологии была минимальной? На эти вопросы мы и искали ответы в нашем исследовании.

Сначала — немного теории

Начнем с такого важного для нашего исследования понятия, как «порог классификации». В общем смысле, модель машинного обучения выдаёт результаты в вида вероятности: допустим, «вероятность, что на снимке есть патология — 0,146 то есть 14%». Врачу такие подробности ни к чему, ему от модели нужен бинарный ответ: есть патология и нет патологии. Поэтому нам нужно выбрать какое-то пороговое значение — скажем, если вероятность ниже 0.05, то на снимке нет патологии.

Результаты анализа при этом могут быть истинно положительными, когда ИИ сигнализирует о наличии патологии и она действительно есть, и ложно положительными, когда модель «увидела» признаки патологии там, где их нет. Отсюда вытекают две метрики, которые помогут нам оценить эффективность модели: TPR и FPR.

TPR показывает, для какой доли исследований с признаками патологии ИИ даст правильный прогноз о наличии этих признаков. А FPR показывает, для какой доли исследований без признаков патологии модель ошибочно даст прогноз о наличии патологии. TPR и FPR зависят от порога классификации, что логично: чем меньше пороговое значение, тем больше любых положительных результатов, и истинных, и ложных.

Очевидно, хочется, чтобы модель давала побольше истинно положительных и поменьше ложно положительных результатов. Чтобы понять, насколько она с этой задачей справляется, есть метод оценки кривой ROC.

Можно взять, какую-нибудь точку на ней, она будет показывать соотношение TPR и FPR. либо посчитать площадь под всей кривой, чтоб получить некое «усреднённое» качество классификации.

Теперь — к исследованию

Для анализа мы использовали ИИ-систему «Цельс.Флюорография» версии 0.15.3. Предварительно собрали набор данных из разных медицинских организаций: 11 707 исследований без патологии и 5 846 исследований с патологией.

Из этого набора данных мы сделали подвыборки, в каждой из которых содержалось 500 исследований с патологией и 9 500 исследований без патологии. Так у нас получилась тысяча подвыборок, в которых баланс нормы и патологии был 95% на 5% соответственно — максимально близко к тому, как это бывает в реальной клинической практике.

Но с чем сравнивать результаты ИИ? Конечно, с результатами профессионалов! Мы попросили двух врачей-рентгенологов проанализировать все эти исследования, а если их мнения расходились, мы отдавали исследование на анализ третьему врачу-эксперту. Исследование считалось патологическим, если итоговые результаты анализа содержали хотя бы один из 12 рентгенологических признаков.

Затем мы выбрали 5 методов для сравнения метрик.

  1. По максимальной вероятности наличия рентгенологических признаков, которые обнаружила модель.
  2. По средней вероятности наличия рентгенологических признаков, которые обнаружила модель.
  3. По максимальной вероятности наличия признаков, полученных с помощью специальных «голов» нейронной сети, обученных определять наличие каждого признака на изображении (0 — отсутствие признака, 1 — наличие).
  4. То же самое, что в пункте 3, но вместо максимальной вероятности брали среднюю.
  5. По вероятности, полученной с помощью отдельной «головы» нейронной сети, обученной определять бинарное наличие патологии на исследовании, где 0 — норма, 1 — патология.

Первые два метода используют нашу базовую нейронную сеть, которая детектирует патологические признаки на исследовании. По всем обнаруженным объектам мы берём либо максимальную, либо среднюю по всем патологиям вероятность наличия объекта на изображении.

Остальные три метода используют так называемые “головы” — своего рода отростки от основной нейросети.

В третьем и четвертом методах мы обучаем 12 отдельных “голов” — одну под каждый признак. В отличие от детектора мы не просим эту модель находить, где находится каждый признак — только предсказать вероятность его наличия или отсутствия. На основе максимальной или средней вероятности из этих “голов” и выносится финальный “вердикт” — норма или патология.

Наконец, в пятом варианте мы ещё сильнее упрощаем задачу — отдельная “голова” обучается предсказывать, есть ли на исследовании хотя бы один из интересующих нас признаков.

Для каждого метода мы выбрали порог срабатывания, который обеспечивал не более 1 пропуска патологии на 1000 исследований на текущей подвыборке. В качестве основной метрики качества брали процент исследований, которые искусственный интеллект мог бы верно идентифицировать и описать как исследования без патологии.

Результаты и выводы

Для любителей математики и точности подробные результаты представляем в таблице в конце раздела. Колонка «Отсев нормы» здесь показывает усредненный процент исследований, которые модель искусственного интеллекта отметила как норму. А колонка «ROC-AUC» показывает ту самую метрику, о которой мы рассказали в первом пункте с теорией, — для каждого отдельного метода.

Поскольку у нас была конкретная задача настроить ответ системы для задачи отсеивания «нормы», то лучшим мы признали 4‑й метод. Напомним: это метод усреднения вероятностей, полученных с помощью специальных «голов» нейронной сети, обученных определять наличие патологии.

Главные выводы из исследования:

  1. Не рекомендуем использовать настройки ИИ-системы по умолчанию — разные задачи требуют разных подходов и настроек.
  2. ИИ-система для анализа флюорографии способна отсеивать до 75% исследований без патологии с очень низким процентом пропуска

А что это значит для клинической практики? Что необходимо продолжать исследования, продолжать ставить эксперименты — чтобы модели искусственного интеллекта могли избавить врача от рутины с минимальным риском для здоровья пациентов, а владельцы клиник смогли увеличить количество пациентов и прибыль.

Результаты исследования
Евгений Никитин
Евгений Никитин

Как вы думаете, искусственный интеллект поможет избавить врача от рутины не в ущерб пациентам?


Больше по теме

Новости