Читать книгу «Искусственный интеллект в лучевой диагностике: Per Aspera Ad Astra» онлайн полностью📖 — А. В. Титовой — MyBook.














Классификация может применяться в отношении наборов данных для любых задач лучевой диагностики. Она не зависит от типов (модальности) диагностических данных, но вместе с тем четко отображает взаимосвязь между собой:

– объемов и качества исходных данных;

– трудозатрат на подготовку;

– методик разметки и работы с первичными данными;

– диагностической ценности в контексте той или иной медицинской задачи.

Классификация по цели использования с появлением новых задач претерпела значительные изменения и в итоговом варианте содержит 10 типов НД (таблица 2.1).



Исторически самым первым и самым разнообразным типом являются наборы данных для научных исследований (VII). Опыт их создания послужил основой для всех остальных типов и для формирования методологии, в процессе которой определился VI тип. На первых этапах исследования НД собирались исключительно вручную на потоке (просматривались все исследования целевой модальности на предмет наличия патологии), однако централизованное хранение всех лучевых исследований в ЕРИС ЕМИАС, включая текстовые протоколы описания и заключения, позволили в дальнейшем автоматизировать этот процесс. Было положено начало направлению работы с медицинскими текстами, которое потребовало создания специальных наборов данных (VI). Большинство наборов данных принадлежит к I типу (минимум 4 НД на каждое направление), так как предназначены для валидационных тестирований ИИ-сервисов в Московском эксперименте, а также к III и IV типу – для самотестирования (самостоятельной проверки корректности диагностической оценки ИИ-сервисами и их работоспособности на разных диагностических устройствах). Отдельные типы (IV и V) НД созданы для клинических испытаний. На более поздних этапах при разработке собственных ИИ-сервисов потребовались наборы данных для обучения (VIII). Накопленный научный и практический опыт позволил разрабатывать национальные стандарты, в рамках которых также требовались эталонные НД (тип X). Деятельность ГБУЗ «НПКЦ ДиТ ДЗМ» включает самые разные направления, например, образовательную работу, в рамках которой создаются НД для обучения и тестирования врачей (тип IX). По-видимому, список типов наборов данных в дальнейшем также будет претерпевать изменения с еще большим расширением возможностей и появлением новых задач.

Также опыт показал, что количество исследований (единиц НД) не определяется типом набора. Расчет объема выборки является нетривиальной задачей и зависит от множества факторов (подробнее см. 2.3.1).

Одной из первых задач, которую решали ИИ-сервисы в Московском эксперименте, стало определение на результатах лучевого исследования наличия признаков, характерных для целевой патологии. В рамках данной задачи валидационные НД (те, которые использовались при тестировании ИИ-сервисов) преимущественно относились к С-классу разметки (рисунок 2.3); при разметке в этом случае прежде всего требовалось отнести исследование к верному классу (как правило, с наличием/отсутствием патологии, реже – ее классификация по степени тяжести). В дальнейшем, в ходе анализа результатов работы ИИ-сервисов, возникали новые задачи, требующие более сложных НД. Так, отмечалась некорректная работа ИИ-сервисов в исследованиях с артефактами, дефектами укладки или некорректно заполненной метаинформацией. В результате были созданы соответствующие НД и впервые разработан ИИ-сервис для определения их качества50.

С развитием Московского эксперимента расширялись требования к результатам работы ИИ-сервисов, в ходе накопления практического опыта и при проведении научных исследований возникали новые задачи и стратегии применения СИИ в медицине. Так, появилось новое направление – автоматизация рутинных измерений (морфометрия) и соответствующие ему наборы данных. В дальнейшем обозначилась потребность в динамических НД, а также в наборах изображений, обогащенных клинической информацией. Поэтому возникла новая классификация наборов данных по решаемой задаче:

1. Диагностические (оценка качественных признаков: наличие/отсутствие, степень выраженности, классификация признака).

2. Морфометрические (оценка количественных признаков: измерение линейных размеров, площадей, углов, объемов, коэффициентов).

3. Для контроля качества (с артефактами и дефектами укладки, ошибками DICOM-тегов и т.д.).

4. Динамические (оценка исследований в динамике, прогностические задачи).

5. Обогащенные клинической информацией (НД с дополнительной клинической информацией для разработки СППВР и прогностических задач).

6. Комбинированные (сочетающие в себе вышеперечисленные данные).

Отдельное внимание заслуживают синтетические НД (см. параграф 2.2.5). Такое обилие классификаций обусловлено большим количеством наборов данных, созданных в ГБУЗ «НПКЦ ДиТ ДЗМ» за 5 лет (более 600!) и разнообразием решаемых задач, в том числе перспективных. Все разработанные принципы классификации и организации метаданных реализованы в виде реестра НД.

Реестр наборов данных – это перечень всех созданных в учреждении НД, содержащий структурированную информацию о них. Потребность в таком инструменте возникла с первых дней Московского эксперимента, в частности, для выбора НД при проведении функциональных и калибровочных тестирований. Первоначально это был простой список названий НД, однако с увеличением количества направлений возникла потребность в дополнении списка различными параметрами, а также в унификации названий и создании идентификаторов, кодирующих базовую метаинформацию. Примеры структуры названия и идентификатора приведены на рисунках 2.5 и 2.6.


Рисунок 2.5 – Структура и пример названия набора данных


Рисунок 2.6 – Структура и пример идентификатора набора данных


К сожалению, с появлением новых задач, разработанные правила наименования не всегда позволяют создавать релевантные названия, однако при этом структура названия гибкая и может меняться (дополняться) в зависимости от требуемых для внесения параметров. Полная форма названия чаще используется для регистрации результатов интеллектуальной деятельности или упоминания НД в публикациях, документах и в устной речи. Идентификатор необходим для наименования файла, так как длина названия ограничена, а также в нем зашифрованы дополнительные данные, необходимые в контексте выполняемых задач. Например, на рисунке 2.6 идентификатор читается как: «Набор данных для Эксперимента, созданный в 2020 году, для функционального тестирования по направлению ″компьютерная томография органов грудной клетки″ с наличием и отсутствием признаков коронавирусной инфекции COVID-19, вариант 2, версия 2.1.0». Вариативность создана с целью тестирования ИИ-сервисов на разных НД с одинаковой спецификацией, а версионность разрешает отслеживать изменения, вносимые в набор. Идентификатор позволяет однозначно определить НД, который отправлялся ИИ-сервису для тестирования, для дальнейшей корректной (в т.ч. автоматизированной) оценки результатов обработки и обеспечения прозрачности процесса тестирования.

Реестр наборов данных как полноценный инструмент был сформирован в 2022 году и содержал в себе порядка 100 полей. Их количество и названия незначительно колебались в процессе совершенствования инструмента, однако принципы организации оставались общими:

1. НД имеют унифицированные названия и идентификаторы.

2. Метаинформация структурирована и классифицирована согласно российским и международным медицинским справочникам (ФСИДИ51, Международная классификация болезней 10-й версии, справочник ЕРИС ЕМИАС, справочник анатомических локализаций, RadLex52, LOINC53), а также разработанным классификациям (классы разметки, методы верификации, характер и уровень разметки, источник данных, направление Московского эксперимента и т.д.).

3. Реестр имеет разделы, синхронизированные с жизненным циклом набора данных. Его заполнение происходит на каждом этапе, включая использование, и продолжается до момента утилизации НД (если такой наступает).

4. Описательная информация (карточка НД) составлена с учетом как собственного опыта использования метаинформации, так и чек-листов описания НД и СИИ в научных публикациях в мировых рецензируемых изданиях54. Она организована по разделам: клинические, популяционные, технические параметры, назначение, параметры разметки.

Благодаря всему перечисленному реестр выполняет следующие функции:

1. Обеспечение процессов управления: контроль сроков и порядка выполнения работ по созданию НД, оценка результативности использования, оптимизация ресурсов (повторное использование данных).

2. Доступ к данным: единое место хранения всей информации, включая ссылки на хранение, указание ответственных за НД, удобное формирование библиотеки.

3. Контроль качества данных: проверка параметров НД на соответствие техническому заданию, базовым диагностическим требованиям, отслеживание внесения изменений (смена версионности).

4. Автоматизация процессов создания НД: генератор readme-файла, автоматическая проверка данных на соответствие техническому заданию.

Реестр представляет собой практическое внедрение научно обоснованного стандарта набора данных для лучевой диагностики.

1
...
...
13