Классификация может применяться в отношении наборов данных для любых задач лучевой диагностики. Она не зависит от типов (модальности) диагностических данных, но вместе с тем четко отображает взаимосвязь между собой:
– объемов и качества исходных данных;
– трудозатрат на подготовку;
– методик разметки и работы с первичными данными;
– диагностической ценности в контексте той или иной медицинской задачи.
Классификация по цели использования с появлением новых задач претерпела значительные изменения и в итоговом варианте содержит 10 типов НД (таблица 2.1).
Исторически самым первым и самым разнообразным типом являются наборы данных для научных исследований (VII). Опыт их создания послужил основой для всех остальных типов и для формирования методологии, в процессе которой определился VI тип. На первых этапах исследования НД собирались исключительно вручную на потоке (просматривались все исследования целевой модальности на предмет наличия патологии), однако централизованное хранение всех лучевых исследований в ЕРИС ЕМИАС, включая текстовые протоколы описания и заключения, позволили в дальнейшем автоматизировать этот процесс. Было положено начало направлению работы с медицинскими текстами, которое потребовало создания специальных наборов данных (VI). Большинство наборов данных принадлежит к I типу (минимум 4 НД на каждое направление), так как предназначены для валидационных тестирований ИИ-сервисов в Московском эксперименте, а также к III и IV типу – для самотестирования (самостоятельной проверки корректности диагностической оценки ИИ-сервисами и их работоспособности на разных диагностических устройствах). Отдельные типы (IV и V) НД созданы для клинических испытаний. На более поздних этапах при разработке собственных ИИ-сервисов потребовались наборы данных для обучения (VIII). Накопленный научный и практический опыт позволил разрабатывать национальные стандарты, в рамках которых также требовались эталонные НД (тип X). Деятельность ГБУЗ «НПКЦ ДиТ ДЗМ» включает самые разные направления, например, образовательную работу, в рамках которой создаются НД для обучения и тестирования врачей (тип IX). По-видимому, список типов наборов данных в дальнейшем также будет претерпевать изменения с еще большим расширением возможностей и появлением новых задач.
Также опыт показал, что количество исследований (единиц НД) не определяется типом набора. Расчет объема выборки является нетривиальной задачей и зависит от множества факторов (подробнее см. 2.3.1).
Одной из первых задач, которую решали ИИ-сервисы в Московском эксперименте, стало определение на результатах лучевого исследования наличия признаков, характерных для целевой патологии. В рамках данной задачи валидационные НД (те, которые использовались при тестировании ИИ-сервисов) преимущественно относились к С-классу разметки (рисунок 2.3); при разметке в этом случае прежде всего требовалось отнести исследование к верному классу (как правило, с наличием/отсутствием патологии, реже – ее классификация по степени тяжести). В дальнейшем, в ходе анализа результатов работы ИИ-сервисов, возникали новые задачи, требующие более сложных НД. Так, отмечалась некорректная работа ИИ-сервисов в исследованиях с артефактами, дефектами укладки или некорректно заполненной метаинформацией. В результате были созданы соответствующие НД и впервые разработан ИИ-сервис для определения их качества50.
С развитием Московского эксперимента расширялись требования к результатам работы ИИ-сервисов, в ходе накопления практического опыта и при проведении научных исследований возникали новые задачи и стратегии применения СИИ в медицине. Так, появилось новое направление – автоматизация рутинных измерений (морфометрия) и соответствующие ему наборы данных. В дальнейшем обозначилась потребность в динамических НД, а также в наборах изображений, обогащенных клинической информацией. Поэтому возникла новая классификация наборов данных по решаемой задаче:
1. Диагностические (оценка качественных признаков: наличие/отсутствие, степень выраженности, классификация признака).
2. Морфометрические (оценка количественных признаков: измерение линейных размеров, площадей, углов, объемов, коэффициентов).
3. Для контроля качества (с артефактами и дефектами укладки, ошибками DICOM-тегов и т.д.).
4. Динамические (оценка исследований в динамике, прогностические задачи).
5. Обогащенные клинической информацией (НД с дополнительной клинической информацией для разработки СППВР и прогностических задач).
6. Комбинированные (сочетающие в себе вышеперечисленные данные).
Отдельное внимание заслуживают синтетические НД (см. параграф 2.2.5). Такое обилие классификаций обусловлено большим количеством наборов данных, созданных в ГБУЗ «НПКЦ ДиТ ДЗМ» за 5 лет (более 600!) и разнообразием решаемых задач, в том числе перспективных. Все разработанные принципы классификации и организации метаданных реализованы в виде реестра НД.
Реестр наборов данных – это перечень всех созданных в учреждении НД, содержащий структурированную информацию о них. Потребность в таком инструменте возникла с первых дней Московского эксперимента, в частности, для выбора НД при проведении функциональных и калибровочных тестирований. Первоначально это был простой список названий НД, однако с увеличением количества направлений возникла потребность в дополнении списка различными параметрами, а также в унификации названий и создании идентификаторов, кодирующих базовую метаинформацию. Примеры структуры названия и идентификатора приведены на рисунках 2.5 и 2.6.
Рисунок 2.5 – Структура и пример названия набора данных
Рисунок 2.6 – Структура и пример идентификатора набора данных
К сожалению, с появлением новых задач, разработанные правила наименования не всегда позволяют создавать релевантные названия, однако при этом структура названия гибкая и может меняться (дополняться) в зависимости от требуемых для внесения параметров. Полная форма названия чаще используется для регистрации результатов интеллектуальной деятельности или упоминания НД в публикациях, документах и в устной речи. Идентификатор необходим для наименования файла, так как длина названия ограничена, а также в нем зашифрованы дополнительные данные, необходимые в контексте выполняемых задач. Например, на рисунке 2.6 идентификатор читается как: «Набор данных для Эксперимента, созданный в 2020 году, для функционального тестирования по направлению ″компьютерная томография органов грудной клетки″ с наличием и отсутствием признаков коронавирусной инфекции COVID-19, вариант 2, версия 2.1.0». Вариативность создана с целью тестирования ИИ-сервисов на разных НД с одинаковой спецификацией, а версионность разрешает отслеживать изменения, вносимые в набор. Идентификатор позволяет однозначно определить НД, который отправлялся ИИ-сервису для тестирования, для дальнейшей корректной (в т.ч. автоматизированной) оценки результатов обработки и обеспечения прозрачности процесса тестирования.
Реестр наборов данных как полноценный инструмент был сформирован в 2022 году и содержал в себе порядка 100 полей. Их количество и названия незначительно колебались в процессе совершенствования инструмента, однако принципы организации оставались общими:
1. НД имеют унифицированные названия и идентификаторы.
2. Метаинформация структурирована и классифицирована согласно российским и международным медицинским справочникам (ФСИДИ51, Международная классификация болезней 10-й версии, справочник ЕРИС ЕМИАС, справочник анатомических локализаций, RadLex52, LOINC53), а также разработанным классификациям (классы разметки, методы верификации, характер и уровень разметки, источник данных, направление Московского эксперимента и т.д.).
3. Реестр имеет разделы, синхронизированные с жизненным циклом набора данных. Его заполнение происходит на каждом этапе, включая использование, и продолжается до момента утилизации НД (если такой наступает).
4. Описательная информация (карточка НД) составлена с учетом как собственного опыта использования метаинформации, так и чек-листов описания НД и СИИ в научных публикациях в мировых рецензируемых изданиях54. Она организована по разделам: клинические, популяционные, технические параметры, назначение, параметры разметки.
Благодаря всему перечисленному реестр выполняет следующие функции:
1. Обеспечение процессов управления: контроль сроков и порядка выполнения работ по созданию НД, оценка результативности использования, оптимизация ресурсов (повторное использование данных).
2. Доступ к данным: единое место хранения всей информации, включая ссылки на хранение, указание ответственных за НД, удобное формирование библиотеки.
3. Контроль качества данных: проверка параметров НД на соответствие техническому заданию, базовым диагностическим требованиям, отслеживание внесения изменений (смена версионности).
4. Автоматизация процессов создания НД: генератор readme-файла, автоматическая проверка данных на соответствие техническому заданию.
Реестр представляет собой практическое внедрение научно обоснованного стандарта набора данных для лучевой диагностики.
О проекте
О подписке