Читать книгу «Искусственный интеллект в лучевой диагностике: Per Aspera Ad Astra» онлайн полностью📖 — А. В. Титовой — MyBook.

2.2.3. Жизненный цикл и алгоритм создания набора данных

Важнейшим результатом, полученным в ходе создания и использования наборов данных, стала описанная методология, включающая в себя жизненный цикл НД (рисунок 2.7) и непосредственно алгоритм его создания (рисунок 2.8).

Рисунок 2.7 – Жизненный цикл набора данных


Рисунок 2.8 – Алгоритм создания набора данных


Сформированная методология позволяет регламентировать все процессы, связанные с наборами данных, описывает все действия, которые необходимо совершить разработчику или исследователю, начиная от идеи/потребности создания НД, заканчивая его использованием, сменой версии и утилизацией. Это позволяет наладить четкие процессы выполнения работ, а также не упустить важные аспекты, в т.ч. связанные с безопасностью данных и регламентированные законодательством, что в свою очередь минимизирует вероятность возникновения ошибок, повышает качество и снижает сроки создания наборов.

Кроме того, сформулированная этапность всех действий позволила автоматизировать эти процессы. На первых этапах Московского эксперимента, когда методика только начинала формироваться, большая часть работ выполнялась вручную. В дальнейшем внедрялась автоматизация отдельных процессов: как правило, это были разрозненные программы, не имеющие интерфейса. Для их использования требовалась помощь разработчика и/или научного сотрудника, который адаптировал код под конкретную задачу и запускал процесс обработки данных. Для оформления сопроводительной документации также разрабатывались специальные шаблоны для заполнения. Объединить весь накопленный опыт удалось в оригинальном программном продукте «Платформа подготовки наборов данных»55. Он имеет удобный интерфейс и модульную структуру, при этом модули можно использовать последовательно, согласно алгоритму создания НД, или изолированно. Далее описаны этапы жизненного цикла и алгоритма создания НД от первых шагов до единой платформы подготовки.

Подготовка набора данных в общем виде состоит из набора процедур, выполнение которых позволяет достигнуть цели обучения и тестирования системы искусственного интеллекта (СИИ) с обеспечением качества набора данных56.

Инициирование. Первый этап жизненного цикла наступает с момента появления идеи создания конкретного НД и определения его цели. Формирование цели НД включает оценку того, является ли доступ к данным или другая деятельность по их обработке допустимыми57:

– какие данные допустимо собирать;

– как их следует использовать (применительно к каким задачам);

– кому их следует раскрывать (доступ третьим лицам);

– в течение какого времени они должны быть доступны.

Цели формирования НД разнообразны, наиболее типичны следующие58:

– разработка СИИ, включающая этап обучения алгоритма искусственного интеллекта и выполнение внутреннего тестирования;

– научная независимая оценка СИИ;

– выполнение аналитической или клинической валидации СИИ, в том числе в рамках клинических испытаний.

Как оформленный этап инициирования появился при внедрении в работу реестра наборов данных? До этого момента, информация о них хранилась разрозненно и не структурированно, иногда не фиксировалась вовсе. С появлением реестра возникла возможность вносить информацию о НД еще на этапе идеи, что позволило эти идеи организовать, отслеживать и развивать. На платформе для инициирования необходимо заполнить ключевую информацию (предварительное название, Ф. И. О. ответственного, ключевая информация в свободной форме), после чего НД появится в реестре и будет доступен для дальнейших манипуляций (рисунок 2.9).


Рисунок 2.9 – Инициирование нового НД на «Платформе подготовки наборов данных»


Планирование. Этап предполагает детальную проработку сформулированной ранее идеи.

На этом этапе осуществляется постановка задачи подготовки НД, включающая определение предметной области и выбор методов обработки. Задача должна быть определена проблемой, на решение которой направлено создание СИИ, ее классом, задачей или целью проведения тестирования59.

Исходя из задачи определяются:

1. Размер набора данных (размер выборки для его формирования). Подробнее этот вопрос рассмотрен в подпараграфе 2.3.1.

2. Баланс данных и распределение классов. Сбалансированный набор данных должен содержать одинаковое количество примеров различных категорий (классов) объектов интереса, включая примеры нормы. При условии бинарной классификации это может соответствовать распределению 50/50 для случаев «патология»/«норма».

Вся информация о будущем НД фиксируется в техническом задании (ТЗ), которое составляется, в том числе с учетом базовых диагностических и функциональных требований Московского эксперимента.

Изначально ТЗ формулировалось в свободной форме, со временем был разработан структурированный шаблон и, наконец, в составе платформы ТЗ реализовано в виде структурированной формы для заполнения. Для удобства часть полей предварительно заполнена, подгружены используемые справочники, настроены связи между ними, реализовано автоматическое формирование названия НД согласно описанным выше правилам, имеются справочные вкладки, поясняющие, какую информацию необходимо внести. Это позволяет тщательно продумать все аспекты будущего НД и, возможно, обратить внимание исследователя на те моменты, которые на первый взгляд могли показаться неважными. Фактически платформа осуществляет обучение процессу создания НД. На основании введенной информации генерируется таблица разметки, если это необходимо.

После утверждения ТЗ вся информация выносится в карточку НД, где она структурирована по разделам: клинические, популяционные, технические параметры, назначение, параметры разметки, ответственные (рисунок 2.10г). В дальнейшем на этапах регистрации и использования эта информация дополняется.


Рисунок 2.10 – Страница набора данных: а – идентификаторы, статус готовности; б – инструменты работы с НД (инструмент работы с ТЗ, инструмент назначения разметчиков, конструктор динамической формы, редактор карточки, ссылки на хранение таблиц с разметкой и без, генератор readme, смена версионности); в – краткая сводная информация о НД и его карточка (полная структурированная информация о наборе)


Формирование. Сбор данных. Первым шагом является непосредственно работа с данными, которая начинается с их поиска и отбора.

Здесь возможны два подхода – для НД представление медицинских данных (феноменов, синдромов, заболеваний, исходов) происходит60:

1) с отражением максимальной вариативности (то есть и частые, и редкие случаи представлены в одинаковом объеме);

2) согласно их частоте встречаемости, предтестовой вероятности, заболеваемости, распространенности в популяции.

Первый подход должен применяться при подготовке НД аналитической валидации СИИ, второй – для клинической (см. подпараграф 2.9.2).

Для тестирования и оценки эксплуатационных характеристик СИИ в набор данных целесообразно добавлять тест-случаи (контрольные тесты), соответствующие ситуациям, сложным для классификации экспертами: данные с высоким уровнем шума либо с ухудшенными характеристиками (например, в результате сбоя оборудования), изображения с недостаточной видимостью целевых объектов, изображения нерелевантных анатомических областей или видов исследований. Включение таких данных позволит проверить устойчивость СИИ в дополнение к заявленным эксплуатационным характеристикам61.

Принципы сбора данных для аналитической валидации62:

1. НД пригоден для определения следующих характеристик: производительность (например, время, затрачиваемое на обработку СИИ медицинского исследования при наличии функции автоматического расчета времени и т.д.), точность интерпретации исследований с учетом функциональных возможностей СИИ, повторяемость, воспроизводимость.

2. НД может включать элементы с нарушением технологии (внешние помехи, артефакты, неверное наложение электродов/датчиков, нарушение последовательности регистрации, укладки пациента и т.п.). При этом такие элементы должны быть помечены должным образом (например, посредством меток в метаданных).

3. При формировании использованы данные из разных медицинских организаций и разных моделей/производителей оборудования, обработку данных с которых изготовитель СИИ включает в функциональное назначение.

Принципы сбора данных для клинической валидации:

1. НД должен быть верифицированным.

2. Сбор данных проводится с учетом следующих аспектов63:

– соотношение «норма»/«патология» или разные заболевания в НД определяют областью применения СИИ;

– используют данные из разных медицинских организаций и разных моделей/производителя оборудования;

– демографические, социально-экономические характеристики и основные показатели здоровья пациентов (репрезентативная выборка) должны соответствовать усредненным характеристикам популяции территории, на которой планируется использование СИИ;

– планируемый размер набора данных должен быть обоснован в документации испытаний, исходя из статистических соображений и желаемой точности оценки основных метрик (подробнее см. подпараграф 2.3.1).

NB! Принцип многоцентрового сбора данных особо важен для снижения систематической ошибки, так как невключение в НД элементов, получаемых на некой модели оборудования, может привести к разнообразным ограничениям и рискам. Возможно использовать данные из разных медицинских организаций, но обладающие одинаковой структурой и полученные в результате применения оборудования с одинаковым процессом работы (одинаковая модель/производитель)64.

На первых этапах Московского эксперимента сбор данных производился вручную «на потоке»: врач-рентгенолог при просмотре исследований в ЕРИС ЕМИАС фиксировал номера подходящих исследований, а в дальнейшем они отправлялись на разметку. Далее это процесс был оптимизирован путем автоматизации работы с текстовыми протоколами заключений; для этого был разработан инструмент MedLabel65. Из ЕРИС ЕМИАС выгружались анонимизированные текстовые протоколы заключений, далее проводилась предразметка с помощью MedLabel (формировалась таблица, включающая номер исследования, протокол, разметку), после чего врач-рентгенолог пересматривал заключения и корректировал разметку на основании текста. Это позволило существенно ускорить процесс сбора данных, однако применение разработанного программного обеспечения требовало привлечения дополнительного технического специалиста, а в дальнейшем, при расширении направлений Московского эксперимента, Medlabel потребовал доработки. Тогда был реализован более простой метод отбора исследований по «ключевым словам» и «стоп-конструкциям»: специальный алгоритм анализировал наличие слов, характерных для целевой патологии, а также слов, говорящих об отсутствии патологии (например, «не выявлено», «отсутствуют», «без признаков»), и на основании этого присваивал значение разметки. Этот принцип лег в основу разработки инструмента поиска исследований (рисунок 2.11). Он имеет интуитивно понятный интерфейс и позволяет отбирать исследования путем фильтрации по его модальности, процедуре, датам проведения, возрасту пациента, среди которых происходит поиск целевых патологий по текстовым протоколам (рисунок 2.11а). В результате формируется таблица с номерами исследований, текстовыми протоколами и предварительной разметкой. Далее исследования, если требуется, пересматриваются врачом-рентгенологом в подмодуле пересмотра, в основу которого положен инструмент с открытым кодом LabelStudio (рисунок 2.11б). Результат работы модуля – сформированный список идентификаторов исследований с разметкой по текстовым протоколам.


Рисунок 2.11а – Модуль поиска исследований


Рисунок 2.11б – Модуль пересмотра исследований (слева фрагмент выгруженной из модуля поиска таблицы с предварительной разметкой с указанием найденной фразы/слов, относящихся к целевой патологии, справа— окно отображения текстового протокола и форма для разметки)


Выгрузка и деидентификация (анонимизация) исследований. Эти два процесса неразрывно связаны между собой, т.к. выгрузка без анонимизации повышает риск утечки персональных данных и нарушает принципы информационной безопасности. В начале Московского эксперимента этот этап следовал после разметки, т.е. разметчики просматривали исследования в ЕРИС ЕМИАС, а процесс выгрузки и анонимизации завершал формирование НД. Выгрузка производилась с помощью специально разработанного кода. На «Платформе подготовки наборов данных» данный функционал реализован в виде специального модуля: загружается таблица из модуля поиска, настраивается ряд параметров (диапазон дат, модальность, кластер) и производятся выгрузка и анонимизация исследований (можно выбрать отдельные серии или исследования из списка) (рисунок 2.12).


Рисунок 2.12 – Модуль выгрузки и анонимизации исследований из ЕРИС ЕМИАС


Относительно деидентификации необходимо указать, что в целом элементы НД не должны содержать какую-либо персональную информацию согласно действующим нормативно-правовым актам; любая персональная информация должна быть удалена как из метаданных, так и из исходных данных. Также должны быть удалены любые иные идентификаторы, с помощью которых потенциально возможно установить личность пациента. Деидентификация данных должна быть произведена в МО, в которой было проведено медицинское исследование, при условии наличия согласия пациента на обработку его персональных данных, включая деидентификацию (обезличивание)66.

Деидентификация метаданных и изображений в формате DICOM проводится в соответствии с ГОСТ Р 71674—202467.

Разметка (аннотация).

В глобальной перспективе существуют два условно стандартизированных подхода к разметке (аннотированию) медицинских данных68:

1. «Аннотация и разметка изображений» (англ. annotation and image markup (AIM)). Использует три базовых концепта:

1) визуальные наблюдения («масса», «поражение», «очаг»);

2) анатомические объекты («затылочная доля», «теменная доля», «медиальный сегмент средней доли правого легкого»);

3) интерференция (нарушение) (поражение речевого центра», «плевральный выпот», «пневмония»).

Визуальным наблюдениям и анатомическим объектам задают характеристики. Например, характеристики наблюдений – «предполагаемый», «кистозный», объектов – «расширенный», «разорванный». После задания характеристик наблюдений и объектов проводят их количественную оценку. Ее допустимо выражать в терминах «присутствует», «отсутствует», «не применимо» либо квартиль/процентиль, либо в произвольной шкале и др. Проводят совмещение этой описательной информации с графическими символами, располагаемыми экспертами на самом изображении, в единый тип данных.





















1
...
...
13