Новости

30 марта 2026 Новости

OCR + AI в RWE: как мы превратили “переписывание бумажек” в поток данных

Сбор данных в проектах реальной клинической практики (RWE) всегда находится в балансе между двумя задачами: скоростью получения информации и контролем её качества.

С одной стороны, очевидным направлением развития является прямой доступ к данным из первичных систем - медицинских информационных систем (МИС), лабораторных сервисов и других источников. Такой подход действительно позволяет ускорить процессы и снизить количество ручных операций.

Однако на практике его применение существенно ограничено.

Во-первых, вопросы безопасности и защиты персональных данных остаются критически важными. Главные врачи лечебных учреждений, ИТ-службы медицинских организаций и спонсоры обоснованно предъявляют высокие требования к контролю доступа, хранению и передаче информации.

Во-вторых, в многоцентровых исследованиях практически невозможно обеспечить единый уровень интеграции со всеми источниками данных. Каждое учреждение использует собственные системы, архитектуру и правила доступа.

В-третьих, сами данные по своей природе остаются фрагментированными. Они поступают из разных каналов:

  • медицинские информационные системы
  • лабораторные системы
  • внешние источники 
  • данные, вводимые врачами
  • данные, вводимые пациентами

Даже при наличии частичных интеграций невозможно полностью исключить необходимость работы с первичной документацией. 

По нашему многолетнему опыту работы с RWE, это не экономит бюджет и не дает выигрыша в качестве данных, даже на больших обьемах. И тренд поэтому мы видим однозначный - контролируемый ввод данных и проспективный характер исследований. 

В этих условиях ручной ввод данных продолжает выполнять важную функцию контроля. Он обеспечивает проверку информации человеком перед попаданием в систему и снижает риски некорректной интерпретации.

Однако именно этот этап становится узким местом всей модели.

Ручной перенос данных из первичных источников в eCRF неизбежно приводит к:

  • ошибкам ввода
  • потере части информации
  • увеличению времени работы исследователей
  • росту нагрузки на мониторинг и последующую валидацию

Фактически, значительная часть ресурсов проекта уходит на компенсацию ограничений этого процесса.

Таким образом, индустрия оказывается в противоречивой ситуации. С одной стороны, полный переход к прямым интеграциям ограничен требованиями безопасности, архитектурой систем и разнообразием источников. С другой стороны, ручной ввод, оставаясь инструментом контроля, становится источником системных потерь.

Именно в этой точке возникает наиболее рациональный вектор развития: не отказ от контролируемого ввода, а его качественная трансформация.

Подход, при котором первичные данные не переписываются вручную, а автоматически извлекаются, интерпретируются и предлагаются пользователю для подтверждения, позволяет сохранить контроль и одновременно устранить ключевые недостатки текущей модели.

И здесь технологии OCR ( оптического распознавания текста) в связке с нейронными моделями открывают принципиально новые возможности.

Они позволяют работать с первичной документацией напрямую, независимо от её формата и источника, превращая её в структурированные данные внутри системы без потери контекста и с сохранением контроля со стороны пользователя.

Именно на этой идее основан новый механизм, который мы реализовали на платформе MainEDC.

Что мы сделали

За последние 5 месяцев мы провели пилоты в трёх проектах с двумя спонсорами. За что командам отдельная большая благодарность от нас! Согласиться протестировать новую технологию прямо на исследовательских центрах - это уровень доверия и смелости, который двигает индустрию вперёд! 

Речь идет не просто о распознавании текста и не о дополнительной утилите "для экспериментов". Мы говорим о новом механизме работы с первичными данными внутри нашей платформы.

Пользователь находится прямо в форме eCRF (эИРК) и фиксирует первичный источник. Это может быть бумажная выписка, лабораторный бланк, экран с электронной первичкой или pdf на другом устройстве. После этого система автоматически извлекает текст, интерпретирует медицинский контекст и раскладывает данные по соответствующим полям формы.

Иными словами, исследователь больше не должен вручную переносить каждое значение. Система берет на себя первичную обработку, а пользователь подтверждает результат. Такой подход меняет саму логику взаимодействия с данными: вместо ручного переписывания появляется контролируемое подтверждение уже структурированной информации.




Технологический подход

Решение основано на интеграции трех ключевых компонентов:

  • OCR (оптическое распознавание текста) для извлечения информации из первичных источников
  • встроенной нейронной модели для интерпретации медицинского контекста (процесс обучения продолжается и не будет останавливаться)
  • механизма автоматического маппинга данных в структуру eCRF
По понятным ( включая регуляторные) причинам все компоненты системы работают на наших собственных серверах. Мы, как и раньше, не используем внешние коммерческие продукты, а исключительно OpenSource с возможностью полного контроля исходного кода и работоспособности системы.  

Как это работает

Сценарий максимально простой:

  1. Врач находится прямо в форме eCRF 
  2. Берёт первичный источник
  3. И просто фотографирует его ( или прикрепляет сканированное изображение)
Это может быть:

  • бумажная выписка
  • лабораторный бланк
  • экран с электронной историей
  • pdf на другом устройстве
Дальше система делает всё сама:

  • OCR извлекает текст
  • встроенная нейронка понимает медицинский смысл
  • данные автоматически раскладываются по полям eCRF
Врач не вводит. Врач подтверждает. И довводит то, что не распозналось. 
И да. Это работает даже если вы фотографируете электронную первичку с экрана!

Где мы сами удивились

Самый сильный эффект оказался в лаборатории.
Классическая модель - ручной ввод лабораторных данных - почти всегда гарантирует ошибки.

Наша модель:

  • кратное снижение ошибок
  • корректная интерпретация показателей
  • автоматическое попадание в нужные поля
  • учёт единиц измерения и контекста
В рамках пилота удалось добиться существенного снижения ошибок при вводе лабораторных данных. По внутренним оценкам, количество ошибок уменьшилось кратно по сравнению с ручным вводом, а в ряде сценариев - на порядок.

Лаборатория из “зоны риска” превращается в “зону автоматизации”.

Результаты за полгода

Честно, мы ожидали, что это будет "интересно", получилось намного сильнее!

  • до 60-80% полей в eCRF заполняются автоматически
  • время работы врача сокращается кратно
  • нагрузка на мониторинг падает
  • качество данных растёт
И ключевое - данные становятся ближе к первоисточнику
Без искажений “как понял врач”.

Это не просто OCR

Очень важно: это не инструмент для распознавания текста

Это связка:

  • OCR
  • встроенная нейронная модель
  • медицинская логика
  • структура исследования
Система понимает:

  • что это за показатель
  • куда его положить
  • в каком формате
  • и что с ним делать дальше

Что это меняет для проектов RWE

Практический эффект здесь шире, чем просто ускорение ввода.

Во-первых, снижается нагрузка на исследовательские центры. Это особенно важно для проектов, где и без того высокий объем рутинной работы.

Во-вторых, улучшается качество данных. Чем меньше ручных промежуточных этапов между первоисточником и системой, тем ниже вероятность искажений.

В-третьих, сокращается нагрузка на последующие этапы контроля, мониторинга и очистки данных.

В-четвертых, появляется совершенно другой потенциал масштабирования. Если ручной ввод перестает быть узким местом, значит и регистры, и наблюдательные проекты, и другие RWE-инициативы могут запускаться и расширяться значительно эффективнее.

Мы серьезно считаем, что именно такие механизмы в ближайшие годы будут менять стандартную практику работы с данными в RWE.

Что будет дальше

Мы уже сейчас видим, что качество работы этого механизма будет расти по мере накопления новых кейсов и расширения сценариев использования. Это не статичный инструмент, а развивающийся компонент платформы.

С учетом того, что MainEDC уже используется в проектах с регистрами, лабораторными данными и внешними источниками, мы ставим перед собой конкретную цель: к концу года сократить объем ручного ввода данных в RWE-проектах как минимум в 2 раза.

И мы считаем эту цель реалистичной.

Более того, мы уверены, что потенциал применения этого механизма выходит за рамки RWE. Там, где есть первичные документы, высокая нагрузка на центры и необходимость повышать качество данных, такой подход будет востребован и в клинических исследованиях.

Доступность для клиентов MainEDC

Мы приняли для себя важное решение: данный механизм не станет отдельной дорогой надстройкой для ограниченного круга пользователей экосистемы.

Начиная с Q4 2026 функционал будет доступен без дополнительной платы во всех RWE-проектах на платформе MainEDC, включая:

  • регистры заболеваний
  • постмаркетинговые наблюдательные исследования
  • неинтервенционные исследования
  • долгосрочные наблюдательные когорты
  • программы поддержки пациентов
  • гибридные RWE-модели
  • маркетинговые исследования
  • косметология
  • исследования БАД
  • ветеринария (не-EMA проекты)

Для нас это принципиальная позиция. Если технология действительно снижает ручную нагрузку и повышает качество данных, она должна становиться частью стандартного процесса, а не оставаться нишевой опцией. Вы сможете сами решить включать ли функционал в том или ином исследовании.

Смотрите релизы, они выходят и публикуются в соот. разделе Help платформы каждую среду 😀

Early adopters

До полного масштабного запуска мы открываем программу раннего доступа. Сейчас мы ищем early adopters - команды, которые готовы протестировать новый механизм на своих проектах, дать предметную обратную связь и вместе с нами докрутить отдельные сценарии применения.

Подключение на этом этапе будет выборочным, поскольку для нас важно сохранить управляемость запуска и обеспечить максимальную практическую ценность на первых внедрениях.

Если вы хотите попасть в первую волну, напишите нам: contact@dm365.ru

Вместо заключения

Мы рассматриваем этот запуск не как косметическое обновление платформы, а как важный шаг к новой модели работы с данными в исследованиях.

Когда первичка перестает быть источником ручного переписывания и начинает превращаться в структурированные данные прямо внутри MainEDC, меняется не только удобство работы пользователя. Меняется скорость проекта, качество данных и сама операционная логика исследования.

Именно поэтому мы считаем этот механизм одним из самых перспективных направлений развития платформы сегодня.

Если вам интересно посмотреть, как это работает на практике, мы с удовольствием покажем демо на реальных сценариях.

Мы на связи!  - contact@dm365.ru