¿Cómo implementar OMOP CDM y no morir en el intento?

Disponer de datos del mundo real proporciona un marco idóneo para realizar estudios de investigación clínica. Sin embargo, su selección y preparación supone un gran esfuerzo tanto para investigadores como para el personal TIC de la organización. Disponer de grandes volúmenes de datos de calidad es además la base de cualquier uso de IA que se quiera realizar en la organización. Se estima que el 80% del tiempo de los investigadores y el 50% del tiempo del personal TIC se destina a la selección y preparación de los datos. La utilización de estándares permite reducir al mínimo este esfuerzo, proporcionando a los investigadores herramientas para la consulta y creación de cohortes sin la intervención del personal TIC.

Metodología

Uno de los modelos normalizados más utilizados en la actualidad para investigación con datos del mundo real es el modelo Observational Medical Outcomes Partnership (OMOP CDM).  Sólo en el proyecto europeo EHDEN hay ahora mismo 187 bases de datos normalizadas en  OMOP CDM, estando 27 de ellas localizadas en España y 4 en la Comunitat Valenciana.

El estándar OMOP CDM proporciona un modelo de base de datos relacional y un modelo de vocabulario estándar que permite armonizar los datos para facilitar su reutilización. El principal esfuerzo a realizar consiste en transformar los datos al estándar OMOP CDM a partir de los datos ya registrados en los sistemas de HCE existentes. Los pasos necesarios para obtener una base de datos normalizada son los siguientes:

  1. Analizar el significado de los datos origen. Se deben analizar las potenciales tablas en el origen que tengan información demográfica de pacientes, episodios/visitas, condiciones, procedimientos, medicamentos y notas clínicas. En España el CMBD es una muy buena fuente para poblar un OMOP CDM, aunque casi cualquier base de datos disponible en la organización puede ser una fuente de información. 
  1. Comprender y mapear los vocabularios y terminologías locales a estándares internacionales. Si en origen la organización ya utiliza terminologías estándares (por ejemplo, CIE, SNOMED CT o LOINC), este paso es más sencillo. Hay que ser conscientes además del marco temporal en el que se empezaron a utilizar dichas terminologías (p.ej. cambio CIE9 a CIE10, fecha en la que se empezó a utilizar SNOMED CT en la organización, etc.). En caso de emplear vocabularios locales será necesario realizar un trabajo de definición de correspondencias entre los diferentes códigos. Este trabajo ya se ha realizado para casos como el de los códigos de medicamentos de la AEMPS.
  1. Diseñar e implementar los programas de extracción, transformación y carga (ETL) de datos. Pueden utilizarse tecnologías diferentes para este desarrollo, pero en todos los casos es fundamental documentar la lógica de los ETL para asegurar su mantenimiento y escalabilidad futura. Se debe decidir también si la carga de los datos se realizará puntualmente o si se dará soporte a cargas y actualizaciones incrementales. Habrá que tener en cuenta en ese caso que estos procesos son computacionalmente intensivos.
  1. Normalización y validación de datos. Una vez se realiza la transformación y carga de los datos en OMOP CDM será necesario validar su calidad para asegurar que se han transformado correctamente y que pueden emplearse para realizar investigaciones clínicas de forma segura. En caso de detectarse incidencias, se deberán revisar todos los pasos anteriores ya que el error puede haberse generado en cualquiera de ellos. Una tabla de datos puede no haber sido bien interpretada, unos códigos pueden no haber sido bien mapeados, o la implementación puede ser defectuosa.

Resultados

En la Comunitat Valenciana hemos colaborado con varias organizaciones, aplicando esta metodología para la construcción y validación de bases de datos OMOP CDM.

Base de datos OMOP CDMOrganizaciónNúmero de pacientes
HULAFE Hospital Universitario La Fe2 274 159
Marina Salud DeniaHospital de Denia Marina Salud314 587
ABUCASIS INCLIVA4 014 819
VID-CONSIGNFISABIO1 964 588

Bases de datos normalizadas en OMOP CDM en la Comunitat Valenciana

El conjunto de datos principal para poblar una base de datos OMOP CDM suele proceder de bases de datos relacionales y de datos estructurados (XML o JSON). Pero OMOP CDM puede además poblarse desde otras fuentes de datos como el texto libre y la imagen médica. En Veratech hemos participado en varios proyectos que atacan estos dominios, como el proyecto ChronicExtract donde se ha poblado una base de datos OMOP CDM con información de pacientes diabéticos con información contenida en notas clínicas narrativas.  Este proyecto tiene como objetivo último desarrollar un cuadro de mandos para pacientes diabéticos donde la base de datos OMOP CDM centraliza toda la información clínica. Algunos de los datos relevantes se encuentran exclusivamente dentro de notas clínicas narrativas. Fue necesario utilizar técnicas de procesamiento de lenguaje natural para encontrar las menciones a los conceptos clínicos relevantes. Las menciones encontradas fueron posteriormente representadas por medio de las tablas y vocabulario OMOP CDM. Otra fuente de información para el entrenamiento de modelos predictivos es la imagen clínica. El modelo OMOP CDM dispone de la extensión radiológica que permite enlazar los datos observacionales provenientes de la HCE con los metadatos de imagen médica. Veratech ha participado en el proyecto Tartaglia en el que se ha hecho uso de esta extensión para que sirva de base al entrenamiento de modelos con imagen y variables clínicas. 

Conclusiones y trabajo futuro

La normalización a OMOP CDM proporciona ventajas a la investigación clínica, como dotar a los datos de una semántica clara y mejorar su calidad. Es cierto que el esfuerzo inicial para realizar esta normalización es considerable, pero una vez hecho las ventajas son evidentes. Ante cada nueva investigación clínica no tendremos que dedicar tiempo a la preparación y limpieza de los datos. OMOP CDM dispone del entorno ATLAS que permite a los profesionales sanitarios crear cohortes de pacientes a partir de filtros sobre la información almacenada en la base de datos, sin requerir intervención del personal TIC.

La normalización a OMOP CDM es también una oportunidad para extraer el conocimiento existente en texto libre de documentos clínicos y en las imágenes almacenadas. Se pueden implementar procesos de análisis de estos datos para extraer o anotar conceptos clínicamente relevantes sobre la salud de los pacientes.

Finalmente, si OMOP CDM se expande a más hospitales y centros de atención,  tendremos una oportunidad única de crear en la Comunitat Valenciana una red federada de investigación sobre datos del mundo real basada en OMOP CDM. Compartiendo una misma base de información, se pueden realizar estudios clínicos multicéntricos, compartiendo incluso las consultas y la definición de parámetros para la construcción de las cohortes de investigación. Y esto se puede realizar no solo a nivel regional, si no que también puede permitir participar en investigaciones nacionales e internacionales con un mínimo esfuerzo para la gestión de los datos clínicos.

Autores:

  • Beatriz Navarro Ventura. Científica de datos en Veratech for Health S.L. 
  • Diego Boscá Tomás, Ph.D. Consultor en interoperabilidad semántica en Veratech for Health S.L. 
  • David Moner Cano, Ph.D. Consultor en interoperabilidad semántica en Veratech for Health S.L.