Los modelos que analizan radiografías pueden evaluar con errores determinados cuadros clínicos para hombres y mujeres si son entrenados con datos desbalanceados, según un estudio argentino.
(Agencia CyTA-Fundacion Leloir)-. Las instituciones médicas están adoptando en todo el mundo sistemas de inteligencia artificial (IA) para el diagnóstico y la detección asistida por computadora a partir de imágenes tales como radiografías, resonancias y tomografías. Ahora, un estudio de investigadores de Santa Fe demostró que esos sistemas pueden incurrir en un sesgo de género en detrimento de la salud de miles de pacientes.
Se trata de la primera investigación sobre el sesgo de género que pueden adquirir los modelos de diagnóstico asistido por computadoras al ser entrenados con datos desbalanceados. El trabajo fue realizado por científicos del Instituto de Investigación en Señales, Sistemas e Inteligencia Computacional o “sinc(i)”, con sede en la Ciudad de Santa Fe.
“Lo que encontramos es que si un modelo de diagnóstico asistido por computadora basado en aprendizaje automático sobre imágenes de rayos X es entrenado con datos desbalanceados de hombres y mujeres (es decir, pocos datos de alguno de ellos), el modelo puede presentar un rendimiento más bajo en el grupo subrepresentado”, afirmó a la Agencia CyTA-Leloir el coordinador del estudio, Enzo Ferrante, investigador del sinc(i), que depende de la Universidad Nacional del Litoral (UNL) y del CONICET, y tiene sede en la Facultad de Ingeniería y Ciencias Hídricas (FICH-UNL) .
Hace algún tiempo, la comunidad de IA comenzó a advertir sobre distintos tipos de sesgo en modelos predictivos de inteligencia artificial, mayormente adquiridos a partir de los datos que habían sido utilizados para su entrenamiento. Por ejemplo, algoritmos de traducción de inglés a español que amplificaban los estereotipos de género existentes en nuestra sociedad, o modelos para la clasificación de imágenes que presentaban un rendimiento más bajo en grupos minoritarios.
“Esto nos llevó a adentrarnos en el estudio de un campo emergente dentro de las ciencias de la computación: el de equidad o fairness en aprendizaje automático (machine learning)”, indicó Diego Milone, investigador del CONICET y Director del sinc(i).
En 2019 se celebró en Santa Fe el Congreso Internacional de Género en Ciencia, Tecnología e Innovación, que llevó al grupo a conocer los trabajos de Londa Schiebinger, de la Universidad de Stanford, Estados Unidos, sobre la necesidad de integrar la dimensiones sexo-género en el análisis y diseño experimental en ciencia y tecnología. Allí participaron los primeros autores del trabajo Agostina Larrazabal y Nicolás Nieto, ambos becarios doctorales en el sinc(i), junto a Victoria Peterson, becaria postdoctoral en el Instituto de Matemática Aplicada del Litoral.
Dado que Ferrante y sus colegas se dedican al desarrollo de nuevos métodos computacionales para el análisis de imágenes biomédicas (como imágenes de rayos X, tomografía computada o resonancia magnética), comenzaron a preguntarse cuáles serían las implicancias de los sesgos de género en ese campo de aplicación y qué se podría hacer para mitigar su impacto.
“Entrenamiento” de los sistemas de IA
¿Cómo aprenden estos sistemas? Se utiliza un conjunto de datos (imágenes con el correspondiente diagnóstico médico) para “entrenarlos” y luego se les pide que arrojen una predicción sobre una nueva imagen médica que no habían visto.
En el nuevo estudio, publicado en Proceedings of the National Academy of Sciences (PNAS), los científicos santafesinos utilizaron bases de datos públicas: una curada por investigadores de la Universidad de Stanford, con 65.240 pacientes con un total de 224.316 imágenes, y otra publicada por el National Institutes of Health de Estados Unidos (NIH) que incluye 30.805 pacientes y un total de 112.120 imágenes.
Estas bases de datos están compuestas por radiografías de tórax de todos los pacientes, acompañadas por el correspondiente diagnóstico médico que indica si poseen o no distintas patologías comunes del tórax que pueden afectar tanto a hombres como mujeres, por ejemplo hernias, neumonía, fibrosis, enfisema, edema, engrosamiento pleural y neumotórax.
Los modelos utilizados están basados en redes “neuronales” convolucionales profundas y son entrenados para predecir si esas patologías del tórax están presentes o no en la imagen. En sus experimentos, los científicos del CONICET y de la UNL generaron conjuntos de datos considerando distintos porcentajes de hombres y mujeres, y luego evaluaron el rendimiento de cada modelo a la hora de predecir el diagnóstico en nuevas imágenes de hombres y mujeres por separado, cuantificando el rendimiento en ambos grupos.
En concreto, lo que hicieron fue entrenar distintos modelos usando bases de datos de entrenamiento con diferentes niveles de desbalance de género, por ejemplo, 25% de hombres y 75% de mujeres, o 0% y 100% respectivamente. Luego evaluaron el rendimiento del modelo en nuevas imágenes de personas de ambos sexos por separado.
“Lo que encontramos es que si el desbalance de género es muy grande, el rendimiento del modelo disminuye significativamente en el género subrepresentado”, afirmó Ferrante, especialista en aprendizaje automático y visión computacional. Y agregó: “Incluso en los casos de desbalance intermedio como 25%-75%, el rendimiento del modelo en el grupo minoritario se ve reducido”.
Si no se toman en cuenta estos desbalances, advirtieron los científicos, puede ocurrir que el sistema indique que determinadas patologías están presentes cuando en realidad no están (falso positivo), o viceversa (falso negativo).
Los investigadores santafesinos creen que su trabajo tiene implicaciones a varios niveles. En primer lugar, respecto a las personas que diseñan las bases de datos que luego serán utilizadas para entrenar los sistemas de diagnóstico basados en IA. “En este sentido, es importante contar con la información demográfica que nos permita luego comprobar que el rendimiento de nuestros modelos sea independiente del género, edad, etnia y otros atributos, es decir, que su desempeño no disminuya en grupos minoritarios”, afirmaron los investigadores.
En segundo lugar, el nuevo estudio es importante para que quienes se desempeñan en las ciencias de la computación desarrollen modelos que sean “justos”, insistieron. El diseño experimental y los modelos desarrollados en este trabajo constituyen una base de referencia para futuras investigaciones en la temática.