Un modelo de IA inspirado en el desarrollo infantil podría acercar la visión artificial a la humana

A diferencia de los métodos convencionales, el modelo DVD no requiere escalar el tamaño de los sistemas para mejorar su precisión, ya que logra redes más resistentes a errores y ataques con menos datos de entrenamiento

Guardar
Google icon
Ilustración plana de un bebé mirando una imagen borrosa a la izquierda, y un cerebro digital con nodos de IA viendo la misma imagen nítida a la derecha
Investigadores alemanes presentan el método DVD para entrenar redes neuronales de visión artificial inspirado en el desarrollo visual infantil (Imagen Ilustrativa Infobae)

Investigadores de la Universidad de Osnabrück y la Freie Universität Berlin desarrollaron un método de entrenamiento para redes neuronales de visión artificial que replica la maduración visual humana desde la infancia, con el objetivo de reducir la vulnerabilidad de estos sistemas ante errores y ataques deliberados, según informó el portal especializado en tecnología TechXplore.

El modelo, denominado developmental visual diet (DVD, por sus siglas en inglés), entrena las redes con capacidades visuales progresivas que avanzan de forma secuencial, tal como ocurre en el desarrollo infantil.

PUBLICIDAD

Este enfoque busca corregir una brecha conocida entre la visión humana y la artificial: los modelos actuales priorizan la textura —variaciones de color y patrones superficiales— mientras que los humanos identifican objetos por su forma y contorno. Esa discrepancia, según el equipo, es una de las razones por las que los sistemas actuales cometen más errores que los ojos humanos.

“Estábamos convencidos de que la pobre robustez de las redes neuronales profundas se debía a su dependencia de las características de textura, que, a su vez, parece surgir del modo en que son entrenadas”, señaló Tim C. Kietzmann, autor principal del estudio y profesor en la Universidad de Osnabrück.

PUBLICIDAD

Infografía con dos ojos digitales futuristas conectados por circuitos, mostrando detalles del método DVD para visión artificial en seis paneles explicativos.
Esta infografía explica el innovador método de entrenamiento para IA, denominado DVD, replica la maduración visual infantil para mejorar la robustez y precisión de la visión artificial (Imagen Ilustrativa Infobae)

Para ilustrar el problema, el autor recuperó una observación del profesor Alexei Efros, de la Universidad de California en Berkeley: “Estamos criando una generación de algoritmos como universitarios que no fueron a clase en todo el semestre y la noche antes del examen se ponen a estudiar; no aprenden el material de verdad, pero aprueban el examen”.

Para revertir ese patrón, el equipo revisó una amplia variedad de trabajos sobre desarrollo visual infantil e identificó tres factores biológicos relevantes: agudeza visual, sensibilidad al contraste y percepción del color. El modelo, detallado en la revista Nature Machine Intelligence replica el progreso natural de estos factores durante la primera infancia: los sistemas de inteligencia artificial arrancan con capacidades visuales limitadas y alcanzan, de forma gradual, una percepción detallada, de modo similar a como ocurre con los bebés.

Resultados: mayor resistencia sin sacrificar velocidad

Al poner a prueba la nueva estrategia, los investigadores observaron que los modelos basados en DVD utilizaron de forma preferente información relacionada con la forma de los objetos. Además, fueron menos vulnerables a corrupciones en las imágenes y a ataques adversarios intencionados, y superaron a los métodos convencionales en el reconocimiento de figuras abstractas ocultas en escenarios complejos, una tarea en la que incluso los algoritmos más avanzados suelen fallar.

Esa robustez no depende del tamaño ni la escala de los modelos, un aspecto que diferencia a DVD de otras tendencias recientes en inteligencia artificial. Como subrayó Kietzmann: “En estos tiempos, ‘aumentar la escala’ suele ser la respuesta para resolver los problemas de IA; esto es una alternativa a pequeña escala. Como DVD es una canalización de preprocesamiento, apenas afecta los tiempos de entrenamiento y la inferencia se realiza sobre imágenes de alta resolución, por lo que los modelos conservaron la misma velocidad que los originales“.

Un ojo digital azul y cian de inteligencia artificial sobre un fondo negro. El iris se compone de circuitos integrados y microprocesadores. Líneas de circuito impreso emanan de sus extremos.
Las pruebas demuestran que DVD reduce la vulnerabilidad de la visión artificial ante ataques y errores en imágenes complejas (Imagen Ilustrativa Infobae)

En términos prácticos, el método permite entrenar arquitecturas más pequeñas con menos datos sin perder precisión ni resistencia ante perturbaciones. Eso abre una vía para el desarrollo de sistemas visuales artificiales aplicables a tareas que van desde el reconocimiento de rostros hasta la generación de imágenes con cualidades específicas.

Más allá de la robustez: marcos inspirados en el desarrollo biológico

El equipo considera que este avance puede llevar al diseño de marcos de entrenamiento inspirados en el desarrollo cerebral y sensorial humano. El potencial de la estrategia DVD no se limita a la robustez: ofrece una solución técnica que, según los autores, podría trasladarse también a modelos de redes neuronales artificiales empleados como modelos del cerebro.

Kietzmann anticipó que sus próximos estudios buscarán nuevas fuentes de inspiración en la neurobiología para aumentar la confiabilidad y el rendimiento de los sistemas de visión artificial. “Ahora estamos explorando otros conceptos inspirados en el cerebro y el desarrollo sensorial, que podrían dar lugar a sistemas de visión artificial más robustos. Al mismo tiempo, investigamos las implicaciones de los hallazgos de DVD para utilizar las redes neuronales artificiales como modelos de la función cerebral”, declaró.

Entre los aportes técnicos más relevantes de este enfoque, la canalización DVD apenas incide en el tiempo requerido para entrenar a los modelos. Los sistemas pueden procesar imágenes de alta resolución con la misma velocidad que los métodos convencionales, lo que afianza su utilidad en aplicaciones a gran escala en las que la eficiencia computacional es una prioridad.

PUBLICIDAD

PUBLICIDAD