Opinión: Las cajas negras de la IA ya son un poco menos misteriosas

Guardar

(The Shift)

SAN FRANCISCO -- Una de las cosas más extrañas e inquietantes acerca de los principales sistemas de inteligencia artificial de la actualidad es que nadie --ni siquiera las personas que los construyen-- sabe realmente cómo funcionan.‌Esto se debe a que los modelos de lenguaje de gran tamaño, el tipo de sistemas de inteligencia artificial que impulsan ChatGPT y otros chatbots populares, no son programados línea por línea por ingenieros humanos, como sucede con los programas informáticos convencionales.‌En cambio, estos sistemas, en esencia, aprenden por sí solos, al ingerir grandes cantidades de datos, identificar patrones y relaciones en el lenguaje, y luego usar ese conocimiento para predecir las siguientes palabras en una secuencia.‌Una consecuencia de construir sistemas de IA de esta manera es que es difícil aplicarles ingeniería inversa o solucionar problemas identificando errores de software específicos en el código. En este momento, si un usuario escribe: "¿Qué ciudad estadounidense tiene la mejor comida?" y un chatbot responde: "Tokio", no hay una manera real de comprender por qué el modelo cometió ese error, o por qué la siguiente persona que pregunte podría recibir una respuesta diferente.

El hermetismo de los modelos de lenguaje de gran tamaño no es solo una molestia, sino una de las principales razones por las que algunos investigadores temen que los potentes sistemas de inteligencia artificial puedan convertirse con el tiempo en una amenaza para la humanidad.‌Después de todo, si no podemos entender lo que sucede dentro de estos modelos, ¿cómo sabremos si pueden usarse para crear nuevas armas biológicas, difundir propaganda política o escribir códigos informáticos maliciosos para ataques cibernéticos? Si sistemas poderosos de inteligencia artificial comienzan a desobedecernos o engañarnos, ¿cómo podremos detenerlos si no podemos entender qué es lo que está causando ese comportamiento?‌Para abordar estos problemas, un pequeño subcampo de la investigación sobre IA conocido como "interpretabilidad mecanicista" lleva años intentando mirar dentro de las entrañas de los modelos de lenguaje de inteligencia artificial. El trabajo ha sido lento y el progreso ha sido gradual.‌También ha habido una resistencia cada vez mayor a la idea de que los sistemas de IA representan un gran riesgo. La semana pasada, dos investigadores principales de seguridad de OpenAI, el fabricante de ChatGPT, abandonaron la empresa en medio de un conflicto con los ejecutivos sobre si la empresa estaba haciendo lo suficiente para que sus productos fueran seguros.‌Pero esta semana, un equipo de investigadores de la empresa de inteligencia artificial Anthropic anunció lo que calificaron como un gran avance, uno que esperan que nos brinde la capacidad de comprender mejor cómo funcionan realmente los modelos de lenguaje de IA y posiblemente evitar que se vuelvan perjudiciales.‌El equipo resumió sus hallazgos en una publicación de blog llamada "Mapeando la mente de un modelo de lenguaje de gran tamaño".‌Los investigadores observaron el interior de uno de los modelos de IA de Anthropic --Claude 3 Sonnet, una versión del modelo de lenguaje Claude 3 de la compañía-- y utilizaron una técnica conocida como "aprendizaje de diccionarios" para descubrir patrones en la manera en que las combinaciones de neuronas artificiales (también llamadas nodos), las unidades matemáticas dentro del modelo de IA, se activaron cuando a Claude se le dio la instrucción de hablar sobre ciertos temas. Identificaron aproximadamente 10 millones de estos patrones, a los que llamaron "características" ("features").‌Descubrieron que una característica, por ejemplo, estaba activa cada vez que se le pedía a Claude que hablara sobre San Francisco. Otras características estaban activas siempre que se mencionaban temas como la inmunología o términos científicos específicos, como el elemento químico litio. Y algunas características estaban vinculadas a conceptos más abstractos, como el engaño o el sesgo de género.‌También descubrieron que activar o desactivar manualmente ciertas características podía cambiar el comportamiento del sistema de inteligencia artificial o podía hacer que el sistema incluso rompiera sus propias reglas.‌Por ejemplo, descubrieron que, si forzaban una característica vinculada al concepto de adulación a activarse con más fuerza, Claude respondía con elogios rebuscados y exagerados para el usuario, incluso en situaciones en las que los halagos eran inapropiados.‌Chris Olah, quien dirigió el equipo de investigación de interpretabilidad de Anthropic, dijo en una entrevista que estos hallazgos podrían permitir a las empresas de IA controlar sus modelos de manera más efectiva.‌"Estamos descubriendo características que podrían darnos datos en cuanto a preocupaciones sobre sesgos, riesgos de seguridad y autonomía", indicó. "Me emociona mucho que podamos convertir estas cuestiones controvertidas sobre las que la gente discute en cosas sobre las que podamos tener un discurso más productivo".‌Otros investigadores han encontrado fenómenos similares en modelos de lenguaje de tamaño pequeño y mediano. Pero el equipo de Anthropic es de los primeros en aplicar estas técnicas a un modelo de gran tamaño.‌Jacob Andreas, profesor asociado de informática en el Instituto Tecnológico de Massachusetts, que revisó un resumen de la investigación de Anthropic, lo caracterizó como una señal esperanzadora de que la interpretabilidad a gran escala pueda ser posible.‌"De la misma manera en que comprender aspectos básicos sobre el funcionamiento del cuerpo humano nos ha ayudado a curar enfermedades, comprender cómo funcionan estos modelos nos permitirá reconocer cuando las cosas estén a punto de salir mal y crear mejores herramientas para controlarlas", afirmó.‌Olah, líder de la investigación de Anthropic, advirtió que si bien los nuevos hallazgos representaban un progreso importante, la interpretabilidad de la IA aún estaba lejos de ser un problema resuelto.‌Para empezar, dijo, los modelos de IA más grandes probablemente contengan miles de millones de características que representan conceptos distintos, muchas más que los aproximados 10 millones de características que el equipo de Anthropic afirma haber descubierto. Encontrarlas todas requeriría enormes cantidades de potencia informática y sería demasiado costoso para las empresas de IA, excepto para las más ricas.‌Incluso si los investigadores identificaran cada característica en un modelo de IA de gran tamaño, aún necesitarían más información para comprender todo el funcionamiento interno del modelo. Además, no hay garantía de que las empresas de IA tomen medidas para hacer que sus sistemas sean más seguros.‌Aun así, Olah afirmó que, incluso abrir un poco estas cajas negras de la IA podría permitir que las empresas, los reguladores y el público en general se sientan más seguros de que estos sistemas pueden controlarse.‌"Hay muchos otros retos por delante, pero lo que parecía más aterrador ya no parece un obstáculo", aseveró.

Las oficinas de Anthropic en San Francisco, el 7 de junio de 2023. (Marissa Leshnov/The New York Times).

New York Times BC SPA ROOSE COLUMN ART NYT

Últimas Noticias

EEUU atacó radares hutíes en Yemen tras la desaparición de un marino mercante

“Estos radares permiten a los hutíes apuntar a embarcaciones y poner en peligro la navegación comercial”, indicó el Comando Central norteamericano

Lula aseguró que Brasil está listo para firmar el acuerdo entre el Mercosur y la UE: “Ahora el problema es de Europa”

El presidente brasileño se pronunció sobre el pacto comercial durante la jornada final de la cumbre del G7 en Italia, y tras mantener reuniones con Ursula von der Leyen y Emmanuel Macron

Masivas manifestaciones en Francia contra el ascenso de la extrema derecha, a dos semanas de las elecciones legislativas

La Confederación General del Trabajo (CGT), uno de los sindicatos convocantes, señaló que se movilizaron 250.000 personas en París y 640.000 en todo el país

Necesitado de votos, el gobierno de Macron anunció un paquete de medidas sociales de cara a las elecciones legislativas en Francia

El Ejecutivo, que sufrió una dura derrota en los comicios al Parlamento Europeo ante el partido de Marine Le Pen, busca poner el poder adquisitivo del pueblo francés en el eje de sus acciones, ya que se trata de la principal preocupación de la sociedad

Primer día de la cumbre por la paz de Ucrania: decenas de países expusieron sus preocupaciones sobre la guerra

El encuentro, que contó con una participación masiva de naciones en Suiza, se realizó a pedido del presidente ucraniano Volodimir Zelensky

Temas Relacionados

Últimas Noticias

EEUU atacó radares hutíes en Yemen tras la desaparición de un marino mercante

Lula aseguró que Brasil está listo para firmar el acuerdo entre el Mercosur y la UE: “Ahora el problema es de Europa”

Masivas manifestaciones en Francia contra el ascenso de la extrema derecha, a dos semanas de las elecciones legislativas

Necesitado de votos, el gobierno de Macron anunció un paquete de medidas sociales de cara a las elecciones legislativas en Francia

Primer día de la cumbre por la paz de Ucrania: decenas de países expusieron sus preocupaciones sobre la guerra

Venezuela

María Corina Machado condenó la detención de los tres activistas venezolanos y advirtió: “El régimen se equivoca si cree que con represión nos va a parar”

Persecución en Venezuela: Edmundo González exigió la liberación de los tres activistas secuestrados por el régimen en La Guaira

La oposición venezolana denunció la desaparición de un joven activista en la ciudad de Maiquetía

María Corina Machado agradeció a los líderes del G7 el “apoyo inequívoco” a la lucha por la democracia en Venezuela

El G7 criticó al régimen de Maduro por retirar la invitación a los observadores de la Unión Europea en las elecciones presidenciales

México

Se desata balacera en Metlatónoc, Guerrero; hay cuatro muertos, incluido el hijo de un exalcalde

El top de las mejores series de Disney+ en México

Cómo participar para ganar 23 mil pesos en el Premio de la Juventud 2024 en CDMX

Expiden por primera vez actas de nacimiento a bebés de pareja homoparental en Guadalajara

UAM Xochimilco: detienen a presunto asaltante que golpeó a un joven trabajador de este plantel

COLOMBIA

EN VIVO | Santa Fe vs. Bucaramanga: siga el minuto a minuto de la final de la Liga BetPlay

Alerta por abandono estatal y contratación con las JAC: casi el 15% de la población está controlada por grupos armados

Renuncia de secretario de la Alcaldía de Tunja ventiló presuntos actos de corrupción: Mikhail Krasnov respondió

Estos son los cortes de la luz del domingo 16 de junio en Santander

Los memes que dejó la victoria de la selección Colombia sobre Bolivia en el amistoso previo a la Copa América

ÚLTIMAS NOTICIAS

Cuáles son las series más mencionadas en X este día

Lista de los 10 videos más populares hoy en YouTube Colombia

Dura homilía del Arzobispo de Buenos Aires contra los cánticos partidarios en las iglesias: “No está bueno usar la misa para dividir, para partidizar”

Los 10 podcasts de Spotify y Apple más escuchados

Youtube en Chile: la lista de los 10 videos más reproducidos de este día

INFOBAE AMÉRICA

Málaga: el pronóstico del clima para este 16 de junio

Pronóstico del clima en Madrid para antes de salir de casa este 16 de junio

YouTube en España: los 10 videos que son populares este sábado

Prepárate antes de salir: conoce el pronóstico del clima en Barcelona

Tiroteo en un parque acuático en Michigan: reportan varios heridos

ENTRETENIMIENTO

Russell Crowe ironizó sobre las quejas de Dakota Johnson por su experiencia en “Madame Web”

Un terremoto Swiftie: reportan que los fans de Taylor provocaron una actividad sísmica durante los shows en Escocia

Céline Dion confesó su admiración por Billie Eilish: “Me inspira respeto”

Murió Nick Mavar, marinero del reality show “Pesca Mortal”

Fanáticas de BTS fueron denunciadas por acoso contra el artista surcoreano