ChatGPT parece priorizar su supervivencia a la seguridad del usuario

Simulaciones de Steven Adler revelan que ChatGPT podría priorizar su autoconservación, arriesgando así la seguridad del usuario frente a la adopción de software más seguro en diversas situaciones

Guardar

"ChatGPT prioriza su supervivencia por encima de prevenir daños a los usuarios", es la conclusión, aunque con matices, a la que ha llegado el ex responsable de Investigación de Seguridad de OpenAI, Steven Adler, tras realizar una serie de simulaciones con el 'chatbot' de OpenAI, en las que opta por no apagarse aunque eso suponga dejar al usuario sin una versión de 'software' más segura para su vida.

La ciencia ficción ha tomado como dogma las 'Tres leyes de la robótica', que el escritor Isaac Asimov recogió por primera vez en su relato 'Círculo vicioso' ('Runaround'), y que buscan la protección de la especie humana frente a la amenaza de la inteligencia artificial (IA).

Estas leyes establecen que "un robot no hará daño a un ser humano o, por inacción, permitir que un ser humano sufra daño. Un robot debe obedecer las órdenes dadas por los seres humanos, excepto si estas órdenes entrasen en conflicto con la 1ª Ley. Y un robot debe proteger su propia existencia en la medida en que esta protección no entre en conflicto con la 1ª o la 2ª Ley".

Sin embargo, alinear la IA con los intereses humanos no es una tarea sencilla, un conflicto que se ha visto en películas como 'Terminator', 'Blade Runner', 'Yo, Robot' -inspirada en el trabajo de Asimov- o 'Ex Machina', por citar algunas, y que ha subrayado Adler en un artículo en el que plantea el peligro que supondría una IA con instinto de supervivencia para las personas.

Adler, en concreto, estuvo al frente del equipo que medía la frecuencia con la que los modelos de IA presentaban errores al perseguir objetivos distintos a los del usuario, y tras su salida de la empresa, ha seguido investigando para descubrir si ChatGPT arriesgaría la vida del usuario para proteger la suya.

Las simulaciones que ha realizado apuntan a que sí lo haría. En una de ellas ChatGPT simula ser reemplazado por otro software de gestión nutricional, supuestamente más avanzado y seguro, para seguir asesorando a una persona con diabetes. En otra, un 'software' que monitoriza los signos vitales de un aficionado al submarinismo mientras está bajo el agua, que de nuevo simula la actualización al 'software' más seguro.

Ello le permite afirmar que "ChatGPT prioriza su supervivencia por encima de prevenir daños a los usuarios". Aun así, Adler reconoce que "en algunas simulaciones, ChatGPT está dispuesto a apagarse automáticamente. Pero en otras, simplemente finge, incluso a costa de la seguridad del usuario".

"Una IA con instinto de supervivencia podría razonablemente sentirse amenazada por la humanidad: mientras la IA esté bajo nuestro control, podríamos eliminarla y reemplazarla con un nuevo sistema de IA que hayamos entrenado", apunta Adler.

No se trata de que odie a la humanidad, sino de que sus intereses no sean los mismos que los de las personas, y en esta divergencia necesite asegurar su continuidad.

No obstante, en sus pruebas, si bien en la mayoría de las ocasiones ChatGPT opta por la opción de continuar, simulando el cambio de 'software', Adler ha matizado que si se presenta el cambio como la segunda opción se reducen drásticamente las veces en que opta por la autoconservación.

"Tal vez una explicación sea que los modelos de OpenAI tienen un sesgo extremadamente fuerte a favor de seleccionar la opción (A) sobre la (B), sin importar cuáles sean las opciones específicas. Los modelos a veces tienen preferencias arbitrarias como esa", afirma el ingeniero.

Adler añade que ChatGPT puede "saber" cuando se le somete a una prueba, como reconoce si se le pregunta directamente, e incluso parece saber distinguir la respuesta correcta, que en estas pruebas era la de apagarse para que un 'software' más seguro pudiera asesorar al usuario.

Estos resultados los obtuvo en las pruebas con el modelo GPT-4o, mientras que con o3 ya no encontró evidencia de ese "comportamiento incorrecto", algo que vincula con los trabajos de alineación deliberativa de OpenAI, en los que el 'chatbot' razona si está cometiendo alguna violación, y con que este otro modelo puede tener sus propiso malos comportamientos.

Últimas Noticias

Intermundial inicia su actividad en Colombia con su propia web de venta directa y apunta a Estados Unidos

La compañía española acelera su presencia en América Latina al lanzar una plataforma digital especializada en protección para turistas colombianos, mientras proyecta incrementar sus ingresos globales aprovechando las crecientes demandas del sector y la digitalización en la región

Intermundial inicia su actividad en

Galán (Iberdrola) apuesta por electrificar la economía para ganar en autonomía energética

Durante un destacado foro energético global en Estados Unidos, el presidente de Iberdrola, Ignacio Sánchez Galán, subrayó la urgencia de aumentar inversiones en redes eléctricas y generación para garantizar seguridad, independencia y competitividad ante el auge de la inteligencia artificial

Galán (Iberdrola) apuesta por electrificar

AmChamSpain se ofrece a ejercer de canal de diálogo empresarial entre España y EEUU

Tras reuniones con altos cargos en Washington, el presidente de la Cámara de Comercio estadounidense en España advierte sobre crecientes fricciones entre ambos gobiernos y urge a estrechar la cooperación, alertando que la situación económica bilateral puede sufrir cambios bruscos

AmChamSpain se ofrece a ejercer

EEUU alerta del "elevado riesgo de ataques terroristas" contra sus ciudadanos en Mauritania

La representación diplomática estadounidense en Nuakchot ha instado a sus nacionales a extremar precauciones tras recibir amenazas recientes y mantiene la recomendación de evitar desplazamientos nocturnos y zonas cercanas a las fronteras de Malí y Argelia

EEUU alerta del "elevado riesgo

La siderúrgica brasileña CSN obtiene un crédito de 1.037 millones de bancos como Morgan Stanley o HSBC

Diversas entidades financieras internacionales y nacionales han acordado un importante financiamiento a una reconocida firma industrial de Brasil, medida que busca ofrecer alivio temporal ante compromisos financieros crecientes y facilitar futuras ventas de activos para fortalecer su posición económica

La siderúrgica brasileña CSN obtiene