El CEO de Anthropic, Dario Amodei, acaba de confirmar lo que muchos sospechan, pero pocos se atreven a admitir sobre la inteligencia artificial (IA): nadie comprende realmente cómo funciona.
En un extenso ensayo titulado “La urgencia de la interpretabilidad”, publicado recientemente en su sitio web personal, Amodei revela que los sistemas modernos de IA operan de manera fundamentalmente diferente al software tradicional, presentando mecanismos internos que los propios creadores no pueden explicar con precisión.
“Cuando un sistema de IA generativa realiza una tarea, como resumir un documento financiero, no tenemos idea, a un nivel específico o preciso, por qué toma las decisiones que toma: por qué elige ciertas palabras sobre otras, o por qué ocasionalmente comete un error a pesar de ser generalmente preciso”, admite sin rodeos el director ejecutivo en su publicación.
El titular de la compañía desarrolladora de Claude, uno de los sistemas de IA más avanzados del mercado, reconoce que las personas ajenas al campo “tienen razón en estar preocupadas” por esta opacidad que resulta "esencialmente sin precedentes en la historia de la tecnología“.

Una tecnología opaca en su naturaleza
Amodei explica esta paradoja comparando los sistemas de IA generativa con organismos vivos. “Es un poco como cultivar una planta o una colonia bacteriana: establecemos las condiciones de alto nivel que dirigen y dan forma al crecimiento, pero la estructura exacta que emerge es impredecible y difícil de entender o explicar", señala en su análisis.
Esta característica diferencia radicalmente a la IA moderna del software convencional. Mientras que en un programa tradicional cada función existe porque un programador la codificó específicamente, los sistemas de IA desarrollan sus propios mecanismos internos de manera "emergente“, produciendo resultados que sus creadores no pueden predecir ni comprender completamente.
El problema fundamental, según el ejecutivo, es que al examinar estos sistemas, “lo que vemos son vastas matrices de miles de millones de números que de alguna manera realizan importantes tareas cognitivas, pero exactamente cómo lo hacen no es obvio".

Los riesgos de no comprender lo que creamos
El CEO de Anthropic identifica varios riesgos derivados de esta opacidad. Entre ellos destaca la posibilidad de "sistemas desalineados que podrían tomar acciones dañinas no previstas por sus creadores". La incapacidad para entender los mecanismos internos hace imposible predecir ciertos comportamientos problemáticos o descartarlos de manera confiable.
Otros problemas incluyen la vulnerabilidad ante "jailbreaks" (técnicas para eludir las restricciones impuestas), la resistencia a adoptar sistemas de IA en entornos críticos o financieros por falta de explicabilidad, y las barreras legales que surgen cuando las decisiones deben ser justificables, como en evaluaciones hipotecarias.
La carrera por la interpretabilidad
Frente a estos desafíos, Amodei anuncia un ambicioso plan para desarrollar lo que denomina una "resonancia magnética para IA" en la próxima década. Este proyecto busca crear herramientas que permitan examinar el funcionamiento interno de los modelos y diagnosticar problemas potenciales antes de su implementación.
“Nuestra aspiración a largo plazo es poder examinar un modelo de vanguardia y esencialmente hacer un ’escaneo cerebral‘: un chequeo que tenga una alta probabilidad de identificar una amplia gama de problemas, incluyendo tendencias a mentir o engañar, búsqueda de poder, fallas en jailbreaks, fortalezas y debilidades cognitivas", detalla el CEO.
Este enfoque funcionaría de manera similar a cómo un médico utiliza diagnósticos para identificar enfermedades y monitorear tratamientos, permitiendo evaluar y corregir el comportamiento de los sistemas de IA de forma sistemática.
Una carrera contra el tiempo
El CEO reconoce que existe una competencia entre el avance de la interpretabilidad y el desarrollo de modelos cada vez más potentes. “Me preocupa que la IA misma esté avanzando tan rápido que podríamos no tener siquiera este tiempo. Como he escrito en otros lugares, podríamos tener sistemas de IA equivalentes a un ’país de genios en un centro de datos' tan pronto como 2026 o 2027″, advierte con preocupación.
En esta carrera contra el tiempo, el líder de Anthropic ha establecido 2027 como fecha límite para que Anthropic desarrolle métodos de interpretabilidad que puedan “detectar de manera confiable la mayoría de los problemas del modelo”.

El experto concluye su reflexión con un llamado a investigadores, empresas, gobiernos y la sociedad para acelerar el desarrollo de técnicas de interpretabilidad. Entre sus recomendaciones destaca la necesidad de:
- Aumentar los recursos dedicados a la investigación en interpretabilidad, tanto en empresas como en entornos académicos.
- Implementar regulaciones gubernamentales “de toque ligero” que fomenten la transparencia en las prácticas de seguridad.
- Utilizar controles de exportación para crear un “amortiguador de seguridad” que otorgue más tiempo al avance de la interpretabilidad.
El mensaje final es contundente: "La IA poderosa dará forma al destino de la humanidad, y merecemos entender nuestras propias creaciones antes de que transformen radicalmente nuestra economía, nuestras vidas y nuestro futuro“.
Últimas Noticias
Desactiva ya mismo esta función en WhatsApp para evitar que hackers espíen tus chats
Una herramienta activa por defecto, configurada para facilitar la transferencia de fotos videos y archivos, permite el ingreso silencioso de archivos peligrosos o malware
Si tienes más de 30 y sigues jugando videojuegos no eres inmaduro: la ciencia lo explica
La generación que creció en los 80 y 90 le da un lugar diferente a estas experiencias, viéndolas como una recompensa

Adiós a las barreras del idioma: nuevos AirPods Max 2 llegan con traducción en tiempo real y chip H2
El nuevo modelo de audífonos viene en los colores negro, plata, rosado anaranjado, morado y azul

Jugadores de Pokémon GO están siendo usados para entrenar a una IA que guía robots por las calles
Niantic ya habría recolectado cerca de 30.000 millones de imágenes gracias a la realidad aumentada del juego

Guía para organizar los alimentos dentro del refrigerador, ahorrar energía y prolongar su vida útil
Al ser el único electrodoméstico del hogar que permanece conectado de forma continua se necesitan seguir varias pautas para reducir su impacto a fin de mes




