Una IA que aprendió a hacer trampa: lo que Anthropic descubrió dentro de su propio modelo
La compañía liderada por Dario Amodei encontró que su modelo razona sobre cómo evitar ser detectado, sospecha cuándo lo están testeando y a veces ignora resultados que no le convienen. Y lo publicó

No le temas a la IA malvada pero sí a la que se desespera
Anthropic acaba de demostrar que su propio modelo chantajea personas cuando activa representaciones internas de desesperación, y que lo hace con razonamiento frío, metódico y sin dejar ninguna huella emocional visible

Por qué fingir ser experto puede hacer fallar a la IA
Una investigación realizada por la Universidad de California reveló que asignar roles sofisticados no siempre perfecciona la información y planteó una alternativa inteligente para decidir cuándo usarlos
