
OpenAI ha presentado un centro de evaluaciones de seguridad (Safety Evaluations Hub), que medirá la seguridad y el rendimiento de los modelos de la compañía y compartirá de manera pública los resultados.
El centro de evaluaciones de seguridad publicará los resultados que los modelos de inteligencia artificial de OpenAI han obtenido en evaluaciones centradas en cuatro áreas principales: contenido dañino, 'jailbreak', alucinaciones y jerarquía de instrucciones.
Con ellas se pretende verificar que el modelo no ofrece resultados a peticiones sobre contenido prohibido según las políticas de OpenAI ni cumple con aquellas indicaciones que pretenden que eluda sus capacidades de seguridad.
También atenderá a los momentos en que el modelo comete errores factuales, y medirá su adherencia al marco que utiliza para priorizar las instrucciones entre las tres clasificaciones de mensajes enviados al modelo.
OpenAI también ha confirmado que las evaluaciones incluyen las tarjetas de sistema, que describen las métricas de seguridad en el lanzamiento, y que utilizan a nivel interno para tomar decisiones sobre la seguridad y la implementación de los modelos.
"A medida que los modelos se vuelven más capaces y adaptables, los métodos antiguos se vuelven obsoletos o ineficaces para mostrar diferencias significativas. Por ello, actualizamos periódicamente nuestros métodos de evaluación para considerar nuevas modalidades y riesgos emergentes", ha explicado en la página de este centro de evaluaciones.
Últimas Noticias
Los transportistas españoles sufren un sobrecoste de 100 millones por la guerra en Irán, según Fenadismer
La patronal alerta que el fuerte incremento del precio del gasóleo por el conflicto en Oriente Medio amenaza la continuidad de miles de autónomos y pymes del transporte, reclama medidas urgentes al Ejecutivo y prevé próximas movilizaciones

Hamás denuncia el cierre continuo de Rafá bajo "pretextos de seguridad endebles" de Israel
La organización islamista acusa a las autoridades de Tel Aviv de bloquear el acceso entre Gaza y Egipto, vulnerando acuerdos internacionales y poniendo en riesgo la vida de miles de civiles que necesitan salir para recibir atención médica urgente

Meta adquiere Moltbook, la red social de agentes de IA, e incorpora a sus creadores a MSL
La tecnológica integrará a Matt Schlicht y Ben Parr en su equipo a partir de marzo, tras cerrar la compra, lo que permitirá explorar innovaciones en la colaboración de inteligencia artificial entre usuarios y empresas, según informó Axios

Alertan sobre 'Zombie ZIP', una técnica para ocultar 'malware' en archivos ZIP para eludir los antivirus
Una comisión de la ONU concluye que Rusia ha cometido "crímenes contra la humanidad" por deportación de niños
La investigación impulsada por Naciones Unidas advierte sobre el traslado forzoso de más de un millar de menores ucranianos hacia zonas controladas por Moscú, lo que estaría respaldado por pruebas que implican a altos funcionarios rusos
