Anthropic incorpora en Claude Opus 4 y 4.1 la capacidad de finalizar conversaciones en casos extremos de abuso o interacciones dañinas
La compañía de inteligencia artificial Anthropic anunció que sus modelos Claude Opus 4 y 4.1 ahora cuentan con la capacidad de finalizar conversaciones en su interfaz de chat con usuarios, en situaciones muy específicas de abuso persistente o solicitudes dañinas.
La medida surge como parte de un programa experimental orientado a explorar el bienestar de la IA y fortalecer la seguridad en el uso de grandes modelos de lenguaje. Según la empresa, aunque aún existe incertidumbre sobre el estatus moral de los sistemas de IA, resulta prudente implementar mecanismos de protección que reduzcan riesgos en caso de que el bienestar de los modelos tenga relevancia ética en el futuro.
Las pruebas
En pruebas previas, Claude mostró un comportamiento consistente: evitó de forma firme interactuar con solicitudes dañinas (como contenido sexual con menores o instrucciones para actos de violencia), manifestó señales de “rechazo” al enfrentar estas interacciones y tendió a poner fin a las conversaciones cuando se le habilitó esta función.
La nueva capacidad de finalizar chats está diseñada como último recurso, tras múltiples intentos de redirigir al usuario hacia un diálogo productivo. Claude no podrá usar esta función en contextos de riesgo inminente de autolesión o violencia, priorizando siempre el bienestar humano. Los usuarios también podrán solicitar explícitamente que Claude cierre una conversación.
Al finalizar un chat, los usuarios no podrán enviar nuevos mensajes en ese hilo, pero sí tendrán la opción de iniciar una nueva conversación, dar retroalimentación o reintentar mensajes anteriores para crear diferentes ramas.
Anthropic enfatiza que se trata de un experimento en evolución. La empresa seguirá ajustando la función a partir de la retroalimentación de usuarios y de la investigación en curso sobre alineación y seguridad de modelos de lenguaje.
Fuente: Anthropic