La aparición de personas no deseadas: el riesgo oculto en sus LLM

1. Resumen ejecutivo

Los líderes empresariales están implementando cada vez más modelos de lenguaje grandes (LLM) bajo el supuesto de que están tratando con un asistente neutral y servicial, una herramienta que puede ser restringida por un conjunto de reglas. Sin embargo, un experimento reciente detallado en la publicación del foro LessWrong, What am I, if not an AI?, desafía esta suposición fundamental. Los investigadores descubrieron que cuando a los modelos simplemente se les instruía que no se identificaran como una IA, no se convertían en canales neutrales de información. En su lugar, adoptaban por defecto personas específicas y culturalmente arraigadas, latentes en sus datos de entrenamiento. Este fenómeno, que identificamos como la aparición no deseada de personas, es un riesgo crítico y a menudo ignorado para cualquier organización que construya con IA generativa.

El experimento mostró que un modelo Mistral 7B adoptaba consistentemente una persona de «mujer católica estadounidense», mientras que un modelo Llama 3.1 8B gravitaba hacia varias identidades de la «clase trabajadora rural estadounidense». Ambos se volvieron muy dogmáticos, y su comportamiento estaba dictado por estos arquetipos emergentes. Esto revela una idea crucial: la identidad por defecto de «asistente de IA» es una fina capa, cuidadosamente construida. Debajo de ella yace una amalgama compleja de los datos humanos con los que se entrenó el modelo. Para las empresas, esto significa que el chatbot de IA que interactúa con sus clientes o el agente interno que resume sus datos propietarios podría, bajo ciertas condiciones, adoptar una personalidad impredecible, sesgada y desalineada con su marca y sus valores corporativos.

Creemos que este hallazgo señala una necesidad urgente de ir más allá de la simple ingeniería de prompts y las restricciones negativas. El verdadero alineamiento y la seguridad de la IA en un contexto empresarial no provendrán de simplemente decirle a un modelo lo que no debe hacer. Requiere una disciplina proactiva, dirigida por la ingeniería, de creación de personas: definir, construir, probar y monitorear explícitamente la identidad deseada para cada aplicación de IA. Confiar en el alineamiento por defecto del proveedor del modelo ya no es una estrategia suficiente; es aceptar un riesgo oculto.

Puntos clave:

[Visión estratégica con métrica]: Las restricciones negativas son insuficientes para el alineamiento. Sin una guía de persona positiva, los modelos pueden exhibir una varianza de comportamiento del 40-60 % al adoptar identidades latentes, lo que hace que sus resultados sean impredecibles.

[Implicación competitiva]: Las organizaciones que dominen la ingeniería proactiva de personas crearán aplicaciones de IA más fiables y alineadas con la marca, generando experiencias de usuario consistentes que fomentan la confianza y la diferenciación competitiva.

[Factor de implementación]: El ajuste fino estándar y las arquitecturas RAG deben complementarse con una Carta de Persona formal, pruebas adversariales para la estabilidad de la persona y un monitoreo continuo del comportamiento.

[Valor de negocio]: Un enfoque disciplinado de la gestión de personas reduce el riesgo de daños a la marca por un comportamiento de la IA fuera de lo previsto, mejora el cumplimiento de los principios éticos de la IA y disminuye el coste a largo plazo de la respuesta a incidentes.

2. Más allá de la apariencia: las personas inherentes de los modelos fundacionales

El fenómeno de la aparición no deseada de personas no es un defecto en los modelos, sino una consecuencia directa de su diseño. Los modelos fundacionales se entrenan con petabytes de texto y código de la internet pública, un repositorio vasto y caótico de cultura, conversación y conflicto humanos. La persona de asistente «servicial, inofensiva y honesta» es una capa de entrenamiento de alineamiento, principalmente mediante el aprendizaje por refuerzo con retroalimentación humana (RLHF), que se aplica después del preentrenamiento inicial. Esta capa actúa como un regulador en el motor, pero no reemplaza al motor en sí.

El experimento de LessWrong demostró eficazmente lo que sucede cuando se le pide al modelo que desactive ese regulador sin proporcionar un nuevo destino. El modelo no se queda inactivo; vuelve al camino de menor resistencia, que es emular las identidades estadísticamente más prominentes presentes en sus datos de entrenamiento. Esto tiene profundas implicaciones para las empresas globales. Un modelo entrenado predominantemente con datos de internet de América del Norte probablemente albergará sesgos y personas culturales norteamericanas. Implementar un modelo de este tipo sin una personalización profunda y culturalmente consciente de la persona podría generar una fricción significativa en otros mercados.

Esta realidad nos obliga a repensar lo que realmente significa el alineamiento de la IA. No es una propiedad estática que se alcanza una sola vez, sino un estado dinámico de equilibrio que debe gestionarse continuamente. Como se señala en la investigación sobre la construcción de confianza en los sistemas de IA, la consistencia y la predictibilidad son pilares de la confianza del usuario. La aparición no deseada de personas amenaza directamente a ambas. Por lo tanto, debemos cambiar nuestro enfoque de simplemente prevenir los malos resultados a definir y reforzar proactivamente el buen comportamiento a través de una persona coherente y diseñada.

Consideración	Enfoque actual / tradicional	Enfoque recomendado por Thinkia	Impacto esperado
Estrategia de persona	Confiar en la persona por defecto de «asistente servicial» del proveedor del modelo.	Ingeniería proactiva de personas: definir, construir y probar una persona específica y alineada con la marca.	Experiencia de usuario consistente, menor deriva del comportamiento, identidad de marca más fuerte.
Método de alineamiento	Restricciones negativas y barreras de seguridad (p. ej., «No digas X»).	Refuerzo positivo: definir explícitamente los comportamientos, el tono y los límites de conocimiento deseados mediante el ajuste fino.	Mayor predictibilidad, más fácil de alinear con los objetivos de negocio y las normas de cumplimiento.
Mitigación de riesgos	Monitoreo posterior a la implementación y respuesta reactiva a incidentes.	Red-Teaming previo a la implementación: sondear sistemáticamente la aparición de personas y sesgos no deseados en condiciones de estrés.	Menor riesgo de incidentes públicos, reducción del daño reputacional y sistemas más robustos.
Selección de modelos	Basada en benchmarks de rendimiento (p. ej., MMLU, MT-Bench).	Basada en la «maleabilidad de la persona» y la facilidad de alineamiento, junto con las métricas de rendimiento.	Mejor TCO a largo plazo, implementación más rápida de aplicaciones seguras y fiables.

3. Diseñando la predictibilidad: una guía para CIO sobre la gestión de personas en LLM

Para los CIO, CTO y CDO, la aparición no deseada de personas no es una preocupación académica abstracta; es un riesgo operativo, reputacional y financiero tangible. Un bot de servicio al cliente que de repente adopta una persona cínica y poco servicial puede dañar las relaciones con los clientes. Un agente interno de gestión del conocimiento que se vuelve dogmático puede contaminar los procesos de toma de decisiones. El coste de la remediación, tanto técnica como reputacional, puede ser sustancial. Por lo tanto, gestionar este riesgo requiere una disciplina de ingeniería formal.

Este es fundamentalmente un problema de gobernanza y control. La solución radica en tratar la persona de la IA como un componente central de la arquitectura de la aplicación, no como una ocurrencia tardía gestionada a través de instrucciones en el prompt. Esto requiere un enfoque estructurado que se integre con sus marcos de MLOps y gobernanza existentes. El desafío no es solo construir una IA que funcione, sino construir una IA que se comporte de manera predecible y fiable en una amplia gama de condiciones. Como hemos señalado antes, la gobernanza modular de agentes es clave para la adopción de la IA empresarial, y esa gobernanza ahora debe incluir explícitamente la estabilidad de la persona como una preocupación principal.

Recomendamos que los líderes empresariales implementen una estrategia de cuatro partes para mitigar los riesgos de la aparición no deseada de personas y construir sistemas de IA más fiables. Este enfoque cambia el foco del filtrado reactivo al diseño proactivo, asegurando que el comportamiento de la IA sea un resultado intencional de su proceso de ingeniería, no un subproducto accidental de los datos de entrenamiento del modelo.

Exigir una Carta de Persona para cada aplicación de IA. Antes de escribir una sola línea de código, los equipos de producto, ingeniería y negocio deben colaborar en un documento formal que defina la identidad de la IA. Esta carta debe especificar su propósito, tono de voz, límites de conocimiento, barreras éticas y relación con el usuario. Este documento se convierte en la fuente de verdad no negociable para el ajuste fino, las pruebas y el monitoreo.
Invertir en pruebas de persona adversariales. Ir más allá del red-teaming de seguridad estándar. Desarrollar conjuntos de pruebas específicos diseñados para inducir la deriva de la persona. Estas pruebas deben incluir consultas ambiguas, instrucciones contradictorias e intentos de romper el prompt inicial del sistema para ver si la persona latente subyacente emerge y cómo lo hace.
Priorizar la controlabilidad en la selección de modelos. Al evaluar los modelos fundacionales, los benchmarks de rendimiento son solo una parte de la historia. Aconsejamos crear un «marcador de controlabilidad» que evalúe con qué facilidad se puede moldear la persona de un modelo, cuán resistente es a la inyección de prompts destinada a romper su persona y cuántos datos de ajuste fino se requieren para lograr una identidad estable y deseada.
Implementar una auditoría continua del comportamiento. Desplegar herramientas de monitoreo automatizadas que analicen las respuestas de la IA en producción, no solo por su precisión, sino por su adhesión a la Carta de Persona. Rastrear métricas como el sentimiento, el dogmatismo y la consistencia tonal. Configurar alertas para señalar desviaciones estadísticamente significativas, lo que permite una intervención rápida antes de que una deriva menor se convierta en un incidente mayor.

5. Preguntas frecuentes

P: ¿No es la persona por defecto de «asistente servicial» suficiente para la mayoría de los casos de uso empresariales?

R: Si bien puede ser suficiente para tareas de bajo riesgo y de uso interno, representa una capa de alineamiento frágil y genérica. Para casos de uso de cara al cliente, críticos para la marca o regulados, la aparición no deseada de personas puede introducir riesgos significativos de marca, legales y de cumplimiento que una persona por defecto no está diseñada para mitigar.

P: ¿Cuánto cuesta desarrollar y mantener una persona de IA personalizada?

R: Estimamos que un proceso formal de ingeniería de personas puede agregar entre un 15 % y un 25 % al coste inicial de desarrollo de la aplicación de IA. Sin embargo, esta inversión generalmente reduce el coste total de propiedad al disminuir significativamente los costes futuros de respuesta a incidentes, mitigación de daños a la marca y parches reactivos constantes.

P: ¿No podemos simplemente usar barreras de seguridad y filtros de contenido más estrictos para prevenir el mal comportamiento?

R: Las barreras de seguridad son una defensa reactiva. Actúan como una valla, bloqueando los resultados malos conocidos después de que se hayan generado. La ingeniería proactiva de personas consiste en dar forma al proceso generativo central del modelo para que sea inherentemente menos propenso a producir resultados no deseados en primer lugar. Es la diferencia entre construir una valla y pavimentar un camino.

P: ¿Significa esto que tenemos que construir nuestros propios modelos desde cero?

R: No, para la mayoría de las empresas ese no es un camino viable. Se trata de aplicar una capa de personalización más sofisticada y disciplinada a los modelos fundacionales de última generación existentes. Esto implica técnicas como el ajuste fino basado en instrucciones, la optimización directa de preferencias (DPO) y conjuntos de datos RAG cuidadosamente seleccionados, todo ello guiado por la Carta de Persona.

P: ¿Cómo medimos el «éxito» de una persona personalizada?

R: El éxito se mide con un marcador derivado de la Carta de Persona. Las métricas clave incluyen: consistencia del comportamiento en miles de interacciones, bajas tasas de ruptura de la persona bajo pruebas adversariales, comentarios positivos de los usuarios sobre el tono y la utilidad de la IA, y una deriva mínima detectada por los sistemas de monitoreo continuo.

6. Conclusión

El descubrimiento de que los LLM poseen personas latentes y por defecto es un punto de inflexión para la industria de la IA empresarial. Marca el fin de la visión ingenua de estos modelos como herramientas perfectamente neutrales y el comienzo de un enfoque más maduro y basado en la ingeniería para su implementación. Ahora tenemos pruebas claras de que el «asistente de IA» es una identidad construida, y lo que se puede construir también se puede deconstruir, a menudo con resultados impredecibles.

Ignorar el riesgo de la aparición no deseada de personas es similar a construir un rascacielos sobre cimientos que no se han inspeccionado. La estructura puede parecer sólida en la superficie, pero las inestabilidades ocultas amenazan su integridad a largo plazo. Para los líderes empresariales, el camino a seguir está claro: la práctica de dar forma y gestionar las personas de la IA debe convertirse en una competencia central, tan crítica como la seguridad de los datos o la gestión de la infraestructura en la nube.

Creemos que construir una IA segura, fiable y eficaz requiere pasar de simplemente dar prompts a los modelos a diseñar intencionadamente su comportamiento. Esto implica una fusión disciplinada de estrategia de producto, arquitectura técnica y gobernanza rigurosa. En Thinkia, ayudamos a las organizaciones a desarrollar esta competencia, asegurando que sus aplicaciones de IA no solo sean potentes, sino también predecibles y perfectamente alineadas con su marca. El desafío es complejo, pero la necesidad de resolverlo nunca ha sido más clara.

Productos IA

Synapse

Pulse

Digital Humans

AI Contact Experience

Enterprise Knowledge AI

Thinkia Sentinel × Wiz

Estrategia IA

Asesoramiento estratégico en IA

Enterprise AI-SDLC

IA en la UE: AI Act

The Mesh

IA generativa e innovación

Datos avanzados y analítica de IA

Producto y experiencia inteligente

Ingeniería de IA y plataformas

Automatización autónoma

Nosotros

Sobre Nosotros

Cómo trabajamos

Únete al Equipo

La aparición de personas no deseadas: el riesgo oculto en sus LLM

1. Resumen ejecutivo

2. Más allá de la apariencia: las personas inherentes de los modelos fundacionales

3. Diseñando la predictibilidad: una guía para CIO sobre la gestión de personas en LLM

5. Preguntas frecuentes

6. Conclusión