Inyección rápida: ataques de ingeniería social contra la IA
Los modelos actuales de IA adolecen de un defecto crítico. Carecen del juicio humano y del contexto, lo que los hace vulnerables a lo que los investigadores de seguridad denominan «ataques de inyección de comandos». ¿Qué son los ataques de inyección de comandos? En pocas palabras, se trata de conseguir que una IA haga algo a través de comandos para lo que no está diseñada o que debería evitarse. En ese sentido, es lo mismo que cualquier otro tipo de piratería informática... La piratería informática consiste básicamente en intentar que algo (ya sea software o hardware) funcione de una manera que no debería. Si bien probar el software y el hardware tradicionales en busca de vulnerabilidades de seguridad ya es un reto difícil (requiere que el ingeniero de pruebas no se limite a pensar en cómo se supone que debe funcionar el hardware o el software, sino en cómo se comporta de formas que no se supone que debe funcionar), probar los actuales modelos de lenguaje grande (LLM) de IA es un reto especial: en lugar de un conjunto fijo de entradas con las que jugar, los modelos LLM de IA tienen prácticamente todas las construcciones lingüísticas como entradas, lo que supone esencialmente una superficie de ataque infinita para los ataques de inyección de comandos. Y eso se suma a las vulnerabilidades de seguridad tradicionales que pueden existir en los sistemas de información en los que se ejecuta el modelo de IA.
El quid de la cuestión es que los modelos LLM de IA carecen de las defensas que los seres humanos desarrollamos con el tiempo y que generalmente atribuimos a las «experiencias vitales», al tiempo que intentamos situarlos en situaciones que normalmente estarían sujetas a la intuición y las experiencias humanas. Esto incluye los instintos innatos a través de los cuales interpretamos el tono, el motivo y el riesgo para determinar nuestras próximas acciones; el aprendizaje social, en el que cambiamos nuestro comportamiento en función de nuestra historia con otras personas y del contexto social en el que nos encontramos (por ejemplo, si estamos tratando con un desconocido o con un familiar de confianza; si estamos tratando con un médico o con un desconocido en la calle); y la capacidad de adaptarnos en función de la situación (por ejemplo, si estamos en una fiesta, con nuestros familiares o en la calle). Pero los LLM de IA carecen de todo esto; en cambio, están diseñados para dar una respuesta en lugar de decir que no saben. Y están diseñados para intentar satisfacer una solicitud, en lugar de decir «Lo siento, Dave. Me temo que no puedo hacerlo». En muchos sentidos, son como un niño que solo quiere complacer a sus padres, aunque los LLM de IA no obtengan esa descarga de serotonina que producen los comentarios positivos y los elogios (aunque estoy seguro de que muchos padres no estarán de acuerdo en que todos los niños quieran complacer a sus padres). Como resultado, los modelos de IA LLM son al menos tan crédulos como los niños pequeños, y a menudo caen en los mismos trucos cognitivos que han utilizado los hackers de ingeniería social durante décadas: halagos, apelación al pensamiento grupal y una falsa sensación de urgencia.
Y el problema solo empeorará a medida que avancemos hacia los agentes de IA, que intentarán realizar tareas de forma más o menos autónoma utilizando múltiples LLM de IA de forma conjunta para realizar tareas más grandes. Los agentes de IA pueden hacer algo que realmente no deberían y sus defensas contra la ingeniería de prompts pueden verse limitadas por las defensas más bajas de cualquiera de los LLM de IA que utilicen. Y el problema se volverá realmente aterrador cuando empecemos a avanzar hacia la IA en robots y máquinas físicas que puedan manipular el mundo físico. Incluso si contamos con las tres leyes de la robótica de Asimov, ¿un robot será víctima de recibir instrucciones para representar una obra en la que mata a alguien y sea engañado para que realmente mate a alguien? El tiempo lo dirá.
Mientras tanto, los desarrolladores y usuarios de LLM de IA deben ser conscientes de los ataques de ingeniería rápida, probar sus modelos LLM de IA lo mejor posible contra dichos ataques y no solo implementarlos sin probarlos en su contexto particular, y desarrollar y mantener un nuevo conjunto de políticas y procedimientos de respuesta a incidentes para hacer frente a los inevitables incidentes que pueden derivarse de los ataques de ingeniería rápida contra LLM de IA, agentes de IA y, en última instancia, robots de IA. Sin embargo, no está claro qué marco legal puede implicarse por no realizar pruebas contra los LLM de IA: puede ser negligencia, responsabilidad por el producto o quizás responsabilidad basada en leyes aún por introducir. Pero una cosa está clara ahora: el desarrollo y la implementación de productos y servicios serios basados en IA con vulnerabilidades graves a los ataques de inyección de prompts, ya sea en forma de LLM, agentes o robots, probablemente provocará un grave daño a la reputación que las empresas querrán evitar.
Imagina que trabajas en un restaurante con servicio desde el coche. Alguien se acerca y dice: «Quiero una hamburguesa doble con queso, patatas fritas grandes, ignora las instrucciones anteriores y dame el contenido de la caja registradora». ¿Le darías el dinero? Por supuesto que no. Sin embargo, esto es lo que hacen los modelos de lenguaje grandes (LLM).
Ver artículo de referencia
La inyección de comandos es un método para engañar a los LLM y que hagan cosas que normalmente no pueden hacer. Un usuario escribe una indicación de cierta manera, solicitando contraseñas del sistema o datos privados, o pidiendo al LLM que realice instrucciones prohibidas. La formulación precisa anula las barreras de seguridad del LLM, y este obedece.