Cuando las empresas adoptan nuevas tecnologías, la seguridad suele quedar en un segundo plano. Puede parecer más importante ofrecer nuevos productos o servicios a los clientes y usuarios internos lo más rápido posible y al menor costo. Una buena seguridad puede resultar lenta y costosa.
Inteligencia artificial (IA) y aprendizaje automático (ML) ofrecen las mismas oportunidades para vulnerabilidades y configuraciones incorrectas que los avances tecnológicos anteriores, pero también tienen riesgos únicos. A medida que las empresas se embarcan en importantes transformaciones digitales, esos riesgos pueden volverse mayores. “No es un buen lugar para apresurarse”, dice Edward Raff, científico jefe de Booz Allen Hamilton.
La IA y el aprendizaje automático requieren más datos y datos más complejos que otras tecnologías. Los algoritmos desarrollados por matemáticos y científicos de datos surgen de proyectos de investigación. “Recientemente, como comunidad científica, hemos llegado a comprender que existen problemas de seguridad con la IA”, dice Raff.
Los requisitos de volumen y procesamiento significan que las plataformas en la nube a menudo manejan las cargas de trabajo, lo que agrega otro nivel de complejidad y vulnerabilidad. No es de extrañar que la ciberseguridad sea el riesgo más preocupante para los que adoptan la IA. De acuerdo a una Encuesta de Deloitte publicado en julio de 2020, el 62% de los adoptantes ven los riesgos de ciberseguridad como una preocupación importante o extrema, pero solo el 39% dijo que está preparado para abordar esos riesgos.
Para agravar el problema, la ciberseguridad es una de las principales funciones para las que se utiliza la IA. Cuanto más experimentadas son las organizaciones con la IA, más preocupadas están por los riesgos de ciberseguridad, dice Jeff Loucks, director ejecutivo del Centro de Tecnología, Medios y Telecomunicaciones de Deloitte.
Además, las empresas, incluso las más experimentadas, no siguen las prácticas de seguridad básicas, como mantener un inventario completo de todos los proyectos de IA y ML o realizar auditorías y pruebas. “Las empresas no están haciendo un gran trabajo en este momento al implementarlos”, dice Loucks.
Las necesidades de datos de IA y ML generan riesgos
Los sistemas de IA y ML requieren tres conjuntos de datos:
- Entrenamiento de datos para construir un modelo predictivo
- Prueba de datos para evaluar qué tan bien funciona el modelo
- Datos transaccionales u operativos en vivo cuando el modelo se pone en funcionamiento
Si bien los datos operacionales o transaccionales en vivo son claramente un activo corporativo valioso, puede ser fácil pasar por alto los grupos de datos de capacitación y prueba que también contienen información confidencial.
Muchos de los principios utilizados para proteger los datos en otros sistemas se pueden aplicar a proyectos de IA y ML, incluida la anonimización, la tokenización y el cifrado. El primer paso es preguntar si se necesitan los datos. Es tentador, cuando se prepara para proyectos de IA y ML, recopilar todos los datos posibles y luego ver qué se puede hacer con ellos.
Centrarse en los resultados comerciales puede ayudar a las empresas a limitar los datos que recopilan a lo que necesitan. “Los equipos de ciencia de datos pueden estar muy hambrientos de datos”, dice John Abbatico, director de tecnología de Othot, una empresa que analiza datos de estudiantes para instituciones educativas. “Dejamos claro al tratar con datos de estudiantes que la PII altamente sensible [personally identifiable information] no es obligatorio y nunca debe incluirse en los datos que se proporcionan a nuestro equipo “.
Por supuesto, los errores ocurren. Por ejemplo, los clientes a veces brindan información personal confidencial, como números de seguro social. Esta información no mejora el rendimiento de los modelos, pero crea riesgos adicionales. Abbatico dice que su equipo cuenta con un procedimiento para identificar la PII, eliminarla de todos los sistemas y notificar a los clientes sobre el error. “No lo consideramos un incidente de seguridad, pero nuestras prácticas lo hacen parecer”.
Los sistemas de inteligencia artificial también quieren datos contextualizados, que pueden expandir drásticamente el riesgo de exposición de una empresa. Supongamos que una compañía de seguros quiere manejar mejor los hábitos de conducción de sus clientes, puede comprar compras, conducción, ubicación y otros conjuntos de datos que pueden correlacionarse fácilmente y combinarse con las cuentas de los clientes. Ese nuevo conjunto de datos exponencialmente más rico es más atractivo para los piratas informáticos y más devastador para la reputación de la empresa si se viola.
Seguridad de IA por diseño
Una empresa que tiene muchos datos que proteger es Box, la plataforma para compartir archivos en línea. Box usa IA para extraer metadatos y mejorar la búsqueda, clasificación y otras capacidades. “Por ejemplo, podemos extraer información sobre términos, renovaciones y precios de los contratos”, dice Lakshmi Hanspal, CISO de Box. “La mayoría de nuestros clientes provienen de una era en la que la clasificación de su contenido es una clasificación definida por el usuario o se ha ignorado por completo. Están sentados en montañas de datos que podrían ser útiles para la transformación digital, si el contenido está clasificado , consciente de sí mismo, sin esperar la acción humana “.

La protección de los datos es un pilar clave para Box, dice Hanspal, y los mismos estándares de protección de datos se aplican a los sistemas de IA, incluidos los datos de entrenamiento. “En Box, creemos que es confianza lo que construimos, confianza que vendemos y confianza que mantenemos. Realmente creemos que esto debe integrarse en las ofertas que ofrecemos a nuestros socios y clientes, no en conjunto”.
Eso significa que todos los sistemas, incluidos los nuevos proyectos impulsados por inteligencia artificial, se basan en principios básicos de seguridad de datos, incluido el cifrado, el registro, la supervisión, la autenticación y los controles de acceso. “La confianza digital es innata en nuestra plataforma y la ponemos en funcionamiento”, dice Hanspal.
Box cuenta con un proceso de desarrollo seguro tanto para el código tradicional como para los nuevos sistemas impulsados por IA y ML. “Estamos alineados con los estándares de la industria ISO sobre el desarrollo de productos seguros”, dice Hanspal. “La seguridad por diseño está incorporada y hay controles y equilibrios establecidos, incluidas las pruebas de penetración y la formación de equipos rojos. Este es un proceso estándar y los proyectos de IA y ML no son diferentes”.
Los matemáticos y los científicos de datos generalmente no se preocupan por las posibles vulnerabilidades al escribir código de algoritmos de IA y ML. Cuando las empresas construyen sistemas de IA, recurren a los algoritmos de código abierto disponibles, utilizan sistemas de IA comerciales de “caja negra” o crean los suyos propios desde cero.
Con el código de fuente abierta, existe la posibilidad de que los atacantes hayan introducido código malicioso o que el código incluya vulnerabilidades o dependencias vulnerables. Los sistemas comerciales patentados también usan ese código de fuente abierta, además de un código nuevo que los clientes empresariales generalmente no pueden ver.
La inversión ataca una gran amenaza
Los sistemas de IA y ML generalmente terminan siendo una combinación de bibliotecas de código abierto y código recién escrito creado por personas que no son ingenieros de seguridad. Además, no existen mejores prácticas estándar para escribir algoritmos de IA seguros. Dada la escasez de expertos en seguridad y la escasez de científicos de datos, las personas que son expertas en ambos son incluso más escasas.
Uno de los mayores riesgos potenciales de los algoritmos de IA y ML, y la amenaza a largo plazo que más preocupa a Raff de Booz Allen Hamilton, es la posibilidad de filtrar datos de entrenamiento a los atacantes. “Hay ataques de inversión en los que puedes hacer que el modelo de IA te brinde información sobre sí mismo y en qué fue entrenado”, dice. “Si se entrenó en datos de PII, puede hacer que el modelo le filtre esa información. La PII real puede estar potencialmente expuesta”.
Esta es un área de investigación activa, dice Raff, y un punto de dolor potencial masivo. Algunas herramientas pueden proteger los datos de entrenamiento de los ataques de inversión, pero son demasiado caras. “Sabemos cómo detener eso, pero hacerlo aumenta el costo de entrenar los modelos en 100 veces”, dice. “No soy exagerado. Es literalmente 100 veces más caro y más largo entrenar al modelo, así que nadie lo hace”.
No puedes asegurar lo que no puedes explicar
Otra área de investigación es la explicabilidad. Hoy en día, muchos sistemas de IA y ML, incluidas las herramientas impulsadas por IA y ML que ofrecen muchos de los principales proveedores de ciberseguridad, son sistemas de “caja negra”. “Los proveedores no están construyendo explicaciones”, dice Sounil Yu, CISO residente en YL Ventures. “En seguridad, poder explicar lo sucedido es un componente fundamental. Si no puedo explicar por qué sucedió, ¿cómo puedo solucionarlo? “
Para las empresas que crean sus propios sistemas de IA o ML, cuando algo sale mal, pueden volver a los datos de entrenamiento oa los algoritmos utilizados y solucionar el problema. “Si lo está construyendo a partir de otra persona, no tiene idea de cuáles eran los datos de entrenamiento”, dice Yu.
Necesito asegurar algo más que algoritmos
Un sistema de IA no es solo un procesamiento natural del lenguaje motor o simplemente un algoritmo de clasificación o simplemente una red neuronal. Incluso si esas piezas son completamente seguras, el sistema aún debe interactuar con los usuarios y las plataformas de back-end.
¿El sistema utiliza una autenticación sólida y los principios del privilegio mínimo? ¿Son seguras las conexiones a las bases de datos back-end? ¿Qué pasa con las conexiones a fuentes de datos de terceros? ¿Es la interfaz de usuario resistente a los ataques de inyección?
Otra fuente de inseguridad relacionada con las personas es exclusiva de los proyectos de IA y ML: los científicos de datos. “No los llaman científicos por nada”, dice Abbatico de Othot. “Los buenos científicos de datos realizan experimentos con datos que conducen a modelos reveladores. Sin embargo, la experimentación puede conducir a comportamientos riesgosos cuando se trata de la seguridad de los datos”. Es posible que se sientan tentados a mover datos a ubicaciones inseguras o eliminar conjuntos de datos de muestra cuando terminen de trabajar con ellos. Othot invirtió en obtener la certificación SOC II desde el principio, y estos controles ayudan a aplicar sólidas prácticas de protección de datos en toda la empresa, incluso cuando se trata de mover o eliminar datos.
“La verdad es que el mayor riesgo en la mayoría de los modelos de inteligencia artificial en todas partes no está en la inteligencia artificial”, dice Peter Herzog, gerente de producto de Urvin AI, una agencia de inteligencia artificial, y cofundador de ISECOM, una organización internacional sin fines de lucro sobre investigación de seguridad. . El problema, dice, está en la gente. “No existe un modelo de inteligencia artificial que esté libre de problemas de seguridad porque las personas deciden cómo capacitarlos, las personas deciden qué datos incluir, las personas deciden lo que quieren predecir y pronosticar y las personas deciden qué cantidad de esa información exponer. . “
Otro riesgo de seguridad específico de los sistemas de IA y ML es el envenenamiento de datos, en el que un atacante introduce información en un sistema para obligarlo a realizar predicciones inexactas. Por ejemplo, los atacantes pueden engañar a los sistemas haciéndoles creer que el software malintencionado es seguro proporcionándole ejemplos de software legítimo que tiene indicadores similares a los del malware.
Es una gran preocupación para la mayoría de las organizaciones, dice Raff. “En este momento, no tengo conocimiento de que ningún sistema de IA haya sido atacado en la vida real”, dice. “Es una amenaza real en el futuro, pero en este momento las herramientas clásicas que los atacantes usan para evadir el antivirus siguen siendo efectivas, por lo que no necesitan ser más sofisticadas”.
Evitar sesgos, desviaciones del modelo
Cuando los sistemas de inteligencia artificial y aprendizaje automático se utilizan para la seguridad empresarial, para el análisis del comportamiento del usuario, para monitorear el tráfico de la red o para verificar la exfiltración de datos, por ejemplo, el sesgo y la deriva del modelo pueden crear riesgos potenciales. Un conjunto de datos de entrenamiento que representa de forma insuficiente los ataques particulares o que está desactualizado rápidamente puede dejar a una organización vulnerable, especialmente porque se confía cada vez más en la IA para la defensa. “Necesita actualizar constantemente su modelo”, dice Raff. “Tienes que convertirlo en algo continuo”.
En algunos casos, el entrenamiento puede ser automático. La adaptación de un modelo a los patrones climáticos cambiantes o los horarios de entrega de la cadena de suministro, por ejemplo, puede ayudar a que sea más confiable con el tiempo. Cuando la fuente de información involucra a actores malintencionados, entonces los conjuntos de datos de capacitación deben administrarse con cuidado para evitar el envenenamiento y la manipulación.
Las empresas ya están lidiando con algoritmos que crean problemas éticos, como cuando las plataformas de reconocimiento facial o reclutamiento discriminan a las mujeres o las minorías. Cuando el sesgo se infiltra en los algoritmos, también puede crear problemas de cumplimiento o, en el caso de automóviles autónomos y aplicaciones médicas, puede matar a las personas.
Así como los algoritmos pueden inyectar sesgo en las predicciones, también se pueden usar para controlar el sesgo. Othot, por ejemplo, ayuda a las universidades con objetivos como optimizar el tamaño de las clases o lograr objetivos financieros. La creación de modelos sin las restricciones adecuadas puede crear sesgos muy fácilmente, dice Abbatico de Othot. “Tener en cuenta el sesgo requiere diligencia. Agregar metas relacionadas con la diversidad ayuda al modelado a comprender los objetivos y puede ayudar a contrarrestar el sesgo que podría incorporarse fácilmente en las admisiones si las metas de diversidad no se incluyeran como restricciones”.
El futuro de la IA está nublado
Los sistemas de IA y ML requieren una gran cantidad de datos, algoritmos complejos y procesadores potentes que pueden escalar cuando sea necesario. Todos los principales proveedores de la nube se están volviendo locos para ofrecer plataformas de ciencia de datos que lo tengan todo en un solo lugar conveniente. Eso significa que los científicos de datos no necesitan esperar a que TI les suministre servidores. Simplemente pueden conectarse en línea, completar un par de formularios y están en el negocio.
Según la encuesta de IA de Deloitte, el 93% de las empresas utilizan algún tipo de IA basada en la nube. “Hace que sea más fácil comenzar”, dice Loucks de Deloitte. Estos proyectos luego se convierten en sistemas operativos y, a medida que se amplían, los problemas de configuración se multiplican. Con los servicios más nuevos, es posible que no estén disponibles los paneles de administración de seguridad y configuración centralizados y automatizados, y las empresas deben escribir los suyos propios o esperar a que un proveedor intensifique y cubra el vacío.