top of page

Cybersecurity & some other interesting facts

Bienvenidos a mi blog personal, aquí les compartiré artículos y notas de interés sobre ciberseguridad, tecnología y transformación digital.

Buscar

ANÁLISIS Y REFLEXIÓN SOBRE LA FALLA GLOBAL DE CROWDSTRIKE



Dafne Briones

Asesora de Ciberseguridad y Transformación Digital, CTSO, Consultoría, Ciberseguridad IT/OT, Operaciones

21 de julio de 2024

¿Qué causó la falla “mundial” del viernes 19 de julio? 

Imaginen el sentimiento de desesperación y estrés que experimentaron los equipos de TI el viernes al enfrentar la falla mundial con la que despertaron. Tras una actualización fallida de CrowdStrike, muchos sistemas quedaron paralizados con la temida pantalla azul, afectando a aerolíneas, aeropuertos, medios de comunicación, bancos, hospitales y diversas industrias a nivel global.

¿Qué es CrowdStrike? Para aquellos que no estén familiarizados, CrowdStrike es un software de ciberseguridad de alto rendimiento, utilizado para proteger computadoras y servidores. Reconocido por especialistas en todo el mundo, es uno de los mejores en su campo.

Esta es la razón por la que esta falla fue tan generalizada geográficamente, pues muchas grandes empresas lo utilizan, al igual que al sistema operativo afectado “Windows”, Windows 7.1 y superiores para ser específica.

Análisis y Reflexiones

Con casi 20 años en el mundo de la ciberseguridad y varios de ellos en Operaciones, puedo entender que estos incidentes ocurren incluso en organizaciones maduras y bien gestionadas. Sin embargo, la situación del viernes con CrowdStrike nos hace plantearnos preguntas cruciales: ¿Liberaron la actualización sin pruebas suficientes? ¿Se desviaron del proceso normal de actualización? ¿Podrían haberlo prevenido?

Algunos incluso cuestionan si deberían ampliar la frecuencia de las actualizaciones, lo cual sería un error. La seguridad debe ser un habilitador del negocio, pero como habilitador su trabajo es proteger y los ciberdelincuentes afuera están constantemente actualizando sus tácticas. Si alargamos los periodos de actualización, dejamos la puerta abierta a que puedan usar esas tácticas evolucionadas en nuestros ambientes. 

Con el nivel de afectación en algunas industrias de carácter crítico, como hospitales, también se pone en duda si debería usarse este sistema en un ambiente OT, donde sabemos que la ciberseguridad es fundamental pero se debe proteger con principios y estrategias distintas que en TI.

Para mi hay 3 puntos clave en la reacción ante un incidente, tu capacidad de reacción y recuperación, que tan bien te comunicas y qué haces después.

Respuesta y Recuperación

En mi opinión, Crowdstrike fue muy capaz, pues pudo identificar y “resolver” rápidamente el fallo en su sistema, además de poner a disposición un workaround para los afectados. 

¿Por qué opino que lo hizo bien en este punto? Se sabe que la actualización fallida se aplicó a las 4:09 UTC y la resolución en ambiente Crowdstrike fue 5:27 UTC; esto es 1 hora 17 minutos después, con lo que sabemos hasta ahora, parece buen tiempo. Pero desafortunadamente para los equipos afectados, Crowdstrike no tiene forma de mandarles el update corregido y restablecerlos.

Pues como todos sabemos la solución para la pantalla azúl en los sistemas Windows afectados, implicaba para muchos casos no sólo hacerlo manualmente sino también físicamente uno a uno, y es ahí donde el tiempo se multiplicó y las últimas horas debieron ser muy complicadas para los equipos de TI de las compañías afectadas, que seguramente tuvieron que trabajar horas extra.

Y entonces todos se están cuestionando la actuación de Crowdstrike pero que hay sobre la “fragilidad” de Windows, aclaro que no soy hater de Microsoft. Sin embargo en este caso, un sólo parámetro de un sólo software (agente Falcón de Crowdstrike) pudo activar ese “botón de autodestrucción” que generó fallas y retrasos en las operaciones de múltiples industrias a nivel mundial. ¿No tendría algo que aprender Microsoft? 

¿Debería trabajar para tener un “botón de recuperación automática” más accesible para sus usuarios? ¿O quizá tener mejores mecanismos de defensa para detectar cuando algo que se instala en su entorno le puede causar un daño fatal y reaccionar ante ello de otra forma?  Bueno no sólo Microsoft, en general la industria tecnológica y las áreas de TI, tenemos una oportunidad de cuestionarnos si tenemos los mecanismos de defensa y recuperación necesarios para los riesgos que enfrentamos actualmente, como dicen en mi pueblo “si ves las barbas de tu vecino cortar…”

Comunicación: Un Pilar Fundamental

Algo que hace la diferencia es la comunicación, ¿Por qué? Pues con base en mi experiencia liderando un CyberSOC en un MSSP, puedo decir que es uno de los más grandes dolores de cabeza para todos, comunicar con claridad, precisión y con la frecuencia necesaria.

Sucede que a muchas organizaciones/equipos/áreas les da pavor comunicar un incidente, muchas veces si pueden, evitan comunicarlo, y cuando lo hacen es porque no les queda de otra. En otros casos están tan inmersos en solucionar el problema que no tienen protocolos adecuados de comunicación ni con terceros técnicamente involucrados y mucho menos con sus stakeholders. 

Tener estos protocolos de comunicación es fundamental en un buen procedimiento de atención a incidentes (de ciberseguridad u operativos).  La mala comunicación puede causar que tu impacto se magnifique, en muchos sentidos: tiempo de resolución, satisfacción del cliente, credibilidad, confianza. 

Por eso cuando estudio estos casos, siempre me fijo en qué comunicaron y en qué momento.

Cuando veo a Crowdstrike comunicando activamente y aceptando desde muy al inicio que el origen es un falla, ya sea humana o en el proceso, veo a una organización madura. Y probablemente habrá quienes cuestionen la fiabilidad de Crowdstrike después de este evento pero eso es sólo el reflejo de la falsa creencia de que la infalibilidad es igual a resiliencia.

¿Y después de recuperar qué?

Es necesario iniciar un proceso de análisis de causa raíz (RCA, Root Cause Analysis) para determinar qué nos llevó a ese momento, en términos de procesos, gente y tecnología. Debemos ser capaces de reflexionar y aprender de los incidentes para reforzar nuestros procedimientos con la finalidad de evitar que se repitan. 

En cuanto a Crowdstrike en su más reciente comunicado compartió algunos detalles técnicos pero aún no el RCA, esperemos más noticias al respecto.

Finalmente, será interesante observar las repercusiones económicas para CrowdStrike y su capacidad de recuperación tras este incidente. ¿Qué piensan ustedes? ¿Qué más podríamos añadir?

 
 
 

ความคิดเห็น


Suscríbete a mi Boletín

​Contáctame

bottom of page