Error crowdstrike windows a nivel mundial

Sust0
#419nerkaid:

Esto es un fallo garrafal porque si permites tanta gestion de qué versión del sensor tienen tus clientes para que puedan probar todo en varias fases o grupos de equipos y evitar incompatibilidades, no tiene sentido que luego te fumes todo ese control de versiones y pases algo tan critico como un driver del sistema por las bravas sin preguntar a nadie. Fallo garrafal y sin sentido de Crowdstrike que no hay por donde cogerlo.

Es tan absurdo que hasta parece intencionado. Habrá que ver quién ha podido ganar o perder con este apagón mundial.

1
GaN2
2
shortyStyle

#419 Yo también trabajo de responsable de IT, el impacto que hemos tenido ha sido considerable, día duro ayer.
Por cierto, si se puede arrancar la vms de azure en safe mode, no conozco tu caso concreto obvio, pero por normal general, es posible.

allmy

Bueno pues mi vuelo retrasado, y me quedaría tirado en Dallas, así que me quedo hasta el domingo en Idaho.

1
willy_chaos

A nosotros 26 servidores (cada noche se lanza snapshot y si ha ido bien x la mañana lo revisan los de sistemas y retiran el snap) asi que rollback y ya, algun laptop de algunos analistas que trabajaban por la noche y tambien de alguno que se dejo el pc encendido/suspendido.

Luego cuando lo estaban arreglando, saltaban alertas en el SIEM asi que hubo que whitelistear ciertas signature en las alertas durante ayer para que no saltaran al borrar el fichero 291 (crowd generaba una alerta y el siem enviaba)

Luego avisar y ayudar a varios hospitales y universidades que tb tenian Crowdstrike... algun hospital nos dijo que tenian 3500pc y que tenian que ir en persona a entrar en modo safe...

Me se de unos tecnicos que se van a pasar un fin de semana de mierda...

3
Atrus

#419 disfruta de tu merecido descanso.

En mi empresa han tenido que realizar el workaround en 650 de las cerca de 800 máquinas que tenemos. Sólo se han salvado los Unix y Host por motivos obvios. Una vez que se tenía claro que había que hacer, sobre las 9, se han ido levantando poco a poco los sistemas críticos primero y luego el resto de prioridades. Pero la fiesta en mi empresa empezó sobre las 6 de la mañana y, hasta que no se tuvo claro como recuperar las máquinas, fue un festival de la desesperación. Los de infra os habéis ganado el cielo, de verdad.

PD: la war room para recuperar los servidores afectados duró 11 horas, desde la primera caída notificada.

Mandarino

El parche de crowdstrike lo lanzaron de golpe al 100% a todo el mundo? No entiendo como cualquier parche de lo que sea para windows no se haga un rollout progresivo, y más si se fuerza actualizar automaticamente...

1 respuesta
espikiller

Desde luego la liada es tan gorda que parece intencionada, como se salta los protocolos de test esta historia? Vamos yo no le encuentro explicación. Nosotros cada vez que metemos algo hacemos pilotos, pruebas, etc intentando generar todas las posibilidades antes de liarla.

1 respuesta
Elinombrable

#427 Ya se ha dicho que no es un parche. Es como si un antivirus lanza una actualización por etapas dejando que mientras tanto el resto del mundo se infecte. Estos sistemas tienen que reaccionar rápido a amenazas que pueden ser muy rápidas y la única manera de reaccionar rápido es que todos los sistemas se actualicen a la vez.

#428 Como todas las empresas. Pero como en todas las empresas, trabajan humanos y por tanto a veces hay errores. Un botón mal pulsado, un caracter mal puesto, hay mil opciones. Supongo que en la próxima semana se sabrá más pero errores que se han saltado todas las fases de testeo han sucedido en cualquier empresa, desde la más grande hasta la más pequeña a lo largo de la historia.

1 2 respuestas
willy_chaos

#429 esto era un parche para solventar un problema de rendimiento detectado por los windows, no era una firma de detección del antivirus, por lo que no habia motivo para que fuera lanzado masivamente y no hacer un despliegue controlado.

Hace 1 semana tuvimos una reunion con nuestro TAM y ya nos dijo que se lanzaria una update para solventarlo. Si te fijas solo ha afectado a sistemas Windows

1 1 respuesta
jmdw12

#429 eso es una chorrada. El riesgo de no hacer un rollout por etapas es mayor que el de que una vulnerabilidad exista una hora.

pelusilla6

#419 Gracias por tu punto de vista!!

Elinombrable

#430 ¿De dónde sacaste esa información? Hasta ayer lo único que se sabía es que era una actualización del driver pero eso de que fuese para solventar un problema de rendimiento no lo he visto en ningún sitio de momento.

#419 Será curioso saber por qué lo pushearon a todos los canales a la vez. Puede que fuera algún error crítico? Igualmente mi admiración para los que os ha tocado pringar con estas tareas manuales servidor a servidor durante todo el viernes. No me habría gustado estar ahí.

1 respuesta
willy_chaos

#433 como digo, la semana pasada tuvimos reunion con nuestro TAM (Technical Account Manager) ya el lunes si un caso busco si hay una tech note

imnothing

Pues ha arreglado el problema del rendimiento a lo ruso: ahora no puede funcionar mal porque no funciona en absoluto

AikonCWD

el fichero es un fichero en blanco lleno de 0s, ni parche ni nada. Es una cagada monumental y no hay excusa que valga

1 1 respuesta
willy_chaos

#436 eso esta claro, que ha sido una cagada, si , que deberian haber lanzado paulatinamente o incluso que te dijeran, has de crear un grupo de test updates y activarla paulatinamente para ver el comportamiento.

Es que ademas, con esa frase tu como empresa te curas en salud , pasando la responsabilidad al dept IT , ya que pueden desplegar bajo su criterio.

1 respuesta
AikonCWD

#437 lo digo por el memerable, que como de costumbre habla sin saber

3
Vandalus

#407 lo típico de "se me fue el dedo" xD

Es una chapuza en toda regla, espero que les caiga una buena sanción

Tras

#419 gracias por compartirlo y disfruta de un merecido descanso.

alfema

Tengo por curiosidad ver cómo termina todo esto, y la explicación por parte de ClowdStrike ¿ha sido intencionado?, ¿una cagada descomunal?, ¿qué ha pasado con la fase de verificación de calidad?, ¿consecuencias para CrowdStrike?, quizás en otro casos podría ser interesante comprar acciones de esta empresa, la caída en bolsa ha sido importante, lo habitual es que después vuelvan a recuperar la cotización anterior, pero se comenta que esto puede derivar en reclamaciones judiciales millonarias contra la empresa.

TripyLSD

#415 Curioso y simple (y tremendo garrafón. Hasta yo, que no soy programador pero aprendí a programar con C, punteros, etc, lo entiendo)

Aunque el tío sugiere que el paso a seguir sería pasar a un código que previene este tipo de cosas como Rust, el problema radica también en cómo el propio sistema operativo maneja este tipo de errores. E.g. crashea un driver porque hace una lectura de memoria no permitida y entonces crasheo todo el sistema con un BSOD. En Linux, al ser un kernel modular puede descargar esos drivers y continuar con el funcionamiento del sistema, al igual te arroja un "Kernel oops". Hace siglos que no veo un kernel panic.
Aunque más atrás he dicho que "pobre Microsoft, para una vez que la culpa no es suya...", en el fondo siguen teniendo el mismo problema de base desde hace 25 años, aunque hayan evolucionado su kernel a una arquitectura híbrida. Y esto ya sin entrar en "y qué hace después el sistema tras el BSOD para solventarlo", que ya hemos visto en este caso que hace poco o nada (aunque me figuro que esto no es así del todo cierto. Algo hará, pero la propia instalación de CS forzará políticas que vuelvan a cargar el driver, etc)

Pd. Lol

#419 Fuerza y valor ✊ No había caído en los entornos cloud y menos Azure.. pffff...
Lo bueno de estas cosas es que acaban resultando en que ahora estará más de medio equipo de Azure currando para implementar una herramienta de consola de modo seguro o algo así.

2 respuestas
garlor

#419 pero entiendo que esto sucede porque las empresas delegan ciegamente parte de la gestion de sus sistemas a una empresa externa, ya que han aplicado el parche que les ha dado crowdstrike sin realizar ninguna comprobación propia

1 respuesta
AikonCWD

#443 es que ellos te venden esa seguridad (y tu la pagas a precio de oro). Se comprometen a testear todo esto antes de mandarte nada y te lo cobran con creces.

Sería absurdo pagar un servicio para luego hacer el mismo trabajo 2 veces

1 respuesta
Hipnos

Si crowdstrike sale de esta sin quebrar, me sorprendería.

2 respuestas
Mandarino

#442 mira que le gusta a la gente conspirar .. XD sin pruebas lo mas probable es que sea cagada importante y ya

TripyLSD

#445 solo por el trabajo que conlleva reemplazarlo por otro, no lo creo.
De hecho, ahora que las acciones ha caido, lo mismo es un buen momento para comprar

1 respuesta
Alien_crrpt

Pasa en Windows 10? Yo los tenia bloqueada las actualizaciones en Windows 10. Pero mi superior dijo que los desbloqueará para que se actualicen.

garlor

#444 entiendo que una pequeña o mediana empresa tenga que funcionar asi, pero una gran empresa tiene que tener la capacidad de hacer esos testeos por si misma y no meter cambios sin testearlos, supongo que con esto algunos se replantearan la estrategia

1 respuesta
AikonCWD

#449 no me has entendido.

No es que no tengan capacidad. Es que han estado pagando una millonada para que esta empresa haga ese trabajo por ellos. Y la han cagado

1 respuesta