On Call 33小时,判断、溯源、恢复、二次救灾……仅以本文,揭露信息安全从业者与勒索病毒对战的背后,那些不曾被提及的故事。
2022年2月11日早八时,我们的应急响应服务专线再次响起,不出所料,又是勒索病毒。自2020年疫情以来,虽然遇到了不少大大小小的勒索病毒事件,但论单次规模和造成的损失,本次攻击是迄今为止我们亲历的最为严重的一次:1500万美金的勒索金额,用户核心生产业务中断,受灾范围波及全球多个站点。
这是一家行业标杆客户,产品及业务在全球范围内均有涉猎,为全球用户提供了优质产品和服务,除大陆之外,在东南亚及北美地区拥有多家工厂。用户在三年前放弃了使用多年的传统备份架构(某国际知名品牌),转而采用由我们提供的基于存储块级别的自动化高效恢复架构,来应对由数据损坏和人为原因所导致的业务中断。期间,我们也协助用户处理过多起应急事件,均得到了不错的恢复效果。然而,当我们信心满满地赶到现场时,却发现此次受灾的严重程度以及救灾的复杂程度远远超出我们的想象。
由于OA、ERP、产线等超过60%的核心系统遭到了攻击,整个运维团队所处的临时应急响应指挥会议室里,充斥着来自工厂、业务、市场、财务等部门的焦急询问和运维团队无奈的答复。网络、存储、安全、应用团队的核心人员都在全力配合,尝试恢复并阻止攻击范围的持续扩大。由于涉及主机数量众多,要在短时间内实现判断、溯源、封堵、清洗、恢复,即便前期制定过相应的预案,但在受灾后的执行层面中仍遇到了前所未有的困难。面对如此严重的攻击,我们从每个人焦虑的脸上都看到了那丝对未知的恐惧。
拉响攻防战
第一回合:短暂的胜利
【 10:25 A.M. 】
由于短时间内无法定位攻击源头,被勒索病毒攻击的服务器也不存在修复的可能,指挥中心要求我们配合,先对外地工厂重要服务器进行恢复验证,同时进行全网扫描,检测分析和溯源,确保第一时间找到并堵住攻击入口。
【 10:45 A.M. 】
第一台外地工厂服务器在我们构建的旁路异构恢复平台中成功恢复到了遭受攻击之前的数据状态,数据完整可用、应用恢复符合预期。虽然类似操作之前已经做过多次,但这一次的成功还是给在场每个人打了一剂强心针。接下去并行批量恢复动作开始执行,多个站点开始同步恢复,包括海外站点。
【 9:35 P.M. 】
经过10多个小时的奋战,包括海外站点在内的近百台服务器完成了恢复、验证、加固和上线工作;攻击的主要发起源头也得到了控制,通过分析发现,黑客通过对AD域控制器的权限获取,进行全域攻击,拿下这个制高点后,意味着被攻击范围得到了有效控制。
一切如想象般顺利,似乎胜利的天平正在不断向我们倾斜……
【 11:40 P.M. 】
全网主要服务器均得到了恢复并上线,整个救灾行动开始进入扫尾阶段。
【 00:30 A.M. 】
我们和其他原厂工程师开始逐步撤回,就在大家还在兴奋讨论今天的处理过程时,一个电话把我们拉回现实:“上海站点再次遭到攻击,VMware平台所有服务器再次被加密,黑客发出勒索邮件,索要1500万美金赎金,全员即刻召回!”
第二回合:拉锯
黑客出乎意外的再次出招,将我们近一天的努力,彻底打回原点。大家的内心虽说谈不上崩溃,但接下去该怎么做,多少有些短暂的迷茫。我们可以进行多次快速恢复,但恢复出来又可能会被控制和加密;服务器恢复之后已经进行了补丁安装、安全加固、病毒检测,问题出在哪里?必须找到根源,否则一切努力都会被再次清零。
【 1:20 A.M. 】
尝试在其他VMware生产平台和我们的旁路异构恢复平台同时恢复服务器,观察和等待:不到10分钟时间,VMware平台的服务器再次被加密,而在我们异构平台上恢复的服务器一切正常!
【 2:30 A.M. 】
经过资料查询和对VMware平台的分析验证,证明了之前的猜测:不是服务器被直接控制,而是黑客利用VMware平台的软件漏洞获得了最高控制权限,无论做多少次的恢复,他们均可以随时加密VMware平台上任意一台服务器。而我们的异构平台并没有被黑客攻破,所以出现了之前的现象。
【 3:00 A.M. 】
开始将受攻击平台的服务器逐步恢复至我们的旁路异构恢复平台,然后对VMware环境进行修复、补丁安装和加固,确认之后再进行迁回。整个过程异常顺利,没有出现二次攻击的现象,大家悬着的心终于可以放下了。
【 5:25 A.M. 】
就在恢复流程有条不紊地进行时,大家突然发现,新恢复出来的服务器正在一台台莫名的消失……
最终回合:关上最后的门
在场每个人紧绷的神经就像被人用锯条来回拉扯一样,接近崩溃。已经无法用常理来描述现在的现象了,黑客是如何把刚恢复出来的主机删除的?经过再三的确认,我们的平台并没有任何被攻破的迹象。
【 5:45 A.M. 】
通过仔细的排查,发现执行删除命令的IP竟然来自会议室里一台提供给各厂商用于软件操作的笔记本电脑:无人的座位前,那块亮着的屏幕上,鼠标正欢快的滑动着,一个一个删除着我们之前恢复出来的服务器副本……距离最近的人,立即按住了笔记本的电源键,直到屏幕熄灭。至此,最后的门被彻底关上。
在接下来的时间里,大家坚持逐步完成了全部服务器的恢复、清洗、加固、回迁等工作,认真而又小心翼翼。业务在暂停一天多后,终于完全恢复并重新开始正常运行,不再有黑客攻击的迹象发生。虽然客户在这段时间内也遭受了巨额的损失,但相比1500万美金的赎金,也算是获得了最终的胜利!
事件分析
-
这是一次目标明确、有针对性的主动攻击,黑客经过长期潜伏、逐步渗透至系统当中,最后再发动致命一击,并以高额赎金进行勒索;
-
事后通过追溯发现,黑客首先攻破了东南亚站点,再渗透到上海站点,拿到了域控制器的权限,掌握了向全域主机发送病毒的“钥匙”;
-
黑客利用VMware的软件漏洞,再次控制平台并对虚拟机文件进行加密攻击。假设用户不是采用我们提供的NaviClouDR旁路异构高效恢复平台,就无法在多次攻击过程中不断快速地提供可用副本,也无法为安全团队创造分析和修复的基础条件,后果难以想象;
-
在救灾的过程中,黑客似乎无孔不入,在每一个阶段都在努力与我们抢夺控制权。由此可见,任何一次如此规模的勒索病毒救灾过程都是及其艰难和挑战的,单一技术或产品都无法独立完成,本次救灾就是各家原厂工程师与客户运维团队精诚合作的胜利;
-
原有设定的预案和演练,显然不足以应对如此大规模的攻击。持续不断的对恢复预案进行演练、改进和优化,将是大型企业和组织未来保障自身信息安全的核心方针之一;
-
重视事前安全防御能力投入的同时,也要重视自身事后恢复技术和平台能力的发展与革新,这样才能在防线被攻破时,仍然做到沉稳应对!