发布信息

难!1024程序员节当天发布故障公告,这个公司因服务故障致歉

作者:本站编辑      2023-10-25 14:03:16     21


综合编辑|TesterHome社区

昨天是一年一度的1024程序员节,很多公司组织活动庆祝当天的节日。甚至在长沙智谷,随着程序员节的到来,还有国内首条程序员专属街道“1024街”开街,成为国内首条完全展现程序员技术创新和引领行业发展的人文街道。

然而,程序员节当天,有一家公司的程序员们就过得不是那么快乐。10月24日晚,蚂蚁集团旗下文档产品语雀官方发布故障公告,针对10月23日的重大服务故障致歉并作出详细说明,同时还公布了补偿方案。

官方公告截图

故障原因及处理过程:
10月23日下午,服务语雀的数据存储运维团队在进行升级操作时,由于新的运维升级工具bug,导致华东地区生产环境存储服务器被误下线。受其影响,语雀数据服务发生严重故障,造成大面积的服务中断。为了尽快恢复服务,我们和数据存储运维团队全力进行数据恢复工作,但受限于恢复方案、数据量级等因素,整体用时较长。
具体过程如下:
  • 14:07 数据存储运维团队收到监控系统报警,定位到原因是存储在升级中因新的运维工具bug导致节点机器下线;

  • 14:15 联系硬件团队尝试将下线机器重新上线;

  • 15:00 确认因存储系统使用的机器类别较老,无法直接操作上线,立即调整恢复方案为从备份系统中恢复存储数据。

  • 15:10 开始新建存储系统,从备份中开始恢复数据,由于语雀数据量庞大,此过程历时较长,19点完成数据恢复;同时为保障数据完整性,在完成恢复后,用时2个小时进行数据校验;

  • 21点存储系统通过完整性校验,开始和语雀团队联调,最终在22点恢复语雀全部服务。用户所有数据均未丢失。

改进措施:

通过这次故障我们深刻认识到,语雀作为一款服务千万级客户的文档产品,应该做到更完善的技术风险保障和高可用架构设计,尤其是面向技术变更操作的“可监控,可灰度,可回滚”的系统化建设和流程审计,从同Region多副本容灾升级为两地三中心的高可用能力,设计足够的数据和系统冗余实现快速恢复,并进行定期的容灾应急演练。只有这样,才能提升严重基础设施故障时的恢复速度,并从根本上避免这类故障再次出现。为此我们制定了如下改进措施:

1.升级硬件版本和机型,实现离线后的快速上线。该措施在本次故障修复中已完成;
2.运维团队加强运维工具的质量保障与测试,杜绝此类运维bug再次发生;
3.缩小运维动作灰度范围,增加灰度时间,提前发现bug;
4.从架构和高可用层面改进服务,为语雀增加存储系统的异地灾备。

赔偿方案:

为了表达我们的歉意,我们将向所有受到故障影响的用户提供如下赔偿方案:

  • 针对语雀个人用户,我们赠送6个月的会员服务。操作流程:进入工作台「账户设置」,点击左侧「会员信息」,在会员信息页面点击「立即领取」,即可获得赠送服务。

  • 针对语雀空间用户,由于情况比较复杂,我们会单独制定赔偿方案。请空间管理员留意语雀站内信。

语雀官方表示,“这次的故障让我们深切地感受到了用户对语雀的依赖以及语雀肩上的重大责任。再次向所有语雀用户表达我们诚挚的歉意。我们将持续提升语雀的服务质量和服务稳定性,不辜负每一位用户的信任!”


那么,这个“锅”最后由谁来背呢?

据了解,语雀是蚂蚁集团旗下的在线文档编辑与协同工具,使用了“结构化知识库管理”,形式上类似书籍的目录,该软件于2022年2月正式推出iOS及Android版本。

“每个人都有犯错的时候,成长中的团队也是如此,希望语雀好好反思,汲取经验,相信语雀会越做越好。”

有人说,2023年关键词是:“难”!最后借用网友的这句话,给广大的程序员同学们加油打气!

今年的1024,你有什么快乐的不快乐的特别感慨的事吗?留言区说一说!

1.小道消息播客|10月25日晚上8点,一起来和高飞聊聊云原生测试

2.ChatGPT取代软件测试工程师?先解决这三个问题

3.如何聪明地编写测试

4.端到端测试(End-to-end tests)重试策略

5.提质增效|测试分析和测试用例优先级排序,如何协同?


欢迎参加11月25日举行的MTSC2023深圳大会,目前大会门票,7折优惠已经结束,限时8折优惠中,先到先得!


TesterHome公众号投稿指南

欢迎各位技术大牛、行业专家继续向我们积极投稿,也欢迎各公司技术团队在这里分享你们的最新实践总结。

作为国内最大的测试技术社区之一,TesterHome已经成立十年,成为测试人的技术交流平台和精神家园,让我们一起提升经验分享、信息互通的技术交流氛围,共同解决技术难题、共同进步!

TesterHome社区官网:https://testerhome.com/

扫码联系小助手投稿

相关内容 查看全部