http://www.ox-holdings.com

此次服务中断给大量应用造成了严重影响新匍京a奥门,一组负责实时通信服务数据统计的缓存机器发生故障

摘要2016年11月22日,即时通讯云服务商LeanCloud中国节点所有服务瘫痪约 50 分钟。以下消息来自LeanCloud官网:11 月 22 日中午 12:55,我们收到来自内部监控系统的报警,发现 LeanCloud 中国节点的各项服务出现异常,经过近 50 分钟的抢修,最终在 13:45 将全部服务恢复。在此时段受到影响的应用较多,这令我们感到十分愧疚,所以在此诚恳地向用户们道歉,同时我们也将免掉中国节点用户账户在 2016 年 11 月 22 日所产生的除短信外的全部费用。以下为本次故障的详细情况和改进措施,请大家监督和反馈。故障节点和影响范围本次故障仅发生在中国节点,存储服务和依托于存储的聊天、云引擎等各项服务都无法正常响应。故障时间线12:55:内部监控系统发出报警,大量存储 API 节点失去响应,随后也有开发者反馈 API 响应异常。13:11:第一次重启了所有 API 节点,系统有所好转但很快又出现了恶化。13:36:定位到故障原因,是后台服务对部分特殊请求存在漏洞,系统资源被逐渐耗尽,致使各模块都无法正常提供服务。立即实施热修复,阻断流量,再次重启所有 API 节点。13:45:所有 API 节点运行正常,开放流量,各服务恢复正常。后续措施加大 API 节点的资源配置,以期类似不可预知的事件发生时,可以延缓状态恶化的过程,争取更长的处理时间。(11 月 24 日前完成)本次故障原因比较复杂,内部定位花费了较长时间,因此需要进一步完善对网络延迟、缓存节点等内部各环节的监控与状态展示,缩短故障排查时间。(11 月 29 日前完成)详细排查所有资源消耗的潜在问题点,对自定义的结构化数据实现更严格的限制和检查。(12 月 8 日前完成)详情请见:

以下是LeanCloud Cofounder/CEO 江宏在LeanCloud博客对整个事件的说明:

摘要即时通讯云 LeanCloud 4月5日因DDoS攻击致即时通讯服务全面瘫痪,混合型 DDoS 攻击从2016 年 4 月 5 日 20:19 开始,历时约一小时。此次服务中断给大量应用造成了严重影响。2016 年 4 月 5 日 20:19 开始,即时通讯云服务商 LeanCloud 的api.leancloud.cn 域名受到混合型 DDoS 攻击,致使用户无法从外网访问中国节点 API 服务,造成数据存储、统计、推送、短信等服务全部访问中断,历时约一小时。此次服务中断给大量应用造成了严重影响。故障时间20:19 ~ 21:25(持续约 66 分钟)影响范围中国节点的数据存储、统计、推送、短信等服务不可访问。美国节点的所有服务未受影响。事故过程20:19:针对 api.leancloud.cn 的攻击开始出现,监控系统告警。20:22:api.leancloud.cn 对应的外网 IP 逐一被攻击,数据存储 API 基本不可访问。20:40:我们在上游服务商的协助下开始接入高防,对流量进行清洗。21:19:攻击流量明显减少,服务开始恢复。因为 DNS 缓存更新会有几分钟的滞后,终端用户的访问恢复可能也会经历这个时间差。21:25:从LeanCloud统计数据来看,API 请求量回到正常水平,服务完全恢复。LeanCloud承诺的改进措施本次攻击的目标是LeanCloud的 API 主域名,并且发生在傍晚的流量高峰时段,致使大量应用受到影响。为了避免此类问题再次发生,LeanCloud决定进行如下改进:完善应对 DDoS 攻击的策略和措施,进一步减少受攻击时域名恢复需要的时间;API 服务对外增加多路备选域名,且让应用之间的访问能够隔离,避免一个域名受攻击而影响所有应用,保证 SDK 请求不会中断;拆分 LeanCloud 主站与 api.leancloud.cn 对应的外网 IP,保证故障时主站依然能够打开并展示相关提示信息。

摘要2016 月 2 月 19 下午 3 点左右,即时通讯云 LeanCloud 因技术故障致所有服务中断半小时以上。2016 月 2 月 19 下午 3 点左右,即时通讯云 LeanCloud 因技术故障致所有服务中断半小时以上。以下是LeanCloud官方关于此次故障的说明:故障时间15:17 至 15:50(持续约 33 分钟)影响范围除了单纯的静态网站托管服务未受影响之外,其他所有服务,包括结构化数据存储、文件存储、云引擎、聊天、短信、推送、统计等功能都暂时无法使用。故障处理时间线15:17:我们在部署新服务时无意触发了一项误操作,但并未意识到由此会导致上述服务停止。15:17:我们在同一时间接到系统监控报警,经检查发现 LeanCloud 网站无法登录,API 服务日志也已中断,同时有部分用户也向我们反馈,确认了服务已不可用。15:19:我们随即启动回滚操作,所有服务陆续开始重启。15:25:API 等服务逐步启动,但是流量还没对外开放。15:30:开放 API 流量, 数据存储服务以及依赖于它的云引擎服务开始逐步恢复。继而聊天、统计、推送服务也逐步恢复。15:50:所有服务恢复正常。后续改进措施贯彻执行故障通报流程:由于本次故障事发突然,影响面广,我们一直专注在恢复服务上,却疏忽了与用户及时沟通问题和进展这一已有流程。我们深知在故障期间这一流程对用户来说至关重要,所以我们今后会切实执行这一流程,明确故障通报的负责人和替补人、通报时机、通报内容、通报渠道(如邮件或短信)等。对部署服务进行权限和功能上的细分:限制其操作的影响范围,杜绝一条指令导致所有服务停止运转的情况。完善后台管理系统:确保管理系统的所有操作都增加了确认环节,确保操作者知道操作的后果,并手动进行确认。这次由于我们的工作失误而引发了大范围的服务中断,我们在此向大家深切地道歉。同时为了表达我们的歉意,我们会免掉所有应用在 2 月 19 日除短信服务之外产生的全部费用。我们将在后续几日进行退费操作,退费完成时,您将收到账户余额变动的邮件通知,请耐心等待。具体金额届时也可以通过控制台 > 交易历史 > 充值历史查询。

摘要即时通讯云服务商LeanCloud 2016年6月30日因一组负责实时通信服务数据统计的缓存机器发生故障,而导致雪崩致使即时通讯服务瘫痪43分钟之久!以下消息来自LeanCloud官方:6 月 30 日晚上 8 点左右,我们的实时通信服务发生了故障,导致大量应用的终端用户无法登录和发送消息,时间持续约 40 分钟,详细情况汇总如下。故障时间2016-06-30日 19:58 - 20:41(共计 43 分钟)影响范围LeanCloud 国内节点的实时通信服务受到影响(无法登录和发送消息),其它服务正常;美国节点一切服务正常。事故经过19:58 一组负责实时通信服务数据统计的缓存机器发生故障,导致用户登录或发送消息出现阻塞,类似操作开始消耗内部线程池资源;20:05 线程池资源耗尽,所有用户登录过程都会失败;20:22 确定了故障原因,开始重启缓存服务程序,但是服务程序所在机器因为压力过大失去响应,转而重启物理机器;20:33 缓存服务恢复正常,登录和发消息等请求开始恢复正常(为了加速我们新增了部分实时通信服务程序,以增加响应能力);20:41 实时通信服务恢复正常。下图中的黄线是故障时段前后的登录请求数量变化趋势曲线,与上述故障时间线吻合:后续改进措施聊天服务监控程序改由 Marathon 来自动部署并执行。该监控程序因前期的一次操作而被暂停,结果未能捕捉到此次服务异常,所以我们加入程序化的手段来保证其始终运行。(已完成)增加对统计数据缓存服务的监控。(已完成)增加对于登录请求数异常变化的监控。(已完成)进一步优化实时通信服务的架构,针对所有环节做好容错,防止类似的阻塞操作再次出现。(一周内解决)即时通讯云 LeanCloud 官方网站:

各位 LeanCloud 的用户,大家好。

LeanCloud 的多项服务在六月六日周六下午发生了大约四个小时的中断或不稳定。其中 16:10 到 19:09 为故障阶段;19:09 到 20:17 为限流恢复阶段。

在故障阶段受到重大影响的服务包括:数据存储、网站及控制台、云代码、推送、工单系统、用户反馈、第三方登录、应用内社交;受到轻度影响的服务包括:短信、实时通信服务中获取聊天记录的 API;未受影响的服务包括:统计分析、离线数据分析、应用内搜索、文档。

在限流恢复阶段受到重大影响的服务包括数据存储、网站及控制台、云代码、推送、短信、工单系统、用户反馈、第三方登录、应用内社交、统计分析、离线数据分析、应用内搜索、文档、实时通信中获取聊天记录的 API。实时通信在这个阶段未受影响。

郑重声明:本文版权归新匍京a奥门-最全网站手机版app官方下载所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。