http://www.ox-holdings.com

服务多次出现间歇性故障(数据存储新匍京娱乐场最全网站 API,故障节点和影响范围本次故障仅发生在中国节点

摘要即时通讯云 LeanCloud 4月5日因DDoS攻击致即时通讯服务全面瘫痪,混合型 DDoS 攻击从2016 年 4 月 5 日 20:19 开始,历时约一小时。此次服务中断给大量应用造成了严重影响。2016 年 4 月 5 日 20:19 开始,即时通讯云服务商 LeanCloud 的api.leancloud.cn 域名受到混合型 DDoS 攻击,致使用户无法从外网访问中国节点 API 服务,造成数据存储、统计、推送、短信等服务全部访问中断,历时约一小时。此次服务中断给大量应用造成了严重影响。故障时间20:19 ~ 21:25(持续约 66 分钟)影响范围中国节点的数据存储、统计、推送、短信等服务不可访问。美国节点的所有服务未受影响。事故过程20:19:针对 api.leancloud.cn 的攻击开始出现,监控系统告警。20:22:api.leancloud.cn 对应的外网 IP 逐一被攻击,数据存储 API 基本不可访问。20:40:我们在上游服务商的协助下开始接入高防,对流量进行清洗。21:19:攻击流量明显减少,服务开始恢复。因为 DNS 缓存更新会有几分钟的滞后,终端用户的访问恢复可能也会经历这个时间差。21:25:从LeanCloud统计数据来看,API 请求量回到正常水平,服务完全恢复。LeanCloud承诺的改进措施本次攻击的目标是LeanCloud的 API 主域名,并且发生在傍晚的流量高峰时段,致使大量应用受到影响。为了避免此类问题再次发生,LeanCloud决定进行如下改进:完善应对 DDoS 攻击的策略和措施,进一步减少受攻击时域名恢复需要的时间;API 服务对外增加多路备选域名,且让应用之间的访问能够隔离,避免一个域名受攻击而影响所有应用,保证 SDK 请求不会中断;拆分 LeanCloud 主站与 api.leancloud.cn 对应的外网 IP,保证故障时主站依然能够打开并展示相关提示信息。

摘要即时通讯云服务商LeanCloud 2016年8月5日因由于缓存集群超负载崩溃,导致即时通讯服务瘫痪30分钟之久!以下消息来自LeanCloud官方:8 月 5 日晚上 7 点 10 分开始,LeanCloud 中国节点上的某一缓存集群因为流量过大,CPU 资源被占满而停止了服务,从而导致数据存储及依赖它的服务(云引擎、推送、实时聊天)出现约半小时的中断,在此期间有部分应用可能会遇到请求无法完成的情况。详细报告如下。故障节点和影响范围只有中国节点出现了问题,受影响的服务与时间段列举如下,其他服务未受到影响。服务名区域受影响时段范围数据存储中国19:10 – 19:41全部不可用云引擎中国19:10 – 19:41全部不可用实时通信中国19:10 – 19:41部分不可用(消息 hook 功能不可用、离线推送延迟)消息推送中国19:10 – 20:02推送大面积延迟统计服务中国19:10 – 20:23全部不可用(数据收集接口关闭)故障时间线19:10:内部监控报警,确认 redis 异常(CPU 资源占满,失去响应)。19:13:redis 机器无法直接重启,开始尝试逐步关停其他服务(依次是推送、聊天推送、云引擎、统计),以降低请求压力。19:41:redis 集群恢复可用,同时数据存储、云引擎和实时通信三个服务开始恢复。20:02:消息推送服务开始恢复,redis 集群运行正常。20:23:成功为统计服务单独搭建 redis 集群,统计服务的数据收集接口开放,新老 redis 集群运行正常。至此所有服务全部恢复。后续措施将该 redis 集群从业务层面进行拆分,小集群化。将 redis 集群进行高可用架构升级,避免单点故障。对集群加强容灾演练,确保异常条件下服务稳定。对于本次故障,我们诚恳地向您道歉。我们将免掉您账户中全部应用在 8 月 5 日当天的所有费用,以表诚意。

以下是LeanCloud Cofounder/CEO 江宏在LeanCloud博客对整个事件的说明:

摘要即时通讯云 LeanCloud 3月29日因少量大用户量应用的高在线量而发生了连锁服务故障,这个问题相信不是第1次发生,也不会是最后一次。对于即时通讯云服务商来说,要想在成本和服务质量上达成平衡,暂期内只能是个梦。2016 年 3 月 29 日晚间,LeanCloud 平台上的多个应用进行了推广活动,激增的访问量给我们的数据存储和实时通信服务带来了较大压力。从 20:50 至 22:15 有多次流量高峰出现,我们多台 Web 服务器的网络吞吐包超过虚拟机的能力极限,内外网通信中断,从而导致 HTTP 服务多次出现间歇性故障(数据存储 API 以及依赖于它的服务也都间歇性不可用)。具体情况汇报如下:故障时间20:53 - 21:03(持续约 10 分钟)数据存储 API 服务约 50% 的请求超时。21:17 - 21:40(持续约 23 分钟)数据存储 API 服务约 50% 的请求超时。22:00 - 22:15(持续约 15 分钟)数据存储 API 服务约 12.5% 的请求超时。故障总共持续约 48 分钟。影响范围本次故障只影响中国节点,美国节点的所有服务均工作正常。在故障期间凡是向 LeanCloud 平台发送过请求,并使用了数据存储服务的活跃应用都受到了影响;我们的统计服务也在短时间内无法正常接收来自应用的事件上报。事故过程20:52:内部监控系统报警,显示多个 Web 服务器节点出现故障。我们立刻上线进行紧急处理,在排除后端服务问题之后,开始追查前端资源和带宽配额。21:03:由于部分应用流量回落,同时也由于我们临时大幅增加了出口带宽,服务暂时恢复正常。21:05:我们开始扩容前端机集群,以应对接下来可能再次出现的流量高峰。21:17:前端机扩容时碰到了虚拟机 OS 故障以及网络环境问题,未能及时完成。此时恰好部分应用又迎来一次流量高峰,前端机再次吃紧。21:30:修复过程将近半小时,于是我们启动了公告和通知流程,在微博和用户群里发出通告。21:40:流量自然回落,前端机再次恢复正常,我们的平台开始正常处理 API 请求。22:00:线上部分前端机出现物理故障,我们又开始对它们进行紧急处理,期间有大约 1/8 的 API 请求丢失。22:15:新的前端机节点经过手动处理后终于达到可用状态,并加入集群,完成了扩容,至此全部服务彻底被恢复。后续改进措施增加新的监控措施,对前端机网络入包量进行监控,防止网络转发量超过 VM 能力限制。调整前端机 VM 配置,使用高包量机型,增大前端机的处理能力。改进前端机扩容方式,使用 docker 镜像来加快新节点部署上线的进度。公告流程中增加短信通知渠道,确保信息及时通知到开发者。

摘要2016年11月22日,即时通讯云服务商LeanCloud中国节点所有服务瘫痪约 50 分钟。以下消息来自LeanCloud官网:11 月 22 日中午 12:55,我们收到来自内部监控系统的报警,发现 LeanCloud 中国节点的各项服务出现异常,经过近 50 分钟的抢修,最终在 13:45 将全部服务恢复。在此时段受到影响的应用较多,这令我们感到十分愧疚,所以在此诚恳地向用户们道歉,同时我们也将免掉中国节点用户账户在 2016 年 11 月 22 日所产生的除短信外的全部费用。以下为本次故障的详细情况和改进措施,请大家监督和反馈。故障节点和影响范围本次故障仅发生在中国节点,存储服务和依托于存储的聊天、云引擎等各项服务都无法正常响应。故障时间线12:55:内部监控系统发出报警,大量存储 API 节点失去响应,随后也有开发者反馈 API 响应异常。13:11:第一次重启了所有 API 节点,系统有所好转但很快又出现了恶化。13:36:定位到故障原因,是后台服务对部分特殊请求存在漏洞,系统资源被逐渐耗尽,致使各模块都无法正常提供服务。立即实施热修复,阻断流量,再次重启所有 API 节点。13:45:所有 API 节点运行正常,开放流量,各服务恢复正常。后续措施加大 API 节点的资源配置,以期类似不可预知的事件发生时,可以延缓状态恶化的过程,争取更长的处理时间。(11 月 24 日前完成)本次故障原因比较复杂,内部定位花费了较长时间,因此需要进一步完善对网络延迟、缓存节点等内部各环节的监控与状态展示,缩短故障排查时间。(11 月 29 日前完成)详细排查所有资源消耗的潜在问题点,对自定义的结构化数据实现更严格的限制和检查。(12 月 8 日前完成)详情请见:

各位 LeanCloud 的用户,大家好。

LeanCloud 的多项服务在六月六日周六下午发生了大约四个小时的中断或不稳定。其中 16:10 到 19:09 为故障阶段;19:09 到 20:17 为限流恢复阶段。

在故障阶段受到重大影响的服务包括:数据存储、网站及控制台、云代码、推送、工单系统、用户反馈、第三方登录、应用内社交;受到轻度影响的服务包括:短信、实时通信服务中获取聊天记录的 API;未受影响的服务包括:统计分析、离线数据分析、应用内搜索、文档。

在限流恢复阶段受到重大影响的服务包括数据存储、网站及控制台、云代码、推送、短信、工单系统、用户反馈、第三方登录、应用内社交、统计分析、离线数据分析、应用内搜索、文档、实时通信中获取聊天记录的 API。实时通信在这个阶段未受影响。

郑重声明:本文版权归新匍京a奥门-最全网站手机版app官方下载所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。