http://www.ox-holdings.com

一组负责实时通信服务数据统计的缓存机器发生故障,消息推送服务开始恢复

摘要即时通信云服务商LeanCloud 2014年11月27日因一组担任实时通信服务数量总计的缓存机器发出故障,而诱致雪崩引致即时通信服务瘫痪43分钟之久!以下音信来自LeanCloud官方:7月 30 日上午 8 点左右,大家的实时通讯服务发生了故障,引致多量接纳的极限顾客无法登入和发送音讯,时间不断约 40 分钟,详细意况汇总如下。故障时间2014-06-五日 19:58 - 20:41(共计 43 分钟)影响范围LeanCloud 本国节点的实时通讯服务碰到震慑(不能够登录和出殡和安葬音讯),别的服务平常;美利坚联邦合众国节点一切服务平常。事故通过19:58 一组担当实时通讯服务多少总计的缓存机器发出故障,导致客商登陆或发送消息现身窒碍,相符操作起来消耗内部线程池能源;20:05 线程池财富耗尽,全体客户登陆进度都会退步;20:22 显著了故障原因,起始重启缓存服务程序,不过服务程序所在机器因为压力过大失去响应,转而重启物理机械;20:33 缓存服务复苏平常,登陆和发新闻等供给起头恢复生机正常(为了加紧咱们新扩大了一部分实时通讯服务程序,以扩展响应技艺);20:41 实时通讯服务苏醒符合规律。下图中的黄线是故障时段前后的登陆央求数量变化趋向曲线,与上述故障时间线适合:后续改良措施聊天服务监督程序改由 全程马拉松来机关布署并履行。该监督程序因早先时代的一次操作而被中止,结果未能捕捉到本次服务极其,所以大家投入程序化的手法来作保其平素运作。(已做到)增添对总计数据缓存服务的监察。(已成功)扩张对于登入乞求数至极变动的监督。(已产生)进一层优化实时通讯服务的构造,针对具备环节做好容错,防止雷同的堵截操作再度现身。(13日内扫除)即时通讯云 LeanCloud 官网:

摘要即时通信云服务商LeanCloud 二零一四年九月5日因由于缓存集群超负载崩溃,招致即时通信服务瘫痪30分钟之久!以下音讯来源于LeanCloud官方:6月 5 日上午 7 点 10 分伊始,LeanCloud 中夏族民共和国节点上的某一缓存集群因为流量过大,CPU 财富被占满而停下了服务,进而以致数据存款和储蓄及正视它的劳务(云引擎、推送、实时闲聊)现身约半钟头的暂停,在此时期有一点选取恐怕会境遇供给不能够实现的场馆。详细报告如下。故障节点和影响范围独有中中原人民共和国节点现身了难点,受影响的服务与时间段列举如下,别的服务未遭逢震慑。服务名区域受影响时段限定数据存储中华夏儿女民共和国19:10 – 19:41全勤不可用云引擎中夏族民共和国19:10 – 19:41全方位不可用实时通讯中华夏族民共和国19:10 – 19:41片段不可用(音信 hook 功效不可用、离线推送延迟)音信推送中夏族民共和国19:10 – 20:02推送大范围延迟总括服务中夏族民共和国19:10 – 20:23全部不可用(数据网罗接口关闭)故障时间线19:10:内部监督告急,确认 redis 格外(CPU 能源占满,失去响应)。19:13:redis 机器不可能直接重启,在那早先尝试稳步关停其余服务(依次是推送、闲话推送、云引擎、计算),以收缩央求压力。19:41:redis 集群苏醒可用,同有毛病间数据存款和储蓄、云引擎和实时通讯四个服务最早复苏。20:02:音信推送服务最初回涨,redis 集群运转符合规律化。20:23:成功为总括服务单独搭建 redis 集群,总计服务的数额搜罗接口开放,新老 redis 集群运营如常。至此全部服务整个苏醒。后续措施将该 redis 集群从职业范围实行拆分,小集群化。将 redis 集群举办高可用结构进级,幸免单点故障。对集群抓好容灾练习,确认保证特别条件下服务稳固性。对于此番故障,大家虔诚地向你道歉。咱们将消逝您账户中一切利用在 8 月 5 日当天的具有费用,以表忠心。

摘要16月六日即时通信云 LeanCloud 产生了因寄存集群故障而致服务瘫痪,从事故原因中得以想够用的出脚下LeanCloud那类即时通讯云商家所面前碰到的各样挑衅。前言11月三十日即时通信云 LeanCloud 发生了因存放集群故障而致服务瘫痪,从事故原因中能够想像的出脚下LeanCloud那类即时通信云厂家所直面的种种挑衅:当客商量持续叠合,所直面的各个因大产出、高劳必得要难题,时常引致全部服务品质的猛跌,那也右侧反映出,要做出可信的云即时电视发表服务,在未曾现有方案可用的境况下,各厂家要走的路明显还相当短。以下是法定事故通报景况二零一四年 4 月 22 日 13:04 开始,LeanCloud 中华夏族民共和国节点的后端存款和储蓄集群出现难点,引致该节点上独具应用都冒出了仓库储存 API 访谈故障,将近三小时后获得复苏。故障的详尽经过通报如下。故障时间13:09-13:28 全数应用的数码存款和储蓄服务都冒出国访问谈特别(持续 19 分钟)13:28-13:40 大部分施用已经回复,但还会有 四成 的利用依旧不能符合规律访谈(持续 12 秒钟)影响范围中夏族民共和国节点上享有应用的储存服务都受到震慑,同临时间依附于数据存款和储蓄的实时通讯、云引擎服务也或许出现当中错误。U.S.节点不受影响,全部服务均事业正常。事故经过13:04 我们监察和控制种类断断续续发出报告急察方,后端存款和储蓄集群访问超时稳步扩大,程序猿插手考察,并向客户发生了短信和邮件通告。13:10 整个集群的积累 API Server 不再响应外界需要。考察后确定是后端存储系统在做大批量耗费时间的关全面据写入操作,招致系统失去响应。于是大家马上重启集群,并分批开放流量。13:28 部分存款和储蓄分片(shard)取得恢复生机,十分八的采纳访谈恢复生机寻常;发送第一回故障进程通报。13:40 全体应用恢复生机不奇怪;发送故障消除文告。后续改革情势那二次故障的根本原因在于 AVRelation 模型的最底层达成有在劣势,有些特殊规格下会形成后端存款和储蓄系统因繁忙管理而失去响应。大家已到位取代方案的支出,正在测验中,上周会公布更合理的施工方案。(1十二月 19日星期四实现)改正并发节制的算法,以便在十二分条件下更加好地界定故障的震慑范围。(四月 二十日周五变成)逐个审查全部危殆/耗费时间操作,在上层进行写入决定,制止对后端存款和储蓄系统变成太大影响。(5月 25 日周五达成)LeanCloud官方网址访谈以下地点就能够:leancloud.cn

摘要二零一六年十11月二十五日,即时通信云服务商LeanCloud中华夏族民共和国节点有所服务瘫痪约 50 分钟。以下消息来自LeanCloud官方网址:11 月 22 日早晨12:55,大家接到来自内部监察和控制种类的报告急察方,开采 LeanCloud 中中原人民共和国节点的各样服务现身极度,经过近 50 分钟的抢修,最终在 13:45 将全部服务恢复生机。在这里时段受到震慑的接收很多,那令大家感到到极度抱歉,所以在这里诚恳地向客户们道歉,同一时候我们也将免除中夏族民共和国节点客户账户在 二〇一四 年 11 月 23日所发出的除短信外的总体开销。以下为此番故障的详细境况和校勘措施,请我们监督和申报。故障节点和熏陶范围此次故障仅发生在中原节点,存款和储蓄服务和寄托于积存的扯淡、云引擎等各个服务都不得不荒谬响应。故障时间线12:55:内部监察种类发出报警,大批量仓库储存API 节点失去响应,随后也可以有开采者反馈 API 响应格外。13:11:第二回重启了有着 API 节点,系统全部好转但火速又冒出了改变局面。13:36:定位到故障原因,是后台服务对有的特殊央求存在漏洞,系统能源被逐级耗尽,引致各模块都不可能平常提供劳务。立刻实践热修复,阻断流量,再次重启全部API 节点。13:45:全数 API 节点运转如常,开放流量,各服务恢复生机符合规律。后续措施加大 API 节点的资源配置,以期相同不可预言的事件爆发时,可以延迟状态恶化的进度,争取更加长的拍卖时间。(3月 24 目前达成)本次故障原因比较复杂,内部定位开销了较长期,由此必要更进一层康健对互联网延迟、缓存节点等内部各环节的监察与气象展示,缩小故障排查时间。(十月 29 近日到位)详细排查全部能源消耗的隐衷问题点,对自定义的构造化数据达成更严苛的范围和反省。(7月 8 日前完成)详细的情况请见:

以下是LeanCloud Cofounder/经理 江宏在LeanCloud博客对总体育赛事件的印证:

各位 LeanCloud 的用户,大家好。

LeanCloud 的多项服务在8月三十一日周末早晨暴发了大约两个钟头的行车制动器踏板或不牢固。当中 16:10 到 19:09 为故障阶段;19:09 到 20:17 为限流恢复生机阶段。

在故障阶段蒙受入眼影响的服务包涵:数据存款和储蓄、网站及调节台、云代码、推送、工单系统、客商反映、第三方登陆、应用内社交;受到中度影响的服务富含:短信、实时通讯服务中获取闲谈记录的 API;未受影响的劳动包蕴:计算剖判、离线数据解析、应用内寻觅、文书档案。

在限流复苏阶段受到重大影响的劳务包括数据存储、网址及调控台、云代码、推送、短信、工单系统、客商举报、第三方登陆、应用内社交、计算深入分析、离线数据深入分析、应用内寻觅、文书档案、实时通讯中赢得闲谈记录的 API。实时通讯在此个等第未受影响。

郑重声明:本文版权归新匍京a奥门-最全网站手机版app官方下载所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。