http://www.ox-holdings.com

此次故障影响到中国节点上,且在服务异常期间发生了聊天记录查询请求的所有应用故障处理16

摘要即时通信云 LeanCloud 12月27日因一丢丢大客商量应用的高在线量而发出了连带服务故障,那么些主题素材相信不是第1次发出,也不会是最终叁遍。对于即时通信云服务商来讲,要想在开销和劳务质量上完结平衡,暂期内只可以是个梦。二零一四年 3 月 29 昼晚上,LeanCloud 平台上的多个利用实行了拓展活动,猛增的访谈量给我们的多少存款和储蓄和实时通讯服务带给了超大压力。从 20:50 至 22:15 有一再流量高峰现身,我们多台 Web 服务器的网络吞吐包超越设想机的力量极限,内外网通信中断,从而变成 HTTP 服务多次涌出间歇性故障(数据存款和储蓄 API 以至借助于它的劳动也都间歇性不可用)。具体意况汇报如下:故障时间20:53 - 21:03(持续约 10 分钟)数据存款和储蓄 API 服务约 五成 的号令超时。21:17 - 21:40(持续约 23 分钟)数据存款和储蓄 API 服务约 八分之四 的必要超时。22:00 - 22:15(持续约 15 分钟)数据存款和储蓄 API 服务约 11.11%的伏乞超时。故障总共持续约 48 秒钟。影响范围此次故障只影响中华夏族民共和国节点,美利坚合众国节点的持有服务均工作例行。在故障时期凡是向 LeanCloud 平台发送过央求,并运用了数额存款和储蓄服务的活跃应用都碰着了影响;大家的总结服务也在长期内不可能符合规律选择来自接纳的事件上报。事故进程20:52:内部监察体系报告急方,展现两个Web 服务器节点现身故障。我们立即上线进行急迫管理,在衰亡后端服务难点现在,最早查究前端能源和带宽分配的定额。21:03:由于部分应用流量下落,同临时间也出于大家一时小幅度加多了言语带宽,服务暂且复苏不奇怪。21:05:我们开端扩大容积前端机集群,以招待入下来大概再次现身的流量高峰。21:17:前端机扩大容积时相遇了虚构机 OS 故障以致网络情状难题,未能及时做到。当时正巧部分使用又迎来一回流量高峰,前端机再次吃紧。21:30:修复进度将近半钟头,于是大家运营了布告和通报流程,在腾讯网和顾客群里发出通报。21:40:流量自然减少,前端机再一次苏醒符合规律,大家的阳台最早平常管理API 诉求。22:00:线上有个别前端机现身物理故障,我们又开头对它们实行紧迫管理,时期有概略1/8 的 API 须要错失。22:15:新的前端机节点经过手动管理后究竟实现可用状态,并步向集群,实现了扩大体量,至此全体劳务到底被还原。后续改革情势扩张新的监督措施,对前端机互连网入包量进行督察,制止互连网转载量超越VM 技艺范围。调度前端机 VM 配置,使用高包量机型,增大前端机的管理技术。更改前端机扩大容积情势,使用 docker 镜像来加速新节点铺排上线的快慢。文告流程中加进短信布告门路,确认保障新闻立时通知到开荒者。

摘要即时通信云服务商LeanCloud 二〇一五年五月二13日因由于突发硬件故障,引致雪崩招致即时通信服务瘫痪48分钟之久!以下音讯来自LeanCloud官方:1月 13 日上午 9 点左右,大家中间在应用中华夏族民共和国节点的利用调节台时遭逢报错,于是赶快便定位到某一集群由于突发硬件故障而引起存款和储蓄服务中断,经过抢修难题得以消除。大约一钟头后正当我们在世袭对该集群开展加固管理时,忽地遇上流量高峰,该集群的质量稳步下降并再度发生了故障。此番故障影响到中华夏儿女民共和国节点上 百分之二十五的应用不可能运用存款和储蓄及其重视服务,如实时通讯、云引擎等。美利哥节点不受影响。故障时间及范围08:49

摘要二〇一五 年 2 月 26 日午后五点左右,即时通信云 LeanCloud 的闲聊服务出现故障,故障引致部分终端顾客在收获钦点闲谈记录时,大概会获得任何应用的闲聊记录。二〇一五年 2 月 26 日中午约五点,即时通信云 LeanCloud 的闲扯服务现身故障,故障引致部分终极顾客在得到钦定谈天记录时,大概会获取任何应用的闲聊记录。据官方注明故障持续时间约为十多分钟。以下是LeanCloud官方关于本次故障的认证:故障时间16:45 至 16:58(持续约 13 分钟)影响范围使用了拉家平常衣裳务,且在劳务十三分时期爆发了谈心记录查询乞请的具备应用故障管理16:45我们对生育 Web 服务器应用了新的配备以优化品质。16:56之中监测种类发掘闲谈服务流量卓殊并发出报告急察方。经查肯定新配置中的部分法则未有生出预想效果与利益,在拍卖闲聊记录 REST API 哀告(/1.1/rtm/messages)时会忽视掉全体查询条件(query string)而回到应用下的装有聊天记录。16:58应声苏醒原来配置,难题拿到减轻。校订格局随后大家尤其调搜查捕获知,大家的策动系统与生产类别设有有的微薄差别,新配置在备选系统上通过而在生育类别中一些失效。大家会重复对负有专业系统的预备和生育条件展开一致性检查,制止形似的状态再度发生。

摘要即时通讯云服务商LeanCloud 二零一四年5月5日因由于缓存集群超负载崩溃,招致即时通信服务瘫痪30分钟之久!以下音讯来自LeanCloud官方:5月 5 日早晨 7 点 10 分开首,LeanCloud 中华夏族民共和国节点上的某一缓存集群因为流量过大,CPU 能源被占满而平息了劳务,进而形成数据存款和储蓄及信任它的劳动(云引擎、推送、实时闲聊)现身约一时辰的间歇,在这里时期有一点应用大概会越过乞求不可能做到的情形。详细告诉如下。故障节点和震慑范围独有中华夏族民共和国节点出现了难点,受影响的劳务与时光段列举如下,别的服务未碰到震慑。服务名区域受影响时段约束数据存款和储蓄中夏族民共和国19:10 – 19:41全数不可用云引擎中国19:10 – 19:41整个不可用实时通讯中中原人民共和国19:10 – 19:41有的不可用(新闻 hook 功能不可用、离线推送延迟)音信推送中国19:10 – 20:02推送大规模延迟总计服务中华夏儿女民共和国19:10 – 20:23总体不可用(数据采撷接口关闭)故障时间线19:10:内部监察告急,确认 redis 相当(CPU 财富占满,失去响应)。19:13:redis 机器不可能直接重启,开始尝试稳步关停其余服务(依次是推送、闲谈推送、云引擎、总计),以减少乞求压力。19:41:redis 集群复苏可用,同有难点候数据存款和储蓄、云引擎和实时通讯多少个劳务早先回涨。20:02:音信推送服务早先重温旧业,redis 集群运营平常化。20:23:成功为总结服务单独搭建 redis 集群,计算服务的数目收集接口开放,新老 redis 集群运营寻常化。至此全体服务整个重温旧业。后续措施将该 redis 集群从业务规模开展拆分,小集群化。将 redis 集群进行高可用构造进级,制止单点故障。对集群抓实容灾演练,确定保障特别条件下服务稳固性。对于此次故障,我们真切地向你道歉。大家将免去您账户中整整用到在 8 月 5 日当天的具备费用,以表忠心。

摘要二零一六 月 2 月 19 早晨 3 点左右,即时通信云 LeanCloud 因本事故障致全数服务中断半钟头以上。二〇一六 月 2 月 19 中午 3 点左右,即时通讯云 LeanCloud 因技巧故障致全部服务中断半钟头以上。以下是LeanCloud官方关于此次故障的求证:故障时间15:17 至 15:50(持续约 33 分钟)影响范围除了单纯的静态网址托管服务未受影响之外,别的具有服务,富含构造化数据存款和储蓄、文件存储、云引擎、聊天、短信、推送、总结等功效都有时不能使用。故障管理时间线15:17:大家在构造新服务时不识不知触发了一项误操作,但尚未察觉到通过会造成上述服务结束。15:17:大家在同期接到系统监控报告急察方,经济检察查开采LeanCloud 网站非常的小概登陆,API 服务日志也已暂停,同期有一些客商也向大家报告,确认了服务已不可用。15:19:大家跟着运营回滚操作,全数服务时断时续启幕重启。15:25:API 等劳动慢慢运转,不过流量还未对外开放。15:30:开放 API 流量, 数据存款和储蓄服务以至依靠于它的云引擎服务最早慢慢苏醒。进而聊天、总计、推送服务也稳步还原。15:50:全部服务恢复生机符合规律。后续纠正格局实现施行故障通报流程:由于这次故障事发顿然,影响面广,大家一贯专心在还原服务上,却不经意了与客商立刻联系难题和进展这一原来就有流程。大家意识到在故障时期那超级程对客商来说任重(rèn zhòng卡塔尔(قطر‎而道远,所以大家之后会实际进行那超级程,显然故障通告的首长和板凳席人、通报时机、通报内容、通报渠道(如邮件或短信)等。对铺排服务实行权力和意义上的划分:节制其操作的熏陶范围,杜绝一条指令招致全部服务结束运作的景况。完备后台管理体系:确认保障处理类别的享有操作都增加了承认环节,确认保证操小编知道操作的结局,并手动进行确认。这一次是因为大家的专业失误而引发了大面积的服务中断,大家在那向大家浓烈地道歉。同一时间为了发挥大家的歉意,我们会去掉全部应用在 2 月 21日除短信服务之外发生的全体花销。大家将在一而再几日进行退费操作,退费实现时,您将收取账户余额变动的邮件布告,请意志力等待。具体金额届期也能够因而调控台 > 交易历史 > 充钱历史查询。

郑重声明:本文版权归新匍京a奥门-最全网站手机版app官方下载所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。