Category: System Monitor

[转]Uber:大规模系统下如何构建可伸缩的告警生态系统 0

[转]Uber:大规模系统下如何构建可伸缩的告警生态系统

Uber 的软件架构包含上千个微服务,为了维持增长和架构,Uber 的可观察性团队构建了一个健壮的、可伸缩的指标和告警管道,具体来讲,就是构建了两个数据中心内的告警系统,称为 uMonitor 和 Neris。 Uber 的软件架构包含上千个微服务,它们能够让团队快速迭代并支撑公司的全球化增长。这些微服务支撑着各种解决方案,比如移动应用、内部与基础设施服务、产品等,它们有着非常复杂的配置,这些配置会在城市和子城市级别对产品的行为产生影响。

[转]美团CAT监控系统–分布式系统监控那些事儿 0

[转]美团CAT监控系统–分布式系统监控那些事儿

分布式系统已经诞生了很长时间,随着计算能力和存储价格的降低,我们见证了分布式系统大爆炸的时代,现代互联网公司规模都变得异常庞大,系统也变得越来越复杂,给监控工作带来了极大的难度:海量日志数据如何处理,服务如何追踪,如何高效定位故障缩短故障时长……

0

[转]FreeWheel日均10亿日志场景下的高可用实践

1. 写在前面 近几年互联网服务安全事故的频发,使得越来越多的企业及开发者意识到数据备份、灾备等重要性,高可用性、高容灾性及高可扩展性的系统和架构建设工作也被更多地置于重心。 在这个过程中,基于公有云提供的基础设施实现高可用已成为多数技术团队的选择。

[转]随手记统一监控平台Focus设计解析 0

[转]随手记统一监控平台Focus设计解析

应用监控是多数互联网公司最重要的基础设施之一,其意义不仅在于可以帮助开发人员应对分布式环境下的 Trouble Shooting 和性能管理难题,更是系统可用性的第一步。Focus 是由随手记研发的统一应用监控平台,承载了随手旗下随手记、卡牛两款产品数百个服务的应用监控任务。本文将对 Focus 的设计思路和关键实现进行剖析。(本文根据 2018 年 10 月张越在 QCon 上海站的演讲整理而成,有一定的补充和删减。) 1. 监控的体系 “监控”是一个宽泛的概念,代表了很大的一块领域,有很多独立的系统在其中发挥作用。在介绍具体内容之前,我想先阐述一下通常互联网公司的监控的体系是什么样的。

[转]分布式系统中如何保证高可用? 0

[转]分布式系统中如何保证高可用?

对于企业来说,随着规模越来越大,整个系统中存在越来越多的子系统,每个子系统又被多个其他子系统依赖或者依赖于其他子系统。大部分系统在走到这一步的过程中,大概率会发生这样的场景:作为某个子系统的负责人或者 OnCall 人员,休息的时候都不安稳,心里老是忐忑着系统会不会挂。导致周末不敢长时间出门,晚上睡梦中被电话叫醒,痛苦不堪。 那么,在一个成熟的分布式系统中,我们该如何去保证它的可用性呢?迫切的需要解放我们紧绷的神经。下面,我们就来看下做高可用的思路和关键部分。

0

[转]京东云–微服务架构下的监控需要注意哪些方面

微服务架构在带来灵活性、扩展性、伸缩性以及高可用性等优点的同时,其复杂性也给运维工作中最重要的监控环节带来了很大的挑战,从用户的角度看,微服务架构下的监控应该注意哪些方面? 微服务架构虽然诞生的时间并不长,却因为适应现今互联网的高速发展和敏捷、DevOps 等文化而受到很多企业的推崇。微服务架构在带来灵活性、扩展性、伸缩性以及高可用性等优点的同时,其复杂性也给运维工作中最重要的监控环节带来了很大的挑战:海量日志数据如何处理,服务如何追踪,如何高效定位故障缩短故障时常……

[转]系统化全方位监控告警总结 0

[转]系统化全方位监控告警总结

Q1花了较大的篇幅,系统化讲述了监控与告警体系的建立,本文稍作总结。如果恰巧你正在搭建自动化监控与告警平台,或许,细读这一系列文章就够了。 一《监控告警,集群信息管理先行》 什么是集群信息管理 使用配置文件进行集群信息管理 使用服务进行集群信息管理 使用配置中心进行集群信息管理 二《监控告警,员工信息管理,分级告警策略》 使用配置文件进行员工信息管理 使用服务进行员工信息管理 常见分级告警策略:告警收敛,分时告警,逐层上报,黑白跳动 三《多维度立体化监控》 什么是多维度立体化监控 立体化监控有哪些维度 操作系统+进程+端口 http状态码 服务存活性 接口处理时间 http接口 log监控 用户视角 如何快速实施“1.操作系统+进程+端口”的监控 如何快速实施“2.http状态码”的监控 如何快速实施“3.服务存活性”的监控 如何快速实施“4.接口处理时间”的监控 四《一分钟搞定“http接口”监控框架》 常见http监控玩法 常见http监控的弊端 通用可扩展http监控平台架构 简版http监控框架架构 100行伪代码搞定http监控 五《一分钟搞定“log”监控框架》 什么是日志监控 日志分级,错误日志监控,正常日志监控 日志与目录规范...

0

[转]美团开源实时监控系统CAT

1. CAT 项目背景 CAT(Central Application Tracking),是美团点评基于 Java 开发的一套开源的分布式实时监控系统。美团点评基础架构部希望在基础存储、高性能通信、大规模在线访问、服务治理、实时监控、容器化及集群智能调度等领域提供业界领先的、统一的解决方案,CAT 目前在美团点评的产品定位是应用层的统一监控组件,在中间件(RPC、数据库、缓存、MQ 等)框架中得到广泛应用,为各业务线提供系统的性能指标、健康状况、实时告警等服务。 本文会对 CAT 的客户端、性能等做详细深入的介绍,更多技术细节,欢迎阅读《深度剖析开源分布式监控 CAT》。

0

[转]一些好用的开源监控工具汇总

监控系统是整个 IT 架构中的重中之重,小到故障排查、问题定位,大到业务预测、运营管理,都离不开监控系统,可以说一个稳定、健康的 IT 架构中必然会有一个可信赖的监控系统。 但是,难道监控就只是监控?多年来,对于监控的术语一直都有很多困惑,一些很糟糕的工具也宣称能够以一种格式完成所有事情。

0

[转]51 信用卡–微服务架构下的监控问题应该如何解决?

51 信用卡的技术架构是基于 Spring Cloud 所打造的微服务体系,随着业务的飞速发展,不断增多的微服务以及指标给监控平台带来了极大的挑战。监控团队在开源 vs 自研,灵活 vs 稳定等问题上需要不断做出权衡,以应对飞速发展的需求。本次将会分享我们在微服务下的白盒监控思考,以及如何将时下社区流行的 Spring Cloud、Kubernetes、Prometheus 等开源技术在企业落地。