Category: System Monitor

[转]腾讯内部全链路追踪系统“天机阁“的设计与实现 0

[转]腾讯内部全链路追踪系统“天机阁“的设计与实现

传说中天机阁里有一台掌控世间一切的机器,万物运行由此产生。本文的“天机阁”是一个基于链路跟踪的监控系统,后台开发人员能够通过“天机阁”洞察“天机”,快速解决问题。 Please follow and like us:0

[转]从初创型到独角兽企业,监控架构演进 0

[转]从初创型到独角兽企业,监控架构演进

一、业务背景 运满满创立于 2013 年,致力于为公路运输行业提供高效管理配货的 app。在 5 年时间内从初创型公司发展到独角兽企业,我们经历了很多次的技术架构调整。 今天给大家分享下不同时期,在运维监控方面做的多次架构升级。希望给大家在技术选型阶段,提供一些参考和借鉴。 Please follow and like us:0

0

[转]运维监控的终极秘籍

本文从饱和监控的采集和监控的四个黄金指标入手,解答关于新系统如何添加监控的问题。 有很多文章都提到过白盒监控和黑盒监控,以及监控的四个黄金指标。关于白盒与黑盒监控的定义,这里不再赘述。一般来说,白盒与黑盒分别从内部和外部来监控系统的运行状况,例如机器存活、CPU 内存使用率、业务日志、JMX 等监控都属于白盒监控,而外部端口探活、HTTP 探测以及端到端功能监控等则属于黑盒监控的范畴。 Please follow and like us:0

[转]携程新一代监控告警平台Hickwall架构演进 0

[转]携程新一代监控告警平台Hickwall架构演进

监控告警是网站可用性的第一道防线,为网站提供更加实时可靠高效的监控告警,对互联网企业具有非凡的意义。致力于这个目标,经过不断地改进,携程新一代监控告警平台 Hickwall 在存储效率、查询速度和告警可靠性方面都有了极大的改善。 本文将从存储、聚合、告警三个方面介绍 Hickwall 在核心架构方面的演进。 Please follow and like us:0

0

[转]Nginx监控运维

Nginx 是一个开源、免费、高性能的 HTTP 和反向代理服务器,也可以用于 IMAP/POP3 代理服务器。充分利用 Nginx 的特性,可以有效解决流量高并发请求、cc 攻击等问题。 本文探讨了电商场景下 Nginx 的监控方案,并将使用过程中遇到的问题和解决方案与大家一起分享。 Please follow and like us:0

[转]360容器平台监控实践 0

[转]360容器平台监控实践

360 近年来上线了容器云平台,给团队工作带来了一些便利,同时也给运维工作带来了很多挑战。    背景 360 在做容器化平台之前,有一个基于小米开源的 Open-Falcon 进行二次开发的老监控系 (Wonder),这个系统承揽了公司所有的物理机和虚拟机的监控任务。随着容器技术的普及,以容器的方式在创建应用时,由于 Kubernetes 容器编排系统部署的服务具有弹性扩容的特性,而老的监控系统无法感知这些动态创建的服务,已经不适合容器化的场景,所以 360 团队就搭建了一套可以支持服务发现的新监控系统。 Please follow and like us:0

[转]Uber:大规模系统下如何构建可伸缩的告警生态系统 0

[转]Uber:大规模系统下如何构建可伸缩的告警生态系统

Uber 的软件架构包含上千个微服务,为了维持增长和架构,Uber 的可观察性团队构建了一个健壮的、可伸缩的指标和告警管道,具体来讲,就是构建了两个数据中心内的告警系统,称为 uMonitor 和 Neris。 Uber 的软件架构包含上千个微服务,它们能够让团队快速迭代并支撑公司的全球化增长。这些微服务支撑着各种解决方案,比如移动应用、内部与基础设施服务、产品等,它们有着非常复杂的配置,这些配置会在城市和子城市级别对产品的行为产生影响。 Please follow and like us:0

[转]美团CAT监控系统–分布式系统监控那些事儿 0

[转]美团CAT监控系统–分布式系统监控那些事儿

分布式系统已经诞生了很长时间,随着计算能力和存储价格的降低,我们见证了分布式系统大爆炸的时代,现代互联网公司规模都变得异常庞大,系统也变得越来越复杂,给监控工作带来了极大的难度:海量日志数据如何处理,服务如何追踪,如何高效定位故障缩短故障时长…… Please follow and like us:0

0

[转]FreeWheel日均10亿日志场景下的高可用实践

写在前面 近几年互联网服务安全事故的频发,使得越来越多的企业及开发者意识到数据备份、灾备等重要性,高可用性、高容灾性及高可扩展性的系统和架构建设工作也被更多地置于重心。 在这个过程中,基于公有云提供的基础设施实现高可用已成为多数技术团队的选择。 Please follow and like us:0

[转]随手记统一监控平台Focus设计解析 0

[转]随手记统一监控平台Focus设计解析

应用监控是多数互联网公司最重要的基础设施之一,其意义不仅在于可以帮助开发人员应对分布式环境下的 Trouble Shooting 和性能管理难题,更是系统可用性的第一步。Focus 是由随手记研发的统一应用监控平台,承载了随手旗下随手记、卡牛两款产品数百个服务的应用监控任务。本文将对 Focus 的设计思路和关键实现进行剖析。(本文根据 2018 年 10 月张越在 QCon 上海站的演讲整理而成,有一定的补充和删减。) 监控的体系 “监控”是一个宽泛的概念,代表了很大的一块领域,有很多独立的系统在其中发挥作用。在介绍具体内容之前,我想先阐述一下通常互联网公司的监控的体系是什么样的。 Please follow and like us:0