Category: DevOps

[转]三种系统监控工具对比:top vs Htop vs Glances 0

[转]三种系统监控工具对比:top vs Htop vs Glances

在开发软件或监控运行的系统时,遥测和环境监测都很重要。以便了解系统的运行状况,本文介绍了 top、Htop、Glances 三个实用工具,以及一种用于监控分布式系统的简单解决方案。 在开发软件或监控运行的系统时,遥测和环境监测都很重要。在理解了历史情境下什么是正常行为之后,通常两个最紧迫的问题是:(1)什么发生了变化?(2)什么表现出异常? 本文将介绍三个用于临时监控的流行工具,以及一种用于监控分布式系统的简单解决方案。

0

[转] du & df

今天有个实习生问了我一个诡异的问题,“线下一台磁盘大小32G的开发机(虚拟机)打不出日志”,把追查过程和大家分享一下。 画外音:贵司开发机磁盘容量多大? 先du一下,查看磁盘空间: [shenjian@dev02 ~]# du -sch /16G     / 画外音:似乎还有空间。 再试了一下df,发现结果不一样: [shenjian@dev02 ~]$ df -h文件系统        容量  已用 可用 已用%  挂载点/dev/sda2      33G   33G   33G  100% //dev/sda1  ...

OOM in CentOS analyzing and thinking 0

OOM in CentOS analyzing and thinking

1. Condition In my CentOS 7 64bit server, there are several Java applications are running, such as Jira, Confluence, BitBuckit, Artifactory, Jenkins. And the server memory is 32 Gb, 16 core CPUs, firstly I...

[转]苏宁海量服务器自动化配置运维实践 0

[转]苏宁海量服务器自动化配置运维实践

随着业务量的上升,服务器本身的标准化扫描,内核批量升级,在备战双 11 大促时,运维会接入大量系统扩容,配置,全局变量设定等等操作也逐渐变得常态化,动辄上千台的主机运维的工作已经不是通过堡垒机系统就可以轻松完成了。

0

[转]成为DevOps/SRE工程师有多难?看看这份必备技能清单

这个列表并非详尽无遗,只是列举了技术基础、必须知道的技能和一些随机的想法。可以用它们作为一个清单来评估你自己或其他人,或者为下一次面试 DevOps/SRE(Site Reliability Engineers,网站可靠性工程师)工作做准备。补充下,这个清单是比较个人的想法。 准备好看这一份清单了吗?

0

[转]每天5万条告警,腾讯如何做到“咖啡运维”?

这十多年来,腾讯运维团队里发生的点点滴滴,在我内心中,每件事情印象都很深刻。 我把一些故事梳理了一下,发现有些事情可以跟大家交流分享,所以借这个机会跟大家谈谈腾讯最近一两年做的一些 AI 落地。

0

[转]如何通过深度学习轻松实现自动化监控?

监控包含安全和巡逻。在多数情况下,这项工作需要长时间进行,才能发现不希望发生的事。这项工作固然很重要,但同时也是一项平淡无奇的任务。 如果说,有什么东西能够为我们“观察和等待”,那生活不就简单多了吗?嗯,你很幸运。过去几年,随着技术的进步,我们可以为上述任务编写一些脚本来实现自动化,要做到这点非常容易。但是,在深入探讨之前,让我们先扪心自问: 1. 机器是否做得跟人类一样好? 任何熟悉深度学习的人,都知道图像分类器的准确率超过了人类。

0

[转]做个“懒”运维:京东数据库智能运维平台建设之路

运维自动化来源于工作中的痛点,京东数据库团队面对的是商城成千上万的研发工程师,这种压力推动我们不断变革。 然而变革不是一蹴而就,也经历过从手工到脚本化、自动化、平台化、智能化的艰难转变。 所以说是需求在驱动运维体系的建设,而运维自动化的真谛在于解放运维人员,促进人率提升,减少人为故障,要学会培养自己“懒”这个好习惯。