您已经了解站点可靠性工程的潜力吗?
Posted: Thu Dec 26, 2024 10:48 am
一旦我们到达旅程的终点,问题就会油然而生:“如何管理可靠性?”。有两种途径出现:与负责这方面的商业地产供应商合作,或者完全由内部管理。稍后我们将了解做出此选择时应考虑哪些标准。
下载指南并为您的应用程序提供优势!
SRE(站点可靠性工程)简称
正如我们在SRE 的介绍性文章中所解释的,站点可靠 阿曼电报数据 性工程是指一组原则、实践和组织结构,既可以提高系统的可靠性,又可以根据业务需求不断创新所提供的功能。
因此,SRE 方法的前提是保持双重关注:一方面保证可靠性和一定比例的正常运行时间,另一方面持续改进应用程序。必须在两个目标之间找到平衡。
这就是所谓的“错误预算”发挥作用的地方,谷歌在这篇博客文章中有效地解释了这一概念。假设系统必须保证 99.9% 的正常运行时间:这意味着每个月最多可以使用 43 分钟的停机时间(相当于缺失的 0.1%)。只要在 43 分钟内,团队就可以专注于开发新功能和改进。然而,从超出错误预算的那一刻起,必须将 100% 的时间用于解决导致过多停机的问题。
因此,借助 SRE,我们可以根据数据了解团队的工作重点在哪里。正是由于这个原因,创建能够报告任何异常情况的监控仪表板至关重要。
CRE:它解决了什么问题?
我们已经做出了所有必要的假设,现在我们要做的就是更深入地研究客户可靠性工程主题。
创建此方法是为了解决与系统迁移到云直接相关的非常普遍的问题。尽管这个过程带来了不可否认的好处,但云间接造成了必须考虑的缺点。
下载指南并为您的应用程序提供优势!
SRE(站点可靠性工程)简称
正如我们在SRE 的介绍性文章中所解释的,站点可靠 阿曼电报数据 性工程是指一组原则、实践和组织结构,既可以提高系统的可靠性,又可以根据业务需求不断创新所提供的功能。
因此,SRE 方法的前提是保持双重关注:一方面保证可靠性和一定比例的正常运行时间,另一方面持续改进应用程序。必须在两个目标之间找到平衡。
这就是所谓的“错误预算”发挥作用的地方,谷歌在这篇博客文章中有效地解释了这一概念。假设系统必须保证 99.9% 的正常运行时间:这意味着每个月最多可以使用 43 分钟的停机时间(相当于缺失的 0.1%)。只要在 43 分钟内,团队就可以专注于开发新功能和改进。然而,从超出错误预算的那一刻起,必须将 100% 的时间用于解决导致过多停机的问题。
因此,借助 SRE,我们可以根据数据了解团队的工作重点在哪里。正是由于这个原因,创建能够报告任何异常情况的监控仪表板至关重要。
CRE:它解决了什么问题?
我们已经做出了所有必要的假设,现在我们要做的就是更深入地研究客户可靠性工程主题。
创建此方法是为了解决与系统迁移到云直接相关的非常普遍的问题。尽管这个过程带来了不可否认的好处,但云间接造成了必须考虑的缺点。