SRE 应该在什么阶段引入?
社区探讨,供大家参考:
企业在什么阶段需要引入SRE?
问题来自社区会员@xylonxiang 南洋商业银行 高级资讯科技经理,以下分享均来自社区同行
@Steven 某金融企业 IT顾问:
如果企业在向专业化、一体平台化、自动化方向演进,就可以考虑引入SRE体系。
但首先要对SRE有个正确的认识。
国内很多人都不真正了解SRE,包括所谓的一些SRE社区,对SRE都很多误解,有很多误导性的言论,其实你认真想一下就明白,SRE的目的是什么?专业、高效、低成本,围绕这个目标去组织就可以了。
1、SRE侧重平台化能力、工具化能力的研发和自动化、智能化运维工具的研发和运维运营。
2、其他开发工程师侧重于业务应用系统的研发、测试。
3、普通研发工程师和SRE工程师可以根据意愿或根据企业要求、设定轮换,比如说,普通研发工程项目完成后进入SRE进行为期半年或1年的平台工具研发运维实践,对企业内的工具平台等能有深入的理解和认识,在后续的应用开发过程中会有意无意的重视可靠性、高可用、部署架构的考虑。
4、工作职责界定是一个方面,相应的支持和制度、规范、激励措施也必须能跟上,否则达不到预期。
@penghuasheng 金融公司 技术经理:
结合作者说的企业在什么情况下需要引入SRE,我可以谈谈我的理解,仅供参考。
1、如果SRE指的运维,那有信息系统就需要有这样的角色。
2、如果SRE指的是当前运维转型的方向,那这个与组织当前需要的问题相关:
当前人员能力、组织文化、平台能力等遇到瓶颈,SRE的文化理念可能帮助解决这个瓶颈;
当前虽然没有遇到问题,但是预判接下来可能遇到问题;
组织需要借助一些他山之石,寻求组织、流程、平台全面的发展,借助行业认可的sre是一个比较好的选择。
@叶创 某城商行 应用运维:
SRE更适合用在分布式系统的维护,如果上了分布式新核心可以考虑一下,如果都还是传统的大小机架构或者体量很小的x86架构应用,基本就不太需要SRE了。另外SRE对于组织的要求比较高,如果不是高层牵头,部门墙比较重的情况下也不用怎么考虑。最后就是开发一下自动化运维作业、细化下投产发布管控就没了,最后也没啥明显的效果,更不用说SLO这种精细化管理、错误预算的落地了。
@AI 回答:
引入SRE(Site Reliability Engineering,站点可靠性工程)的时机取决于企业IT系统和业务发展的成熟度。以下是企业引入SRE的几个关键阶段:
1. 业务快速增长,系统复杂度增加
当企业的业务进入快速增长阶段,IT系统和应用的复杂度也随之增加。此时,系统可能由多个微服务、多个云环境或多个数据中心组成,运维的复杂度和风险也随之上升。传统的运维方式可能无法应对这种复杂度,导致系统故障频发、响应时间延长、用户体验下降。此时,企业需要引入SRE来确保系统的高可用性和稳定性,减少故障时间,提升系统的可靠性。
2. 系统可用性要求提升
当企业的业务对系统可用性要求越来越高,尤其是当系统故障可能对业务产生重大影响时(如金融、电商、SaaS服务等),企业需要引入SRE来确保系统的高可用性。SRE团队可以通过引入自动化运维工具、故障演练、容量规划等手段,确保系统在高并发、高负载的情况下依然能够稳定运行。
3. 运维和开发团队的协作问题
当企业的开发和运维团队之间存在协作问题,导致系统上线频繁、故障响应慢、问题定位困难时,引入SRE可以帮助解决这些问题。SRE团队的职责之一是促进开发和运维团队的协作,确保开发团队在设计和开发阶段就考虑到系统的可靠性,运维团队能够更好地应对系统故障。
4. 云原生和微服务架构的引入
当企业开始引入云原生架构或微服务架构时,系统的运维复杂度会显著增加。云原生架构需要更频繁的部署、更复杂的监控和更快速的故障响应。SRE团队可以通过引入自动化工具、监控系统和故障响应机制,确保云原生架构的稳定性和可靠性。
5. 系统规模扩大,运维成本增加
当企业的系统规模扩大,运维成本也随之增加,传统的运维方式可能无法有效控制成本。SRE团队可以通过引入自动化运维工具、优化资源利用率、减少人为操作失误等手段,降低运维成本,提升运维效率。
综上所述,企业通常在业务快速增长、系统复杂度增加、可用性要求提升、开发运维协作问题、引入云原生架构或系统规模扩大时,需要引入SRE团队。SRE的引入可以帮助企业提升系统的可靠性、降低故障风险、优化运维成本,并促进开发和运维团队的协作。
您怎么看?
欢迎来探
