站点可靠性工程师

图标
建筑师图标
图标
剪贴板图标
图标
拼图图标
相关职位:SRE工程师、DevOps工程师(SRE)、系统可靠性工程师、运维工程师(SRE)、基础设施工程师(SRE)、站点运维工程师、生产工程师(SRE)、平台工程师(SRE)、站点可用性工程师、可靠性工程师

聚光灯

相似标题

SRE工程师、DevOps工程师(SRE)、系统可靠性工程师、运维工程师(SRE)、基础设施工程师(SRE)、站点运维工程师、生产工程师(SRE)、平台工程师(SRE)、站点可用性工程师、可靠性工程师

职位描述

在DevOps诞生之前,谷歌曾面临一个棘手难题却束手无策。该公司运营着大型网站,但亟需优化性能并实现更大规模扩展。解决方案是什么?谷歌指派了一支软件工程师团队攻克难题,他们的探索成果奠定了站点可靠性工程(SRE)的基础。如今这家软件巨头将SRE定义为"将运维问题视为软件问题来解决的实践"。
 
SRE实践成效卓著,被其他大型企业纷纷效仿。随着时间推移,这些实践不断完善与拓展,最终形成了一个职业领域——它与当今的DevOps有诸多共通之处,但存在若干重要区别。两者虽都立足于开发与运维之间,但SRE更侧重自动化。事实上,谷歌曾将工程师的使命描述为"通过自动化实现自我淘汰"。 
 
不同组织对SRE的实践方式各异,可能将其称为生产工程或基础设施工程。 无论名称如何,工程师的核心职责始终是:作为团队成员持续提升网站可靠性,运用事件管理关键绩效指标(KPI),编写代码,构建服务,并实现手动流程自动化。由于网站需全天候运行,SRE通常需轮值待命,随时响应紧急需求。 

职业生涯的回报
  • 以宏观视角统筹项目全局
  • 作为团队之间的重要桥梁 
  • 优化流程,助力提升企业利润
  • 慷慨的经济补偿
内幕消息
工作职责

工作时间表

站点可靠性工程(SRE)是薪酬优厚的职业领域,因此要获得相应薪资就必须投入全职工作时间!正如ParkMyCloud所阐释的,站点可靠性本质上等同于业务可用性。换言之,站点可靠性工程师的职责在于最大限度减少代价高昂的停机时间。这可能意味着需要加班或保持待命状态,以便快速响应突发问题。 


典型职责

  • 创建或改进与运营和支持相关的软件
  • 优化和自动化流程
  • 确保发布工程一致性实践
  • 处理并减少支持升级 
  • 捕捉并记录新学到的信息以备后用,例如创建运行手册。防止知识孤岛或囤积可共享知识。
  • 故障排除
  • 开展事件回顾(也称为事后分析、回顾会议或根本原因分析),以确定问题发生的原因,且不追究责任。 

额外职责

  • 值班处理故障排除及其他事件响应问题
  • 确保遵守组织规程 
  • 创建行动项清单以解决问题,并在软件开发生命周期内减轻未来类似问题的发生
工作中所需技能

软技能
 

  • 促进团队间协作的能力
  • 分析性问题解决
  • 注重细节
  • 客户服务 
  • 同理心
  • 灵活性
  • 目标导向
  • 高度有条理;时间管理能力强
  • 探究的、好奇的
  • 领导力和管理能力
  • 客观性
  • 以流程为导向
  • 质量保证理念
  • 出色的沟通能力

技术技能

SRE 需具备以下相关技能组合:

  • 构建自动化工具
  • 构建配置语言
  • 编译器
  • 数据库
  • 分布式系统设计
  • 与系统管理、开发、配置管理、集成测试相关的领域知识
  • 通用源代码管理
  • 安装人员
  • 建立人脉
  • 操作系统
  • 包管理器
  • 安全
  • 软件工程
不同类型的组织
  • 计算机系统设计机构
  • 公司/企业
  • 政府/军事机构
  • 医疗保健 
  • 高等教育机构
  • 媒体与娱乐
期望与牺牲

如果某个组织拥有至关重要的网站(或多个网站),以至于需要配备站点可靠性工程师,那么人们对该工程师的期望值必然很高。根据Netguru的分析,聘用站点可靠性工程师的四大核心价值在于:最大限度减少停机时间、预判并规避风险、加速开发进程,以及通过这些措施及其他实施流程实现成本节约。 显然,站点可靠性工程师的工作量巨大,在处理繁重任务的同时,还必须紧跟IT领域的变革步伐。 
 
问题发生时加班在所难免,更别提轮值待命——这意味着即使休假期间,你仍处于待命状态。事件响应时限可能极短,而不同雇主对加班补偿的政策各异:有的给予带薪休假,有的提供额外薪酬,也有的仅以一句"非常感谢"搪塞了事。 

当前趋势

对于许多成长型企业而言,SRE仍是相对陌生的概念。因此当前趋势是,企业仍在探索如何最佳管理这一体系。推动站点可靠性工程发展的关键因素在于事件解决能力,这表明企业已厌倦疲于救火,渴望建立更完善的应对机制。 
 
当然,这种模式将压力从管理层转移至SRE团队,反过来又要求雇主寻找方法保障这些高压工作者的身心健康,从而使团队保持最高效率运转。虽然不同企业的实践效果各异,但行业趋势已然明晰:必须认识到关怀这些为业务奔波的忙碌工作者所创造的价值!

在这个行业里,人们年轻时喜欢做些什么呢……

"站点可靠性工程师"这个名称为我们揭示了该领域从业者的特质。他们热衷于网站建设,这种兴趣大多源于青年时期的培养。他们肩负着确保网站"可靠运行"的职责,即所有功能在应有的时刻按预期运作。因此从业者自身也需具备可靠性,这同样是青年时期常被锤炼的特质。 
 
这类人注重守时与准备充分,通常学业成绩优异。诚然,任何类型的工程师都需具备扎实的学术能力,尤其在数学和科学领域。但该领域有趣之处在于软技能的重要性——

SRE必须善于与人相处,能够从容应对团队协作,并促进跨团队合作。 因此他们可能在校担任过领导职务,或者单纯因为兄弟姐妹众多而练就了协调能力!SRE是效率专家,经过专业训练能通过研究问题并基于研究结果制定解决方案来优化流程。这需要兼具创造性与分析性的思维模式,如同左右脑协同运作。许多SRE可能具备左右开弓的技能或精通乐器演奏。 

所需的教育和培训
  • 站点可靠性工程师需要拥有学士学位,计算机科学或相关领域的学位优先。
  • 成为SRE并没有固定路径。有人通过实习入行,有人参加训练营后,在从事其他IT工作的同时积累经验,并自主钻研其他技能。
    • 丰富的工作经验是多数雇主的核心要求(许多SRE员工最初从事DevOps、系统管理员、开发人员或软件工程师工作)
  • 课程内容涵盖Java、Python、Ruby或C++编程语言,以及Linux操作系统、Kubernetes集群管理和MySQL数据库技术。
  • 旨在培养英语软技能、写作能力、口语表达、团队协作及领导力的课程
  • 可选认证包括:
    • 美国质量协会可靠性工程师认证
    • DevOps Institute的SRE基础认证 
    • CompTIA Linux+认证
  • 通过参加以下课程进行自主学习:
    • edX - DevOps与站点可靠性工程入门
    • 琳达(来自领英)- DevOps 基础:站点可靠性工程
    • Udemy - 可靠性工程入门
    • Coursera - 站点可靠性工程:可靠性测量与管理
      • 注:该课程也在Pluralsight平台同步开设。
选择程序时应关注的要点
  • 要成为一名成功的站点可靠性工程师,你需要掌握的许多知识都将在大学课程之外习得!
  • 理想情况下,应寻找提供上述领域课程的项目。
  • 阅读教师简介,了解他们的专业领域和背景。
  • 有哪些类型的学生社团和组织可供选择?许多软技能和技术技能最有效的方式是通过充分的同伴互动来学习。
  • 确保学校获得认证
  • 寻找那些公布毕业后就业数据且拥有良好往绩的项目
  • 权衡参加在线课程的利弊。校园互动对培养软技能大有裨益,因此混合式课程有时更具优势。
项目列表

《美国新闻与世界报道》的计算机科学专业排名可助你开启求学之路,但切勿仅依赖单一榜单。为避免错失良机,我们建议参考《高性价比大学》发布的"2020年50所高性价比计算机科学与工程院校"或《最佳价值院校》评选的"投资回报率最高的25所计算机科学院校"等榜单。 
 
大学教育费用可能高得离谱,但请记住:多数雇主非常务实。他们更看重你的硬技术能力,而非毕业院校。换言之,仅凭昂贵私立大学的学位并不能保证你在这个行业获得工作。请专注修读培养技能的特定课程,并尽可能积累实践经验。 

高中与大学期间的必做之事
  • 如前所述,成为SRE没有固定路径,因此请规划出几种备选方案。
  • 浏览心仪公司的职位招聘信息。关注所需的工作经验和学术背景,然后反向规划职业路径以达成目标。
  • 在高中阶段,尽可能多选修IT类选修课,为未来打下坚实基础。
  • 尽可能多地进行实践技能训练!选修与我们上述教育培训项目相关的课程。
  • 别忘了提升写作能力。技术写作固然重要,但你也需要将复杂主题转化为通俗易懂的语言。
  • SRE需要良好的团队协作和领导能力。这些特质往往被忽视,但未来工作会要求你具备它们,因此要尽早寻找途径加以培养。
  • 没有什么比拥有经验丰富的导师更重要,所以请主动联系校友或教师寻求建议。 
  • 教导他人。教学为双方创造新的学习体验。
  • 阅读并参与Quora、Reddit、Dev.to等网站的讨论
  • 当你的技能足够出色时,去Upwork获取一些有偿工作经验。
  • 在Indeed上寻找实习机会,或咨询你的大学项目是否有相关机会。
  • 在IT相关社团中担任领导者,建立广泛的同侪与合作伙伴网络!
典型路线图
站点可靠性 Gladeo 路线图
如何获得你的第一份工作
  • 广而告之!如今多数工作机会都来自人脉网络。
  • 参加TripleByte的DevOps筛选测试。若通过测试,您将获得与该平台雇主网络中企业进行面试的机会。
  • 在Indeed、Monster、USAJobs、ZipRecruiter、LinkedIn和Glassdoor等平台寻找职位空缺。
  • 了解雇主看重什么!Usenix提供可下载的PDF文件,其中包含招聘SRE的内部技巧。
  • 有些雇主会在内部培养SRE(站点可靠性工程师),因此你可能需要从某个岗位起步,但要制定在公司内部逐步晋升的计划。
  • 争取一个实习机会。虽然报酬未必丰厚,但能让你踏入行业大门,更有可能获得全职工作机会。
  • 招聘会究竟有多大用处尚无定论,但行业专场招聘会确实能让你了解哪些机会存在,并提供与从业者交流的机会。
  • 请整理好你的简历。Job Hero 提供了一些优秀的站点可靠性工程师简历模板,可供借鉴。
  • 聘请专业简历撰写人(或编辑)来润色你的文件,使其达到最佳状态。但请记住,每份简历都应针对你申请的具体职位进行量身定制。
  • 研究GitHub庞大的资源库和面试题库!
如何攀登阶梯
  • 很多情况取决于组织的规模。有些公司提拔内部员工;有些公司则可能倾向于外部候选人。关于晋升机会的讨论应尽早与您的主管进行。
  • 主动出击。不断学习,参加培训,持续进修。当技术出现新趋势时,尽可能深入了解,成为该领域的专家。
  • 展现对公司的忠诚,成为值得托付重任的可靠核心力量。以行动证明你已准备好迎接新的挑战。
  • 永远不要忘记软技能。即使是最精通技术的员工,如果与他人相处不融洽,也很难获得晋升。
  • 成为领导者。展现你的专业能力和领导潜力。一位可靠性工程师必须能够以协作但果断(必要时坚定)的方式指导他人。
  • 证明你值得信赖。守时守信,若接到待命通知,请迅速响应事件,认真完成工作,并设法避免未来出现类似问题。 
备选方案

站点可靠性工程(SRE)是一个充满挑战且责任重大的职业领域。然而,进入该领域的道路并非一帆风顺。许多人最初从事其他领域的工作,有时最终仍留在原有岗位。以下是一些备选职业方向:

  • 后端开发工程师
  • 计算机与信息系统经理
  • 计算机程序员
  • 计算机支持专员
  • 计算机系统分析师
  • 数据库管理员
  • DevOps
  • 前端开发工程师
  • 全栈开发工程师
  • 信息安全分析师

新闻源

在线课程与工具

薪资与就业前景
选择子区域:

年薪预期

$80K
$101K
$132K

新员工起薪约为8万美元。年薪中位数为10.1万美元。经验丰富的员工年薪可达13.2万美元左右。

来源:加利福尼亚州就业发展部

年薪预期

$108K
$164K
$211K

新员工起薪约为10.8万美元。年薪中位数为16.4万美元。经验丰富的员工年薪可达21.1万美元左右。

来源:加利福尼亚州就业发展部

年薪预期

$85K
$111K
$146K

新员工起薪约为8.5万美元。中位数薪资为每年11.1万美元。经验丰富的员工年薪可达14.6万美元左右。

来源:加利福尼亚州就业发展部

年薪预期

$82K
$111K
$143K

新员工起薪约为8.2万美元。年薪中位数为11.1万美元。经验丰富的员工年薪可达14.3万美元左右。

来源:加利福尼亚州就业发展部

年薪预期

$75K
$98K
$133K

新员工起薪约为7.5万美元。年薪中位数为9.8万美元。经验丰富的员工年薪可达13.3万美元左右。

来源:加利福尼亚州就业发展部