「工程师」你的快乐春节背后,还有无数值守的工程师们
精选评测好文
原文标题:你的快乐春节背后,还有无数值守的工程师们
今年除夕,是李瑾参与微博春节保障的第二个除夕夜,也是他结婚的第一个年头。
" 过年不能回家,所以春节假期会更多的联系双方家人。" 当被问及休假后最想做什么,李瑾这样告诉 36 氪。
对许多人来说,今年或许是第三个 " 就地过年 " 的春节。而对李瑾这样的工程师来说,留守一线是他们节假期的日常。
在春节这样举国欢庆阖家欢乐的时刻,他们将一半心思牵挂在自己的产品上,支持网友们开心地抢红包、打游戏。他们就是大小长假和 " 购物节 " 期间,保障全民线上狂欢的幕后工作者——运维工程师及各重保团队的工程师。
与他们在网友认知中整体 " 低调 " 的形象形成鲜明对比的是,在生活中,他们的行为特征十分高调。如果你在地铁、公园长凳或是餐厅饭桌上,看到有一个人顶着旁人略微惊诧的目光,在电脑前全神贯注的敲击键盘,那么,这个人多半就是一位在紧急处理故障的工程师。
" 做运维真的是很苦,背包、笔记本(电脑)不离身,带背包的时间可能比和自己对象相处的时间还要长。" 回忆起成为一名运维工程师的这些年,「销售易」运维副总监赵文华不无感叹的告诉 36 氪。
成为一名重保团队的工程师或是运维工程师,就意味了在产品交互的生命周期里承担起对用户的 " 责任 ",不分时间、不分场合,不辞辛劳,有召必应、使命必达。
也正因为此,你我才能随时随地快乐冲浪,顺畅体验云上新年。
01 又是一年春 . 晚重保
2021 年大年三十,接近零点时刻,金山云百人春 . 晚保障团队正屏气凝神地等待当晚最后一波流量洪峰的冲击。
受疫情影响,2021 年春 . 晚首次采用 " 云 " 传播、" 云 " 互动形式,将 " 云观众 " 融入现场。也因此,春 . 晚直播的技术支持难度陡增。
在零点到来前的 4 个小时里,金山云整个春保团队的成员心里都紧绷着一根弦。
不久前,团队中负责运维的大华发现,直播的一路流出现回源连接数超限的隐患," 这是某股不可预见的流量突然涌入," 必须在造成网络异常前消除隐患。
但是由于客户采用了非标准配置,需要手动下发配置完成修复。大华当机立断向上请示,在得到客户授权后,和运维同事 2 分钟内按标准流程完成了后面一系列操作:配置修改、测试、灰度、上线 ……
事实证明,2021 年春 . 晚直播零点的流量洪峰也在金山云重保团队的预料之中。而稳定顺畅的直播保障和优异的技术服务,让金山云在今年第五度成为春 . 晚直播技术的合作方。
相较往年,今年春 . 晚又有了些许改变。据中央广播电视总台《2022 年春节联欢晚会》新闻发布会,今年春 . 晚演播厅首次运用了 LED 屏幕打造 720 度穹顶空间,4306 平方米的 LED 屏构成的巨幕穹顶,使观众席与主舞台浑然一体,将演播空间极大地延展。
此外,总台还将运用 XR、AR 虚拟视觉技术,全息扫描技术和 8K 裸眼 3D 呈现技术等,为观众带来栩栩如生的立体影像;采用 AI 技术让虚拟特效与舞台演员同步,打造虚实交互的神奇视觉效果 ……
保证全网各终端用户高清、流畅、身临其境地感受到这些技术的实际效果,依然是今年金山云重保团队的任务。为此,金山云重保团队已经筹备了数月。
金山云春节应急保障小组技术运维负责人告诉 36 氪,今年除夕,金山云重保团队上午 11 点将在公司全员集合,现场检查所有基础设施,技术侧最后一次做技术调整和切换。下午 15 点前,完成最后一轮设备检测、应急方案验证、IT 现场检查等。在春 . 晚开始前 4 个小时,所有重保人员将按照既定方案进入重保状态。
相对而言,今年则是京东第一次成为央视春 . 晚红包互动活动的合作方。
2022 年 1 月 5 日,中央广播电视总台官宣京东成为今年独家互动活动合作方,春 . 晚红包互动预约活动从 1 月 24 日开启,筹备期只有短短 19 天,相比 2021 年的时间缩短了近 30%。
对此,京东云运维项目经理告诉 36 氪:" 之前京东 618、11.11 相关的备战经验可以参考借鉴。" 不过较于购物节,春 . 晚直播的红包互动流量要大得多。同时,春节期间用户的规模、所处地理位置、使用的网络都会发生变化,京东云与运营商的合作、流量调度策略、黄金链路梳理等都做出了相应调整。
今年春 . 晚互动活动还有一个特点是周期长,共 23 天,不过上述负责人告诉 36 氪,运维压力最大的时间段是在除夕当晚 7 点到初一凌晨 2 点。届时,5 个小时左右的春 . 晚直播,主持人会进行 7 轮口播提示用户打开京东 App" 摇一摇 ",参与瓜分 15 亿红包和好物活动," 到时候每一轮都有数亿用户瞬间涌入京东 App,形成的流量高峰,远超一个小时左右的购物节水平。"
02 运维的节假日日常
春 . 晚直播和互动活动的顺利开展,离不开保驾护航的工程师们在一线值守。与此同时,还有更多的工程师们也选择了在业务一线,为保障公司产品平稳运行、及时响应客户需求而留守。
今年腊月二十九,上海的温度仅有 3~8 摄氏度。这天一早小张会骑 25 分钟电瓶车到客户公司驻厂值守," 再统一巡检一遍,看看可能的隐患。"
小张是智能运维解决方案服务商云智慧的运维工程师,现在在某金融机构驻场负责产品第三期升级建设的运维工作。除了小张,整个春节假期该项目组的开发和运维共有 3 位同事要坐班值守。
这是小张工作的第三个年头,因为毕业第一年就赶上新冠疫情爆发,过去两年小张都是让父母来上海和自己团聚。今年也不例外,老家河南信阳疫情反复,小张主动选择在上海留守。
" 今年除夕只能和妈妈吃年夜饭了,之前爸爸有事提前回家,现在也不方便过来。" 不出意外,下午六点小张就能去到母亲的住所,和妈妈团聚。
小张告诉 36 氪," 过年最想要的,还是负责的集群不出突发故障,因为解决突发是一个很痛苦的过程。我希望能在问题暴露前,把隐患找到,提前解决。"
尚斯年是一位 90 后程序员,他的另一重身份是身份认证初创公司 Authing 的 CTO。两年前,他放弃期权离开阿里,加入创业公司,也开始了他节假日值班的生活。
尚斯年告诉 36 氪,整个春节假期,Authing 的技术骨干会分批参与到远程值班中。他认领的是除夕和初一的远程值班任务。
" 除夕在家吃年夜饭,之后家人会组麻将局。我会在看春 . 晚的同时,也看看电脑,扫一眼线上系统监控是否平稳。" 尚斯年说," 这么久以来已经和家人形成默契,如果在处理问题的时候遇到亲戚串门,可能一个眼神,他们都会理解。"
家人的理解和支持,是多位受访对象在交流中均有提及的关键词。
李瑾是微博信息系统部的一名工程师,2019 年校招进入团队后,他负责深度学习平台信息推荐模型训练。
2021 年五一假期是李瑾计划完成婚礼的日子,4 月底他请假和伴侣在北京西单商业街选购礼服,这个过程中,他却遇到了突发故障。
不过,在挑选礼服的重要时刻,李瑾也背着电脑包。
情急之下,李瑾在人来人往的商业中心里," 随便进了一家有凳子的礼服店,只能给媳妇说‘能试多少(衣服)试多少吧’。"。
要处理故障,李瑾就来不及照顾对象。每当她穿好一套衣服过来,他只能匆匆抬头看一眼,就说 " 下一套 "。当天他在那家店坐了一个小时,李瑾回忆起当时的场景,依然觉得很诙谐," 她也是一名工程师,很理解我的处境,也非常支持我的工作。"
今年除夕和初一李瑾也要在公司值班。
除夕这天的流量对微博来说是可以预估的,根据过往经验,访问洪峰会从下午开始一直持续到整个晚上。往年的春 . 晚直播,许多节目都会迅速窜上热搜,可以想像,今年应该也不例外。
而李瑾的工作就是保证在流量洪峰的冲击下,当天微博数据平台和信息推荐模型运转正常。
春节值班结束后最想做什么?李瑾告诉 36 氪:" 今年是我们结婚第一年,再加上过年不能回家,所以春节假期会更多的联系双方家人。"
03 如何解放运维工程师?
运维工程师的辛劳,大家都看在眼里,因此许多互联网科技公司为了减轻运维工程师在重大节假日期间的工作量和压力,会提前在工作部署上下一番功夫。
腾讯 TEG(技术工程事业群)的春节运维保障工作在每年国庆后开始。" 国庆后开始评估春保数据,根据当年流量的增长采购设备。在设备到位前,要做系列梳理工作,如业务保障预案的梳理、系统薄弱环节及应对方案的梳理。到了 12 月,60~70% 采购的设备会交付,这个时候开始做线上扩容、全链路压力测试。" 腾讯 TEG 社交业务运维组负责人彭克勤告诉 36 氪," 元旦会有一波不小的流量洪峰,就是这个阶段春保的实战演习了。"
前期做好这些预备工作后,腾讯自研的产品,如 QQ、微信、各类图片 / 文件 / 小视频平台会在除夕前一两天封网(即应用不再做任何升级),保证备战成果不受干扰。
除夕当天,社交业务运维组仅需 8 位值班人员,负责对腾讯所有社交相关自研产品的业务运维。
" 除非遇到未知故障,不然基本没有什么需要操作的,就是盯盯监控,看看容量水位有没有异常。这些还都有智能告警电话和短信通知,值班群的机器人也会定时推送相关参数。出现了已知场景的问题,基本都能通过模块化封装的脚本自动修复。" 彭克勤说。
类似的,CRM 厂商销售易的总架构师张英男曾以销售易为例,总结互联网公司如何保证节假日期间系统的稳定性:(1)在节前停止对服务器的调整和系统的更新,非必要不升级,必要做简单升级;(2)安排技术、运维和项目人员值班;(3)应用成熟的自动化运维系统。
数字时代里,不论是企业用户还是终端消费者用户的需求都在快速增长,如果沿袭传统的运维技术,即使运维工程师 7*24*365 的响应,依然会落后于需求越来越远。于是,新技术的引入成为适应业务发展和减轻运维工程师工作量的双重出口。
几乎所有受访者都向 36 氪提及,成熟的自动化运维系统会大幅改善运维工作的体验。随着自动故障监控与预警、系统自愈等能力的提升,现在,许多经过经验沉淀的运维工作已经不需要人的参与了。
与此同时,不断普及的云原生技术对提高系统稳定性也颇有好处。如云原生的微服务架构可以将一个庞大的体系拆分为不同的小服务,无论是弹性伸缩扩容、还是针对特定故障节点的下线替换,应对时间都得以大幅缩减。而微服务架构还保证了单点故障对系统整体的影响降低到最小。
对于自动化运维系统和云原生技术带来的便利,腾讯 TEG 社交业务运维组负责人彭克勤深有体会。2009 年彭克勤就加入了腾讯,是一位运维老兵。在腾讯做运维,一开始彭克勤要靠原始的手工脚本处理问题。当时扩容 100 台机器,需要人工配置各种参数,耗时一周。
2014 年前后,彭克勤团队开始使用自动化脚本包,这时扩容 100 台机器的工时缩短到半个小时。2018 年以来,基于云原生架构的镜像系统,现在腾讯社交业务运维组扩容 100 台机器,只需要不到 1 分钟的时间。相应的,运维工程师的工作量大幅降低。
对于腾讯 TEG 社交业务运维的部署,彭克勤总结了三点特征:首先是基础设施的平台化,如对运维日常操作的监控告警、发布变更、日志查询、修复等脚本的集成,便利使用;第二是集群管理自动化,即把很多长链路的固化操作从人工交给机器去做,降低人为操作的失误率;第三是运维决策智能化,如经大数据分析后,系统根据业务的峰值时间,对云资源进行智能调度等。
" 前两者应用已经相对成熟,运维决策智能化这一块涉及的东西比较多,我们还处于发展期,需要慢慢完善。" 彭克勤告诉 36 氪。
对于技术的重视,也体现在多数受访企业的技术团队。
微博信息系统部的工程师王升志所属的数据平台团队,为用户提供实时数据存储和分发服务。简单来说,就是确保用户发博、转评赞、搜索等行为数据实时传输到后端大数据平台进行处理分析,确保热点事件分发、榜单、推荐流等实时更新。
过去单个热点事件流量居高不下,会大量占用服务器资源,可能对其他业务产生影响。经过一段时间的摸索优化,该问题现在已经得到解决。如今即使有突发热点,微博其他业务线的数据实时获取也不受阻碍。
" 目前的架构下,有状态的队列服务实现自动扩容存在较大难度。" 王升志说," 我们团队已经在推进相关工作,一定的开发周期后,整个链路的架构都会升级,整体架构云原生化,到时候将能实现存储与计算分别自动扩容。"
销售易运维副总监赵文华告诉 36 氪,2021 年底其团队部分成员已经开始钻研与运维相关的机器学习和深度学习技术,过去,凭借自动运维系统,销售易运维团队 60~80% 的值守工作已经被系统消化,2022 年销售易运维团队将推动自动化运维系统向智能化运维系统升级,提升业务水平。
在技术发展不断将运维工程师从繁重高压的劳动中解放出来的同时,一个技术哲学问题浮现,未来智能运维系统会替代值守的运维工程师吗?受访的大部分工程师认为,短期内人工的价值依然不可替代。
" 有一天真的不需要人为的去值班留守了,那一定是因为很多事情都在某个节点被前置化了。我们一直在不断的探索,在前置的时间段里把该做的做到足够好,演练,预案,自动化等等,只有这样我们后面需要留守的人才会越来越少。争取让大家都安安心心的过个好年 ",腾讯 TEG 对象存储运维负责人黄朝伟告诉 36 氪。
热门文章:净水,控温全程只需3秒,这款净水机让喝水更简单<\a>
其他人还看了
「特斯拉」马斯克透露亲自带队研发擎天柱机器人!打造“最强AI开发平台
郑重声明:本文“「工程师」你的快乐春节背后,还有无数值守的工程师们”,https://nmgjrty.com/shumacp_341091.html内容,由36氪提供发布,请自行判断内容优劣。
- 全部评论(0)
- 「工程师」你的快乐春节背后,还有无数值守的工程师们
- 「马斯克」新春佳节送祝福,马斯克向大家拜年:水墨风老虎搭配中国红
- 「特斯拉」马斯克透露亲自带队研发擎天柱机器人!打造“最强AI开发平台
- 「华为」华为HiCar累积上车数已经突破1000万,将带来更多车型支持
- 「春晚」互联网企业春节狂撒红包总额已超84亿元!你抢到了多少?
- 「中小企业」互联网寒冬之后,数以千计的「小巨人」正在崛起
- 「华为」华为手机官方发布虎年新主题瑞意山君
- 「金立」500多块买“iPhone13”?金立新机的操作太魔幻了
- 「互联网」互联网不需要新的APP
- 「供应链」日赚24亿,苹果还是苹果
- 「icloud」苹果iCloud服务宕机:频繁弹出输入密码弹窗,无法登录
- 「eth」3080买3080显卡有戏?显卡挖矿回本周期长达三年
- 「锐龙」i7-12700H/i5-12500H实测领先11代i9-11980HK旗舰移动处理器
- 激光传感器
- 真香
- AresPro
最新更新
推荐阅读
- 「马斯克」新春佳节送祝福,马斯克向大家拜年:水墨风老虎搭配中国红
- 「特斯拉」马斯克透露亲自带队研发擎天柱机器人!打造“最强AI开发平台
- 「华为」华为HiCar累积上车数已经突破1000万,将带来更多车型支持
- 「春晚」互联网企业春节狂撒红包总额已超84亿元!你抢到了多少?
- 「中小企业」互联网寒冬之后,数以千计的「小巨人」正在崛起
- 「华为」华为手机官方发布虎年新主题瑞意山君
- 「金立」500多块买“iPhone13”?金立新机的操作太魔幻了
- 「互联网」互联网不需要新的APP
- 「供应链」日赚24亿,苹果还是苹果
- 「icloud」苹果iCloud服务宕机:频繁弹出输入密码弹窗,无法登录
- 「锐龙」i7-12700H/i5-12500H实测领先11代i9-11980HK旗舰移动处理器
- 「eth」3080买3080显卡有戏?显卡挖矿回本周期长达三年
猜你喜欢
- [iPhone]iPhone13promax远峰蓝128G入手
- [安卓手机]realme真我GTNeo2开箱,金刚石冰芯散热系统+E4屏,5000mAh大电池
- [贴膜]红米9爆屏更换记录,弯曲的中框修复
- [智能机器人]编程从娃娃抓起,MakeBlock程小奔上手体验
- [智能摄像机]内置大电池,无需打孔走线,小米室外摄像机给你满满的安全感
- [充电器]65w网红氮化镓一次看个够
- [电脑支架]原汤化原食,LGErgo显示器支架
- [蓝牙耳机]中端耳机音质天花板,降噪很有一手,鹿图COCO真蓝牙降噪耳机评测
- [音频播放器]关于R01主板的主观看法,和一些碎碎念
- [充电器]双口快充,满足日常需求
- [VR设备]GOOVISLite头戴影院评测
- [蓝牙耳机]魅蓝Blus耳机体验,魅蓝依旧还是当年坚持做良品的青年良品
- [安卓手机]从5988跌至2749,256GB+鸿蒙OS+7nm麒麟,从高端市场跌至中端市场
- 「轻众测|素诺智能可视冲牙器」别急,对准再冲!素诺可视冲牙器让残渣无所
- 「九号新品Nano及Air T15」萌娃初体验——Ninebot九号平衡车Nano