隐形工作:只有出问题时才会被看见的那些事
“Infrastructure is something that is only noticed when it breaks.” — Susan Leigh Star & Karen Ruhleder, 1996
有一类工作,做得越好,就越没有人知道你在做。做到极致,你就会变得完全透明——仿佛不存在一样。直到有一天它崩了,所有人才突然发现:原来一直有人在撑着这一切。
这就是隐形工作(Invisible Work)。
一、各领域的隐形工作
🖥️ 运维 / SRE
SRE 团队维持着 99.99% 的 SLO(Service Level Objective),全年宕机时间不超过 52 分钟。没有人因此鼓掌。但如果系统宕机 5 分钟,全公司的 Slack 都会炸。
Google 的 SRE 文化里有一句著名的话:“希望不是一种策略(Hope is not a strategy)“。他们的工作是让”什么都没发生”持续发生——而这恰恰是最难衡量的成就。
案例: 2021 年 10 月,Let’s Encrypt 的根证书 DST Root CA X3 过期,导致 Shopify、Slack 等大量网站和应用出现故障。一个证书——平时没有任何人关心的东西——过期了几个小时,互联网就出了问题。证书续期这种事,做好了无人知晓,忘了就是全球性事故。
🔒 安全团队
安全团队面临一个经典的悖论:
- 没有安全事件 → “我们真的需要这个团队吗?预算能砍吗?”
- 发生安全事件 → “安全团队在干什么?”
无论哪种结果,安全团队都不会赢。这是一种结构性的不公平——你的成功注定是沉默的,你的失败注定是震耳欲聋的。
案例: Equifax 2017 年数据泄露事件影响了 1.47 亿用户。事后调查发现,根本原因是一个已知漏洞(Apache Struts CVE-2017-5638)没有及时修补。在泄露发生之前,没有人关心补丁管理流程是否正常运转。
🏥 公共卫生
疫苗消灭了天花,几乎根除了脊髓灰质炎。但今天几乎没有人记得这些成就。相反,一个罕见的疫苗副作用就能在社交媒体上引发恐慌。
公共卫生的悲剧在于:你越成功,人们就越觉得你不重要。当疾病消失了,人们会质疑疫苗的必要性——正是因为疫苗太有效了。
这是一种认知偏差:我们看不到被预防的灾难,只能看到发生的灾难。
⚖️ 法务 / 合规
法务团队审核了一千份合同,每一份都没有问题——没有人注意到。但如果有一个条款出了纰漏,造成了百万级的损失,所有人都会问:“法务是怎么审的?”
合规工作也是一样。SOX、GDPR、等保——这些合规框架的日常维护枯燥到令人窒息,但它们就像保险:你平时觉得多余,出事时觉得不够。
🏗️ 基础设施(物理 & 数字)
电网、自来水、DNS、CDN——这些东西正常运转时,你根本不会想到它们。
案例:2021 年德克萨斯州电网崩溃。 冬季风暴 Uri 袭来,ERCOT(德州电力可靠性委员会)管理的电网大面积瘫痪,数百万人在零下温度中失去供暖和电力,至少 246 人死亡。事后分析表明,电网的冬季防护(winterization)多年来一直被忽视——因为”德州不怎么冷”。在二十年的温和冬天里,维护预算被视为浪费。一场寒潮就暴露了一切。
数字基础设施也一样。 2016 年 Dyn DNS 遭受 DDoS 攻击,Twitter、Netflix、Reddit、GitHub 等大量网站一起宕机。大多数人第一次意识到:原来互联网依赖于一家他们从未听说过的公司。
🧪 QA / 测试
QA 面临一个残酷的归因问题:
- 没有 bug → “开发写得好”
- 有 bug → “QA 没测出来”
功劳归别人,锅归自己。这不是偶然的,而是隐形工作的结构性特征——预防性工作永远比修复性工作更难获得认可。
🌐 翻译 / 本地化
好的翻译读起来就像原文。读者不会想到”这是翻译过来的”。翻译做得越好,翻译者就越隐形。
但如果翻译出了错——一个错误的按钮文案、一个文化上不敏感的措辞——用户会立刻注意到。
游戏本地化尤其典型。玩家沉浸在故事中,从不感谢本地化团队;但一个翻译 bug 就能登上论坛热帖。
🎨 设计 / UX
好的 UX 让用户觉得”这不就应该是这样的吗?“。用户不会赞美一个直觉性的交互——因为它”本该如此”。
史蒂夫·克鲁格(Steve Krug)在《Don’t Make Me Think》中写道:好的设计是不让用户思考。但这也意味着,好的设计是不让用户意识到设计的存在。
设计师的最高成就,就是让自己的工作变得不可见。
二、隐形工作的共同特征
1. 不对称的奖惩
做好了,零奖励。做砸了,无限惩罚。
这是所有隐形工作最核心的特征。数学上,这是一个高度不对称的收益函数(asymmetric payoff):上行收益趋近于零,下行风险趋近于无穷。
2. 价值无法量化
“我们今年预防了多少起安全事件?” 这个问题本质上无法回答。你无法证明一个没有发生的事情。
这就是 Nassim Nicholas Taleb 在《黑天鹅》和《反脆弱》中反复讨论的**“沉默证据”(silent evidence)**问题。我们只能看到发生了的事情,看不到被预防的灾难。这是一种反向幸存者偏差——成功的预防是沉默的,只有失败的预防才是可见的。
“The cemetery of closed restaurants is very quiet.” — Nassim Nicholas Taleb, The Black Swan (2007)
3. 预算削减的首选
当公司需要降本增效时,隐形工作往往是第一个被砍的。理由很”合理”:这个团队存在了三年,什么事故都没发生过,看来我们不需要他们。
这是一种因果倒置——正是因为这个团队的存在,才没有事故发生。砍掉他们,事故不会立刻出现(这进一步强化了”不需要”的错觉),但风险在暗中积累,直到某一天一次性爆发。
Taleb 称之为**“脆弱性在平静期隐藏”**——系统看起来稳定,不是因为它真的稳定,而是因为灾难还没来。
4. 高倦怠率
长期不被看见、不被认可,是一种慢性消耗。SRE、安全工程师、QA 的倦怠率(burnout rate)普遍高于行业平均。
当你的最佳工作状态就是”什么都没发生”,你很难在绩效评审中讲出一个令人兴奋的故事。这导致了一个恶性循环:做得越好 → 越隐形 → 越难晋升 → 越倦怠 → 人才流失 → 系统退化。
5. “破窗效应”的反面
“破窗理论”(Broken Windows Theory)认为,一扇破窗如果不修,就会引发更多的破坏。隐形工作就是不让窗户破掉的那个人——他们的价值只有在窗户真的破了之后才会被理解。
三、理论框架
Star & Ruhleder (1996):基础设施的不可见性
Susan Leigh Star 和 Karen Ruhleder 在 1996 年发表的经典论文《Steps Toward an Ecology of Infrastructure》(Information Systems Research, 7(1), 111-134)中提出:基础设施不是一个”东西”,而是一种”关系”。
她们指出,基础设施有几个核心特征:
- 嵌入性(Embeddedness):基础设施深嵌在其他结构和社会安排之中
- 透明性(Transparency):正常工作时不需要每次使用都重新组装或思考
- 可见于崩溃时(Becomes visible upon breakdown):只有当它失败时,我们才意识到它的存在
这篇论文影响了此后三十年的基础设施研究,也是理解”隐形工作”最重要的理论基石之一。
Taleb:反脆弱与沉默证据
Nassim Nicholas Taleb 的三本核心著作——《随机漫步的傻瓜》(2001)、《黑天鹅》(2007)、《反脆弱》(2012)——从不同角度探讨了同一个主题:我们严重低估了不可见的风险和不可见的贡献。
“沉默证据”概念尤其重要:历史记录了成功者,但没有记录那些因为某个人默默做对了一件事而没有发生的灾难。消防员扑灭了大火会上新闻,但提前检查了消防通道、确保没有火灾发生的人,不会出现在任何报道中。
Lee Vinsel & Andrew Russell:维护者
Lee Vinsel(弗吉尼亚理工大学)和 Andrew Russell(纽约州立大学)在 2020 年出版了《The Innovation Delusion: How Our Obsession with the New Has Disrupted the Work That Matters Most》。
他们创立了 The Maintainers 学术社群(themaintainers.org),核心观点是:
我们的社会过度崇拜创新者(innovators),而忽视维护者(maintainers)。但维护——而非创新——才是让社会正常运转的主要力量。
他们指出,硅谷的”颠覆(disruption)“叙事创造了一种文化偏见:新的就是好的,旧的就是需要被替换的。但现实是,大多数有价值的工作是维护现有系统,而不是创造新系统。
这种偏见渗透到了组织管理中:公司奖励推出新功能的人,而不是确保旧功能继续运转的人。
四、如何让隐形工作变得可见?
认识到问题是第一步。以下是一些实践方向:
量化预防性价值
- SRE: 用 error budget 消耗速率替代”有没有出事”来衡量团队贡献
- 安全: 跟踪漏洞修复时间(MTTR)、攻击面缩减量、未遂事件(near-miss)数量
- QA: 记录拦截的 bug 数量、严重级别、对应的潜在损失
制度性认可
- 将”没有事故”作为正式的团队成就来庆祝,而不是视为理所当然
- 在全公司范围内做 incident-free 报告,展示维护工作的价值
- 创建”隐形英雄”奖项或类似机制
讲述反事实故事
既然人们对”没有发生的事”缺乏直觉,就主动讲述”如果没有我们,会发生什么”的故事。用历史上的真实案例(德州电网、Let’s Encrypt 证书过期、Equifax 泄露)来说明:每一个”什么都没发生”的平静日子,背后都有人在工作。
文化层面的转变
最根本的改变是文化层面的:我们需要像尊重创造者一样尊重维护者。正如 Vinsel 和 Russell 所说,维护不是创新的低级版本——它是一种不同的、同等重要的工作。
五、结语
这篇文章本身也是一个隐形工作的例子。如果你读到这里觉得”这些道理我都知道啊”——那恰恰说明了问题:我们都”知道”隐形工作很重要,但我们的行为、制度和文化并没有真正反映这一点。
下次当你打开一个网页、用上干净的自来水、走过一座完好的桥时,想一想:有人在你看不到的地方,确保这一切正常运转。
他们的最高成就,就是你从来不需要想到他们。
参考文献
- Star, S. L., & Ruhleder, K. (1996). Steps Toward an Ecology of Infrastructure: Design and Access for Large Information Spaces. Information Systems Research, 7(1), 111-134.
- Taleb, N. N. (2007). The Black Swan: The Impact of the Highly Improbable. Random House.
- Taleb, N. N. (2012). Antifragile: Things That Gain from Disorder. Random House.
- Vinsel, L., & Russell, A. L. (2020). The Innovation Delusion: How Our Obsession with the New Has Disrupted the Work That Matters Most. Currency.
- Krug, S. (2000). Don’t Make Me Think: A Common Sense Approach to Web Usability. New Riders.
- Wilson, J. Q., & Kelling, G. L. (1982). Broken Windows: The Police and Neighborhood Safety. The Atlantic Monthly, 249(3), 29-38.
- The Maintainers. https://themaintainers.org/
Takeaway
- 我自己是 SRE, Infra
- 我喜欢 SRE 不是因为喜欢 Invisible Work, 而是我喜欢计算机的确定性
- 优化做得好就是做得好
- 商业数据可以各种造假, 外表光鲜亮丽
- “如何让隐形工作变得可见” 这个 section 或许未来有用;