答案
什么是正常运行时间(uptime)?如何衡量?
正常运行时间(Uptime)指的是在你们业务需要的时候,系统或服务有多频繁处于可用并正常工作的状态。它通常会在固定时间范围内(例如一个月或一年)用百分比来衡量。

简短回答
正常运行时间(Uptime)是指你的互联网、电子邮件、软件、电话、服务器或其他业务系统“处于运行且可用”的时间,而不是处于宕机或不可用的时间。当人们说“99.9% 正常运行时间”时,通常指该服务在所衡量的时间里有 99.9% 的时间是正常工作的。
听起来很简单,但细节很关键。什么算作“宕机”取决于系统本身、服务提供商,以及双方协议。有时短暂的性能下降可能不会以与完整中断相同的方式被计算。
你经常会在服务水平协议(Service Level Agreement,SLA)中看到正常运行时间(Uptime)的讨论。SLA 是一种书面承诺,用来说明服务目标、响应时间,以及包含哪些内容。独立的托管式 IT 提供商(也称为 MSP)可以帮助你理解这些术语,但实际的正常运行时间目标可能来自多个地方,比如你的互联网服务提供商、云软件公司或托管(hosting)公司。
正常运行时间如何衡量
正常运行时间通常会在固定周期内衡量,例如一个月、一个季度或一年。基本思路很直观:在该周期内先统计总时间,减去宕机时间,再除以总时间。结果会以百分比形式呈现。
例如,如果某项服务在一个月内大约有 43 分钟不可用,那么这接近该月 99.9% 的正常运行时间。如果只在几分钟内宕机,百分比就会更高。如果宕机好几个小时,百分比就会下降。
这也是为什么看起来很小的数字差异,可能会转化为现实业务时间上的很大差别。99% 的正常运行时间听起来很高,但它允许比 99.9% 或 99.99% 多得多的宕机时间。这也是为什么企业负责人应当询问:正在衡量的是哪个周期、哪些事件算作宕机,以及由谁来完成统计。
有些提供商会用软件自动检查系统状态。你可能会听到诸如 endpoint(终端)之类的术语:指企业设备,例如笔记本电脑、台式机或手机;以及 RMM(远程监控与管理),指一种由 MSP 使用的远程监控与管理软件,用来观察设备健康状况以及日常问题。对企业所有者来说,关键不在于工具名称,而在于报告是否清晰、易于核实。
为什么正常运行时间对你的业务很重要
每家企业都依赖某些“可用的东西”。对一家企业来说,关键可能是互联网和电话。对另一家企业来说,可能是排程软件、销售点(point-of-sale)、电子邮件,或某个关键的行业应用(line-of-business application)。如果这些系统宕机,工作就会变慢或停止。
宕机会影响销售、客户服务、薪资、排程安排以及员工的工作时间。即使是出现在不恰当时刻的短暂中断,也可能带来困惑并增加额外的工作量。这就是为什么正常运行时间不仅仅是一个技术数字。它本质上是一个运营数字。
不过,任何诚实的提供商都不会承诺“零宕机”或“无法被入侵”的网络。硬件会故障,互联网运营商会出现中断,云服务商会发生事件,而且计划内的维护有时必须进行。好的提供商会帮助减少可避免的宕机,清楚说明风险,并设定现实的预期。
什么算“做得好”
良好的正常运行时间(Uptime)管理始于明确的预期。你应该知道哪些系统最重要、如何被监控、什么时候进行维护,以及问题将如何被沟通。如果涉及独立的 MSP,他们也应当用通俗的英文(plain English)来解释这些内容。
“做得好”还意味着把关键问题区分开。一个问题是“可用性”(availability),也就是服务是否处于运行状态。另一个问题是“响应”(response),表示有人开始处理问题需要多快。还有一个是“恢复”(recovery),表示在发生故障后恢复工作可能需要多长时间。它们相关,但并不相同。
你也可能会听到“打补丁”(patching),指应用软件和安全更新;以及 EDR(端点检测与响应),指一种安全工具,会监控终端设备上的可疑活动。它们可以帮助降低风险并支持稳定性,但不会带来完美的正常运行时间。
对某些企业来说,正常运行时间的规划还会包括备份与恢复。常见的术语是“3-2-1 备份”(3-2-1 backup),意思是保留 3 份数据副本,分别存放在 2 种不同类型的存储介质上,并保留 1 份副本在异地(offsite)。这有助于恢复方案的规划,但它与正常运行时间的百分比是分开的。
在对比不同提供商之前你应该问什么
如果你正在比较不同方案,不要只关注一个很大的正常运行时间数字。要问清楚:该数字是如何计算的、哪些内容被排除在统计之外,以及当出现问题时会发生什么。也可以用正常的业务沟通语言请他们提供示例。
你还可以询问:是否提供非工作时间的支持、维护窗口是否提前安排、以及报告是否会定期共享。有些企业还可能因为行业规则需要额外的保障。例如,HIPAA(HIPAA 指面向医疗数据的《健康保险流通与责任法案》)适用于医疗行业数据;PCI(PCI 指支付卡行业数据安全标准,用于卡支付安全要求);SOC 2 是一种常见的报告框架,涉及许多供应商用到的安全控制。具体要求因行业和州而异。
如果你对此还不熟,可以从简单的问题开始。哪些系统最重要?哪些宕机对我们影响最大?以我们的规模和预算,合理期望是什么?你可以在我们的 answers 部分阅读更多通俗语言的回答,浏览常见的 services,或者如果你需要帮助寻找独立的托管式 IT 提供商,可访问 get matched。
一则坦诚说明
NodeBridge IT 是一项免费的匹配服务,不是IT服务商。这里提供的信息是一般性与教学用途——在您签约前,请与任何服务商以书面形式确认服务范围、SLA与价格。没有任何人能够保证正常运行时间、安全性、事故预防或数据恢复。
正常运行时间(Uptime)只是用来衡量你的重要业务系统在一段时间内有多频繁处于可用并正常工作的方式。
常见问题
正常运行时间(Uptime)和可靠性(reliability)是一样的吗?
不完全一样。正常运行时间衡量的是某件事有多频繁处于可用状态。可靠性范围更广,可能包含稳定性、错误率,以及系统是否能持续地按预期运行。
小型企业的“良好”正常运行时间是多少?
并不存在适用于每家企业的唯一标准数字。合理目标取决于系统有多关键、使用它的人有多少、你的预算是多少,以及你有哪些备份选项。
正常运行时间越高是否总是要花更多钱?
通常是的。更好的冗余、更强的监控、更快的支持,以及更具韧性的系统都可能带来更高成本。实际数字取决于团队规模、设备数量、安全需求以及你所在地区;你看到的任何区间都不是报价。
MSP 能保证不发生任何宕机吗?
不应该有诚实的提供商说能做到这一点。他们可能会帮助减少可避免的问题,并改进响应与计划,但任何人都无法承诺零宕机。
应该如何向我报告正常运行时间?
用简单易懂的方式来报告就可以。按月报告很常见。报告中应说明:测量的是哪个系统、覆盖的时间周期、记录到的宕机时间,以及任何重要的排除项或计划内维护安排。