2. Back-of-the-envelope Estimation

封底估算

📝 封底估算是系统设计中评估性能需求和系统容量的重要技巧。

重点需掌握：

在系统设计面试中，你有时会被要求估算性能需求或系统容量。

根据谷歌高级研究员Jeff Dean的说法，，“封底估算是你将想象中的实验和常见性能指标数据结合而得出的一些估算值，这些值使你对何种设计可以满足系统需求有初步的概念”

为了有效地进行这种估算，应该了解几种机制。

2.1 2的幂

数据量可能变得非常庞大，但计算归结为基本原理。对于精确的计算，你需要了解2的幂，它对应于给定的数据单位：

📝 2^10到2^20增加了10个幂次

每次增加单位就向上转换（KB -> MB -> GB -> TB -> PB），并且每次增加的数量大约是上一单位的1000倍（即2^10, 1024）

Jeff Dean创建了一个著名的典型计算机操作耗时表。

由于硬件的发展，这些数字可能有点过时，但它们仍然给出了操作之间良好的相对度量：

以下是表格内容的识别结果，并将第一列翻译成中文后输出为Markdown表格：

📝 ns、μs、ms

图2.1 上面内容的可视化呈现：

以上数字得出的一些结论：

高可用性是指系统长时间持续运行的能力。换句话说，最大限度地减少停机时间。

通常，服务的目标可用性范围为99%到100%。

SLA是服务提供商和客户之间的正式协议。它正式定义了你的服务需要支持的正常运行时间级别。

云服务提供商通常将其正常运行时间设置为99.9%或更高。例如，AWS EC2的 SLA为99.99%。

以下是基于不同SLA的允许停机时间：

下面的数据是针对这个练习而设置的，并非推特的真实数据。

假设:

估算：

估算QPS(每秒查询量)
- 每日活跃用户(DAU)=300,000,000 * 0.5 = 150,000,000 (1.5亿)
- 推文QPS=150,000,000 * 2 / 24 / 3600 = 3500
- 峰值QPS=2 * 3500 = 7000
每天的多媒体存储量
- 平均推文大小
  - tweet_id 64bytes
  - text 140 bytes
  - media 1MB
- 多媒体数据存储量=150,000,000 * 2 * 10% * 1MB = 30TB天
5年的多媒体数据存储量 = 30TB * 365 * 5 ≈ 55PB

封底估算重在过程，而非结果。面试官可能会借此考察你的问题解决能力。

一些需要考虑的技巧：