Observability and Analysis #
现在我们已经完成了对 CNCF 生态系统各层的探讨,接下来我们将聚焦于“可观察性与分析”这一部分。
在深入这些类别之前,让我们首先定义一下可观察性和分析。可观察性是描述系统特征的术语,指的是通过系统的外部输出能够理解系统的程度。通过 CPU 时间、内存、磁盘空间、延迟、错误等指标来衡量,计算机系统的可观察性高低各不相同。分析是一种活动,指的是你查看这些可观察数据并加以理解。
为了确保没有服务中断,你需要观察和分析应用程序的各个方面,以便每一个异常都能被及时发现并纠正。这正是这一类别的核心内容。它跨越并观察所有层次,这也是它位于侧边而非嵌入某一特定层的原因。
这一类别中的工具分为可观察性和混沌工程。请注意,这个类别的名称有些误导——虽然混沌工程被列在这里,但它更应被视为一种可靠性工具,而非可观察性或分析工具。
- Observability
- OpenTelemetry
- Prometheus
- Grafana
- Loki
- Tempo
- Jaeger
- VictoriaMetrics
- VictoriaLog(关注)
- Chaos Engineering
“可观测性与分析"关注的是了解系统健康状况,确保即使在恶劣条件下,系统也能保持稳定运行。日志工具捕捉应用程序发出的事件消息,监控工具监控日志和指标,追踪工具则跟踪单个请求的路径。当这些工具结合使用时,最好能提供关于系统的全方位视图。而混沌工程则有所不同,它通过模拟意外事件,以安全的方式验证系统是否能够承受这些事件,确保系统的长期健康。
接下来,我们将关注云原生平台。在整个生态系统中配置工具,使它们协同工作是一项复杂的任务。平台将这些工具捆绑在一起,从而简化了技术的采用过程。