#文章
昨晚阿里云发生大面积故障,今早以前在阿里工作多年的相关人士就写了一篇文章谈系统稳定性,列举了稳定性涉及到的一些思考:《稳定性,难的不是技术,而是》。
大体就是常说的那些:测试边界、降级、减少依赖、灰度。

我非常同意最后的总结:稳定性工作很难出成果,很难被认可,也很难评估投入产出比。这有点像扁鹊三兄弟的故事:能够防病患的老大,才是医术最好的那个,但却又最不为人所知。