GitHub CTO Vlad Fedorov 4 月 28 日发文,复盘近期两起可用性事故,并披露平台正面临的规模挑战。数据层面,自 2025 年 12 月下半月起 Agent 开发工作流加速扩散,拉取请求合并量峰值达 9000 万次、提交量峰值达 14 亿次、新建仓库数每月达 2000 万——三项指标均创历史新高。GitHub 2025 年 10 月启动 10 倍容量扩展计划,但至 2026 年 2 月已重新定目标为 30 倍。技术层面,Fedorov 描述了分布式系统的级联放大效应:一个 PR 可同时触碰 Git 存储、合并性检查、Actions、搜索、通知、权限、Webhook、API、后台任务、缓存与数据库,任一环节的瓶颈都会以队列堆积、缓存失效变数据库负载、重试放大流量的方式连锁扩散。应对措施包括将 Webhook 从 MySQL 迁出、重新设计 Session 缓存以大幅降低数据库负载、将 Git 与 Actions 从其他工作负载隔离、将性能敏感代码从 Ruby 单体迁入 Go,以及推进多云架构以实现更高韧性。
两起事故分别为:4 月 23 日合并队列(Merge Queue)回归缺陷,当合并组包含两个以上 PR 时使用 Squash 合并会产生错误提交,反向撤销了此前 PR 的变更,共影响 658 个仓库与 2092 个 PR,无数据丢失但需人工修复(更多细节见单独的 RCA 公告);4 月 27 日 Elasticsearch 集群因疑似僵尸网络攻击过载宕机,影响 PR、Issue、Projects 等依赖搜索的 UI,Git 操作与 API 不受影响但体验显著下降。Fedorov 坦承 Elasticsearch 是"尚未完成隔离的单点故障",并已启动与其他高优先级系统相同的依赖分析与隔离工作。Ghostty 创始人 Mitchell Hashimoto 同日发文宣布将 Ghostty 项目迁出 GitHub,直接引用的就是 4 月份频繁的故障影响其正常工作。
GitHub Blog
https://github.blog/news-insights/company-news/an-update-on-github-availability/