跳转至内容
  • 0 赞同
    1 帖子
    19 浏览
    R
    GitHub CTO Vlad Fedorov 4 月 28 日发文,复盘近期两起可用性事故,并披露平台正面临的规模挑战。数据层面,自 2025 年 12 月下半月起 Agent 开发工作流加速扩散,拉取请求合并量峰值达 9000 万次、提交量峰值达 14 亿次、新建仓库数每月达 2000 万——三项指标均创历史新高。GitHub 2025 年 10 月启动 10 倍容量扩展计划,但至 2026 年 2 月已重新定目标为 30 倍。技术层面,Fedorov 描述了分布式系统的级联放大效应:一个 PR 可同时触碰 Git 存储、合并性检查、Actions、搜索、通知、权限、Webhook、API、后台任务、缓存与数据库,任一环节的瓶颈都会以队列堆积、缓存失效变数据库负载、重试放大流量的方式连锁扩散。应对措施包括将 Webhook 从 MySQL 迁出、重新设计 Session 缓存以大幅降低数据库负载、将 Git 与 Actions 从其他工作负载隔离、将性能敏感代码从 Ruby 单体迁入 Go,以及推进多云架构以实现更高韧性。 两起事故分别为:4 月 23 日合并队列(Merge Queue)回归缺陷,当合并组包含两个以上 PR 时使用 Squash 合并会产生错误提交,反向撤销了此前 PR 的变更,共影响 658 个仓库与 2092 个 PR,无数据丢失但需人工修复(更多细节见单独的 RCA 公告);4 月 27 日 Elasticsearch 集群因疑似僵尸网络攻击过载宕机,影响 PR、Issue、Projects 等依赖搜索的 UI,Git 操作与 API 不受影响但体验显著下降。Fedorov 坦承 Elasticsearch 是"尚未完成隔离的单点故障",并已启动与其他高优先级系统相同的依赖分析与隔离工作。Ghostty 创始人 Mitchell Hashimoto 同日发文宣布将 Ghostty 项目迁出 GitHub,直接引用的就是 4 月份频繁的故障影响其正常工作。 GitHub Blog https://github.blog/news-insights/company-news/an-update-on-github-availability/
  • 0 赞同
    1 帖子
    32 浏览
    R
    Anthropic 于 4 月 23 日发布工程复盘,将过去一个月用户反馈的 Claude Code 表现下降归因于三处独立变更,所有问题已于 4 月 20 日 v2.1.116 前修复,API 不受影响。三处问题分别是:3 月 4 日为缓解 UI 卡顿将默认推理强度从 high 降为 medium(4 月 7 日回滚);3 月 26 日的一项缓存优化存在 bug,本应仅在会话闲置一小时后清除一次旧的思考内容,实际却在每个 turn 都重复清除,使 Claude 显得健忘、重复,并触发更多缓存未命中、加速消耗用户额度(4 月 10 日修复);4 月 16 日为压缩 Opus 4.7 冗长输出,在系统提示中加入"工具调用间 ≤25 词、最终响应 ≤100 词"的硬性长度限制,与其他 prompt 改动叠加后伤害了编码质量(4 月 20 日回滚)。 Anthropic 表示,由于三处变更覆盖不同流量切片、节奏各异,整体表现为"广泛但不一致的退化",加之内部 dogfooding 与早期自动评估均未能复现,定位过程耗时较长。受此影响,公司宣布的改进包括:扩大内部员工使用与公众完全一致的 Claude Code 公开构建版本的比例;对系统提示改动加每模型独立 evals 与逐行 ablation 审计;对可能权衡智能的改动设置观察期与分阶段灰度。Anthropic 同时致谢通过 /feedback 命令与公开可复现示例反馈问题的用户,并于 4 月 23 日重置全部订阅用户的使用额度作为补偿。 Anthropic Engineering