游戏工程化与运维 — 学习路线图
第四阶段:技术领导者 面向:初级 H5 游戏程序员 | 前置:第一阶段 + 第二阶段 + 第三阶段 预计学习时间:持续进行
这个项目是什么?
前三个阶段你学了"怎么写代码"和"怎么设计系统"。但真实的游戏项目远不止写代码:
- 10 个开发者怎么协同?代码冲突怎么解决?
- 上线后服务器挂了怎么发现?怎么快速恢复?
- 怎么保证每次发版不出问题?
- 10000 人同时在线压测怎么做?
- 微信内置浏览器渲染异常怎么排查?
本项目覆盖"让游戏从开发到上线到稳定运行"的全部工程化能力。 这是区分"写代码的人"和"技术负责人"的关键。
学习路线
第01章:CI/CD 流水线 ── Jenkins/GitLab CI/GitHub Actions
│ 自动化构建与部署,让每次发版不再手忙脚乱
▼
第02章:Docker 容器化 ── 镜像构建/多阶段构建/容器网络
│ 标准化打包与运行,"一次构建,到处运行"
▼
第03章:Kubernetes 编排 ── Pod/Deployment/Service/HPA
│ 自动化容器编排,实现弹性扩缩容和自愈
▼
第04章:代码质量与工程实践 ── Git规范/Code Review/测试/覆盖率
│ 保障代码质量,让团队协作不踩坑
▼
第05章:游戏自动化测试 ── Airtest/压力测试/弱网测试/测试左移
│ 自动化验证功能与性能,替代人工回归
▼
第06章:游戏性能监控 ── 前端监控/后端监控/全链路追踪
│ 实时感知系统状态,在玩家投诉前发现问题
▼
第07章:游戏日志系统 ── 日志规范/ELK/日志分析
│ 记录一切关键行为,出问题有据可查
▼
第08章:告警与应急响应 ── 告警分级/故障处理/SRE实践
│ 故障发生时快速止血,事后复盘防复发
▼
第09章:版本管理与灰度发布 ── 语义版本/灰度策略/热更新管理
│ 安全发布新版本,灰度验证降低风险
▼
第10章:音视频与实时通信 ── WebRTC/语音聊天/流媒体
为游戏增加语音和视频能力,提升社交体验
章节详细目录
| 章节 | 文件 | 核心内容 | 关键实践 |
|---|---|---|---|
| 第01章 | 01-CICD流水线/01-CICD流水线.md | CI/CD概念、GitHub Actions/GitLab CI实战、分支策略、游戏CI/CD特殊考虑 | 搭建GitHub Actions流水线 |
| 第02章 | 02-Docker容器化/01-Docker容器化.md | Docker核心概念、Dockerfile最佳实践、Docker Compose编排 | 多阶段构建+完整开发环境 |
| 第03章 | 03-Kubernetes编排/01-Kubernetes编排.md | K8s核心概念、游戏服务器部署、HPA自动扩缩容 | minikube部署+优雅关闭 |
| 第04章 | 04-代码质量与工程实践/01-代码质量与工程实践.md | Git规范与分支策略、Code Review、测试体系、覆盖率、前端工程化 | 单元测试+集成测试+SonarQube |
| 第05章 | 05-游戏自动化测试/01-游戏自动化测试.md | Airtest UI测试、Locust压力测试、弱网模拟、测试左移与质量门禁 | 10000并发压测+断线重连测试+质量门禁 |
| 第06章 | 06-游戏性能监控/01-游戏性能监控.md | 前端FPS/内存监控、后端指标采集、全链路追踪 | Prometheus+Grafana+OpenTelemetry |
| 第07章 | 07-游戏日志系统/01-游戏日志系统.md | 日志规范与脱敏、ELK日志系统、Loki轻量方案、日志查询看板 | 搭建ELK+日志规范 |
| 第08章 | 08-告警与应急响应/01-告警与应急响应.md | 告警分级体系、故障处理SOP、降级策略、混沌工程 | 故障演练+应急SOP |
| 第09章 | 09-版本管理与灰度发布/01-版本管理与灰度发布.md | 语义化版本号、灰度发布策略、热更新管理、版本兼容 | 灰度发布系统+配置热更新 |
| 第10章 | 10-音视频与实时通信/01-音视频与实时通信.md | WebRTC基础、实时语音架构、第三方服务对比 | WebRTC语音聊天+Agora对接 |
三条学习路径(根据你的角色选择)
路径A:DevOps 工程师
聚焦 CI/CD、容器化、监控告警、自动化运维 重点章节:01 → 02 → 03 → 06 → 07 → 08 → 09
路径B:游戏开发工程师
聚焦代码质量、Git规范、前端工程化、热更新 重点章节:04 → 01 → 02 → 09 → 06
路径C:游戏测试工程师
聚焦自动化测试、性能测试、弱网测试、质量门禁 重点章节:04 → 05 → 06 → 07 → 08
与其他学习项目的关系
第一阶段(编程基础) 第二阶段(系统设计) 第三阶段(架构演进)
│ │ │
JS/TS 基础 渲染管线 分布式架构
数据结构 性能优化 微服务设计
算法基础 内存管理 高并发处理
│ │ │
└──────────────────────┼──────────────────────┘
│
▼
第四阶段:游戏工程化与运维(本项目)
─────────────────────────
"写代码" → "让代码稳定运行"
前三阶段:怎么写好代码
本阶段:怎么让代码上线后不出事
学习建议
- 按顺序学习:第01→02→03→04→05→06→07→08→09→10,每章都有依赖关系
- 第01、06、08章是核心:CI/CD、监控、告警是工程化的三大支柱
- 边学边用:在自己的项目上搭建 CI/CD、部署监控
- 故障演练:主动制造故障来验证你的应急方案
- 团队协作:工程化是团队的事,拉着队友一起做 Code Review
核心知识点速查表
| 知识点 | 关键工具/技术 | 掌握程度 |
|---|---|---|
| CI/CD 流水线 | GitHub Actions, GitLab CI | 能独立配置完整流水线 |
| 容器化 | Docker, Docker Compose | 能编写优化后的 Dockerfile |
| 容器编排 | Kubernetes | 理解 Pod/Deployment/Service |
| 代码规范 | Git Flow, Conventional Commits | 能制定团队规范 |
| 游戏自动化测试 | Airtest, Poco | 能编写覆盖核心玩法的测试 |
| 压力测试 | JMeter, Locust, k6 | 能设计压测场景并分析结果 |
| 弱网测试 | Charles, Clumsy, tc | 能模拟各类网络异常场景 |
| 性能监控 | Prometheus, Grafana | 能搭建基础监控大盘 |
| 日志系统 | ELK Stack, Loki | 理解日志采集-存储-查询链路 |
| 全链路追踪 | OpenTelemetry, Zipkin | 理解 Trace ID 原理与实现 |
| 灰度发布 | Nginx 分流, K8s 滚动更新 | 能设计安全的发布策略 |
学习资源
- 《SRE:Google 运维解密》── SRE 实践圣经
- 《持续交付》── CI/CD 经典
- 《凤凰项目》── DevOps 小说(好看!)
- Kubernetes 官方文档
- Prometheus 官方文档
- Grafana 官方文档
- Airtest 官方文档
- Locust 官方文档
文档版本:2026年4月 目标受众:初级 H5 游戏程序员 → 资深游戏开发者/架构师 学习建议:工程化能力需要在真实项目中锻炼。每个概念都可以在日常工作中实践,不要等"以后再用"。