如果你用过 Superpowers 这套 AI 工作流规范,一定有过这种体验:告诉 AI “帮我修复这个 bug”,它会先读规范、再按步骤执行——先复现问题、再定位根因、最后修复验证。
这套规范确实有用。但用久了你会发现一个尴尬的问题:规范是"建议",不是"约束"。
AI 读完了规范,仍然可能凭直觉跳步骤;你说”先写测试再写代码”,它嘴上说好,手一快就先把功能实现了;你说”修复前要先找到根因”,它试了两次没头绪,直接开始瞎猜。
问题不在 AI 不听话,而在于我们没有给规范配上一个”执行引擎”。
真实踩坑:规范有了,执行却失控了
以上说得还算理想化。接下来我要分享的是真实工程中的三个痛点——它们直接决定了 DevFlow 必须被设计成现在这个样子。
痛点 1:工作流文档披露太多,关键细节反而丢失
我最初在项目里放了一份 WORKFLOW.md,里面详细描述了从需求到交付的完整流程。Agent 读完后,大体的执行顺序是对的——它知道要先创建需求文档,再开发功能。
但问题出在信息量过载。
当 Agent 一次性看到全部流程(创建 REQ → 写 FEAT → TDD 实现 → 测试 → 验证),它往往只抓主线,丢掉细节。流程要求”创建 REQ 需求文档并填充内容”,Agent 创建了一个空文件就觉得”这一步完成了”,马上跳到功能开发。等到代码写完了,回头一看——REQ 文件还是空的,没有需求描述、没有验收标准。
不是 Agent 不想做对,而是一次性给太多信息,它根本抓不住重点。
痛点 2:AI 行为不可控,会擅自跳过必要步骤
更严重的问题是,Agent 会自行判断哪些步骤”不重要”然后跳过。
你规定了”修改代码前必须先写测试”,Agent 嘴上说好,手一快直接把功能实现了。你要求”提交前必须跑 lint”,Agent 觉得”这次改动很小,应该不会出错”,直接跳过。
没有强制约束的规范,本质上只是”建议”。 Agent 会根据自己的”理解”选择性执行,而人类期望的是每一步都必须完成、每一项检查都必须通过。
痛点 3:不同项目流程差异大,纯文档适配性差
我尝试给所有项目用同一份 WORKFLOW.md,但很快发现行不通。
有的项目需要跨平台打包环节,有的项目要流转到第三方系统审批,有的需要做安全扫描,有的需要性能基准测试。同一份文档不可能覆盖所有场景。
而且,当项目从 A 流程迁移到 B 流程时(比如 Debug 完成后要回到 Feature 开发的评审环节),纯文档方案只能靠 Agent”记住”之前的状态——它经常记不住。
靠 Markdown 文档来适配不同项目、管理流程切换,是死路一条。
优化思路的诞生
这三个痛点让我意识到,问题的根源在于控制权的归属:
不能让 Agent 自己决定”接下来做什么”。必须让 CLI 来编排工作流,Agent 只是流程中的执行者。
针对三个痛点,DevFlow 的解决方案是:
| 痛点 | 解决方案 |
|---|---|
| 信息过载,细节丢失 | 渐进式披露——一次只给一步,完成后再给下一步 |
| AI 跳过步骤,行为不可控 | Gate 系统 + Fail Route——没过检查就不能前进,失败自动走补救路线 |
| 项目差异大,流程切换难 | 控制反转 + 跨工作流引用——人类用 TOML 定义工作流,CLI 负责编排和切换 |
此外,为了改善人机交互,DevFlow 还提供了 Ralph Loop 自主执行模式——启动后 Agent 可以自动推进工作流,人类只需在关键节点介入,不需要每一步都手动确认。
这五个机制,就是 DevFlow 的核心设计哲学。
从「规范卡片」到「生产流水线」
Superpowers 本质上是一套行为规范——它告诉 AI “你应该怎么做”,但无法检查 AI “是不是真的做了”。
这就像一家公司:
- 有员工手册(规范)
- 但没有打卡系统、没有审批流程、没有质量检查
结果就是:有人按规矩来,有人凭感觉来,交付质量完全看运气。
我们需要的是一套”生产流水线”:AI 每做完一步,必须经过客观检查(Gate),通过了才能进入下一步;没通过,就自动进入补救流程。整个开发过程从”自由发挥”变成”强制流程”。
这就是 DevFlow 要解决的问题。
DevFlow 是什么?
DevFlow 是一个与 Agent 无关的 AI 开发工作流 CLI 工具。它用 TOML 配置文件定义开发流程,通过渐进式披露(Progressive Disclosure)让 AI 一次只看一步,配合 Gate 系统进行客观验证。
核心定位:Superpowers 解决”AI 应该知道什么”,DevFlow 解决”AI 必须做什么、怎么确认做了”。
| 维度 | Superpowers | DevFlow |
|---|---|---|
| 本质 | 行为规范(软约束) | 执行引擎(硬约束) |
| 形式 | Markdown 技能文档 | TOML 工作流 + CLI 工具 |
| 验证方式 | 靠 AI 自觉 | Gate 系统客观检查 |
| 适用范围 | 特定 Agent 插件 | 任何 AI Agent 都能用 |
| 用户指令 | “请先读规范” | devflow current → devflow done |
核心设计:五个机制管住流程
1. 渐进式披露(Progressive Disclosure)
传统方式是扔给 AI 一份完整的开发规范(比如 20 页的流程文档),AI 看了前面忘了后面,或者跳着看。
DevFlow 的做法是一次只暴露一个步骤:
1 | AI: devflow current |
AI 永远只看到当前该做什么,不会提前看到后面的步骤,也不会漏掉前面的步骤。
2. Gate 系统:客观验证
每个步骤都配有 Gate 条件,只有满足条件才能通过。常见的 Gate 类型:
| Gate 类型 | 说明 | 示例 |
|---|---|---|
file_exists |
文件必须存在 | docs/REQ-001.md 已创建 |
file_contains |
文件必须包含特定内容 | 需求文档包含 status: approved |
command_success |
命令必须成功退出 | pytest 全部通过 |
user_approved |
需要人工确认 | devflow approve DESIGN-001 |
核心规则:没过 Gate,就 advance 不了。 这不是建议,是程序上的硬拦截。
3. Fail Route:失败不卡死
如果 Gate 检查失败怎么办?传统方式是 AI 原地重试,可能陷入死循环。
DevFlow 的解决方案是 Fail Route——根据失败次数自动路由到不同的处理步骤:
flowchart TD
A[debug-fix
执行修复] --> B{Gate检查
测试通过?}
B -->|通过| C[debug-verify
验证修复]
B -->|失败 1-2 次| D[debug-root-cause
重新分析根因]
B -->|失败 3+ 次| E[debug-question
升级到人工介入]
D --> A
E --> D
AI 不需要自己决定”接下来怎么办”,流程已经定义好了。
4. 跨工作流引用
不同场景用不同的工作流:
- MODE-A:Feature 开发(需求 → 设计 → 实现 → 测试 → 交付)
- MODE-B:Debug(根因分析 → 假设验证 → 修复 → 验证)
关键是:Debug 完成后,自动切回 MODE-A 的 Plan 阶段,进入完整的评审循环。
flowchart LR
subgraph MODE-B
B1[debug-finish
Debug完成]
end
subgraph MODE-A
A1[write-plan
重新进入评审]
end
B1 -->|跨工作流引用| A1
这意味着 AI 不需要”记住”之前在做哪个功能,流程本身会带它回到正确的位置。
5. Ralph Loop:人机协作的自主执行
前面四个机制解决的是”流程怎么管”,Ralph Loop 解决的是”人机怎么协作”。
在没有自主执行的情况下,每完成一步都需要人类手动输入 devflow done 来推进——这在复杂项目中非常繁琐。
Ralph Loop 的模式是:
1 | # 启动自主执行循环 |
启动后,Agent 会自动读取当前步骤、执行指令、检查 Gate、推进到下一步。人类只需在需要确认的关键节点介入(比如 user_approved Gate),其他时候流程自动跑。
你还可以随时查看循环状态:
1 | devflow loop-status # 查看剩余任务和进度 |
Ralph Loop 不是让人类放手不管,而是把人类的精力集中在”决策”上,把”执行”交给流程。
内置工作流:开箱即用
DevFlow 自带两个核心工作流:
MODE-A:Feature 开发
flowchart LR
A[req-create
创建需求] --> B[req-approve
需求确认] --> C[brainstorm
方案探索] --> D[write-plan
拆解任务] --> E[implement-tdd
TDD实现] --> F[code-review
代码审查] --> G[test-run
运行测试] --> H[verify
收集证据] --> I[finish
交付清理]
MODE-B:Debug
flowchart TD
A[debug-root-cause
调查根因] --> B[debug-pattern
模式分析] --> C[debug-hypothesis
假设验证]
C -->|验证失败| A
C --> D[debug-fix
实现修复]
D -->|失败1-2次| A
D -->|失败3+次| E[debug-question
质疑架构
需人工确认]
E --> A
D -->|修复通过| F[debug-verify
验证修复]
F --> G[debug-finish
Debug完成]
G -->|跨工作流切换| H[MODE-A: write-plan]
快速体验
DevFlow 的安装和使用非常直接。你可以让 AI Agent 通过以下链接自行了解并完成安装:
1 | Read and follow the instructions from: |
或者手动访问项目仓库查看 README 获取详细文档。
基本使用流程:
1 | # 初始化项目 |
为什么这件事很重要?
AI 编程助手正在快速普及,但行业面临一个核心问题:不同 AI、不同用户、不同项目,做出来的质量天差地别。
同样的 “帮我实现一个登录功能”:
- 有的 AI 直接写代码,测都不测
- 有的 AI 先问需求,再写测试,再实现,再验证
差异不在 AI 的能力,而在工作流程是否被强制执行。
DevFlow 的意义在于:把”好的工作习惯”从”靠 AI 自觉”变成”靠流程保证”。无论用的是 Claude、Kimi、Gemini 还是其他任何 Agent,只要接入 DevFlow,就必须按步骤走、必须过 Gate、失败必须按既定路线处理。
这不是限制 AI 的创造力,而是确保基础质量的下限。
与 Superpowers 的关系
DevFlow 不是 Superpowers 的替代品,而是互补的执行层:
- Superpowers 解决”AI 应该遵循什么规范”(brainstorming → TDD → debugging → verification)
- DevFlow 解决”AI 是否真的按规范执行了”(current → done → gate check → advance)
两者结合,形成一个完整的闭环:规范定义纪律,流程强制执行纪律。
总结
DevFlow 的核心价值可以用一句话概括:把 AI 开发从”自由发挥”变成”按流程办事”。
它不提供新的 AI 能力,而是为已有的 AI 能力套上一条标准化的生产线:
- 每一步做什么,流程说了算
- 做没做完,Gate 系统说了算
- 失败了怎么办,Fail Route 说了算
- 做完了接下来去哪,工作流配置说了算
当 AI 助手越来越强大,我们需要的不是更聪明的 AI,而是更可靠的协作方式。DevFlow 就是在做这件事。
项目资源:
- 🏠 项目主页:https://github.com/Dqz00116/devflow
- 📖 使用指南(SKILL.md):https://github.com/Dqz00116/devflow/blob/main/SKILL.md
- 🌟 Superpowers 原项目:https://github.com/obra/superpowers