DevFlow:一个让任何 AI 都能"按流程办事"的 CLI 工具

如果你用过 Superpowers 这套 AI 工作流规范,一定有过这种体验:告诉 AI “帮我修复这个 bug”,它会先读规范、再按步骤执行——先复现问题、再定位根因、最后修复验证。

这套规范确实有用。但用久了你会发现一个尴尬的问题:规范是"建议",不是"约束"

AI 读完了规范,仍然可能凭直觉跳步骤;你说”先写测试再写代码”,它嘴上说好,手一快就先把功能实现了;你说”修复前要先找到根因”,它试了两次没头绪,直接开始瞎猜。

问题不在 AI 不听话,而在于我们没有给规范配上一个”执行引擎”。


真实踩坑:规范有了,执行却失控了

以上说得还算理想化。接下来我要分享的是真实工程中的三个痛点——它们直接决定了 DevFlow 必须被设计成现在这个样子。

痛点 1:工作流文档披露太多,关键细节反而丢失

我最初在项目里放了一份 WORKFLOW.md,里面详细描述了从需求到交付的完整流程。Agent 读完后,大体的执行顺序是对的——它知道要先创建需求文档,再开发功能。

但问题出在信息量过载

当 Agent 一次性看到全部流程(创建 REQ → 写 FEAT → TDD 实现 → 测试 → 验证),它往往只抓主线,丢掉细节。流程要求”创建 REQ 需求文档并填充内容”,Agent 创建了一个空文件就觉得”这一步完成了”,马上跳到功能开发。等到代码写完了,回头一看——REQ 文件还是空的,没有需求描述、没有验收标准。

不是 Agent 不想做对,而是一次性给太多信息,它根本抓不住重点。

痛点 2:AI 行为不可控,会擅自跳过必要步骤

更严重的问题是,Agent 会自行判断哪些步骤”不重要”然后跳过

你规定了”修改代码前必须先写测试”,Agent 嘴上说好,手一快直接把功能实现了。你要求”提交前必须跑 lint”,Agent 觉得”这次改动很小,应该不会出错”,直接跳过。

没有强制约束的规范,本质上只是”建议”。 Agent 会根据自己的”理解”选择性执行,而人类期望的是每一步都必须完成、每一项检查都必须通过

痛点 3:不同项目流程差异大,纯文档适配性差

我尝试给所有项目用同一份 WORKFLOW.md,但很快发现行不通。

有的项目需要跨平台打包环节,有的项目要流转到第三方系统审批,有的需要做安全扫描,有的需要性能基准测试。同一份文档不可能覆盖所有场景。

而且,当项目从 A 流程迁移到 B 流程时(比如 Debug 完成后要回到 Feature 开发的评审环节),纯文档方案只能靠 Agent”记住”之前的状态——它经常记不住。

靠 Markdown 文档来适配不同项目、管理流程切换,是死路一条。

优化思路的诞生

这三个痛点让我意识到,问题的根源在于控制权的归属

不能让 Agent 自己决定”接下来做什么”。必须让 CLI 来编排工作流,Agent 只是流程中的执行者。

针对三个痛点,DevFlow 的解决方案是:

痛点 解决方案
信息过载,细节丢失 渐进式披露——一次只给一步,完成后再给下一步
AI 跳过步骤,行为不可控 Gate 系统 + Fail Route——没过检查就不能前进,失败自动走补救路线
项目差异大,流程切换难 控制反转 + 跨工作流引用——人类用 TOML 定义工作流,CLI 负责编排和切换

此外,为了改善人机交互,DevFlow 还提供了 Ralph Loop 自主执行模式——启动后 Agent 可以自动推进工作流,人类只需在关键节点介入,不需要每一步都手动确认。

这五个机制,就是 DevFlow 的核心设计哲学。


从「规范卡片」到「生产流水线」

Superpowers 本质上是一套行为规范——它告诉 AI “你应该怎么做”,但无法检查 AI “是不是真的做了”。

这就像一家公司:

  • 有员工手册(规范)
  • 但没有打卡系统、没有审批流程、没有质量检查

结果就是:有人按规矩来,有人凭感觉来,交付质量完全看运气。

我们需要的是一套”生产流水线”:AI 每做完一步,必须经过客观检查(Gate),通过了才能进入下一步;没通过,就自动进入补救流程。整个开发过程从”自由发挥”变成”强制流程”。

这就是 DevFlow 要解决的问题。


DevFlow 是什么?

DevFlow 是一个与 Agent 无关的 AI 开发工作流 CLI 工具。它用 TOML 配置文件定义开发流程,通过渐进式披露(Progressive Disclosure)让 AI 一次只看一步,配合 Gate 系统进行客观验证。

核心定位:Superpowers 解决”AI 应该知道什么”,DevFlow 解决”AI 必须做什么、怎么确认做了”。

维度 Superpowers DevFlow
本质 行为规范(软约束) 执行引擎(硬约束)
形式 Markdown 技能文档 TOML 工作流 + CLI 工具
验证方式 靠 AI 自觉 Gate 系统客观检查
适用范围 特定 Agent 插件 任何 AI Agent 都能用
用户指令 “请先读规范” devflow currentdevflow done

核心设计:五个机制管住流程

1. 渐进式披露(Progressive Disclosure)

传统方式是扔给 AI 一份完整的开发规范(比如 20 页的流程文档),AI 看了前面忘了后面,或者跳着看。

DevFlow 的做法是一次只暴露一个步骤

1
2
3
4
5
6
7
AI: devflow current
CLI: [显示当前步骤的指令和 Gate 条件]

AI: [执行指令]

AI: devflow done
CLI: [检查 Gate → 通过 → 推进到下一步]

AI 永远只看到当前该做什么,不会提前看到后面的步骤,也不会漏掉前面的步骤。

2. Gate 系统:客观验证

每个步骤都配有 Gate 条件,只有满足条件才能通过。常见的 Gate 类型:

Gate 类型 说明 示例
file_exists 文件必须存在 docs/REQ-001.md 已创建
file_contains 文件必须包含特定内容 需求文档包含 status: approved
command_success 命令必须成功退出 pytest 全部通过
user_approved 需要人工确认 devflow approve DESIGN-001

核心规则:没过 Gate,就 advance 不了。 这不是建议,是程序上的硬拦截。

3. Fail Route:失败不卡死

如果 Gate 检查失败怎么办?传统方式是 AI 原地重试,可能陷入死循环。

DevFlow 的解决方案是 Fail Route——根据失败次数自动路由到不同的处理步骤:

flowchart TD
    A[debug-fix
执行修复] --> B{Gate检查
测试通过?} B -->|通过| C[debug-verify
验证修复] B -->|失败 1-2 次| D[debug-root-cause
重新分析根因] B -->|失败 3+ 次| E[debug-question
升级到人工介入] D --> A E --> D

AI 不需要自己决定”接下来怎么办”,流程已经定义好了。

4. 跨工作流引用

不同场景用不同的工作流:

  • MODE-A:Feature 开发(需求 → 设计 → 实现 → 测试 → 交付)
  • MODE-B:Debug(根因分析 → 假设验证 → 修复 → 验证)

关键是:Debug 完成后,自动切回 MODE-A 的 Plan 阶段,进入完整的评审循环。

flowchart LR
    subgraph MODE-B
        B1[debug-finish
Debug完成] end subgraph MODE-A A1[write-plan
重新进入评审] end B1 -->|跨工作流引用| A1

这意味着 AI 不需要”记住”之前在做哪个功能,流程本身会带它回到正确的位置。

5. Ralph Loop:人机协作的自主执行

前面四个机制解决的是”流程怎么管”,Ralph Loop 解决的是”人机怎么协作”。

在没有自主执行的情况下,每完成一步都需要人类手动输入 devflow done 来推进——这在复杂项目中非常繁琐。

Ralph Loop 的模式是:

1
2
# 启动自主执行循环
devflow run [--tool local] [--max-iterations 10]

启动后,Agent 会自动读取当前步骤、执行指令、检查 Gate、推进到下一步。人类只需在需要确认的关键节点介入(比如 user_approved Gate),其他时候流程自动跑。

你还可以随时查看循环状态:

1
2
devflow loop-status     # 查看剩余任务和进度
devflow sync-backlog # 从当前工作流生成任务清单

Ralph Loop 不是让人类放手不管,而是把人类的精力集中在”决策”上,把”执行”交给流程。


内置工作流:开箱即用

DevFlow 自带两个核心工作流:

MODE-A:Feature 开发

flowchart LR
    A[req-create
创建需求] --> B[req-approve
需求确认] --> C[brainstorm
方案探索] --> D[write-plan
拆解任务] --> E[implement-tdd
TDD实现] --> F[code-review
代码审查] --> G[test-run
运行测试] --> H[verify
收集证据] --> I[finish
交付清理]

MODE-B:Debug

flowchart TD
    A[debug-root-cause
调查根因] --> B[debug-pattern
模式分析] --> C[debug-hypothesis
假设验证] C -->|验证失败| A C --> D[debug-fix
实现修复] D -->|失败1-2次| A D -->|失败3+次| E[debug-question
质疑架构
需人工确认] E --> A D -->|修复通过| F[debug-verify
验证修复] F --> G[debug-finish
Debug完成] G -->|跨工作流切换| H[MODE-A: write-plan]

快速体验

DevFlow 的安装和使用非常直接。你可以让 AI Agent 通过以下链接自行了解并完成安装:

1
2
Read and follow the instructions from:
https://github.com/Dqz00116/devflow/blob/main/SKILL.md

或者手动访问项目仓库查看 README 获取详细文档。

基本使用流程:

1
2
3
4
5
6
7
8
9
10
11
# 初始化项目
devflow init --language python --name "My Project"

# 选择工作流
devflow select-workflow MODE-A

# 查看当前步骤指令
devflow current

# 执行完成后,检查 Gate 并推进
devflow done

为什么这件事很重要?

AI 编程助手正在快速普及,但行业面临一个核心问题:不同 AI、不同用户、不同项目,做出来的质量天差地别。

同样的 “帮我实现一个登录功能”:

  • 有的 AI 直接写代码,测都不测
  • 有的 AI 先问需求,再写测试,再实现,再验证

差异不在 AI 的能力,而在工作流程是否被强制执行

DevFlow 的意义在于:把”好的工作习惯”从”靠 AI 自觉”变成”靠流程保证”。无论用的是 Claude、Kimi、Gemini 还是其他任何 Agent,只要接入 DevFlow,就必须按步骤走、必须过 Gate、失败必须按既定路线处理。

这不是限制 AI 的创造力,而是确保基础质量的下限。


与 Superpowers 的关系

DevFlow 不是 Superpowers 的替代品,而是互补的执行层

  • Superpowers 解决”AI 应该遵循什么规范”(brainstorming → TDD → debugging → verification)
  • DevFlow 解决”AI 是否真的按规范执行了”(current → done → gate check → advance)

两者结合,形成一个完整的闭环:规范定义纪律,流程强制执行纪律


总结

DevFlow 的核心价值可以用一句话概括:把 AI 开发从”自由发挥”变成”按流程办事”

它不提供新的 AI 能力,而是为已有的 AI 能力套上一条标准化的生产线

  • 每一步做什么,流程说了算
  • 做没做完,Gate 系统说了算
  • 失败了怎么办,Fail Route 说了算
  • 做完了接下来去哪,工作流配置说了算

当 AI 助手越来越强大,我们需要的不是更聪明的 AI,而是更可靠的协作方式。DevFlow 就是在做这件事。


项目资源