ai-spec — AI 驱动的开发流水线

问题所在

为什么现有的 AI 工具
还不够

每一个 AI codegen 工具都撞到同样的结构性问题。ai-spec 是针对这些问题设计的。

🧠

没有项目记忆

AI 不知道你的错误码、中间件配置、i18n 约定。每次对话都从零开始 —— 就像一个第一天入职、没看过你 codebase 的新员工写出来的代码。

🕳️

没有结构化中间层

自然语言直接跳到代码。中间没有可审查、可版本化的契约。误解只能在代码里被发现 —— 代价极高。

💥

全有或全无的生成

一次性生成整个 feature。一个错就全失败。没有 checkpoint、没有 resume —— 失败就要从头再来。

🚪

生成完就退出

测试过了吗？有 lint 错吗？架构违反了吗？工具退出之后，你得自己一个个手动确认。

📉

每次经验都丢失

review 时发现一个安全 bug？下次 AI 还会再犯一遍。团队的工程经验没办法系统化地约束 AI 的行为。

👻

跨任务幻觉

任务 B 幻觉出任务 A 里根本不存在的函数名 —— 即使两个文件在同一个 PR 里。没有共享缓存，AI 是在猜，不是在读。

流水线

每一步都是编排好的

一条全自动 10 步流水线，从一句话需求到经过 review、打过分、可审计的代码。

[1/10] 上下文 → [2/10] Spec + 任务 → [3/10] 精炼 → [3.4/10] 质量门 → [Gate] 人审 → [DSL] 契约 → [Git] Worktree → [6/10] Codegen → [7/10] 测试 → [8/10] 自动修复 → [9/10] 3-pass 评审 → [10/10] Harness 自评

[1/10] CONTEXT LOAD

从一开始就理解你的项目

扫描路由、schema、依赖、中间件和项目宪法。每一个 prompt 都基于你真实的 codebase —— 不是泛用模板。

[2/10] SPEC + TASKS

结构化 Spec 配任务拆解

生成人可读的 Markdown spec，并拆成有序任务：data → service → api → view → route → test。一次 AI 调用，完整输出。

[3/10] REFINEMENT

带 diff 预览的交互式精炼

AI 精炼 spec 并显示彩色 diff。你可以批准、拒绝或要求修改。支持多轮 —— 你不点同意，没有任何代码会被写出来。

[DSL] CONTRACT

机器可读的双层契约

从 spec 中抽取 SpecDSL JSON —— 模型、endpoint、behaviors。经结构化校验。是 codegen / 测试 / 导出的单一事实来源。

[6/10] CODEGEN

任务分层生成 + 文件缓存

按依赖顺序逐文件生成。每个完成文件的 export 都会被缓存并注入到后续 prompt —— 消除跨任务幻觉。

[8/10] AUTO-FIX

错误反馈循环 — 最多 3 轮

跑 npm test / lint / tsc，按文件分组解析错误，带着 DSL 上下文丢给 AI 做精准修复。依赖排序的修复顺序最大化每轮的效率。

[9/10] 3-PASS REVIEW

架构 + 实现 + 影响范围

Pass 1：架构 + spec 合规。Pass 2：实现正确性 + 边界条件。Pass 3：爆炸半径、复杂度评分、breaking change 风险。

[10/10] HARNESS EVAL

自动化质量分数

4 维评分：compliance (30%) + DSL coverage (25%) + compile (20%) + review (25%)。和 prompt hash 绑定 —— 跨 run 跟踪质量趋势，零额外 AI 调用。

核心特性

把 ai-spec 用稳
所需要的一切

每一个特性都对应 AI 辅助开发里的一个真实痛点。

📜

项目宪法系统

自演化的知识库（§1–§9），自动注入到每个 prompt。init 时扫描路由、中间件、schema 和约定。每次 review 后通过 §9 累积 lesson，越来越聪明。

ai-spec init

🎯

双层契约

人可读的 Markdown Spec 给工程师 review 和对齐用。机器可读的 SpecDSL JSON 给工具消费。两份都有版本、都可审计。codegen / 测试 / 导出共享同一份契约。

Spec + DSL

🔄

双反馈循环

DSL Gap Loop：在 codegen 前检测稀疏契约，触发针对性的 spec 补全。Review→DSL Loop：结构性的 review 问题反馈到契约里 —— 下次 run 起点更干净。

自纠错

⚡

VCR 录制 & 重放

第一次 run 时录下真实的 AI 响应。后续 run 确定性重放 —— 零 API 调用、零成本。迭代流水线逻辑和 UI 不烧 token。

ai-spec create --vcr-record

🛡️

人审门

人审发生在正确的时机：spec 已清晰、DSL 已通过验证，但还没有任何代码被写出来。abort = 零磁盘残留。继续 = 每一步都有经过验证的契约可循。

[Gate] checkpoint

🔁

Fix-History 自学习

每一次成功的 import 修复都会追加到 ledger。下一次 codegen 时，"DO NOT REPEAT" 段落自动注入到 prompt —— 让同样的幻觉不会重复出现。

v0.54+ 零成本学习

↩️

即时回滚

每个 run 都有唯一的 RunId。在任何文件被写之前，原始内容都会被快照。一条命令把整个 repo 恢复到 run 之前的状态 —— 精确到文件、精确到 run。

ai-spec restore <runId>

🌐

9 个 AI Provider

Gemini、Claude、OpenAI、DeepSeek、Qwen、GLM、MiniMax、Doubao、MiMo。分步骤混搭：spec 生成用一个模型，codegen 用另一个。支持 per-run provider 覆盖。

--provider --codegen-provider

多仓库 Workspace

一条命令
跑通全栈

唯一一条把你的后端和前端自动串起来的流水线。

🖥️ 后端 — node-express

[W2] Spec + DSL 已生成

模型、endpoint、behaviors 已抽取

代码已生成 + 已 review

DSL 契约准备好，移交给前端 →

⬇

DSL 契约
5 endpoint
3 model

⬇

注入到
前端流水线

🖼️ 前端 — vue / react

[W4] Spec 生成（带后端契约）

HTTP client 调用预先对齐 DSL

代码已生成 + 已 review

[W5] 跨栈 verifier：0 phantom ✔

✔ 跨栈契约校验 (v0.50+)

前端 codegen 完成后，跨栈 verifier 会扫描前端代码里的每一个 API 调用，对照后端 DSL 进行校验。phantom 路由（幻觉出来的 endpoint）、HTTP method 不匹配、字符串拼接的路径，都会在你 push 之前被检出并报告。

DSL 衍生物

一份契约，
多种产物

SpecDSL 不只为 codegen 服务 —— 它驱动你完整的开发工作流。

ai-spec export

OpenAPI 3.1.0 导出

DSL → 生产可用的 YAML / JSON。直接接入 Postman、Swagger UI 或任意 SDK 生成器。

openapi.yaml (3.1.0)

paths / schemas / parameters / responses

--format json · --server <url>

ai-spec mock

即时 Mock Server

DSL → Express mock server + MSW handlers + Vite 代理配置。前端开发不用等后端。

mock/server.js (Express)

mock/handlers.ts (MSW)

--serve --proxy --port 3001

ai-spec types

TypeScript 类型

DSL → 类型化 interface、请求/响应类型、API endpoint 常量。前后端共享。

export interface Model {}

export const API_ENDPOINTS

Request & Response 类型

ai-spec dashboard

Harness 仪表盘

生成静态 HTML 质量看板。跨所有 run 跟踪 harness 分数、合规率和评审趋势。

静态 HTML，无需服务器

分数趋势图

每个 run 的阶段拆解

实际输出

流水线
真实跑出来的样子

每一步都可见，每一个决策都可审计。没有黑盒 —— 你能看到正在发生什么、哪一项打了多少分、哪一处被自动修复了。

✔Spec 质量评估（按维度逐项打分）

✔DSL 抽取 + 校验摘要

✔逐文件 codegen，标注 layer

✔错误自动修复 + 循环计数

✔3-pass 评审 + 每个 pass 的结论

✔最终 harness 分数拆解（4 个维度）

ai-spec create "Add task management"

[1/10]  Loading project context...
        Constitution : ✔ found (§1–§9)
        Tech stack   : vue · vite · pinia

[2/10]  Generating spec with glm/glm-4.5...
        ✔ Spec generated  ✔ 8 tasks

[3.4/10] Spec quality assessment...
        Coverage     [██████████████████░░]  9/10
        Clarity      [████████████████░░░░]  8/10

[Gate]  Approval Gate — awaiting decision
        ✔ Approved — continuing...

[DSL]   Extracting structured contract...
        ✔ DSL valid — Models: 3  Endpoints: 7

[6/10]  Code generation (8 files)...
        ✔  service  · src/api/task.ts
        ✔  api      · src/stores/taskStore.ts
        ✔  view     · src/views/TaskList.vue
        ████████████████████  100%

[8/10]  ⚠ 3 errors — auto-fixing cycle 1...
        ✔ All errors resolved in 1 cycle

[9/10]  3-pass code review...
        Pass 1  ✔ Architecture aligned
        Pass 2  ✔ Implementation correct
        Score   [████████████████░░░░]  8.2/10

[10/10] Harness Self-Evaluation...
        Total   [██████████████████░░]  92/100
        ✔ 2 lessons → constitution §9
        RunId: 20260409-143022-a7f2

可观测性

质量是
可量化、可追踪的

ai-spec 把代码生成质量变成数据 —— 可比较、可追踪、可在时间里改进。

Harness 分数趋势

跨所有 run 跟踪质量。看你的流水线在变好还是在变差。

Run 1

70

Run 2

74

Run 3

82

Run 4

88

Run 5

92

每个 Run 的阶段日志

每个阶段都计时并记录到 .ai-spec-logs/<runId>.json。

context_load   312ms
spec_gen       18.4s
dsl_extract    6.1s
codegen        51.2s
error_feedback 14.3s
review         14.8s
total          94.3s

4 维评分

harness 分数是确定性的 —— 生成完成后不再调用 AI。

Compliance（合规）30%

DSL 覆盖率25%

编译通过20%

Review 分数25%

即时回滚

对结果不满意？一条命令把所有被改过的文件恢复到 run 之前的状态。

$ ai-spec restore 20260409-a7f2
↩ src/api/task.ts
↩ src/stores/taskStore.ts
↩ src/views/TaskList.vue
✔ 8 files restored

AI Provider

9 个 provider，
任你选

任意组合 provider。spec 生成用一个推理强的模型，codegen 换一个快的。

MiMo

mimo-v2-pro

Gemini

gemini-2.5-pro

Claude

claude-opus-4-6

OpenAI

o3 · gpt-4o

DeepSeek

deepseek-chat · r1

Qwen

qwen3-235b-a22b

GLM

glm-5 · glm-4.5-air

MiniMax

MiniMax-Text-2.7

Doubao

doubao-pro-256k

MiMo

mimo-v2-pro

Gemini

gemini-2.5-pro

Claude

claude-opus-4-6

OpenAI

o3 · gpt-4o

DeepSeek

deepseek-chat · r1

Qwen

qwen3-235b-a22b

GLM

glm-5 · glm-4.5-air

MiniMax

MiniMax-Text-2.7

Doubao

doubao-pro-256k

    $ ai-spec create "Add login" --provider gemini --codegen-provider deepseek
  

快速开始

60 秒就绪

全局安装、设置 API key、注册仓库，开始 ship。

# 全局安装

$ npm install -g ai-spec-dev

# 设置 API key（任一 provider）

$ export GEMINI_API_KEY=your_key_here

# 注册仓库 + 生成项目宪法

$ ai-spec init

# 开始开发

$ ai-spec create "给我的 app 加用户登录"

前往 npm → GitHub 仓库

一句话需求。 生产可用代码。

为什么现有的 AI 工具还不够

每一步都是编排好的

从一开始就理解你的项目

结构化 Spec 配任务拆解

带 diff 预览的交互式精炼

机器可读的双层契约

任务分层生成 + 文件缓存

错误反馈循环 — 最多 3 轮

架构 + 实现 + 影响范围

自动化质量分数

把 ai-spec 用稳所需要的一切

项目宪法系统

双层契约

双反馈循环

VCR 录制 & 重放

人审门

Fix-History 自学习

即时回滚

9 个 AI Provider

一条命令跑通全栈

一份契约，多种产物

OpenAPI 3.1.0 导出

即时 Mock Server

TypeScript 类型

Harness 仪表盘

流水线真实跑出来的样子

质量是可量化、可追踪的

Harness 分数趋势

每个 Run 的阶段日志

4 维评分

即时回滚

9 个 provider，任你选

60 秒就绪

一句话需求。
生产可用代码。

为什么现有的 AI 工具
还不够

把 ai-spec 用稳
所需要的一切

一条命令
跑通全栈

一份契约，
多种产物

流水线
真实跑出来的样子

质量是
可量化、可追踪的

9 个 provider，
任你选