不追求“堆参数”,更强调可落地、可审查、可复用。
| 维度 | 说明 |
|---|---|
| 模型定位 | 以编程与工程任务为主,强调可执行、可审查、可迭代的工作方式。 |
| 上下文与记忆 | 不同入口与计划支持的上下文窗口可能不同,以官方规格为准。 |
| 工具与执行 | 典型包括文件读写、命令执行、测试运行、Diff 交付与审批模式。 |
| 安全边界 | 建议最小权限、限制可写路径、关键变更人工审批并记录审计。 |
模型能力决定上限(推理、代码理解、规划),产品能力决定落地(工具、权限、审查、可观测)。一个 SEO 友好的内容站点会将两者拆开阐述,并提供具体入口路径。
不同模型与入口的组合决定了你的上限与稳定性。这里给出一个可复用的选择矩阵:先按任务选择,再按风险与验证边界调整。具体模型与规格以官方为准。
| 任务类型 | 推荐入口 | 验证边界 |
|---|---|---|
| 读懂陌生仓库 | IDE(解释/导航)+ CLI(结构化输出) | 输出架构摘要 + 风险清单 + 关键入口定位 |
| 修复错误 | CLI(跑测试/定位日志) | 复现步骤 + 测试通过 + 回归清单 |
| 重构/技术债 | CLI(分批交付)+ IDE(局部编辑) | 前后对比 + 覆盖率/性能指标不退化 |
| 内容站/多页面 | CLI(批量生成与校验) | 每页独立 SEO meta + 站点地图 + 内链网络 |
模型能力决定上限,但产品能力决定落地:工具调用、权限、审批、审计与可观测性决定了你能否稳定交付。
没有验收就没有“完成”。把验收写成清单或脚本,才能稳定复用并减少返工。
大改会导致难以定位回归问题。推荐“最小改动 + 分段交付 + 每段都有验证”。
对敏感仓库建议最小权限、限制可写路径、关键改动人工审批,并保留审计记录。