Fable 的判断力
Agent 省钱不只靠更便宜的 token,也靠减少错误循环。
Claude Code 团队分享的一个重点是:真正的节省来自更好的判断、更少返工和更少人工干预。
明快、可读、可追踪:帮个人和小团队看懂模型价格、coding-agent 工作流、评测信号和省 token 方法。
先给人读,也给 agent 安全读取、引用和复用。
从上到下,每张卡片给出标题、日期、摘要和开场信号,帮助读者快速判断。
一个最小 coding agent 可以拆出 token 花在哪里。
这个 LLM 驱动的 coding agent 展示了任务规划、文件读取、代码修改和验证各自消耗 token 的位置。
提示词优化应该用评测框架验证,而不是凭感觉。
项目用 DSPy 评估和改进 Datasette Agent 的只读 SQL 问答系统提示词,把 prompt 质量放进可测试流程。
面向 agent 可读的网站正在成为产品表面的一部分。
Vercel 解释其 agent 框架 eve,以及 skills、沙箱和 agent-readable websites 为什么重要。
当工作流规模化,vibe coding 会变成团队预算问题。
Cursor 的 Forward Deployed Engineers 帮企业搭建 agent 工作流,本质上是在搭建新的软件工厂。
Agent benchmark 正在走向真实企业迁移任务。
IBM Research 的 ScarfBench 把 agent 放到企业 Java 框架迁移场景里评测。
开放权重 coding 模型可能改变 API 成本结构。
DeepReinforce 发布的 MIT 许可开放权重模型,提供多种 dense 和 MoE 规模,用于 agentic coding。
这是连接中国模型和 coding-agent 评测的耐久桥梁。
Aider polyglot coding benchmark 给 Qwen3 模型提供了可讨论的 coding-agent 证据。
Prompt caching 直接影响速度和 token 成本。
Claude Code 自动管理提示缓存;模型切换、/compact、CLAUDE.md 修改和 cache hit rate 都会影响体验。
这是从默认工具切到开放 router/模型工作流的真实案例。
一个用户在六月放弃 Claude Code,改用 OpenCode、OpenRouter 和开放权重模型,提供了实际迁移线索。
Agent 历史和可复用上下文能减少重复 token 消耗。
如果 agent 每次都忘记上下文,你就在重复烧 token;Contextify 把历史保存为可搜索数据库。
优先静态 HTML,同时提供机器可读端点,便于自动化和搜索。