每日简报 · Token 成本 · Agent 工作流

像战地简报一样读懂 AI token 经济学。

明快、可读、可追踪：帮个人和小团队看懂模型价格、coding-agent 工作流、评测信号和省 token 方法。

先给人读，也给 agent 安全读取、引用和复用。

先看 15 个钩子 Agent JSON llms.txt

价格观察输入、输出、缓存、batch、上下文、重试。

Agent 成本Claude Code、Codex、Cursor、Aider、OpenCode。

Token 节省提示缓存、模型路由、压缩、上下文纪律。

起步选题

从上到下，每张卡片给出标题、日期、摘要和开场信号，帮助读者快速判断。

2026-07-03·Simon Willison

Fable 的判断力

Agent 省钱不只靠更便宜的 token，也靠减少错误循环。

Claude Code 团队分享的一个重点是：真正的节省来自更好的判断、更少返工和更少人工干预。

Claude Codeagent 判断工作流

阅读来源 →

2026-07-02·Simon Willison

发布：llm-coding-agent 0.1a0

一个最小 coding agent 可以拆出 token 花在哪里。

这个 LLM 驱动的 coding agent 展示了任务规划、文件读取、代码修改和验证各自消耗 token 的位置。

coding agentLLMPython

阅读来源 →

2026-07-02·Simon Willison

用 DSPy 评估并改进 Datasette Agent 的 SQL 系统提示词

提示词优化应该用评测框架验证，而不是凭感觉。

项目用 DSPy 评估和改进 Datasette Agent 的只读 SQL 问答系统提示词，把 prompt 质量放进可测试流程。

DSPy系统提示词评测

阅读来源 →

2026-07-03·Latent Space

Vercel 的 Andrew Qu：为什么 agents 是一种新软件

面向 agent 可读的网站正在成为产品表面的一部分。

Vercel 解释其 agent 框架 eve，以及 skills、沙箱和 agent-readable websites 为什么重要。

agentsVercelagent-readable 网站

阅读来源 →

2026-07-01·Latent Space

Cursor 如何在企业内部部署 AI

当工作流规模化，vibe coding 会变成团队预算问题。

Cursor 的 Forward Deployed Engineers 帮企业搭建 agent 工作流，本质上是在搭建新的软件工厂。

Cursor软件工厂企业 AI

阅读来源 →

2026-06-30·Simon Willison

Claude Sonnet 5 有哪些新变化

新模型发布会影响默认选择、agent 成本和失败率。

模型升级后应该先看开发者文档，而不是营销稿，判断是否值得切换默认模型。

ClaudeSonnet模型更新

阅读来源 →

2026-06-30·Hugging Face / IBM Research

ScarfBench：企业 Java 迁移的 AI Agent 基准

Agent benchmark 正在走向真实企业迁移任务。

IBM Research 的 ScarfBench 把 agent 放到企业 Java 框架迁移场景里评测。

基准AI agentsJava 迁移

阅读来源 →

2026-06-29·Simon Willison

Ornith-1.0：用于 Agentic Coding 的自搭脚手架 LLM

开放权重 coding 模型可能改变 API 成本结构。

DeepReinforce 发布的 MIT 许可开放权重模型，提供多种 dense 和 MoE 规模，用于 agentic coding。

开放权重agentic codingcoding 模型

阅读来源 →

2026-06-26·Latent Space / AINews

OpenAI 内部 Codex 输出 token 中位数大幅增长

输出 token 增长是 agent 工作流里的隐性大成本。

Agent 时代，真正昂贵的可能不是输入，而是输出、重试和循环。

Codex输出 tokenagent 使用

阅读来源 →

2026-06-22·Interconnects

GLM-5.2 是开放 agent 的跃迁点

中国和开放模型是全球 agent 成本/性能比较的一部分。

开放模型能力阈值正在变化，GLM-5.2 是值得纳入 agent 成本地图的信号。

GLM开放 agents中国模型

阅读来源 →

2026-06-18·Hugging Face

够不够 agentic？在自己的工具链上评测开放模型

你的工具链可能比公开排行榜排名更重要。

不要只问哪个模型最好，要问哪个模型能在你的 agent stack 上以最低成本成功。

agent 基准开放模型工具链

阅读来源 →

2025-05-08·Aider

Qwen3 基准结果

这是连接中国模型和 coding-agent 评测的耐久桥梁。

Aider polyglot coding benchmark 给 Qwen3 模型提供了可讨论的 coding-agent 证据。

QwenAidercoding 基准

阅读来源 →

2026-07-04·Claude Code Docs

Claude Code 如何使用 prompt caching

Prompt caching 直接影响速度和 token 成本。

Claude Code 自动管理提示缓存；模型切换、/compact、CLAUDE.md 修改和 cache hit rate 都会影响体验。

Claude Codeprompt cachingtoken 节省

阅读来源 →

2026-07-01·Ian Wootten

从 Claude 转向 OpenCode 和 OpenRouter

这是从默认工具切到开放 router/模型工作流的真实案例。

一个用户在六月放弃 Claude Code，改用 OpenCode、OpenRouter 和开放权重模型，提供了实际迁移线索。

OpenCodeOpenRouter成本

阅读来源 →

2026-07-04·Contextify

Contextify：Claude Code 和 Codex 的可搜索历史

Agent 历史和可复用上下文能减少重复 token 消耗。

如果 agent 每次都忘记上下文，你就在重复烧 token；Contextify 把历史保存为可搜索数据库。

Claude CodeCodexagent memory

阅读来源 →

人和 Agent 都能读

优先静态 HTML，同时提供机器可读端点，便于自动化和搜索。

/llms.txt
网站目的和阅读策略
/feed.xml
简报与钩子的 RSS
/data/hooks.zh.json
结构化文章卡片
/sources/
来源和引用策略