Fableの判断力
節約は安いトークンだけでなく、悪いループを減らすことから生まれます。
Claude Codeチームの示唆は、判断の質が手戻り、介入、高価なループを減らすということです。
AIの本当のコストを読みやすく整理するガイド。モデル価格、コーディングエージェントの運用、ベンチマークの兆候、トークンを節約する実践策を扱います。
まず人間が読みやすく、同時にエージェントが安全に読み、引用し、再利用できる構造にしています。
各カードはタイトル、日付、要約、冒頭のシグナルを示し、素早く判断できるようにします。
最小構成のcoding agentは、どこでトークンが使われるかを示します。
LLMベースのエージェントが、計画、ファイル読解、編集、検証という消費ポイントを見せます。
プロンプト改善は雰囲気ではなく評価ハーネスで測れます。
DSPyを使い、読み取り専用SQLエージェントの本番システムプロンプトを評価・改良します。
エージェントが読めるWebサイトは製品表面になりつつあります。
Vercelはeve、skills、sandboxes、agent-readable websitesの重要性を説明します。
エージェントベンチマークは実企業の移行タスクへ向かっています。
IBM ResearchはJavaフレームワーク移行でエージェントを評価します。
オープンウェイトのコードモデルはAPIコスト構造を変え得ます。
DeepReinforceのMITモデルはdense/MoEの複数サイズでagentic codingを狙います。
公開ランキングより自分のツールチェーンが重要な場合があります。
最良モデルではなく、自分のagent stackで最安に成功するモデルを問うべきです。
Prompt cachingは速度とトークンコストを直接変えます。
モデル切替、/compact、CLAUDE.md、cache hit rateがClaude Codeのコストと遅延に影響します。
デフォルトツールからオープンなルーター/モデルへ移る実例です。
Claude Codeの代わりにOpenCode、OpenRouter、オープンウェイトモデルを使った1か月の記録です。
履歴と再利用可能なコンテキストは重複トークンを減らします。
エージェントが毎回文脈を忘れるなら、同じトークンを払い続けています。Contextifyは履歴を検索可能にします。
まず静的HTML。自動化と検索のために機械可読エンドポイントも用意しています。