Brief diário · Custo de tokens · Fluxo de agentes

Economia de tokens de IA, escrita como briefing de campo.

Um guia claro e legível sobre o custo real da IA: preços de modelos, fluxos de coding agents, sinais de benchmark e formas práticas de gastar menos tokens.

Feito primeiro para pessoas, mas estruturado para agentes lerem, citarem e reutilizarem com segurança.

Comece com 15 ganchos JSON para agentes llms.txt

Vigilância de preçosEntrada, saída, cache, batch, contexto, retry.

Custo de agentesClaude Code, Codex, Cursor, Aider, OpenCode.

Economia de tokensPrompt caching, roteamento, compressão e disciplina de contexto.

Ganchos iniciais

De cima para baixo, cada cartão traz título, data, resumo e sinal de abertura para decidir rápido.

2026-07-03·Simon Willison

O julgamento da Fable

A economia em agentes pode vir de menos loops ruins, não só de tokens mais baratos.

Uma lição da equipe do Claude Code: melhor julgamento reduz retrabalho, intervenção humana e loops caros.

Claude Codejulgamento de agentesworkflow

Ler fonte →

2026-07-02·Simon Willison

Lançamento: llm-coding-agent 0.1a0

Um agente de código mínimo mostra onde o gasto de tokens acontece.

O agente baseado em LLM ajuda a mapear planejamento, leitura de arquivos, edição de código e verificação como etapas que consomem tokens.

coding agentLLMPython

Ler fonte →

2026-07-02·Simon Willison

Usando DSPy para avaliar prompts SQL do Datasette Agent

Otimização de prompts pode ser medida com harnesses, não por impressão.

O projeto usa DSPy para avaliar e refinar prompts de sistema de um agente SQL somente leitura em produção.

DSPyprompt de sistemaavaliação

Ler fonte →

2026-07-03·Latent Space

Andrew Qu, da Vercel, sobre agentes como novo software

Sites legíveis por agentes estão virando parte da superfície do produto.

A Vercel explica o framework eve e por que skills, sandboxes e sites legíveis por agentes importam.

agentesVercelsites para agentes

Ler fonte →

2026-07-01·Latent Space

Como a Cursor implanta IA dentro da empresa

Quando o workflow escala, vibe coding vira problema de orçamento da equipe.

Engenheiros implantados da Cursor ajudam empresas a montar fábricas de software baseadas em agentes.

Cursorfábrica de softwareIA empresarial

Ler fonte →

2026-06-30·Simon Willison

O que há de novo no Claude Sonnet 5

Novos modelos mudam defaults, custos de agentes e taxas de falha.

Depois de um upgrade de modelo, vale ler a documentação de desenvolvedor antes do marketing para decidir o default.

ClaudeSonnetatualização de modelo

Ler fonte →

2026-06-30·Hugging Face / IBM Research

ScarfBench: benchmark de agentes para migração Java empresarial

Benchmarks de agentes estão indo para tarefas reais de migração empresarial.

A IBM Research coloca agentes em migrações de frameworks Java para medir capacidade em tarefas mais próximas do mundo real.

benchmarkAI agentsmigração Java

Ler fonte →

2026-06-29·Simon Willison

Ornith-1.0: LLMs auto-scaffolding para agentic coding

Modelos de código open-weight podem mudar a equação de custo de API.

O modelo MIT da DeepReinforce vem em variantes dense e MoE e sinaliza nova competição para coding agents.

open weightsagentic codingmodelo de código

Ler fonte →

2026-06-26·Latent Space / AINews

OpenAI relata forte crescimento dos tokens de saída internos do Codex

Crescimento de output tokens é um custo oculto importante em workflows de agentes.

Na era dos agentes, o caro pode não ser o input, mas o output, as tentativas e os loops.

Codextokens de saídauso de agentes

Ler fonte →

2026-06-22·Interconnects

GLM-5.2 é um salto para agentes abertos

Modelos chineses e abertos entram na comparação global de custo/desempenho de agentes.

A fronteira de capacidade dos modelos abertos está mudando, e GLM-5.2 merece entrar no mapa de custos.

GLMagentes abertosmodelos chineses

Ler fonte →

2026-06-18·Hugging Face

É agentic o suficiente? Benchmarking em sua própria ferramenta

Seu stack pode importar mais do que a posição em rankings públicos.

A pergunta certa não é qual modelo é melhor, mas qual tem sucesso mais barato no seu stack de agente.

benchmark de agentesmodelos abertostooling

Ler fonte →

2025-05-08·Aider

Resultados de benchmark do Qwen3

Uma ponte durável entre modelos chineses e avaliação de coding agents.

O benchmark polyglot da Aider oferece evidência prática para discutir Qwen3 em coding agents.

QwenAiderbenchmark de código

Ler fonte →

2026-07-04·Claude Code Docs

Como o Claude Code usa prompt caching

Prompt caching muda diretamente velocidade e custo de tokens.

Claude Code gerencia cache automaticamente; troca de modelo, /compact, CLAUDE.md e cache hit rate afetam custo e latência.

Claude Codeprompt cachingeconomia de tokens

Ler fonte →

2026-07-01·Ian Wootten

Trocando Claude por OpenCode e OpenRouter

Um caso real de migração de ferramentas padrão para rotas e modelos abertos.

Um relato de uso de OpenCode, OpenRouter e modelos open-weight no lugar de Claude Code durante um mês.

OpenCodeOpenRoutercusto

Ler fonte →

2026-07-04·Contextify

Contextify: histórico pesquisável para Claude Code e Codex

Histórico de agentes e contexto reutilizável reduzem gasto repetido de tokens.

Se o agente esquece o contexto a cada sessão, você paga de novo; Contextify preserva histórico pesquisável.

Claude CodeCodexmemória de agente

Ler fonte →

Legível por pessoas e agentes

HTML estático primeiro, com endpoints legíveis por máquina para automação e busca.

/llms.txt
propósito do site e política de leitura
/feed.xml
RSS para briefs e ganchos
/data/hooks.pt.json
cartões estruturados de artigos
/sources/
política de fontes e citações