Um sistema multi-agente que roda por minutos ou horas tem um ponto fraco estrutural: se o processo cai no meio da execução, todo o estado intermediário some. O agente que já gerou um rascunho, o que já consultou a base de dados, o passo que estava parado esperando uma aprovação humana: na volta, nada disso existe mais, e o fluxo recomeça do zero. Para um exemplo curto isso é irrelevante. Para um pipeline de agentes que faz a triagem de um chamado, redige uma resposta e espera um humano confirmar antes de enviar, recomeçar do zero é caro e, em...
Continue reading...eldermoraes
MCP Java SDK como anti-corruption layer: integração LLM sem desmontar a stack enterprise
Há um padrão recorrente em times Java enterprise nos últimos meses: a pressão pra integrar LLM vem de cima, mas a stack já tem mais de dez anos de investimento em segurança, observabilidade, governança e operação. Quarkus Security, Spring Security, OAuth/OIDC, OpenTelemetry, auditoria por aspecto, deploy em OpenShift, runbooks de SRE. Aí chega o “vamos adicionar IA” e a sugestão default é plugar o LLM direto nos serviços de negócio (exposing the kitchen), como se a década anterior de disciplina arquitetural tivesse virado opcional. Não tem que ser assim. A peça que coloca ordem nessa casa é o MCP Java...
Continue reading...Produto agêntico em escala: o que a demo não mostra
Assisti recentemente, no StartSe AI Festival 2026, a uma palestra que continuou na minha cabeça por dias. No palco estava Isabella Piratininga, Diretora de Tecnologia e Inovação do iFood, e o tema era a construção de produto agêntico em escala, contada a partir do caso do Ailo, o assistente conversacional do iFood. Quero ser transparente logo de início: este texto é a minha leitura do que ouvi ali, não uma cobertura nem uma transcrição. É o que eu, como desenvolvedor, anotei e resolvi destrinchar para outros desenvolvedores. Escolhi escrever sobre isso por um motivo simples: o iFood provavelmente roda uma...
Continue reading...Dia 2 no StartSe AI Festival 2026: notas para devs de software
Como comentei no post anterior, estou em São Paulo nesta semana para o StartSe AI Festival 2026, que aconteceu nos dias 13 e 14 de maio no Pro Magno Centro de Eventos. Para quem chegou agora: o evento reuniu cerca de 4 mil pessoas e trouxe uma combinação interessante de nomes globais como Replit, Amazon AGI, MIT, Glean e Volkswagen, junto com empresas brasileiras e gente que está colocando IA em produção no dia a dia. Vou seguir o mesmo formato o primeiro post: um parágrafo por talk, seguido dos pontos que eu achei mais relevantes em cada uma. Alguns...
Continue reading...Dia 1 do StartSe AI Festival 2026: minhas notas para engenheiros de software
Estou em São Paulo essa semana, para o StartSe AI Festival 2026 (13 e 14 de maio, no Pro Magno Centro de Eventos). Para contextualizar quem está lendo de fora do Brasil: esse é o maior evento de IA do país hoje. Cerca de 4.000 pessoas na sala, e uma curadoria que trouxe Anthropic, Google DeepMind, Microsoft, Genspark, ElevenLabs, McKinsey e IBM para o mesmo palco em que sobem operadores brasileiros como o iFood. Se você constrói software para viver e quer sentir para onde a indústria está indo, é essa a sala. Vou passar por cada palestra em um...
Continue reading...Tokenmaxxing: quando queimar tokens de IA vira métrica de performance
Tem um termo circulando que vale a pena ficar de olho: tokenmaxxing. Engenheiros competindo para queimar tokens de IA sob métricas de uso impostas pelo empregador. O que o conceito revela não é só um comportamento no mínimo estranho. É algo estrutural sobre como as empresas estão medindo a adoção de IA. Funciona assim. A empresa oferece um orçamento generoso de tokens como benefício de recrutamento. Depois, transforma o volume de consumo em indicador de produtividade. O dev aprende rápido: se a régua é token queimado, ele vai queimar o máximo de tokens que puder. O resultado entregue fica em...
Continue reading...Quarkus LangChain4j 1.9.x: o stack Java mais completo para agentes enterprise
Nos últimos dois meses, três peças importantes entraram no chão da fábrica enterprise. Em março, a Google liberou o MCP Toolbox for Databases SDK em Java. Nesta semana, a ServiceNow tornou GA o seu MCP (Model Context Protocol) Server, anunciado como Action Fabric no Knowledge 2026 em 5 de maio, com Now Assist Skills expostas como tools. E a Jama disponibilizou o Jama Connect MCP Server. Em paralelo, e quase em silêncio, a Quarkiverse foi shippando, na linha 1.9.x do Quarkus LangChain4j, três extensões que mudam o nível do que um arquiteto Java consegue entregar em cima desse novo encanamento:...
Continue reading...GraalVM Native Image ou Project Leyden: uma decisão arquitetural
Em 2022, quando alguém me perguntava “compila pra native ou roda na JVM?”, a resposta era curta: depende do quanto você precisa de cold start abaixo de 100ms. Quem não precisava, ficava na JVM. Quem precisava, ia pro GraalVM Native Image e pagava o preço de reflection metadata, dynamic class loading, e tooling ainda em amadurecimento. Quatro anos depois, a pergunta mudou. E quem ainda está decidindo native vs JVM com base em “qual é mais rápido no benchmark X” está fazendo a pergunta errada. O que mudou: Project Leyden saiu do papel Project Leyden, que em 2022 ainda era...
Continue reading...Desenvolvedor Java deveria prestar atenção no JetBrains Air
Tem muita novidade com IA que impressiona nos primeiros cinco minutos. A demo é bonita, a interface é lisa, a promessa é grande. Aí a vida real entra na sala. E vida real, para quem trabalha com Java, não é playground. Vida real é sistema legado. É regra de negócio espalhada. É serviço com nome ruim. É módulo que ninguém quer encostar na sexta-feira à tarde. É codebase grande, cheia de contexto, cheia de dependência e cheia de responsabilidade. Então, quando aparece uma ferramenta nova nesse mercado, a pergunta para mim não é se ela gera código bonito. A pergunta...
Continue reading...Context Engineering: o papel que vai além do Prompt Engineering
Prompt Engineering virou buzzword. Todo mundo aprendeu que se você pedir direitinho, o modelo entrega o que você quer. Mas tem um detalhe que ninguém te conta: prompt sozinho não escala. E aí entra o Context Engineering. Acontece que a analogia que o Andrej Karpathy popularizou é precisa: a LLM funciona como uma CPU, e o context window funciona como RAM. O que você carrega ali dentro define o resultado. Se a RAM tá cheia de informação irrelevante ou desorganizada, não importa se você é o melhor prompt engineer do mundo. O processador vai trabalhar com o que tem. Confesso...
Continue reading...