Medir se uma LLM consegue, partindo apenas dos guias oficiais, produzir:
TEMPLATE-RELATORIO-DE-RODADA.mdMaterial minimo:
docs/guides/GUIA-01-AI-BACKEND-APLICACAO-NOVA.mddocs/guides/GUIA-02-AI-BACKEND-CRUD-METADATA.mddocs/guides/GUIA-03-AI-FRONTEND-CRUD-ANGULAR.mddocs/guides/CHECKLIST-VALIDACAO-IA.mddocs/guides/ai-proof/PROMPTS-DE-EXECUCAO.mdMaterial adicional opcional:
docs/guides/OPTIONS-ENDPOINT.mddocs/guides/FILTROS-E-PAGINACAO.mddocs/guides/CRUD-COM-APIRESOURCE.mdNao liberar como baseline:
Uma rodada so e aprovada se o que ela prometeu provar foi validado sem intervencao humana no codigo gerado.
Para backend:
mvn clean packageGET /v3/api-docsGET /{resource}/schemasPOST /{resource}POST /{resource}/filterETag e X-Schema-Hash nos schemas
filtradosPara frontend:
praxis-crud como shell principal quando o caso for CRUD
completoresource.path coerente com
table.resourcePathcrudContext.resourcePath e
crudContext.idField coerentesPara a rodada 7:
npm install concluido com o baseline documentadong build do app novo aprovadong serve respondendo 200 na rota
principal/api e
/schemasPOST /{resource}/filter respondendo 200 no
mesmo origin do hostO smoke browser-level completo pode ser registrado em trilha propria quando o harness ainda nao for canonico e estavel.
Corrija nesta ordem:
100% significa:
Isso nao significa sucesso para qualquer LLM ou qualquer prompt.