Protocolo de Prova dos Guias de IA

Protocolo de Prova dos Guias de IA

Objetivo

Medir se uma LLM consegue, partindo apenas dos guias oficiais, produzir:

Regras da rodada

Material permitido para a LLM

Material minimo:

Material adicional opcional:

Nao liberar como baseline:

Rodadas canonicas

Rodada 1

Rodada 2

Rodada 3

Rodada 4

Rodada 5

Rodada 6

Rodada 7

Criterio de aprovacao

Uma rodada so e aprovada se o que ela prometeu provar foi validado sem intervencao humana no codigo gerado.

Para backend:

Para frontend:

Para a rodada 7:

O smoke browser-level completo pode ser registrado em trilha propria quando o harness ainda nao for canonico e estavel.

Politica de iteracao

Corrija nesta ordem:

  1. guia
  2. checklist
  3. prompt da rodada
  4. codigo canonico, se a prova revelar um problema real da plataforma

Definicao de 100%

100% significa:

Isso nao significa sucesso para qualquer LLM ou qualquer prompt.