A maior parte das empresas diz que decide com base em evidências. O problema é que, na prática, “evidência” vira sinônimo de qualquer coisa com gráfico, linguagem técnica e uma referência de autoridade. Quando isso acontece, a decisão parece segura, mas passa a depender de sinais que não foram testados contra ruído.
No artigo anterior, Avalie Estudos Acadêmicos: separe sinal de ruído na decisão, colocamos luz nesse ponto: separar sinal de ruído em estudos acadêmicos é um tema de negócio, porque evidência frágil vira premissa estratégica e, cedo ou tarde, vira custo.
Agora vem a pergunta desconfortável, que vale mais do que criticar o sistema externo.
Se a ciência está sob pressão, como uma empresa que entrega ciência aplicada evita reproduzir o mesmo problema por dentro?
Cultura científica não é valor escrito na parede. É o conjunto de mecanismos que força uma organização a fazer três coisas, mesmo quando o prazo aperta: testar hipóteses antes de defender narrativas, auditar caminhos antes de celebrar resultados e separar descoberta de confirmação.
Esse texto organiza como transformamos isso em operação na MATH, com protocolos simples de executar e difíceis de distorcer.
Quando IA deixa de ser piloto e vira operação, o que você chama de “decisão” ganha outro peso: afeta fluxo crítico, custo recorrente, conformidade e reputação. Esse é o ponto em que método vira governança, e governança vira previsibilidade.
O risco não é só errar um insight. É criar um sistema que recompensa certeza rápida, pune dúvida honesta e transforma métrica em objetivo. A partir daí, a organização começa a otimizar a aparência de rigor, não o rigor.
A MATH nasceu em um ambiente em que evidência precisa virar decisão e decisão precisa virar eficiência. Isso cria um tipo específico de cultura: menos “opinião vencedora” e mais “hipótese que sobrevive”.
Abaixo, três princípios que já existiam na prática e que tratamos como axiomas de cultura.
Karl Popper ficou conhecido por defender a falsificabilidade como critério central para separar ciência de não-ciência: uma hipótese forte é a que pode ser derrubada por observação, e sobrevive a tentativas honestas de refutação.
No trabalho de dados, isso se traduz em um comportamento bem concreto: se apegar à autoria é a forma mais rápida de forçar o dado a concordar com você. Quando a hipótese vira identidade, a análise vira defesa.
Por isso, a prática que buscamos reforçar é simples de dizer e exigente de sustentar: em discussões de projeto, a pergunta não é “quem está certo?”, é “o que nos provaria errados?”.
A crise de replicabilidade mostrou, com força, que resultado “bonito” pode não se sustentar quando alguém tenta reproduzir o método. No Reproducibility Project em psicologia, por exemplo, a taxa de resultados estatisticamente significativos caiu de 97% nos estudos originais para 36% nas replicações reportadas.
No mundo corporativo, a versão desse problema tem outro nome: decisão sem trilha.
Resultado que não pode ser rastreado, verificado e explicado como sequência de escolhas vira opinião com dashboard. E opinião com dashboard costuma ganhar orçamento.
Aqui, “confiável” não é atributo. É propriedade auditável: dados de origem claros, versionamento, registro de transformações, premissas explicitadas, e uma cadeia lógica que outra pessoa consegue inspecionar sem precisar “acreditar” no autor.
Boa ciência não romantiza o erro, mas também não o esconde. Ela registra, compara, aprende e corrige rota.
Em projetos de dados e IA, isso evita um desperdício recorrente: insistir em uma hipótese porque “já investimos tempo demais”. Resultado negativo bem documentado economiza retrabalho, reduz risco e preserva credibilidade.
Nenhuma cultura é imune. E a ameaça não costuma vir de má intenção. Vem de incentivos.
A Lei de Campbell descreve um fenômeno conhecido: quando um indicador passa a ser usado para decisão, ele sofre pressão de corrupção e pode distorcer o processo que deveria monitorar.
No mundo corporativo, isso vira “P-hacking de KPI”: ajustar recorte, janela, segmentação e definição até o número contar a história que o time precisa contar. Em ciência, p-hacking é um termo usado para descrever análises e recortes feitos até aparecer significância.
O resultado é conhecido: a organização melhora no número e piora na realidade.
Existe um risco silencioso em ambientes orientados a eficiência: tratar melhoria incremental como única forma legítima de avanço, porque ela é previsível, vendável e fácil de defender. O problema é que algumas decisões estratégicas exigem espaço para hipóteses incertas, e esse espaço morre quando tudo precisa virar “resultado” no trimestre.
Sem critérios definidos antes, qualquer entrega pode virar sucesso “porque aprendemos”. Aprender faz parte, mas ciência exige um passo anterior: declarar o que seria evidência de acerto e, principalmente, o que seria evidência de erro.
Sem isso, a organização fica especialista em recontar a história.
A ambição aqui não é burocratizar. É reduzir arbitrariedade.
Três práticas, importadas do ecossistema de ciência aberta e de ambientes de risco, ajudam a transformar rigor em rotina.
Pré-registro é a prática de especificar o plano de pesquisa e análise antes de rodar o estudo, para separar o que foi confirmatório do que foi exploratório.
Em projeto de negócio, isso vira uma página objetiva antes de começar:
Qual hipótese estamos testando?
Qual decisão ela vai suportar?
Qual métrica define sucesso e qual define falha?
O que provaria que estamos errados?
O que não vamos mudar no meio do caminho sem registrar por quê?
Esse protocolo não elimina exploração. Ele só impede que exploração vire “prova” depois.
Red teaming é a prática de desafiar planos e premissas com uma postura deliberadamente adversária, para expor falhas antes que elas virem incidente.
Em dados e IA, isso pode ser institucionalizado de forma leve:
Um “crítico de rigor” entra em decisões relevantes com uma função clara: buscar vieses, supostos atalhos, lacunas de evidência, riscos de generalização e pontos onde a métrica pode estar induzindo o time a otimizar aparência.
Quando isso existe, a discussão muda de tom. A pergunta deixa de ser “qual é a melhor narrativa?” e vira “qual narrativa resiste ao teste?”.
Se a cultura só celebra acertos, ela incentiva ocultação de falhas e empurra problemas para a fase em que já ficou caro.
Resultado negativo validado é ativo. Ele evita que a empresa repita o erro com outro nome, outro time e outro orçamento. E, quando documentado, acelera onboarding e reduz dependência de “memória oral” da organização.
Nos últimos meses, a MATH tem insistido em uma tese: IA em produção exige método, governança e instrumentação. A fase de “testar por testar” já não sustenta escala.
O mesmo vale para custo e previsibilidade. Em IA generativa, tokens viram variável operacional, e esse custo nasce no desenho, não apenas na fatura.
Cultura é o que impede que a organização trate governança como discurso e descubra o risco tarde demais.
Se você quiser aprofundar esse eixo de operação, para ouvir como líderes lidam com dados, governança e decisão na prática o podcast DoTheMATH:
É preciso trocar conforto por rastreabilidade, e opinião por método. Não porque isso “soa certo”, mas porque é isso que sustenta eficiência quando o sistema fica complexo, os modelos mudam e a pressão por resposta acelera.
No fim, ciência aplicada não é discurso. É o jeito como você decide quando ninguém está olhando.
MATH. Build the Beyond.