A maior parte das empresas diz que decide com base em evidências. O problema é que, na prática, “evidência” vira sinônimo de qualquer coisa com gráfico, linguagem técnica e uma referência de autoridade. Quando isso acontece, a decisão parece segura, mas passa a depender de sinais que não foram testados contra ruído.
No artigo anterior, Avalie Estudos Acadêmicos: separe sinal de ruído na decisão, colocamos luz nesse ponto: separar sinal de ruído em estudos acadêmicos é um tema de negócio, porque evidência frágil vira premissa estratégica e, cedo ou tarde, vira custo.
Agora vem a pergunta desconfortável, que vale mais do que criticar o sistema externo.
Se a ciência está sob pressão, como uma empresa que entrega ciência aplicada evita reproduzir o mesmo problema por dentro?
Resposta rápida
Cultura científica não é valor escrito na parede. É o conjunto de mecanismos que força uma organização a fazer três coisas, mesmo quando o prazo aperta: testar hipóteses antes de defender narrativas, auditar caminhos antes de celebrar resultados e separar descoberta de confirmação.
Esse texto organiza como transformamos isso em operação na MATH, com protocolos simples de executar e difíceis de distorcer.
Por que isso vira risco quando dados e IA entram no centro
Quando IA deixa de ser piloto e vira operação, o que você chama de “decisão” ganha outro peso: afeta fluxo crítico, custo recorrente, conformidade e reputação. Esse é o ponto em que método vira governança, e governança vira previsibilidade.
O risco não é só errar um insight. É criar um sistema que recompensa certeza rápida, pune dúvida honesta e transforma métrica em objetivo. A partir daí, a organização começa a otimizar a aparência de rigor, não o rigor.
Onde nosso DNA já opera com método
A MATH nasceu em um ambiente em que evidência precisa virar decisão e decisão precisa virar eficiência. Isso cria um tipo específico de cultura: menos “opinião vencedora” e mais “hipótese que sobrevive”.
Abaixo, três princípios que já existiam na prática e que tratamos como axiomas de cultura.
Refutação como disciplina
Karl Popper ficou conhecido por defender a falsificabilidade como critério central para separar ciência de não-ciência: uma hipótese forte é a que pode ser derrubada por observação, e sobrevive a tentativas honestas de refutação.
No trabalho de dados, isso se traduz em um comportamento bem concreto: se apegar à autoria é a forma mais rápida de forçar o dado a concordar com você. Quando a hipótese vira identidade, a análise vira defesa.
Por isso, a prática que buscamos reforçar é simples de dizer e exigente de sustentar: em discussões de projeto, a pergunta não é “quem está certo?”, é “o que nos provaria errados?”.
Confiança auditável
A crise de replicabilidade mostrou, com força, que resultado “bonito” pode não se sustentar quando alguém tenta reproduzir o método. No Reproducibility Project em psicologia, por exemplo, a taxa de resultados estatisticamente significativos caiu de 97% nos estudos originais para 36% nas replicações reportadas.
No mundo corporativo, a versão desse problema tem outro nome: decisão sem trilha.
Resultado que não pode ser rastreado, verificado e explicado como sequência de escolhas vira opinião com dashboard. E opinião com dashboard costuma ganhar orçamento.
Aqui, “confiável” não é atributo. É propriedade auditável: dados de origem claros, versionamento, registro de transformações, premissas explicitadas, e uma cadeia lógica que outra pessoa consegue inspecionar sem precisar “acreditar” no autor.
Erro como dado
Boa ciência não romantiza o erro, mas também não o esconde. Ela registra, compara, aprende e corrige rota.
Em projetos de dados e IA, isso evita um desperdício recorrente: insistir em uma hipótese porque “já investimos tempo demais”. Resultado negativo bem documentado economiza retrabalho, reduz risco e preserva credibilidade.
Pontos cegos que aparecem quando a fábrica pressiona a ciência
Nenhuma cultura é imune. E a ameaça não costuma vir de má intenção. Vem de incentivos.
Tirania das métricas
A Lei de Campbell descreve um fenômeno conhecido: quando um indicador passa a ser usado para decisão, ele sofre pressão de corrupção e pode distorcer o processo que deveria monitorar.
No mundo corporativo, isso vira “P-hacking de KPI”: ajustar recorte, janela, segmentação e definição até o número contar a história que o time precisa contar. Em ciência, p-hacking é um termo usado para descrever análises e recortes feitos até aparecer significância.
O resultado é conhecido: a organização melhora no número e piora na realidade.
Sedução do incremental
Existe um risco silencioso em ambientes orientados a eficiência: tratar melhoria incremental como única forma legítima de avanço, porque ela é previsível, vendável e fácil de defender. O problema é que algumas decisões estratégicas exigem espaço para hipóteses incertas, e esse espaço morre quando tudo precisa virar “resultado” no trimestre.
Narrativa da vitória pós-fato
Sem critérios definidos antes, qualquer entrega pode virar sucesso “porque aprendemos”. Aprender faz parte, mas ciência exige um passo anterior: declarar o que seria evidência de acerto e, principalmente, o que seria evidência de erro.
Sem isso, a organização fica especialista em recontar a história.
Protocolos que blindam cultura com rigor
A ambição aqui não é burocratizar. É reduzir arbitrariedade.
Três práticas, importadas do ecossistema de ciência aberta e de ambientes de risco, ajudam a transformar rigor em rotina.
Pré-registro de hipótese em projetos críticos
Pré-registro é a prática de especificar o plano de pesquisa e análise antes de rodar o estudo, para separar o que foi confirmatório do que foi exploratório.
Em projeto de negócio, isso vira uma página objetiva antes de começar:
-
Qual hipótese estamos testando?
-
Qual decisão ela vai suportar?
-
Qual métrica define sucesso e qual define falha?
-
O que provaria que estamos errados?
-
O que não vamos mudar no meio do caminho sem registrar por quê?
Esse protocolo não elimina exploração. Ele só impede que exploração vire “prova” depois.
Red teaming como revisão por pares aplicada
Red teaming é a prática de desafiar planos e premissas com uma postura deliberadamente adversária, para expor falhas antes que elas virem incidente.
Em dados e IA, isso pode ser institucionalizado de forma leve:
Um “crítico de rigor” entra em decisões relevantes com uma função clara: buscar vieses, supostos atalhos, lacunas de evidência, riscos de generalização e pontos onde a métrica pode estar induzindo o time a otimizar aparência.
Quando isso existe, a discussão muda de tom. A pergunta deixa de ser “qual é a melhor narrativa?” e vira “qual narrativa resiste ao teste?”.
Valorização explícita de resultado negativo
Se a cultura só celebra acertos, ela incentiva ocultação de falhas e empurra problemas para a fase em que já ficou caro.
Resultado negativo validado é ativo. Ele evita que a empresa repita o erro com outro nome, outro time e outro orçamento. E, quando documentado, acelera onboarding e reduz dependência de “memória oral” da organização.
Como isso conecta com IA operacional
Nos últimos meses, a MATH tem insistido em uma tese: IA em produção exige método, governança e instrumentação. A fase de “testar por testar” já não sustenta escala.
O mesmo vale para custo e previsibilidade. Em IA generativa, tokens viram variável operacional, e esse custo nasce no desenho, não apenas na fatura.
Cultura é o que impede que a organização trate governança como discurso e descubra o risco tarde demais.
Se você quiser aprofundar esse eixo de operação, para ouvir como líderes lidam com dados, governança e decisão na prática o podcast DoTheMATH:
Cultura como laboratório significa uma escolha
É preciso trocar conforto por rastreabilidade, e opinião por método. Não porque isso “soa certo”, mas porque é isso que sustenta eficiência quando o sistema fica complexo, os modelos mudam e a pressão por resposta acelera.
No fim, ciência aplicada não é discurso. É o jeito como você decide quando ninguém está olhando.
MATH. Build the Beyond.
O que é cultura científica em uma empresa?
É um conjunto de práticas que força clareza de hipótese, rastreabilidade de método e revisão crítica antes de decisões virarem narrativa, orçamento e operação.
Como evitar que métricas virem teatro?
Definindo o que a métrica representa, quais comportamentos ela incentiva e criando contramétricas e auditorias para reduzir distorção, como descreve a Lei de Campbell.
O que é pré-registro em projetos de dados?
É registrar hipótese, métricas e critérios de decisão antes de analisar, para separar confirmação de exploração e reduzir viés retrospectivo.
Como red teaming ajuda em IA?
Ele funciona como revisão por pares aplicada: desafia suposições e expõe falhas de evidência e risco antes de a IA entrar em fluxo crítico.