Referências sobre testes (A/B, split ou multivariável) em sites ou produtos digitais

Realizar constantemente testes para validar hipóteses é uma das rotinas de Gerente de Produtos (Product Manager ou PM). Diferente do que algumas pessoas acham, não é só fazer uma alteração qualquer (ex: mudar cor do botão de azul para verde), definir o split e esperar até o resultado. Há várias nuances e boas práticas a serem seguidas para não invalidar o teste e chegar a um resultado estatisticamente significativo. Segue abaixo algumas referência que estou utilizando na minha jornada de aprendizado sobre o assunto.

Ferramentas

Calculadora para teste A/B de significância estatística

Para ajudar a entender se os dados obtidos tem significância estatística para definir o resultado.

SurveyMonkey;
VWO;

Calculadora de tamanho de amostra

Para ajudar a entender qual é o tamanho da amostra necessária para validar o teste.

SurveyMonkey;
VWO;

Boas práticas

Artigos:

The top 3 mistakes that make your A/B test results invalid, por James Flory;
In Defense Of A/B Testing, por Paras Chopra;
Avoid the Pitfalls of A/B Testing, por Iavor Bojinov, Guillaume Saint-Jacques, e Martin Tingley;
10 A/B testing mistakes that ruin your experiments (and how to avoid them), por Hotjar;

Abaixo fiz um resumo dos itens que mais me chamaram atenção.

Tenha poucas variações

A cada nova variação adicionada:

Teste dura mais tempo;
Pode impactar integridade do teste, pois quanto mais tempo ele rodar, maior a chance de usuários removem o cookie do teste (cerca de 10% de remoção a cada 2 semanas);
Significância diminui (Multiple Comparison Problem).

Mantenha o split do teste até o final

Mudar o split durante o teste pode causar um problema chamado Paradoxo de Simpson.
Solução: Altere somente a % dos visitantes impactados pelo teste. Ex: um teste que era 10% p/ variação e 90% para controle vira um teste com split 50/50 para 20% do tráfego (10% controle e 10% variação). Para aumentar para 40% a variação, o tráfico deve ser alterado para 80%.

Utilize uma calculadora de tamanho de amostra antes de parar o teste

A significância estatística não deve ser o único fator para definir o resultado do teste. Você deve esperar o teste ter uma amostra de dados suficiente também. Isto também vale para quando você está analisando um segmento do teste, como dispositivo utilizado ou país de origem.

Varie entre alterações pequenas e radicais

Uma estratégia que englobe tanto pequenas alterações (ex: cor do botão, título da seção principal) e alterações radicais (ex: novo layout) é a ideal para ter velocidade e também obter resultados mais impactantes.

Se você tiver alguma referência para testes, só deixar um comentário que ficarei feliz em adicionar nesta lista.

Foto da capa por Carlos Muza na Unsplash.