Além do A/B testing tradicional: alternativas para o longo prazo

Costumeiramente, testes A/B são tratados como uma forma de identificar causalidade entre uma decisão e o resultado obtido. Porque, apesar de correlação não implicar causalidade, sabemos há décadas como identificar esse fenômeno. Pela grandeza que se coloca a afirmação de que evento X ocasiona Y, e pelas implicações poderosas desse conhecimento, desenvolvemos diversas técnicas nessa área da estatística, que ajudam desde lidar com amostras pequenas até formas de tratar dados faltantes.

Boa parte desse desenvolvimento científico se deu, e ainda se dá, muito atrelado a pesquisas médicas e farmacêuticas, em que as mais diversas restrições aparecem ao longo dos experimentos: pacientes podem desistir, podem ter eventos não relacionados que interrompem a observação, podem ser incluídos no estudo em momentos diferentes da doença. A literatura médica desenvolveu, ao longo de décadas, ferramentas robustas para lidar com cada uma dessas situações.

Mais recentemente, essas técnicas vêm sendo aplicadas na internet para validar novas features. Por ser um uso mais incipiente, muitas vezes utilizam-se apenas as capacidades mais básicas dessas ferramentas, e, por consequência, acabamos limitando os experimentos e até mesmo os resultados que conseguimos obter.

O que se faz hoje na maioria das empresas tech

A prática mais comum em testes A/B de grandes empresas de tecnologia é usar métricas de curto prazo para inferir comportamentos de longo prazo. Consumo, taxa de cliques, sessões diárias, conversão imediata. Apesar disso poder direcionar decisões e ser útil em vários contextos, essas métricas não foram construídas para compreender churn ou comportamentos de médio e longo prazo. Elas são proxies frágeis para o que realmente importa.

A razão para essa escolha é prática. Como discutido no trabalho do LinkedIn, manter um experimento ativo por meses tem custos altos: coloca em risco a experiência do usuário se a feature for ruim, reduz drasticamente a velocidade de inovação, aumenta a chance de interações inesperadas com outros experimentos, e gera carga computacional e de gestão de produto. Não dá para simplesmente "rodar o experimento por mais tempo até observar o resultado de longo prazo".

O Spotify enfrenta exatamente esse dilema. A métrica mais alinhada com a saúde do negócio de uma plataforma de assinatura é retenção: o usuário continua voltando? Mas observar retenção em uma janela longa o suficiente para ser informativa significa esperar semanas, e essa espera é incompatível com a velocidade de iteração que o produto exige.

O LinkedIn enfrenta o mesmo problema em um contexto diferente. A métrica norte da plataforma de empregos são as contratações confirmadas, ou seja, pessoas que efetivamente conseguiram um emprego com ajuda da plataforma. Mas uma contratação confirmada só é observada quando o novo funcionário atualiza o perfil no LinkedIn, o que tipicamente leva vários meses.

Em ambos os casos, a indústria recorreu por muito tempo à mesma solução genérica: usa-se uma métrica de topo de funil (visualizações, candidaturas, cliques) como aproximação. E reza-se para que ela esteja direcionalmente alinhada com a métrica norte.

Análise de sobrevivência: um desenvolvimento de décadas na medicina

Uma técnica amplamente conhecida no âmbito de pesquisas farmacêuticas e médicas é a chamada análise de sobrevivência. A ideia central é lidar com dados em que o evento de interesse pode ainda não ter ocorrido no momento da análise, mas a observação precisa continuar válida. É o que se chama de censura à direita.

Os exemplos clássicos vêm da medicina: estuda-se uma droga para problemas cardíacos, e um dos pacientes em teste morre atropelado. O dado dele não pode ser simplesmente descartado (introduziria viés) nem tratado como se ele tivesse "falhado" no tratamento. A análise de sobrevivência fornece o arcabouço matemático para tratar essa observação parcial de forma estatisticamente válida.

O paralelo com produtos digitais é direto. Em uma plataforma como o Spotify, no momento em que você roda a análise do experimento, muitos usuários ainda estão ativos. Eles não "churnaram" ainda, mas isso não quer dizer que nunca vão. Tratá-los como retidos para sempre é otimista; descartá-los é absurdo; e simplesmente esperar todos eles "morrerem" para terminar o experimento é inviável. É exatamente o problema para o qual a análise de sobrevivência foi inventada.

O trabalho da Spotify (Chandar et al., 2022) propõe uma métrica chamada tempo até a inatividade, que mede quanto tempo leva para um usuário ficar inativo por uma semana inteira. Eles modelam isso usando um modelo de Cox de Riscos Proporcionais, alimentado por características do usuário e por métricas de engajamento observáveis nos primeiros 14 dias do experimento. A saída do modelo é uma curva de sobrevivência por usuário, e o tempo médio até a inatividade restrito ao horizonte de análise (a chamada restricted mean survival time) é a quantidade que entra no teste A/B. Vale notar que o modelo de Cox carrega como hipótese central a proporcionalidade dos riscos ao longo do tempo, e essa hipótese nem sempre se sustenta em dados de engajamento; o paper discute essa limitação e o framework de validação que eles propõem se aplica também a outros modelos de sobrevivência.

O resultado prático é interessante. Em um corpus de 51 experimentos rodados entre março e dezembro de 2020, a métrica preditiva apresentou AUC dependente do tempo de 0,90 nas primeiras semanas e ainda 0,83 em um horizonte de 24 semanas. Mais importante, ela apresentou poder discriminativo comparável à retenção observada de 4 semanas, mas com poder estatístico maior, o que significa, na prática, detectar mudanças reais mais rapidamente e com menos usuários.

Métricas substitutas e o problema do erro tipo I

O LinkedIn atacou o problema por um ângulo conceitualmente diferente. O caso do Spotify é primariamente um problema de censura: o evento de interesse (a inatividade) vai acontecer, mas ainda não aconteceu na hora de fechar o experimento, e a análise de sobrevivência resolve isso. O caso do LinkedIn é primariamente um problema de substituição: a métrica medida (PCH) é uma quantidade distinta da métrica norte (contratação confirmada) e funciona apenas como aproximação dela. Os dois compartilham, no fim, o uso de uma métrica preditiva no teste A/B, mas as armadilhas estatísticas envolvidas são diferentes.

A solução do LinkedIn foi construir uma métrica chamada PCH (Predicted Confirmed Hire), uma probabilidade prevista, para cada candidatura, de ela virar uma contratação confirmada. A previsão usa sinais de qualidade da candidatura, segmento da vaga, distribuição de candidaturas. Diferente da contratação confirmada real, a PCH está disponível em poucos dias após a candidatura.

Aqui aparece um ponto técnico importante e contraintuitivo, que o paper deles formaliza muito bem: usar uma métrica preditiva diretamente em um teste A/B, como se ela fosse a verdade, infla a taxa de falsos positivos.

A intuição é a seguinte. Sob hipóteses razoáveis (previsão não-enviesada e erro do modelo descorrelacionado com a previsão), a variância da métrica norte real é aproximadamente a variância da previsão somada à variância do erro do modelo. Quando você roda o teste t direto na métrica prevista, está subestimando a variância do que de fato importa. O resultado é um p-valor artificialmente baixo.

Os números são impressionantes. Com um modelo que tem R² preditivo de 0,85 (ou seja, um modelo razoavelmente bom), um p-valor de 0,05 na métrica substituta corresponde a um p-valor de aproximadamente 0,07 na métrica norte real. Quase 30% de subestimação. Em uma simulação controlada com 10 mil amostras sob a hipótese nula verdadeira, eles obtiveram 560 falsos positivos em vez dos 500 esperados a 5% de significância.

No corpus de 203 experimentos reais que eles analisaram, isso fica ainda mais claro. 30 experimentos pareciam estatisticamente significativos olhando direto para a PCH. Depois de aplicar a correção de variância, somando o erro do modelo na variância antes de calcular o t, sobraram apenas 2. Depois de aplicar técnicas de redução de variância (CUPED, que usa o comportamento pré-experimento de cada usuário para descontar o ruído da métrica via uma regressão linear simples, sem introduzir viés sob aleatorização), subiram para 10. Esses 10 são consistentes com o que se observa na métrica norte real meses depois.

A lição vai além do caso do LinkedIn. Qualquer empresa que use uma métrica baseada em modelo preditivo (e isso inclui qualquer "score de qualidade", "score de satisfação predita" ou "LTV previsto") sem fazer essa correção está sistematicamente lançando features que parecem positivas mas não são.

E há um problema ainda mais fundamental, anterior à questão estatística da variância. Para que uma métrica substituta seja formalmente válida, o tratamento precisa afetar a métrica norte exclusivamente através da substituta. É o critério de Prentice (1989): condicional à substituta, tratamento e resultado final precisam ser independentes. Em outras palavras, a substituta tem que capturar todo o caminho causal. Se o tratamento influencia o resultado final por uma rota que a substituta não enxerga, mesmo o teste corrigido vai sistematicamente enganar. O critério é restritivo na prática, quase nenhuma substituta o satisfaz exatamente, e a evolução metodológica moderna parte justamente daí. O trabalho de Athey et al. (2016) propõe combinar múltiplas variáveis de curto prazo em um surrogate index que se aproxima da mediação completa, com garantias estatísticas mais sólidas que as do surrogate único. É a peça conceitual que o LinkedIn e o Spotify checam, cada um do seu jeito, quando validam estatisticamente a substituta antes de adotá-la na decisão.

Está na hora de subir de nível

Até aqui, testes A/B tradicionais fizeram maravilhas em produtos digitais e seguirão sendo a ferramenta de trabalho dominante. Mas cada vez mais precisamos trazer o que há de ponta no desenvolvimento científico para ganhar mais robustez. É preciso saber avaliar o problema e saber avaliar a ferramenta, compreender até onde ela te leva e quando é hora de buscar algo novo, ou de melhorar o que já se tem. A estatística já lidou com problemas de extrema complexidade nas últimas décadas. Pesquisas na área de saúde são caras e podem até custar vidas, então, sempre que enxergar uma limitação no seu framework de testes, busque compreender se a estatística já não tentou resolver esse problema em outro setup.

Utilizar desses conhecimentos pode ser a diferença entre um falso positivo arrastado por meses ou anos e o sucesso real da sua métrica. É difícil avaliar o sucesso de métricas e features quando se está o tempo todo olhando para o próximo teste. Por isso, uma etapa de validação e pesquisa adequada antes do experimento pode poupar tempo, sofrimento e erros.

Para quem quiser ir fundo, Survival Analysis: Techniques for Censored and Truncated Data (Klein & Moeschberger) é a referência canônica de análise de sobrevivência, e Causal Inference for Statistics, Social, and Biomedical Sciences (Imbens & Rubin) é a base para os problemas de causalidade que sustentam o restante. Vale lembrar também que análise de sobrevivência e métricas substitutas não esgotam o leque de alternativas ao A/B tradicional: holdouts longos, testes sequenciais com p-values sempre válidos, abordagens bayesianas e desenhos em camadas resolvem variações do mesmo problema, cada um com suas próprias hipóteses e custos.

Referências

Duan, W., Ba, S., & Zhang, C. (2021). Online Experimentation with Surrogate Metrics: Guidelines and a Case Study. Proceedings of WSDM '21.
Chandar, P., St. Thomas, B., Maystre, L., Pappu, V., Sanchis-Ojeda, R., Wu, T., Carterette, B., Lalmas, M., & Jebara, T. (2022). Using Survival Models to Estimate User Engagement in Online Experiments. Proceedings of WWW '22.
Athey, S., Chetty, R., Imbens, G., & Kang, H. (2016). Estimating Treatment Effects using Multiple Surrogates: The Role of the Surrogate Score and the Surrogate Index. arXiv.
Prentice, R. L. (1989). Surrogate endpoints in clinical trials: definition and operational criteria. Statistics in Medicine, 8(4), 431–440.
Deng, A., Xu, Y., Kohavi, R., & Walker, T. (2013). Improving the sensitivity of online controlled experiments by utilizing pre-experiment data. Proceedings of WSDM '13.
Cox, D. R. (1972). Regression Models and Life-Tables. Journal of the Royal Statistical Society: Series B, 34(2), 187–202.
Xu, Y., Duan, W., & Huang, S. (2018). SQR: Balancing Speed, Quality and Risk in Online Experiments. Proceedings of KDD '18.
Hohnhold, H., O'Brien, D., & Tang, D. (2015). Focusing on the Long-term: It's Good for Users and Business. Proceedings of KDD '15.
Klein, J. P., & Moeschberger, M. L. (2003). Survival Analysis: Techniques for Censored and Truncated Data. Springer.
Imbens, G. W., & Rubin, D. B. (2015). Causal Inference for Statistics, Social, and Biomedical Sciences: An Introduction. Cambridge University Press.

← Voltar para todos os posts