Correlação vs Causalidade: a diferença para o produto

Correlação vs Causalidade

Uma das principais duvidas que surgem quando estamos investigando a causa de algum problema e/ou comportamento do usuário é a diferença entre correlação vs causalidade. Não se engane, elas podem parecer semelhantes, mas reconhecer suas diferenças pode ser a diferença entre desperdiçar esforços em feature de baixo valor e criar um produto que seus cliente não irão parar de utilizar

Nesse artigo nós vamos discutir as diferenças correlação e causalidade, e dar alguns exemplos dessa diferença aplicada, uma vez que se refere especificamente à criação de produtos digitais e à compreensão do comportamento do usuário. Gerentes de produto, cientistas de dados e analistas acharão isso útil para alavancar as idéias certas para o crescimento do produto, aumentar a retenção e o engajamento com o usuário.

Qual é a diferença entre correlação e causalidade?

Vamos começar pelo básico: embora a correlação e a causalidade possam existir ao mesmo tempo, a correlação NÃO implica causalidade. A causa se aplica explicitamente aos casos em que a ação A causa o resultado B. Por outro lado, a correlação é simplesmente um relacionamento, por exemplo a ação A está relacionada à ação B – mas um evento não necessariamente faz com que o outro evento aconteça.

A causa se aplica explicitamente aos casos em que a ação A causa o resultado B

Normalmente a correlação e a causalidade são confundidas porque nós gostamos de encontrar padrões mesmo quando eles não existem. Nesse caso é especialmente verdade, nós criamos esses padrões quando duas variáveis ​​parecem estar tão intimamente associadas que uma depende da outra. Isso implicaria uma relação de causa e efeito em que o evento dependente é o resultado de um evento independente.

No entanto, NÃO podemos simplesmente assumir a causa, mesmo que vejamos dois eventos acontecendo, aparentemente juntos. Primeiro, nossas observações são puramente subjetivas (de nossas opinião). Segundo, existem muitas outras possibilidades para uma associação, por exemplo:

  • O oposto é verdadeiro: B realmente causa A.
  • Os dois estão correlacionados, mas existe outras informações: A e B são correlacionados, mas na verdade são causados ​​por C.
  • Há outra variável envolvida: A causa B – desde que D aconteça.
  • Há uma reação em cadeia: A causa E, que leva E a causar B (mas você só viu que A causa B).

Exemplo: correlação vs causalidade na análise de produtos

OK, você já entendeu que correlação e causalidade não são as mesmas coisas. Agora vamos mostrar isso aplicado no seu produto – você pode encontrar causalidade no seu produto, onde ações ou comportamentos específicos do usuário resultam em algum resultado especifico.

Por exemplo: você acabou de lançar uma nova versão do seu aplicativo móvel. Você acredita que a retenção do usuário para o seu produto está vinculada a comportamentos sociais no aplicativo. Você pede à sua equipe para desenvolver uma nova feature que permita aos usuários criarem e participarem de “comunidades”.

Um mês após o lançamento e o anúncio da nova feature, a adoção fica em 20%. Curioso para saber se a nova feature afetou a retenção, você cria dois coohorts de mesmo tamanho com usuários selecionados aleatoriamente. 

  1. A primeira cohort possui apenas usuários que ingressaram nas comunidades
  2. A segunda cohort possui apenas usuários que NÃO ingressaram nas comunidades.

O que sua análise revela: os usuários que ingressaram em pelo menos uma comunidade estão sendo retidos a uma taxa muito superior à média do usuário.

Quase 90% dos que entraram em alguma comunidade ainda estão presentes no primeiro dia, em comparação com 50% daqueles que não ingressaram. No dia 7, você vê 60% de retenção nos membros da comunidade e cerca de 18% nos que não o fizeram.

Usuarios ingressaram em comunidade

Mas espere. O seu lado racional sabe que não possui informações suficientes para tirar essa conclusão, mas tudo que você sabe é que os dois estão correlacionados.

Como testar a causalidade em seu produto

Pode ser tentador associar duas variáveis ​​como “causa e efeito”.  Mas fazê-lo sem confirmar a causalidade de forma correta pode levar a uma falso positivo – onde parece existir uma relação causal, mas na verdade não existe. Isso pode ocorrer se você não testar extensivamente o relacionamento entre uma variável dependente e uma independente.

falsos positivos são um grande problema na geração de insights de produtos porque eles pode induzir você a pensar que entende o vínculo entre resultados importantes e comportamentos do usuário. Por exemplo, você pode pensar que sabe qual é o evento chave de ativação que resulta em retenção de usuário a longo prazo. Mas sem muitos testes você corre o risco de basear decisões importantes do produto no comportamento errado do usuário.

Sem testes rigorosos, você corre o risco de basear decisões importantes do produto no comportamento errado do usuário

Para identificar a causalidade, primeiro encontre a correlação, e depois execute algum(s) experimentos que o permitem controlar as váriaveis e medem a diferença.Existem vários experimentos para identificar a causalidade em seu produto, os principais são:

1. Teste de hipótese

O teste de hipótese mais básico envolverá um H0 (hipótese nula) e H1 (sua hipótese primária). Você também pode ter uma hipótese secundária, hipótese terciária e assim por diante, mas 2 é o suficiente.

  • Hipótese nula (H0) é o oposto de sua hipótese primária. Embora você não possa provar sua hipótese principal com 100% de certeza (o mais próximo possível é de 99%), você pode refutar sua hipótese nula.
  • Hipótese principal(H1) aponta para o relacionamento causal que você está pesquisando e deve identificar uma variável independente e uma variável dependente.

A maneira mais fácil de começar e primeiro criando seu H1 e depois identificar o oposto e usa-lo no seu H0.

Para criar seu H1, ele deve identificar o relacionamento que você espera entre suas variáveis ​​independentes e dependentes. Por exemplo, no cenário anterior – a feature de social impacta na retenção, sua variável independente seria “entrada nas comunidades” e sua variável dependente seria a “retenção”. Portanto, suas hipóteses podem ser

H1: se um usuário ingressar em uma comunidade em nosso produto no primeiro mês, ele permanecerá um cliente por mais de um ano.

Em seguida, negue seu H1 para gerar sua hipótese nula:

H0: Não há relação entre ingressar em uma comunidade no aplicativo e a retenção de usuários.

O objetivo desse experimento é observar qualquer diferença real entre suas diferentes hipóteses (H0 e H1). Se você puder rejeitar a hipótese nula (H0) com significância estatística (idealmente com um mínimo de 95% de confiança), estará mais perto de entender o relacionamento entre suas variáveis ​​independentes e dependentes.

No exemplo acima, se você puder rejeitar a hipótese nula (H0), constatando que ingressar em uma comunidade resultou em maiores taxas de retenção, provavelmente poderá concluir que existe alguma relação entre a feature social e a retenção.

Para testar essa hipótese, desenvolva uma equação que reflita com precisão a relação entre a causa esperada (variável independente) e o efeito (variável de resultado).

Quando usar o teste de hipótese:

O teste de hipóteses é útil quando você está tentando identificar se um existe realmente um relacionamento entre duas variáveis, em vez de procurar evidências subjetivas. Você pode querer consultar dados históricos para executar uma análise longitudinal que analisa as mudanças ao longo do tempo. Por exemplo, você pode investigar se os primeiros adotantes para lançamentos de produtos são seus maiores promotores. Você pode examinar os padrões de referência e também comparar esse relacionamento com lançamentos de produtos ao longo do tempo.

Ou então, você pode executar uma análise transversal que analisa uma captura instantânea de dados. Isso é útil quando você observa os efeitos de uma exposição e resultado específicos, em vez de alterações nas tendências ao longo de um período. Por exemplo, você pode explorar o relacionamento entre promoções e vendas específicas para feriados.

2. Experimentação A / B / n

O experimento A / B / n pode levá-lo da correlação para a causalidade: você olha para cada uma de suas variáveis, altere UMA e veja o que acontece. Se o seu resultado mudar constantemente (com a mesma tendência), você encontrará a variável que faz a diferença.

Para nosso exemplo, queremos ver se o ingresso nas comunidades leva a taxas de retenção mais altas, é necessário eliminar todas as outras variáveis ​​que possam influenciar o resultado. Por exemplo, no nosso caso, os usuários poderiam passar por outros caminhos que levaram a uma maior retenção.

Por isso, para testar se há causalidade, você precisa encontrar um link direto entre os usuários que ingressam nas comunidades E que usam o aplicativo a longo prazo. Como fazer isso?

  • Comece no seu fluxo de onboarding: para os próximos 1.000 usuários que se inscreverem, divida-os em dois grupos. Metade será forçada a ingressar nas comunidades quando se inscreverem pela primeira vez. A outra metade não vai precisar ingressar em nenhuma comunidade.
  • Execute o experimento por 30 dias e compare as taxas de retenção entre os dois grupos.

Se você achar que o grupo que foi forçado a ingressar nas comunidades tem uma taxa de retenção mais alta, tem as evidências necessárias para confirmar que há sim, uma relação causal entre ingressar nas comunidades e a retenção ao longo prazo. 

Dica: Provavelmente vale a pena aprofundar esse relacionamento para entender o motivo das comunidades impulsionam a retenção.

Quando usar o teste A / B / n:

A / B / n, ou teste dividido, é ideal quando você está comparando o impacto de variações diferentes (pode ser uma campanha, um feature do produto ou uma estratégia de conteúdo). Por exemplo, um teste A / B / n do fluxo de onboarding do seu produto, pode comparar o desempenho de diferentes estratégias com base em determinadas características, incluindo:

  • Variação no texto (copy);
  • Gráficos diferentes;
  • Reduzindo o número de campos em seu formulário de inscrição (se tiver um);

Após executar variações do onboarding do produto, você pode conferir os resultados para comparar métricas como taxa de desistência, conversão e até retenção.

Dica de leitura: saiba mais sobre métrica do produto no artigo sobre as métricas piratas

Agir sobre as correlações corretas escalar seu produto

O ser humano esta sempre procurando padrões à sua volta, nosso objetivo é ser capaz de explicar o que vemos. No entanto, a menos que a causa possa ser claramente identificada, deve-se presumir que estamos vendo apenas correlação.

Eventos que parecem se conectar com base no senso comum não podem ser vistos como causais, a menos que você consiga provar uma conexão clara e direta. E, embora causação e correlação possam existir ao mesmo tempo, correlação não significa causalidade.

Embora causação e correlação possam existir ao mesmo tempo, correlação não significa causalidade.

Quanto mais você buscar a identificação de correlações verdadeiras no seu produto, melhor será a priorização de seus esforços para retenção e engajamento do usuário .