Quantos usuários testar no seu estudo de usabilidade?

Você, como designer UI/UX quando tem que tomar uma decisão sobre o que fazer no seu layout, você faz o que? Você pergunta para seus usuários? Faz um levantamento de dados? Mas com quantos usuários testar no seu estudo de usabilidade são necessários para ter dados suficientes?

Algumas pessoas pensam que a estudo de usabilidade é muito caro, complexo e que os testes devem ser reservados para aquele grande projeto, com um orçamento enorme e um cronograma generoso (e por isso acabam “confiando” nos palpites dos designers). Não é verdade. Testes elaborados de usabilidade são um desperdício de recursos. Os melhores resultados vêm de testes com poucos usuarios (spolier: 5) e de um grande numero de iterações.

Nesse artigo eu quero mostrar a diferença entre palpites e dados, como mesmo a menor quantidade de fatos empíricos (por exemplo, observando 2 ou 3 usuários) aumenta bastante a probabilidade de tomar decisões corretas de design da interface do usuário e qual o numero ideal de usuarios necessários para encontrar a maioria dos problemas na sua UI / usabilidade.

Dados vs Palpites: um breve estudo de caso

Você deve oferecer aos usuários ajuda para ajustar o tamanho da fonte ou pode simplesmente confiar no navegador? Esta questão foi postada recentemente em um grupo de discussão de designers de interação.

12 pessoas responderam a esta pergunta, onde a maioria simplesmente ofereceu uma opinião pessoal sobre o que eles prefeririam. Justo: todas as pessoas são especialistas em suas próprias preferências. Mas dessas respostas, 6 postagens comentavam o que seria melhor para outras pessoas.

2/3 dessas postagens eram suposições puras, enquanto 1/3 era baseado em alguma forma de dados na forma de observações empíricas do usuário.

Palpites:

“Atualmente, a maioria das […] pessoas que precisam aumentar o tamanho da fonte no navegador já sabe como fazê-lo.” ERRADO
“As pessoas que precisam redimensionar o texto o fazem pelo navegador; não é difícil fazer isso”. ERRADO
“Não é 1995; nem todas as mais de 50 pessoas são novatas que não sabem, ou não gostariam de saber, como redimensionar texto em um navegador”. ERRADO
“As pessoas que mais precisam aumentar o tamanho da fonte são pessoas com mais de 65 anos, que é o grupo com menor probabilidade de ser qualificado o suficiente para ter configurações ajustadas”. CORRETO

Dados:

“Eu tive que configurá-lo manualmente para meus pais, e enquanto a porcentagem de pessoas com mais de 65 anos se torna cada vez mais experiente está aumentando a um ritmo incrível – funções ocultas, como ajustar o tamanho do texto, são algo que lhes escapam”. CORRETO
“Eu observei estudos de usabilidade em sites que incluíam widgets de redimensionamento de texto […] a maioria, se não todos, os participantes […] não tinham idéia do que era”. CORRETO

Dados > Palpites

As boas práticas de UX diz que é melhor usar tamanhos de fonte relativos que permitam aos usuários redimensionar (se souberem), mas exibir texto grande e legível como padrão. Essa conclusão é baseada em inúmeras observações que mostram que muitos usuários mais antigos não têm a capacidade de redimensionar fontes.

No exemplo do nosso grupo de discussão,

100% dos designers que forneceram dados externos estavam certos, enquanto;
25% dos designers que confiaram em sua opinião pessoal estavam certos.
Surpreendentemente, 75% dos adivinhos estavam errados . (É melhor você tirar “cara/coroa” do que pedir a opinião dessas pessoas.)

Neste simples exemplo, basear a decisão de projeto na menor quantidade de observação empírica de usuários reais quadruplicou a probabilidade de estar certo.

Importante: Embora os dados de seus pais/amigos sejam melhores que nenhum, não recomendo que você baseie suas decisões de design nos membros de sua família, porque eles provavelmente serão mais inteligentes que os usuários comuns. (Como você é mais inteligente, já que estuda e entende de usabilidade.)

Número de testes X Número de problemas

Em pesquisas anteriores, Tom Landauer mostrou que o número de problemas de usabilidade encontrados em um teste de usabilidade com n usuários é:

N (1- (1- L ) ⁿ )

onde N é o número total de problemas de usabilidade no design e L é a proporção de problemas de usabilidade descobertos ao testar um único usuário. O valor típico de L é de 31%, com média de um grande número de projetos que estudamos. Traçar a curva para L = 31% fornece o seguinte resultado:

Número de Usuários VS Descobertas de Usabilidade

A verdade mais impressionante da curva é que zero usuários fornecem zero insights.
Ao coletar dados de único usuário de teste, a quantidade de informação aumenta muito e você já aprendeu quase um terço de tudo o que há para saber sobre a usabilidade do seu design. A diferença entre zero e um pouco de dados é surpreendente.
Ao testar o segundo usuário, você descobrirá que essa pessoa faz as mesmas coisas que o primeiro usuário; portanto, há alguma sobreposição no que você aprende. Também haverá algo novo que o segundo usuário faz que você não observou com o primeiro usuário. Portanto, o segundo usuário adiciona uma certa quantidade de novas informações, mas não tanto quanto o primeiro usuário.
O terceiro usuário fará muitas coisas que você já observou com o primeiro ou com o segundo usuário e até algumas coisas que você já viu nas duas vezes. Além disso, é claro, o terceiro usuário irá gerar uma pequena quantidade de novos dados, mesmo que não tanto quanto o primeiro e o segundo usuários.
À medida que você adiciona mais e mais usuários, você aprende cada vez menos, porque continuará vendo as mesmas coisas repetidamente. Não há necessidade real de continuar observando a mesma coisa várias vezes, e você ficará muito motivado a voltar à prancheta e redesenhar o site para eliminar os problemas de usabilidade.
Após o quinto usuário, você está perdendo tempo observando as mesmas descobertas repetidamente, mas sem aprender muito.

• Quantos usuarios preciso testar?

Se você quer um único número, a resposta é simples: teste 5 usuários em um estudo de usabilidade . Testar com 5 pessoas permite encontrar quase tantos problemas de usabilidade quanto se você usasse muito mais participantes.

Não importa se você testa sites, intranets, aplicativos nativos ou aplicativos móveis. Com 5 usuários, você quase sempre se aproxima da proporção máxima de custo-benefício do teste do usuário.

Como com qualquer problema de fatores humanos, no entanto, existem exceções :

Estudos quantitativos (visando estatísticas, não insights): Teste pelo menos 20 usuários para obter números estatisticamente significativos; intervalos de confiança apertados exigem ainda mais usuários.
Card Sorting: teste pelo menos 15 usuários por grupo de usuários.
Eyetracking: teste 39 usuários se você deseja mapas de calor estáveis.

No entanto, essas exceções não devem lhe preocupar muito: a grande maioria de sua pesquisa de usuários deve ser qualitativa – ou seja, destinada a coletar insights para impulsionar seu design, não números para impressionar as pessoas nas apresentações.

O principal argumento para pequenos testes é simplesmente o ROI (retorno do investimento): os custos dos testes aumentam com cada participante adicional do estudo, mas o número de descobertas chega rapidamente ao ponto de retornos decrescentes. Há pouco benefício adicional em administrar mais de 5 pessoas no mesmo estudo; O ROI cai com um N maior .

E se você tiver um grande orçamento? EXCELENTE! Gaste-o em estudos adicionais e iterativos, não em mais usuários em cada estudo.

• Porque não testar com somente 1 usuario?

Você pode acabar pensando que 15 estudos com um único usuário seriam melhores do que 3 estudos com 5 usuários. A curva mostra que aprendemos muito mais com o primeiro usuário do que com qualquer usuário subsequente, então por que continuar? Duas razões:

Sempre existe o risco de ser enganado pelo comportamento de uma única pessoa que pode executar determinadas ações por acidente ou de maneira não representativa. Até três usuários são suficientes para ter uma idéia da diversidade no comportamento do usuário e entender o que é único e o que pode ser generalizado.
A análise de custo-benefício do teste do usuário fornece a proporção ideal em torno de 3 ou 5 usuários, dependendo do estilo do teste. Sempre há um custo inicial fixo associado ao planejamento e à execução de um estudo: é melhor depreciar esse custo inicial com as descobertas de vários usuários.

• Testar com 2 usuários já é melhor que adivinhar(estudo de caso)

Em uma pesquisa, foram testadas duas maneiras diferentes de exibir informações da conta bancária com 76 usuários cada, para um total de 152 participantes no teste de benchmark. Pediram aos usuários que realizassem tarefas como verificar os saldos das contas e descobrir qual taxa de juros o banco estava oferecendo no momento. Os resultados foram os seguintes:

Métrica de usabilidade	Design A	Design B
Taxa de sucesso (em quatro tarefas)	56%	76%
Tempo para concluir quatro tarefas (min: segundos)	5:15	5:03
Satisfação subjetiva (escala 1–5, 5 melhores)	2.8	3.0

Nos três atributos de usabilidade, a versão B obteve melhor pontuação, embora apenas a diferença nas taxas de sucesso fosse grande o suficiente para ser estatisticamente significativa. No geral, não há dúvida de que B foi melhor .

(Em contraste com este estudo, às vezes os dois designs vencem em diferentes atributos de usabilidade. Por exemplo, um design pode tornar as pessoas mais bem-sucedidas, enquanto o outro as ajuda a realizar a tarefa mais rapidamente. Nesses casos, você pode ter que escolher algum trade-off ou, quando possível, crie um terceiro design que combine os melhores aspectos de ambas as alternativas.)

Dica de leitura: conheça 3 métodos de design UI para melhorar sua UX

Depois que a pesquisa foi feita, os pesquisadores mostraram os desenhos A e B a 21 pessoas que estavam participando de um curso de design de interação e perguntaram qual deles recomendaria ao banco. Seguindo apenas suas suposições pessoais sobre qual o melhor design, a probabilidade de obter o melhor design recomendado foi de 50%. (Ou seja, não é melhor do que jogar cara/coroa).

Depois, pediram a outro grupo de 38 pessoas que estavam fazendo o mesmo curso para testar os dois designs com 2 usuários para cada design. Agora, realizando observações empíricas do comportamento de dois usuários para cada alternativa, a probabilidade de recomendar o melhor design era de 76% .

Outra maneira de analisar esse resultado é que testar apenas 2 usuários por projeto reduziu a probabilidade de estar errado de 50% para 24% – cortando-o pela metade. Obviamente, uma probabilidade de 24% de escolher o design errado não é suficiente se você estiver falando de uma decisão de design com alto ROI ; portanto, obviamente, o ideal é testar mais de 2 usuários por design nesses casos.

Ainda assim, apesar de ser um estudo extremamente reduzido, o teste de 2 usuários por design melhorou bastante a recomendação sobre o desempenho do lançamento de uma moeda.

Importante: Neste estudo, as duas versões pareciam igualmente boas, o que é importante para os estudos de medição. Se você comparar um protótipo de aparência grosseira com um design gráfico totalmente refinado, irá influenciar as pontuações.

• Quando testar com mais usuarios?

Você precisa testar usuários adicionais quando um site possui vários grupos de usuários altamente distintos. A fórmula é válida apenas para usuários comparáveis que usarão o site de maneiras bastante semelhantes.

Você precisa testar usuários adicionais quando seu serviço possui vários grupos de usuários altamente distintos

Se, por exemplo, você tiver um site que será usado por crianças e pais, os dois grupos de usuários terão um comportamento suficientemente diferente que será necessário testar com pessoas de ambos os grupos. O mesmo seria verdade para um sistema destinado a conectar agentes de compras com a equipe de vendas.

Mesmo quando os grupos de usuários são muito diferentes, ainda haverá grandes semelhanças entre as observações dos dois grupos, afinal de contas, todos os usuários são humanos. Além disso, muitos dos problemas de usabilidade estão relacionados à maneira fundamental como as pessoas interagem com a internet (e outros aplicações) e à influência de outros sites no comportamento do usuário.

Ao testar vários grupos de usuários diferentes, você não precisa incluir tantos membros de cada grupo quanto faria em um único teste de um único grupo de usuários. A sobreposição entre as observações garantirá um melhor resultado ao testar um número menor de pessoas em cada grupo. Eu recomendo:

3 a 4 usuários de cada categoria, se estiver testando dois grupos de usuários
3 usuários de cada categoria, se estiver testando três ou mais grupos de usuários (você sempre deseja pelo menos três usuários para garantir a cobertura da diversidade de comportamentos dentro do grupo)

Estudo de caso: 83 pesquisas realizadas

O gráfico a seguir resume 83 dos recentes projetos de consultoria de usabilidade do Nielsen Norman Group. Cada ponto é um estudo de usabilidade e mostra quantos usuários testaram e quantas descobertas de usabilidade foram relatadas ao cliente. (O gráfico inclui apenas estudos quantitativos)

Estudo com 83 pesquisas vs Descobertas de Usabilidade

Antes de tudo, por que testaram com mais usuários? Duas razões:

Alguns clientes queriam estudos maiores para credibilidade interna. Quando o cliente de um estudo apresenta descobertas a executivos que não entendem a usabilidade, as recomendações são mais fáceis de serem aceitas quando mais usuários são testados. (Se a gerência confiasse em seus próprios funcionários, muito dinheiro poderia ser economizado.)
Alguns projetos de design tinham vários públicos-alvo e as diferenças nos comportamentos esperados (ou pelo menos suspeitos) eram grandes o suficiente para justificar as despesas de amostragem de usuários adicionais.

Se você tem um processo UX estilo Agile com sobrecarga muito baixa, seu investimento em cada estudo é tão pequeno que o custo-benefício relação é otimizada por um benefício menor. (Pode parecer contra-intuitivo obter mais retorno sobre o investimento, beneficiando-se menos de cada estudo, mas essa economia ocorre porque a menor sobrecarga por estudo permite executar tantos mais estudos que a soma de vários pequenos benefícios se torna um grande número.)

Dica de leitura: dependendo do estagio de maturidade da sua empresa no design UX, você vai ter mais budget para realizar novas pesquisas. Mas você sabe qual é o estágio de maturidade em U X da sua empresa?

Dica: Para projetos realmente baixos, geralmente é ideal testar apenas dois usuários por estudo . Para alguns outros projetos, 8 usuários – ou às vezes até mais – podem ser melhores. Para a maioria dos projetos, no entanto, você deve ficar com o testado e comprovado: 5 usuários por teste de usabilidade.

Argumentos (ruins) para mais usuarios por teste

“Um grande site tem milhões de usuários.” A variação na amostragem estatística é determinada pelo tamanho da amostra, não pelo tamanho da população completa da qual a amostra foi coletada. Nos testes do usuário, focamos na funcionalidade de um site para ver quais elementos de design são fáceis ou difíceis de usar. A avaliação da qualidade de um elemento de design é independente de quantas pessoas o utilizam. (Por outro lado, a decisão sobre corrigir ou não uma falha de design certamente deve considerar quanto de uso ela terá: pode não valer a pena o esforço de melhorar uma feature que tem poucos usuários; é melhor gastar o esforço de codificar algo com milhões de usuários .)

“Um grande site tem centenas de features”. Esse é um argumento para executar vários testes diferentes – cada um focando em um conjunto menor de features – e não para ter mais usuários em cada teste. Você não pode pedir a ninguém para testar mais do que um algumas tarefas antes que o usuário esteja cansado. Sim, você precisará de mais usuários em geral para um design rico em features, mas precisará espalhá-los por vários estudos, cada um focado em um subconjunto da sua agenda de pesquisa.

“Temos vários públicos-alvo diferentes”. Na verdade, esse pode ser um bom motivo para testar um conjunto maior de usuários, pois você precisará de representantes de cada grupo-alvo. No entanto, esse argumento é válido apenas se os diferentes usuários realmente se comportarem de maneiras completamente diferentes. Alguns exemplos de nossos projetos incluem

um site médico direcionado a médicos e pacientes e;
um site de leilão no qual você pode vender ou comprar coisas.

Quando os usuários e suas tarefas são diferentes, você está essencialmente executando um novo teste para cada público-alvo e precisará de cerca de 5 usuários por grupo. Normalmente, você pode se dar bem com 3 a 4 usuários por grupo, porque a experiência do usuário se sobrepõe um pouco entre os dois grupos.

“O site ganha tanto dinheiro que mesmo o menor problema de usabilidade é inaceitável.” As empresas ricas certamente têm um conseguem manter o ROI para gastar mais em usabilidade . Mesmo que eles gastem “demais” em cada melhoria de qualidade, eles ganharão ainda mais com as vastas quantias de dinheiro que fluem pela interface do usuário. No entanto, mesmo os projetos de design de maior valor ainda otimizam seu ROI, mantendo cada estudo pequeno e realizando muito mais estudos do que um projeto de menor valor poderia permitir.

Importante: Não há problema em deixar para trás alguns problemas de usabilidade em qualquer versão do design, desde que você esteja empregando um processo de design iterativo, no qual projetará e testará versões adicionais. Qualquer coisa que não for corrigida agora será corrigida na próxima vez. Se você tem muitas coisas para corrigir, basta planejar muitas iterações. O resultado final será de maior qualidade (e, portanto, maior valor comercial) devido às iterações adicionais do que ao testar cada vez mais usuários.

Design Iterativo (15 usuarios para 3 iterações)

A curva do gráfico anterior mostra claramente que você precisa testar com pelo menos 15 usuários para descobrir todos os problemas de usabilidade no design. Então, por que recomendo testar com um número muito menor de usuários?

O principal motivo: é melhor distribuir seu orçamento para testes de usuários em muitos testes pequenos, em vez de exagerar em um único estudo elaborado. Digamos que você tenha o financiamento para recrutar 15 clientes representativos para que eles testem seu design. Ótimo. Gaste esse orçamento em 3 estudos com 5 usuários cada!

Você deseja realizar vários testes porque o objetivo real do estudo de usabilidade é melhorar o design e não apenas documentar seus pontos fracos. Após o primeiro estudo com cinco participantes ter encontrado 85% dos problemas de usabilidade, convém corrigir esses problemas em um redesign.

Depois de criar o novo design, você precisa testar novamente. Embora eu tenha dito que o redesign deve “consertar” os problemas encontrados no primeiro estudo, a verdade é que você acha que o novo design supera os problemas. Mas como ninguém pode projetar a interface de usuário perfeita, não há garantia de que o novo design resolva os problemas. Um segundo teste descobrirá se as correções funcionaram ou não. Além disso, na introdução de um novo design, há sempre o risco de introduzir um novo problema de usabilidade, mesmo que o antigo tenha sido corrigido.

Além disso, o segundo estudo com 5 usuários descobrirá a maioria dos 15% restantes dos problemas de usabilidade originais que não foram encontrados na primeira rodada de testes. (Ainda restam 2% dos problemas originais – eles terão que esperar até o terceiro estudo ser identificado.)

Por fim, o segundo estudo poderá investigar mais profundamente a usabilidade da estrutura fundamental do site, avaliando questões como arquitetura da informação, fluxo de tarefas e adequação às necessidades do usuário. Essas questões importantes são muitas vezes obscurecidas nos estudos iniciais em que os usuários são surpreendidos por problemas estúpidos de usabilidade no nível da superfície que os impedem de realmente entrar no site.

O segundo estudo servirá como garantia de qualidade do resultado do primeiro estudo e ajudará a fornecer informações mais profundas.

Portanto, o segundo estudo servirá como garantia de qualidade do resultado do primeiro estudo e ajudará a fornecer informações mais profundas. O segundo estudo sempre levará a uma nova (mas menor) lista de problemas de usabilidade a serem corrigidos em um novo design. E o mesmo insight se aplica a esse novo design: nem todas as correções funcionarão; alguns problemas mais profundos serão descobertos após a limpeza da interface. Assim, também é necessário um terceiro estudo.

Dica final: A experiência final do usuário é melhorada muito mais por 3 estudos com 5 usuários cada do que por um único estudo de monstro com 15 usuários.

Quando palpites dão errado (Muito errado)

Comparando os dois estudos de caso, o campo de adivinhação do exemplo do tamanho do texto teve de longe o pior desempenho. Uma pessoa que baseou uma decisão de design nessas suposições estaria errada 3/4 do tempo. No exemplo do banco, eles estariam errados apenas metade do tempo.

Então, por que o miserável grupo de discussão palpita? A resposta está nas duas seguintes afirmações:

“Neste dia e idade…”
“Não é 1995 …”

Infelizmente, muitos designers da Web se recusam a acreditar na durabilidade das descobertas de usabilidade . Pensar que “coisas que eram difíceis no passado certamente devem ser fáceis agora” levou muitos sites à sua destruição.

Quando realmente estudamos usuários reais, vemos quão lentamente eles aprendem sobre tecnologia e quão pouco sua capacidade de usar sites sofisticados melhorou. E, mais importante, vemos como os usuários pouco se importam em aprender técnicas sofisticadas da Web. As pessoas só querem entrar, fazer as coisas e sair. Eles não querem aprender.

As suposições e palpites dão errado porque muitos designers querem desesperadamente acreditar no potencial do design. Eles simplesmente não conseguem entender o quão pouco a maioria das pessoas sabe sobre suas tecnologias.

Conclusão: um pouco de dados te leva muito longe

Em todos exemplos citados, a probabilidade de tomar a decisão certa de design foi bastante aprimorada quando recebemos a menor quantidade de dados empíricos: observar seus próprios pais ou testar 2 usuários por design.

Qualquer dado é melhor que nenhum dado. Quantas decisões de projeto você toma sem nenhuma observação empírica do comportamento de seus clientes?

Mas como eu citei anteriormente, quantos usuarios são necessários para realizar uma pesquisa com usuarios e conseguir dados suficiente? Eu, particularmente, acho que 3 usuários é mais que o suficiente para a avaliação de cada problemas, mas se você quiser ter certeza (e seu budget for limitado), 5 é o ideal para cada iteração, e 15 é um numero perfeito.

Lembre-se: Se tiver mais de um usuario / perfil de usarios, você vai precisar de 3 para cada grupo!

Espero que tenha gostado do texto! Para ajuda-lo a dar partida em seus teste de usabilidade, vou te dar mais 2 dicas:

Escala Likert: A Escala Likert, criada pelo Rensis Likert, é uma escala usada para é identificar a atitude das pessoas (entrevistados) em relação aos objetos de estímulo fornecidos, perguntando-lhes até que ponto eles concordam ou discordam deles. A escala é tipicamente uma escala de categoria de cinco respostas que varia de “discordo totalmente” a “concordo totalmente”. Ela pode te ajudar a criar um bom questionário!
Mapas de experiencia do usuários: Projetar e desenvolver uma interface envolve uma grande equipe que entendem as necessidades e comportamentos do usuárioe juntas criar um produto que atenda as dores de seus usuários. Esse entendimento comum geralmente é construído utilizando diferentes mapeamentos. Os mapeamentos da experiência do usuário compreendem e descrevem vários aspectos e processos associados a um produto