Variância e desvio padrão
Imagine a seguinte situação: o dono de uma microempresa pretende saber, em média, quantos produtos são produzidos por cada funcionário em um dia. O chefe tem conhecimento que nem todos conseguem fazer a mesma quantidade de peças, mas pede que seus funcionários façam um registro de sua produção em uma semana de trabalho. Ao fim desse período, chegou-se à seguinte tabela:
Para saber a produção média de seus funcionários, o chefe faz o cálculo da média aritmética de produção, isto é, a soma do número de peças produzido em cada dia dividida pela quantidade analisada de dias.
A partir desse cálculo, temos a produção diária média de cada funcionário. Mas se observarmos bem a tabela, veremos que há valores distantes da média. O funcionário B, por exemplo, produz uma média de 12,8 peças por dia. No entanto, houve um dia em que ele produziu 16 peças e outro dia em que ele confeccionou apenas 10 peças. Será que o processo utilizado pelo dono da empresa é suficiente para o seu propósito?
Para esse exemplo, ficou fácil concluir que há uma grande variação entre a produção de cada funcionário. Mas e se essa fosse uma grande empresa, com mais de mil funcionários, ou se fosse observada a produção em um ano, será que conseguiríamos definir essa variação com tanta facilidade?
O estudo da Estatística apresenta medidas de dispersão que permitem a análise da dispersão dos dados. Inicialmente veremos a variância, uma medida de dispersão que mostra quão distantes os valores estão da média. Nesse caso, como estamos analisando todos os valores de cada funcionário, e não apenas uma “amostra”, trata-se do cálculo da variância populacional (var).
O cálculo da variância populacional é obtido através da soma dos quadrados da diferença entre cada valor e a média aritmética, dividida pela quantidade de elementos observados. Observe o cálculo simplificado para esse exemplo:
Observação: se estivéssemos trabalhando com a variância amostral, dividiríamos pela quantidade de elementos observados subtraída de um (– 1). Nesse exemplo, teríamos: 5 dias – 1 = 4 dias.
Vamos então calcular a variância populacional para cada funcionário:
Variância → Funcionário A:
var (A) = (10 – 10)² + (9 – 10)² + (11 – 10)² + (12 – 10)² + (8 – 10)²
5
var (A) = 10 = 2,0
5
Variância → Funcionário B:
var (B) = (15 – 12,8)² + (12 – 12,8)² + (16 – 12,8)² + (10 – 12,8)² + (11 – 12,8)²
5
var (B) = 26,8 = 5,36
5
Variância → Funcionário C:
var (C) = (11 – 10,4)² + (10 – 10,4)² + (8 – 10,4)² + (11 – 10,4)² + (12 – 10,4)²
5
var (C) = 9,2 = 1,84
5
Variância → Funcionário D:
var (D) = (8 – 11)² + (12 – 11)² + (15 – 11)² + (9 – 11)² + (11 – 11)²
5
var (D) = 30 = 6,0
5
Podemos afirmar que a produção diária do funcionário C é mais uniforme do que a dos demais funcionários, assim como a quantidade de peças diárias de D é a mais desigual. Quanto maior for a variância, mais distantes da média estarão os valores, e quanto menor for a variância, mais próximos os valores estarão da média.
Em algumas situações, apenas o cálculo da variância pode não ser suficiente, pois essa é uma medida de dispersão muito influenciada por valores que estão muito distantes da média. Além disso, o fato de a variância ser calculada “ao quadrado” causa uma certa camuflagem dos valores, dificultando sua interpretação. Uma alternativa para solucionar esse problema é o desvio padrão, outra medida de dispersão.
O desvio padrão (dp) é simplesmente o resultado positivo da raiz quadrada da variância. Na prática, o desvio padrão indica qual é o “erro” se quiséssemos substituir um dos valores coletados pelo valor da média. Vamos agora calcular o desvio padrão da produção diária de cada funcionário:
Desvio Padrão → Funcionário A:
dp(A) = √var (A)
dp(A) = √2,0
dp(A) ≈ 1,41
Desvio Padrão → Funcionário B:
dp(B) = √var (B)
dp(B) = √5,36
dp(B) ≈ 2,32
Desvio Padrão → Funcionário C:
dp(C) = √var (C)
dp(C) = √1,84
dp(C) ≈ 1,36
Desvio Padrão → Funcionário D:
dp(D) = √var (D)
dp(D) = √6,0
dp(D) ≈ 2,45
Podemos ver a utilização do desvio padrão na apresentação da média aritmética, informando o quão “confiável” é esse valor. Isso é feito da seguinte forma:
média aritmética (x) ± desvio padrão (dp)
Se o dono da empresa de nosso exemplo pretende concluir seu relatório com a produção média diária de seus funcionários, ele fará da seguinte forma:
Funcionário A: 10,0 ± 1,41 peças por dia
Funcionário B: 12,8 ± 2,32 peças por dia
Funcionário C: 10,4 ± 1,36 peças por dia
Funcionário D: 11,0 ± 2,45 peças por dia
Veja como calcular o coeficiente de variação, outra medida de dispersão.