You are on page 1of 45

Princpios de anlise quantitativa

e alguns mtodos inferenciais

Niltom Vieira Junior


Novembro de 2014.

Estatstica
Tem origem no latim (status), traduzida como o
estudo do estado, mais amplamente definida
como "o estudo quantitativo de certos
fenmenos sociais destinados informao dos
homens de estado" (BAYER et al., 2004) .

Definio e uso
No senso comum representa uma coleo de
dados numricos, ndices, taxas etc.
Na cincia aplicvel a qualquer rea do
conhecimento para organizar, analisar e concluir
informaes sobre dados.

Divises
Pode ser dividida em duas grandes partes:
Estatstica Descritiva - cuida da:
Organizao;
Descrio dos dados experimentais.

Estatstica Inferencial - cuida da:


Anlise e comparao;
Interpretao dos dados.

tica e precaues
A estatstica a arte de se torturar os nmeros at
que eles confessem (Jos Juliano de Carvalho Filho,
economista).
Caso 1
Verificou-se que 33% dos acidentes de trnsito
envolvem pessoas embriagadas.
Portanto, em 67% dos acidentes as pessoas esto
sbrias o que quer dizer que pode-se dirigir
bbado.

Caso 2
Uma Cia area anuncia a melhoria de 100% nos
ltimos meses em relao bagagem
extraviada.
Portanto, no se extravia mais bagagens?
Caso 3
Deve-se evitar perguntas que sugerem uma
resposta.
- Voc gosta do refrigerante X?
- Qual refrigerante voc gosta?

Caso 4
Deve-se evitar presses pelo entrevistador.
Quando entrevistados, 94% das pessoas
afirmaram lavar as mos aps usar os banheiros,
mas, em uma observao em lugares pblicos
confirmou-se apenas 68%.
Diversas outras precaues adotadas para
pesquisas qualitativas se aplicam as pesquisas
quantitativas. Alm disso, o uso de mtodos
adequados essencial para a qualidade da
anlise.

http://niltom3.wix.com/statistique

O aplicativo

(VIEIRA JUNIOR, 2014)

O aplicativo

O aplicativo
A seleo de mtodos apropriados tarefa complexa,
especialmente para pesquisadores no familiarizados com
estatstica, perante toda a variedade de mtodos
existentes. Deste modo, o aplicativo proposto auxilia a
tomada de deciso quanto a tcnica mais indicada para a
realizao de inferncias.
A ferramenta em si faz apenas a indicao do mtodo e no
a anlise propriamente, considerando que softwares
especializados, para as diversas tcnicas citadas, j existem
a longa data e apresentam grande acurcia.
O tutorial apresenta passo-a-passo a resoluo matemtica
e computacional de 18 mtodos em mais de 30 exemplos
numricos (abordando as variaes dos mtodos).

Conceitos bsicos
Populao: a totalidade de elementos sob estudo que
apresenta uma ou mais caractersticas em comum;
Amostra: uma parte da populao de estudo cujo
objetivo estimar parmetros populacionais.
Em geral, quando o universo populacional muito
grande, utiliza-se o conceito amostral dado s restries
de tempo, mtodos e recursos para se analisar todo o
conjunto (Ex.: todas as crianas em idade pr-escolar). Em
casos especficos, quando a populao com caractersticas
particulares que se deseja analisar acessvel, adota-se o
conceito populacional.

Conceitos bsicos

Mdia
Por exemplo, o valor mdio de uma amostra de
cinco elementos composta pelos valores 4, 5, 3, 7
e 6 expresso por:

Mediana
Aps ordenamento crescente dos elementos a
mediana o valor que a separa em duas partes iguais a
amostra, permitindo que valores extremos no influenciem
a anlise como no clculo da mdia.

Se o conjunto possui nmero de elementos mpar


A mediana o seu elemento mdio. Por exemplo, em uma
amostra de cinco elementos composta pelos valores 10, 15, 16, 18
e 20, a mediana o valor 16 .

Se o conjunto possui nmero de elementos par


A mediana dada pela mdia dos dois elementos centrais. Por
exemplo, em uma amostra de seis elementos composta pelos
valores 10, 13, 13, 15, 15 e 20, a mediana 14.

Problemas prticos envolvendo mdia e mediana


Um representante de bairro escalou o time
local de basquete tendo uma mdia etria de 27
anos (a mediana das idades do time 25 anos).
Pode se considerar o time apto ao campeonato
local?
Depende... Um time com as idades de 5, 5, 25,
50 e 50 tambm apresentam estas mdia e
mediana e no seria apto ao campeonato. Por
isso, as vezes faz-se necessrio observar a
varincia da amostra.

Varincia e desvio padro


A varincia estabelece os desvios em relao mdia
aritmtica (por conta de valores extremos) e o desvio padro, que
a raiz quadrada da varincia, analisa a regularidade desses valores.

Por representar uma mdia dos valores absolutos dos


desvios, o DP serve para anlise da eficcia de uma mdia
aritmtica. Quanto maior o desvio padro, maior a disperso dos
elementos e, portanto, menor sua eficcia.
Obs.: Por ser um estimador populacional, a varincia amostral perde 1 grau de liberdade
(estimador do nmero de variveis independentes).

Calculando-se a amostra
Quando uma populao infinita ou considerada infinita,
quando o tamanho da amostra n < 5% o tamanho da
populao (N), aplica-se:

Obs.: para populaes finitas ver fator de correo em Vieira Junior (2014).

Calculando-se a amostra
Por exemplo, deseja-se estimar a pontuao mdia obtida por
jogadores de determinado jogo digital. Para se ter 95% de confiana
de que a mdia amostral esteja a menos de 500 pontos da mdia
populacional precisa-se de n indivduos (TRIOLA, 1999):

Amostragem
Alm da quantidade, a qualidade amostral tambm pode
influenciar os resultados.

Amostragem

Anlise inferencial
Basicamente dois tipos de procedimentos so
adotados em estatstica: a anlise descritiva e a anlise
inferencial.
A primeira objetiva a descrio dos dados a partir da
verificao de representatividade, ordenao e compilao
de dados, construo de grficos, clculos de mdias,
obteno de relaes funcionais entre variveis e outras
medidas.
A segunda anlise se preocupa em obter uma
afirmao acerca de uma populao com base em
determinada amostra. Essas inferncias se do por
estimaes de intervalos de confiana ou decises atravs
de testes de hipteses.

Testes de hiptese
A escolha do teste depende da escala de medio dos

dados.
Nominal: o nmero no vale como nmero, mas sim como
categoria. Por exemplo: 1 = criana, 2 = adolescente, 3 = adulto e
4 = idoso;
Ordinal: os nmeros podem ser ordenados, porm, no se deve
calcular mdia ou desvio padro. Por exemplo, um paciente que
recebe 4 pontos em uma escala de esforo no necessariamente
possui o dobro da resistncia daquele que recebe 2 pontos;
Numrica (Intervalar ou razo): na intervalar o zero absoluto,
ex. peso, e na razo o zero relativo, ex. temperatura. Os
nmeros so realmente nmeros, pode-se somar, multiplicar,
calcular mdia, desvio etc. Podem ser contnuos, como peso, ou
discretos (descontnuos), como nmero de filhos.

Dependncia e independncia entre grupos


Para qualquer uma das escalas de medio, quando feita
comparao entre dois ou mais grupos, eles podem ainda ser:
Pareados
A caracterstica de pareamento (dependncia) remete ao
fato de realizarem-se comparativos do tipo antes e depois
de um procedimento, direito e esquerdo, dois perodos
diferentes etc., para um mesmo grupo de indivduos.
No-pareados
J na situao de no-pareamento (independncia), cada
indivduo participa apenas de uma amostra e analisa-se
resultados perante distintos gneros, sexo, procedimentos,
produtos etc.

Dependncia e independncia entre variveis


Varivel independente aquela que influencia,
determina ou afeta outra varivel. Varivel
dependente tem sua resposta variando em virtude
dos diferentes valores que a varivel independente
pode assumir. Exemplos:
Varivel Independente
Idade dos animais
Deficincia alimentar
Interface digital

Varivel Dependente
comprimento
Dificuldade de aprender
Desempenho do usurio

Variveis extra anlise (covariveis)


Covarivel um fator que se deve neutralizar
intencionalmente para que no interfira na anlise
de relao entre as variveis dependentes e
independentes.
Por exemplo: um grupo de pacientes reagiu
melhor a ao tratamento A, do que outro grupo ao
tratamento B, por conta exclusiva do tratamento ou
porque o primeiro grupo era mais jovem?
Obs.: Tlio fez uma anlise da covariavel sexo na motivao por jogar comparando,
posteriormente, os dois grupos (masculino e feminino).

Testes de hiptese
Quanto a tipologia, os testes so considerados
paramtricos ou no-paramtricos. Os paramtricos
baseiam-se em medidas numricas e sua utilizao
exige que a amostra possua distribuio normal (a
distribuio dos dados simtrica em volta da mdia e,
portanto, podem-se fazer anlises com dados da
prpria amostra: mdia, moda, mediana e desvio
padro).
Alm disso, a varincia dos dados de duas
amostras que se deseja comparar deve ser homogenia,
pois, torna-se difcil, por exemplo, a comparao de
dois grupos com mdias iguais, porm, distribuies
diferentes.
Obs.: Grupos anormais inviabilizam o uso de testes paramtricos (que so mais precisos),
sendo indicado o uso de testes no-paramtricos ou a transformao dos dados em
distribuio normal usando-se transformaes logartmicas.

Normalidade
A distribuio normal, ou Gaussiana, apresenta uma curva em
forma de sino, pois, os dados se concentram em torno de uma mdia
e se dispersam simetricamente a partir desse ponto central.

Em uma distribuio normal, a um desvio padro () da mdia


tem-se aproximadamente 68% do conjunto. Dois desvios padro (2)
representam aproximadamente 95% e trs desvios (3) aproximados
99%.

Normalidade

Alguns autores, como Viali (201-)


consideram que amostras com n > 30
aproximam-se por si s de uma distribuio
normal e podem assim serem consideradas.

Objetivo do teste
Em linhas gerais um teste inferencial feito
para se refutar uma hiptese nula 0
(normalmente de que no existe relao entre dois
fenmenos medidos), tentando-se provar uma
hiptese alternativa .
Para
isto,
deve-se
definir
algumas
caractersticas apresentadas a seguir.

Hiptese nula 0: = , ou seja, nenhuma diferena estatstica


pode ser observada entre as mdias das amostras;
Hiptese alternativa : , ou seja, existe diferena estatstica
entre as mdias;
Nvel de significncia : em geral adota-se = 0,05; que representa
95% de confiana no resultado obtido. Significa que se houvessem
infinitas amostras com hipteses nula verdadeiras, em apenas 5%
delas 0 seria erroneamente rejeitada;
Se o teste unilateral ou bilateral, pois, assumindo a uma
condio < ou > que a 0, a curva de probabilidade encontra-se
em apenas uma das extremidades da distribuio estatstica. Ao se
considerar testes bilaterais, assume-se a possibilidade que a mdia
entre as amostras simplesmente diferente, podendo variar para
mais ou para menos. Na prtica, essa considerao altera os valores
crticos tabelados a serem usados como referncia para aceitar ou
no a hiptese nula.

Interpretando resultados
COMPUTACIONALMENTE
O p-value (ou valor-p), geralmente calculado por softwares, o
menor nvel de significncia com que se aceitaria a hiptese nula. Em
outros termos, um p-value pequeno significa que a probabilidade de
se obter um valor como o observado em determinado teste muito
improvvel, o que sugere a rejeio da hiptese nula. Em outras
palavras:
Se p-value > , ento aceita-se 0;
Se p-value , ento rejeita-se 0.

MATEMATICAMENTE
Deve-se comparar a estatstica do teste usado (mtrica calculada) com
um valor crtico (tabelado). Existem variaes de anlise conforme o
mtodo, mas, em geral:
Se valor calculado > valor crtico, ento aceita-se 0;
Se valor calculado valor crtico, ento rejeita-se 0.

Teste t para uma amostra


Escala de medio: numeral.
Pareamento: no se aplica.
Objetivo: verificar se h diferena entre a mdia
de uma amostra e a mdia de sua populao.
Estatstica do teste: =

Teste t para uma amostra


Exemplo 1) Sabe-se que o tempo mdio da populao de usurios
de terminada interface digital, para realizar uma tarefa especfica,
de 5,7 segundos. Ao serem observados cinco usurios, observou-se
que seus tempos foram: 5, 9, 4, 11 e 8 segundos. Considerando =
0,05 possvel afirmar que a amostra representa sua populao?
Tm-se:
- Hiptese nula
0 : = 5,7s
- Hiptese alternativa : 5,7s (teste bilateral)
- Mdia amostral
= 7,4
- Desvio padro amostral s = 2,88s
Portanto,

7,4 5,7

= 1,32
= =
2,88

Teste t para uma amostra


Comparando com o valor crtico
/2 = 0,025 (teste bilateral)
g.l. = n 1 = 5 1 = 4
Recorrendo a tabela, tem-se tcrtico = 2,776.

Se < , a hiptese nula no pode ser rejeitada.

Portanto, h evidencias de que a amostra analisada


representa sua populao.

Teste de Mann-Whitney
Escala de medio: ordinal.
Pareamento: no pareados (independentes).
Objetivo: verificar se h diferena entre dois grupos.
Estatstica do teste: =

( +1)
1 . 2 . .

2

Obs.: Tlio usou esse mtodo para comparar as motivaes de dois


grupos (homens e mulheres) ao usarem um mesmo jogo digital.

Teste de Mann-Whitney
Exemplo 2) Aps utilizarem dois jogos digitais doze
participantes atriburam ordinalmente as chances
de continuarem jogando-os (de 1 a 10).
Jogo X
Jogo Y
Usurio Escala Usurio Escala
1
3
1
9
2
4
2
7
3
2
3
5
4
6
4
10
5
2
5
6
6
5
6
8

Teste de Mann-Whitney
Passo 1: ordene os escores independente do grupo
Jogo X
Jogo Y
Usurio Escala Ordem Usurio Escala Ordem
1
3
3
1
9
11
2
4
4
2
7
9
3
2
1,5
3
5
5,5
4
6
7,5
4
10
12
5
2
1,5
5
6
7,5
6
5
5,5
6
8
10
Obs.: Quando dois ou mais escores tem o mesmo valor atribui-se como ordem a
mdia dos postos que seriam atribudos a eles caso no ocorresse empate.

Teste de Mann-Whitney
Passo 2: some as ordens das colunas correspondentes a
cada jogo
1 = 3 + 4 + 1,5 + 7,5 + 1,5 + 5,5 = 23
2 = 11 + 9 + 5,5 + 12 + 7,5 + 10 = 55
Passo 3: selecione a maior ordem
Nesse caso = 55

Passo 4: defina ,
O numero de participantes em cada grupo e no grupo que
apresentou a maior ordem, respectivamente:
1 = 6, 2 = 6 e = 6

Teste de Mann-Whitney
Passo 5: calcule o U de Mann-Whitney
= 1 . 2 +

( +1)
.
2

= 6.6 +

(6+1)
6.

55 = 2

Passo 6: determinar a significncia e o


Para uma significncia de 5%, tem-se = 5.

Passo 7: anlise do resultado


= 2 = 5, indica significncia no
teste, ou seja, as classificaes dadas pelos usurios
indicam que h diferena significativa na inteno de
continuar jogando um dos jogos aps os testes.

Significa que, estatisticamente, o indicativo de maior probabilidade de usar um dos


Jogos no foi fruto do acaso. H peso estatstico para assegurar a preferncia por um jogo.

Teste de McNemar
Escala de medio: nominal.
Pareamento: pareados (dependentes).
Objetivo: verificar se h diferena entre dois
grupos.
2
Estatstica do teste:
=

1 2
+

Teste de McNemar
Exemplo 3) Deseja-se verificar a influncia de um jogo
digital sobre determinada habilidade cognitiva em um
grupo composto por 70 indivduos. Esta habilidade foi
classificada como suficiente (s) e no-suficiente (n) antes e
aps o uso do jogo por determinado perodo de tempo
Depois
No-suficiente Suficiente
Suficiente
5 (A)
20 (B)
No-suficiente
15 (C)
30 (D)

Antes
Portanto,
2

1
+

( 5 30 1)
=
= 16,457
5 + 30

Teste de McNemar
Adotando nvel de significncia de 5%, para 1 grau
de liberdade (sempre adotado nesse teste), tem2
se o
= 3,84.

2
2
Como

= 16,457 >
= 3,84;
rejeita-se a hiptese nula de que as avaliaes no
apresentaram resultados diferentes. Portanto,
pode-se afirmar com 95% de confiana que o uso
do jogo causou melhoria na habilidade analisada.

Mtodos / Tlio
Wilcoxon: ordinal para 2 grupos pareados
(comparou escores de motivao para dois gneros de jogos)

Friedman: ordinal para 3 grupos pareados


(comparou subcategorias de um gnero de jogo)
Mann-Whitney: ordinal para 2 grupos no-pareados
(comparou dois grupos feminino x masculino)

Referncias
BAYER, Arno; BITTENCOURT, H.; ROCHA, Josy; ECHEVESTE, Simone. Estatstica e a sua
Histria. In: SIMPSIO SULBRASILEIRO DE ENSINO DE CINCIAS, 12, 2004,
Canoas. Anais... Canoas: SSBEC, 2004. Disponvel em:
<http://www.exatas.net/ssbec_estatistica_e_sua_historia.pdf>. Acesso em: 16 abr. 2014.
SCHIFFMAN, L.; KANUK, L. Comportamento do consumidor. Rio de Janeiro: LTC, 2000.
TRIOLA, Mrio. Introduo estatstica. Rio de Janeiro: LTC, 1999.
VIALI, Lor. Amostragem e estimao srie exatas. Porto Alegre: PUC-RS, 201-. Disponvel em:
<http://www.pucrs.br/famat/viali/graduacao/engenharias/material/apostilas/Apostila_3.pdf>. Acesso
em: 12 nov. 2014.
VIEIRA JUNIOR, Niltom. Atuao junto ao grupo de pesquisa Informtica na educao e o
desenvolvimento de um aplicativo mvel para escolha de testes em anlise inferencial: um guia
matemtico e computacional. 2014. 206f. Relatrio (Ps-doutorado em Informtica) Instituto de
Cincias Exatas e Informtica, Pontifcia Universidade Catlica de Minas Gerais, PUC Minas, Belo
Horizonte, 2014.

You might also like