Bem Vindo!

A mente que se abre a uma nova idéia jamais voltará ao seu tamanho original.

Albert Einstein

sábado, 29 de outubro de 2011

Introdução à Bioestatística


Estatística Descritiva
Etapa inicial da análise utilizada para descrever, organizar e resumir os dados coletados.

O que fazer com as observações que coletamos?
Resumo dos dados = Estatística descritiva



CONCEITOS

POPULAÇÃO
Conjunto de elementos com pelo menos uma característica em comum observável. Ao coletar os dados referentes às características de um grupo de objetos ou indivíduos, tais como as alturas e pesos dos estudantes de uma universidade ou os números de parafusos defeituosos, é muitas vezes impossível ou impraticável observar todo o grupo, especialmente se for muito grande. Uma população pode ser finita ou infinita.

• Finita - Alunos da PUC-MINAS, funcionários da Petrobrás, eleitores do Brasil, etc.
• Infinita - Barris de petróleo produzidos por um poço, nascimentos em uma cidade, etc.


AMOSTRA
Como em muitos casos é impraticável observar a população, recorre-se ao artifício de se coletar um conjunto de realizações que sejam representativas da população. Este conjunto de realizações é denominado amostra.


• População - conjunto dos elementos que se deseja estudar.
• Amostra - subconjunto da população.
Exemplo

POPULAÇÃO:
moradores de uma metrópole
AMOSTRA:
uma parte dos moradores


Por que fazer amostragem?
• Economia
• Menor tempo
• Maior qualidade nos dados levantados
• População infinita.
• Mais fácil, com resultados satisfatórios.





Técnicas de Amostragem
• Amostragem probabilística (aleatória) – a probabilidade de um
elemento da população ser escolhido é conhecida.
• Amostragem aleatória simples
• Amostragem sistemática
• Amostragem estratificada
• Amostragem por conglomerados
• Amostragem não probabilística (não aleatória) - Não se conhece a probabilidade de um elemento da população ser escolhido para participar da amostra.
• Acidentais responder questionário de determinada revista – elementos se auto-selecionam
•Intencionais – grupo de pessoas com determinada doença


Um exemplo de amostra probabilística, também denominada amostragem aleatória, é aquela realizada quando simulamos a retirada de uma bola de uma urna contendo dez bolas.
Considere que tenha dez bolas pequenas numeradas de 0 a 9. A seguir suponha que você retira uma bola, verifica o número que a identifica, por exemplo, o número 3, registra esse número numa coluna de uma planilha Excel e por último retorna a bola para a urna. A seguir, você mexe as bolas dentro da urna, retira uma nova bola e repete o procedimento anterior. Suponha que você continue com esse procedimento até completar um número bastante grande de extrações.
Aleatório =“ao acaso”


Esse tipo de amostragem tem mais uma característica, pois todos os elementos da população têm a mesma chance de serem selecionados. Esse procedimento de amostragem é denominado amostragem probabilística simples. Pode-se utilizar uma tabela de números aleatórios.



Amostragem Sistemática
• Os elementos da população apresentam-se ordenados e são retirados periodicamente (de cada k elementos, um é escolhido).


Amostragem Estratificada
• Usada quando a população divide-se em subpopulações (estratos) razoavelmente homogêneos.
• A seleção em cada estrato deve ser aleatória.


Amostragem por Conglomerados
• Usada quando a população pode ser dividida em subpopulações (conglomerados) heterogêneos representativos da população global.
• A amostragem é feita sobre os conglomerados, e não mais sobre os indivíduos da população.


Viés são erros sistemáticos podem ocorrer quando existem defeitos no desenho do estudo ou nos procedimentos de coleta de dados.
Viés de seleção: quando o processo de seleção é falho, produzindo associação distorcida entre o fator de risco e o desfecho de interesse.


• Para o restante da disciplina, sempre será pressuposto que a amostra foi extraída através de uma amostragem aleatória simples

Inferência Estatística
Se a amostra é representativa, importantes conclusões sobre a população podem ser inferidas de sua análise. Como essa inferência não pode ser absolutamente certa, a linguagem da probabilidade é muitas vezes usada, no estabelecimento das conclusões. O processo de extrair conclusões de uma população inteira com base na informação de uma amostra é conhecido como Inferência Estatística.


Tipos de Variáveis

Variáveis Qualitativas 
Apresenta como característica uma qualidade (ou atributo) do indivíduopesquisado.
  • NOMINAL 
Ex: masculino/feminino
casado/solteiro
diabético/não diabético
fumante/não fumante
hipertenso/não hipertenso
casado/solteiro/divorciado/separado/viúvo
Tipo sanguíneo A/B/AB/O
Os valores são classificadas em categorias ou classes não ordenadas
  • ORDINAL 
Ex.: Lesões classificadas de acordo com a gravidade:
1 – fatal / 2 – severa / 3- moderada / 4 – leve
primeiro, segundo, terceiro, quarto,
 o melhor, o maior etc.
A ordem entre as categorias se torna importante.


Variáveis Quantitativas
Apresentam como características, números resultantes de uma contagem ou
mensuração.

  • CONTÍNUA 
Ex.: peso, estatura, distância percorrida em um teste de esforço etc.
Em geral estão associadas a medidas que tenham unidade (m, kg, l, m/s etc.)
Mensuráveis, não restritos a assumir valor específico (inteiro)
  • DISCRETA 
Ex: número de filhos, consultas/ano, número de medicamentos consumidos, número de repetições
executadas em um exercício, número de gols marcados em uma partida de futebol, quantidade de saltos dados por um jogador em uma partida de voleibol etc.

















ESTATÍSTICA


NOÇÕES DE ESTATÍSTICA


A estatística persegue três finalidades:
_ Sintetizar numerosas medições em um número limitado de dados que possam ser manipuláveis.
_ Realizar estimações e inferências a partir de amostras extraídas da população tendo em consideração a influência do acaso.
_ Ajustar os dados segundo as influências das variáveis de confusão nessas estimações e inferências.

Apresentação dos dados
Tabelas de freqüência, histograma, diagrama de barras, tabulações cruzadas, gráficos pizza ou gráficos de setores.

Tabelas
Após a apuração, há necessidade dos dados serem dispostos de uma forma ordenada, quando possível, e resumida, a fim de auxiliar o pesquisador na sua análise e facilitar a compreensão das conclusões apresentadas ao leitor. 
Os dados podem estão ser apresentados na forma de tabelas estatísticas. Essas devem ser auto-suficientes, isto é, devem ter significado próprio, de modo a prescindir, quando isoladas, de consultas ao texto.
Uma tabela estatística deve conter o número, o título, o corpo e o rodapé (fonte, notas e notas específicas)
Componentes mais importantes de uma tabela:
Título – explica o que a tabela contém
Corpo – formado pelo cabeçalho, pela coluna indicadora e pelas linhas e colunas de dados:
Cabeçalho – especifica o conteúdo das colunas
Coluna indicadora – especifica o conteúdo das linhas.

Histograma
Gráfico que fornece os intervalos de classe ao longo do eixo horizontal e as frequências (absolutas ou relativas) no eixo vertical.
Gráfico de Linhas
É normalmente utilizado para representar uma série temporal, conduzindo a uma interpretação dinâmica do fenômeno estudado.

Gráfico de Setores ou Círculo
Neste tipo de gráfico considera-se apenas uma variável, devendo-se tomar cuidado com a quantidade de categorias a representar, afim de não prejudicar a visualização do gráfico.

Conveniências: Tabelas X Gráficos ?
• Tabelas:
– São convenientes quando há necessidade ou relevância em explicitar todos os valores.
– Quando deseja-se que os parâmetros apresentados sejam conhecidos para fins de aplicação, reprodução etc.
– Quando a comparação entre diferentes colunas de uma mesma linha não correlacionam-se, diretamente, com as demais linhas da tabela.

Gráficos:
– Para um grande número de dados, quando não há relevância na apresentação dos valores, é mais conveniente agrupar os dados e, se possível, grafá-los diretamente. Caso contrário, pode-se gerar uma nova tabela.
– Quando deseja-se avaliar o comportamento,tendências ou a relação entre duas colunas de uma tabela.
– Comparar duas ou mais colunas em relação a uma determinada variável. Neste caso, a apresentação em um único gráfico permite uma rápida comparação.

Dados relacionados a pessoas
• Idade e Sexo são quase sempre utilizados
• Informaçãos sobre idade são geralmente agrupadas em intervalos que irão depender de qual tipo da doença/evento que está sendo estudado.
• Deve ser mostrado em tabelas e gráficos
• Deve olhar para mais de um tipo de dados de uma pessoa ao mesmo tempo.

Dados relacionados ao tempo
• Geralmente mostrado em forma de gráficos 
Número/taxa de casos no eixo (y)
Períodos de tempo no eixo (x)
• Período de tempo irá depender do que está sendo descrito.
• Utilizado para mostrar tendências, sazonalidade, dia da semana/ hora do dia, período epidêmico.

Dados de lugar
• Podem ser mostrados em uma tabela; geralmente melhor representados em um mapa
• Mapas de áreas coloridas com diferentes intensidade de cor para indicar o número/taxa de casos na área.



























ESTATÍSTICA

Testes de Hipóteses 


FINALIDADE DO TESTE DE HIPÓTESES 
A finalidade dos testes de hipótese ou significância é avaliar afirmações sobre os parâmetros populacionais.
Os conceitos que cercam os testes de hipótese tem relação com verificar se as variações que encontramos na nossa amostra são casuais ou são verdadeiras.

Os testes de hipótese se dividem basicamente em dois grupos, paramétricos e não paramétricos.
Paramétricos: comparam variáveis paramétricas (média e variância), e são assim chamados exatamente por inferirem sobre parâmetros populacionais. Exigem que a variável seja contínua e apresente distribuição normal.
Não Paramétricos: aplicáveis para as outras situações.

Há duas hipóteses, que são chamadas de nula, com símbolo H0, e alternativa, com símbolo H1.
A hipótese H0 é a que afirma que não há diferença entre os valores, não há associação entre variáveis, não há diferença entre as médias.
A hipótese H1 é a que oferece uma alternativa à H0, há associação entre variáveis, há diferença entre as médias, uma média é maior ou menor que a outra.





O valor p
Quando fazemos os testes estatísticos em computador, ele nos permite avaliar a significância verdadeira do teste.
O computador nos fornece um valor p, que é, para o valor da estatística calculada, qual seria o valor da probabilidade de cometer o erro do tipo I. 

Portanto, o valor p é a verdadeira probabilidade de se errar ao rejeitar a hipótese nula quando ela é verdadeira. Quanto menor o valor p encontrado, menor a chance de erro e mais significativa é a diferença entre as médias ou proporções.

Nos artigos científicos atuais, já é usual descrever o valor do índice de significância adotado a priori (α) na metodologia e, nos resultados, apresentar o valor p (significância verdadeira calculada). Isto permite ao leitor avaliar de forma mais eficiente a significância estatística encontrada para o teste.

Por exemplo, se o autor do artigo diz que encontrou diferença significativa para p=0,003, sabemos que 0,003 é muito menor que 0,05, e avaliamos o teste como tendo um resultado altamente significativo.
Por outro lado, se diz que não foi encontrada diferença e apresenta o valor p=0,35, sabemos que 0,35 é muito maior que 0,05, e que portanto, dificilmente as médias seriam diferentes. 
O problema é quando se utiliza α=0,05 e encontra-se p=0,049 ou 0,051. Um passa por 0,001 e outro não passa, também, por 0,001.







Estatística ou Bioestatística


Unidade – Testes de Hipóteses 


Teste t-Student

Existe uma distribuição muito parecida com a distribuição normal, que é a distribuição t-Student.
Tal distribuição de probabilidades tem uma curva muito parecida com a da normal padronizada.




Distribuição norma padronizada (linha cheia) e a distribuição t (tracejado)






A utilização da distribuição t pressupõe normalidade dos dados da amostra.
Na prática, para amostras pequenas (n < 30), a população da qual a variável foi submetida à amostragem deve ter distribuição normal para se utilizar a estatística t.
Já para amostras grandes, isto não é necessário.

Assim como para a distribuição normal, existe uma tabela padronizada para a distribuição t, sendo que a utilização se difere da tabela z nos seguintes aspectos :
1. O valor de z na tabela independe do valor de n (elementos da amostra), enquanto o valor de t depende do número de graus de liberdade (gl), que vale n-1
2. Enquanto, para a tabela z, encontra-se a probabilidade de um valor entre 0 e z, para a tabela t, existem probabilidades pré-estabelecidas, e são as probabilidades dos valores acima ou abaixo de t. 

Se não conhecemos o desvio padrão populacional devemos recorrer à distribuição t. Realizaremos então o teste t (na verdade, o teste t será o mais utilizado, pois raramente se conhece o desvio padrão populacional). Para tanto, devemos calcular o t de teste (tt) e compará-lo ao t crítico (tc). O valor genérico do cálculo do valor do tt é:

Teste t para amostras independentes

Onde
SA e SB são os desvios padrões da população A e B, respectivamente,
nA e nB são os tamanhos das amostras tomadas de A e B, respectivamente,
XA e  XB são as médias das amostras tomadas de A e B, respectivamente.
Para encontrarmos o valor do t crítico, precisamos tanto de α quanto do número de graus de liberdade, que é igual a nA+ nB - 2.

Exemplo: Para o VO2max de uma amostra de 12 mulheres encontrou-se o VO2max de 52,8 ml/kg para a média e de 3,2 ml/kg para o DP, e, de uma amostra de 12 homens, um valor de 58,2 para média, e de 4,4 para o DP. Testar a hipótese de que homens têm VO2max maior que mulheres para uma significância de 5%.

Solução:
H0: m1 = m2. Ou, não há diferença entre VO2max de homens e mulheres.
H1: m1 > m2. Ou, homens têm VO2max maior que mulheres.
Como não conhecemos o desvio padrão populacional, podemos usar o teste t. Como a soma dos tamanhos das duas amostras é menor que 30, devemos supor ainda que a distribuição da variável VO2max tem distribuição normal.

Calculando o t do teste:




Precisamos encontrar o t crítico. Recorremos a tabela t, para α=0,05 e 22 graus de liberdade (12 + 12 – 2). Na tabela, encontramos para t o valor 1,717. Como 3,44 > 1,717, ou seja, o t de teste é maior que o t crítico, rejeitamos a hipótese nula, e podemos dizer que Homens têm VO2max maior que mulheres com significância de 5%.


Tabela   -  Valores críticos da distribuição t de Student

P(|t de Student| ³ valor tabelado) = a    Û     Valores bilaterais
G. L.
0.50
0.20
0.10
0.05
0.04
0.02
0.01
0.005
0.001
1
1.000
3.078
6.314
12.706
15.894
31.821
63.656
127.321
636.578
2
0.816
1.886
2.920
4.303
4.849
6.965
9.925
14.089
31.600
3
0.765
1.638
2.353
3.182
3.482
4.541
5.841
7.453
12.924
4
0.741
1.533
2.132
2.776
2.999
3.747
4.604
5.598
8.610
5
0.727
1.476
2.015
2.571
2.757
3.365
4.032
4.773
6.869
6
0.718
1.440
1.943
2.447
2.612
3.143
3.707
4.317
5.959
7
0.711
1.415
1.895
2.365
2.517
2.998
3.499
4.029
5.408
8
0.706
1.397
1.860
2.306
2.449
2.896
3.355
3.833
5.041
9
0.703
1.383
1.833
2.262
2.398
2.821
3.250
3.690
4.781
10
0.700
1.372
1.812
2.228
2.359
2.764
3.169
3.581
4.587
11
0.697
1.363
1.796
2.201
2.328
2.718
3.106
3.497
4.437
12
0.695
1.356
1.782
2.179
2.303
2.681
3.055
3.428
4.318
13
0.694
1.350
1.771
2.160
2.282
2.650
3.012
3.372
4.221
14
0.692
1.345
1.761
2.145
2.264
2.624
2.977
3.326
4.140
15
0.691
1.341
1.753
2.131
2.249
2.602
2.947
3.286
4.073
16
0.690
1.337
1.746
2.120
2.235
2.583
2.921
3.252
4.015
17
0.689
1.333
1.740
2.110
2.224
2.567
2.898
3.222
3.965
18
0.688
1.330
1.734
2.101
2.214
2.552
2.878
3.197
3.922
19
0.688
1.328
1.729
2.093
2.205
2.539
2.861
3.174
3.883
20
0.687
1.325
1.725
2.086
2.197
2.528
2.845
3.153
3.850
21
0.686
1.323
1.721
2.080
2.189
2.518
2.831
3.135
3.819
22
0.686
1.321
1.717
2.074
2.183
2.508
2.819
3.119
3.792
23
0.685
1.319
1.714
2.069
2.177
2.500
2.807
3.104
3.768
24
0.685
1.318
1.711
2.064
2.172
2.492
2.797
3.091
3.745
25
0.684
1.316
1.708
2.060
2.167
2.485
2.787
3.078
3.725
26
0.684
1.315
1.706
2.056
2.162
2.479
2.779
3.067
3.707
27
0.684
1.314
1.703
2.052
2.158
2.473
2.771
3.057
3.689
28
0.683
1.313
1.701
2.048
2.154
2.467
2.763
3.047
3.674
29
0.683
1.311
1.699
2.045
2.150
2.462
2.756
3.038
3.660
30
0.683
1.310
1.697
2.042
2.147
2.457
2.750
3.030
3.646
31
0.682
1.309
1.696
2.040
2.144
2.453
2.744
3.022
3.633
32
0.682
1.309
1.694
2.037
2.141
2.449
2.738
3.015
3.622
33
0.682
1.308
1.692
2.035
2.138
2.445
2.733
3.008
3.611
34
0.682
1.307
1.691
2.032
2.136
2.441
2.728
3.002
3.601
35
0.682
1.306
1.690
2.030
2.133
2.438
2.724
2.996
3.591
36
0.681
1.306
1.688
2.028
2.131
2.434
2.719
2.990
3.582
37
0.681
1.305
1.687
2.026
2.129
2.431
2.715
2.985
3.574
38
0.681
1.304
1.686
2.024
2.127
2.429
2.712
2.980
3.566
39
0.681
1.304
1.685
2.023
2.125
2.426
2.708
2.976
3.558
40
0.681
1.303
1.684
2.021
2.123
2.423
2.704
2.971
3.551
41
0.681
1.303
1.683
2.020
2.121
2.421
2.701
2.967
3.544
42
0.680
1.302
1.682
2.018
2.120
2.418
2.698
2.963
3.538
43
0.680
1.302
1.681
2.017
2.118
2.416
2.695
2.959
3.532
44
0.680
1.301
1.680
2.015
2.116
2.414
2.692
2.956
3.526
45
0.680
1.301
1.679
2.014
2.115
2.412
2.690
2.952
3.520
46
0.680
1.300
1.679
2.013
2.114
2.410
2.687
2.949
3.515
47
0.680
1.300
1.678
2.012
2.112
2.408
2.685
2.946
3.510
48
0.680
1.299
1.677
2.011
2.111
2.407
2.682
2.943
3.505
49
0.680
1.299
1.677
2.010
2.110
2.405
2.680
2.940
3.500
50
0.679
1.299
1.676
2.009
2.109
2.403
2.678
2.937
3.496
60
0.679
1.296
1.671
2.000
2.099
2.390
2.660
2.915
3.460
70
0.678
1.294
1.667
1.994
2.093
2.381
2.648
2.899
3.435
80
0.678
1.292
1.664
1.990
2.088
2.374
2.639
2.887
3.416
90
0.677
1.291
1.662
1.987
2.084
2.368
2.632
2.878
3.402
100
0.677
1.290
1.660
1.984
2.081
2.364
2.626
2.871
3.390
110
0.677
1.289
1.659
1.982
2.078
2.361
2.621
2.865
3.381
120
0.677
1.289
1.658
1.980
2.076
2.358
2.617
2.860
3.373
¥
0.674
1.282
1.645
1.960
2.054
2.326
2.576
2.807
3.290










P(t de Student ³ valor tabelado) = a    Û     Valores unilaterais


OBS.:(1) G. L. = Graus de Liberdade 

(2) Para valores à esquerda, i. é, teste unilateral à esquerda 
(ou mesmo bilateral), basta trocar o sinal dos valores da tabela,
 pois a distribuição t é simétrica em torno de zero.