Khetyma, Rodrigo, Emanuel, Ludimila, Julieth, Roberta, Andressa, Daniely, Mayara, Ramon, Dulce, Géssica, Fabrício.
Checklist.
CREIO que se o meu futuro for semelhante aos meus passados então eu posso prevê-lo com p ou P. Declaro que minha hipótese (H1) é estatísticamente significativa (*) se P (soma dos erros possíveis, os p_zinhos) < α (nível de significância que é de 0,05 na área da Saúde).
1º- Suplementos: Vamos precisar de ferramentas para trabalhar nos dados (nomes, números, vazios): Computador, Excel, Suplementos do Excel, SPSS, R, Epi Info, STATA, etc...
2º- Tabela: A tabela é feita Linhas (registros, não confunda com os sujeitos!) de Colunas (variáveis). Os 4 tipos de variáveis são qualitativas e quantitativas:
Nominal (nome), Ordinal (ordem), Intervalar (entre) e Razão (divisão)
Exemplos: Grupo (nominal), Sequencial (ordinal), Peso (intervalar) ou Pessoas/sala (Razão).
3º- Estatística descritiva: Namorando os dados...! A ED é MUITO fácil, quem faz é a máquina, ela dá média, variância, min, máx, IC?[95%], mediana, moda, frequência, etc para cada variável.
Hipótese H1: Quer comparar quem com quem? Só sei se o grupo A > B ou se A está dentro de um intervalo.
1º- 1 variável nominal binária com outra esperada? Teste de adesão ao X2. (moeda)
2º- 2 ou mais variáveis nominais? Teste de comparação do X2. (moeda x dado)
3º- 1 nominal binária (pareadas?) com resultados intervalares Normais? Teste t de Student. (cont x exp).
4º- 3 ou mais nominais com resutados intervalares Normais (paramétricos)? Shapiro, Levene, ANOVA e os post hoc como o velho e Bonferroni. (grp_1 x grp_2 x ... x grp_n).
5º- 3 ou mais nominais com resutados intervalares não paramétricos? Veja no site...

Hipótese H1: O que é que vc quer? Só sei calcular Odds Ratio e Coeficiente angular.
6º - Determinar se o Odds ou Chance (não p de probabilidade: %) de uma determinada variável nominal interferir no Outcome (desfecho) nominal? Regressão logística.
7º - Determinar o impacto (coeficiente angular) que uma determinada variável intervalar Normal independente interfere no Outcome intervalar? Regressão Linear (HILE Gauss).
Suplementos.
http://www.real-statistics.com/free-download/real-statistics-resource-pack/
Tabela. IC?[95%].
SE a distibuição é Normal, o IC da média da amostra é o [intervalo] onde, com 95% de certeza, se encontra a VERDADEIRA média (µ da população). Não confunda com o IC das medidas da amostra [X̅±1,96DP], se vc usar 2DP é porque sua população só tem 62 sujeitos ou 3,18DP se N = 3!. A Margem de erro/Erro padrão = t crítico bicaudal com n-1 graus de liberdade.
Teste do Χ2.
Era p'ra dá 50, deu 41, e aí? Tá dentro do esperado?
Repita 'n' vezes o experimento e mostre que <5% estão fora [não entre] do IC[95%] que vc previu!
Teste t.
Se o Teste t é unilateral à direita (X̅A > X̅B) e o Stat t > tcrítico (que depende dos graus de liberdade (gl), então P < α. Lembre-se de usar este exemplo na Regressão Logística :))
Regressão logística
Nominal (var dependente ou desfecho) ASSOCIADA x Var independente(s). O objetivo é determinar o(s) coeficiente(s) angulares e assim calcular o Odds (chance) = nro Sucessos / nro Fracassos (0:infinito). Probabilidade (p) = nro Sucessos / (nro Sucessos + nro Fracassos) (%).
. Regressão linear
É linerarmente proporcional?
Intervalar (var dependente) x Intervalar (var independente). A equação Cº = 1,8*Fº + 32 é usada para RELACIONAR as duas escalas de medidas, assim como Altura x Idade, Peso x Altura, etc.
. O Modelo.
Visão geral
Estatística é o estudo do futuro dos pretéritos: n ≥ 2 (História ⇒ Padrão ⇒ Previsão).
H0: H1 é falsa. H1: é a sua hipótese estatística. α = 0,05 (5%).
O Nível de significância (α) é a intolerância a erros (≥5%)
Aumentar a exigência (altura do sarrafo) é diminuir o nível de significância α.
O quê significa "Se errar eu baixo o sarralfo!", que o α aumenta ou diminui?
O Preconceito muda o valor de α? E o que dizer de "tolerância zero"?
definido pelo Editor da Revista.
O seu Pzão é a medida da comparação... é a soma de todos os erros possíveis, os pzim indesejados.
α de Mãe
H0: Não há diferença na média de altura entre H e M (X̅H - X̅M = 0).
H1: A altura média de H é maior que a de M (X̅H > X̅M) para α = ?
= 0,5; Humanas = 0,30; Saúde = 0,05; Exatas = 0,01; Inimigo = 0,0000...
; P < α do Editor
Divida o trabalho em 5 metades sequenciais: 50%, 25%, 12,5%, 6,25% e 3,125%.
50% - Na tabela_mãe identifique a unidade de mensuração (Nominal, Ordinal, Intervalar ou Razão).
75% - Calcule o valor da "Stat": z, t, F (paramétricas) ou Χ2, U, T, W, H, q (não paramétricas)...
87,5% - Estabeleça a Hipótese H1 (seu objetivo estatístico), ela é quem vai determinar o Valor crítico.
93,75% - Em geral, se o valor Stat > Valor crítico então P < α=0,05 (o alfa da Saúde) escreva o Paper.
96,875% - Reze para que o Paper ser aceito, vc já fez a sua parte (mais de 95% do trabalho, P < α)...
Apresentação.
1º) Tabela mãe.
1- Tipo de amostragem? Aleatória ou determinística. 2- N da amostra? #TCLE. 3- n de mensurações? #Linhas-1. 4- n de variáveis? #Colunas. 5- Tipos de variáveis? NOIR. 6- n de cada grupo? Balanceados ou não. 7) Relação entre grupos? Pareadas ou não. 8- Distribuição de frequência? Paramétrica ou não. 9- Quanto às variâncias? Homo ou heterocedásticas. 10- Hipótese H1? H0: H1 é falsa. α = 0,05
2º) Desenho experimental. 3º) Desenho analítico. 4º) Resultados.
N(µ; σ).
Feliz aniversário Gauss
N(0;1) = 1/RAIZ(2*PI())*EXP(-(A2^2/2))
"príncipe da Matemática" e viva à mais famosa f.d.p.
#sóumapessoanormalentendeanormal.
t(gl; x̅; s).
Feliz aniversário William "Student" Gosset (das f.d.p. e dos testes), nossas lembranças
à sua numerosa família "t"
Y0 = ((EXP(LNGAMA((A2+1)/2)))/((3,14*A2)^0,5*(EXP(LNGAMA(A2/2))))), onde A2 = gl
, em especial à sua primogênita "Cauchy"
DR(S; pD2).
DRac (S, pD2) = 1/(1+C$1^(C$2-A2)). O coeficiente S = 10^coeficiente de Hill.
χ2(gl; Nα/2)
Feliz aniversário Ernst Abbe (Χ2 → N) e Karl Pearson (dos testes de aderência e independência).
Faça X2 = z2, para 1 gl, gere uma N(0;1), X2α/2 = área da N(0;1)±z, i.é, "área entre ±z" ou D2=1-DIST.QUI(B2;1)
. τ2(1gl; B(n;p); tα/2).
A distribuição (tau) τ2 usa a distribuição t e a binomial p'ra corrigir o valor crítico do χ2 para amostras pequenas e também serve p'ra "discretizar" as t. Ex: t(20,0,1) de [7:13] temos 7 intervalos, cada "dente" com base = RAIZ(2,715)*2/7 = 0,47, ou ainda, INV.T.BC(1-0,885;20) = 1,648. Qui tau? Legal?
Qual o Objetivo de um Pesquisador? Achar um P < α (exigência do Editor) p'ra publicar e manter a bolsa de $Pesquisa, p'ra isso, tem que ter uma Tabela mãe
O título da Tabela deve conter: 1- o Quê, 2- Quem, 3- Onde e 4- Quando.

p'ra poder fazer o Teste de Hipótese H0: H1 é falsa x H1: Stat X > Xc, α = 0,05
e achar o P que é a soma de tudo que pode dar errado e a Tabela mãe é o Legado... p'ra Posteridade.
aplicando o Teste estatístico adequado concluímos que (H1: X̅A > X̅B; α=0,05) a média do
grupo A é maior que
Stat Z > 1,645 é o valor mínimo (crítico) p'ra rejeitar H0 unilateral à direita com (α = 0,05).
Stat Z > 1,96 é o valor mínimo (crítico) p'ra rejeitar H0 bilateral com (α = 0,05).
Lembre-se: o cálculo do valor de z ou t (Stat z ou t) não depende de H0. Calcule Stat t na unha.
Se o valor de t (Stat t) é maior que o t crítico (unilateral, à direita), rejeitamos H0.
média do grupo B ao nível de significância
Área entre [-1:1] ≅ 68% (grande maioria); entre [-1,96:1,96] ≅ 95% (imensa maioria ou α=0,05),
entre [-3:3] ≅ 99% (praticamente todo mundo). IC[95%] = X̅ ± 1,96*epm = X̅ ± margem de erro.
Área de -oo:0] = 50%; de -oo:1] ≅ 84%, de -oo:1,645] ≅ 95% i.é, α = 0,05(*).
Se Stat Z=1,8>1,645 rejeito H0 unilateral para α=0,05 mas não para α=0,01(**), Zc=2,326.
Densidade da frequência (φ=0,242) = Frequência da classe (0,95) / Largura da classe (2*1,96)
(α)
X ~ t(gl; X̅; S). William 'Student' Gosset corrigiu a margem de erro (±tc-bi*epm) para amostras pequenas.
Se n=4, X~t(3;0;1), α=0,05, então, o IC(95%)=X±tc-bi(α/2;gl)*S/√n = 0 ± 3,18 * 1/√4 = [-1,59:1,59].
Observe que se α = 0,05 e o teste é à direita, então o tc estará entre 6,314 e 1,645 (gl de 1 a infinito).
e, por isso, rejeitamos H0.
Quer dizer que se pode rejeitar H0 quando ela é verdadeira? Sim.
Sim, o teste acredita que a amostra representa a população. Problema?
...Em estudos não-randomizados e não-pareados, o pesquisador aprende e introduz o viés (bias) de medida e, por isso, o desvio padrão diminui e assim aumenta a probabilidade de um P legal!.

Quanto maior o 'n' (tamanho da amostra) maior a certeza e menor o Erro tipo I e tipo II.
Viva errei e isto prova que sou humano uma vez que "Erá é umano!"
Compreensão e perguntas desconcertantes...
... a Lista (material e métodos) ...
1- Que tipo de pesquisa você faz?
2- Quais os critérios de inclusão/exclusão?
3- Quanto é o número total (N) da amostra?
4- Quantos grupos e qual o 'n' de cada um deles?
5- Quantas e quais são as variáveis (aleatórias) avaliadas?
6- Relacione as interferências e as medidas numa linha de tempo...
 Protocolo de pesquisa x Projeto de pesquisa 

02- Classificar os tipos de projetos de pesquisa.
 D) Objetivos. E) Descrição detalhada da metodologia proposta. F) Casuística (amostragem). 
I) quanto a área científica: 1- Ciências exatas (α = 0,01), 2- Ciências biológicas (α = 0,05), 3- Ciências humanas (α = 0,30).
II) quanto aos objetivos: 1- teórico, 2- metodológico, 3- observacional, 4- experimental/intervencional, 5- confirmatório.
    1- Estudo teórico: 1- definição de leis, 2- sistemas estruturados e 3- modelos teóricos.
    2- Estudo metodológico: 1- desenvolvimento de metodologia científica, 2- comparação (confiabilidade) entre métodos.
    3- Estudo experimental: 1- fisiológico, 2- farmacológico, 3- físico, 4- químico...
    4- Estudo de caso retrospectivo: 1- observacional...
    5- Estudo epidemiológico observacional: 1- descritivo (de prevalência), 2- analítico (de incidência)...
    6- Estudo de caso prospectivo: 1- observacional, 2- intervencional...
    7- Estudo epidemiológico intervencional: 1- ensaio clínico, 2- ensaio comunitário, 3- o famoso RCT...
    8- Estudo confirmatório ou teste de hipóteses clínicas...
III) quanto à Hipótese de pesquisa H1: 1- eXperimental/intervencional: Grupos, 2- observacYonal: Desfecho.
IV) quanto à escala de mensuração da variável
Uma variável é um subconjunto das características da população!
Cada variável mensurada tem que ter uma unidade. Se a análise é sobre 1 só Variável (Univariável) compara grupos amostras (previamente definidas como pareadas ou independentes) com unidades iguais. Se 2 é Bivariável (2 Populações), se compara amostras com unidades diferentes p'ra saber se são pareadas (uma delas é variada) ou independentes. Se 3 ou mais é multivariável (≥ 3 Populações), se compara a importância de amostras independentes com 1 ou mais amostras pareadas (desfecho).
: nominalordinalintervalar razão, ão, ão, ão
    1- Quantitativa (métrica) razão: numerador/denominador. Ex: pessoas/sala, mg/mL...
    2- Quantitativa (métrica) intervalar: Intervalos (diferenças). Ex: tempo, temperatura (°C, ºF), densidade, QI...
    3- Qualitativa (categórica) ordinal: Classe ordenada. Ex: estágio (inicial, terminal); escolaridade (1º, 2º, 3º grau)...
    4- Qualitativa (categórica) nominal: Classe não-ordenada. Ex: sexo, cor dos olhos (azul, marrom, verde), doente/sadio...
    5- Dados censurados...
VII) quanto ao tipo de amostragem
Amostragem “é uma técnica e/ou conjunto de procedimentos necessários para descrever e selecionar as amostras, de maneira aleatória ou não, e quando bem utilizado é um fator responsável pela determinação da representatividade da amostra em relação à População.” (LEONE, Rodrigo. ET AL, 2009).
Amostra aleatória que dizer que a Amostra foi obtida por um processo de Amostragem aleatória.
Variável aleatória quer dizer que uma das características (variável) da População representada na Amostra foi obtida por um processo de Amostragem aleatória.
:
1- aleatória ou probabilística = representa a população, 2- determinística.
VI) quanto ao tamanho 'N' das amostras
Amostra é um subconjunto da população com uma determinanda característica (variável)!
A confusão entre amostra e grupo tem a ver com a(s) variável(is). Quando se analisa apenas 1 variável a amostra se são subdivididas em grupos, se não há subdivisão ela continua sendo chamada de amostra. Quando se compara 2 ou mais variáveis as amostras são chamadas de... amostras!
: 1- balanceadas ('N' semelhantes), 2- não-balanceadas ('N' diferentes).
V) quanto ao relacionamento entre os grupos
Grupo é um subconjunto de uma amostra
Quando só se tem uma amostra de uma variável intervalar, além da Estatística descritiva, podemos ainda recorrer a técnicas de agrupamento usando, por exemplo a Equação de Sturges.
(subconjunto de uma amostra): 1- pareado, 2- independente.
VII) quanto à técnica de mascaramento: 0- ausente, 1- na intervenção, 2- na coleta de dados, 3- na análise estatística.
IX) quanto a origem dos dados: 1- fonte primária, 2- fonte secundária, 3- fonte terciária.
X) quanto ao procedimento: 1- histórico, 2- estatístico, 3- estruturalista, 4- funcionalista, 5- comparativo e 6- monográfico.
XI) quanto ao número de instituições envolvidas: 1- estudo monocêntrico, 2- estudo multicêntrico.
      1- Estudo monocêntrico: Normalmente é um ensaio clínico que ocorre em apenas uma instituição médica sob a responsabilidade de um pesquisador principal.
      2- Estudo multicêntrico: Normalmente são ensaios clínicos que ocorrem em mais de uma instituição médica sob a responsabilidade de um pesquisador coordenador.
 O número participantes da amostra 


 as amostras experimentais 





 Faça agora 
... a Lógica (introdução e objetivos) ...
1- Como uma determinada variável Xi se relaciona com seu objetivo Y? (outcome)
2- Não enrole: Quais são os fatores (variáveis) diretamente relacionados com a SUA variável Y? (causa mortis)
3- Se eu não O vi com meus próprios olhos E não O tocar com as minhas próprias mãos, não vou acreditar. (Jo 20:25)
... a Sentença (resultados e conclusões) ...
1- Qual o tipo teste (paramétrico ou não-paramétrico)?
2- Quantas variáveis serão analisadas de cada vez (1, 2 ou mais)?
 Estatística descritiva univariada ou dedutiva: who, what, when, where. 
Teoria das probabilidades → pzim = ndesejado/npossíveis
não confunda com Chance (Odds) = ndesejado / nnão-desejado = p%/(100-p%)
A- Tamanho da amostra (n), da população (N), margem de erro (5%), poder do teste, σ, p
E. Intervalo de confiança [1-α]% para X̅, p, S, etc: Se este tópico não ficar claramente entendido, desista!...
   1- Para os valores de uma amostra grande com distribuição N: IC[95%] dos valores Z = µ ± Z(α/2)*σ (α = 0,05)
A curva de Gauss, a última das curvas t com valor crítico (α = 0,05) bilateral de 1,96, não 1,98!!!.
Se a área total é 1, então, de -oo até 0 = 0,5, concluímos que até 1,96 a área total é 0,5 + 0,95/2 = 0,975, em outras palavras, é 0,95 + 0,025 à esquerda. Densidade na prática!

A curva Dose-Resposta farmacológica.

   2- Para os valores de uma amostra pequena (n<30) com distribuição t: IC[95%] dos valores t = X̅ ± t(gl, α/2)*S
   3- Para a média (X̅) com variância populacional (σ2) conhecida: IC[95%] da X̅ = X̅ ± Z(α/2) * EPM (EPM = σ/√n)
Cuidado, este IC[95%] só serve para confundir..., se o valor crítico é 1,96 (α = 0,05, bilateral) então no 'n' tem que ser muito, muito alto, a última das curvas t.

   4- Para a média (X̅) com variância (σ2) desconhecida: IC[95%] da X̅ = X̅ ± t(gl; α/2) * EPM (EPM = S/√n)...
   5- IC relativo X̅a e X̅b com distribuição t: Representação gráfica do Teste t de Student...
Intuitivamente sabemos que se os IC das médias não se sobrepõem, o P < α, mas, isto não quer dizer que se eles se sobrepõem o P não possa ser menor que α, a menos que se use estes IC relativos.
         IC[95%] relativo de X̅a = X̅a ± t(gl, α/2) * MEr, onde, MEr = (S2a/na) * ((S2a/na + S2b/nb)^-0,5)
         IC[95%] relativo de X̅b = X̅b ± t(gl, α/2) * MEr, onde, MEr = (S2b/nb) * ((S2a/na + S2b/nb)^-0,5)

   6- Para os valores de uma amostra (n) dicotômica com p = 0,5: IC[95%] dos valores = n/2 ± 0,98*√n
   7- Outros tipos de IC...

F. Modelos probabilísticos (Função de densidade e de DISTRIBUIÇÃO de probabilidade)
   1- A variável é quantitativa (intervalar ou razão) para calcular os parâmetros (coeficientes ou pesos)!!!
      1.1- A variável tem distribuição normal de Gauss, X ~ N(µ; σ)
X ~ N(µ; σ). A abscissa é z e a ordenada é a densidade de probabilidade.
Entre (bilateral): Área entre [-1:1] ≅ 70% (grande maioria); entre [-2:2] ≅ 95% (melhor [-1,96:1,96]), a imensa maioria), entre [-3:3] ≅ 99% (praticamente todo mundo).
Até (unilateral): Área até [-oo:0] = 50%; até [-oo:1] ≅ 84%, até [-oo:1,645] ≅ 95% ou α = 0,05(*).
Função de DISTRIBUIÇÃO (1-α) de probabilidade da Normal
Se X~N(0;1), teste unilateral à direita, α = 0,05 e z > zc (1,645) então P (tem que ser!) < α e, portanto, rejeitamos H0.
, α = 0,05, zc: unilateral à direita (1,645), bi (±1,96).
      1.2- A variável tem distribuição t de Student
À medida que o 'n' da amostra aumenta (graus de liberdade, lembre-se que cada gl é uma curva), a distribuição da "família" t de Student se aproxima da Normal (Teoria Central do Limite). A t com 1 gl (n = 2) é chamada de Função de densidade probabilidade de Cauchy. Ex: para 3 gl, 95% dos sujeitos da amostra estão entre ±3,18 s, já se for até (unilateral, acumulado) à direita, o valor é tc = +2,353. Função de DISTRIBUIÇÃO (1-α) das curvas t de Student.
Se X1 e X2 ~ t(gl; x̅; s), gl = 1; Stat t (t calculado) > tc (6,314) então P < α e, por isso, rejeitamos H0. De fato, se o teste é unilateral à direita (H1: Média do Grupo A > Média do Grupo B; α=0,05. H0: H1 é falsa) e t > 6,314, SEMPRE rejeitaremos H0.
, X ~ t(gl; X̅; S), α = 0,05, tcuni (1,645:6,314); tcbi (±1,96:±12,71).
      1.3- A variável aleatória tem distribuição qui-quadrado
A função Χ2 é de Ernst Abbe (1840-1905), físico alemão, usado por Karl Pearson (Testes de Aderência e de Independência) e pelo Bonner do JN. Lembre-se que na Normal, ±1,96 desvio-padrão (bilateral) contém 95% da população (α = 0,05) e, 1,962 = 3,84, que é o valor crítico do Χ2 com 1 gl. Já para 68% da população (α = 0,32), z = ±1, o valor crítico do χ2 = 12 com 1 gl. Função de densidade de probabilidade do χ2
À medida que o 'n' da amostra aumenta... se aproxima da Normal.
Atenção: As cores das curvas densidade x DISTRIBUIÇÃO não estão batendo.
, X ~ χ2(ν; Ei), v = 1 é filha "quadrática" da Normal.
      1.4- A variável tem distribuição
F de Fisher-Snedecor
≈ Qui-quadrado. Adequadas para representar a Concentração plasmática x tempo de uma ingestão um fármaco (é assimétrica à direita ou curtose positiva já que Média > Mediana > Moda), lembra?
Função de DISTRIBUIÇÃO (1-α) de probabilidade F.
, X ~ F(m; n), ANOVA e [Plasmática] x tempo ⇒ ASC.
      1.5- A variável tem distribuição Dose-Resposta
X ~ DR(S; pD2), onde S = 10 e pD2 = 0 e Y0 = 0,576.
Área entre [-1,59:1,59] ≅ 95%. Área de -oo até 1,27] ≅ 95%.
Densidade da frequência (φ±1,59 = 0,299) = Frequência da classe (0,95) / Largura da classe (2*1,59)
, X ~ DR(S; pD2), Curva dose-resposta farmacológica.
      1.6- Outras funções probabilísticas intervalares...
   2- A variável é categórica (ordinal ou nominal) (Bernoulli, binomial, Poisson...)
      2.1- A variável é binária (nominal dicotômica), ex: cara/coroa, morreu/sobreviveu, presente/ausente, certo/errado)
         2.1.1- A variável aleatória tem distribuição de Bernoulli, X ~ Be(p), filha da Binomial quando n = 1.
         2.1.2- A variável aleatória tem distribuição Binomial
Onde μ = n.p; σ = (n.p.q)0,5. Lembrar da correção de continuidade (acrescentar ou reduzir 0,5 da variável aleatória), utilizado para melhorar a aproximação de uma variável aleatória discreta pela distribuição normal que é contínua.
, X ~ B(n; p), sim/não, cara/coroa, deu ou não deu...
      2.2- A variável é politômica, ex: faces de um dado: face_1 a face_6, altura: alta/normal/baixa
         2.2.1- A frequência pode ser representada por uma distribuição Geométrica, X ~ Ge(p)
         2.2.2- A variável aleatória tem distribuição de Poisson
≈ Weibull. À medida que a 'n' aumenta,... observe ainda que, fixado um tempo, a probabilidade de NÃO ocorrência de eventos neste intervalo é reduzido para uma Exponencial.
, X ~ P(k; λ), nro de eventos/unidade de tempo, /área.
         2.2.3- A variável aleatória tem distribuição Reverberativa, X ~ f(α)(C; F0; w0; m)
   3- A variável é recorrente temporal... Série temporal
Série temporal com previsão por passo simples - previsão com base na média de 2 intervalos anteriores.
(Estudo dos ciclos: cardíaco, respiratório, uréia, Krebs, etc.)
     Renda familiar é um bom exemplo de agrupamento de uma intervalar em ordinal.
     No estudo descritivo, as variáveis podem ser agrupadas em classes (distribuição de freqüência) ou por categorias (tabelas de contingência). Neste caso a variável resposta e a freqüência de cada classe ou categoria;
     Uma variável não métrica é analisada por categorias;
     Uma variável métrica pode ser analisada por classes. Assim pode-se categorizar uma variável métrica;
     Assim, analise previamente suas variáveis e defina quais serão analisadas por categorias;
     Se você quiser desejar cruzar duas variáveis categorizadas você tem um exemplo de Tabela cruzada ou tabela de contingência.
&   Objetivo: Identificação de grupos homogêneos com base em determinadas características.
   1- Métodos de agrupamento por partição: criam os K melhores grupos, este K é imposto à partida da modelagem.
   2- Métodos de agrupamento hierárquicos: agrupa-se todos os casos em K’s grupos desconhecidos de partida.
      2.1- Dado um conjunto de 'n' observações, qual a equação usada para se determinar o número de grupos? Nº de classes: K = 1+3,222 log n (em geral: 5-20), chamada Equação de Sturges. Ex: n = 100, então, K = 1 + 3,222 log 100 = 7,444 (7 ou 8).
      2.2- Medidas de distância.
      2.3- Método de aglomeração... (lembrar a SES: medir a percepção da pobreza usando os bens da favela do Papôco!)
      2.3- Standartização.
      Regras para formação de blocos de variáveis discretas ou contínuas... 1- As variáveis devem ser ordenadas em relação ao desfecho em "menor - pior", "maior - melhor", "menor - melhor" ou "maior - pior", ex: se o desfecho é desnutrição, quanto maior o valor do manitol, pior, o inverso para a lactulose.
2- Variáveis com "k" classes de respostas não podem fazer parte de classes superiores, ex: uma variável dicotômica, sem repetição, não pode ser classificada em 3 classes de repostas, já uma de 3 pode ser grupada e reduzida a 2.
3- Se for decidido dividir os resultados dicotômicamente, deve-se procurar balancear as classes, ex: 1,2,2,3,3,3,4. 1,2,2 é classificada como 0 e 3,3,3,4 como 1.
     Regressão curvilinear: Variável contínua não-linear, modela-se a variável como categórica a partir dos cut off (pontos de corte) ou baseados em quartis.


 Estatística analítica bi ou multivariada, comparativa ou indutiva: why. 
Testes de Hipóteses (H0 x H1) → Pzão = AUC = ∑pzimindesejados
-- Análise de grupo(s) (nominal) de 1 variável (univariada) amostrada aleatóriamente --
Antes de tudo faça os seguintes testes (comparações) e Torça para aceitar H0!!!!!!
H0: A distribuição de frequência é Normal e as variâncias são homocedásticas se P<0,05.H1:H0 é falsa.
A. Teste de aleatóriedade para uma amostra, a estranha história da Moeda balanceada e desonesta...
   H0: A sequência da amostra é aleatória. H1: H0 é falsa. α=0,05. A amostragem é aleatória ou determinística?
      1- Teste de sequência para uma amostra, nominal, Transformação z ou t ...k,c,k,k,c,c,k,k,k,c,c,c,k,k,k,k,c,c,c,c...
      2- Outros testes de sequência...
B. Intervalar, 1 grupo de cada vez, testes de ajuste ou goodness-of-fit, compara com o "padrão-ouro".
      H0:A; X̅B; ... X̅K ~ N(µ, σ). H1: H0 é falsa. α=0,05. A amostra é paramétrica (coeficientes) ou não-paramétrica?
         1- Teste de aderência de Shapiro-Wilk
Atenção: A hipótese H0 é que a distribuição de frequência dos dados é NÃO-PARAMÉTRICA!!!
http://sdittami.altervista.org/shapirotest/ShapiroTest.html
, intervalar, Stat W
Tabela da estatística W, cuidado p'ra não se confundir com a Estatística Wald (da Logística)!
, é o preferido por mais de 95% dos usuários (P<0,05)...
      H0: S2A = S2B = ... = S2K. H1: H0 é falsa. α=0,05. As variâncias são homocedásticas ou herterocedásticas?...
         1- Teste de Levene, intervalar, Stat F, testa a homocedasticidade (cedástico = dispersão) das variâncias...
         Testa a diferença de variâncias entre 2 ou mais grupos e precede a decisão do uso do teste t não-pareado. É mais eficiente que o teste de Bartlett quando rejeitamos a hipótese de normalidade.
         1- Teste de aderência ao χ2, nominal, Stat χ2.
      H0: n1 = n2 = ... = nk. H1: H0 é falsa. α=0,05. Os grupos são balanceados ou desbalanceados?
     Não confunda transformação de escala intervalar em agrupamento (formação de classes ou categorias).
     1- Tipos de transformações mais frequentes.
     2- Transformação logit - é relacionada com a propriedade da regressão logística de ser linearizada.
     3- Transformação probit - obtida transformando E(Y) por meio da distribuição normal acumulada e limitado a apenas uma variável preditora.
     4- Complemento log-log - Diferentemente das transformações logit e probit, esta transformação não é simétrica em torno de E(Y) = 0,5.

Testes paramétricos para comparar a variável intervalar (normal) que vc mediu entre os grupos (nominal) que vc criou
H0: H1 é falsa. H1: A diferença das médias entre os grupos é significativa se P < 0,05.
A. 1 amostra (intervalar) com X ~ N(µ; σ): IC[95%] da média...
   1- Teste para comparar a média (X̅) da amostra com um dado valor ou com a X̅ da População ...5, 7, 4, 50?, 6, 7, 4...
   Modelo: Os valores da pesagem de 3 animais foi 250±10 gramas. Um animal com 250 gramas pode NÃO fazer parte desta amostra com α = 0,05? Às vezes vc precisa "sacrificar" um resultado e esta é uma excelente justificativa... H0: H1 é falsa. H1: 250 ∉ IC[95%]. α = 0,05. Se X ~ t(2, 250, 10), t(2;0,025) = 4,3, IC[95%] = 225,2 a 274,8 gramas. Aceito H0, para qualquer α.
       H0: X̅ (média da amostra) não é diferente de µ (média da População). H1: H0 é falsa. α = 0,05.
         1.1- Caso σ > 0, a regra diz para usar o Teste da estatística Z (infelizmente ele é o principal fator de confusão uma vez que, em relação à amostra, a variância tem que ser despezível, caso contrário o que se chama de população é, na verdade, outra amostra): Calcule o Stat Z = |X̅ - µ| / σ/n0,5. Se Stat Z ≤ Zc tabelado... Conclusão: Aceito H0, a média da amostra não difere da média da População com, no mínimo, 95% de certeza. Comentário Se σ > 0 então trata-se de uma Amostra e portanto deve-se usar o Teste t...
         1.2- Caso σ = 0, é o que se chama de Verdadeira Média de uma População (N ≥ 2). Teste t de Student para uma amostra: Calcule o Stat t = |X̅ - µ| / S/n0,5. Se Stat t ≤ tc tabelado... Conclusão: Aceito H0, a média da amostra não difere da média da População com, no mínimo, 95% de certeza.

   2- Teste para comparar a variância (S2) da amostra com a (σ2) da População...
   3- Teste para comparar uma proporção (p) da amostra com uma população Normal (po)...
B. 2 grupos (nominal dicotômico) com X ~ t(gl; X̅; S): (Teste t de Student...)
   1- Teste para comparar as médias entre 2 grupos (amostras)
      1.1- Grupos pareados (vinculadas, em par, emparelhadas, dependentes, repetidas, "vocês 2 estão juntos?")...
         1.1.1- Teste t de Student pareado para 2 médias, gl = na-1, Stat tpareado, pré-teste x pós-teste; antes x depois, D x E...          1.2.1- Teste t de Student não-pareado para 2 X̅ com S2 homocedásticas, gl = ng1+ng2-2, Stat tnão-par homocedástico
         1.2.2- Teste t de Student não-pareado para 2 X̅ com S2 heterocedásticas
Use o Teste F para ter certeza de que em 95% dos casos as variâncias são diferentes...
Use a Equação de Welch para calcular os graus de liberdade.
, gl = Eq. de Welch, Stat tnão-par hetero
Os testes paramétricos comparam a sopreposição dos Intervalos de Confiança da Média e, o cálculo do IC relativo, serve apenas p'ra se representar esta sobreposição mas "intuitivamente"!
         2.1- Teste de proporção entre 2 grupos
Clique para ver as Equações e colar especial como texto no Excel
, Stat z.
C. 1 fator com 3 ou mais grupos de uma população com X ~ N(µ; σ): ANOVA..., ↓Erro α ®
   1- ANOVA com fator (tratamento) único pareado
https://www.google.com.br/#q=real+statistics. Não esqueça de também instalar o Solver em suplementos.
, Stat F, amostras pareadas com variâncias equivalentes.
   2- ANOVA com fator único independente, Stat F, amostras independentes com variâncias equivalentes...
O único Fator de variação (Tratamento) tem efeito em pelo menos 1 das X̅ das amostras A, B, C, D. α=0,05, e o Tratamento A é um forte candidato.

   3- ANOVA ponderada com fator único, Stat F, para amostras independentes e variâncias diferentes.
D. ≥2 fatores com 3 ou mais grupos com variâncias equivalentes com X ~ N(µ; σ)
   1- ANOVA com fator duplo sem repetição
Nem o Fator de variação 'Grau de instrução' nem a 'Faixa etária' fazem variar a média da variável 'Renda'.
, Stat F, amostras independentes, semelhante a uma tabela m x n do χ2.
   2- ANOVA com fator duplo com repetição (bloco)
Mesmos dados da ANOVA com fator duplo sem repetição e Valor-P completamente diferente... porque este é pareado)
, Stat F, amostras pareadas com medidas repetidas...
E. Testes post hoc ANOVA com X ~ F(m; n)
(Teste de Bonferroni, Tukey, Dunnett...)
   1- Teste de Dunnett, Stat DMS, tamanhos balanceados, rigoroso, compara o grupo controle com os experimentais...
   2- Teste de Bonferroni, Stat Q, grupos balanceados ou desbalanceados, muito rigoroso, compara X̅ 2 a 2...
   3- Teste de Tukey HSD (honest significant difference), Stat Q, k > 30, grupos balanceados, muito Erro tipo II...
   4- Teste de Scheffé, Stat F um dos mais usados, mais rigoroso que o de Tukey...
   5- Outros testes post hoc ANOVA (a ANOVA testa médias, não variâncias!!!)...

 

Testes não-paramétricos para comparar a variável mensurada entre os grupos criados ou já existentes
H0: H1 é falsa. H1: A diferença das medianas entre os grupos é significativa se P < 0,05.
H0: H1 é falsa. H1: A diferença das proporções entre as categorias é significativa se P < 0,05.
A. 1 amostra (noir) de uma população: IC[95%]...
   3- Teste do χ2 para uma amostra, nominal, Stat χ2
Margem de erro da proporção [95%] = 1,96 * Erro padrão da proporção
Para p=0,5 use IC[95%] de eventos favoráveis = (n ± (n*Χ2(1,α))^0,5)/2

Observe que o limite mínimo é 40,2 e o máximo é 59,8, portanto o
IC[95%] dos eventos favoráveis = 41 a 59.
, testa proporções entre a frequência observada e a esperada...
B. 2 grupos (nominal dicotômico) pareados: Teste χ2 de McNemar, T+ de Wilcoxon...
   1- Teste de Wilcoxon pareado, ordinal, Stat T, testa Δpar em relação à Md, muito usado na Psicologia...
   2- Teste de McNemar
http://www.real-statistics.com/non-parametric-tests/mcnemars-test/
, nominal dicotômica, Stat χ2 de McNemar ou teste das mudanças entre 2 estados "antes e depois de"...
C. 2 grupos (nominal dicotômico) independentes: Teste de Mann-Whitney...
   2- Teste do χ2 para duas amostras categorizadas, nominal, Stat χ2, n≥5.
http://www.amendes.uac.pt/monograf/monograf01estatNparamt.pdf
D. 3 ou mais grupos pareadas: Teste de Cochran, Friedman com fator duplo...
   2- Teste de Cochran, nominal, Stat Q ~ χ2, o post hoc é o teste de McNemar (mas não deveria ser!).
E. 3 ou mais grupos independentes: Teste de Kruskal-Wallis, χ2 para K grupos one-way...
   1- Teste da ANOVA nâo-paramétrica de Kruskal-Wallis (KW) fator único
New table & graph: Grouped. Bug no SPSS.v20: Duplo click na tab, vai em campos e escolha uma linha tab significativa, na visualização aparece a comparação de pares!
, ordinal, Stat H ~ χ2, ⇒ Post hoc de Dunn...
   2- Teste do χ2 para k amostras one way, nominal, Stat χ2, se a variável for intervalar® categorize...

---- Análise de amostras de 2 variáveis (Estatística bivariada) "aleatórias" ----
Uma é chamada variável independente, preditora ou covariável e a outra variável dependente, desfecho ou outcome.
H0: H1 é falsa. H1: Existe uma Equação linear ou logística simples cuja variável (X) prevê significativamente (P < α) o valor da variável desfecho (Y) com uma determinada porcentagem mínima de acerto (r2).
O Modelo de regressão linear
Nesta etapa o que interessa são os coeficientes (parâmetros) da equação.
explica a forma e a Análise de correlação
O termo correlação (r) significa relação em dois sentidos (co+relação) e é usado em estatística para designar a força que mantém unidos dois conjuntos de valores (X,Y). O de determinação (r2 é a proporção de variação total da variável dependente Y que é explicada pela variação da variável independente X.
quantifica a força da relação.
"As medidas do grau de relacionamento entre duas ou mais variáveis quantitativas são chamadas coeficiente de correlação (=covariância/DP) ou coeficiente de associação para variáveis qualitativas. Padronize as unidades (diferentes) com Z-score!

Os pressupostos para o uso da Regressão Linear Simples são: HILE Gauss!
Pronounced highly Gauss. Portanto, determinar os coeficientes (parâmetros) da função Linear é apenas o começo... a Análise dos resíduos é mandatória! Exogenidade estrita, significa que as variáveis preditoras podem ser tratadas como valores fixos, em vez de variáveis "aleatórias", ou seja, as variáveis preditoras deverão ser assumidas como isentas de erro, não estando contaminadas com erros de amostragem.

1º) n ≥ 50 + 8*nro de preditoras,
2º) A variável preditora tem Exogenidade estrita (valores fixos, não aleatórios),
3º) Linearidade: Y = a+bx, se o coef. angular b (Teste t) e o de correlação
Cuidado p'ra não confundir o coeficiente do correlação r de Pearson com a Matriz de correlação das preditoras.
linear r ≈ |1| forem significativos (P<α),
4º) A Análise dos resíduos mostra: Normalidade (Teste W) e Homocedásticidade (Teste F).
A. Intervalar x intervalar, relação linear, 2vii2apl
   1- Regressão linear simples
O pesquisador não sabe, mas além da massa (r2 = 30%), há mais 2 variáveis (altura e idade) que "fechariam" o modelo de consumo de Energia (adulto, masculino) com P < 0,01...
, intervalares, Stat t, Y ~ f(x) = a+bx+ε, onde, ε ~ NID(0; σ2), coef. de correlação...
   2- Regressão linear simples com BC[95%]
ATENÇÃO: As bandas de confiança delimitam a área que contém a verdadeira reta de regressão é, portanto, diferente das Bandas de predição (Prediction bands), que delimitam os valores amostrais. As Bandas correspondem a IC da média e as Predições do IC dos valores.
, Stat t, p'ra se determinar a banda de predição dos valores.
B. Intervalar x categórica, relação Logistica, 2vic2apL
   1- Regressão Logística nominal simples
http://statpages.info/logistic.html. É nominal por causa do out(Y)come!!!
, Stat Wald
O teste de Wald frequentemente falha em rejeitar coeficientes que são estatisticamente significativos, aconselha-se que estes coeficientes não significativos sejam testados novamente pelo teste da razão de verossimilhança.
, Stat TRV
, X ~ p(x) = 1/(1 + e-(α + βx)), e ≅ 2,72, Odds = eβ...
   2- Regressão Logística ordinal simples, use o teste ante hoc do χ2 para tendência linear.
C. Intervalar x intervalar, relação paramétrica mas não-linear
   1- Modelos farmacocinéticos de 1ª ordem, tempo x clearance, X ~ E(λ), C(t) = C0e-kt, onde k = -Ln(2)/λ...
   3- Curva de Replicação 2n
, X ~ R(S; n), onde n é o número de ciclos.
   4- Curva Dose-Mortalidade (DL50)
, Log x proporção, Stat r2, Stat F, Stat t
   5- Regressão linear-Log
A média foi usada para se "centrar" os valores e, NÃO se pode fazer a Regressão Linear em cima dos valores Log, daí a necessidade de convertê-los em lineares.
, Stat t
D. Intervalar x intervalar, relação não-paramétrica: Coeficiente de correlação rs de postos de Spearman
E. Ordinal x nominal dicotômica, relação não-paramétrica
   1- Teste do χ2 de Mantel-Haenszel ou teste do χ2 para tendência linear...
F. Nominal x nominal, teste não-paramétrico, Odds ratio, Risco relativo, coeficiente de contingência
   1- Teste do χ2 de independência de Pearson ou de associação:
NÃO CONFUNDA o Teste do χ2 de independência com o χ2 de aderência, este último é para 1 variável dicotômica como é o caso da moeda (cara x não_cara)!!!
P(A∩B) = P(A)*P(B), compara proporções...
   2- Teste do χ2 com correção de continuidade de Yates: Só tabela 2x2 (20 ≤ n ≤ 40 e frequências esperadas ≥ 5)
   3- Teste exato de Fisher ou Χ2 de 'n' pequeno, ≡Teste paramétrico t de Student não-pareado...
   4- Teste do χ2 para k amostras independentes, nominal, Stat χ2, tabela m x n...



Antes da analise de muitas variáveis considere o uso da Análise de Fatores
Os Fatores encontrados são formados por variáveis com forte colinearidade (polos gravitacionais).
Análise de 3 ou mais variáveis (multivariável ou multivariada = multivariate) ao acaso
É p'ra casualidade, previsão (Regressão e Redes Neurais) ou otimização (Simplex e Planejamento fatorial)
Para entrada das covariáveis (explicativas) no modelo usa-se um α de [0,10:0,25] usando o Teste do χ2 de tendência linear.
Cov(X,Y) = 0 ou Covariância nula significa ausência de correlação linear. Corr(X,Y) = Cov(X,Y) / DPX*DPY
A. A variável desfecho (outcome) e as preditoras são intervalares com Y ~ N(YXi, XY|Xi)
A regressão é linear múltipla se, além dos pressupostos anteriores,
6º) Não há colinearidade
O VIF (Variance Inflation Factor) é o inverso da tolerância. Valores altos de VIF indicam alto grau de multicolinearidade.
, Independentes (Stat d) ou multicolinearidade entre as variáveis preditoras.
7º) Pontos outlines eliminados ou pontos aberrantes usando a medida da distância Cook (Di ≤ 1).

H1: Existe uma Equação linear ou logística múltipla com variáveis (Xi) que prevêm significativamente (P < α)
o valor da variável desfecho (Y) com uma determinada porcentagem mínima de acerto (r2).
      1.1- Regressão linear múltipla (21 - 1 equações), intervalar, Stat r2, y = b0 + b1*x1 + ... + bn*xn + ε (Obs-Esp)...
      1.2- Regressão linear múltipla completa (2n-1): y = b0 + ∑ni bi*xi + ∑ni+1 bi,i+1*xi,i+1 + ... + ∑ni+1,...,n ...,n
      1.3- Regressão linear múltipla interativa simples (2n-1)
Na Regressão linear interativa, o #monômios é (2n-1) e os expoentes de cada variável de cada monômios = 1.
: y = b0 + ∑ni bi*x1i + ∑ni+1 bi,i+1*x1i,i+1 + ... + ∑ni+1,...,n ...,n       1.4- Regressão linear múltipla interativa completa (22n-1)
Na Regressão linear interativa plena, o #monômios é (22n-1) e os expoentes de cada variável de cada monômios = 1.
: y = b0 + ∑ni bi*x1i + ... + ∑ni+1,...,n ...,n
      1.5- Regressão linear multivariada, intervalar, várias variáveis dependentes (variada) simultâneas.
B. A variável desfecho é intervalar e as preditoras são categóricas com Y ~ N(Yxi, XY/Xi)
C. 2 ou mais desfechos: Análises multivariadas (mais de uma variada) com Yi ~ N(Yxi, XY/Xi)
      1- MANOVA ou Análise Mutivariada de Variância, Stat F, desfecho numérico e preditores categóricos.
D. As variável de desfecho é ordinal, preditoras quaisquer e a incidência (tempo) não é importante
   1- Logit ordenada
E. A variável desfecho é binária, as preditoras quaisquer e a incidência não é importante
Os pressupostos (assumptions) da regressão logística múltipla não requer que as preditoras tenham linearidade, normalidade, homocedasticidade ou escala intervalar ou razão (que pode ser usada).
1º- As preditoras são independentes entre si (não devem vir de medições repetidas ou dados correspondentes).
2º- Pouca ou nenhuma multicolinearidade entre as variáveis independentes.
3º- Linearidade entre as variáveis independentes e os log odds.
4º- n grande. Mínimo 10 casos com o resultado menos frequente para cada variável independente. Ex: para 5 preditoras e com probabilidade esperada do menos frequente é 0,10, então o n mínimo = 500 (10 * 5 / 0,10).
   Regressão Logística múltipla (≥ 2 preditoras) dicotômica ou politômica (>2 classes de desfecho ordinal)...
   1- Regressão Logística múltipla dicotômica (padrão)
Diferenciar da Regressão Logística Multinomial (Politômica)
, desfecho binário, p(x) = 1/(1 + e-( β0 + β1x1 + β2x2 + ... + βkxk))...
   2- Regressão Logística múltipla dicotômica com algoritmos de pesquisa, estratégia de entrada das preditoras.
      2.1- Algoritmo de entrada forçada, forced entry, todas as preditoras entram simultâneamente no modelo.
      2.2- Algoritmo de blocos, blockwise ou setwise, preditoras incluidas em blocos com pouca relação entre si...
Visão geral: Logistic Organ Dysfunction System (LODS)
Fluxograma recursivo de análise de bloco onde o nome de cada bloco é um desfecho.
   Modelo empírico...
Vantagem: 1- Pergunta tudo. 2- Não há necessidade de estratégia de análise. Desvantagem: 1- Grande número de variáveis. Entrada: Das centenas de perguntas o PI elege as "mais importantes" para um determinado DESFECHO e solicita a análise estatística. Saída: Lista de variáveis ordenadas usando o método de Regressão logística múltipla. (empirical model)

   ...diagrama de bloco...
Base: Lista de variáveis ordenadas na etapa "Modelo empírico". Vantagem: 1- Organizar as variáveis em bloco, o nome de cada bloco é um DESFECHO. Desvantagem: 1- Bidirecionamento entre os blocos. Entrada: Conjunto de variáveis afins para ser classificadas (ex: situação sócio-econômica). Saída: Variável classificatória "ponte" (modelo SES) que é a única saída de todo o bloco, é a variável DESFECHO auxiliar. Nova análise... (modelo reducionista ou framework)

   ...modelo clínico epidemiológico...
Vantagem: 1- Total de monômios razoável (variáveis independentes e de seus interrelacionamentos, máximo 2n), 2- Criação de um banco de análise "desmontável". Desvantagem: 1- Limitação do número de variáveis. Entrada: Determinar o porcentual de explicação do desfecho (ex:70%) e estabelecer a equação da regressão (deduzida a partir do modelo fisiopatológico). O estatístico calcula os coeficientes e o P. (sistema especialista ou relationships model)
      2.3- Algoritmo hierárquico, há uma estratégia prévia (modelo biológico) para a sequência de entrada das preditoras...
Ao contrário da sequencial, aqui a redundância não é bem vinda, já que ela aumentaria a confiabilidade da predição, por manter no modelo de regressão apenas variáveis não-correlacionadas (ou fracamente correlacionadas) entre si. Nos casos dos estudos exploratórios, eliminar a variável redundante pertencente a um mesmo construto subjacente pode gerar um efeito indesejável, pois a variável preditora eliminada da equação pode ser uma das mais importantes na explicação da variável latente que prediz o critério.
A regressão hierárquica é utilizada em estudos confirmatórios, uma vez que este tipo de análise busca a explicação sobre o relacionamento entre variáveis descrito em modelos teóricos consistentes, ou seja, em modelos que apresentam um conjunto de proposições empíricas que já indicam a magnitude e direção da relação entre variáveis, mas que, apesar de já terem sido testados, ainda carecem de validação. Neste caso, a ordem de entrada dos preditores na equação de regressão é definida pelo pesquisador, que baseia sua decisão em teorias ou outras pesquisas relacionadas, como, por exemplo, no caso das pesquisas sobre liderança internacional (Torres, 1999). A exemplo do que ocorre com a regressão stepwise, a regressão hierárquica tem o objetivo de determinar os melhores preditores de um critério. Diversos autores, entre os quais Keppel (1991), ao descreverem a regressão hierárquica como forma de se preparar uma path analysis, sugerem que esta regressão é capaz de identificar relações de causalidade entre variáveis. Contudo, é importante lembrar que, como qualquer outra técnica de análise correlacional, a regressão hierárquica não pode identificar causalidade, mas apenas a relação (ou correlação) entre variáveis. Mesmo quando utilizada para testar modelos teóricos que apenas teoricamente indicam uma relação de causa e efeito entre variáveis, a regressão hierárquica está, no máximo, descrevendo padrões de relacionamento entre variáveis.

      2.4- Algoritmo de exclusão sequencial, backward elimination, descendente ou r2 decrescente, critério estatístico...
      2.5- Algoritmo de inclusão sequencial, forward selection, ascendente ou 1-r2 crescente...
      2.6- Algoritmo de exclusão/inclusão alternada, Stat F, stepwise selection, passo-a-passo ou escalonada...
A regressão stepwise geralmente é a estratégia escolhida para estudos exploratórios. Quando se está utilizando este tipo de regressão, o pesquisador, desprovido de uma teoria consistente sobre os fenômenos estudados, está interessado apenas em escrever relacionamentos pouco conhecidos entre variáveis, e não em os explicar. Neste tipo de regressão, a seleção da seqüência de entrada dos preditores na equação é feita estatisticamente, sem um modelo teórico consistente a ser seguido. Em estudos exploratórios, o pesquisador elabora um modelo teórico de investigação que inclui hipóteses sobre relacionamentos entre variáveis, mas que ainda não possibilita afirmações consistentes sobre a magnitude ou direção desses relacionamentos. Além disso, este tipo de estudo ainda não encontra apoio empírico às hipóteses a serem testadas.

Proposta de um modelo bioestatístico: Modelo biológico com validade estatística.
Material
Característica do modelo biológico: Grafo orientado temporalmente, com os conectivos e-ou (representação enzimática) e os quantificadores aumenta-diminui (status da variável).
Mínímo de duas tabelas com as variáveis do modelo biológico em tempos diferentes (Estudo de Coorte).
Um bloco é definido como qualquer vértice (variável) com suas causas imediatas.
H1: O modelo é (total ou parcialmente) válido estatísticamente.
Método
1ª etapa: Exploratória - Aplicar a regressão logística usando toda a tabela.
2ª etapa: Par - Aplicar a regressão logística para cada par (orientado) de variáveis.
F. As variáveis de desfecho são nominais, as preditoras quaisquer, incidência não é importante
   1- Regressão Logística múltipla politômica (multinomial), o desfecho tem 3 ou mais categorias...
Polytomous LR, multiclass LR, softmax regression, multinomial logit, maximum entropy (MaxEnt) classifier, conditional maximum entropy model.

G. A variável de desfecho é binária, as preditoras quaisquer e a incidência é importante H. Outros testes não-paramétricos para 3 ou mais variáveis
      1- Teste de Mantel-Haenszel-Cochran (MHC test)
      2- Método Solver de aproximação.
      3- Redes Neurais, estima-se a estrutura (aproximada) da função, os parâmetros são pesos.
      4- Série de Fourier (função base senoidal).
      5- Redes RBF com centro e dispersão fixas (gaussiana, multiquadrática, etc).
      6- Perceptron (função-base logística).
F. Técnicas de Agrupamento e Redução de Variáveis       2- Análise de componentes principais (ACP)...
      3- Análise de Fatores (FacAn)...
----- Análise de variáveis amostradas de forma não aleatória -----
   2- Teste do χ2 de Pearson para testes diagnósticos: Estudo metodológico sobre acurácia de testes diagnósticos...
        1- SENSIBILIDADE é a proporção de resultados positivos em doentes (VP) / (VP + FN).
        2- ESPECIFICIDADE é a proporção de resultados negativos em não-doentes (VN) / (VN + FP).
        3- EFICIÊNCIA é a proporção entre (VP + VN) / (VP + VN + FP + FN), ou seja, a porcentagem correta do resultado dos testes.
        4- ÍNDICE DE YOUDEN (J) é a uma medida probabilidade de classificação correta que não depende da prevalência da doença (Se + Ep - 1).
        5- VALOR PREDITIVO POSITIVO (+) é a probabilidade da pessoa com um teste positivo tenha a doença (VP) / (VP + FP). É baseada na PREVALÊNCIA da doença na população.
        6- VALOR PREDITIVO NEGATIVO (-) é a probabilidade da pessoa com um teste negativo NÃO tenha a doença (VN) / (VN + FN). É baseada na PREVALÊNCIA da doença na população.
        7- VALIDADE EXTRÍNSECA é a capacidade do teste em detectar a real situação da população em relação à doença em estudo, além de também avaliar o desempenho do teste nesta população (é medida pela PRECISÃO, ACURÁCIA (EXATIDÃO) e REPRODUTIBILIDADE).
        8- CLASSIFICAÇÃO INCORRETA
        9- RAZÃO DE VERSOSSIMINLHANÇA POSITIVA (+)
        10- RAZÃO DE VERSOSSIMINLHANÇA NEGATIVA (-)
   Estudos sobre a reprodutibilidade de testes
   Índice de cocordância Kappa: variáveis com respostas categóricas
   Coeficiente de Correlação Intraclasse (CCI)
      Razões de probabilidade
   Estudos sobre o efeito dos resultados do teste nas decisões clínicas
   Estudos sobre factibilidade, custos e riscos de testes
   Estudo sobre efeito do teste nos desfechos
1) Método não paramétrico: 2) Kaplan-Meier e Modelos Probabilísticos: 3) Exponencial; 4) Weibull; 5) Log-Normal; 6) Gama.
Fatores de risco = Só pode ser empregado quando existe uma relação de Causa e Efeito, caso contrário se usa Fatores associados.
RP: razão de prevalência = prevalência entre os expostos / prevalência entre os não-expostos.
PE (prevalência entre os expostos) = nº de casos conhecido de uma dada doença na pop. exposta / população exposta.
PNE (prevalência entre os não expostos) = nº de casos conhecido de uma dada doença na pop. não exposta exposta / população não exposta.
Dados absolutos podem ser transformados em valores relativos, uma escala de resultados-padrão com média zero e desvio-padrão 1, resultando no chamado z-score, calculado pela seguinte expressão: valor relativo = Z-score = (X - média aritmética) / desvio padrão.

   3- Curvas ROC: Estudo metodológico sobre acurácia de testes diagnósticos...
   4- Estatística Kappa (K): Estudo metodológico sobre a de concordância entre diferentes observadores...
   5- Análise de correspondência.
"Talvez a melhor resposta não esteja em estatísticas melhores, mas em um melhor pensamento ou elaboração sobre a natureza do problema." Kromrey e Foster-Johnson (1999).
"Se você acha que o texto que você escreveu está maravilhoso, rasgue e jogue fora, porque com certeza ele não presta!" Oscar Wilde (1854-1900), escritor irlandês.
"Espere pelo pior e prepare-se para uma surpresa!" a. (1954-amanhã), professor brasileiro.