Engenharia de Produção
-2-
Engenharia de Produção
UANDERSON REBULA DE OLIVEIRA
Mestrado em Engenharia de Produção pela UNESP Pós-graduado em Controladoria e Finanças-Universidade Federal de LavrasUFLA Pós-graduado em Logística Empresarial-Universidade Estácio de Sá-UNESA Graduado em Ciências Contábeis-Universidade Barra Mansa-UBM Técnico em Metalurgia-Escola Técnica Pandiá Calógeras-ETPC Técnico em Segurança, Saúde e Higiene do Trabalho-ETPC Operador Siderúrgico e Industrial-ETPC Professor na UNIFOA para o curso de Pós graduação em Engenharia de Segurança do Trabalho. Professor na Associação Educacional Dom Bosco - AEDB para os cursos de Administração e Engenharia de Produção nas disciplinas de Segurança do Trabalho e Estatística. Professor da Universidade Estácio de Sá - UNESA nas disciplinas de Gestão Financeira de Empresas, Fundamentos da Contabilidade e Matemática Financeira, Probabilidade e Estatística, Ergonomia, Higiene e Segurança do Trabalho, Gestão de Segurança e Análise de Processos Industriais, Gestão da Qualidade: programa 5S (curso de férias). Ex-professor na Universidade Barra Mansa – UBM para os cursos de Engenharia de Produção e de Petróleo na disciplina de Segurança do Trabalho. Ex-professor Conteudista na UNESA (elaboração de Planos de Ensino e de Aula, a nível nacional). Ex - professor na Escola Técnica Bom Pastor nas disciplinas de Estatística Aplicada, Estatística de Acidentes do Trabalho, Probabilidades, Contabilidade Básica de Custos, Metodologia de Pesquisa Científica, Segurança na Engenharia de Construção Civil e Higiene do Trabalho. Ex-professor do SENAI. Desenvolvedor e instrutor de diversos cursos corporativos na CSN, a níveis Estratégicos, Táticos e Operacionais. Membro do IBS–Instituto Brasileiro de Siderurgia.
ESTATÍSTICA APLICADA - 2017
EMENTA: Probabilidades e seus eventos. Probabilidade condicional. Eventos independentes. Teorema de Bayes. Variáveis aleatórias: distribuição, esperança e variabilidade. Distribuições de probabilidades discretas e contínuas. Inferência: População e amostra. Métodos de amostragem. Distribuição amostral. Intervalos de confiança. Teste de hipóteses. Correlação e Regressão. OBJETIVO: Possibilitar aos estudantes o acesso a conceitos e procedimentos fundamentais da metodologia estatística, como ferramenta de suporte à tomada de decisão e à abordagem cientifica de populações, sistemas e processos, nas áreas de engenharia, indústria, comercio e serviços.
Uanderson Rebula de Oliveira
Estatística Aplicada
“Atualmente, todos – estudantes e professores – procuram o Udemy porque é a plataforma onde todos estão”. Fonte: Jornal do Brasil
Faça o curso online na Udemy
Estatística I (para leigos): aprenda fácil e rápido!
Com o Prof. MSc. Uanderson Rébula "O livro digital Estatística I para leigos possui uma linguagem fácil e ao mesmo tempo dinâmica. O conteúdo do livro está ordenado de forma a facilitar a aprendizagem dos alunos, mesmo aquelas pessoas que não tenham noção nenhuma de estatística aprenderão com esse livro. Você pode estudar sozinho para concursos pois o livro é auto explicativo ou até mesmo em grupos, no meu caso faço isso com meus alunos. Eu super recomendo esse livro!!! NOTA 1000" Maria Eunice Souza Madriz Professora de estatística da rede estadual de ensino da Bahia Avaliação do livro pelo cliente na amazon.com.br
Saiba mais Clique aqui
www.udemy.com Junte-se a milhões de estudantes na maior plataforma on-line de cursos curtos e práticos do mundo. Com mais de 45.000 cursos virtuais disponíveis, o Udemy é uma plataforma global de ensino on-line onde 15 milhões de alunos estão dominando novas habilidades. O foco do Udemy são os conhecimentos práticos e úteis para o mercado de trabalho. Há cursos gratuitos e pagos. São cursos curtos e com valores bem acessíveis.
Prof. MSc. Uanderson Rébula de Oliveira
Uma mensagem do Prof. MSc Uanderson Rébula. CLIQUE NO VÍDEO
CLIQUE AQUI E INSCREVA-SE NO CURSO JÁ
Sumário
Engenharia de Produção
-3-
APRESENTAÇÃO DA DISCIPLINA Uma das ferramentas mais utilizadas hoje em dia pelos cientistas, analistas financeiros, médicos, engenheiros, jornalistas etc. é a Estatística, que descreve os dados observados e desenvolve a metodologia para a tomada de decisão em presença da incerteza. O verbete estatística foi introduzido no século XVIII, tendo origem na palavra latina status (Estado), e serviu inicialmente a objetivos ligados à organização político-social, como o fornecimento de dados ao sistema de poder vigente. Hoje em dia, os modelos de aplicação da Teoria Estatística se estendem por todas as áreas do conhecimento, como testes educacionais, pesquisas eleitorais, análise de riscos ambientais, finanças, controle de qualidade, análises clínicas, índices de desenvolvimento, modelagem de fenômenos atmosféricos etc. Podemos informalmente dizer que a Teoria Estatística é uma ferramenta que ajuda a tomar decisões com base na evidência disponível, decisões essas afetadas por margens de erro, calculadas através de modelos de probabilidade. No entanto, a probabilidade se desenvolveu muito antes de ser usada em aplicações da Teoria Estatística. Um dos marcos consagrados na literatura probabilística foi a correspondência entre B. Pascal (1623-1662) e P. Fermat (16011665), onde o tema era a probabilidade de ganhar em um jogo com dois jogadores, sob determinadas condições. Isso mostra que o desenvolvimento da teoria de probabilidades começou com uma paixão humana, que são os jogos de azar, mas evoluiu para uma área fortemente teórica, em uma perspectiva de modelar a incerteza, derivando probabilidades a partir de modelos matemáticos. A análise combinatória deve grande parte de seu desenvolvimento à necessidade de resolver problemas probabilísticos ligados à contagem, mas hoje há diversas áreas em que seus resultados são fundamentais para o desenvolvimento de teorias, como, por exemplo, a área de sistemas de informação. Nesta apostila encontraremos as definições de Probabilidades, esperança e variabilidade de probabilidades e distribuições contínuas e discretas de probabilidades. Inferência: Intervalos de confiança e muito mais.
Uanderson Rebula de Oliveira
Estatística Aplicada
Engenharia de Produção
-4-
Falou mais o Senhor a Moisés, no deserto de Sinai, na tenda da congregação, no primeiro dia do mês segundo, no segundo ano da sua saída da terra do Egito, dizendo: Tomai a soma de toda a congregação dos filhos de Israel, segundo as suas gerações, segundo a casa dos seus pais, conforme o número dos nomes de todo o varão, cabeça por cabeça; Da idade de vinte anos e para cima, todos os que saem à guerra em Israel; a estes contareis segundo os seus exércitos, tu e Aarão. Estará convosco, de cada tribo, um homem que seja cabeça da casa dos seus pais. Todos os contados, pois, foram seiscentos e três mil, quinhentos e cinquenta. Números 1: 1-4; 46
Uanderson Rebula de Oliveira
Estatística Aplicada
Engenharia de Produção
-5-
Sumário ESTIMATIVAS E TAMANHOS AMOSTRAIS
1 – INTRODUÇÃO À PROBABILIDADE (REVISÃO) PROBABILIDADE BÁSICA Revisão de Contagem e Probabilidade, 7 Probabilidade com eventos complementares, 8
ADIÇÃO DE PROBABILIDADES Probabilidade com eventos mutuamente exclusivos, 9 Probabilidade com eventos NÃO mutuamente exclusivos, 9
PROBABILIDADE
CONDICIONAL
E
MULTIPLICAÇÃO
DE
Estimativa pontual e intervalar, 64 Intervalos de confiança – IC, 64 Intervalos de confiança para média (amostras grandes), 64 Determinação do tamanho da amostra, 66 Intervalos de confiança para média (amostras pequenas), 66 Intervalos de confiança para Proporções P, 68 Determinação do tamanho da amostra para P, 68 Intervalos de confiança para o Desvio padrão, 69
PROBABILIDADES
Probabilidade com eventos dependentes, 10 Multiplicação de probabilidade com eventos dependentes, 12 Multiplicação de probabilidade com eventos independentes, 13 Teorema de Bayes, 14 Apêndice A – Quadro resumo de probabilidades, 15
2 – VARIÁVEIS ALEATÓRIAS VARIÁVEL ALEATÓRIA E DISTRIBUIÇÕES DE PROBABILIDADES, 17 VALOR ESPERADO, 19 VARIÂNCIA E DESVIO PADRÃO, 20
3 – DISTRIBUIÇÕES DE PROBABILIDADES DISTRIBUIÇÕES DISCRETAS Distribuição Binomial, 22 Distribuição Hipergeométrica, 30 Distribuição Geométrica, 32 Distribuição de Pascal, 32 Distribuição Multinomial, 33 Distribuição de Poisson, 34
5 – TESTE DE HIPÓTESE Conceitos introdutórios, 73 Teste de hipótese para média (amostras grandes),74 Teste de hipótese para média (amostras pequenas), 75 Teste de hipótese para proporção, 76 Teste de hipótese para o desvio padrão, 77 Teste para duas amostras – conceitos introdutórios, 80 Teste para diferença de duas médias (dependente),80 Teste para diferença de duas médias (independente), 82
6 – CORRELAÇÃO E REGRESSÃO CORRELAÇÃO LINEAR SIMPLES Introdução e Diagrama de Dispersão, 84 Correlação Linear, 84 Coeficiente de correlação de Pearson, 85
REGRESSÃO LINEAR SIMPLES Introdução, 87 Ajustamento da reta aos pontos grafados, 87
Poisson como aproximação para a Binomial, 38
DISTRIBUIÇÕES CONTÍNUAS Distribuição Uniforme, 39 Distribuição Normal, 40 Normal como aproximação para a Binomial, 49 Normal como aproximação para a Poisson, 51
Distribuição Exponencial, 52 Distribuição de Weibull, 54
REFERÊNCIAS BIBLIOGRÁFICAS, 89 ANEXO I – LIVROS RECOMENDADOS, 89 ANEXO II – Software BIOESTAT , 91 ANEXO III – ESTATÍSTICA NO EXCEL, 92
4 – INTRODUÇÃO À ESTATÍSTICA INFERENCIAL CONCEITOS BÁSICOS EM ESTATÍSTICA INFERENCIAL Estatística inferencial, 56 Parâmetros e estatísticas, 56
TÉCNICAS DE AMOSTRAGEM PROBABILÍSTICAS Amostragem aleatória simples, 57 Amostragem estratificada, 58 Amostragem por conglomerado, 59 Amostragem sistemática, 61
DISTRIBUIÇÃO AMOSTRAL DA MÉDIA, 62
Uanderson Rebula de Oliveira
Estatística Aplicada
Engenharia de Produção
-6-
CAPÍTULO 1 INTRODUÇÃO À PROBABILIDADE
É possível quantificar o acaso?
Uanderson Rebula de Oliveira
Estatística Aplicada
Engenharia de Produção
-7-
Revisão de Contagem e Probabilidade Princípio Fundamental da Contagem Um projeto de ampliação da capacidade produtiva da empresa ABC divide-se em duas etapas seqüenciais: etapa 1 (projeto – em 2, 3 ou 4 meses) e etapa 2 (construção – em 6,7 ou 8 meses). Quais os resultados possíveis? Qual o prazo mais provável para conclusão total do projeto?
Etapa 1-Projeto
2 meses
Projeto
3 meses
4 meses
É mais provável que o projeto seja concluído dentro de prazo de 10 meses.
3
Etapa 2-Construção
Espaço amostral
6 meses
(2,6) = 8 meses
7 meses
(2,7) = 9 meses
8 meses
(2,8) = 10 meses
6 meses
(3,6) = 9 meses
7 meses
(3,7) = 10 meses
8 meses
(3,8) = 11 meses
6 meses
(4,6) = 10 meses
7 meses
(4,7) = 11 meses
8 meses
(4,8) = 12 meses
x
3
=
9
Probabilidade
figuras
Naipes
Observe o baralho abaixo (Total de 52 cartas)
Valete
Dama
Reis
Ás
(Paus) 13 cartas
(Ouros) 13 cartas
(Espadas) 13 cartas
(Copas) 13 cartas
Quando retiramos uma carta de um baralho de 52 cartas, qual a probabilidade de o resultado: Sair um Ás de Ouros: Como temos somente 1 Ás de Ouros no baralho, então: A = {Ás} S = {52 cartas}
→ →
A= 1 S = 52
Logo: P(A) = 1 = 0,019 = 1,9% 52
O resultado permite afirmar que existe a chance dela sair um “Ás de Ouros” em 1,9%.
Sair um Reis:
Como temos 4 Reis no baralho (um de Paus, um de Ouros, um de Espadas e um de Copas). Então:
A = {R,R,R,R} S = {52 cartas}
→ →
A= 4 S = 52
Logo: P(A) = 4 = 0,076 = 7,6% 52
O resultado permite afirmar que existe a chance de sair um Rei em 7,6%.
Uanderson Rebula de Oliveira
Estatística Aplicada
Engenharia de Produção
-8-
Interpretação de valores probabilísticos Os valores probabilísticos sempre são atribuídos em uma escala de 0 a 1 (ou 0% a 100%) Uma probabilidade próxima de 0 indica que é pouco provável que um evento ocorra, enquanto que próxima de 1 revela que um evento é quase certo. Outras probabilidades entre 0 e 1 representam o grau de possibilidade de um evento vir a ocorrer. A figura abaixo retrata a imagem da probabilidade como uma medida numérica da possibilidade de um evento ocorrer.
A probabilidade como uma medida numérica da possibilidade de ocorrência de um evento
Possibilidade crescente de ocorrência Números que não podem representar probabilidade: 10 /5 120% -0,456
0
0,5 0%
1
50%
Impossível
100%
improvável
provável
Certo
Chance 50-50 Por exemplo, o meteorologista diz que a probabilidade de chover amanhã é de 0,4 (ou 40%). Assim, os 0,4 (ou 40%) de chances de chover amanhã podem significar que se você observar os dados obtidos a partir de um grande número de dias semelhantes ao tipo de dia esperado para amanhã, vai descobrir que choveu em 40% desses dias.
Probabilidade com Eventos complementares É a probabilidade com todos os RESULTADOS que NÃO FAZEM PARTE DO EVENTO (A). Eventualmente, queremos determinar a probabilidade de um EVENTO NÃO OCORRER. Portanto, é o evento formado pelos resultados que não pertencem ao evento A. Sendo P( A ) a probabilidade de que ele não ocorra e P(A) a probabilidade de que ele ocorra, para um mesmo evento existe sempre a relação: Probabilidade com Evento complementar
P( A ) = 1 – P(A)
Probabilidade do evento não ocorrer
Probabilidade clássica
EXEMPLO No lançamento de um dado, qual a probabilidade de o resultado: Pela probabilidade clássica
Probabilidade com evento complementar NÃO ser o número 2
ser o número 2 A={2} S={1,2,3,4,5,6}
→A=1 →S=6
P(A) = 1 = 0,1666 6
P( A ) = 1 – P(A) = 1 – 0,1666
→ 0,8333 ou 83,33%
Aplicada para valores na forma unitária (ex.: 0,1666).
O diagrama e Venn abaixo ilustra a relação entre o espaço amostral, o evento A e seu complemento A : P(A) = 16,66% Probabilidade Clássica
A
S
1 3
2 5 4
6
P( A ) = 83,33% Probabilidade com Evento Complementar
A
AAA equação 1- P( A ) fundamenta-se na interpretação dos valores probabilísticos: 0 1 0,1666 A = 0,8333
Uanderson Rebula de Oliveira
Estatística Aplicada
Engenharia de Produção
-9-
ADIÇÃO DE PROBABILIDADES Probabilidade com Eventos mutuamente exclusivos É a probabilidade com eventos que não ocorrem ao mesmo tempo. Ou ocorre A ou ocorre B (A ou B). A ocorrência de um evento impossibilita a ocorrência do outro. Dois eventos são mutuamente exclusivos quando a ocorrência de um evento exclui a ocorrência de outro. É impossível ocorrer os eventos A e B ao mesmo tempo. Então, o termo “ou” indicará “adição de probabilidades”. Para encontrar a probabilidade de um evento ou outro ocorrer, adicionamos as probabilidades de cada evento: P(A ou B) = P(A) + P(B).
Exemplo 1. Ao lançar um dado, a probabilidade de se tirar o 2 ou 5 é:
A
3
B 2
5
ou
S “ou” indica Adição de probabilidades. P(A ou B) = P(A) + P(B)
6
A = {2} B = {5} S = {1,2,3,4,5,6}
4 1
Exemplo 2. Ao retirar uma carta de um baralho de 52 cartas, a probabilidade de sair um Rei ou uma Dama é: A = {R,R,R,R } B = {D,D,D,D} S = {52 cartas
→ A=4 → B=4 → S = 52
→ A=1 → B=1 → S=6
P(A ou B) = 1 + 1 = 2 = 0,3333 6 6 6
Exemplo 3. Numa urna estão 10 bolas, sendo 2 pretas (P), 5 amarelas (A) e 3 verdes (V). Pegando-se uma bola, qual a probabilidade de ela ser preta ou verde?
P(AouB) = 4 + 4 = 8 = 0,1538
A = {P,P } B= {V,V,V} S = {10}
52 52 52
→ A=2 → B=3 → S = 10
P(AouB) = 2 + 3 = 5 = 0,5
10 10 10
Probabilidade com Eventos NÃO mutuamente exclusivos É a probabilidade com Eventos que podem ocorrer ao mesmo tempo. Ou ocorre A ou B ou AMBOS (A e B). A ocorrência de um NÃO impossibilita a ocorrência do outro. Dois eventos NÂO são mutuamente exclusivos quando a ocorrência de um evento não exclui a ocorrência de outro. É possível ocorrer os eventos A e B ao mesmo tempo. O termo “ou”, indicará “adição” e “e” indicará “ambos”
Exemplo 1 Ao lançar um dado, a probabilidade de obter um número ímpar ou menor que 3 é: ímpar
A
Menor que 3
S
B
3 1
5
2
6 4
Os eventos A e B não são mutuamente exclusivos, pois “1” ocorre em A e B (ambos). 3
2
5
Se aplicarmos P(AouB) = P(A) + P(B) teremos: /6 + /6 = /6. Observe no diagrama que 4 este resultado está incorreto, pois P(AouB) = /6. Este erro foi provocado pela dupla contagem de “1”. Neste caso, ajustaremos a regra da soma para evitar a dupla contagem. A equação será:
P(AouB) = P(A) + P(B) – P(A e B)
A e B (Ambos)
Então, a probabilidade de lançar um número ímpar ou menor que 3 será: A = {1,3,5} B = {1,2} A e B = {1} S = {1,2,3,4,5,6}
→ → → →
A=3 B=2 AeB=1 S=6
P(AouB) = 3 + 2 - 1 = 4 = 0,6666
6
6
6
6
Exemplo 2 Numa pesquisa sobre a preferência de dois jornais, consultamos 470 pessoas, sendo que 250 lêem o jornal A, 180 lêem o jornal B e 60 lêem os jornais A e B. Escolhendo uma pessoa ao acaso, qual a probabilidade de que seja:
Jornal
B
A
Jornal
60
a) Leitor dos jornais A ou B? A = {250} B = {180} A e B = {60} S = {470}
P(A ou B) = P(A) + P(B) – P(A e B) 250 + 180 – 60 = 370 = 0,7872 470 470 470 470
AeB * Regra da soma para três eventos: P(A ou B ou C) = P(A) + P(B) + P(C) - P(A e B) - P(B e C) + P(A e B e C)
Uanderson Rebula de Oliveira
Estatística Aplicada
Engenharia de Produção
- 10 -
PROBABILIDADE CONDICIONAL E MULTIPLICAÇÃO DE PROBABILIDADES Probabilidade com Eventos dependentes É a probabilidade do Evento B ocorrer, dado que o evento A já tenha ocorrido. ;
Diz-se probabilidade condicional quando a ocorrência de um evento está condicionada à ocorrência do outro. Portanto, os eventos são dependentes. A probabilidade de um é alterada pela existência do outro. A probabilidade condicional do Evento B, dado que A ocorreu é denotada por:
ocorreu (lê-se “probabilidade de B, dado que A ocorreu”) P(B|A) = P(A e B) P(A) →
espaço amostral de A, “reduzido”
Ao calcular P(B|A) tudo se passa como se P(A) fosse o novo espaço amostral “reduzido” dentro do qual, queremos calcular a probabilidade de B. Não utilizamos o espaço amostral original.
Exemplo 1. Ao lançar um dado, observou-se um número maior que 2 (evento A ocorreu). Qual a probabilidade de esse número ser o “5” (evento B)? Maior que 2
B
A
A = {3, 4, 5, 6}
3
4 Novo espaço amostral
O evento A ocorreu e queremos saber o B (dentro de A):
Ser o 5
B = {5}
5
6
P(B|A) será a probabilidade de ocorrer o número 5 no novo espaço amostral reduzido de A. Então:
1 2
A e B = {5} → 1 A = {3,4,5,6} → 4
P(B|A) = P(A e B) → 1 = 0,25 P(A) 4
Observe que não usamos o espaço amostral original S.
Espaço amostral original S = {1,2,3,4,5,6}
EXEMPLO 2 Ao lançar um dado, observou-se um número maior que 1 (evento A ocorreu). Qual é a probabilidade de esse número ser ímpar (Evento B)? Maior que 1
B
A
A = {2, 3, 4, 5, 6}
2
4 Novo espaço amostral
O evento A ocorreu e queremos saber o B (dentro de A):
ímpar
6
B = {3, 5}
3 5
P(B|A) será a probabilidade de ocorrer número ímpar no novo espaço amostral reduzido de A. Então:
1
A e B = {3,5} → 2 A = {2,3,4,5,6} → 5
Espaço amostral original S = {1,2,3,4,5,6}
P(B|A) = P(A e B) → 2 = 0,40 P(A) 5
Observe que não usamos o espaço amostral original S
EXEMPLO 3 Duas cartas são selecionadas em sequência em um baralho. Qual a probabilidade de que a 2ª carta seja uma dama, dado que a 1ª seja um rei. (assuma que o rei está sem reposição). Solução. Em razão de a primeira carta ser um rei e não ser a resposta, o baralho restante tem 51 cartas, 4 das quais são dama. Então:
P (B|A) = 4 = 0,078 51
EXEMPLO 4 Cinco cartas são selecionadas em sequência em um baralho. Qual a probabilidade de que a 5ª carta seja uma dama. Dado que a 1ª = rei; 2ª = dama; 3ª = 8 ; 4ª = Ás. (assuma que não há reposição). Solução. Em razão de a 1ª = rei; 2ª = dama; 3ª = 8 ; 4ª = Ás, o baralho restante tem 48 (52-4) cartas, 3 das quais são dama. Então:
P (E|A,B,C,D) = 3 = 0,062 48 Note que o espaço amostral original foi reduzido
Uanderson Rebula de Oliveira
Estatística Aplicada
Engenharia de Produção
- 11 -
EXEMPLO 5 Numa pesquisa sobre a preferência de dois jornais, consultamos 470 pessoas e o resultado foi o seguinte: 250 lêem o jornal A, 180 lêem o jornal B, 60 lêem os jornais A e B. Escolhendo uma pessoa ao acaso, qual a probabilidade de: a) Um leitor do jornal A, também ser leitor do B?
Jornal
Novo espaço amostral
B
A 190
b) Um leitor do jornal B, também ser leitor do A?
Jornal
Jornal
B
A 190
60
Jornal Novo espaço amostral
60
120
120
O evento A ocorreu e queremos saber o B. Então, denotamos P(B|A). Dentre os leitores do Jornal A, devemos destacar os que lêem B; logo, o espaço amostral desse evento é A (190+60=250). Então, a probabilidade é:
A e B = {60} → 60 A= {190+60} → 250
P(B|A)=P(A e B) → 60 = 0,24 P(A) 250
O evento B ocorreu e queremos saber o A. Então, denotamos P(A|B). Dentre os leitores do Jornal B, devemos destacar os que lêem A; logo, o espaço amostral desse evento é B (120+60=180). Então, a probabilidade é:
A e B = {60} → 60 B= {120+60} → 180
P(A|B)=P(A e B) → 60 = 0,33 P(B) 180
EXEMPLO 6. O quadro abaixo mostra os resultados de um estudo no qual os pesquisadores examinaram o QI de uma criança e a presença de um gene específico nela. Gene Gene não presente presente QI alto QI normal
33 39 72
19 11 30
A probabilidade de que a criança tenha um QI alto (Evento B), dado que a criança tenha o gene (Evento A) é? 52 50 102
Solução. Há 72 crianças que têm o gene. Então, o espaço amostral consiste dessas 72 crianças. Dessas, 33 tem QI alto. Então:
P (B|A) = 33 = 0,458 72
EXEMPLO 7 Em um lote de 12 peças, 8 são de “qualidade” e 4 são “defeituosas”. Ao selecionar duas peças em sequência, sem reposição, qual a probabilidade de: a 2ª peça ser “defeituosa”, dado que a 1ª é “defeituosa”. Solução. Em razão de a 1ª peça ser defeituosa, o lote restante tem 11 peças, 3 das quais são defeituosas. Então:
P (B|A) = 3 = 0,2727 11
a 2ª peça ser “defeituosa”, dado que a 1ª é de “qualidade”. Solução. Em razão de a 1ª peça ser de qualidade, o lote restante tem 11 peças, 4 das quais são defeituosas. Então:
P (B|A) = 4 = 0,3636 11
a 2ª peça ser de “qualidade”, dado que a 1ª é “defeituosa”. Solução. Em razão de a 1ª peça ser defeituosa, o lote restante tem 11 peças, 8 das quais são de qualidade
Uanderson Rebula de Oliveira
P (B|A) = 8 = 0,7272 11
Estatística Aplicada
Engenharia de Produção
- 12 -
Multiplicação de probabilidade com eventos dependentes
...ache P(A e B) , dado P(B|A) e P(A)
Uma consequência matemática importante da definição de probabilidade condicional é a seguinte: P(B|A) = P(A e B) se quero achar: P(B|A) = ? então → P(A e B) = P(A) x P(B|A) P(A) P(A e B) P(A) Isto é, a probabilidade dos eventos (A e B) é o produto da probabilidade de um deles pela probabilidade do outro, dado o primeiro. EXEMPLO 1 Duas cartas são selecionadas em sequência em um baralho de 52 cartas. Qual a probabilidade de selecionar um Rei e uma Dama? (não há reposição). 4
A probabilidade de a 1ª carta ser um Rei é /52. A 4 2ª carta ser uma Dama é /51, pois o baralho restante tem 51 cartas, 4 das quais são dama.
P(A e B) = ? 4 P(A) = /52 4 P(B|A) = /51
P(A e B) = P(A) x P(B|A)
4 x 4 52 51
→
16 = 0,006 2652
EXEMPLO 2 Em um lote de 12 peças, 8 são de “qualidade” e 4 são “defeituosas”. Sendo retiradas duas peças em sequência, qual a probabilidade de que: (não há reposição) a) Ambas sejam “defeituosas”
b) Ambas sejam de “qualidade”
P(A e B) = ? 4 x 3 = 0,090 4 P(A) = /12 12 11 3 P(B|A) = /11 4 3 A probabilidade de a 1ª peça ser defeituosa é /12 e a 2ª é /11, pois o lote restante tem 11 peças, 3 das quais são defeituosas.
P(A e B) = ? 8 8 x 7 = 0,4242 P(A) = /12 7 12 11 P(B|A) = /11 8 7 A probabilidade de a 1ª peça ser de qualidade é /12 e a 2ª é /11, pois o lote restante tem 11 peças, 7 das quais são de qualidade.
EXEMPLO 3 Uma urna contém 7 bolas brancas (B) e 3 pretas (P). Extraindo-se três bolas em sequência, qual a probabilidade de que: (não há reposição). a) As duas primeiras sejam brancas e a terceira seja preta (ou seja, BBP) 7
6
A probabilidade de a 1ª bola ser branca é /10 e a 2ª é /9. A 3 probabilidade de a 3ª bola ser preta é /8, pois a urna restante tem 8 peças, 3 das quais são pretas.
7
P(A) = /10 6 P(B|A) = /9 3 P(C|B) = /8
7 x 6 x 3 = 0,175 10 9 8
b) Duas sejam brancas e uma seja preta (ou seja: BBP, BPB ou PBB) = 3[BBP] O evento sair “duas brancas e uma preta” pode ocorrer de três maneiras que diferem apenas pela ordem de aparecimento das bolas: (BBP, BPB, PBB). Logo, a probabilidade será a soma dessas maneiras. Então, basta calcular a probabilidade de uma dessas maneiras (por exemplo, a primeira) e multiplicar por 3. Então: 3(BBP).
7
P(A) = /10 6 P(B|A) = /9 3 P(C|B) = /8
⎛ 7 6 3⎞ 3 • ⎜ x x ⎟ = 0,525 ⎝ 10 9 8 ⎠
c) Pelo menos duas sejam brancas (ou seja: 3[BBP] + [BBB]) 2 brancas
3 brancas
“Pelo menos duas brancas“ é a mesma coisa que “no mínimo duas brancas”, ou seja, duas ou três brancas. Então, calculamos duas brancas + três brancas.
3[BBP] 7 P(A) = /10 6 P(B|A) = /9 3 P(C|B) = /8
[BBB] 7 P(A) = /10 6 P(B|A) = /9 5 P(C|B) = /8
⎛ 7 6 3⎞ ⎛ 7 6 5⎞ 3 • ⎜ x x ⎟ + ⎜ x x ⎟ = 0,8166 ⎝ 10 9 8 ⎠ ⎝ 10 9 8 ⎠
d) No máximo uma seja branca (ou seja: [PPP] + 3[PPB]) 0 branca
1 branca
No máximo uma branca é a mesma coisa que “ou nenhuma branca ou uma branca”. Então, calculamos nenhuma branca (todas pretas) + uma branca.
[PPP] 3 /10 P(A) = 2 P(B|A) = /9 1 P(C|B) = /8
3[PPB] 3 /10 P(A) = 2 P(B|A) = /9 7 P(C|B) = /8
⎛ 3 2 1⎞ ⎛ 3 2 7⎞ ⎜ x x ⎟ + 3 • ⎜ x x ⎟ = 0,1833 10 9 8 ⎝ ⎠ ⎝ 10 9 8 ⎠
e) Pelo menos uma seja preta. (ou seja: 3[PBB] + 3[PPB] + [PPP]) 1 preta 3[PBB] 3 P(A) = /10 7 P(B|A) = /9 6 P(C|B) = /8
3[PPB] 3 P(A) = /10 2 P(B|A) = /9 7 P(C|B) = /8
[PPP] 3 /10 P(A) = 2 P(B|A) = /9 1 P(C|B) = /8
2 pretas
3 pretas
⎛ 3 7 6⎞ ⎛ 3 2 7⎞ ⎛ 3 2 1⎞ 3 • ⎜ x x ⎟ + 3 • ⎜ x x ⎟ + ⎜ x x ⎟ = 0,7083 ⎝ 10 9 8 ⎠ ⎝ 10 9 8 ⎠ ⎝ 10 9 8 ⎠ MÉTODO ALTERNATIVO:
É mais prático usar o evento complementar: 1 – BBB (nenhuma preta) f) Todas sejam da mesma cor: [PPP]+[BBB] = 0,30
Uanderson Rebula de Oliveira
[BBB] 7 P(A) = /10 6 P(B|A) = /9 5 P(C|B) = /8
⎛ 7 6 5⎞ 1 − ⎜ x x ⎟ = 0,7083 ⎝ 10 9 8 ⎠
Estatística Aplicada
Engenharia de Produção
- 13 -
Multiplicação de Probabilidade com Eventos independentes É quando a ocorrência do Evento A não afeta a probabilidade da ocorrência do B. Não existe dependência. A e B podem ocorrer simultaneamente (ao mesmo tempo). São independentes. ;
A regra da multiplicação é usada para achar P(A e B) para eventos independentes. Aqui associaremos a palavra “e” com “multiplicação”. O termo chave usado é “simultâneo”. A equação é : P(A e B) = P(A) x P(B). Existe reposição 1 2 3 4 5 6
( 1, 1 ) ( 1, 2 ) ( 1, 3 ) ( 1, 4 ) ( 1, 5 ) ( 1, 6 )
1 2 3 4 5 6
( 2, 1 ) ( 2, 2 ) ( 2, 3 ) ( 2, 4 ) ( 2, 5 ) ( 2, 6 )
1 2 3 4 5 6
( 3, 1 ) ( 3, 2 ) ( 3, 3 ) ( 3, 4 ) ( 3, 5 ) ( 3, 6 )
4
1 2 3 4 5 6
( 4, 1 ) ( 4, 2 ) ( 4, 3 ) ( 4, 4 ) ( 4, 5 ) ( 4, 6 )
5
1 2 3 4 5 6
( 5, 1 ) ( 5, 2 ) ( 5, 3 ) ( 5, 4 ) ( 5, 5 ) ( 5, 6 )
6
1 2 3 4 5 6
( 6, 1 ) ( 6, 2 ) ( 6, 3 ) ( 6, 4 ) ( 6, 5 ) ( 6, 6 )
1
2
Lançar dois dados
Evento A
3
e
Evento B
S = {36}
Exemplo 1. Ao lançar dois dados simultaneamente, qual a probabilidade de: Obter o número 2 e ímpar ? Pelo Diagrama de árvore:
Então, a probabilidade é:
(2,1), (2,3), (2,5)
3 = 8,33% 36
Se aplicarmos a regra da multiplicação, temos:
A={2} → A=1 B={1,3,5} → B=3 S={1,2,3,4,5,6} → S = 6
P(A e B) = P(A) x P(B) 1 x 3 = 3 = 8,33% 6 6 36
Obter um número par e ímpar ? Pelo Diagrama de árvore
Então, a probabilidade é: 9 = 25% 36
(2,1), (2,3), (2,5) (4,1), (4,3), (4,5) (6,1), (6,3), (6,5) Aplicando a regra da multiplicação, temos:
A={2,4,6} B={1,3,5} S={1,2,3,4,5,6}
→ A=3 → B=3 → S=6
P(A e B) = P(A) x P(B) 3 x 3 = 9 = 25% 6 6 36
Esta regra pode ser estendida para qualquer número de eventos independentes: P (A e B e C) = P(A) x P(B) x P(C)...
O resultado do evento B independe do resultado de A. “São independentes”
Exemplo 2. Cirurgias de microfraturas no joelho têm 75% de chance de Sucesso em pacientes com joelhos degenerativos (25% é de fracasso). A cirurgia é realizada em 3 pacientes. Calcule a probabilidade de que: Nota: A probabilidade de que cada cirurgia seja um sucesso é de 0,75. A chance de um sucesso para uma cirurgia é independente das chances para as outras cirurgias. Portanto, os eventos são independentes. a) As três cirurgias sejam um sucesso. ou seja:[SSS] [SSS] P(A) = 0,75 P(B) = 0,75 P(C) = 0,75
b) As três cirurgias sejam um fracasso. ou seja:[FFF]
P (A e B e C) = P(A) x P(B) x P(C) 0,75 x 0,75 x 0,75 = 0,4218
[FFF] P(A) = 0,25 P(B) = 0,25 P(C) = 0,25
P (A e B e C) = P(A) x P(B) x P(C) 0,25 x 0,25 x 0,25 = 0,0156
c) Duas cirurgias sejam um sucesso (ou seja: SSF, SFS, FSS) = 3[SSF] O evento “Duas cirurgias” pode ocorrer de três maneiras que diferem apenas pela ordem dos resultados das cirurgias: (SSF, SFS, FSS). Logo, a probabilidade será a soma dessas maneiras. Então, basta calcular a probabilidade de uma dessas maneiras (por exemplo, a primeira) e multiplicar por 3. Então: 3(SSF).
Uanderson Rebula de Oliveira
P(A) = 0,75 P(B) = 0,75 P(C) = 0,25
3 * (0,75*0,75*0,25) = 0,4218
Estatística Aplicada
Engenharia de Produção
- 14 -
Teorema de Bayes (THOMAZ BAYES – 1701-1761 – MATEMÁTICO) É uma extensão da probabilidade condicional, que procura responder a pergunta: sabendo-se que o evento A ocorreu, qual a probabilidade de que esse evento tenha provindo de X? ;
Usamos o Teorema de Bayes para rever probabilidades com base em informação adicional obtida posteriormente. Uma idéia-chave para se entender a essência do teorema é reconhecer que estamos trabalhando com eventos sequenciais, pelos quais novas informações são obtidas para se rever a probabilidade do evento inicial. Nesse contexto, os termos probabilidade a priori e probabilidade a posteriori são comumente usados. Uma probabilidade a priori é um valor de probabilidade inicial originalmente obtido antes que seja obtida qualquer informação adicional. Uma probabilidade a posteriori é um valor de probabilidade que foi revisto usando-se informação adicional obtida posteriormente. O teorema de Bayes pode ser obtido por meio de tabelas, diagrama de árvore e pela equação de Bayes.
;
Exemplo 1. Usando um Diagrama de Árvore e a Equação de Bayes As máquinas A e B são responsáveis por 65% e 35%, respectivamente, da produção de uma empresa. Os índices de peças defeituosas na produção destas respectivas máquinas valem 2% e 5%. Se uma peça defeituosa foi selecionada da produção desta empresa, qual é a probabilidade de que tenha sido produzida pela máquina A? Resolução: Portanto, ao selecionar uma peça, atribuímos as probabilidades iniciais: P(A) = 0,65 e P(B) = 0,35, incluindo as peças perfeitas e defeituosas. Denotamos P = peça perfeita e D = peça defeituosa
Pelo Diagrama de Árvore 0,98
Peça perfeita
A probabilidade da peça sair defeituosa, seja da máquina A ou B, é 0,0305 (0,0130+0,0175), que é a probabilidade total da peça sair defeituosa.
P(A) * (P|A) = 0,6370
máquina
A Peça defeituosa
Peça fabricada 0,35
Se queremos saber a probabilidade de a peça defeituosa ter sido produzida pela máquina A, será:
0,02
0,65
máquina
0,95
Peça perfeita
P(A) *(D|A) = 0,0130
0,0130 = 0,4262 0,0305
P(B) * (P|B) = 0,3325
+
B
Enquanto que ter sido produzida pela máquina B será:
0,05 Peça defeituosa
P(B) * (D|B) = 0,0175
0,0175 = 0,5738 0,0305
Pela equação de Bayes A equação de Bayes é dada por P(x) =
P(A1) . P(B|A1) P(A1) . P(B|A1) + P(A2) . P(B|A2)
Sendo o numerador a probabilidade condicionada procurada, o denominador a probabilidade total condicionada, podendo estender a P(An) . P(B|An).
Usando a equação de Bayes e as probabilidades do exemplo 1, referente ao cálculo da peça defeituosa ter sido produzida pela máquina A, temos: P(A1) = 0,65 (peça ser produzida pela máquina A) P(B|A1) = 0,02 (peça ser defeituosa, dado ser produzida pela máquina A) P(A2) = 0,35 (peça ser produzida pela máquina B) P(B|A2) = 0,05 (peça ser defeituosa, dado ser produzida pela máquina B) P(x) =
(0,65) . (0,02) (0,65) . (0,02) + (0,35) . (0,05)
= 0,4262
Exemplo 2. As máquinas A e B são responsáveis por 400 e 150, respectivamente, da produção de peças de uma empresa. A quantidade de peças defeituosas produzidas pelas respectivas máquinas são 10 e 20. Se uma peça defeituosa foi selecionada da produção, qual a probabilidade de que tenha sido produzida pela máquina B? O total de peças produzidas é igual a 550 (400+150), logo:
A
P(A1) = 0,727 (400/550) (peça ser produzida pela máquina A) P(B|A1) = 0,025 (10/400) (peça ser defeituosa, dado ser produzida pela máquina A)
B
P(A2) = 0,272 (150/550) (peça ser produzida pela máquina B) P(B|A2) = 0,133 (20/150) (peça ser defeituosa, dado ser produzida pela máquina B)
Logo, a probabilidade da peça ser defeituosa e ter sido produzida pela máquina B será:
P(x) =
P(A2) . P(B|A2) P(A2) . P(B|A2) + P(A1) . P(B|A1)
Uanderson Rebula de Oliveira
P(x) =
(0,272) . (0,133) (0,272) . (0,133) + (0,727) . (0,025)
= 0,6661
Estatística Aplicada
Engenharia de Produção
- 15 -
APÊNDICE A - QUADRO RESUMO DE PROBABILIDADES Probabilidade Clássica P(A) = _n(A)_ → S →
número de elementos no evento A___ espaço amostral
Probabilidade com Eventos complementares É a probabilidade com todos os RESULTADOS que NÃO FAZEM PARTE DO EVENTO A. P( A ) – Probabilidade do evento não ocorrer P(A) – Probabilidade do evento ocorrer
P( A ) = 1 – P(A)
ADIÇÃO DE PROBABILIDADES Probabilidade com Eventos mutuamente exclusivos É a probabilidade com Eventos que não podem ocorrer ao mesmo tempo. A ocorrência de um impossibilita a ocorrência do outro. Ou ocorre A ou ocorre B. (A ou B) Ao lançar um dado, a probabilidade de se tirar o 3 ou 5 é: A = {2} B = {5} S = {1,2,3,4,5,6}
→ A=1 → B=1 → S=6
P(A ou B)= 1 + 1 = 2 = 33,33% 6 6 6
Probabilidade com Eventos NÃO mutuamente exclusivos É a probabilidade com Eventos que podem ocorrer ao mesmo tempo. A ocorrência de um NÃO impossibilita a ocorrência do outro. Ou ocorre A ou B ou ocorre AMBOS (A e B).
PROBABILIDADE CONDICIONAL E MULTIPLICAÇÃO DE PROBABILIDADES Probabilidade com Eventos dependentes
É a probabilidade do Evento B ocorrer, dado que o A já tenha ocorrido. P(B|A) = P(A e B) P(A)
Multiplicação: P(A e B) = P(A) x P(B|A)
Probabilidade com Eventos independentes É quando a ocorrência do Evento A não afeta a probabilidade da ocorrência do B. Ocorre A e B. Os dois ocorrem simultaneamente. São independentes. P(A e B) = P(A) x P(B) 1 2 3 4 5 6
( 1, 1 ) ( 1, 2 ) ( 1, 3 ) ( 1, 4 ) ( 1, 5 ) ( 1, 6 )
2
1 2 3 4 5 6
( 2, 1 ) ( 2, 2 ) ( 2, 3 ) ( 2, 4 ) ( 2, 5 ) ( 2, 6 )
3
1 2 3 4 5 6
( 3, 1 ) ( 3, 2 ) ( 3, 3 ) ( 3, 4 ) ( 3, 5 ) ( 3, 6 )
4
1 2 3 4 5 6
( 4, 1 ) ( 4, 2 ) ( 4, 3 ) ( 4, 4 ) ( 4, 5 ) ( 4, 6 )
1
Lançar dois dados
Uanderson Rebula de Oliveira
Ao lançar dois dados simultaneamente, qual a probabilidade de: Obter o número 2 e ímpar? Pelo Diagrama de árvore, temos: (2,1), (2,3), (2,5) Então, a probabilidade é: 3 = 16,66% 36 ao aplicarmos a regra da multiplicação o resultado é o mesmo! A={2} → A=1 P(AeB) = P(A) x P(B) B={1,3,5} → B=3 1 x 3 = 3 = 16,66% S={1,2,3,4,5,6} → S = 6 6 6 36
Estatística Aplicada
Engenharia de Produção
- 16 -
CAPÍTULO 2 VARIÁVEIS ALEATÓRIAS
Lançar dois dados
1
1 2 3 4 5 6
( 1, 1 ) ( 1, 2 ) ( 1, 3 ) ( 1, 4 ) ( 1, 5 ) ( 1, 6 )
2
1 2 3 4 5 6
( 2, 1 ) ( 2, 2 ) ( 2, 3 ) ( 2, 4 ) ( 2, 5 ) ( 2, 6 )
3
1 2 3 4 5 6
( 3, 1 ) ( 3, 2 ) ( 3, 3 ) ( 3, 4 ) ( 3, 5 ) ( 3, 6 )
4
1 2 3 4 5 6
( 4, 1 ) ( 4, 2 ) ( 4, 3 ) ( 4, 4 ) ( 4, 5 ) ( 4, 6 )
5
1 2 3 4 5 6
( 5, 1 ) ( 5, 2 ) ( 5, 3 ) ( 5, 4 ) ( 5, 5 ) ( 5, 6 )
1 2 3 4 5 6
( 6, 1 ) ( 6, 2 ) ( 6, 3 ) ( 6, 4 ) ( 6, 5 ) ( 6, 6 )
6
Construindo modelos teóricos...
É possível criar um modelo teórico que descreva como se espera que o experimento se comporte?
6
/36
6 5
5
/36
5
4
4
/36
4
3
3
3
/36 2
2
2
/36 1
1
1
/36
2
3
4
5
6
7
8
9
10
11
12
Soma dos dados
Uanderson Rebula de Oliveira
Estatística Aplicada
“Atualmente, todos – estudantes e professores – procuram o Udemy porque é a plataforma onde todos estão”. Fonte: Jornal do Brasil
Faça o curso online na Udemy
Estatística I (para leigos): aprenda fácil e rápido!
Com o Prof. MSc. Uanderson Rébula "O livro digital Estatística I para leigos possui uma linguagem fácil e ao mesmo tempo dinâmica. O conteúdo do livro está ordenado de forma a facilitar a aprendizagem dos alunos, mesmo aquelas pessoas que não tenham noção nenhuma de estatística aprenderão com esse livro. Você pode estudar sozinho para concursos pois o livro é auto explicativo ou até mesmo em grupos, no meu caso faço isso com meus alunos. Eu super recomendo esse livro!!! NOTA 1000" Maria Eunice Souza Madriz Professora de estatística da rede estadual de ensino da Bahia Avaliação do livro pelo cliente na amazon.com.br
Saiba mais Clique aqui
www.udemy.com Junte-se a milhões de estudantes na maior plataforma on-line de cursos curtos e práticos do mundo. Com mais de 45.000 cursos virtuais disponíveis, o Udemy é uma plataforma global de ensino on-line onde 15 milhões de alunos estão dominando novas habilidades. O foco do Udemy são os conhecimentos práticos e úteis para o mercado de trabalho. Há cursos gratuitos e pagos. São cursos curtos e com valores bem acessíveis.
Engenharia de Produção
- 17 -
VARIÁVEL ALEATÓRIA E DISTRIBUIÇÕES DE PROBABILIDADE Uma variável aleatória “X” representa um valor numérico associado a cada resultado de um experimento de probabilidade. Exemplo 1. A tabela e o gráfico abaixo representam um modelo de probabilidade para a soma de dois dados lançados simultaneamente:
Variáveis aleatórias(X) Valor numérico de cada experimento
1 2 3 4 5 6
( 1, 1 ) ( 1, 2 ) ( 1, 3 ) ( 1, 4 ) ( 1, 5 ) ( 1, 6 )
2
1 2 3 4 5 6
( 2, 1 ) ( 2, 2 ) ( 2, 3 ) ( 2, 4 ) ( 2, 5 ) ( 2, 6 )
3
1 2 3 4 5 6
( 3, 1 ) ( 3, 2 ) ( 3, 3 ) ( 3, 4 ) ( 3, 5 ) ( 3, 6 )
4
1 2 3 4 5 6
( 4, 1 ) ( 4, 2 ) ( 4, 3 ) ( 4, 4 ) ( 4, 5 ) ( 4, 6 )
1 2 3 4 5 6
( 5, 1 ) ( 5, 2 ) ( 5, 3 ) ( 5, 4 ) ( 5, 5 ) ( 5, 6 )
1 2 3 4 5 6
( 6, 1 ) ( 6, 2 ) ( 6, 3 ) ( 6, 4 ) ( 6, 5 ) ( 6, 6 )
1
Lançar dois dados
5
6
Distribuição de probabilidades
frequências
É a lista de cada valor de uma variável aleatória “X”
Soma dos dados “X” 2 3 4 5 6 7 8 9 10 11 12 6
Probabilidade “P(x)”
f
1
/36 /36 3 /36 4 /36 5 /36 6 /36 5 /36 4 /36 3 /36 2 /36 1 /36
1 2 3 4 5 6 5 4 3 2 1 ∑=36
2
∑=1
/36
5
/36
4
/36
3
/36
2
/36
1
/36
6 5
Representação gráfica da distribuição
5
4
4
3
3
2
2
1
2
1
3
4
5
6
7
8
9
10
11
12
Soma dos dados
Notas e comentários A palavra “aleatório” indica que “X” é determinado pelo acaso. A variável aleatória é uma regra que associa um valor numérico a cada resultado experimental possível. A distribuição de probabilidades de uma variável aleatória descreve como as probabilidades estão distribuídas sobre os valores da variável aleatória. Para uma variável “X”, a distribuição de probabilidade é definida por uma função probabilidade, denotada por f(x). A função probabilidade fornece a probabilidade correspondente a cada um dos valores da variável aleatória. A principal vantagem de definir uma variável aleatória “X” e sua distribuição de probabilidade é que, uma vez que a distribuição seja conhecida, torna-se relativamente fácil determinar a probabilidade de uma série de eventos que podem ser do interesse de um tomador de decisões.
Uanderson Rebula de Oliveira
Estatística Aplicada
Engenharia de Produção
- 18 -
Exemplo 2. Um projeto de ampliação da capacidade produtiva da empresa ABC divide-se em duas etapas seqüenciais: etapa 1 (projeto – em 2, 3 ou 4 meses) e etapa 2 (construção – em 6, 7 ou 8 meses). Definindo a variável aleatória “X” como o prazo para conclusão do projeto e, usando a Regra da Adição com as probabilidades no diagrama de árvore, você poderá determinar a probabilidade de ocorrência dos meses para conclusão do projeto. Então, poderá usar essa informação para estabelecer as distribuições de probabilidades: Conclusão do projeto (em meses) “X” 8 9 10 11 12 -
Probabilidade “P(x)”
f
1
1 2 3 2 1
/9 = 0,11 /9 = 0,22 3 /9 = 0,33 2 /9 = 0,22 1 /9 = 0,11
2
∑=1
∑=9
Prazo para conclusão do projeto
Assim, podemos responder rapidamente alguns questionamentos: Qual a probabilidade de o projeto ser concluído em 8 meses? R.: 11% Qual a probabilidade de o projeto ser concluído em 9 meses? R.: 22% Qual a probabilidade de o projeto ser concluído em 10 meses? R.: 33% Qual a probabilidade de o projeto ser concluído em 10 ou 11 meses? R.: 55% Qual a probabilidade de o projeto ser concluído entre 9 e 11 meses? R.: 77%
Probabilidade
1 0.8 0.6
0.33
0.4
0.22
0.22
0.11
0.2
0.11
0
8
9
10 meses
11
12
Exemplo 3. Uma pesquisa entrevistou 200 casas de um bairro sobre quantas televisões possuem. Os dados mostram que 3 casas não possuem televisão, 38 casas possuem 1 televisão, 95 casas possuem 2 televisões, 52 casas possuem 3 televisões e 12 casas possuem 4 televisões. Definimos a variável aleatória de interesse como “X” o número de televisões. A partir dos dados, sabemos que X é uma variável aleatória que pode assumir 0, 1, 2, 3, ou 4. Temos, então, a distribuição de probabilidades e o gráfico abaixo:
Casas com televisões em um bairro f (casas)
3 38 95 52 12 ∑=200
Probabilidade “P(x)” 3 /200 = 0,015 38 /200 = 0,190 95 /200 = 0,475 52 /200 = 0,260 12 /200 = 0,060 ∑=1
1
Probabilidade
Nº de televisões “X” 0 1 2 3 4 -
0.8 0.6
0.475
0.4
0.19 0.2
0.26 0.06
0.015
0
0
1 2 3 Número de televisões
4
Assim, podemos responder rapidamente alguns questionamentos: Ao selecionar aleatoriamente uma casa, qual a probabilidade de ela não possuir televisão? R.: 1,5% Ao selecionar aleatoriamente uma casa, qual a probabilidade de ela possuir 1 televisão? R.: 19% Ao selecionar aleatoriamente uma casa, qual a probabilidade de ela possuir 2 televisões? R.: 47,5% Ao selecionar aleatoriamente uma casa, qual a probabilidade de ela possuir 2 ou 3 televisões? R.: 73,5% Ao selecionar aleatoriamente uma casa, qual a probabilidade de ela possuir televisão? R.: 98,5%
Uanderson Rebula de Oliveira
Estatística Aplicada
Engenharia de Produção
- 19 -
VALOR ESPERADO E(X) O Valor esperado de variáveis aleatórias “X” é um valor que você esperaria acontecer em vários testes. Podemos considerar o Valor esperado no sentido de que é o valor médio que esperaríamos se o experimento fosse feito diversas vezes. Então, podemos dizer que o conceito de Valor esperado aplicado em uma variável aleatória é equivalente à Média ponderada dos possíveis valores que “X” pode receber, onde os pesos são as probabilidades associadas. É semelhante ao cálculo da Média de uma Distribuição de frequência. Obtemos, então, a seguinte fórmula:
EQUAÇÃO DO VALOR ESPERADO Valor esperado de “X”
E (X) = ∑ X . P(x) Probabilidades associadas Variáveis Aleatórias Cada valor de X é multiplicado por sua probabilidade e os produtos são adicionados. O Valor esperado, representado por E(X), também é chamado de Média de uma Variável Aleatória, Esperança matemática, Esperança ou Expectância.
Exemplo 1. Um projeto de ampliação da capacidade produtiva da empresa ABC divide-se em duas etapas seqüenciais: etapa 1 (projeto – em 2, 3 ou 4 meses) e etapa 2 (construção – em 6, 7 ou 8 meses). Qual o prazo esperado para conclusão do projeto?
P(x)
Conclusão do projeto (em meses) X 8 x 9 10 11 12 -
0,11 0,22 0,33 0,22 0,11 ∑=1
X . P(x)
=
0,88 1,98 3,30 2,42 1,32 ∑ X.P(x) = 10
Valor esperado E(X) Interpretação: Espera-se que o projeto seja concluído em 10 meses NOTA: Posso fazer também da seguinte forma: E(X) = 8(0,11) + 9(0,22) + 10(0,33) + 11(0,22) + 12(0,11) = 10 meses Exemplo 2. A tabela abaixo representa um modelo de probabilidade para a soma de dois dados lançados simultaneamente. Qual o valor esperado para a soma dos dados? 3 1 2 3 4 5 6
( 1, 1 ) ( 1, 2 ) ( 1, 3 ) ( 1, 4 ) ( 1, 5 ) ( 1, 6 )
2
1 2 3 4 5 6
( 2, 1 ) ( 2, 2 ) ( 2, 3 ) ( 2, 4 ) ( 2, 5 ) ( 2, 6 )
3
1 2 3 4 5 6
( 3, 1 ) ( 3, 2 ) ( 3, 3 ) ( 3, 4 ) ( 3, 5 ) ( 3, 6 )
4
1 2 3 4 5 6
( 4, 1 ) ( 4, 2 ) ( 4, 3 ) ( 4, 4 ) ( 4, 5 ) ( 4, 6 )
5
1 2 3 4 5 6
( 5, 1 ) ( 5, 2 ) ( 5, 3 ) ( 5, 4 ) ( 5, 5 ) ( 5, 6 )
1 2 3 4 5 6
( 6, 1 ) ( 6, 2 ) ( 6, 3 ) ( 6, 4 ) ( 6, 5 ) ( 6, 6 )
1
Lançar dois dados
6
Uanderson Rebula de Oliveira
Soma dos dados “X” 2 3 4 5 6 7 8 9 10 11 12 -
x
Probabilidade “P(x)” 0,0278 0,0556 0,0833 0,1111 0,1389 0,1667 0,1389 0,1111 0,0833 0,0556 0,0278 ∑=1
X . P(x)
=
0,0556 0,1667 0,3333 0,5556 0,8333 1,1667 1,1111 1,0000 0,8333 0,6111 0,3333 ∑ X.P(x) = 7
Valor esperado E(X) Interpretação: Espera-se que a soma dos dados seja 7. NOTA: Posso fazer também da seguinte forma: E(X) = 2(0,0278) + 3(0,0556) + 4(0,0833) + 5(0,1111) 6(0,1389) + 7(0,1667) + 8(0,1389) + 9(0,1111) + 10(0,0833) + 11(0,0556) + 12(0,0278) = 7
Estatística Aplicada
Engenharia de Produção
- 20 -
VARIÂNCIA E DESVIO PADRÃO Podemos aplicar os conceitos de Variância e Desvio Padrão para o Valor esperado E (X). ;
Embora o Valor esperado de uma distribuição de probabilidades da variável aleatória descreva um resultado comum, ela não dá informações sobre a maneira que os resultados variam. Para estudar a variação dos resultados, você pode usar a variância e o desvio padrão de uma distribuição de probabilidades da variável aleatória. Então: FÓRMULA DA VARIÂNCIA E DESVIO PADRÃO DO VALOR ESPERADO VARIÂNCIA
S
2 =
DESVIO PADRÃO
∑ (x – EX) . P(x) 2
S=
s2
Probabilidades associadas Valor esperado Variáveis Aleatórias
Variância
Exemplo Um projeto de ampliação da capacidade produtiva da empresa ABC divide-se em duas etapas seqüenciais: etapa 1 (projeto – em 2, 3 ou 4 meses) e etapa 2 (construção – em 6, 7 ou 8 meses). Qual o prazo esperado para conclusão do projeto, a variância e o desvio padrão?
Conclusão do projeto (em meses) X 8 9 10 11 12 Total 2
Então, a Variância é: S = 1,32
P(x)
X . P(x)
0,11 0,22 0,33 0,22 0,11 ∑= 1
0,88 1,98 3,30 2,42 1,32 EX = 10
(X – EX)2 . P(x) ( 8–10)2 ( 9–10)2 (10–10)2 (11–10)2 (12–10)2
e o Desvio padrão é: S =
s2
. (0,11) = 0,44 . (0,22) = 0,22 . (0,33) = 0 . (0,22) = 0,22 . (0,11) = 0,44 ∑ = 1,32
→
S = 1,32
→
1,15 meses
Podemos calcular também, sem montagem de tabela, da seguinte forma: S2 = ∑ (x – EX)2.P(x) → (8-10)2. (0,11) + (9-10)2. (0,22) + (10-10)2. (0,33) + (11-10)2. (0,22) + (12-10)2. (0,11) = 1,32 S = 1,32
→
1,15 meses
Interpretação do desvio padrão: O Desvio padrão indica que a maioria dos valores de dados difere do Valor esperado não mais que 1,15 meses, para mais ou para menos. Então, podemos afirmar que os valores esperados estão dentro dos limites de:
8,85 8 meses
Uanderson Rebula de Oliveira
9 meses
11,15 10 meses E(X)
11 meses
12 meses
Estatística Aplicada
Engenharia de Produção
- 21 -
CAPÍTULO 3 DISTRIBUIÇÕES DE PROBABILIDADES
As variáveis aleatórias podem ser discretas ou contínuas, conforme mostra o esquema abaixo.
Em Probabilidade, existem as chamadas “distribuições de probabilidades” criadas por diversos estudiosos no tema, que podem ser discretas ou contínuas. As principais são listadas abaixo: DISTRIBUIÇÕES DISCRETAS Distribuição Binomial Distribuição Hipergeométrica Distribuição de Poisson DISTRIBUIÇÕES CONTÍNUAS Distribuição Uniforme Distribuição Normal Distribuição Exponencial Distribuição de Erlang Distribuição de Weibull Veremos cada uma delas adiante.
Uanderson Rebula de Oliveira
Estatística Aplicada
Prof. MSc. Uanderson Rébula de Oliveira
Uma mensagem do Prof. MSc Uanderson Rébula. CLIQUE NO VÍDEO
CLIQUE AQUI E INSCREVA-SE NO CURSO JÁ
Sumário
Engenharia de Produção
- 22 -
DISTRIBUIÇÃO BINOMIAL
(JAKOB BERNOULLI 1654-1705)
É um experimento de probabilidades para os quais os resultados de cada tentativa podem ser reduzidos a dois resultados: SUCESSO ou FRACASSO.
; Sucesso corresponde à probabilidade procurada enquanto que Fracasso à probabilidade não procurada, ou seja, o evento complementar. A palavra sucesso como usada aqui é arbitrária e não representa, necessariamente, algo bom. Qualquer uma das duas categorias pode ser chamada de sucesso, desde que seja a probabilidade procurada. A probabilidade Binomial é aplicada para Eventos independentes. A amostra é feita com reposição.
;
Revisão de FATORIAL (O fatorial é usado na equação binomial, por isso a importância da revisão) FATORIAL é um procedimento matemático utilizado para calcular o produto de uma multiplicação cujos fatores são números naturais consecutivos, denotado por x!. Exemplos: 5! = 5.4.3.2.1 = 120 5! = 5.4.3! = 20 5! = 5.4.3! = 5 30! = 30.29.28 . ... .1 3! 3! 3! 4 3! 4 0! = 1 Para calcular 5! use a calculadora na tecla x! . Procedimento: Introduza 5 x! = 120
5! = 5.4.3! = 10 3! (5-3)! 3! (2)!
Há várias formas de encontrar probabilidade Binomial. Uma forma é usar um Diagrama de Árvore e a regra de multiplicação. Outra forma é usar a equação de probabilidade Binomial, onde usamos Fatorial. Podemos também usar tabelas. EQUAÇÃO DA PROBABILIDADE BINOMIAL
P(x) =
n! . S x . F n-x x! (n - x)! F = probabilidade de Fracasso
n tamanho da amostra x nº sucessos na amostra
(evento complementar)
S = probabilidade de Sucesso (evento procurado)
Nota: p e q foram substituídos por S e F por fins didáticos.
Exemplo 1. Usando um Diagrama de Árvore (evento independente) e a equação da probabilidade Binomial Cirurgias de microfaturas no joelho têm 75% de chance de sucesso em pacientes com joelhos degenerativos. A cirurgia é realizada em 3 pacientes. Encontre a probabilidade de a cirurgia ser um sucesso em 2 pacientes. Pelo Diagrama de Árvore 1ª
2ª
3ª
S
Resultado
Sucessos
(S,S,S)
3
Probabilidade (ev. indepen) 0,75 . 0,75 . 0,75 = 0,422
S
F
(S,S,F)
2
0,75 . 0,75 . 0,25
= 0,141
+
0,25
S
(S,F,S)
2
0,75 . 0,25 . 0,75
= 0,141
+
(S,F,F)
1
0,75 . 0,25 . 0,25
= 0,047
(F,S,S)
2
0,25 . 0,75 . 0,75
= 0,141
F
F S 0,75
0,25
Pela equação Binomial
S 0,75
0,75
ou
S
F
(F,S,F)
1
0,25 . 0,75 . 0,25
= 0,047
0,25
S
(F,F,S)
1
0,25 . 0,25 . 0,75
= 0,047
F
(F,F,F)
0
0,25 . 0,25 . 0,25
= 0,016
F F
Há três resultados que têm dois sucessos e cada um tem uma probabilidade de 0,141. Aplicando a Regra da Adição, a probabilidade de a cirurgia ser um sucesso com dois pacientes é 0,422. (0,141 + 0,141 + 0,141)
A probabilidade de sucesso em 1 paciente será:
P(x)=
3! . 0,75 1 . 0,25 3 – 1 1! (3-1)!
≈ 0,141
Pelo Diagrama será (0,047+0,047+0,047)
Uanderson Rebula de Oliveira
P(x) =
+
n! . S x . F n - x x! (n - x)!
n=3 x=2 S = 0,75 F = 0,25 (evento complementar)
P(x)=
3! . 0,75 2 . 0,25 3 - 2 2! (3-2)!
P(x)= 0,422
Usando a equação Binomial obtemos o mesmo resultado pelo método do Diagrama de árvore, de 0,422.
A probabilidade de não ter sucesso será:
P(x)=
3! . 0,75 0 . 0,25 3 – 0 0! (3-0)!
≈ 0,016 Nota: x0 = 1
Estatística Aplicada
Engenharia de Produção
- 23 -
Exemplo 2. Um levantamento estatístico realizado pelo IBGE constatou que a taxa de desemprego na cidade de Resende é da ordem de 13%. Ao tomarmos uma amostra de 30 pessoas, com reposição, qual a probabilidade de: a) 5 estarem desempregados b) 28 estarem empregados c) 27 estarem empregados
13% desemprego(Sucesso) 87% emprego(Sucesso)
P(x) =
a) 5 estarem desempregados n = 30 x=5 S = 0,13 F = 0,87
Sucesso é o que se deseja estudar; Fracasso é o que não se deseja estudar
13% desemprego(Fracasso)
n! . S x . F n-x x! (n - x)!
b) 28 estarem empregados n = 30 x = 28 S = 0,87 F = 0,13
30! . 0,13 5 . 0,87 30 - 5 5! (30-5)!
P(x)=
P(x)= 142506 . 0,000037 . 0,0307
P(x)=
P(x)=
87% emprego(Fracasso)
n = 30 x = 27 S = 0,87 F = 0,13
30! . 0,87 28 . 0,13 30-28 28! (30-28)! 435
P(x) ≈ 0,1627
c) 27 estarem empregados
. 0,0202 . 0,0169
P(x)=
30! . 0,87 27 . 0,13 30-27 27! (30-27)!
P(x)= 4060 . 0,0232 . 0,0021
P(x) ≈ 0,1489
P(x) ≈ 0,1978
Para calcular 0,135 use a tecla Xy ou ^ . Introduza 0,13 Xy 5 = 3,7-05 que é o mesmo que 0,000037 Exemplo 3. Uma caixa contém 50 bolas, sendo 40 brancas e 10 pretas. Tirando-se 5 bolas, COM REPOSIÇÃO, qual a probabilidade de saírem: a) 2 bolas pretas b) 4 bolas brancas a) 2 bolas pretas n=5 x=2 S = 0,20 (10/50) F = 0,80 (40/50)
. 0,202 . 0,805–2 ≈ 0,2048 2! (5-2)!
P = 5!
b) 4 bolas brancas n=5 x=4 S = 0,80 (40/50) F = 0,20 (10/50)
P = 5!
. 0,804 . 0,205 –4 ≈ 0,4096
4! (5-4)!
Você pode usar o software BIOESTAT para calcular probabilidades Binomiais. Siga o caminho abaixo
R
resposta
Para usar o Bioestat, basta incluir “n” tamanho da amostra e “x” nº sucessos na amostra. Observe que não é necessário incluir os dados do Fracasso. O próprio software já entende que o Fracasso será o valor restante. Ex.: Se Sucesso = 20%, então Fracasso = 80% (omitido no software). A resposta será o valor que está destacada no quadro azul.
Uanderson Rebula de Oliveira
Estatística Aplicada
Engenharia de Produção
- 24 -
Exemplo 4. Uma moeda é lançada 5 vezes. Qual a probabilidade de obter “3 caras” nessas cinco provas? n = 5 (tamanho da amostra) x = 3 (nº sucessos da amostra) S = 0,50 ( = ½ a p de obter cara) F = 0,50 (= ½ a p de obter coroa)
P(x) =
n! . S x . F n - x x! (n - x)!
P(x) =
5! __ . 0,503 . 0,505–3 ≈ 0,3125 3! (5-3)!
Exemplo 5. Um dado é lançado 6 vezes. Qual a probabilidade de que a “face 4” apareça 2 vezes? n = 6 (tamanho da amostra) x = 2 (nº sucessos da amostra) 1 S = 0,17 ( = /6 a p de obter “4”) 5 F = 0,83 (= /6 a p de não obter “4”)
P(x) =
6! __ . 0,172 . 0,836–2 ≈ 0,2057 2! (6-2)!
Exemplo 6. Dois times de futebol, A e B, jogam entre si 6 vezes. Qual a probabilidade de o time A ganhar 4 jogos? n = 6 (tamanho da amostra) x = 4 (nº sucessos da amostra) S = 0,33 ( = 1/3 a p de ganhar)* F = 0,66 (= 2/3 a p de não ganhar)
P(x) =
6! __ . 0,334 . 0,666–4 ≈ 0,0774 4! (6-4)!
* 1/3 o time A pode ganhar, empatar ou perder. Logo, a probabilidade para cada evento é de 1/3 Exemplo 7. Em uma fábrica, 3 em cada 10 peças são defeituosas. Uma remessa a um determinado cliente possui 5 peças. Determine a probabilidade de que, nessa remessa: 2 estejam defeituosas n = 5 (tamanho da amostra) x = 2 (nº sucessos da amostra) S = 0,30 ( = 3/10 a p peça ser defeituosa) F = 0,70 (= 7/10 a p peça ser perfeita)
P(x) =
4 estejam perfeitas n = 5 (tamanho da amostra) x = 4 (nº sucessos da amostra) S = 0,70 ( = 7/10 a p peça ser perfeita) F = 0,30 (= 3/10 a p peça ser defeituosa)
5! __ . 0,302 . 0,705–2 ≈ 0,3087 2! (5-2)!
P(x) =
5! __ . 0,704 . 0,305–4 ≈ 0,3602 4! (5-4)!
DIFICULTANDO UM POUCO Exemplo 8. Uma máquina produz parafusos, dos quais 12% apresentam algum tipo de defeito. Calcular a probabilidade de, em um lote de 40 parafusos produzidos por essa máquina: a) Entre 3 e 5 parafusos estejam defeituosos, inclusive
(ou seja: P3 + P4 + P5)
Neste caso, calcularemos a probabilidade de 3, 4 e 5 parafusos defeituosos. Depois somamos as probabilidades. (Adição de Prob.)
n = 40 x=3 S = 0,12 F = 0,88
3 parafusos defeituosos
n = 40 x=4 S = 0,12 F = 0,88
P = 40! . 0,123 . 0,8840–3 ≈ 0,1507 3! (40-3)!
4 parafusos defeituosos
P = 40!_ . 0,124. 0,8840–4 ≈ 0,1901 4! (40-4)!
n = 40 x=5 S = 0,12 F = 0,88
5 parafusos defeituosos
P = 40! _ . 0,125. 0,8840–5 ≈ 0,1867 5! (40-5)!
P (3 e 5, inclusive) = 0,1507 + 0,1901 + 0,1867 = 0,5275
b) Pelo menos dois parafusos defeituosos (ou seja: P2 + P3 + P4 Ao invés de calcularmos P2 + P3 + P4
+...+
n = 40 (tamanho da amostra) x = 0 (nº sucessos da amostra) S = 0,12 F = 0,88 . 0,120 . 0,8840–0 ≈ 0,0060 0! (40-0)!
Uanderson Rebula de Oliveira
Neste caso use: 1 - (P0 + P1)
P40 é mais conveniente usarmos o método do evento complementar (1 – p), pois dá menos trabalho. Então, calculamos 1 – (P0 +P1 )
nenhum parafuso defeituoso
P0 = 40!
+ . . . + P40)
1 parafuso defeituoso
n = 40 (tamanho da amostra) x = 1 (nº sucessos da amostra) S = 0,12 F = 0,88
Evento complementar
P (x ≥ 2) = 1 – (P0 + P1) P = 1 – (0,0060 + 0,0328) P = 0,9612
P1 = 40! . 0,121. 0,8840–1 ≈ 0,0328 1! (40-1)!
Estatística Aplicada
Engenharia de Produção
- 25 -
c) No máximo 3 parafusos defeituosos (ou seja: P0 + P1 + P2 + P3) Neste caso, somamos as probabilidades de : P0 + P1 + P2 + P3, Ou seja, aplicamos o método de adição de probabilidades. nenhum parafuso defeituoso
1 parafuso defeituoso
2 parafusos defeituosos
3 parafusos defeituosos
P0 = 0,0060
P1 = 0,0328
P2 = 0,0872
P3 = 0,1507
Adição P (x ≤ 3) = 0,0060+0,0328+0,0872+0,1507 = 0,2768
d) Pelo menos 39 parafusos de qualidade (ou seja: ... P39 + P40) Ou seja, no mínimo 39 parafusos de qualidade. Então, somamos P39 + P40
39 parafusos de qualidade n = 40 x = 39 S = 0,88 F = 0,12 40! . 0,8839 . 0,1240–39 ≈ 0,0328 39! (40-39)!
P39 =
40 parafusos de qualidade n = 40 x = 40 S = 0,88 F = 0,12
Adição
P = P39 + P40 P = (0,0328 + 0,0060) P = 0,0388
40! . 0,8840. 0,1240–40 ≈ 0,0060 40! (40-40)!
P1 =
e) No máximo 39 parafusos de qualidade (ou seja: ...P0 + P1 + P2 + ... + P39) Neste caso, somaríamos as probabilidades de : P0 + P1 + P2 + ... + P39, Mas são muitos cálculos. Então, é mais conveniente usar o método de evento complementar (1 – p). Então, calculamos 1 – P40
P (x ≤ 39) = 1 – P40
→
P=
1 – 0,0060 = 0,9940
Encontrando probabilidades Binomiais por meio do Excel
Além do BIOESTAT, você pode encontrar probabilidades Binomiais pelo EXCEL, bastando inserir os dados, conforme demonstrado abaixo. A figura abaixo se refere ao exemplo 8 que acabamos de ver.
Uanderson Rebula de Oliveira
Estatística Aplicada
Engenharia de Produção
- 26 -
Encontrando probabilidades Binomiais por meio de tabelas. Repetindo o exemplo 1. Cirurgias de microfaturas no joelho têm 75% de chance de sucesso em pacientes com joelhos degenerativos. A cirurgia é realizada em 3 pacientes. Encontre a probabilidade de a cirurgia a) b) c)
ser um sucesso em 2 pacientes. Ser um sucesso em 1 paciente. Não ter sucesso.
Resolução. Uma parte da tabela pode ser vista aqui. Usando o sucesso de 75% (ou 0,75), n do tamanho da amostra = 3 e com número de sucessos 2, 1 e 0 das letras a), b) e c), respectivamente, você pode encontrar a probabilidade Binomial conforme visto nas áreas destacadas na tabela abaixo.
Nota: Para Sucesso 0,50 considere as linhas e colunas vermelhas para a probabilidade e os sucessos. Para valores de Sucessos "quebrados", use a fórmula DISTRBINOM (sucessos;n;p;0) no Excel.
Uanderson Rebula de Oliveira
Estatística Aplicada
Engenharia de Produção
Uanderson Rebula de Oliveira
- 27 -
Estatística Aplicada
Engenharia de Produção
Uanderson Rebula de Oliveira
- 28 -
Estatística Aplicada
Engenharia de Produção
Uanderson Rebula de Oliveira
- 29 -
Estatística Aplicada
Engenharia de Produção
- 30 -
DISTRIBUIÇÃO HIPERGEOMÉTRICA É um experimento de probabilidade para os quais os resultados de cada tentativa podem ser reduzidos a dois resultados: SUCESSO ou FRACASSO, MAS SEM REPOSIÇÃO DA AMOSTRA. ;
;
Da mesma maneira que a distribuição Binomial, a distribuição Hipergeométrica tem dois resultados possíveis: SUCESSO ou FRACASSO. A diferença é que ao experimento Binomial exige que a amostragem seja feita COM REPOSIÇÃO, pois cada resultado deve ser independente dos outros, enquanto que o experimento Hipergeométrico exige que a amostragem seja feita SEM REPOSIÇÃO, pois cada resultado deve ser dependente dos outros. O experimento Hipergeométrico é aplicado para Eventos dependentes. A amostra é sem reposição. EQUAÇÃO DA PROBABILIDADE HIPERGEOMÉTRICA F = nº fracassos da população f = nº fracassos da amostra
S = nº sucessos da população s = nº sucessos da amostra
N tamanho da população n tamanho da amostra
Exemplo Binomial Uma caixa contém 50 bolas, sendo 40 brancas e 10 pretas. Tirando-se 5 bolas, COM REPOSIÇÃO, qual P(x) de saírem: a) 2 bolas pretas b) 4 bolas brancas
P(x) =
n! . S x . F n - x x! (n - x)!
a) 2 bolas pretas n=5 x=2 P(x) = 5! . 0,20 2 . 0,80 5–2 S = 0,20 (10/50) 2! (5-2)! 40 F = 0,80 ( /50) ≈ 0,2048
b) 4 bolas brancas n=5 x=4 S = 0,80 (40/50) F = 0,20 (10/50)
P(x) =
5! . 0,80 4 . 0,20 5 –4 4! (5-4)! ≈ 0,4096
COM REPOSIÇÃO. Se as bolas são extraídas com reposição, isto é, retira-se uma bola, verifica-se a cor, coloca-se novamente a bola na caixa, retira-se novamente uma bola, verifica-se a cor, coloca-se de volta na caixa, até que se completem as 5 extrações.
Exemplo Hipergeométrico Uma caixa contém 50 bolas, sendo 40 brancas e 10 pretas. Tirando-se 5 bolas, SEM REPOSIÇÃO, qual P(x) de saírem: a) 2 bolas pretas b) 4 bolas brancas
a) 2 bolas pretas S = 10 s=2 F = 40 f=3 N = 50 n=5
10! 40! x 2! (10 − 2)! 3! (40 − 3)! P= 50! 5! (50 − 5)! P(x) ≈ 0,2098
b) 4 bolas brancas S = 40 s=4 F = 10 f=1 N = 50 n=5
10! 40! x 4! (40 − 4)! 1! (10 − 1)! P= 50! 5! (50 − 5)! P(x) ≈ 0,4313
SEM REPOSIÇÃO. Se as bolas são extraídas sem reposição, isto é, extraem-se as 5 bolas sem que nenhuma delas retorne à caixa. Os eventos – cor de cada bola – já não são mais independentes, pois a probabilidade de uma bola ser branca ou preta depende de que cor tenham saído as demais bolas.
Na científica --> ((10! : 2!(10-2)! x 40! : 3!(40-3)! : (50! : 5!(50-5)!)
Na TechCalc --> N=50 | n=5 | S=10 | s=2 |
Uanderson Rebula de Oliveira
Estatística Aplicada
Engenharia de Produção
- 31 -
Você pode usar o software BIOESTAT para calcular probabilidades Hipergeométricas. Siga o caminho abaixo Uma caixa contém 50 bolas, sendo 40 brancas e 10 pretas. Tirando-se 5 bolas, SEM REPOSIÇÃO, qual P(x) de saírem: a) 2 bolas pretas S = 10 s=2 F = 40 f=3 N = 50 n=5
resposta
Observe que não é necessário incluir os dados do Fracasso. O próprio software já reconhece que o Fracasso será o valor restante. Ex.: Se Sucesso = 10 e 2, então Fracasso = 40 e 3 (omitido), já que a população é 50 e 5. A resposta será o valor que está no quadro azul.
Você pode usar o software EXCEL para calcular probabilidades Hipergeométricas.
Demonstrando o exemplo anterior, temos:
Uanderson Rebula de Oliveira
Estatística Aplicada
Engenharia de Produção
- 32 -
DISTRIBUIÇÃO GEOMÉTRICA É um experimento de probabilidades para os quais os resultados de cada tentativa podem ser reduzidos a dois resultados: SUCESSO ou FRACASSO, sendo realizado até que apareça o PRIMEIRO SUCESSO ; Sucesso corresponde à probabilidade procurada enquanto que Fracasso à probabilidade não procurada, ou seja, o evento complementar. A palavra sucesso como usada aqui é arbitrária e não representa, necessariamente, algo bom. Qualquer uma das duas categorias pode ser chamada de sucesso, desde que seja a probabilidade procurada. ; Da mesma maneira que a distribuição Binomial, a distribuição Geométrica tem dois resultados possíveis: SUCESSO ou FRACASSO. Uma particularidade da distribuição Geométrica é que são necessárias inúmeras tentativas até o aparecimento do PRIMEIRO SUCESSO. ; A distribuição Geométrica é aplicada para Eventos independentes. A amostra é feita com reposição.
EQUAÇÃO DA PROBABILIDADE GEOMÉTRICA Nota: p e q foram substituídos por S e F por fins didáticos.
P(x) = Fn - 1 . S
n tamanho da amostra S probabilidade de Sucesso t (evento procurado) F probabilidade de Fracasso(evento complementar)
Exemplo. Uma máquina produz parafusos dos quais 12% apresentam algum tipo de defeito. Um analista deseja coletar uma amostra de 40 parafusos. Encontre a probabilidade de que: b) na 4ª amostra apareça o primeiro parafuso perfeito.
a) na 6ª amostra apareça o primeiro parafuso defeituoso. n=6 S = 0,12 F = 0,88
P(x) = 0,88
6 –1
.
n=4 S = 0,88 F = 0,12
0,12 = 0,0633 ou 6,33%
...Que, pela lógica do evento independente é a mesma coisa 5 que FFFFFS, ou seja, 0,88 . 0,12 (É como se fosse PPPPPD)
4 -1
P(x) = 0,12
. 0,88 = 0,0015 ou 0,15%
...Que, pela lógica do evento independente é a mesma coisa 3 que FFFS, ou seja, 0,12 . 0,88 (É como se fosse DDDP)
1º sucesso
1º sucesso
DISTRIBUIÇÃO DE PASCAL É um experimento de probabilidades para os quais os resultados de cada tentativa podem ser reduzidos a dois resultados: SUCESSO ou FRACASSO, sendo realizado até que apareça o K-ÉSIMO SUCESSO ; Sucesso corresponde à probabilidade procurada enquanto que Fracasso à probabilidade não procurada, ou seja, o evento complementar. A palavra sucesso como usada aqui é arbitrária e não representa, necessariamente, algo bom. Qualquer uma das duas categorias pode ser chamada de sucesso, desde que seja a probabilidade procurada. ; Da mesma maneira que a distribuição Binomial e Geométrica, a distribuição de Pascal tem dois resultados possíveis: SUCESSO ou FRACASSO. Uma particularidade da distribuição de Pascal é que são necessárias inúmeras tentativas até o aparecimento do K-ÉSIMO SUCESSO. ; A distribuição de Pascal é aplicada para Eventos independentes. A amostra é feita com reposição.
EQUAÇÃO DA PROBABILIDADE DE PASCAL
P(x) =
k
n-k
(n -1)! __ . S . F (k - 1)! . (n - k)!
n tamanho da amostra k k-ésimo sucesso da amostra x nº sucessos na amostra S probabilidade de Sucesso F probabilidade de Fracasso
Exemplo. Uma máquina produz parafusos dos quais 12% apresentam algum tipo de defeito. Um analista deseja coletar uma amostra de 40 parafusos. Encontre a probabilidade de: a) Na 9º amostra, apareça o terceiro parafuso defeituoso. n=9 k=3 S = 0,12 F = 0,88
3
9-3
(9-1)! __ . 0,12 . 0,88 (3-1)! . (9-3)!
= 0,0224
...Como exemplo, é como se fosse FSFFFSFFS
b) na 25ª amostra apareça o 21º parafuso perfeito. n = 25 k = 21 S = 0,88 F = 0,12
(25-1)! __ . 0,8821 . 0,1225-21 = 0,1503 (21-1)! . (25-21)!
...Como exemplo, é como se fosse FSFF...FSSFF...FS
3º sucesso
21º sucesso
Também chamada de Binomial negativa. Na científica: Ex a) (9-1)! : ((3-1)! x (9-3)!) x 0,12^3 x 0,88^9-3 Na TechCalc --> procurar "Distribuição Binomial, negativo". Entradas: ex. a) 3|6|0,12| = 0,0225 Ou seja: entrada de | k | n-k, em que esta diferença é o numero de falhas | S
Uanderson Rebula de Oliveira
ex b) 21|4|0,88| = 0,1503
Estatística Aplicada
Engenharia de Produção
- 33 -
DISTRIBUIÇÃO MULTINOMIAL (OU POLINOMIAL) É um experimento de probabilidades para os quais os resultados de cada tentativa podem ter VÁRIOS RESULTADOS POSSÍVEIS, e não só Sucesso ou Fracasso. É uma generalização da distribuição Binomial. ; Na distribuição Multinomial, todos os resultados possíveis são independentes uns dos outros.
EQUAÇÃO DA PROBABILIDADE MULTINOMIAL
P(x) =
n! _ . p1x1. p2x2 . p3x3... x1! x2! x3! ...
n tamanho da amostra x tamanho de cada sucesso P probabilidades associadas ao sucesso
Exemplo 1. Uma máquina produz parafusos dos quais 12% apresentam algum tipo de defeito, sendo 4% do tipo A e 8% do tipo B. Um analista deseja coletar uma amostra de 40 parafusos. Encontre a probabilidade de: a) Sair 35 parafusos perfeitos, 3 com defeitos tipo A e 2 com defeitos tipo B? n = 40 x1= 35 ; p1= 0,88 x2= 3 ; p2= 0,04 x3= 2 ; p3= 0,08
P(x) =
40! . 0,8835. 0,043 . 0,082 = 0,0307 35! 3! 2!
Exemplo 2. Um caixa tem 4 bolas vermelhas (V), 3 brancas (B) e 3 azuis. Retiram-se 5 bolas, com reposição. Qual a probabilidade de saírem 2V, 1B e 2A? n=5 x1= 2 ; p1= 0,40 (4/10) x2= 1 ; p2= 0,30 (3/10) x3= 2 ; p3= 0,30 (3/10)
Uanderson Rebula de Oliveira
P(x) =
5! . 0,402. 0,301 . 0,302 = 0,1296 2! 1! 2!
Estatística Aplicada
Engenharia de Produção
- 34 -
DISTRIBUIÇÃO DE POISSON
(DENIS POISSON 1781-1840)
(LÊ-SE POASSÓN)
É um experimento de probabilidade que calcula o NÚMERO DE OCORRÊNCIAS de um evento em um DADO INTERVALO de TEMPO, DISTÂNCIA, ÁREA, VOLUME ou unidade similar. ;
O esquema abaixo ajuda a melhor interpretar o experimento de Poisson.
1
x
2
3
x
nº de ocorrências do evento
4...
x
x
← Intervalo de tempo, distância, área ou volume → ; ;
Regras: É aplicada caso os eventos ocorram com uma MÉDIA conhecida e cada evento seja independente. São exemplos: número de consultas a uma base de dados por minuto; número de falhas de um equipamento por hora; número de erros de tipografia em um formulário; número de defeitos em um m2 de piso cerâmico; número de buracos em um asfalto por km; número de acidentes por mês em uma rodovia etc. EQUAÇÃO DA PROBABILIDADE DE POISSON
P(x) = μ x μ = letra grega mi = Média
*
e -μ x!
Constante de Euler Venn 2,7182
nº de ocorrências procurada
Nota: Algumas literaturas usam λ (lambda) no lugar de μ
Média do nº de ocorrências (baseada em histórico)
Exemplo 1. A Média do número de acidentes por mês na rodovia Barra Mansa-Angra é de 3 acidentes por mês. Determine a probabilidade de que, em qualquer mês dado: a) 4 acidentes ocorram na rodovia b) 2 acidentes ocorram na rodovia c) Nenhum acidente ocorra na rodovia a) 4 acidentes ocorram na rodovia
μ=3 e = 2,7182 x=4 P(x) =
34
.
2,7182 -3 = 0,168 4!
b) 2 acidentes ocorram na rodovia
c) Nenhum acidente ocorra na rodovia
μ=3 e = 2,7182 x=2
μ=3 e = 2,7182 x=0
P(x) = 3 2
.
2,7182 -3 = 0,224 2!
P(x) = 3 0
.
2,7182 -3 = 0,0498 0!
Para calcular e - μ use a mesma tecla Xy ou ^ . Introduza 2,7182 Xy - 3 = 0,0497 Encontre e na calculadora Você pode usar o microsoft Excel para calcular probabilidades de Poisson. Veja abaixo (do exemplo 1)
Uanderson Rebula de Oliveira
Estatística Aplicada
Engenharia de Produção
- 35 -
Exemplo 2. Supondo que a Média do número de pessoas que acessam um caixa eletrônico de um banco durante uma hora é 5. Determine a probabilidade de, no mesmo período, ocorrerem:
P(x) = μ x
a) Menos de 2 acessos ao caixa eletrônico b) Pelo menos 3 acessos ao caixa eletrônico a) Menos de 2 acessos ao caixa eletrônico
.
x!
e -μ
(ou seja nenhum acesso ou um acesso: P0 + P1 )
Neste caso, calcularemos a probabilidade de P0 e P1. Depois somamos as probabilidades. (Adição de Probabilidades) Nenhum acesso ao caixa
1 acesso ao caixa eletrônico
μ=5 e = 2,7182 x=0
μ=5 e = 2,7182 x=1
P0 = 5 0
P1 =
.
2,7182 -5 = 0,0067 0!
b) Pelo menos 3 acessos ao caixa eletrônico
51
Adição de Probabilidades
P(x < 2) = P0 + P1 .
2,7182 -5 = 0,0337 1!
P = 0,0067 + 0,0337 = 0,0404
(ou seja P3+P4+P5 +P6+P7+P8 ...)
“pelo menos 3 acessos ao caixa” é o mesmo que “no mínimo 3 acessos ao caixa”. Ao invés de calcularmos P3+P4+P5+... é mais conveniente usarmos método do evento complementar (1 – p). Então, calculamos 1 – (P0 + P1 + P2) Nenhum acesso ao caixa
1 acesso ao caixa eletrônico
P0 = 0,0067
P1= 0,0337
2 acessos ao caixa eletrônico
μ=5 e = 2,7182 x=2 P2 = 5
2 .
Evento complementar
P (x ≥ 3) = 1 – (P0 + P1 + P2) P = 1 – (0,0067+0,0337+0,0842) 2,7182 2!
-5
= 0,0842
P = 0,8753
Exemplo 3. Numa central telefônica chegam em média 300 telefonemas por hora. Qual a probabilidade de que: a) 2 telefonemas ocorram em dois minutos? b) 3 telefonemas ocorram em quatro minutos? c) Nenhum telefonema ocorra em um minuto?
Nota: São 300 telefonemas/hora, em média. 300 Então são em média 5 telefonemas/minuto. ( /60 = 5)
a) 2 telefonemas ocorram em dois minutos?
b) 3 telefonemas ocorram em quatro minutos?
c) Nenhum telefonema ocorra em um minuto?
μ= 10 telefonemas (5+5 em dois min) e= 2,7182 x= 2 telefonemas
μ= 20 telefonemas (5*4 em quatro min) e = 2,7182 x=3
μ = 5 telefonemas (em um min) e = 2,7182 x=0
P = 10 2 * 2,7182 -10 = 0,002270 2!
P = 20 3
P= 50
.
2,7182 –20 = 0,0000274 3!
.
2,7182 -5 = 0,00673 0!
Encontrando probabilidades de Poisson por meio de tabelas Repetindo o Exemplo 1. A Média do número de acidentes por mês na rodovia Barra Mansa-Angra é de 3 acidentes/mês. Determine a probabilidade de que, em qualquer mês dado: a) 4 acidentes ocorram na rodovia Resolução. Uma parte da tabela pode ser vista aqui. Usando a média µ=3 e x=4, você pode encontrar a probabilidade de Poisson conforme visto nas áreas destacadas na tabela abaixo. (compare o resultado com a letra a) do exemplo1 ). Tabela de Poisson (parcial)
Uanderson Rebula de Oliveira
Estatística Aplicada
Engenharia de Produção
- 36 -
TABELA
COMPLETA DE POISSON
Nota: Para valores não disponíveis na tabela, use POISSON(sucessos; λ ; 0) no Excel. ( λ é a mesma coisa que µ)
Uanderson Rebula de Oliveira
Estatística Aplicada
Engenharia de Produção
Uanderson Rebula de Oliveira
- 37 -
Estatística Aplicada
Engenharia de Produção
- 38 -
Poisson como aproximação para a distribuição Binomial Você pode utilizar a Distribuição de Poisson para fazer uma aproximação da Distribuição Binomial quando n (tamanho da amostra) é grande e S (sucesso) é pequeno. ;
Quando n é muito grande (acima de 100, por exemplo), as probabilidades binomiais ficam difíceis de serem calculadas, como exemplo 0,12 100. 0,88 100 - 5. O cálculo direto é impraticável. Apelamos então para a aproximação de Poisson. EQUAÇÃO DE POISSON COMO APROXIMAÇÃO DA BINOMIAL
P(x) = n = tamanho da amostra
(n.s)
x *
e x!
- (n . s) Constante de Euler Venn 2,7182 x = nº de sucessos da amostra
s = Probabilidade de sucesso
Note que substituímos a média µ da equação de Poisson pela média da distribuição Binomial (n . s). Para melhor entender o modelo de aproximação vamos ver os exemplos 1 e 2, que comparam os dois métodos: Exemplo 1. Uma máquina produz parafusos, dos quais 12% apresentam algum tipo de defeito. Calcular a probabilidade de, em um lote de 40 parafusos produzidos por essa máquina: a) 3 parafusos estejam defeituosos n = 40 x=3 S = 0,12 F = 0,88
Pbin =
Pela distribuição Binomial
Poisson como aproximação da distribuição Binomial n = 40 x=3 S = 0,12
3
40! . 0,12 . 0,88 3! (40-3)!
40–3
≈ 0,1507
PPoisson ≈ bin = (40 * 0,12) 3 * 2,7182 –(40 * 0,12) ≈ 0,1517 3!
Análise dos resultados: Perceba pelo comparativo que a distribuição de Poisson pode ter uma boa aproximação da Distribuição Binomial. A aproximação vai melhorando à medida que n vai se tornando maior e S vai se tornando menor. Exemplo 2. Uma máquina produz parafusos, dos quais 1% apresentam algum tipo de defeito. Calcular a probabilidade de, em um lote de 900 parafusos produzidos por essa máquina: a) 9 parafusos estejam defeituosos n = 900 x=9 S = 0,01 F = 0,99
Pbin =
Pela distribuição Binomial
Poisson como aproximação da distribuição Binomial n = 900 x=9 S = 0,01
9
900! . 0,01 . 0,99 9! (900-9)!
900 – 9
≈ ‘Math ERROR’ (0,1324 pelo Excel)
PPoisson ≈ bin = (900*0,01) 9 * 2,7182 –(900 * 0,01) ≈ 0,1317 9!
Análise dos resultados: Observe que o cálculo do exemplo 2 pelo método Binomial usando uma calculadora científica torna-se impraticável. Pelo Excel o resultado Binomial é 0,1324, bem aproximado pelo método de Poisson. É importante ressaltar que a variável aleatória de Poisson teoricamente se estende desde 0 até ∞ (infinito). No entanto, quando você utiliza a distribuição de Poisson como uma aproximação para a distribuição binomial, a variável aleatória de Poisson — o número de sucessos dentre n observações — não pode ser maior do qdue o tamanho da amostra, n.
Uanderson Rebula de Oliveira
Estatística Aplicada
Engenharia de Produção
- 39 -
DISTRIBUIÇÃO UNIFORME É aquela na qual as variáveis aleatórias se espalham uniformemente sobre a faixa de valores possíveis, ou seja, todos os valores ocorrem com a mesma probabilidade. ;
Representa o análogo continuo dos resultados igualmente prováveis. É usada nas situações em que não há razão para atribuir probabilidades diferentes a um conjunto possíveis de valores em um determinado intervalo. A área sob o gráfico de uma distribuição uniforme é igual a 1. O gráfico resulta em uma forma retangular. Há uma correspondência entre área e probabilidade. Se a probabilidade de x assumir valores num subintervalo é a mesma para qualquer outro subintervalo de mesmo comprimento, então, esta variável tem distribuição uniforme. A distribuição uniforme, embora apresentada como contínua, pode também abranger casos discretos. É o caso do lançamento de um dado, como mostrado abaixo.
; ; ;
A distribuição de probabilidade do lançamento de um dado, por exemplo, tem distribuição uniforme pois seus resultados são igualmente prováveis: Probabilidades no lançamento de um dado
P(x) lançar um dado
P(x) 1 /6 1 /6 1 /6 1 /6 1 /6 1 /6
Probabilidade
“x” 1 2 3 4 5 6
1
/6
1
/6
1
/6
1
/6
1
/6
1
/6
DISTRIBUIÇÃO UNIFORME 1
/6
Área = 1 1
∑=1 ou 100%
2
3
4
5
6
Faces do dado
Probabilidade na distribuição uniforme Para encontrar probabilidades na distribuição uniforme usamos a seguinte equação:
Probabilidade
Gráfico da distribuição uniforme
a
EQUAÇÃO DA PROBABILIDADE UNIFORME ACUMULADA
P(x) =
b
b– a D–C
P(x), se D ≤ x ≤ C 0, caso contrário
Em que:
C
Variável aleatória
Área P(x) procurada a – menor valor b – maior valor
D
Área do intervalo definido C – menor valor D – maior valor
Exemplo 1. Com base em históricos, o tempo de vôo de Chicago - Nova York pode ter qualquer valor no intervalo de 120 a 140 minutos. Considerando que cada um dos intervalos de 1 minuto é igualmente provável, determine: a)
A P(x) do avião chegar entre 126 e 131 minutos
b)
A P(x) do avião chegar em 136 minutos ou mais. Gráfico da distribuição do vôo
Probabilidade
126
120
125
131
130
135
120
140
131 – 126 140 – 120
O Valor esperado (média) da distribuição uniforme é:
Uanderson Rebula de Oliveira
125
130
135
140
Tempo de vôo em minutos
Tempo de vôo em minutos
P(x) = b – a → D–C
136 140
Probabilidade
Gráfico da distribuição do vôo
= 0,25
Ex=D + C 2
P(x) = b – a → D–C
140 – 136 140 – 120
= 0,20
Ex. O tempo esperado de vôo entre Chicago – Nova York é: Ex = 140+120 = 130 minutos. 2
Estatística Aplicada
Engenharia de Produção
- 40 -
DISTRIBUIÇÃO NORMAL
(ABRAHAM DE MOIVRE 1667 - 1754 )
É usada para distribuições SIMÉTRICAS e possui diversas aplicações, como calcular as probabilidades de PESOS e ALTURAS das pessoas, diâmetro e comprimento de peças em linhas de produção, tempo de vida útil de produtos e diversas outras medições de pesquisas científicas. ; Aplicado para distribuições SIMÉTRICAS (Média=Moda=Mediana). Possui como parâmetro a MÉDIA e DESVIO PADRÃO. ; Também chamada de Curva Normal, Curva de Gauss e Curva em forma de Sino.
Para entender o conceito de uma Distribuição Normal, tomemos como exemplo a distribuição da vida útil de 340 lâmpadas produzidas pela PHILIPS: Distribuição da vida útil de 340 lâmpadas produzidas pela PHILIPS 120
1000 horas
100
Quantidade
Média = = Moda Mediana =
Curva NORMAL ou Curva de GAUSS ou Curva em forma de SINO
100
80 70
60 40 20
70 40
40 10
10
0 700
800
900
1000
1100
1200
1300
Horas
Observe pela Distribuição Normal que o tempo de vida útil das lâmpadas: ; ; ; ; ;
Possui uma elevação em seu centro e pontas que vão tanto para direita quanto para a esquerda; A Média, Mediana e Moda (1000 horas) encontram-se exatamente no meio da distribuição; A distribuição de valores menores que a Média (700, 800, 900) e maiores que a Média (1100, 1200, 1300) é simétrica, o que significa que se você dobrá-la ao meio, suas partes serão como imagens refletidas por um espelho; Como a curva é simétrica em torno da Média, os valores maiores que a média e os valores menores do que a Média ocorrem com igual probabilidade; A maioria dos dados é centralizada ao redor da média, de modo que quanto mais longe da média você se mover, cada vez menos pontos de dados você vai encontrar em ambos os lados.
Analisando a variabilidade Analise a figura abaixo. Veja que a maior parte da vida útil das lâmpadas produzidas pela PHILIPS varia de 700 horas até 1300 horas, com uma boa parte das lâmpadas com vida útil de 900 a 1100 horas. Pensando como consumidor, você gostaria de se deparar com tamanha variabilidade quando for comprar um pacote de lâmpadas? Veja que uma concorrente (OSRAM) irá tentar fabricar lâmpadas com vida útil menos variável; a vida útil terá uma média de 1000 horas, mas suas lâmpadas terão uma vida útil mais consistente, variando de 920 a 1080 horas, com boa parte das lâmpadas com duração entre 980 e 1020 horas. OSRAM Menor variação 920 a 1080 horas
D istribuição da vida útil de 340 lâm padas produzidas pela OSRAM
OSRAM
120
Quantidade
100
100
80
PHILIPS 70
60 40 20
70
PHILIPS Maior variação 700 a 1300
40
40 10
10
0 700
800
900
1000
1100
1 2 00
1 3 00
Horas
Uanderson Rebula de Oliveira
Estatística Aplicada
Engenharia de Produção
- 41 -
Em uma distribuição Normal, o Desvio padrão tem um significado especial, pois determina a distância da Média até um ponto dentro da distribuição, cada um com a mesma distância da Média. No caso abaixo, supomos (por fins didáticos) que o Desvio padrão do tempo de vida útil das lâmpadas é s=100 horas. 99,74%
s=100
95,44% 68,26%
120
Quantidade
100
Espera-se que cerca de 68,26% dos valores encontramse dentro de 1 desvio padrão da média; (no exemplo, 240 lâmpadas (70+100+70).
100
80 70
60
20
70
S=100 S=100
40
Espera-se que 95,44% dos valores encontram-se dentro de 2 desvios padrões da média; (no exemplo, 320 lâmpadas: 40+70+100+70+40)
40
40 10
Espera-se que 99,74% dos valores encontram-se dentro de 3 desvios padrões da média; (no exemplo, 340 lâmpadas: 10+40+70+100+70+40+10)
10
0 700
800
900
1000
1100 1200
1300
Estes resultados são aproximações. A regra empírica não pode ser aplicada às distribuições que não possuam uma forma de montanha em seu centro.
Horas
-3S
-2S
x
-1S
A regra empírica Na distribuição normal é possível determinar a posição da maioria dos valores, usando as distâncias de 1, 2 ou 3 Desvios padrões da Média para estabelecer alguns marcos. A regra que lhe permite fazer isso se chama Regra empírica, que diz o seguinte:
1S
2S
3S
ENCONTRANDO PROBABILIDADES NA DISTRIBUIÇÃO NORMAL Quando se tem uma variável aleatória com distribuição normal pode-se obter a probabilidade de essa variável assumir um valor em determinado intervalo, pela área sob a curva dentro dos limites do intervalo. Exemplo 1. Seja X a variável aleatória que representa os tempos de vida útil das lâmpadas produzidas pela PHILIPS Sendo a Média de vida útil das lâmpadas de 1000 horas com Desvio padrão de 100 horas, ache a probabilidade de a lâmpada ter vida útil entre 1000 e 1150 horas, isto é, P(1000 < z < 1150). Probabilidade procurada P(1000 < Z < 1150) P= 0,4332
Z= 1,50 700
800
900
1000
1100
1200
1300
PARA ACHAR A PROBABILIDADE, SIGA 2 PASSOS:
1º PASSO. Calcule o número de desvios padrão que o valor “1150” se distancia da média “1000”. Para isto, utilizamos a equação abaixo, chamada “escore Z”. EQUAÇÃO ESCORE Z
z=
x - x s
Escore Z
Calculando o escore Z, temos: Média
Desvio padrão Variável aleatória procurada
z =
1150 - 1000 = 1,50 100
O resultado indica que 1150 está distante 1,50 desvios padrão da média. Use sempre 2 casas decimais. Veja demonstração da área de Z no gráfico acima.
O escore Z é uma medida que indica o número de desvios padrão de um valor a partir da média.
Uanderson Rebula de Oliveira
Estatística Aplicada
Engenharia de Produção
- 42 -
2º PASSO. Com o escore Z de “1,50”, use a Tabela de Distribuição Normal Padrão para encontrar a probabilidade, como explicado abaixo: Na 1ª coluna encontramos “1,5”. Em seguida, encontramos na 1ª linha “0”, que é o último algarismo de “1,50”. Na intersecção da linha e coluna encontramos 0,4332, o que indica que a probabilidade P(1000 < z < 1150) = 0,4332 ou 43,32%. Interpretação: espera-se que 43,32% das lâmpadas tenham vida útil entre 1000 e 1150 horas.
TABELA DE DISTRIBUIÇÃO NORMAL PADRÃO Z
0
1
2
Último dígito 4 5
3
6
7
8
9
A área constante na tabela corresponde a área à direita (sinal positivo): Área = 0,5
-z
-3S
-2S
+z
-1S
0
1S
2S
3S
motivo da qual desconsideramos o sinal negativo no z-escore nas áreas à esquerda, pois a curva é simétrica em torno da Média, ou seja, os valores maiores que a média e os valores menores do que a Média ocorrem com igual probabilidade. . A tabela não é de distribuição acumulada. Vamos ver alguns exemplos adiante.
Uanderson Rebula de Oliveira
Estatística Aplicada
Engenharia de Produção
- 43 -
Exemplo 2. Continuando com os dados do exemplo 1, ache P(900 < z < 1000).
Quando partimos da média calculamos apenas um escore Z. Para lado esquerdo o escore Z sempre terá sinal negativo, que não será considerado, pois os dois lados são iguais em termos de probabilidades. Probabilidade procurada P(900 < Z < 1000)
EQUAÇÃO ESCORE Z
z=
P= 0,3413
x - x s
Calculando, temos: z = 900 - 1000 = 100
-1,00 *
Probabilidade: na tabela temos: 0,3413 Z= -1,00 700
800
900
*Desconsidere o sinal negativo do escore Z
1000
1100
1200
1300
Interpretação: Espera-se que 34,13% das lâmpadas tenham vida útil entre 1000 e 1100 horas. Exemplo 3. Continuando com os dados do exemplo 1, ache P(900 < z < 1050).
Neste caso, calculamos dois escores Z e somamos as probabilidades: ADIÇÃO DE PROBABILIDADES Probabilidade procurada P= 0,5328 P(900 < Z < 1050)
. P1=0,3413
z1 = 900 - 1000 = - 1,00* 00
0,3413
+
P2=0,1915
z2 = 1050 - 1000 = 0,50 100 0,1915
Soma de probabilidades =
0,5328
Z2 =0,50 Z1= -1,00
700
800
900
1000
1100
1200
1300
Interpretação: Espera-se que 53,28% das lâmpadas tenham vida útil entre 900 e 1050 horas. Exemplo 4. Continuando com os dados do exemplo 1, ache P(1050 < z < 1150).
Neste caso, calculamos dois escores Z (de 1000 a 1150; e de 1000 a 1050). Depois subtraímos as probabilidades: SUBTRAÇÃO DE PROBABILIDADES
Probabilidade procurada P= 0,2417 P(1050 < Z < 1150) PZ2=0,1915
Z1 =
1150 - 1000 = 1,50 100 0,4332
Z2 =
1050 - 1000 = 0,50 100 0,1915
--
PZ1=0,4332
Z1=1,5 0
Subtração probabilidades =
0,2417
Z2= 0,50
700
800
900
1000
1100
1200
1300
Interpretação: Espera-se que 24,17% das lâmpadas tenham vida útil entre 1050 e 1150 horas.
Uanderson Rebula de Oliveira
Estatística Aplicada
Engenharia de Produção
- 44 -
Exemplo 5. Continuando com os dados do exemplo 1, ache P( z < 850 horas)
Ou seja, ache a probabilidade de a vida útil da lâmpada ser menor que 850 horas. Neste caso, P1 = 0,5 (meia área). Daí, calculamos Z2 e subtraímos as probabilidades: Probabilidade procurada P= 0,0668 P( Z < 850)
SUBTRAÇÃO DE PROBABILIDADES
Área = 0,5
P1 = (meia área)
P1=0,4332
0,5
--
PZ2=0,0668
Z2 =
Subtração probabilidades = 0,0668
Z1= -1,50
700
800
900
850 - 1000 = -1,50 100 0,4332
1000
1100
1200
1300
Interpretação: Espera-se que 6,68% das lâmpadas tenham vida útil abaixo de 850 horas. Exemplo 6. Sabe-se que a Média de vida útil das lâmpadas produzidas pela PHILIPS é de 1000 horas com Desvio padrão de 100 horas. O fabricante oferece uma garantia de 800 horas, isto é, trocar as lâmpadas que apresentem falhas nesse período ou inferior. Fabrica 15.000 lâmpadas mensalmente. Quantas lâmpadas deverá trocar pelo uso da garantia, mensalmente? (adaptado de Morettin, pág 143 e 144) Probabilidade procurada P( Z < 800)
SUBTRAÇÃO DE PROBABILIDADES P1 = (meia área)
0,5
--
Garantia de 800 horas
Z2 =
800 - 1000 = - 2,00 00 0,4772
Subtração de probabilidades = 0,0228
700
800
900
1000
1100
1200
1300
Interpretação: Constatamos que 2,28% (0,0228) das lâmpadas não atenderão a garantia. Então o fabricante deverá substituir mensalmente: 15.000 x 0,0228 = 342 lâmpadas.
Z-ESCORE E VALOR DE “X” NA DISTRIBUIÇÃO NORMAL Na seção anterior você encontrou a probabilidade que x pudesse estar em um dado intervalo ao calcular a área sob a curva normal para um dado intervalo. Mas, e se lhe fosse dado uma probabilidade e você quisesse encontrar o valor de x? Encontrando o Z-ESCORE dada uma PROBABILIDADE Exemplo 7. Encontre o z- escore que corresponda à área de 0,2123 (21,23%) da área à direita?
Observando a Tabela de Distribuição Normal Padrão encontramos z-escore de 0,56 conforme destacado abaixo.
TABELA DE DISTRIBUIÇÃO NORMAL PADRÃO Z
0
1
Uanderson Rebula de Oliveira
2
3
Último dígito 4 5
6
7
8
9
Estatística Aplicada
Engenharia de Produção
- 45 -
Encontrando VALOR DE “X” que corresponda a um Z-ESCORE
Da equação do Z-ESCORE podemos formar a equação do VALOR DE “X”, conforme demonstrado abaixo:
z=
x - x s
∴
zs = x − x
x + zs = x
∴
Equação para encontrar valor de “x” x = variável procurada x = x + zs x = média z = escore Z s = desvio padrão
Importante. Para encontrar valores de “x” vamos considerar os sinais dos Z-escore (negativo ou positivo) Exemplo 8. Sabe-se que a Média de vida útil das lâmpadas produzidas pela PHILIPS é de 1000 horas com Desvio padrão de 100 horas. Encontre o tempo de vida útil “x” que corresponda a:
x = x + zs
a) Z = 1,5: a) Z-escore de 1,5
x = 1000 + 1,5 (100) = 1.150 horas.
Interpretação: Para z escore de 1,5 o tempo de vida útil das lâmpadas é de 1.150 horas. Você pode confirmar o resultado consultando o exemplo 1.
x = x + zs
b) Z = -2: b) Z-escore de -2
→
→
x = 1000 + (-2)(100) = 800 horas.
Interpretação: Para z escore de -2 o tempo de vida útil das lâmpadas é de 800 horas. Você pode confirmar o resultado consultando o exemplo 6.
Encontrando VALOR DE “X” que corresponda a uma PROBABILIDADE Exemplo 9. Sabe-se que a Média de vida útil das lâmpadas produzidas pela PHILIPS é de 1000 horas com Desvio padrão de 100 horas. O fabricante deseja fixar prazo de garantia, em horas, de tal modo que, se a duração da lâmpada for inferior à garantia, a lâmpada seja trocada. De quantas horas deve ser este prazo para que somente 4% das lâmpadas sejam trocadas?
Passo 1 → 0,5 – 0,04 = 0,46 Passo 2 → Procurando na tabela P(x)=0,46 (0,4599 é mais próximo), encontramos Z = -1,75. (negativo pois é à esquerda)
0,5 -Z
Passo 3. Logo:
x = x + zs
0,04
→ x = 1000 + (-1,75)(100) = 825 horas.
Interpretação: O prazo de horas para que seja trocado 4% das lâmpadas deve ser de 825 horas.
700
800
900
1000
1100
1200
1300
-1,75
TABELA DE DISTRIBUIÇÃO NORMAL PADRÃO Z
0
1
Uanderson Rebula de Oliveira
2
3
Último dígito 4 5
6
7
8
9
Estatística Aplicada
Engenharia de Produção
- 46 -
Exemplo 10. As pontuações para um teste de Engenheiro em uma empresa são normalmente distribuídas, com uma média de 7,5 com e um desvio padrão de 0,5. Para ser adequado ao emprego, você deve ter pontuação dentro dos 9% primeiros. Qual é a menor pontuação que você pode conseguir e ainda ser adequado ao emprego?
Passo 1 → 0,5 - 0,09 = 0,41 Passo 2 → Procurando na tabela P(x)=0,41 (0,4099 é mais próximo) encontramos Z = 1,34 (positivo pois é à direita).
0,5 +Z
Passo 3
x = x + zs
0,09
→
x = 7,5 + (1,34)(0,5)
= 8,17.
Interpretação: A menor pontuação que você pode conseguir e ainda assim ser adequado ao emprego é 8,17.
, 6,0
6,5
7,0
7,5
8,0
8,5
9,0
+1,34
TABELA DE DISTRIBUIÇÃO NORMAL PADRÃO Z
0
1
2
3
Último dígito 4 5
6
7
8
9
Exemplo 11 Sabe-se que a Média de vida útil das lâmpadas produzidas pela PHILIPS é de 1000 horas com Desvio padrão de 100 horas. Dentro de que limite, de ambos os lados da média, ficará 95% das lâmpadas?
Resolução 0,95 Passo 1 → /2 = 0,4750 (para cada lado da média). Passo 2 → Procurar 0,4750 na tabela. Encontramos Z = 1,96 (neste caso teremos Z1= -1,96 e Z2 = +1,96).
0,95
Passo 3. Logo:
x = x + zs - 0,4750
+ 0,4750
x̄
z= - 1,96
X1 = 1000 + (-1,96)(100) = 804 horas. X2 = 1000 + (+1,96)(100) = 1.196 horas.
Interpretação: 95% das lâmpadas ficará entre 804 horas e 1196 horas, ou seja, P 95% ( 804 < z < 1196)
z= + 1,96
TABELA DE DISTRIBUIÇÃO NORMAL PADRÃO Z
0
1
2
3
Último dígito 4 5
6
7
8
9
USANDO UMA TABELA DE
Uanderson Rebula de Oliveira
Estatística Aplicada
Engenharia de Produção
- 47 0% 10%
DISTRIBUIÇÃO NORMAL PADRÃO ACUMULADA (Informativo)
20%
30%
40%
50%
60%
70%
80%
90% 100%
Distribuição acumulada de 0% a 100%
Esta tabela que tem o seguinte princípio:
Uanderson Rebula de Oliveira
Estatística Aplicada
Engenharia de Produção
- 48 -
Exemplo de aplicação. Sabe-se que a Média de vida útil das lâmpadas produzidas pela PHILIPS é de 1000 horas com Desvio padrão de 100 horas. Encontre P (900 < z < 1050) usando a tabela de distribuição normal padrão acumulada. Probabilidade procurada P(900 < Z < 1050) P= 0,5328
SUBTRAÇÃO DE PROBABILIDADE
Z1 =
900 - 1000 = -1,00* 100 0,1587 *Considere o sinal negativo
Z2 = 0,50 → 0,6915
Z2 =
1050 - 1000 = 0,50 100 0,6915
P(x)= Z2 – Z1 → 0,6915 – 0,1587= 0,5328
Z1= -1,00 → 0,1587
700
800
900
1000
1100
1200
1300
-3z
-2z
-1z
0
+1z
+2z
+3z
Veja o Z-escore destacado na tabela acumulada acima. Confronte o resultado com o exemplo 3.
Uanderson Rebula de Oliveira
Estatística Aplicada
Engenharia de Produção
- 49 -
Normal como aproximação para a distribuição Binomial ;
Na distribuição Binomial vimos que, se uma máquina produz parafusos dos quais 12% apresentam defeito, é fácil calcular a probabilidade de, em um lote de 40 parafusos produzidos, 3 sejam defeituosos. Veja abaixo. n = 40 x=3 S = 0,12 F = 0,88
Distribuição Binomial
P(x) = ;
x
n! . S . F x! (n - x)!
n-x
. 0,123 . 0,8840–3 ≈ 0,15
P = 40! 3! (40-3)!
Mas e se coletarmos 150 parafusos e queremos encontrar a probabilidade que menos de 40 parafusos sejam defeituosos? Teríamos que usar a equação binomial 40 vezes e encontrar a soma das probabilidades (P0+P1+P2+...+P39). Esse método não é prático, claro. A solução é usarmos a distribuição normal para aproximar da distribuição binomial.
Regras para aproximar a Normal para Binomial: Regra 1. AMOSTRAS GRANDES. À medida que o tamanho da amostra aumenta, a distribuição Binomial é aproximada e normalmente distribuída. Para ver que esse resultado é válido, veja as distribuições binomiais da produção de parafusos de uma máquina, dos quais 12% apresentam defeito (Sucesso), com dois diferentes de tamanhos amostrais: n = 10 e n = 40.
P(x) 0,27 0,37 0,23 0,08 0,003
0.5
Produção da máquina
0.4
0.37
0.3
n = 40 S = 0,12 X 0 1 2 3 4 5 6 7 8 9 10
0.27 0.23
0.2 0.08
0.1
0.003 0 0
1
2
3
4
P(x) 0,006 0,03 0,08 0,15 0,19 0,18 0,14 0,09 0,05 0,02 0,01
0.25
Produção da máquina
Curva normal
0.2
Probabilidade
X 0 1 2 3 4
Probabilidade
n = 10 S = 0,12
0.15 0.1
0.05 0 0
1 2 3
4 5 6
7 8 9 10
Número de parafusos def eituosos
Número de paraf usos def eituosos
Perceba que à medida que o tamanho da amostra aumenta, o histograma aproxima-se de uma curva normal. Então, para amostras grandes podemos fazer uma aproximação da Normal para Binomial (desde que S não seja muito próximo de 0 ou 1).
Regra 2: CORREÇÃO DE CONTINUIDADE. Para obter aproximações mais precisas utilizamos um ajuste chamado correção de continuidade. A razão para isto é que a distribuição Binomial é discreta e assume valores inteiros (0, 1, 2, 3...) enquanto que a distribuição Normal é contínua, podendo assumir qualquer valor dentro de um intervalo (0,5, 1,5, 2,5...). Como exemplo, suponha que dos 40 parafusos produzidos você queira saber a probabilidade de encontrar 3 defeituosos. Enquanto o modelo Binomial apresenta somente um único valor (como exemplo 3), a distribuição normal pode assumir qualquer valor dentro dos limites de um intervalo em torno daquele valor específico, como exemplo “2,5 e 3,5 parafusos”, conforme ilustrado abaixo. parafusos
parafusos
parafusos
Binomial Normal
A aplicação da correção da continuidade prevê o ajuste de -0,5 ou + 0,5 ao valor de x, conforme as situações listadas abaixo. a)
b) Pelo menos/ no mínimo 100 (inclui)
No máximo 100 (inclui)
99,5
100,5
c)
d) Maior que 100
Exatamente 100
e) Menor que 100 99,5
100,5
Uanderson Rebula de Oliveira
100,5
99,5
Estatística Aplicada
Engenharia de Produção
- 50 -
Exemplo 1. Uma máquina produz parafusos, dos quais 12% apresentam algum tipo de defeito. Calcular a probabilidade de, em um lote de 40 parafusos produzidos por essa máquina, 4 sejam defeituosos: a)
Pelo método Binomial
P(x) =
b)
n = 40 x=4 S = 0,12 F = 0,88
n! . S x . F n - x x! (n - x)!
P=
40! . 0,12 4 . 0,88 40–4 ≈ 0,1901 4! (40 - 4)!
Pelo método de aproximação da Normal pela Binomial
1º passo – Encontre a média e o desvio padrão da distribuição Binomial: Médiabin = n . S
→
40 . 0,12 = 4,8
|
n .S. F
DPBin =
40 . 0,12 . 0,88 = 2,05
→
2º passo – Aplique a correção de continuidade para o valor de x procurado: x = 4 parafusos defeituosos. Observando as situações listadas → 3,5 < x < 4,5
3º passo - Desenhe o gráfico Normal com a média e desvio padrão Binomial; e com valor de x procurado (corrigido) e aplique a equação do escore Z: 0.25
SUBTRAÇÃO DE PROBABILIDADE (TABELA ACUMULADA)
Produção damáquina
3,5 < x < 4,5
Com as probabilidades da tabela acumulada:
0.2
Z1 = 0.15
Z2 =
0.1
3,5 - 4,8 = - 0,63 2,05
0,2843
4,5 - 4,8 = - 0,14 2,05
0,4761
0.05
P(x)= Z2 – Z1 → 0,4761 – 0,2843= 0,1918 0 0
1
2
3
4
2,75
5
4,8
6
7
8
9
10
6,85
Comparação de resultados: Binomial = 0,1901 versus Normal = 0,1918, sendo bastante aproximados. Exemplo 2. Uma máquina produz parafusos, dos quais 12% apresentam algum tipo de defeito. Calcular a probabilidade de, em um lote de 150 parafusos produzidos por essa máquina, no máximo 20 sejam defeituosos.
1º Médiabin = n . S
→
150 . 0,12 = 18
|
DPBin =
n .S . F
→
150 . 0,12 . 0,88 = 3,98
2º x = no máximo 20 parafusos defeituosos → 20,5 ADIÇÃO DE PROBABILIDADES P1 = (meia área)
No máximo 20 parafusos defeituosos
0,5
+ Z2 =
20,5 - 18 = 0,62 3,98
0,2324
Adição de probabilidades = 0,7324 14,02
18
21,98 20,5
Perceba que pelo método Binomial você teria que calcular P0+P1+P2+...+P20, sendo muito trabalhoso. Com auxílio de recursos computacionais, como o Excel, o resultado é 0,7413. Calculando manualmente pelo método de aproximação da Normal para Binomial o resultado é 0,7324, tendo uma aproximação satisfatória.
Uanderson Rebula de Oliveira
Estatística Aplicada
Engenharia de Produção
- 51 -
Normal como aproximação para a distribuição de Poisson. Na distribuição de Poisson vimos que, se a média do número de acidentes na rodovia Barra Mansa-Angra é de 15 acidentes/mês, é fácil calcular a probabilidade de que 12 acidentes ocorram na rodovia, em qualquer mês dado:
µ = 15 e = 2,7182 x = 12
P(x) = µx
x
e-µ
1512
→
x!
x
2,7182 -15 = 0,0829 12!
Mas e se quiséssemos encontrar a probabilidade de que ocorresse no máximo 12 acidentes em qualquer mês dado? Teríamos que usar a equação de Poisson 13 vezes e encontrar a soma de probabilidades (P0+P1+P2+...+P12). Esse método não é prático, claro. A solução é usarmos a Normal para aproximar da Distribuição de Poisson.
Regra 1 Para uma melhor aproximação, use a correção de continuidade (+0,5 ou -0,5) nos mesmos moldes estudados na Normal como aproximação da Binomial, visto que o modelo de Poisson também é uma distribuição Discreta. Regra 2 À medida que a média µ de Poisson cresce, mais se aproxima da Distribuição Normal. Em geral, fazemos a aproximação da Normal para Poisson quando µ ≥ 15. Exemplo 1. A Média do número de acidentes por mês na rodovia Barra Mansa-Angra é de 15 acidentes por mês. Determine a probabilidade de que, em qualquer mês dado, ocorram no máximo 12 acidentes
1º passo – Encontre a média e o desvio padrão da distribuição de Poisson:
μPoisson = x
→
15
|
DPPoisson =
x
→
15 = 3,873
2º passo – Aplique a correção de continuidade para x: máximo 12 acidentes → 12,5 3º passo - Desenhe o gráfico Normal (com correção continuidade) e aplique a equação escore Z: SUBTRAÇÃO DE PROBABILIDADE
x = 15 S = 3,873 X = 12,5 Z=?
Z1 =
0,5 -
Z2 = 12,5 - 15 = - 0,6455 3,873 12,5 15
0,2389 = 0,2311
Comparação de resultados: Poisson (Excel) = 0,2676 versus Normal = 0,2611, sendo bastante aproximados.
Exemplo 2. Uma máquina produz 1200 peças por hora. Determine a probabilidade de a máquina produzir mais de 136 peças em 8 minutos.
Nota: São 1200 peças por hora, em média. Logo, são 20 peças por minuto (1200/60 = 20)
1º passo – Encontre a média e o desvio padrão da distribuição de Poisson: São 20 peças por minuto. Logo, são 160 peças em 8 minutos, em média (20 x 8).
μPoisson = x → 160 | DPPoisson =
160
= 12,64
2º passo – Aplique a correção de continuidade para x: mais de 136 peças → 136,5 3º passo - Desenhe o gráfico Normal (com correção continuidade) e aplique a equação escore Z: ADIÇÃO DE PROBABILIDADE
x = 160 S = 12,64 X = 136,5 Z=?
Z1 =
0,5 +
Z2 = 136,5 - 160 = - 1,85 12,64 136,5 160
0,4678 = 0,9678
Comparação de resultados: Poisson (Excel) = 0,9708 versus Normal = 0,9678, sendo bastante aproximados.
Uanderson Rebula de Oliveira
Estatística Aplicada
Engenharia de Produção
- 52 -
DISTRIBUIÇÃO EXPONENCIAL É um experimento de probabilidade que calcula o INTERVALO até a PRÓXIMA OCORRÊNCIA EM UM PROCESSO DE POISSON em um intervalo de tempo, distância, área, volume ou unidade similar. ;
Existe uma relação entre o modelo de Poisson e o Exponencial. A distribuição de Poisson é usada para calcular o número de ocorrências em um período; a distribuição Exponencial calcula o intervalo ate a próxima ocorrência. Veja abaixo: 1
2
x
3
nº de ocorrências do evento (Poisson)
4.
x
x
x
Intervalo até a próxima ocorrência (Exponencial) ← Intervalo de tempo e distância
→
Exemplo Poisson 9 número de acidentes em uma rodovia por mês; 9 número de acessos a um caixa eletrônico/hora; 9 número de defeitos em uma rodovia por Km. ; ;
Exemplo Exponencial 9 tempo até ocorrer o próximo acidente na rodovia; 9 tempo até ocorrer próximo acesso ao caixa eletrônico; 9 comprimento até o próximo defeito na rodovia.
É aplicada caso os eventos ocorram com uma MÉDIA conhecida e cada evento seja independente. Como a exponencial é utilizada na modelagem de tempos decorridos entre dois eventos, tem ampla aplicação em estudos de confiabilidade na modelagem do tempo até a falha de um equipamento e tempo de vida de materiais. EQUAÇÃO DA DISTRIBUIÇÃO EXPONENCIAL Para P > x (obter valor superior) Para P ≤ x (Obter valor igual ou inferior) Equação 1
⎛1 ⎞ − ⎜⎜ * x ⎟⎟ μ ⎠ P= e ⎝
⎛1 ⎞ − ⎜⎜ * x ⎟⎟ μ ⎠ P = 1− e ⎝
Equação 2
e = constante de Euller 2,7182
μ = média do intervalo
x = variável procurada
1
Adaptamos a equação de Poisson. O valor /µ da equação exponencial corresponde a média do intervalo entre as ocorrências. Por 1 exemplo, se a média de acidentes em uma rodovia é igual a 3 por mês, então o tempo médio entre os acidentes é /3 = 0,33 mês (ou 10 dias (0,33 x 30 dias). Da mesma maneira, se a média de atendimentos no caixa de uma loja é de 6 clientes/min, então o 1 tempo médio entre atendimentos é /6 = 0,166 min. (ou 10 segundos (0,1666 x 60seg).
Exemplo 1. O tempo médio que as pessoas acessam um caixa eletrônico de um banco é de 25 minutos. Determine a probabilidade de que o próximo acesso a este caixa : Dados: e = 2,7182 a) Seja superior a 40 minutos
b) Seja superior a 90 minutos
c) Seja inferior a 10 minutos
P >40min, use a equação 1
P > 90min, use a equação 1
P 140 minutos, use a equação 1
μ = 4 horas x = 3 horas
μ = 4 horas 30 X1 = 0,5 horas ( /60)
μ = 4 horas 140 x = 2,33 horas ( /60)
⎛1 ⎞ − ⎜ * 3⎟ ⎠ = 0,5276 P(x) = 1 − e ⎝ 4
⎞ ⎛1 − ⎜ * 0,5 ⎟ ⎠ = 0,1175 P(x) = 1 − e ⎝ 4
⎞ ⎛1 − ⎜ * 2,33 ⎟ 4 ⎠ = 0,5585 P(x) = e ⎝
Você pode usar o microsoft Excel para calcular probabilidades Exponenciais. Veja abaixo . Exemplo 2, letra a) inferior a 15 dias
Uanderson Rebula de Oliveira
Estatística Aplicada
Engenharia de Produção
- 54 -
DISTRIBUIÇÃO DE WEIBULL
(WALODDI WEIBULL – 1887-1979)
É um a extensão do processo exponencial que calcula o INTERVALO até a OCORRÊNCIA de FALHA “MAIS GRAVE” DE UM PROCESSO DE POISSON em um intervalo de tempo, distância, área ou volume. ;
A distribuição de Weibull, como a Exponencial, é amplamente usada na modelagem de tempo de vida de equipamentos e estimativas de falhas, além de determinação do tempo de vida de produtos industriais.
Na distribuição exponencial, se o tempo médio entre ocorrências de falhas de algum componente de um motor é de 4 horas, então, o intervalo entre as falhas é constante, como pode ser visto no esquema abaixo: O intervalo constante significa que, depois que a peça estiver em uso, sua probabilidade de falhar não altera ao longo do tempo. Por exemplo, admitimos que um fusível é “tão bom quanto novo” enquanto estiver funcionando. Isto é, se o fusível não tiver fundido, estará praticamente novo.
Intervalo constante entre ocorrências de falha (Exponencial)
x
x 4 hs
x
x
4 hs
4 hs
Já a distribuição de Weibull é adequada toda vez que o sistema (um motor, por exemplo) for composto de vários componentes e as falhas sejam aleatórias e devida à “mais grave” falha dentre um grande número de imperfeições no sistema. As falhas não constantes significam que, depois que a peça estiver em uso, sua probabilidade de falhar se altera. O número de falhas pode aumentar com o tempo, como exemplo, o rolamento de um motor se desgastará ao longo do uso.
Intervalo não constante entre ocorrências de falhas (Weibull)
x
x 4 hs
x
x 6 hs
5 hs
Falha mais grave
EQUAÇÃO DA DISTRIBUIÇÃO DE WEIBULL . A probabilidade de falhar um componente é dada por: Para P > x (obter valor superior) Para P ≤ x (Obter valor igual ou inferior) Equação 1
⎛x⎞ − ⎜⎜ ⎟⎟ η P= e ⎝ ⎠
e = constante 2,7182 x = variável procurada
β
Equação 2
⎛x⎞ − ⎜⎜ ⎟⎟ η P= 1 − e ⎝ ⎠
β
η – vida útil de um componente (lê-se eta) β – fator de qualidade de um componente (lê-se beta) (parâmetro de forma)
Exemplo 1. O rolamento de um motor segue uma variável aleatória de Weibull, com vida útil de 200 horas e fator de qualidade de 0,8. Determine a probabilidade de o rolamento: a) Durar 300 horas ou mais
b) Durar 70 horas ou menos
p >300 horas, use a equação 1
p < 70 horas, use a equação 2
η = 200 β = 0,8 x = 300
0,8 ⎛ 300 ⎞ −⎜ ⎟ P = e ⎝ 200 ⎠ ≈ 0,2507
η = 200 β = 0,8 x = 70
⎛ 70 ⎞ −⎜ ⎟ P = 1 − e ⎝ 200 ⎠
0,8 = 0,3506
NOTAS TEÓRICAS SOBRE A DISTRIBUIÇÃO DE WEIBULL 9
A taxa de falha da distribuição exponencial apresenta um mesmo nível de falhas dentro de um intervalo de tempo para toda a vida do componente, fornecendo estimativa de longo prazo bastante precisa, mas não é capaz de representar as mudanças na taxa de falha durante o tempo de operação. Já a distribuição de Weibull tende a refletir mais precisamente a distribuição de falha real de campo.
9
Embora a equação de Weibull aparenta ser de fácil aplicação, a deteminação dos parâmetros β e η exige conhecimentos de Engenharia de Confiabilidade/ Manutenção, não abordados nesta apostila. A Engenharia de Confiabilidade objetiva estabelecer, através de modelos estatísticos, o tempo no qual um sistema estará disponível, informação fundamental tanto para a proposição do tempo de garantia de um determinado produto quanto para a gestão da manutenção de um ambiente industrial.
9
A distribuição de Weibull é utilizada para representar falha: Devido à mortalidade infantil (dominada pelos pontos fracos de fabricação e erros de partida, instalação e manutenção); Aleatórias (dominada pelas falhas inesperadas causadas por esforços repentinos, condições extremas, erros humanos); e por desgaste (dominado pelo fim da vida de uso do equipamento). Esta informação ajuda na determinação de uma estratégia de manutenção adequada. A análise dos dados de falha, utilizando a Distribuição de Weibull, vai nos ajudar no estabelecimento do intervalo para certos tipos de tarefas de manutenção.
Uanderson Rebula de Oliveira
Estatística Aplicada
“Atualmente, todos – estudantes e professores – procuram o Udemy porque é a plataforma onde todos estão”. Fonte: Jornal do Brasil
Faça o curso online na Udemy
Estatística I (para leigos): aprenda fácil e rápido!
Com o Prof. MSc. Uanderson Rébula "O livro digital Estatística I para leigos possui uma linguagem fácil e ao mesmo tempo dinâmica. O conteúdo do livro está ordenado de forma a facilitar a aprendizagem dos alunos, mesmo aquelas pessoas que não tenham noção nenhuma de estatística aprenderão com esse livro. Você pode estudar sozinho para concursos pois o livro é auto explicativo ou até mesmo em grupos, no meu caso faço isso com meus alunos. Eu super recomendo esse livro!!! NOTA 1000" Maria Eunice Souza Madriz Professora de estatística da rede estadual de ensino da Bahia Avaliação do livro pelo cliente na amazon.com.br
Saiba mais Clique aqui
www.udemy.com Junte-se a milhões de estudantes na maior plataforma on-line de cursos curtos e práticos do mundo. Com mais de 45.000 cursos virtuais disponíveis, o Udemy é uma plataforma global de ensino on-line onde 15 milhões de alunos estão dominando novas habilidades. O foco do Udemy são os conhecimentos práticos e úteis para o mercado de trabalho. Há cursos gratuitos e pagos. São cursos curtos e com valores bem acessíveis.
Prof. MSc. Uanderson Rébula de Oliveira
Uma mensagem do Prof. MSc Uanderson Rébula. CLIQUE NO VÍDEO
CLIQUE AQUI E INSCREVA-SE NO CURSO JÁ
Sumário
Engenharia de Produção
- 55 -
CAPÍTULO 4 INTRODUÇÃO À ESTATÍSTICA INFERENCIAL
O objetivo da Estatística Inferencial é tirar conclusões sobre a população com base em dados amostrais.
Uanderson Rebula de Oliveira
Estatística Aplicada
Engenharia de Produção
- 56 -
CONCEITOS BÁSICOS EM ESTATÍSTICA INFERENCIAL ESTATÍSTICA INFERENCIAL O objetivo da Estatística Inferencial é tirar conclusões com base em amostras de tal modo que as informações possam ser expandidas para toda a população. AMOSTRA (uma parte da população)
POPULAÇÃO (todos os elementos em estudo)
Média = ? Desvio padrão = ?
Média = a Desvio padrão = b
Uma amostra constitui numa redução da população a dimensões menores, sem perda das características essenciais. Examina-se, então, a amostra. Se essa amostra for bastante representativa, os resultados obtidos poderão ser generalizados para toda a população. As conclusões fundamentadas em uma amostra não serão exatamente as mesmas que você encontraria se estudasse toda a população, em função da variabilidade. Então, toda conclusão tirada por uma amostragem virá acompanhada de um grau de incerteza. A estatística inferencial possui técnicas que permitem dar ao pesquisador um grau de confiabilidade, de confiança, nas afirmações que faz com a população, baseadas nos resultados amostrais. O problema fundamental da estatística inferencial é, portanto, medir o grau de incerteza dessas generalizações. Conhecer a probabilidade de variação do processo de inferência é importante. Com que probabilidade se pode confiar nos resultados obtidos dos dados amostrais?
Exemplo de Estatística Inferencial: Em 2002, estudo baseado numa amostra de Engenheiros e Gerentes de diversas empresas de Construção Civil, acredita-se que o salário médio dos cargos desse ramo são:
CARGOS
MÍNIMO (R$)
MÉDIO (R$)
MÁXIMO (R$)
4.976 3.694 2.122 1.671
5.951 4.146 2.296 1.872
7.738 4.517 3.206 2.042
Gerente de Engenharia Civil Engenheiro Civil Sênior Engenheiro Civil Pleno Engenheiro Civil Júnior
Fonte: A REMUNERAÇÃO DE PROFISSIONAIS DA ÁREA DE CONSTRUÇÃO CIVIL – Seu Salário - Jornal Carreira e Sucesso
Observe que esse estudo generalizou os resultados da amostra para a população.
PARÂMETROS E ESTATÍSTICAS Sempre que as relações forem calculadas com base em dados da população, chamamos de “PARÂMETROS”; e sempre que essas relações se referirem à amostra serão chamadas de “ESTATÍSTICAS”.
PARÂMETROS
AMOSTRA (uma parte da população)
POPULAÇÃO (todos os elementos em estudo)
ESTATÍSTICAS
Notação para PARÂMETRO e ESTATÍSTICA: Notação Nome da PARÂMETRO ESTATÍSTICA relação Tamanho Média Variância Desvio Padrão µ (lê-se mi)
(POPULAÇÃO)
(AMOSTRA)
N µ σ2 σ
n x̄ S2 S
σ (lê-se sigma minúsculo)
EXEMPLO: PARÂMETRO (População) Considerando o salário anual dos 2.500 gerentes da empresa XTPO, temos: x1 = R$ 47.874 x2 = R$ 51.896 x3 = R$ 49.567 . . x2500 = R$ 53.456
µ = R$ 51.800 σ = R$ 4.000
ESTATÍSTICA (amostra) Considerando uma amostra do salário anual de 30 gerentes da empresa XTPO, temos: x1 = R$ 47.874 x2 = R$ 51.896 x3 = R$ 49.567 . . x30 = R$ 50.301
x̄ = R$ 51.927 S = R$ 3.348
Os resultados amostrais serão sempre diferentes da população. Essa diferença chama-se erro.
Uanderson Rebula de Oliveira
Estatística Aplicada
Engenharia de Produção
- 57 -
TÉCNICAS DE AMOSTRAGEM PROBABILÍSTICAS São técnicas de seleção dos elementos de uma população, de modo a se obter uma amostra representativa da população. Devem ser utilizadas para assegurar que as inferências sobre a população sejam válidas. Amostragem Aleatória Simples – É aquela na qual todos os elementos da população tem a mesma chance de ser selecionado. ;
Essa técnica usa mecanismos de casualidade para escolher os elementos da população, como a tabela de números aleatórios. O método é semelhante a um sorteio.
Tabela de números aleatórios ;
A tabela de números aleatórios consiste em uma série de números listados em uma sequência aleatoriamente gerada. Essa tabela tem duas características que a tornam adequada: primeiro, os números estão dispostos de tal maneira que a chance de qualquer um deles aparecer em determinada sequência é igual à chance do aparecimento em qualquer outra posição; segundo, cada uma de todas as combinações de algarismos tem a mesma chance de ocorrência. O Excel dispõe da função “ALEATÓRIO” para gerar números aleatórios (veja figura). A tabela de números aleatórios abaixo foi construída de modo que os dez algarismos (0 a 9) são distribuídos ao acaso, pelo Excel, identificadas pelas linhas (1, 2, 3, 4...) e colunas (A, B, C, D ...):
Tabela de números aleatórios 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34
A 9 0 6 9 5 8 3 3 4 6 7 8 8 2 3 0 1 1 6 2 9 4 5 8 1 7 7 8 1 7 1 3 6 5
B 3 7 5 7 5 3 1 6 2 8 9 1 1 8 3 2 1 9 9 7 5 2 8 4 2 7 2 7 4 6 5 2 5 0
C 3 6 1 0 6 4 2 3 0 7 1 4 7 8 7 7 0 0 7 1 5 4 3 3 8 5 8 7 8 1 8 2 4 8
D 1 8 5 2 5 8 7 1 4 0 6 6 9 4 2 8 5 4 4 2 5 9 1 2 1 7 8 1 2 9 1 2 6 7
E 2 1 3 6 1 8 5 1 7 3 5 3 3 4 0 1 9 1 5 1 2 7 1 1 0 9 8 9 2 0 0 1 5 8
F 1 4 4 7 6 3 4 7 2 9 8 8 4 0 0 7 6 1 0 6 2 3 3 3 5 2 3 6 1 5 4 1 9 1
G 6 5 4 3 4 8 7 6 7 9 1 8 3 4 2 7 6 4 1 3 0 1 8 5 4 4 8 7 9 1 3 4 5 3
H 6 0 2 2 8 0 1 9 9 9 4 4 6 3 9 6 2 3 0 1 1 8 2 7 3 5 5 6 5 4 9 5 1 5
I 3 5 3 6 3 6 3 5 3 8 3 7 9 2 5 0 7 3 6 1 3 3 5 6 8 7 5 6 2 4 2 8 0 1
Uanderson Rebula de Oliveira
J 3 8 7 7 3 4 5 3 3 6 7 1 5 2 5 4 2 1 6 7 6 4 3 7 5 8 4 5 6 4 4 0 0 4
K 9 6 9 4 1 8 2 3 3 8 9 3 9 8 6 3 2 5 2 1 9 8 8 3 1 7 4 5 6 1 5 2 1 6
L 0 6 1 9 5 2 4 5 3 2 1 6 2 1 8 4 7 6 1 2 6 3 6 3 1 1 5 9 3 0 6 4 4 1
M 7 1 4 1 3 3 1 3 3 1 2 3 1 1 2 5 1 7 5 3 5 7 2 6 8 4 9 1 4 1 6 5 2 5
N 0 4 8 6 8 5 5 5 2 5 5 7 7 0 4 8 8 0 2 4 3 1 2 1 9 8 4 6 0 6 8 8 7 5
O 4 2 5 2 8 2 1 6 8 8 3 7 3 2 5 7 5 1 1 8 2 3 7 9 1 4 9 5 1 4 2 3 7 6
P 0 6 8 7 2 5 3 3 7 7 4 5 8 8 7 8 5 2 8 8 2 1 8 4 3 1 2 6 3 3 2 3 7 6
Q 4 7 7 7 3 3 1 3 1 4 1 2 7 1 4 3 2 2 8 1 6 1 1 7 8 6 3 1 0 7 3 0 7 0
R 4 5 2 8 8 7 8 3 8 5 6 6 5 8 0 0 7 2 2 1 3 6 1 6 7 4 1 2 5 3 1 9 8 3
S 1 6 4 6 8 1 0 4 0 5 3 2 2 1 6 3 5 4 5 7 1 4 1 5 4 9 1 2 5 7 2 3 0 5
T 3 0 7 8 7 7 5 3 6 2 1 4 2 4 7 1 9 4 2 1 4 8 3 6 5 7 1 3 6 1 8 9 3 5
U 8 5 3 4 7 6 8 6 1 6 6 8 7 5 3 2 5 9 2 1 4 2 4 6 0 5 2 2 9 0 4 8 2 0
V 1 7 7 7 4 8 8 8 5 3 3 6 6 1 2 7 0 2 2 1 4 3 4 7 4 9 7 5 1 7 5 9 7 3
W 6 7 0 8 5 2 6 4 3 4 2 3 0 8 6 8 3 2 8 3 3 3 8 2 7 4 6 7 7 4 9 6 7 6
X 5 9 6 1 0 9 0 5 4 1 5 2 6 1 3 5 7 1 1 6 1 1 8 6 0 1 3 5 8 1 1 9 2 5
Y 8 6 2 5 4 5 6 5 0 1 1 1 1 8 7 2 0 9 2 2 6 4 6 5 8 4 5 6 8 6 7 8 8 4
Z 8 3 2 7 5 3 6 8 6 2 9 4 8 3 6 3 3 7 3 1 7 7 4 7 3 4 1 9 8 8 4 8 7 1
a 9 2 1 1 1 4 9 8 3 2 5 8 1 3 7 2 1 1 8 1 0 3 2 0 8 3 4 5 2 9 7 4 5 4
b 8 6 3 2 8 3 5 1 2 1 7 3 2 4 2 5 5 5 1 7 5 8 3 8 9 2 0 0 7 9 6 5 8 1
c 6 3 5 6 7 7 5 9 8 2 7 1 1 5 7 7 4 9 3 9 5 6 1 2 6 2 6 3 7 7 7 9 1 4
d 5 4 0 6 2 0 5 2 3 9 5 7 4 6 2 5 2 1 5 2 1 3 8 6 2 5 2 1 9 9 1 8 3 0
e 0 5 8 6 3 3 3 5 3 4 6 0 8 6 2 7 9 1 7 2 0 1 6 4 3 8 7 7 7 6 6 1 8 6
f 6 9 9 3 2 9 5 7 0 0 6 8 5 8 7 4 7 5 6 5 7 8 1 9 7 0 7 1 5 2 1 3 7 9
g 3 8 4 5 9 7 8 8 7 5 8 1 2 1 6 3 4 8 7 3 3 0 8 1 1 2 7 1 0 7 8 3 6 5
h 3 6 7 6 6 0 5 7 2 8 4 9 7 4 4 5 4 9 8 2 1 2 4 4 4 3 7 5 3 6 0 5 4 2
i 1 5 1 0 4 1 6 7 7 7 6 4 3 7 1 2 2 7 1 2 2 8 9 7 6 4 7 5 6 3 4 8 0 2
j 2 2 6 8 7 5 7 5 2 0 5 1 3 4 6 9 6 2 6 2 1 1 1 7 2 5 7 2 2 7 6 9 0 0
Estatística Aplicada
k 4 1 4 2 7 7 1 8 4 6 7 2 8 3 1 4 0 2 7 7 5 0 5 3 9 4 0 6 4 0 2 0 2 5
l 8 1 4 1 9 2 2 7 2 8 1 3 5 3 1 6 5 2 1 6 3 8 6 4 4 2 4 6 4 1 9 6 6 5
Engenharia de Produção
- 58 -
Como usar a tabela de números aleatórios ;
1º Numerar todos os elementos da população N;
;
2º Determinar as combinações dos algarismos. Exemplo: se o último número da população for 80, devem ser lidos números de dois algarismos; se o último for 456, devem ser lidos números de três algarismos, e assim por diante;
;
3º Escolher um ponto de partida arbitrário da tabela. A leitura pode ser feita horizontalmente →← (da direita para a esquerda ou vice-versa), verticalmente ↓↑ (de cima para baixo ou vice-versa), diagonalmente ↗↙↖↘ (no sentido ascendente ou descendente) ou formando uma letra. A opção, porém, deve ser feita antes de iniciado o processo;
;
4º Descartar os números maiores que o tamanho da população e/ou numeral repetido;
;
5º Usar os números escolhidos para identificar os elementos da população.
EXEMPLO. Uma empresa pecuária possui uma população de novilhos de tamanho N = 80 e precisa retirar amostras de tamanho n = 12 (15% da população) para fazer exame de uma doença. Utilize o método de amostragem aleatória simples, considerando a tabela, a partir da 4ª linha, coluna D, sentido horizontal, da esquerda para direita (→). SOLUÇÃO. Como a população N=80 tem dois algarismos, combinamos dois algarismos na tabela, descartando os números repetidos e os números que não pertencem a população (Ex.: 81, 95,...). Este procedimento é repetido até a amostra de tamanho n=12 ser escolhida. Então: A B C 1 9 3 3 2 0 7 6 3 6 5 1 4 9 7 0
D E F 1 2 1 8 1 4 5 3 4
G 6 5 4
H 6 0 2
I 3 5 3
J 3 8 7
K 9 6 9
L 0 6 1
M 7 1 4
N 0 4 8
O 4 2 5
P 0 6 8
Q 4 7 7
R 4 5 2
S 1 6 4
T 3 0 7
U 8 5 3
V 1 7 7
W 6 7 0
X 5 9 6
Y 8 6 2
Z 8 3 2
a 9 2 1
b 8 6 3
c 6 3 5
d 5 4 0
e 0 5 8
f 6 9 9
g 3 8 4
h 3 6 7
i 1 5 1
j 2 2 6
k 4 1 4
l 8 1 4
2 6 7 3 2 6 7 4 9 1
6 2 7 7 8 6 8 4 7
8
1 5 7 1 2 6 6 6 3 5 6 0 8 2 1
5 5 5 6 5 1 6 4 8 3 3 1 5 3
8 8 2 3 8 8 7 7 4
5
0 4 5 1 8 7 2 3 2 9 6 4 7 7 9
6 8 3 4 8 8 3 8 0 6 4 8 2 3
5 2 5 3 7 1 7 6 8
2
9 5 3 4 3 7 0 3 9 7 0 1 5 7 2
n=
26
73
74
Amostras escolhidas 77 78 15 71
62
66
35
60
56
Descartadas por repetição:
Descartadas por não pertencer à população:
26 26 15
91 86 84 82
Amostragem Estratificada – É aquela na qual dividimos a população em subgrupos (estratos) de idênticas características e retiramos amostras aleatórias simples dos subgrupos.
Às vezes, a população é heterogênea (ex.: sexo masculino e feminino; peça A, B e C) e a amostra aleatória simples não apresentaria esta heterogeneidade. Seria, então, necessário homogeneizar as amostras em grupos, estratos. Neste caso recorremos à amostragem aleatória estratificada. “Estratificar” sugere “formar-se em camadas”. Exemplo. A estratificação mais simples que encontramos na população do rebanho de tamanho N=80 é a divisão entre novilhos e novilhas. Supondo que haja 35 novilhos e 45 novilhas, teremos a seguinte formação dos estratos:
População (80)
Estrato 1
Estrato 2
Novilhos (35)
Novilhas (45)
São, portanto, dois estratos (novilhos e novilhas). Como queremos uma amostra de tamanho n=12 (15% da população), por estrato, temos:
Rebanho Novilho (estrato 1) Novilha (estrato 2) TOTAL
Uanderson Rebula de Oliveira
População 35 45 80
15% 35*0,15 = 5,25 45*0,15= 6,75 80*0,15 = 12
Amostra 5 7 12
Número de amostras estratificadas
Estatística Aplicada
Engenharia de Produção
- 59 -
O próximo passo é extrair as amostras dentro de cada estrato. Então, numeramos o rebanho de 01 a 80, sendo que de 01 a 35 correspondem novilhos e de 36 a 80, as novilhas. Tomando na tabela de números aleatórios, a partir da 4ª linha, coluna D, sentido horizontal, da esquerda para direita (→), obtemos os seguintes números:
A B C 1 9 3 3 2 0 7 6 3 6 5 1 4 9 7 0
D E F 1 2 1 8 1 4 5 3 4
G 6 5 4
H 6 0 2
I 3 5 3
J 3 8 7
K 9 6 9
L 0 6 1
M 7 1 4
N 0 4 8
O 4 2 5
P 0 6 8
Q 4 7 7
R 4 5 2
S 1 6 4
T 3 0 7
U 8 5 3
V 1 7 7
W 6 7 0
X 5 9 6
Y 8 6 2
Z 8 3 2
a 9 2 1
b 8 6 3
c 6 3 5
d 5 4 0
e 0 5 8
f 6 9 9
g 3 8 4
h 3 6 7
i 1 5 1
j 2 2 6
k 4 1 4
l 8 1 4
2 6 7 3 2 6 7 4 9 1
6 2 7 7 8 6 8 4 7
8
1 5 7 1 2 6 6 6 3 5 6 0 8 2 1
5 5 5 6 5 1 6 4 8 3 3 1 5 3
8 8 2 3 8 8 7 7 4
5
0 4 5 1 8 7 2 3 2 9 6 4 7 7 9
6 8 3 4 8 8 3 8 0 6 4 8 2 3
5 2 5 3 7 1 7 6 8
2
9 5 3 4 3 7 0 3 9 7 0 1 5 7 2
Temos, então: 1 a 35 → Novilhos n =5 36 a 80 → Novilhas n =7 Descartados ;
Notas importantes sobre este tipo de amostragem
;
26 73
15 74
35 62
31 77
23 78
71
66
Como é provável que a variável em estudo apresente, de estrato para estrato, um comportamento heterogêneo e, dentro de cada estrato, um comportamento homogêneo, convém que a amostragem seja feita por estratos. Portanto, a amostragem estratificada é, em geral, usada para reduzir a variação nos resultados. A amostragem estratificada é mais eficiente do que a amostragem aleatória simples, uma vez que fica assegurada a representatividade de elementos ao longo de toda a extensão da população. A homogeneidade de itens dentro de cada estrato proporciona maior precisão. Da mesma maneira, em um sistema produtivo, podemos estratificar as amostras em, por exemplo, peça A, peça B, peça C e assim por diante.
Amostragem por Conglomerado- É aquela em que dividimos a população em pequenos grupos (conglomerados), e retiramos amostras aleatórias simples dos conglomerados. Normalmente usado para amostras grandes. É um método muito usado por motivos de ordem econômica e prática. Imagine uma população de 8.000 na qual se queira uma amostra de 400 elementos. É inviável usar os outros métodos pois implicaria em muito trabalho enumerar e escolher um a um. Exemplo. Na população de 8.000 novilhos, divida em 10 conglomerados e extraia uma amostra de tamanho 2.400, Partindo da 1ª linha, coluna A, sentido horizontal e da esquerda para direita (→) da tabela aleatória.
1º passo. Determine o número de elementos para cada conglomerado:
População (8.000)
8000
/ 10 = 800 novilhos por conglomerado 800 novilhos para cada conglomerado
Conglomerado 1
Conglomerado 2
Conglomerado 3
Conglomerado 4
Conglomerado 5
Conglomerado 6
Conglomerado 7
Conglomerado 8
Conglomerado 9
Conglomerado 10
2º passo: Determine o número de algarismos que serão usados na tabela aleatória: Como são 10 conglomerados, a contagem pela tabela aleatória será 1 - 10 3º passo: Determinar o número de conglomerados amostrados Como queremos 2.400 novilhos, então serão 3 conglomerados , pois 800 + 800 + 800 = 2.400 novilhos 4º passo. Usar a tabela e selecionar as amostras. Então: Partindo da 1ª linha, coluna A, sentido horizontal e da esquerda para direita (→) da tabela aleatória, temos, então: Conglomerados selecionados:
06
07
02
Agora, é só coletar todos os elementos desses conglomerados selecionados e estudar todos os itens. Uma amostra por conglomerado é uma amostra aleatória simples na qual cada unidade de amostragem é um grupo de elementos. Uma das principais aplicações da amostragem por conglomerados é a amostragem por áreas geográficas,
Uanderson Rebula de Oliveira
Estatística Aplicada
Engenharia de Produção
- 60 -
como cidades, municípios, setores de uma empresa, quarteirões de cidades, domicílios, território de vendas etc. Segundo Levine et al (2008, p. 222) e Anderson et al (2009, p.263) a amostragem por conglomerados têm as seguintes características: ; ; ; ;
Todos os elementos contidos em cada conglomerado amostrado formam a amostra; Cada conglomerado é uma versão representativa em pequena escala da população inteira; Tende a produzir melhores resultados quando os elementos neles contidos não são similares; De um modo geral, é mais eficaz em termos de custo do que a amostragem aleatória simples, particularmente se a população estiver dispersa ao longo de uma extensa área geográfica. Entretanto, a amostragem por conglomerado geralmente demanda um maior tamanho de amostra para que sejam produzidos resultados tão precisos quanto aqueles que seriam obtidos da amostragem aleatória simples ou estratificada.
Segundo Triola (2008, p. 23) outro exemplo de amostra por conglomerado pode ser encontrado nas pesquisas eleitorais, onde selecionamos aleatoriamente 30 zonas eleitorais dentre um grande número de zonas e, em seguida, entrevistamos todos os eleitores daquelas seções (zonas selecionadas). Isso é muito mais rápido e muito menos dispendioso do que selecionar uma pessoa de cada uma das zonas na área populacional. ATENÇÃO!
É fácil confundir amostragem estratificada com a amostragem por conglomerado, porque ambas envolvem a formação de grupos. Porém, a amostragem por conglomerado usa todos os elementos de um grupo selecionado, enquanto a amostragem estratificada usa amostras de elementos de todos os estratos.
Figura. Amostragem por Conglomerados em quarteirões de um bairro.
Uanderson Rebula de Oliveira
Estatística Aplicada
Engenharia de Produção
- 61 -
Amostragem Sistemática - É a técnica de amostragem em que retiramos os elementos da população periodicamente, definida pelo pesquisador. Utilizamos este tipo de amostragem quando os elementos de uma população se encontram ordenados, por exemplo, a coleta de amostras de um determinado produto em uma linha de produção.
Amostras
Coleta de Amostras
Nestes casos, a seleção dos elementos que constituirão a amostra pode ser feita por um sistema imposto pelo pesquisador. Assim, no caso de uma linha de produção, podemos, a cada dez itens produzidos, retirar um para pertencer a uma amostra da produção diária. Neste caso, estaríamos fixando o tamanho amostral de 10% da população. Uma amostragem é sistemática quando a retirada dos elementos da população é feita periodicamente, sendo o intervalo de seleção calculado, por meio da divisão do tamanho da população pelo tamanho da amostra a ser selecionada, ou seja: N / n EXEMPLO. Deseja-se retirar uma amostra de n = 10 unidades de peças de uma população de tamanho N = 800. O 800 intervalo de seleção é, então, /10 = 80. Desse modo, escolhemos um número de 1 a 80, o qual indicaria o primeiro elemento sorteado para amostra; os demais seriam periodicamente considerados de 80 em 80. Partindo da 1ª linha, coluna A, sentido horizontal e da esquerda para direita (→) da tabela aleatória:
o primeiro elemento será 31 (tabela aleatória) e os demais obtidos por progressão aritmética: 111, 191, 271, 351, 431, 511, 591, 671 e 751. O ESQUEMA ABAIXO PERMITE UM MELHOR ENTENDIMENTO:
800 = 80 10
População = 800 Amostra = 10 Amostra
1
2
+80 Nº da peça
31
111
3
+80
191
4
+80
5
+80
271
6
+80
351
1 - 80 7
+80
431
8
9
+80
511
+80
591
671
10
+80
751
Outros métodos de amostragens (não probabilísticos) Amostragem por julgamento – A pessoa que conhece mais profundamente o tema do estudo escolhe os elementos que julga serem mais representativos da população. Por exemplo, um repórter pode tomar como amostra dois ou três senadores, julgando que eles refletem a opinião geral de todos os senadores. A qualidade dos resultados depende do julgamento da pessoa que a seleciona. Amostragem por conveniência – a amostra é identificada primeiramente por conveniência (cômodo, útil, favorável). Como exemplo estudantes de uma universidade voluntários para compor uma amostra de uma determinada pesquisa escolar.
Uanderson Rebula de Oliveira
Estatística Aplicada
Engenharia de Produção
- 62 -
DISTRIBUIÇÕES AMOSTRAL DA MÉDIA Nesta seção, você vai estudar a relação entre uma Média da população e as Médias das amostras tiradas da população. Uma distribuição amostral é uma distribuição de probabilidade de uma estatística (tal como a média e o desvio padrão) de uma amostra, que é formada quando amostras de tamanho n são repetidamente colhidas de uma população.
Distribuição amostral de média das amostras Exemplo 1. Seja uma população com os seguintes elementos: N = {1,3,5,7}. Ao listar todas as amostras possíveis desta população de n = 2 elementos, e calcular a média de cada amostra, teremos:
Amostra 1,1 1,3 1,5 1,7
x̄ 1 2 3 4
Amostra 3,1 3,3 3,5 3,7
x̄ 2 3 4 5
Amostra 5,1 5,3 5,5 5,7
x̄ 3 4 5 6
Amostra 7,1 7,3 7,5 7,7
x̄ 4 5 6 7
→
2,236
2,5
→
1,581
→
1,581
N=4
n=2
Nn = 42 = 16 amostras possíveis.
POPULAÇÃO. Calcule a média (µ) e o desvio padrão (σ) da população: µ = ∑x N
→
1+ 3 + 5 + 7 = 4 4
σ2 = ∑(x - µ)2 N
→
(1 - 4)2 + (3 - 4)2 + (5 - 4)2 + (7 - 4)2 = 5 4
σ= 5
AMOSTRA. Calcule a média (µ x̄) e o desvio padrão (σx̄ ) das médias das amostras: µ x̄ = ∑x N σ2x̄ = ∑(x - µx̄)2 N
→
1+2+3+4+2+3+4+5+3+4+5+6+4+5+6+7 = 4 16
→
(1 - 4)2 + (2 - 4)2 + . . . + (6 - 4)2 + (7 - 4)2 = 2,5
σx̄ =
16
Se aplicarmos σ
o resultado é o mesmo: 2,236
n
2
(erro padrão da média)
CONCLUSÃO: A média das médias das amostras é igual a média da população: µx̄ = µ. Isso não é uma coincidência, sendo uma propriedade da distribuição amostral das médias das amostras. O desvio padrão das médias das amostras é menor que o desvio padrão da população e a equação σ / n é denominada erro padrão da média, pois mede a variação entre as médias amostrais e dá uma idéia do erro que se comete ao se substituir a média da população pela média da amostra.
média da amostra
x̄ = µ
erro padrão da média (ou margem de erro E) σx̄
=
σ
n
ou
s
(caso não tenha σ)
n
O erro padrão da média tem o mesmo conceito de um desvio padrão; ambos representam uma distância da média. Os valores da população original desviam-se uns dos outros graças a um fenômeno natural (as pessoas têm diferentes alturas, pesos, etc.), portanto temos o desvio padrão para medir sua variabilidade. As médias amostrais variam por causa do erro que ocorre por não sermos capazes de realizar um censo e temos que coletar amostras, portanto temos o erro padrão da média para medir a variação das médias amostrais.
Distribuição normal e a distribuição amostral (Teorema Central do Limite) Elaborando a distribuição de probabilidade para a média das amostras acima e representando-as por um histograma, percebe-se que tem o formato de uma curva normal. De acordo com o Teorema Central do Limite, amostras n < 30 se aproximam da distribuição normal, enquanto que amostras n > 30 tem distribuição normal. Estatísticos chegaram a esta conclusão após investigações/simulações de uma grande variedade de populações e de tamanhos de amostras.
x̄
f
P(x̄)
1 2 3 4 5 6 7
1 2 3 4 3 2 1
0,06 0,12 0,18 0,25 0,18 0,12 0,06
Então, podemos usar a Distribuição Normal. Podemos encontrar a probabilidade de que a MÉDIA DA AMOSTRA caia em um dado intervalo da distribuição amostral. Para transformar x em um z-escore, use a equação:
∑f =16
Uanderson Rebula de Oliveira
Estatística Aplicada
Engenharia de Produção
- 63 -
Diferenciando Distribuição Normal e o Teorema Central do Limite Exemplo 1. Após vários anos de estudos, um gerente concluiu que a idade dos clientes que frequentam um restaurante é normalmente distribuída, com média de 28 anos e desvio padrão de 3 anos. a)
Ache a probabilidade de um cliente ter idade entre 27 e 29 anos, isto é, P(27 < z < 29). Ao lidar com um valor individual de uma população normalmente distribuída, use os métodos da distribuição normal já estudados. Então: P(x) procurada P(27 < Z < 29) P= 0,2586 0,1293
z= x - x s
0,1293
Neste caso, calculamos dois escores Z e somamos as probabilidades:
Z2 0,33
Z1 = 27 - 28 = 0,33 → 3
0,1293
Z2 = 29 - 28 = 0,33 → 3
0,1293
+
Z1 0,33
= 0,2586 19
22
25
28
31
34
37
Interpretação: Espera-se que 25,86% dos clientes tenham idade entre 27 e 29 anos. b)
O gerente seleciona uma amostra aleatória de 32 clientes. Ache a probabilidade de que a idade média dos clientes esteja entre 27 e 29 anos. Eis aqui um ponto realmente importante. Não estamos lidando com probabilidades para valores individuais. Agora, o que estamos procurando é a probabilidade de que a média amostral caia em determinado intervalo. Estão, usaremos a regra do teorema central do limite. Não usamos o desvio padrão de 3 do exemplo a), mas sim o erro padrão da média σx̄
=
3 = 0,53 32
z = x σ-
x
n
Média amostral procurada
s
n.
Veja a diferença no gráfico abaixo.
Neste caso, calculamos dois escores Z e somamos as probabilidades:
Z1 = 27 - 28 = 1,88 3 32
→ 0,4699
Z1 = 27 - 28 = 1,88 3 32
→ 0,4699
+ 27 19
22
29
26,41 Z2 26,94 27,47 28 28,53 29,06 29,59 0,5
25
28
31
34
37
0,9398
Idade média dos clientes
Interpretação: Há uma probabilidade de 93,98% dos 32 clientes do restaurante terem idade média entre 27 e 29 anos. Exemplo 2. Um auditor de banco declara que as contas de cartões de crédito são normalmente distribuídas, com uma média de R$ 2.870 e um desvio padrão de R$900. Uma amostra de 25 cartões de crédito é selecionado ao acaso. Qual a probabilidade de que a média da conta deles seja menor que R$2.600?
σx̄
=
z = x σ-
900 = 180, então: 25
Probabilidade procurada P(Z < 2600) para amostra de 25 cartões
x
n Neste caso, calculamos dois escores Z e subtraímos as probabilidades:
P1 = Z2 = 2600 - 2870 =1,5 → 900 1 25
0,5 0,4332 0,0668
2.330
2.510
2.690
2.870
3.770
3.950
4.130
Interpretação: Espera-se que 6,68% dos cartões de crédito tenham média menor que R$2.600. Nota: Os conceitos que vimos são aplicados quando a população é infinita, a amostragem é com reposição e as variáveis aleatórias são independentes. No exemplo 1 a população é infinita (quantos clientes são do restaurante?) as amostras são independentes ( aparecer um cliente com certa idade, independe da ocorrência anterior). Quando a população é finita (pequena), a amostragem é sem reposição e as variáveis aleatórias são dependentes, aplicamos um fator de correção:
σ n
N − n onde N é o tamanho da população e n é o tamanho da amostra. N −1
Uanderson Rebula de Oliveira
Estatística Aplicada
Engenharia de Produção
- 64 -
ESTIMATIVAS E TAMANHOS AMOSTRAIS ESTIMAÇÃO PONTUAL E INTERVALAR Uma das maiores utilidades da estatística é chutar um valor (o termo estatístico é estimação), como exemplo: qual é a renda média de uma família brasileira? Qual a expectativa de vida média de um brasileiro? Qual a eficácia de um novo remédio? Todas essas perguntas necessitam de algum tipo de estimativa numérica para respondê-las. São dois tipos de estimação, onde utilizamos dados estatísticos da amostra como estimadores dos parâmetros populacionais: Estimativa pontual e Intervalar. Estimativa pontual. Fazemos uma única estimativa (um valor) para um determinado parâmetro populacional. Exemplo conceitual Exemplo prático: Expectativa de vida de um brasileiro: Média amostral
estimar
⎯⎯ ⎯ ⎯→
Média populacional
Média amostral (x̄ = 70 anos)
estimar
⎯⎯ ⎯ ⎯→
Média populacional (µ = 70 anos)
Estimativa intervalar. Fazemos uma estimativa de um intervalo de valores possíveis, no qual se admite esteja o parâmetro populacional. Exemplo conceitual Exemplo prático: Expectativa de vida de um brasileiro: Média amostral x̄
estimar
⎯⎯ ⎯ ⎯→ Média populacional ± x̄
Média amostral (x̄ = 70 anos)
estimar
⎯⎯ ⎯ ⎯→
Média populacional (µ = 60 a 80 anos)
A melhor maneira de estimar o parâmetro é por meio de uma estatística com margem de erro para mais ou para menos. A finalidade de uma estimativa por intervalo é fornecer informações sobre quão próximo a estimativa pontual, produzido pela amostra, está do valor do parâmetro.
INTERVALOS DE CONFIANÇA - IC Um intervalo de confiança é uma faixa (ou um intervalo) de valores usada para se estimar o verdadeiro valor de um parâmetro populacional, com certa probabilidade. Geralmente é abreviado por “IC”. A palavra intervalo é usada porque seu resultado se torna um intervalo. A palavra confiança é usada porque você possui certa confiança no processo pelo qual você chegou ao intervalo. Isso se chama nível de confiança (ou credibilidade). O intervalo de confiança associa-se a um nível de confiança, geralmente 95%., que é a probabilidade de que o intervalo estimado contenha o parâmetro populacional. Usamos o Intervalo de confiança porque a estimativa pontual não indica quão boa é nossa melhor estimativa. Como a estimativa pontual tem a séria falha de não revelar quão boa ela é, os estatísticos desenvolveram o IC.
Intervalos de Confiança para média (amostras grandes)
(amostra n > 30)
O intervalo de confiança baseia-se na hipótese de que a distribuição das médias amostrais é normal. Então, o nível de confiança pode ser determinado com base nas probabilidades da distribuição normal:
Nível de confiança 0,95
0,95
A equação do intervalo de confiança para média é dado por:
ICμ = x ± z
/2
s n
Ao usar o nível de confiança de 95%, temos: 0,95
- 0,4750
/2 = ± 0,4750 → Z= ±1,96
+ 0,4750 Logo:
x̄
z= - 1,96
IC μ = x ± 1,96
s n
z= + 1,96
Pode-se usar outros níveis de confiança: Confiança desejada
Escore “Z” (da tabela padrão)
90%
P= 0,4500 → z = 1,65
ICμ = x ± 1,65
99%
P= 0,4950 → z = 2,58
ICμ = x ± 2,58
Uanderson Rebula de Oliveira
Equação
s n s
n
Estatística Aplicada
Engenharia de Produção
- 65 -
Mas, de onde vem 0,4750 e 1,96? Observe na tabela de Distribuição Normal Padrão que, se queremos ter 95% de confiança, basta encontrar a probabilidade de 0,4750 (0,95/2). Então, identificamos o escore z, que é de 1,96.
TABELA DE DISTRIBUIÇÃO NORMAL PADRÃO Z
0
1
2
3
Último dígito 4 5
6
7
8
9
Z = 1,96 para 95% de confiança
Se queremos ter 90% de confiança, basta encontrar 0,4500 (0,90/2) na tabela. Como não temos 0,4500, então identificamos a probabilidade mais próxima, que é 0,4505. Observe que o escore z é de 1,65.
Exemplos de cálculos de Intervalos de Confiança - IC
1. De uma amostra de 40 clientes que frequentam um restaurante, constatou-se que a idade média é de 28 anos com desvio padrão de 9 anos. Construa um intervalo de confiança de 95% para a idade média da população.
n = 40 x̄ = 28 s=9 z = 1,96
ICμ = x ± z
s n
25,21
= 28 ± 1,96 9
40
- 2,79
= 28 ± 2,79 24
25
26
27
30,79
+2,79
28
29
30
31
32
Interpretação: Você está 95% confiante que a idade média dos clientes que frequentam o restaurante está entre 25,21 anos e 31,79 anos.
2. Um analista de produção deseja estimar a média do tempo de vida útil das lâmpadas produzidas. Para tanto, coletou uma amostra de 60 lâmpadas e verificou que a média de vida útil é de 1000 horas, com desvio padrão de 100 horas. Construa um intervalo de confiança de 90% para a média populacional.
n = 60 x̄ = 1000 s = 100 z = 1,65
ICμ = x ± z
s n
= 1000 ± 1,65 100 = 1000 ± 21,30
60
978,70
- 21,30
970 980
990
+21,30
1000
1010
1021,30 1020 1030
Interpretação: Você está 90% confiante que a média do tempo de vida útil das lâmpadas produzidas está entre 978,70 horas e 1021,30 horas. s N − n , onde N = população. IC = x ± z n N −1
Nota: Quando a população for finita a equação precisa ser ajustada. Se n ≥ 0,05N, a equação é
Uanderson Rebula de Oliveira
Estatística Aplicada
Engenharia de Produção
- 66 -
Determinação do tamanho da amostra Para a mesma amostra estatística, conforme o nível de confiança aumenta, o intervalo de confiança fica mais largo. Como consequência, a precisão da estimativa decresce. Veja comparação abaixo: Do exemplo 2 (página anterior) com 90% de confiança
1000 ± 1,65
100 60
=
Do exemplo 2 (página anterior) mas com 95% de confiança
1000 ± 21,30
1000 ± 1,96
100 60
974,70
- 25,30
978,70
- 21,30
970 980
+21,30
1000
990
1010
1000 ± 25,30
=
+25,30
1025,30
1021,30 970 980 1020 1030
1000
990
1010
1020 1030
Quanto maior a confiança, maior será o intervalo
Uma maneira de aumentar a precisão de uma estimativa sem decrescer o nível de confiança é aumentar o tamanho da amostra. Mas, qual o tamanho da amostra necessário para garantir certo nível de confiança para uma margem de erro E dada? Da equação do intervalo de confiança, podemos formar a equação da determinação do tamanho da amostra. Equação da determinação do tamanho da amostra z*s s ∴ E n = z*s ∴ s ∴ ICμ = x ± z n= E=z n = tamanho da amostra n E 2 n ⎛ z •s ⎞ z = escore desejado “normal” n =⎜ ⎟ E = margem de erro s = desvio padrão ⎝ E ⎠ E = margem de erro Calculando o tamanho da amostra. (Mesmo exemplo anterior) Um analista de produção deseja estimar a média do tempo de vida útil das lâmpadas produzidas. Para tanto, coletou uma amostra de 60 lâmpadas e verificou que a média de vida útil é de 1000 horas, com desvio padrão de 100 horas. Construa um intervalo de confiança de 90% para a média populacional.
n = 60 x̄ = 1000 s = 100 z = 1,65
ICμ = x ± z
s n
= 1000 ± 1,65 100 = 1000 ± 21,30
978,70
- 21,30
60
E = margem de erro
970 980
990
+21,30
1000
1010
1021,30 1020 1030
A margem de erro foi E=21,30. O analista deseja aumentar a precisão do Intervalo de Confiança com uma margem de erro E = 15. Quantas lâmpadas devem ser incluídas na amostra se ele quer estar 90% confiante?
n=? z = 1,65 s = 100 E = 15
2 ⎛ z •s ⎞ n =⎜ ⎟ ⎝ E ⎠
2
1,65*100⎞ = 121 lâmpadas. → ⎛⎜ ⎟ ⎝
15
⎠
Intervalos de Confiança para média (amostras pequenas)
Interpretação: 60 lâmpadas já foram coletadas, então o analista precisa de mais 61.
(amostra n ≤ 30)
Para amostras pequenas (n ≤ 30), a distribuição Normal apresenta valores menos precisos, o que nos leva a utilizar um modelo melhor, a Distribuição t de Student (veja tabela próxima página), proposta pelo pesquisador Willian Gosset em 1908. 9
A distribuição t também tem a forma normal e é simétrica sobre a média. A principal diferença é que a distribuição t tem mais áreas nas caudas, fazendo com que seus valores críticos sejam maiores que os da distribuição Normal. Como consequência, o intervalo de confiança usando a distribuição t ficará mais largo se usa-se a distribuição Normal. A idéia aqui é que você deve pagar um preço por trabalhar com pequenas amostras. Intervalo mais t de Student n = 15 Normal n = 15 largo com t
9
Cada tamanho amostral possui sua própria distribuição t, ou seja, ao contrário da distribuição normal, a distribuição t não tem forma fixa, mas sim uma família de curvas. Cada curva é determinada por um parâmetro chamado grau de liberdade, encontrado pelo tamanho da amostra menos um. A idéia aqui é que o preço a ser pago por se ter uma amostra muito pequena, como 5, é mais alto do que o preço por se ter uma amostra de tamanho um pouco maior, como 10 ou 20.
g.l. = n - 1. Graus de liberdade Portanto, a distribuição t varia de acordo com o tamanho da amostra. 9
O grau de liberdade se refere ao número de valores que são livres para variar após estabelecerem algumas restrições de dados. Por exemplo, se uma amostra de tamanho 4 produz uma média de 87, sabemos que a soma dos números é 4 * 87 = 348; isso não diz nada sobre os valores individuais da amostra – há números infinitos de formas para se obter 4 números que somem 348; mas quando escolhemos três deles, o quarto é determinado. O primeiro número pode ser 84, o segundo 98 e o terceiro 81, então o quarto tem de ser 85, o único número que produzirá a média amostral conhecida, ou seja, existe n - 1 ou 3 graus de liberdade nesse exemplo.
Uanderson Rebula de Oliveira
Estatística Aplicada
Engenharia de Produção
9
- 67 -
Conforme os graus de liberdade aumentam, a distribuição t se aproxima da distribuição normal. Depois de 30 g.l., a distribuição t está muito próxima à distribuição normal. Curva t: quanto menor a amostra, mais achatada e larga nas extremidades, em função do erro
Família de curvas da Distribuição t: - Quanto menor o tamanho da amostra, maior o erro. - Quando amostra >30, aproxima-se da distribuição normal
Encontrando valores de t na tabela Exemplo. Encontre o valor de t para uma confiança de 95%, quando o tamanho da amostra é 15.
1º - Determine o grau de liberdade – g.l. em razão de n=15, os graus de liberdade são:
g.l. = n – 1 → 15 – 1 = 14 2º - encontrar o g.l. = 14 na tabela t. Usando g.l.=14 e confiança de 95%, Você pode ver que t = 2,145, como destacado na tabela.
Construindo Intervalo de Confiança - IC. Construir um IC usando a Distribuição t é similar a construir um IC usando a Distribuição Normal – ambos usam uma estimativa pontual e uma margem de erro. Sua equação é dada por: EQUAÇÃO DISTRIBUIÇÃO t
ICμ = x ± t
s
Onde substituimos z por t
n
Exemplo. Um analista deseja estimar a média do tempo de vida útil das lâmpadas produzidas. Coletou uma amostra de 20 lâmpadas e verificou que a média de vida útil é de 1000 horas, com desvio padrão de 100 horas. Construa um Intervalo de Confiança de 90% para a média populacional.
Solução: g.l = n – 1 → 20 - 1 = 19. Usando g.l.=19 e confiança de 90%, o valor t será 1,729 (destacado na tabela). Ao se calcular o IC, teremos, então: n = 20 x̄ = 1000 s = 100 t = 1,729
IC = 1000 ± 1,729
100 20
IC = 1000 ± 38,66 961,34
1038,66
- 38,66
970 960
980
TABELA DISTRIBUIÇÃO t DE STUDENT (PARCIAL)
g.l. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29
50% 1,000 0,816 0,765 0,741 0,727 0,718 0,711 0,706 0,703 0,700 0,697 0,695 0,694 0,692 0,691 0,690 0,689 0,688 0,688 0,687 0,686 0,686 0,685 0,685 0,684 0,684 0,684 0,683 0,683 0,674
80% 3,078 1,886 1,638 1,533 1,476 1,440 1,415 1,397 1,383 1,372 1,363 1,356 1,350 1,345 1,341 1,337 1,333 1,330 1,328 1,325 1,323 1,321 1,319 1,318 1,316 1,315 1,314 1,313 1,311 1,282
Nível de confiança 90% 95% 6,314 12,71 2,920 4,303 2,353 3,182 2,132 2,776 2,015 2,571 1,943 2,447 1,895 2,365 1,860 2,306 1,833 2,262 1,812 2,228 1,796 2,201 1,782 2,179 1,771 2,160 1,761 2,145 1,753 2,131 1,746 2,120 1,740 2,110 1,734 2,101 1,729 2,093 1,725 2,086 1,721 2,080 1,717 2,074 1,714 2,069 1,711 2,064 1,708 2,060 1,706 2,056 1,703 2,052 1,701 2,048 1,699 2,045 1,645 1,960
98% 31,82 6,965 4,541 3,747 3,365 3,143 2,998 2,896 2,821 2,764 2,718 2,681 2,650 2,624 2,602 2,583 2,567 2,552 2,539 2,528 2,518 2,508 2,500 2,492 2,485 2,479 2,473 2,467 2,462 2,326
99% 63,66 9,925 5,841 4,604 4,032 3,707 3,499 3,355 3,250 3,169 3,106 3,055 3,012 2,977 2,947 2,921 2,898 2,878 2,861 2,845 2,831 2,819 2,807 2,797 2,787 2,779 2,771 2,763 2,756 2,576
+38,66
1000
1020
1040 1060
Nota: Para n > 30, você pode usar a distribuição normal. Quando o desvio padrão populacional for conhecido (σ), mesmo com amostra menor que 30, você pode usar a distribuição normal. A distribuição t também pode ser usada para amostra maior que 30.
Interpretação: Você está 90% confiante que a média do tempo de vida útil das lâmpadas produzidas está entre 961,34 horas e 1038,66 horas.
Observe que, no exemplo anterior com amostra de 60 lâmpadas e usando a curva normal, o IC foi mais preciso: 1000 ± 21,30 .
Uanderson Rebula de Oliveira
Estatística Aplicada
Engenharia de Produção
- 68 -
Intervalos de Confiança para Proporções P O termo PROPORÇÕES tem relação com PORCENTAGENS. É a parte de um todo, em comparação com esse todo; fração. Exemplo: Um Analista Industrial fez estudo para determinar a proporção de lâmpadas defeituosas produzidas. Coletou uma amostra de 400 lâmpadas e 60 apresentaram defeitos. Neste caso, temos as seguintes proporções: Lâmpadas defeituosas (60)
Lâmpadas perfeitas (restantes = 340)
ˆp = 60 = 0,15 400
ˆp = 340 = 0,85 400
Então, 15% das lâmpadas estão defeituosas...
...e 85% das lâmpadas estão perfeitas
Observe que a população é constituída por elementos de dois tipos, isto é, cada elemento pode ser interpretado como Sucesso e Fracasso, além dos eventos ser independentes. Nestas condições, a variável aleatória segue uma distribuição Binomial. De acordo com Teorema do Limite Central, para amostra suficientemente grande (n > 30), a distribuição Binomial aproxima-se a uma distribuição Normal. Daí é imediato verificar que a proporção amostral p também aproxima-se da distribuição normal. Ocorre que, da mesma forma que o intervalo de confiança para média, frequentemente estamos interessados em estimar um intervalo de confiança para proporções populacionais.
Construindo Intervalo de Confiança para Proporções p Construir um intervalo de confiança para uma proporção populacional p é similar a construir um intervalo de confiança para a média populacional. Você começa com um ponto estimado e calcula a margem de erro E.
Equação do Intervalo de Confiança para Proporção p z = escore z da distribuição normal n = tamanho da amostra ˆp - proporção estimada.
ˆp( 1 − ˆp ) IC p = ˆp ± z n A formação desta equação tem como princípio o método “Normal como aproximação da Binomial”
Exemplo. Um Analista Industrial deseja estimar a proporção de lâmpadas defeituosas produzidas. Coletou uma amostra de 400 lâmpadas e verificou que 15% estão defeituosas. Construa um Intervalo de Confiança de 95% para a proporção populacional.
ˆp = 0,15 n = 400 z = 1,96
IC p = 0,15 ± 1,96
0,15( 1 − 0,15 ) = 0,15 ± 0,034 400
11,6% 11%
- 3,4%
+3,4%
15%
13%
18,4%
17%
19%
Interpretação: Você está 95% confiante que a proporção de lâmpadas defeituosas está entre 11,6% e 18,4%.
Determinação do tamanho da amostra para P Uma forma de aumentar a precisão do intervalo de confiança sem diminuir o nível de confiança é aumentar o número da amostra. Dado o intervalo de confiança IC e a margem de erro E, o tamanho mínimo da amostra n necessário para estimar p é:
Equação da determinação do tamanho da amostra para estimar p n = tamanho da amostra 2 z = escore desejado da distribuição normal z ⎞ ⎛ n = ˆp(1− ˆp) ⎜ ⎟ ˆp = proporção estimada ⎝ E⎠ E = margem de erro (Continuação exemplo anterior). Um Analista Industrial coletou uma amostra de 400 lâmpadas e verificou que 15% estão defeituosas. Construiu um IC com 95% de Confiança e margem de erro E = 0,034. Determine o tamanho da amostra para aumentar a precisão com margem de erro E = 0,02, e com a mesma confiança.
ˆp = 0,15
n=?
z = 1,96 E = 0,02
Uanderson Rebula de Oliveira
⎛z⎞ n = ˆp(1− ˆp) ⎜ ⎟ ⎝ E⎠
2 →
⎛ 1,96 ⎞ 0,15(1− 0,15) ⎜ ⎟ ⎝ 0,02⎠
2 = 1.224 lâmpadas.
Estatística Aplicada
Engenharia de Produção
- 69 -
Intervalos de Confiança para o Desvio Padrão Na produção industrial, é necessário controlar o tamanho da variação de um processo. Um fabricante de peças deve produzir, por exemplo, milhares de peças para serem usadas no processo de fabricação. É importante que essas partes variem muito pouco ou nada. Como medir e, consequentemente, controlar o tamanho da variação nas peças?
Para amostra n > 30 (Use a Distribuição Normal)
Segundo Spiegel (1977, p. 262,310), podemos usar a distribuição Normal para encontrar intervalos de confiança para o desvio padrão, desde que a amostra seja maior que 30.
EQUAÇÃO do Intervalo de Confiança para o Desvio padrão S = desvio padrão s IC σ = s ± z Z = escore Z da distribuição Normal 2n n = tamanho da amostra Exemplo 1. Um analista deseja estimar o desvio padrão do tempo de vida útil das lâmpadas produzidas. Para tanto, coletou uma amostra de 60 lâmpadas e verificou que a média de vida útil é de 1000 horas, com desvio padrão de 100 horas. Construa um intervalo de confiança de 90% para o desvio padrão populacional.
S = 100 Z = 1,65 n = 60
IC σ = 100 ± 1,65
100 2 • 60
84,94
- 15,06
→ 100 ± 15,06 80
+15,06
100
90
115,06
110
120
Interpretação: Você está 90% confiante que o desvio padrão populacional está entre 84,94 horas e 115,06 horas.
Para amostra n ≤ 30 (Use a distribuição χ2) Para amostras pequenas (n ≤ 30), a distribuição Normal apresenta valores menos precisos, o que nos leva a utilizar um modelo melhor, a distribuição χ2 (lê-se qui-quadrado), proposta por Karl Pearson. É importante salientar que muitos autores usam o modelo χ2 para qualquer tamanho amostral, mesmo maior que 30, sem mencionar o método opcional (acima). 9
2
2
Cada tamanho amostral possui sua própria distribuição χ , ou seja, ao contrário da distribuição normal, a distribuição χ não tem forma fixa, mas sim uma família de curvas. Cada curva é determinada por um parâmetro chamado grau de liberdade, encontrado pelo tamanho da amostra menos um. A idéia aqui é que o preço a ser pago por se ter uma amostra muito pequena, como 5, é mais alto do que o preço por se ter uma amostra de tamanho um pouco maior, como 10 ou 20.
g.l. = n - 1. Graus de liberdade Portanto, a distribuição χ2 varia de acordo com o tamanho da amostra. 9
2
2
A distribuição χ tem a forma assimétrica positiva (à direita). Conforme os graus de liberdade aumentam, a distribuição χ se aproxima 2 da distribuição normal. Depois de 30 g.l., a distribuição χ está muito próxima à distribuição normal.
gl = 5
2
Família de curvas da Distribuição χ : - Curvas assimétricas positivas - Quanto menor o tamanho da amostra, maior o erro.
gl = 10 gl = 15
2
Curva χ com g.l = 30 aproxima-se da curva normal.
gl = 30
Encontrando valores de χ2 na tabela Há dois valores a serem considerados para o nível de confiança. O valor χ2L representa o valor crítico da cauda esquerda e o valor χ2R representa o valor crítico da cauda direita. Nível de confiança
χ2L
Uanderson Rebula de Oliveira
χ2R
Estatística Aplicada
Engenharia de Produção
- 70 -
Exemplo. Encontre os valores χ2L e χ2R e um intervalo de confiança de 90%, quando o tamanho da amostra for 20.
2º - encontrar as áreas de χ2L e χ2R
1º - Ache o grau de liberdade – g.l.
Em razão da confiança c ser 90%, temos:
Como n = 20, os graus de liberdade são:
χ2L
g.l. = n – 1 20 – 1 = 19
χ2R = 1 - c 2
= 1+c 2
χ2L = 1 + 0,90 = 0,950 2
χ2R = 1 - 0,90 = 0,050 2
3º - encontrar os valores críticos na tabela χ2 Parte da tabela χ2 é exibida abaixo. Usando g.l.=19 e as áreas 0,95 e 0,05 encontramos os valores críticos, como destacado:
χ2L 2
χ2R
Por meio da tabela você pode ver que: χ L = 10,1170 e χ
2 R
0,90
= 30,1435.
Interpretação: Então, 90% da área sob a curva está situada entre 10,1170 e 30,1435
χ2L = 10,1170
Calculando o IC para o desvio padrão
χ2R = 30,1435
Usamos os valores críticos de χ2L e χ2R para construir o intervalos de confiança para o desvio padrão populacional.
( n − 1)s 2 χ 2R
< σ
18 km/L
Nota: O que definirá se Ha trará um sinal ≠ ou > ou < será o resultado obtido na amostra.
Erros de decisão. Uma vez realizado o teste com a Hipótese Nula (H0), poderão advir dois resultados: Decisão correta
H0 é verdadeira, sendo, portanto, ACEITA. H0 é falsa, devendo, pois, ser REJEITADA. → (ao rejeitar H0, obviamente aceitamos a Hipótese Alternativa Ha).
Entretanto, ao realizar um teste, o pesquisador pode errar de duas formas:
H0 é verdadeira, mas será REJEITADA. → Chamamos de ERRO TIPO I. Erros de decisão
(é o mesmo que condenar um inocente! O réu disse a verdade, mas seus argumentos foram rejeitados).
H0 é falsa, mas será ACEITA. → Chamamos de ERRO TIPO II. (é o mesmo que inocentar um culpado! O réu mentia, mas seus argumentos foram aceitos).
Nível de significância α. Note que o erro Tipo I é pior pois condenar um inocente é algo terrível, e este erro o pesquisador deve evitar a todo o custo! Porém, há sempre uma probabilidade de cometê-lo. Esta probabilidade é chamada de Nível de Significância α (alfa). Portanto:
O NÍVEL DE SIGNIFICÂNCIA α é a PROBABILIDADE de se cometer um ERRO TIPO I, devendo ser sempre a menor possível. Normalmente, usamos um Nível de Significância de 10% (0,10); 5% (0,05); ou 1% (0,01). Mas pode-se usar qualquer α. Tipos de Testes. Usamos a curva normal (ou t) para realizar os testes, sendo três tipos possíveis, e o que será usado depende do sinal presente na hipótese alternativa Ha. Teste Unilateral à esquerda H0 : µ = 18 km/L Ha : µ < 18 km/L α → 5%
Região de rejeição α → 0,05
Região de aceitação 0,95
18km/L (0,5-0,05=0,45) → Z=-1,65
Este teste será usado quando se tem um valor mínimo aceitável. Sinal usado em Ha: 18 km/L
Teste Bilateral H0 : µ = 18 km/L Ha : µ ≠ 18 km/L
α → 5%
Região de aceitação
0,95
18km/L
Região de rejeição α → 0,05
Z=+1,65 → (0,5-0,05=0,45)
Este teste será usado quando se tem um valor máximo aceitável. Sinal usado em Ha: >.
Região de rejeição α →0,025 2
α → 5%
Região de aceitação
Região de rejeição α → 0,025 2
0,95
Z=-1,96
18km/L
Z=+1,96 → (0,95/2 = 0,4750)
Será usado quando se tem um valor dentro de um intervalo aceitável. Sinal usado em Ha: ≠.
TOMANDO A DECISÃO: A Região de rejeição (demonstrada no gráficos) é o conjunto de todos os valores da estatística de teste que nos fazem rejeitar a Hipótese Nula (H0). Se a estatística de teste cair nesta região, diremos que a afirmativa do fabricante é falsa, o que fará com que rejeitemos a Hipótese Nula (H0). Mas, se a estatística de teste cair na Região de aceitação, diremos que a afirmativa é verdadeira. O termo “estatística de teste” é feito por meio de cálculos que serão apresentados a seguir. O nível de significância α → 5% (demonstrado nos gráficos) é apenas um exemplo, pois podemos usar também outros níveis.
Uanderson Rebula de Oliveira
Estatística Aplicada
Engenharia de Produção
- 74 -
Teste de Hipótese para média (amostras grandes n > 30)
(Distribuição Normal z)
Usamos a Distribuição Normal (z) para realizar o teste de hipótese para amostra maior que 30. Quando o desvio padrão é conhecido, mesmo com amostra menor que 30, também podemos usar a Normal. Embora tenha 3 tipos de testes, na prática aplicamos um ou outro, nunca os três conjuntamente. Mostraremos a aplicação dos três testes em problemas diferentes.
z=
A estatística de teste usada para média é:
x −μ s
(n > 30)
x = média amostral µ = média Hipotética (H0) s = desvio padrão n = tamanho da amostra
n
z = Estatística de teste
EXEMPLO 1. TESTE UNILATERAL À ESQUERDA. A FIAT afirma que o consumo de combustível do Pálio Fire é, em média, de 18 km/L. Uma revista decide testar essa afirmação e analisa 50 veículos da mesma marca, obtendo uma média de 17 km/L com desvio padrão de 3km/L. Testar a hipótese, contra a alternativa de que o consumo é menor que 18km/L, com Nível de Significância de 6%.
1º passo: Formular as hipóteses: H0 : µ = 18 km/L Ha : µ < 18 km/L
4º passo: Desenhar as Regiões de Rejeição e de Aceitação, em função do escore z (nível α) :
2º passo: Definir o tipo de teste a ser usado: Como a média amostral foi 17km/L, temos um valor mínimo aceitável. O sinal é 18 km/L 2º passo: Definir o tipo de teste a ser usado: Como a média amostral foi 18,5km/L, temos um valor máximo aceitável. O sinal é >, logo, usamos o unilateral à direita. 3º passo: Encontrar escore z que estabelece os limites de Rejeição/Aceitação: α=4%(0,04) | 0,5 – 0,04 = 0,46 → z = +1,75 Ao procurar 0,46 na tabela Normal, encontramos z = +1,75 (como o teste é “unilateral à direita”, z será positivo).
6º passo: Verifique se a estatística de teste z caiu na Região de rejeição: Região de aceitação
estatística de teste (obtido no 5º passo)
0,96
18km/L
Região de rejeição α → 0,04 z=+1,75
Região de aceitação
5º passo: Calcular a estatística de teste:
z= 0,96
Região de rejeição α → 0,04
n z=
18km/L z=+1,75
x −μ s
18,5 − 18 = +1,18 2,5 35
7º e último passo: Tomada de decisão: Note que a estatística de teste z não caiu na Região de Rejeição. Então, você deverá ACEITAR A HIPÓTESE NULA (Ho). Ou seja, pode-se aceitar que o consumo médio de combustível do Pálio Fire 1.0 é de 18 km/L, contra a hipótese de que seja maior que este valor, com uma probabilidade de erro de 4%.
z=+1,18 -3z
-2z
Uanderson Rebula de Oliveira
-1z 0 +1z +2z +3z
Estatística Aplicada
Engenharia de Produção
- 75 -
EXEMPLO 3. TESTE BILATERAL. A FIAT afirma que o consumo de combustível do Pálio Fire é, em média, de 18 km/L. Uma revista decide testar a afirmação e analisa 42 veículos da mesma marca, obtendo uma média de 16,8 km/L com desvio padrão de 2 km/L. Testar a hipótese, contra a alternativa de que o consumo não é de 18km/L, com Nível de Significância de 10%.
1º passo: Formular as hipóteses: H0 : µ = 18 km/L Ha : µ ≠ 18 km/L
4º passo: Desenhar as Regiões de Rejeição e de Aceitação, em função do escore z (nível α) :
2º passo: Definir o tipo de teste a ser usado: A idéia não é testar se é menor ou maior. Queremos testar um intervalo aceitável. O sinal é ≠, logo, usamos o Bilateral.
Região de rejeição α →0,05 2
3º passo: Encontrar escore z que estabelece os limites de Rejeição/Aceitação: α=10% | 0,90/2 = 0,45 → z = -1,65 e +1,65
6º passo: Verifique se a estatística de teste z caiu na Região de rejeição: Região de aceitação
Região de rejeição α →0,05 2
Região de rejeição α → 0,05 2
0,90
Z=-1,65
z=-3,88 -3z
-2z
18km/L
z= Região de rejeição α → 0,05 2
0,90
Z=-1,65
Ao procurar 0,45 na tabela Normal, encontramos z = ±1,65 (como o teste é “Bilateral”, usamos z positivo e negativo).
estatística de teste (obtido no 5º passo)
Região de aceitação
5º passo: Calcular a estatística de teste:
18km/L
n z=
Z=+1,65 (0,90/2 = 0,45)
x −μ s
16,8 − 18 = -3,88 2 42
7º e último passo: Tomada de decisão: Note que a estatística de teste z caiu na Região de Rejeição. Então, você deverá REJEITAR A HIPÓTESE NULA (Ho). Ou seja, não se pode aceitar que o consumo médio de combustível do Pálio Fire 1.0 é de 18 km/L, contra a hipótese de que seja diferente deste valor, com uma probabilidade de erro de 10%.
Z=+1,65
-1z 0 +1z +2z +3z
Teste de Hipótese para média (amostras pequenas n ≤ 30)
(Distribuição t de Student)
Usamos a Distribuição t de Student (t) para realizar o teste de hipótese para amostra menor ou igual a 30. A estatística de teste usada para média é:
t=
(n ≤ 30)
x −μ s n
x = média amostral µ = média Hipotética (H0) s = desvio padrão n = tamanho da amostra t = Estatística de teste t Student
Efetuar o Teste usando a Distribuição t de Student é similar a efetuar o Teste com a Normal z. Diferese apenas no 3º passo, onde usamos n - 1 graus de liberdade e a tabela t para encontrar o limite de Rejeição/Aceitação.
EXEMPLO 4. A FIAT afirma que o consumo de combustível do Pálio Fire é, em média, de 18 km/L. Uma revista decide testar essa afirmação e analisa 22 veículos da mesma marca, obtendo uma média de 17,4 km/L com desvio padrão de 1,7km/L. Testar a hipótese de que o consumo é menor que 18km/L, com Nível de Significância de 5%.
1º passo: Formular as hipóteses: H0 : µ = 18 km/L Ha : µ < 18 km/L
4º passo: Desenhar as Regiões de Rejeição e de Aceitação, em função de t (nível α) :
2º passo: Definir o tipo de teste a ser usado: Como a média amostral foi 17,4km/L, temos um valor mínimo aceitável. O sinal é 30), a distribuição Binomial aproxima-se a uma distribuição Normal. Daí é imediato verificar que a proporção amostral p também aproxima-se da distribuição normal. Ocorre que, da mesma forma que o Teste de Hipótese para média, frequentemente estamos interessados em Testar Hipóteses para proporções populacionais.
A estatística de teste usada para Proporções é:
z=
p − p0 p0( 1 − p0) n
p = proporção amostral p0 = proporção Hipotética (H0) n = tamanho da amostra z = Estatística de teste z (Normal)
EXEMPLO 5. Inspeciona-se uma amostra de 200 peças de uma grande remessa, encontrando-se 8% de peças defeituosas (200 x 0,08 = 16 peças defeituosas). O fornecedor garante que não haverá mais de 6% de peças defeituosas em toda a remessa. Testar a hipótese de que a proporção de peças defeituosas é maior que 6%, com Nível de Significância de 5%.
1º passo: Formular as hipóteses: H0 : p0 = 6% Ha : p > 6% 2º passo: Definir o tipo de teste a ser usado: Como a proporção amostral foi 8%, temos um valor máximo aceitável. O sinal é >, logo, usamos unilateral à direita.
Região de aceitação
z= 0,95
Região de rejeição α → 0,05
3º passo: Encontrar escore z que estabelece os limites de Rejeição/Aceitação: α=5% | 0,5 – 0,05= 0,45 → z=+1,65 Ao procurar 0,45 na tabela Normal, encontramos z = +1,65 (como o teste é “unilateral à direita”, usamos z positivo).
z= z=+1,65 Calculadora: 0,02 ÷
Uanderson Rebula de Oliveira
5º passo: Calcular a estatística de teste z:
4º passo: Desenhar as Regiões de Rejeição e de Aceitação, em função do escore z (nível α)
( ( 0,06x0,94)
p − p0 p0( 1 − p0) n 0,08 − 0,06 0,06( 1 − 0,06) 200
÷ 200) = 1,19
Estatística Aplicada
= +1,19
Engenharia de Produção
- 77 -
6º passo: Verifique se a estatística de teste z caiu na Região de rejeição: Região de aceitação
Estatística de teste (obtida no 5º passo)
0,95
7º e último passo: Tomada de decisão: Note que a estatística de teste z não caiu na Região de Rejeição. Então, você deverá ACEITAR A HIPÓTESE NULA (Ho).
Região de rejeição α → 0,05
Ou seja, pode-se aceitar que a proporção de peças defeituosas seja de 6%, contra a hipótese de que seja maior que este valor, com uma probabilidade de erro de 5%.
z=+1,65
z=+1,19 -3z
-2z
-1z 0 +1z +2z +3z
Teste de Hipótese para o Desvio padrão (Distribuição χ 2)
Usamos a Distribuição χ 2 (qui-quadrado) para realizar o teste de hipótese para o desvio padrão. (qualquer tamanho amostral) A estatística de teste usada para o desvio padrão é:
χ2 =
( n − 1) •( S) ( S0 ) 2
2
2
Efetuar o Teste usando a Distribuição χ é similar a efetuar o Teste com t. Difere-se apenas no 3º passo, onde usamos n - 1 2 graus de liberdade e a tabela χ para encontrar o limite de Rejeição/Aceitação.
n = tamanho da amostra S = desvio padrão amostral S0 = desvio padrão Hipotético (H0) χ2=Estatística teste (qui-quadrado)
EXEMPLO 6. TESTE BILATERAL. A FIAT afirma que o consumo de combustível do Pálio Fire é, em média, de 18 km/L., com desvio padrão de 1,2 km/L Uma revista decide testar essa afirmação e analisa 20 veículos da mesma marca, obtendo uma média de 17,4 km/L com desvio padrão de 1,7km/L. Testar a hipótese de que o desvio padrão não é de 1,2 km/L, com Nível Significância 10%.
1º passo: Formular as hipóteses: H0 : S0 = 1,2 km/L Ha : S ≠ 1,2 km/L
2º passo: Definir o tipo de teste a ser usado: A idéia não é testar se é menor ou maior. Queremos testar um intervalo aceitável. O sinal é ≠, logo, usamos o Bilateral.
3º passo: encontrar os valores χ2L e χ2R com nível de significância α =10% (90% de confiança), quando o tamanho da amostra for 20. 2
1º - Ache o grau de liberdade – g.l. Como n = 20, os graus de liberdade são:
2
2º - encontrar as áreas de χ L e χ R Em razão da confiança c ser 90%, temos: 2
χ L = 1+c 2 2 χ L = 1 + 0,90 = 0,950 2
g.l. = n – 1 20 – 1 = 19
χ
χ
2 R
2
= 1-c 2 = 1 - 0,90 = 0,050 2 R
2
3º - encontrar os limites de Rejeição e Aceitação na tabela χ 2 Parte da tabela χ é exibida abaixo. Usando g.l.=19 e as áreas 0,95 e 0,05 encontramos os valores críticos, como destacado:
χ2L
χ2R
4º passo: Calcular a estatística de teste χ2
χ2 =
( n − 1) •( S) 2 ( 20 − 1) •( 1,7) 2 2= χ = 38,13 ( S0 ) 2 ( 1,2) 2
5º passo:Tomada de decisão: Observe que 38,13 caiu na Região de rejeição. Portanto, deve-se REJEITAR A HIPÓTESE NULA
0,90
Região de rejeição 0,05
χ2L = 10,1170
Uanderson Rebula de Oliveira
Por meio da tabela você pode ver os limites de Rejeição/Aceitação: 2 2 χ L = 10,1170 e χ R = 30,1435.
Região de aceitação
Região de rejeição 0,05
χ2R = 30,1435
Estatística Aplicada
38,13
Engenharia de Produção
- 78 -
2
Para testes unilaterais à esquerda, usamos χ L como limite de Rejeição. Para testes unilaterais à direita, usamos χ 2
Para unilateral à esquerda (χ L ) use sempre 1 – α
Uanderson Rebula de Oliveira
2
R
como limite de Rejeição.
2
Para unilateral à direita (χ R) use sempre α
Estatística Aplicada
Engenharia de Produção
- 79 -
EXEMPLO. TESTE UNILATERAL À ESQUERDA. Encontre χ2L quando o tamanho da amostra for 23, com nível de significância 10%
Usando g.l. = 22 com α = 0,90, encontramos 14,0415 na tabela χ2 2 Nota: para testes χ L use sempre 1 – α
g.l. = n – 1 → 23 – 1 = 22 1 – α → 1 – 0,10 = 0,90
Região de aceitação 0,90 Região de rejeição 0,10
χ2L = 14,0415 EXEMPLO. TESTE UNILATERAL À DIREITA. Encontre χ2R quando o tamanho da amostra for 41, com nível de significância 5%
Usando g.l. = 40 com α = 0,05, encontramos 55,7585 na tabela χ2 2 Nota: para testes χ R use sempre α
g.l. = n – 1 → 41 – 1 = 40 α → 0,05
Região de aceitação 0,95 Região de rejeição 0,05
χ2R = 55,7585
TABELA DE DISTRIBUIÇÃO NORMAL PADRÃO Z
0
1
Uanderson Rebula de Oliveira
2
3
Último dígito 4 5
6
7
8
9
Estatística Aplicada
Engenharia de Produção
- 80 -
Teste para duas amostras - Conceitos introdutórios Nos capítulos anteriores, mostramos como determinar INTERVALOS DE CONFIANÇA e realizar TESTES DE HIPÓTESES para situações que envolvem UMA ÚNICA AMOSTRA de dados extraída de UMA ÚNICA POPULAÇÃO. Agora, você ESTENDERÁ o TESTE DE HIPÓTESE e INTERVALOS DE CONFIANÇA para procedimentos que COMPARAM estatísticas oriundas de DUAS AMOSTRAS de dados extraídas de DUAS POPULAÇÕES.
Justificativas e exemplos (adaptado de Farias et al, 2003): Em muitas áreas da atividade humana há uma busca contínua por novos métodos, novos procedimentos que superem ou melhorem, em certo sentido, aqueles já existentes: 9 9 9 9
No setor de transportes, procuramos motores de maior rendimento e de menor ruído. A medicina procura drogas com maior poder de cura e o mínimo possível de efeitos colaterais. Na agricultura, buscamos variedades mais adequadas e mais produtivas de cereais. Um produtor quer saber se o novo cimento-e-cola para fixar azulejos tem maior grau de aderência que o atual.
Em todas essas situações, é preciso comparar as técnicas usuais com os métodos alternativos. A comparação da eficiência de duas drogas, de dois métodos de produção de cimento-e-cola ou, em geral, de dois tratamentos é, pois, uma questão importante que surge frequentemente no trabalho de pesquisa e desenvolvimento. A escolha entre dois tratamentos diferentes não é uma tarefa tão simples como, a princípio, possa parecer. É necessário realizar experimentos, coletar informações e fazer inferências (julgar) a partir da evidência experimental. Tomemos o caso de duas terapias alternativas. Se todos os portadores de determinada doença se comportassem de maneira idêntica em relação aos tratamentos utilizados, bastaria examinar o comportamento de um frente às alternativas existentes; a decisão sobre qual é o melhor deles seria óbvia. Nenhuma análise estatística seria necessária. Tal, entretanto, não é o caso. A reação a um tratamento varia de indivíduo para indivíduo, e, via de regra, não há tratamento ótimo para todos. Como, em geral, não se conhece a reação de cada indivíduo, prescreve-se o tratamento que, em média, dá os melhores resultados. O procedimento para determinar qual dos dois tratamentos é, em média, o mais eficiente envolve a seleção de duas amostras e a comparação dos resultados obtidos. Neste capítulo, discutiremos como comparar os efeitos médios de dois tratamentos.
Teste de Hipótese para a diferença de duas médias Para amostras dependentes (dados emparelhados)
Duas amostras são dependentes se cada membro de uma amostra corresponde a um membro de outra amostra. Amostras dependentes envolvem duplas idênticas, “antes e depois” de resultados para a mesma pessoa ou objeto. Veja ao lado. 9 9 9
Para cada par definido, o valor da primeira amostra está claramente associado ao respectivo valor da segunda amostra. Nestes casos as duas amostras serão de mesmo tamanho. Amostras dependentes também são chamadas de amostras relacionadas ou dados emparelhados.
“Antes”
“Depois”
amostra 1
amostra 2
A equação para resolução de dados emparelhados é mostrada abaixo. EQUAÇÃO DADOS EMPARELHADOS (use t ou z)
∑d d= n
Estatística de teste
t
d = média das diferenças, dada por
d = Sd
Sd = desvio padrão das diferenças, dado por
⎡ (∑ d )2 ⎤ ∑ d2 − ⎢ ⎥ ⎣ n ⎦ Sd = n −1
n
“d” é a diferença de cada dado, encontrado por X2-X1
t = distribuição t de Student. Use a Normal Z se n>30.
2
“d ” é a diferença de cada dado, ao quadrado
n = tamanho da amostra.
Exemplo 1. Dez cobaias adultas foram submetidas ao tratamento com certa ração para engordar, durante uma semana. Os animais foram perfeitamente identificados, tendo sido mantidos, para tanto, em gaiolas individuais. Os pesos, em gramas, no princípio e no fim de semana, designados respectivamente por X1 e X2 são dados a seguir. Ao nível de 1% de significância, podemos concluir que o uso da ração contribuiu para o aumento do peso médio dos animais? (Moretim)
Uanderson Rebula de Oliveira
Estatística Aplicada
Engenharia de Produção
- 81 -
Resolução: A tabela com os dados da experiência é mostrada abaixo, juntamente com os cálculos do 1º e 2º passos.
1º passo: Encontrar d (X2-X1) e ∑d (para permitir cálculo de d , que é a média das diferenças). 2º passo: Encontrar d2 e ∑d2 (para permitir cálculo de Sd, que é o desvio padrão das diferenças). Dados da experiência
Cobaia
X1
X2
1
635 704 662 560 603 745 698 575 633 669
640 712 681 558 610 740 707 585 635 682
2 3 4 5 6 7 8 9 10
diferença d (X2-X1)
5 8 19 -2 7 -5 9 10 2 13 ∑d=66
3º passo: Calcular d
d2 25 64 361 4 49 25 81 100 4 169 ∑d2=882
d=
∑ d → 66 = 6,6 n 10
n é o tamanho da amostra
4º passo: Calcular Sd
Sd =
⎡ (∑ d )2 ⎤ ∑ d2 − ⎢ ⎥ ⎣ n ⎦ n −1
→
⎡ (66 )2 ⎤ 882 − ⎢ ⎥ ⎣ 10 ⎦ = 7,043 10 − 1
5º passo: Executar o Teste de Hipótese. 5.1 Formular as hipóteses Em termos da diferença ”d”, as hipóteses são descritas como: H0 : µ = 0 Ha : µ > 0 TABELA DISTRIBUIÇÃO t DE STUDENT (PARCIAL) Confiança, c Unilateral, α Bilateral, α g.l. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29
50% 0,25 0,50 1,000 0,816 0,765 0,741 0,727 0,718 0,711 0,706 0,703 0,700 0,697 0,695 0,694 0,692 0,691 0,690 0,689 0,688 0,688 0,687 0,686 0,686 0,685 0,685 0,684 0,684 0,684 0,683 0,683 0,674
80% 0,10 0,20 3,078 1,886 1,638 1,533 1,476 1,440 1,415 1,397 1,383 1,372 1,363 1,356 1,350 1,345 1,341 1,337 1,333 1,330 1,328 1,325 1,323 1,321 1,319 1,318 1,316 1,315 1,314 1,313 1,311 1,282
90% 0,05 0,10 6,314 2,920 2,353 2,132 2,015 1,943 1,895 1,860 1,833 1,812 1,796 1,782 1,771 1,761 1,753 1,746 1,740 1,734 1,729 1,725 1,721 1,717 1,714 1,711 1,708 1,706 1,703 1,701 1,699 1,645
95% 0,025 0,05 12,71 4,303 3,182 2,776 2,571 2,447 2,365 2,306 2,262 2,228 2,201 2,179 2,160 2,145 2,131 2,120 2,110 2,101 2,093 2,086 2,080 2,074 2,069 2,064 2,060 2,056 2,052 2,048 2,045 1,960
98% 0,01 0,02 31,82 6,965 4,541 3,747 3,365 3,143 2,998 2,896 2,821 2,764 2,718 2,681 2,650 2,624 2,602 2,583 2,567 2,552 2,539 2,528 2,518 2,508 2,500 2,492 2,485 2,479 2,473 2,467 2,462 2,326
99% 0,005 0,01 63,66 9,925 5,841 4,604 4,032 3,707 3,499 3,355 3,250 3,169 3,106 3,055 3,012 2,977 2,947 2,921 2,898 2,878 2,861 2,845 2,831 2,819 2,807 2,797 2,787 2,779 2,771 2,763 2,756 2,576
5.2 Definir o tipo de teste a ser usado O sinal é >. Então o teste será unilateral à direita. 5.3 Encontrar t que estabelece limites de Aceitação/Rejeição gl=n-1→ 10-1=9 → 2,821 | α=1% (0,01) Usando Unilateral, α=0,01 com g.l.= 9, encontramos t = 2,821 (veja na tabela t ao lado). Como o teste é “unilateral à direita”, t será positivo.
5.4 Desenhe as regiões de Aceitação/Rejeição Região de aceitação
0,99
Região de rejeição α → 0,01
t=+2,821
5.5 Calcular a estatística de teste:
t=
d Sd
→
n
6,6 7,043
= 2,96
10
5.6 Verifique se t caiu na região de Rejeição Região de aceitação
0,99
Região de rejeição α → 0,01
+2,821
+2,96 5.7 Conclusão: A estatística de teste t caiu na Região de Rejeição. Então, você deverá REJEITAR A HIPÓTESE NULA (Ho). Ho é falsa. Não se pode aceitar que o peso se manteve. Então, concluímos que o uso da ração contribui para o aumento do peso médio dos animais.
Uanderson Rebula de Oliveira
Estatística Aplicada
Engenharia de Produção
- 82 -
Para amostras independentes (dados não emparelhados)
Duas amostras são independentes se a amostra selecionada de uma das populações não é relacionada à amostra selecionada da segunda população. Veja ao lado. 9 Em muitas situações em que desejamos comparar as médias dos efeitos de dois tratamentos, não se utiliza o esquema de dados emparelhados, seja porque o emparelhamento não é possível, seja porque não é a maneira mais conveniente de se fazer a comparação. Dividem-se então os indivíduos em estudo em dois grupos separados. 9 Neste caso as duas amostras podem ser de tamanhos diferentes.
amostra 1
amostra 2
9 Se os dados não são emparelhados, não terá sentido calcular as diferenças “d” entre os valores das duas amostras, e o teste deverá ser baseado na diferença X1 - X2 entre as médias das duas amostras. Temos dois casos para amostras independentes: teste Z para amostras grandes (n>30, ou se o desvio padrão for conhecido) e teste t para amostras pequenas (n≤30, ou se o desvio padrão for desconhecido).
Teste Z para amostras grandes (n>30) EQUAÇÃO TESTE Z DADOS NÃO EMPARELHADOS (n>30)
Estatística de teste A estatística de teste z segue uma distribuição normal.
z=
X1 =média da amostra população 1 X 2 = média da amostra população 2
X1 − X 2
S1 = desvio padrão da população 1 S2 = desvio padrão da população 2
(S1) 2 (S2) 2 + n1 n2
n1 = tamanho da amostra população 1 n2 = tamanho da amostra população 2
Exemplo 1: Um fabricante produz dois tipos de pneus, A e B. Uma grande companhia de taxi testou a durabilidade de 50 pneus do tipo A, obtendo média de 24.000km e desvio padrão de 2.500km, e 40 pneus do tipo B, obtendo média de 26.000km e desvio padrão de 3.000km. Ao nível de 4% de significância, testar a hipótese de que a duração média dos dois tipos de pneus é diferente (ou seja, não é a mesma).
1º passo: Formular as hipóteses H0 : X1 = X2 Ha : X1 ≠ X2
5º passo: Calcular a estatística de teste
4º passo: Desenhar as Regiões de Rejeição e de Aceitação, em função de z (nível α)
2º passo: Definir o tipo de teste a ser usado Queremos testar se a média de A e B é diferente. O sinal é ≠. Usamos o Bilateral, pois testaremos um intervalo aceitável. 3º passo: Encontrar escore z que estabelece os limites de Rejeição/Aceitação: 0,96 α=4% | /2 = 0,48 → z = -2,05 e +2,05
Região de rejeição α →0,02 2
z=
Região de aceitação 0,96
Z=-2,05
Região de rejeição α → 0,02 2 Z=+2,05 (0,96/2 = 0,48)
z=
X1 − X 2 (S1) 2 (S2) 2 + n1 n2
24.000 − 26.000 ( 2.500) 2 (3.000) 2 + 50 40
Ao procurar 0,48 na tabela Normal, encontramos z = ±2,05 (pois 0,4798 é mais próximo. Como o teste é “Bilateral”, usamos z positivo e negativo).
6º passo: Verifique se a estatística de teste caiu na Região de rejeição: estatística de teste (obtido no 5º passo)
Região de rejeição α →0,02 2
Região de aceitação
Região de rejeição α → 0,02 2
0,96
z=-2,05
7º e último passo: Tomada de decisão: A estatística de teste caiu na Região de Rejeição. Então, deve-se REJEITAR A HIPÓTESE NULA (Ho). Ou seja, Não se pode aceitar que a durabilidade média dos pneus é a mesma. Concluímos que os pneus tem durabilidade média diferente.
z=+2,05
z=-3,38
Uanderson Rebula de Oliveira
Estatística Aplicada
= −3,38
Engenharia de Produção
- 83 -
6 CORRELAÇÃO E REGRESSÃO
Existem situações nas quais interessa estudar a relação entre duas variáveis, coletadas como pares ordenados (x,y), para resolver questões do tipo “Existe relação entre o número de horas de estudo e as notas obtidas?”. Problemas como esses são estudados pela análise de correlação linear simples, onde determinamos o grau de relação entre duas variáveis. Se as variáveis variam juntas, diz-se que as mesmas estão correlacionadas.
Uanderson Rebula de Oliveira
Estatística Aplicada
“Atualmente, todos – estudantes e professores – procuram o Udemy porque é a plataforma onde todos estão”. Fonte: Jornal do Brasil
Faça o curso online na Udemy
Estatística I (para leigos): aprenda fácil e rápido!
Com o Prof. MSc. Uanderson Rébula "O livro digital Estatística I para leigos possui uma linguagem fácil e ao mesmo tempo dinâmica. O conteúdo do livro está ordenado de forma a facilitar a aprendizagem dos alunos, mesmo aquelas pessoas que não tenham noção nenhuma de estatística aprenderão com esse livro. Você pode estudar sozinho para concursos pois o livro é auto explicativo ou até mesmo em grupos, no meu caso faço isso com meus alunos. Eu super recomendo esse livro!!! NOTA 1000" Maria Eunice Souza Madriz Professora de estatística da rede estadual de ensino da Bahia Avaliação do livro pelo cliente na amazon.com.br
Saiba mais Clique aqui
www.udemy.com Junte-se a milhões de estudantes na maior plataforma on-line de cursos curtos e práticos do mundo. Com mais de 45.000 cursos virtuais disponíveis, o Udemy é uma plataforma global de ensino on-line onde 15 milhões de alunos estão dominando novas habilidades. O foco do Udemy são os conhecimentos práticos e úteis para o mercado de trabalho. Há cursos gratuitos e pagos. São cursos curtos e com valores bem acessíveis.
Engenharia de Produção
- 84 -
CORRELAÇÃO LINEAR SIMPLES INTRODUÇÃO Existem situações nas quais interessa estudar a relação entre duas variáveis, coletadas como pares ordenados (x,y), para resolver questões do tipo: Variável x Existe relação entre o número de horas de estudo... Quanto maior for a produção... Existe relação entre o tabagismo... Quanto maior a idade de uma casa... Existe relação entre o número de horas de treino... Existe relação entre o nível de pressão arterial... ;
Variável y ...e as notas obtidas? ...maior será o custo total? ...e a incidência de câncer? ...menor será seu preço de venda? ...e os gols obtidos em uma partida de futebol? ...com a idade das pessoas?
Problemas como esses são estudados pela análise de correlação linear simples, onde determinamos o grau de relação entre duas variáveis. Se as variáveis variam juntas, diz-se que as mesmas estão correlacionadas.
Correlação linear simples é uma técnica usada para analisar a relação entre duas variáveis. DIAGRAMA DE DISPERSÃO EXEMPLO 1. Consideremos na tabela abaixo uma amostra formada por 8 alunos de uma classe, pelo número de horas de estudo (x) e as notas obtidas (y). Verifique se existe correlação por meio do diagrama de dispersão. Diagrama de Dispersão
Número de horas de estudo versus notas obtidas
A B C D E F G H
Y
(horas de estudo)
(notas obtidas)
8h 2h 3h 4h 4,5h 6h 5h 7h
9,0 3,0 4,0 5,0 6,0 7,0 7,0 7,5
H o r as estud ad as ver sus Notas o b tid as 10 9
Ponto de interseção (Aluno D)
8 Y (Notas obti das )
Aluno
X
7 6 5 4 3 2 1 0 0
1
2
3
4
5
6
7
8
9
x (Horas de es tudo)
FONTE: dados fictícios
Representando os pares ordenados (x,y), obtemos diversos pontos grafados que denominamos diagrama de dispersão. Para construí-lo, basta pontuar a interseção de cada eixo x,y. Por exemplo, o aluno D estudou 4h (eixo x) e obteve a nota 5,0 (eixo y). Observe no diagrama uma linha vermelha pontilhada e o ponto de interseção. Esse diagrama nos fornece uma idéia grosseira, porém útil, da correlação existente. Ao observar o diagrama como um todo, podemos afirmar que existe uma correlação entre as variáveis x,y pois, quando x cresce, y também tende a crescer.
CORRELAÇÃO LINEAR
Podemos imaginar que, quanto mais fina for a elipse, mais ela se aproximará de uma reta. Dizemos então, que a correlação de forma elíptica tem como “imagem” uma reta, sendo, por isso, denominada correlação linear.
9 8 Y (Notas obti das )
Os pontos grafados, vistos em conjunto, formam uma elipse (trajetória, distribuição dos pontos) em diagonal.
H o r as estud ad as ver sus No tas o b tid as 10
7 6 5 4
Reta imaginária
3 2 1 0 0
1
2
3
4
5
6
7
8
x (Horas de es tudo)
Uanderson Rebula de Oliveira
Estatística Aplicada
9
Engenharia de Produção
- 85 -
Assim, uma correlação é: Uma direção para cima sugere que se: - x aumenta, - y tende a aumentar.
Uma direção para baixo sugere que se: - x aumenta, - y tende a diminuir.
EXEMPLO 2. Consideremos na tabela abaixo os meses de Jan a Set, o aumento mensal do preço das refeições (x) e a média do número de clientes ao mês (y). Verifique se existe correlação por meio do diagrama de dispersão. Diagrama de Dispersão
Aumento do preço da refeição versus média de clientes por mês
Jan Fev Mar Abr Jun Jul Ago Set
Y
(preço refeição)
(média clientes)
R$ 5,90 R$ 8,50 R$ 10,90 R$ 13,20 R$ 15,90 R$ 18,50 R$ 21,90 R$ 24,90
154 139 133 128 115 99 80 67
Aumento do p r eço da r efeição ver su s média clientes p/dia 180 Y (médi a de c l i entes p/di a)
Mês
X
160 140 120 100 80 60 40 20 0 0,00
5,00
10,00
15,00
20,00
25,00
30,00
x ( P reç o ref ei ç ão)
FONTE: dados fictícios
COEFICIENTE DE CORRELAÇÃO DE PEARSON Interpretar a correlação usando um diagrama de dispersão pode ser subjetivo (pessoal). Uma maneira mais precisa de se medir o tipo e o grau de uma correlação linear entre duas variáveis é calcular o coeficiente de correlação.
Coeficiente de correlação é uma medida do grau de relação entre duas variáveis. Os estatísticos criaram a equação ao lado para obter o grau de correlação. Na verdade é chamado de coeficiente de Pearson, em homenagem ao estatístico inglês Karl Pearson (1857-1936).
Onde: r = coeficiente de correlação e n = tamanho da amostra
Uanderson Rebula de Oliveira
Estatística Aplicada
Engenharia de Produção
- 86 -
EXEMPLO DE APLICAÇÃO. Consideremos na tabela abaixo uma amostra formada por 8 alunos de uma classe, pelo número de horas de estudo (x) e as notas obtidas (y), calcule o coeficiente de correlação r. Cálculo do r: Número de horas de estudo versus notas obtidas
Aluno
X
Y
(horas de estudo)
(notas obtidas)
8h 2h 3h 4h 4,5h 6h 5h 7h ∑=39,5
9,0 3,0 4,0 5,0 6,0 7,0 7,0 7,5 ∑=48,5
A B C D E F G H
X2
Y2
XY
64 81 72 4 9 6 9 16 12 16 25 20 20,25 36 27 36 49 42 25 49 35 49 56,25 52,5 ∑=223,25 ∑=321,25 ∑=266,5
Interpretação: O coeficiente de correlação r = 0,975 indica que o grau de relação entre as duas variáveis é “Muito forte”, além de ser “Positiva” (pois x aumenta, y também aumenta). Então, podemos afirmar que, conforme aumentam as horas de estudo, as notas obtidas também aumentam. Veja mais detalhes abaixo: O grau de relação r pode variar de -1 até +1, conforme ilustrado abaixo: Perfeita
-1
Nula
-0,9
Muito forte
-0,6 Forte
-0,3 Fraca
Correlação linear NEGATIVA ( x aumenta, y diminui )
y
r = - 0,813
x
Perfeita
0 Muito Fraca
0,3 Muito Fraca
r=0
0,6 Fraca
0,9 Forte
+1
Muito forte
Correlação linear POSITIVA ( x aumenta, y aumenta )
y
r = 0,824
x
r=0,975 Positiva e “Muito forte”
Notas:
Correlação e causalidade. O fato de duas variáveis serem fortemente correlacionadas não implica uma relação de causa e efeito entre elas. Um estudo mais profundo é usualmente necessário para determinar se há uma relação causal entre as variáveis. As seguintes questões devem ser consideradas ao pesquisador: - Há uma relação direta de causa e efeito entre as variáveis? - É possível que a relação entre duas variáveis seja uma coincidência? Mais informações em Larson, 2010, capítulo 9.
Uanderson Rebula de Oliveira
Estatística Aplicada
Engenharia de Produção
- 87 -
REGRESSÃO LINEAR SIMPLES INTRODUÇÃO Após verificar se a correlação linear entre duas variáveis é significante, o próximo passo é determinar a equação da linha que melhor modela os pontos grafados. Essa linha é chamada de linha de regressão (ou linha de melhor ajuste). Portanto, a análise de regressão linear simples tem por objetivo obter a equação matemática do ajuste da reta que representa o melhor relacionamento numérico linear entre as duas variáveis em estudo. A Regressão Linear determina o ajuste da reta, chamada de “Linha de Regressão”
H o r as estud ad as ver sus No tas o b tid as 10 9 Y (Notas obti das )
8 7 6 5 4 3 2 1 0 0
1
2
3
4
5
6
7
8
9
x (Horas de es tudo)
Ao se construir um diagrama de dispersão, não sabemos o comportamento da reta em relação aos pontos grafados. Para tanto, devemos calcular o “ajustamento da reta aos pontos”. Eis alguns exemplos de diagramas de dispersão com o ajustamento da reta aos pontos:
AJUSTAMENTO DA RETA AOS PONTOS GRAFADOS Para ajustar a reta aos pontos grafados em um diagrama de dispersão, os estatísticos usam as seguintes equações: 1º - Calcular o Coeficiente angular a:
2º - Calcular o Coeficiente linear b:
(dá a inclinação da reta)
(ordena o ponto em que a reta corta o eixo)
b =
Onde: a = Coeficiente angular n = tamanho da amostra
Uanderson Rebula de Oliveira
- a
Onde: b = Coeficiente linear = Média de y a = Coeficiente angular = Média de x
3º - Calcular o ajustamento da reta :
= aX + b
Onde: = Ajustamento da reta a = Coeficiente angular X = É um valor arbitrário. (Ex.: nº 5) b = Coeficiente linear
Estatística Aplicada
Engenharia de Produção
- 88 -
EXEMPLO DE APLICAÇÃO. Consideremos na tabela abaixo uma amostra formada por 8 alunos de uma classe, pelo número de horas de estudo (x) e as notas obtidas (y), calcule a reta ajustada nos pontos grafados. Número de horas de estudo versus notas obtidas
Aluno A B C D E F G H
1º - Calcular o Coeficiente angular a:
X
Y
(horas de estudo)
(notas obtidas)
8h 2h 3h 4h 4,5h 6h 5h 7h
9,0 3,0 4,0 5,0 6,0 7,0 7,0 7,5
∑=39,5
∑=48,5
X2
XY
64 4 9 16 20,25 36 25 49
72 6 12 20 27 42 35 52,5
∑=223,25 ∑=266,5
2º - Calcular o Coeficiente linear b: b = Calculando as Médias
a =
8
a = 0,958
3º - Calcular o ajustamento da reta :
- a
= aX + b
e , temos:
= 48,5 = 6,063 8
266,5 - (39,5) . (48,5) 8 223,25 - (39,5)2
= 0,958 . 5 + 1,33 = 39,5 = 4,937 8
Então:
b = 6,063 – 0,958 x 4,937 b = 1,33 Para traçar a reta no diagrama de dispersão, basta determinar os pontos b,
= 6,12
Nota: 5 é um valor arbitrário.
e o arbitrário:
Note que os pontos grafados estão muito próximos da reta. Isso significa que existe uma correlação muito forte entre as duas variáveis em estudo
Uanderson Rebula de Oliveira
Estatística Aplicada
Engenharia de Produção
- 89 -
REFERÊNCIAS BIBLIOGRÁFICAS ANDERSON, David R.; SWEENEY, Dennis J.; WILLIANS, Thomas A. Estatística aplicada à administração e economia. 2 ed. São Paulo: Cengage Learning, 2009. 597 p. BARBETTA et al. Estatística para cursos de engenharia e informática. 2 ed. São Paulo: Atlas, 2008. COSTA NETO, Pedro Luiz de Oliveira; CYMBALISTA, Melvin. Probabilidades. 2 ed. São Paulo: Edgard Blucher, 2005. CRESPO, Antônio Arnot. Estatística fácil. 17 ed. São Paulo: Saraiva, 1999. 224 p. FARIAS, Alfredo Alves et al. Introdução à estatística. 2 ed. Rio de Janeiro: LTC, 2003. 340 p. GIOVANNI José Ruy; BONJORNO, José Roberto; GIOVANNI JR., José Rui. Matemática fundamental: uma nova abordagem – volume único. São Paulo: FTD, 2002. 712 p. HAZZAN, Samuel. Fundamentos da matemática elementar: combinatória e probabilidade. 7 ed. São Paulo: Atual editora, 2004. 184p. LAPPONI, Juan Carlos. Estatística usando o Excel. 4 ed. Rio de Janeiro: Elsevier, 2005. 476 p. LARSON, Ron; FARBER, Betsy. Estatística aplicada. 4 ed. São Paulo: Pearson, 2010. 637 p. LEVINE, David M. et al. Estatística: teoria e aplicações. 5 ed. Rio de Janeiro: LTC, 2008. 752 p. LOPES, Paulo Afonso. Probabilidade e estatística: conceitos, modelos e aplicações em Excel. Ernesto Reichmann, 1999. MANDIN, Daniel. Estatística descomplicada. 9 ed. Brasília: Vestcon, 2002. 227 p. MEYER, Paul L. Probabilidade: aplicações à estatística. 2 ed.. Rio de Janeiro: LTC, 1983. 426 p. MONTGOMERY, Douglas C.; RUNGER, George C. Estatística aplicada e probabilidade para engenheiros. 2 ed. Rio de Janeiro: LTC, 2003. 465 p. MORETTIN, Luiz Gonzaga. Estatística básica: probabilidade e inferência. São Paulo: Pearson, 2010. 375 p. ROSS, Sheldon. Probabilidade: um curso moderno com aplicações. 8 ed.Porto Alegre: Bookman,2010. 826p. RUMSEY, Deborah. Estatística para leigos. Rio de Janeiro: Alta books, 2009. 350 p. SILVA, Ermes Medeiros et al. Estatística: para os cursos de Economia, Administração e Ciências Contábeis - volume 1. 2 ed. São Paulo: Atlas, 1996. 189 p. SMOLE, Kátia Stocco; DINIZ, Maria Ignez. Matemática–ensino médio. 5 ed. São Paulo: Saraiva, 2005. 558p. SPIEGEL, Murray R. Estatística. Coleção Shaum. São Paulo: McGraw-Hill do Brasil, 1977. 580 p. TRIOLA, Mario F. Introdução à estatística. 10 ed. Rio de Janeiro: LTC, 2008. 696 p. URBANO, João. Estatística: uma nova abordagem. Rio de Janeiro: Ciência Moderna, 2010.530 p. VASCONCELLOS, Maria José Couto; SCORDAMAGLIO, Maria Terezinha; CÂNDIDO, Suzana Laino. Coleção Matemática. 1ª e 3ª série do ensino médio. São Paulo: Editora do Brasil, 2004. 232 p.
Uanderson Rebula de Oliveira
Estatística Aplicada
Engenharia de Produção
- 90 -
ANEXO I - LIVROS RECOMENDADOS
Um livro introdutório de estatística que inclui um estilo de escrita amigável, conteúdo que reflete as características importantes de um curso introdutório moderno de estatística, o uso da tecnologia computacional mais recente, de conjuntos de dados interessantes e reais, e abundância de componentes pedagógicos. O CD-ROM inclui os conjuntos de dados do Apêndice B do livro. Esses conjuntos de dados encontram-se armazenados em formato texto, planilhas do Minitab, planilhas do Excel e uma aplicação para a calculadora TI-83. Inclui também programas para a calculadora gráfica TI-83 Plus®, o Programa Estatístico STATDISK (Versão 9.1) e um suplemento do Excel, desenvolvido para aumentar os recursos dos programas estatísticos do Excel.
Este livro diferencia-se dos tradicionais livros, materiais de referência e manuais de estatísticas, pois possui: Explicações intuitivas e práticas sobre conceitos estatísticos, ideias, técnicas, fórmulas e cálculos. Passo a passo conciso e claro de procedimentos que intuitivamente explicam como lidar com problemas estatísticos. Exemplos interessantes do mundo real relacionados ao cotidiano pessoal e profissional. Respostas honestas e sinceras para perguntas como “O que isso realmente significa?” e “Quando e como eu vou usar isso?” Neste livro você encontrará: • Explicações em português de fácil entendimento. • Informações fáceis de localizar e passo-a-passo. • Ícones e recursos de identificação e memorização. •Folha de cola para destacar com informações práticas. • Listas dos 10 melhores relacionados ao assunto. • Um toque de humor e diversão.
Onde comprar: Você poderá adquiri-los pelo site www.submarino.com.br. Basta se cadastrar e pagar por meio de boleta ou cartão de crédito. A compra é segura.
Uanderson Rebula de Oliveira
Estatística Aplicada
Engenharia de Produção
- 91 -
ANEXO II - SOFTWARE BIOESTAT
Texto extraído da tese de doutorado em Engenharia de Ualison Rebula de Oliveira
Existem inúmeros recursos tecnológicos para a análise estatística de dados, que vão desde calculadoras, a exemplo da TI – 83 PLUS, a aplicativos específicos, tais como o STATDISK e o MINITAB (TRIOLA, 2005). Assim, buscando-se recursos computacionais que facilitassem o tratamento de dados, vários aplicativos e softwares estatísticos foram pesquisados, dos quais se destacam a planilha Excel, o STATDISK, o MINITAB, o BioEstat, o SPSS e algumas páginas na Internet que oferecem programas em Javascript para cálculos on-line, a exemplo da página na Internet www.stat.ucla.edu. Após análise de pós e contras de cada aplicativo pesquisado, selecionou-se o pacote estatístico BioEstat, disponível para download no site www.mamiraua.org.br, por possuir as seguintes características positivas: i) serventia tanto para a Estatística descritiva como para testes estatísticos não-paramétricos; ii) ser em português; iii) possuir manual em PDF com diversos exemplos; iv) ser de fácil utilização; v) ser gratuito; vi) ser referenciado em vários livros, sites e entidades de pesquisa – conforme Siegel & Castellan Junior (2006), o BioEstat é o melhor programa disponível na atualidade para o cálculo do qui-quadrado; vii) possuir apoio do CNPQ; e viii) estar na versão 5.0 e possuir mais de 20 anos de criação.
INTERFACE BIOESTAT
Baixar software: www.mamiraua.org.br
Uanderson Rebula de Oliveira
Estatística Aplicada
Engenharia de Produção
- 92 -
Anexo III - ESTATÍSTICA NO EXCEL O Excel dispõe da função “Estatística”. Assim, tudo que vimos poderá ser desenvolvido pelo excel, bastando inserir os valores da variável de interesse.
FONTE: FONTE: $500 $6.000 São Espírito acidentes Santo -de no Da 8 novilhos 2Revista 1 resentação Aprovação Involução da das Classes Média xEstrato Ponto Grande X-1,0 Velocidade Nenhuma Pequena central exigida variação =(as) de 30 Anos 8 24 4 16 Média SUL CENTRONORTE SUDESTE NORDESTE 70 Podemos Distribuição de 80 da Coleta N Conglomera Número População Novilhos Novilhas éde de Amostras Conglo 1 (Km/h Bimodal Média Ponto José -3,5 Moda central Kelly 9,0 2,5 2,0 D Proteção Adaptado daPer Brasil, 11.039 participando acidentes para cada QUANTIDADE NR’s (Km/h) avariação partir da a2 Média partir classe •OESTE Acidentes: 19.117 49.010 =Maria 70, 71, ponderada Maria visualizar o8072, 7 90 quantidade 100 e 70 ⎯ 80 designado amostras Amostras do do (80) (35) (45) 10 9 8 7 6 4 5 3 70 +10 12Proteção 4,0 aparada simples edoGerais 7,0 João Revista 2.000 .000 com Minas 181.705, -7000 o 12 que 7000 10,0 10 ,0 10,0 30 conglomerado de ACIDENTES (4% (10% 112.425 279.689 do total) total) (23% (57% do da Média •estratificada Acidentes: 31.470 70, 71, 70 |⎯ 80 acidentes e do porcentagem conceito de9072, 7 110 120 80 +10 para corresponde 52.335 aIBGE 37% Mário José Kátia •total) PIB:do13,1% 5% de de DO 10 10 (6% total) 6000 70, 71, (www.ibge.gov. 6000 70 |⎯| 80 88,0 ,072, 7 120 +10 130 do Rio deacidentes Janeiro total; - no por população e8,0 de 130 1.750 .000 População s participação •Kelly PIB: 16,6% 56,5% de TRABALHO • PIB: de70, Mário Lúcio José →seu br) 71, 72, 7 70 ⎯| 808,9% conseguinte 34.610 acidentes o 8 5000 20 participação 8 amostra na de trabalho no Brasil - 1970 a6,0 5000 participação n ,0 PIBéPaulo São também - → é6 o6,0 → Lúcio Kelly Amodal Moda José = 1.500por .000 6 2005. figura lado. Brasil 4000 designado maior 181 705 doao acidentes com 6País4000
da de idade o de alunos Notas s e pesos ntagem %
de deveículos veículos
VARIÁVEL “N” “n” 70 |⎯ 80 75Km/h
POPU
→i éd d l ll
Para saber mais, basta adquirir o livro “Estatística usando o excel”, de Juan Carlos Lapponi. WWW.SUBMARINO.COM.BR 4ª Edição, Edição 2005, 496 págs. Editora Elsevier Campus - Acompanha CD-ROM com Planilhas, Modelos, Simuladores etc. para Excel. O conteúdo deste livro é útil para: Estudantes que cursam Estatística nas diversas áreas do conhecimento e em diferentes níveis de graduação como, em ordem alfabética, Administração, Biologia, Contabilidade, Economia, Engenharia, Finanças, Marketing, Medicina, etc. Estudantes que necessitam aprimorar ou complementar seus conhecimentos de Estatística utilizando o Excel. Profissionais das diversas áreas que utilizam os conceitos de Estatística e necessitam, ou gostariam, de utilizar as funções estatísticas, as ferramentas de análise, planilhas, modelos e simuladores de estatística em Excel. Todos aqueles que poderão utilizar as planilhas, modelos e simuladores de estatística em Excel da forma como estão no CD-Rom, ou modificando-os, para atender às suas necessidades. Alunos de áreas correlatas que utilizarão estatística e desejam antecipar seu aprendizado e agregar valor ao seu conhecimento visando o mercado de trabalho. Usuários de Excel que desejam conhecer e aprender a utilizar os recursos de Estatística disponíveis. TÓPICOS • • • • • • • • • • • • • • • •
DADOS, VARIÁVEIS E AMOSTRAS DESCRIÇÃO DE AMOSTRAS COM TABELAS E GRÁFICOS MEDIDAS DE TENDÊNCIA CENTRAL MEDIDAS DE DISPERSÃO/VARIAÇÃO PROBABILIDADE CORRELAÇÃO VARIÁVEIS ALEATÓRIAS E DISTRIBUIÇÕES DISCRETAS DISTRIBUIÇÕES CONTÍNUAS COMBINAÇÃO LINEAR DE VARIÁVEIS ALEATÓRIAS DISTRIBUIÇÃO AMOSTRAL ESTIMAÇÃO TESTE DE HIPÓTESES TESTES DE HIPÓTESES COM DUAS AMOSTRAS ANÁLISE DA VARIÂNCIA REGRESSÃO LINEAR AJUSTE NÃO LINEAR
Uanderson Rebula de Oliveira
Estatística Aplicada
LIVROS PUBLICADOS POR Uanderson Rébula de Oliveira
QUERO COMPRAR OS LIVROS
Ver amostras dos livros
Esses ebooks estão disponíveis na livraria Saraiva por preços bem acessíveis. Além disso, você pode imprimir, desenhar, esquematizar ou usar qualquer leitor pdf, pois a maioria deles encontra-se desbloqueado. Prof. Uanderson Rébula. Doutorando em Engenharia. Professor universitário. Vivência de 21 anos em ambiente industrial.
[email protected] http://lattes.cnpq.br/1039175956271626 https://br.linkedin.com/in/uandersonrebula
Prof. MSc. Uanderson Rébula de Oliveira
Uma mensagem do Prof. MSc Uanderson Rébula. CLIQUE NO VÍDEO
CLIQUE AQUI E INSCREVA-SE NO CURSO JÁ
Sumário