Livro pdf - Estatística e Probabilidade - Prof. MSc. Uanderson Rébula

Associação Educacional Dom Bosco -1- ESTATÍSTICA E PROBABILIDADE ESTATÍSTICA Uanderson Rebula de Oliveira br.linkedin.com/in/uandersonrebula/ http...
0 downloads 4 Views NAN Size

Associação Educacional Dom Bosco

-1-

ESTATÍSTICA E PROBABILIDADE

ESTATÍSTICA Uanderson Rebula de Oliveira br.linkedin.com/in/uandersonrebula/

http://lattes.cnpq.br/1039175956271626

Uanderson Rebula de Oliveira

Estatística

-2-

UANDERSON REBULA DE OLIVEIRA Mestrado em Engenharia de Produção-Universidade Estadual Paulista-UNESP Pós-graduado em Controladoria e Finanças-Universidade Federal de Lavras-UFLA Pós-graduado em Logística Empresarial-Universidade Estácio de Sá-UNESA Graduado em Ciências Contábeis-Universidade Barra Mansa-UBM Técnico em Metalurgia-Escola Técnica Pandiá Calógeras-ETPC Técnico em Segurança do Trabalho-ETPC Operador Siderúrgico e Industrial-ETPC Pesquisador pelo ITL/SEST/SENAT. Professor na UNIFOA no curso de Pós graduação em Engenharia de Segurança do Trabalho. Professor da Universidade Estácio de Sá - UNESA nas disciplinas de Gestão Financeira de Empresas, Fundamentos da Contabilidade e Matemática Financeira, Probabilidade e Estatística para o curso de Engenharia de Produção, Análise Estatística para o curso de Administração, Ergonomia, Higiene e Segurança do Trabalho, Gestão de Segurança e Análise de Processos Industriais (Gestão Ambiental), Gestão da Qualidade: programa 5S (curso de férias). Professor na Associação Educacional Dom Bosco para os cursos de Administração e Logística. Ex-professor na Universidade Barra Mansa – UBM nos cursos de Engenharia de Produção e de Petróleo. Ex-professor Conteudista na UNESA (elaboração de Planos de Ensino e de Aula, a nível nacional). Exprofessor em escolas técnicas nas disciplinas de Estatística Aplicada, Estatística de Acidentes do Trabalho, Probabilidades, Contabilidade Básica de Custos, Metodologia de Pesquisa Científica, Segurança na Engenharia de Construção Civil e Higiene do Trabalho. Ex-professor do SENAI. Ex-consultor interno, desenvolvedor e instrutor de cursos corporativos na CSN, a níveis Estratégicos, Táticos e Operacionais. Ex-Membro do IBS–Instituto Brasileiro de Siderurgia.

ESTATÍSTICA

EMENTA: Estatística descritiva: conceito e fases de estudo. Variáveis. População e amostra. Séries estatísticas: conceitos, tabelas, distribuição de frequência e representação gráfica. Medidas de Tendência Central. Medidas de Ordenamento. Medidas de Variação. Medidas de Assimetria e Curtose. Correlação e Regressão Linear Simples.

OBJETIVO: Refletir a partir da Estatística Básica sobre as ferramentas consolidadas pelo uso e pela ciência, disponíveis a todos, que auxiliam na tomada de decisão.

Resende - RJ – 2017

Uanderson Rebula de Oliveira

Estatística

-3-

APRESENTAÇÃO DA DISCIPLINA Uma das ferramentas mais utilizadas hoje em dia pelos cientistas, analistas financeiros, médicos, engenheiros, jornalistas etc. é a Estatística, que descreve os dados observados e desenvolve a metodologia para a tomada de decisão em presença da incerteza. O verbete estatística foi introduzido no século XVIII, tendo origem na palavra latina status (Estado), e serviu inicialmente a objetivos ligados à organização político-social, como o fornecimento de dados ao sistema de poder vigente. Hoje em dia, os modelos de aplicação da Teoria Estatística se estendem por todas as áreas do conhecimento, como testes educacionais, pesquisas eleitorais, análise de riscos ambientais, finanças, controle de qualidade, análises clínicas, índices de desenvolvimento, modelagem de fenômenos atmosféricos etc. Podemos informalmente dizer que a Teoria Estatística é uma ferramenta que ajuda a tomar decisões com base na evidência disponível, decisões essas afetadas por margens de erro, calculadas através de modelos de probabilidade. No entanto, a probabilidade se desenvolveu muito antes de ser usada em aplicações da Teoria Estatística. Um dos marcos consagrados na literatura probabilística foi a correspondência entre B. Pascal (1623-1662) e P. Fermat (16011665), onde o tema era a probabilidade de ganhar em um jogo com dois jogadores, sob determinadas condições. Isso mostra que o desenvolvimento da teoria de probabilidades começou com uma paixão humana, que são os jogos de azar, mas evoluiu para uma área fortemente teórica, em uma perspectiva de modelar a incerteza, derivando probabilidades a partir de modelos matemáticos. A análise combinatória deve grande parte de seu desenvolvimento à necessidade de resolver problemas probabilísticos ligados à contagem, mas hoje há diversas áreas em que seus resultados são fundamentais para o desenvolvimento de teorias, como, por exemplo, a área de sistemas de informação. Nesta apostila encontraremos as definições de Estatística, vocabulário básico, população e amostra, séries estatísticas, medidas estatísticas. Correlação e regressão entre outros temas importantes.

Uanderson Rebula de Oliveira

Estatística

“Atualmente, todos – estudantes e professores – procuram o Udemy porque é a plataforma onde todos estão”. Fonte: Jornal do Brasil

Faça o curso online na Udemy

Estatística I (para leigos): aprenda fácil e rápido!

Com o Prof. MSc. Uanderson Rébula "O livro digital Estatística I para leigos possui uma linguagem fácil e ao mesmo tempo dinâmica. O conteúdo do livro está ordenado de forma a facilitar a aprendizagem dos alunos, mesmo aquelas pessoas que não tenham noção nenhuma de estatística aprenderão com esse livro. Você pode estudar sozinho para concursos pois o livro é auto explicativo ou até mesmo em grupos, no meu caso faço isso com meus alunos. Eu super recomendo esse livro!!! NOTA 1000" Maria Eunice Souza Madriz Professora de estatística da rede estadual de ensino da Bahia Avaliação do livro pelo cliente na amazon.com.br

Saiba mais Clique aqui

www.udemy.com Junte-se a milhões de estudantes na maior plataforma on-line de cursos curtos e práticos do mundo. Com mais de 45.000 cursos virtuais disponíveis, o Udemy é uma plataforma global de ensino on-line onde 15 milhões de alunos estão dominando novas habilidades. O foco do Udemy são os conhecimentos práticos e úteis para o mercado de trabalho. Há cursos gratuitos e pagos. São cursos curtos e com valores bem acessíveis.

-5-

Sumário 1 – CONCEITOS PRELIMINARES   1.1 CONCEITO E IMPORTÂNCIA DA ESTATÍSTICA, 7  1.2 FASES DO ESTUDO ESTATÍSTICO, 12  1.3 VOCABULÁRIO BÁSICO DE ESTATÍSTICA, 13  1.4 POPULAÇÃO E AMOSTRA, 15  1.5 ESTATÍSTICA DESCRITIVA E INFERENCIAL , 17 

2 – SÉRIES ESTATÍSTICAS   2.1 CONCEITOS E TIPOS DE SÉRIES ESTATÍSTICAS,  19  Tabelas, 19  Gráficos, 20 

2.2 DISTRIBUIÇÃO DE FREQUÊNCIA, 23  Frequência absoluta e histograma, 23  Frequência relativa, absoluta acumulada e relativa acumulada, 24  Agrupamento em classes, 25  Polígono de frequência e ogiva, 26 

3 – MEDIDAS RESUMO 3.1 MEDIDAS DE POSIÇÃO, 28  MÉDIA, 28  Média simples e Média ponderada, 28  Média de distribuição de frequência, 29   MEDIANA, 30   MODA, 31   RELAÇÃO ENTRE MÉDIA, MEDIANA E MODA, 33 

3.2 MEDIDAS DE ORDENAMENTO (OU SEPARATRIZES), 34  Quartil, 34  Decil e Percentil, 35 

3.3 MEDIDAS DE VARIAÇÃO (OU DISPERSÃO), 36  Introdução, 36  Variância e Desvio Padrão, 37  Coeficiente de Variação,  39  Desvio padrão de Distribuição de frequência, 39 

3.4 MEDIDAS DE ASSIMETRIA E CURTOSE, 41  Assimetria e coeficiente de assimetria, 41  Curtose e coeficiente de curtose, 42 

4 – CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES            CORRELAÇÃO LINEAR SIMPLES, 44  REGRESSÃO LINEAR SIMPLES, 47 

REFERÊNCIAS BIBLIOGRÁFICAS, 49  ANEXO I – LIVROS RECOMENDADOS, 50  ANEXO II –  Software BIOESTAT , 51  ANEXO I II– Estatística no Excel, 52  

Uanderson Rebula de Oliveira

Estatística

Prof. MSc. Uanderson Rébula de Oliveira

Uma mensagem do Prof. MSc Uanderson Rébula. CLIQUE NO VÍDEO

CLIQUE AQUI E INSCREVA-SE NO CURSO JÁ

Sumário

-6-

1 CONCEITOS PRELIMINARES

Uanderson Rebula de Oliveira

Estatística

-71.1 CONCEITO E IMPORTÂNCIA DA ESTATÍSTICA ESTATÍSTICA NA PRÁTICA  Analise as informações abaixo para melhor compreensão do conceito de Estatística. 

 ACIDENTES DO TRABALHO NO BRASIL – 1970 a 2005  Conceito de Acidente: Lesão corporal ou doença, relacionada com o exercício do trabalho. (Lei 8.213/91 – art. 19 a 21)  INSS: Órgão público responsável pela coleta, organização e representação dos dados.   

Coleta: Por meio de um formulário eletrônico denominado “CAT – Comunicação de Acidente do Trabalho”, enviado  pelas empresas quando da ocorrência, conforme determina o art. 22 da Lei 8.213/91.  Organização: Através de um grande banco de dados do INSS.  Representação: Através de um documento denominado “Anuário Estatístico de Acidentes do Trabalho”, contendo  tabelas, gráficos e diversas análises. Disponível no site www.previdencia.gov.br, na seção “Estatística”. 

 

Motivo:  Quando  o  trabalhador  se  afasta  por  motivo  de  acidente,  o  INSS  concede  benefícios  acidentários,  como  auxílio  doença acidentário, auxílio acidente, aposentadoria por invalidez, pensão por morte, reabilitação entre outros.  

COMPILAÇÃO E ANÁLISE DE DADOS (INFORMAÇÕES) sobre acidentes do trabalho, de 1970 a 2005:  35.000.000

33.238.617 31.407.576 29.544.927 28.683.913 27.189.614 26.228.629 24.491.635 23.667.24123.830.312

Evolução da QUANTIDADE de TRABALHADORES no Brasil - 1970 a 2005.

30.000.000

23.661.57923.198.656 22.163.827 22.272.843

 

25.000.000

19.476.36219.673.915 18.686.355 16.638.799 14.945.489

20.000.000 15.000.000

    10.000.000

11.537.024 8.148.987 7.284.022

5.000.000 0

1970 1972 1974 1976 1978 1980 FONTE: Revista Proteção

1982 1984 1986

1988 1990

1992 1994

1996 1998

2000 2001 2002

2003 2004

2005

Anos

Observa‐se ao longo dos anos o aumento gradativo da quantidade de trabalhadores no Brasil, de 7.284.022 chegando a 33.238.617,  reflexo do crescimento econômico do País. Essas informações (dados) são importantes para fins de comparação com a evolução da  quantidade de acidentes do trabalho no mesmo período, como segue abaixo:  1.796.671 1.743.825

2.000.000 1.750.000

Involução da QUANTIDADE de ACIDENTES DO TRABALHO no Brasil - 1970 a 2005.

Aprovação das NR’s

1.551.461 1.464.211

1.504.723

1.500.000 1.220.111

1.178.472

1.250.000

1.207.859 991.581

961.575

1.000.000 693.572

750.000

532.514 388.304 395.455414.341 363.868

500.000

465.700 491.711 393.071 399.077 340.251

250.000 0 1970

1972

1974

1976

1978

FONTE: Revista Proteção

1980

1982

1984

1986

1988

1990

1992

1994

1996

1998

2000

2001

2002

2003

2004

2005

Anos

No  período  de  1970  a  1976  a  quantidade  de  acidentes  foi  alta,  comparando‐se  com  a  pequena  quantidade  de  trabalhadores  no  mesmo  período.  Somente  a  partir  de  1978  os  acidentes  começaram  a  reduzir,  em  razão  da  aprovação  das  Normas  Regulamentadoras – NR’s (disponível no www.mte.gov.br), tornando‐se de aplicação obrigatória em todo o País. Esta redução pode  ser vista como positiva, entretanto, não podemos comemorar esses números, pois a quantidade de acidentes ainda é alarmante e  está praticamente estagnada, desde 1994. 

Uanderson Rebula de Oliveira

Estatística

-8E  as  regiões?  Como  esses  acidentes  estão  distribuídos  nas  regiões  do  país?  Qual  a  pior  região?  Vejamos  abaixo  em  um  Cartograma (mapa com dados), REFERENTE AO ANO DE 2005 (491.711 acidentes):  Distribuição da quantidade e porcentagem de acidentes de trabalho no Brasil por Regiões,  correlacionados com o Produto Interno Bruto ‐ PIB ‐ ano 2005.  NORTE  • Acidentes: 19.117 (4% do total)  • PIB: 5% de participação

NORDESTE  • Acidentes: 49.010 (10% do total)  • PIB: 13,1% de participação

CENTRO‐OESTE  • Acidentes: 31.470 (6% do total)  • PIB: 8,9% de participação

SUDESTE  • Acidentes: 279.689 (57% do total)  • PIB: 56,5% de participação SUL 

Espírito Santo ‐ 11.039 acidentes  Minas Gerais ‐ 52.335 acidentes  Rio de Janeiro ‐ 34.610 acidentes  São Paulo ‐ 181.705 acidentes 

• Acidentes: 112.425 (23% do total)  • PIB: 16,6% de participação

É  campeão  de  acidentes  no  Brasil,  participando  com  181.705, o que corresponde a 37% do total; por conseguinte  o seu  PIB  também  é  o  maior  do  País,  com  33,9%  de participação.

FONTE: Adaptado da Revista Proteção e do IBGE (www.ibge.gov.br)

Observa‐se que a região em 1° lugar em número de acidentes é a Sudeste, em 2° está a região Sul, em 3° a região Nordeste, em 4° a região  Centro‐Oeste  e  por  último  a  Norte.  Ao  analisarmos  este  gráfico  podemos  tomar  diversas  conclusões,  porém,  tais  conclusões  somente  são  possíveis  através  de  um  estudo,  o  que  demanda  tempo.  Todavia,  observa‐se  que  a  quantidade  de  acidentes  acompanha  a  porcentagem  da  participação  do  PIB  da  região.  Esta  correlação  pode  ser  resultado  do  reflexo  da  economia  da  região.  Ora,  a  região  Sudeste,  por  exemplo,  corresponde a 56,5% do PIB do País. Logicamente esta região possui um maior número de empresas e, consequentemente, maior número de  mão‐de‐obra  e  atividades  produtivas,  fato  que  pode  justificar  a  enorme  quantidade  de  acidentes  comparada  com  as  demais  regiões.  Esses  dados também podem estar relacionados com as políticas dos estados e das empresas, a atuação das fiscalizações do Ministério do Trabalho,  as  culturas  das  regiões,  os  investimentos  empresariais,  a  capacitação  de  mão  de  obra  (treinamentos)  entre  outros  fatores.  Entende‐se  por  Produto Interno Bruto (PIB) a soma, em valores monetários, de todos os bens e serviços finais produzidos em uma determinada região. 

Tradicionalmente, no Brasil, as políticas de desenvolvimento têm se restringido aos aspectos econômicos e vêm sendo traçadas  de maneira paralela ou pouco articuladas com as políticas sociais, cabendo a estas últimas arcarem com os ônus dos possíveis  danos  gerados  sobre  a  saúde  da  população,  dos  trabalhadores  em  particular  e  a  degradação  ambiental.  Para  que  o  Estado  cumpra seu papel para a garantia desses direitos, é mister a formulação e implementação de políticas e ações de governo. 

POSSÍVEIS SOLUÇÕES PARA REDUZIR OS ACIDENTES A partir da análise dos dados podemos concluir que a política de segurança do trabalho adotada no País está estagnada. A  simples  aplicação  da  norma  regulamentadora  não  está  sendo  suficiente  para  reduzir  o  índice  de  acidentes.  Os  dados  nos  mostram que não haverá mudanças significativas se não forem feitas alterações nessa política.  Para contornar a situação, os Ministérios do Trabalho, da Saúde e da Previdência Social publicaram, para consulta pública, em  29.12.2004  a  PNSST  ‐  POLÍTICA  NACIONAL  DE  SEGURANÇA  E  SAÚDE  DO  TRABALHADOR,  com  a  finalidade  de  promover  a  melhoria da qualidade de vida e da saúde do trabalhador.   Os Ministérios reconheceram a deficiência da segurança do trabalho no país, carecendo de mecanismos que:       

Incentivem medidas de prevenção; Responsabilizem os empregadores; Propiciem o efetivo reconhecimento dos direitos do trabalhador; Diminuam a existência de conflitos institucionais; Tarifem de maneira mais adequada as empresas e Possibilite um melhor gerenciamento dos fatores de riscos ocupacionais.

Uanderson Rebula de Oliveira

Estatística

-9Face ao exposto, a PNSST propõe, dentre outras, as seguintes ações a serem desenvolvidas pelos três Ministérios: 

Área 

Ações   

Tributos1,  financiamentos  e licitações. 

    

Educação e  pesquisa 

  

Ambientes  nocivos  Coleta de dados 

   

Estabelecer  política  tributária  que  privilegie  empresas  com  menores  índices  de  acidentes  e  que  invistam na melhoria das condições de trabalho;  Criar  linhas  de  financiamento  para  a  melhoria  das  condições  de  trabalho,  incluindo  máquinas  e  equipamentos, em especial para as pequenas e médias empresas;  Incluir requisitos de  SST para concessão de financiamentos públicos e privados;  Incluir requisitos de SST nos processos de licitação dos órgãos públicos;  Instituir a obrigatoriedade de publicação de balanço de SST para as empresas, a exemplo do que já  ocorre com os dados contábeis;  Incluir conhecimentos básicos em SST no currículo do ensino fundamental e médio;  Incluir disciplinas em SST no currículo de ensino superior, em especial nas carreiras de profissionais  de saúde, engenharia e administração;  Estimular a produção de estudos e pesquisas na área de interesse desta Política;  Articular instituições de pesquisa e universidades para a execução de estudos e pesquisas em SST,  integrando uma rede de colaboradores para o desenvolvimento técnico ‐ cientifico na área;  Desenvolver  um  amplo  programa  de  capacitação  dos  profissionais,  para  o  desenvolvimento  das  ações em segurança e saúde do trabalhador;  Eliminar as políticas de monetarização dos riscos (adicionais de riscos).  Outras ações  Compatibilizar os instrumentos de coleta de dados e fluxos de informações.  Incluir  nos  Sistemas  e  Bancos  de  Dados  as  informações  contidas  nos  relatórios  de  intervenções  e  análises dos ambientes de trabalho, elaborados pelos órgãos de governo envolvidos nesta Política. 

CONSIDERAÇÕES FINAIS SOBRE O ESTUDO DE ACIDENTES. O que acabamos de ver é um estudo estatístico. Como vimos, os dados sobre acidentes do trabalho no Brasil são controladas  pelo INSS. A comunicação de acidentes permite ao INSS estimar e acompanhar o real impacto do trabalho sobre a saúde e a  segurança  da  população  brasileira.  O  INSS  coleta,  organiza,  apresenta  e  publica  as  estatísticas  de  acidentes  do  trabalho  no  Brasil. Conforme observado, quando ocorre um acidente, a empresa, por força de lei, é obrigada a  enviar a CAT ao INSS, alimentando, assim, o seu grande banco de dados.    É importante ressaltar que os dados de acidentes de trabalho não se constituem, tão somente, num  importante  registro  histórico,  mas  sim  numa  ferramenta  inestimável  para  os  profissionais  que  desempenham  atividades  nas  áreas  de  saúde  e  segurança  do  trabalhador,  assim  como  pesquisadores  e  demais  pessoas  interessadas  no  tema.  A  análise  desses  dados  possibilita  a  construção  de  um  diagnóstico  mais  preciso  acerca  da  epidemiologia  dos  acidentes,  propiciando,  assim, a elaboração de políticas mais eficazes para as áreas relacionadas com o tema. 

TÓPICO PARA REFLEXÃO Acidente do Trabalho: o problema do Brasil. Os  acidentes  de  trabalho  afetam  a  produtividade  econômica,  são  responsáveis  por  um  impacto  substancial  sobre  o  sistema  de  proteção  social e influenciam o nível de satisfação do trabalhador e o bem estar geral da população.  Estima‐se que a ausência de segurança nos ambientes de trabalho no Brasil tenha gerado, no ano de 2003, um custo de cerca de R$32,8  bilhões para o país. Deste total, R$ 8,2 bilhões correspondem a gastos com benefícios acidentários e aposentadorias especiais, equivalente a  30% da necessidade de financiamento do Regime Geral de Previdência Social ‐ RGPS verificado em 2003, que foi de R$ 27 bilhões. O restante  da despesa corresponde à assistência à saúde do acidentado, indenizações, retreinamento, reinserção no mercado de trabalho e horas de  trabalho perdidas.  Isso sem levar em consideração o sub‐dimensionamento na apuração das contas da Previdência Social, que desembolsa e contabiliza como  despesas  não  acidentárias  os  benefícios  por  incapacidade,  cujas  CAT  não  foram  emitidas.  Ou  seja,  sob  a  categoria  do  auxílio  doença  não  ocupacional, encontra‐se encoberto um grande contingente de acidentes que não compõem as contas acidentárias.  Parte deste “custo segurança no trabalho” afeta negativamente a competitividade das empresas, pois ele aumenta o preço da mão‐de‐obra,  o  que  se  reflete  no  preço  dos  produtos.  Por  outro  lado,  o  incremento  das  despesas  públicas  com  previdência,  reabilitação  profissional  e  saúde reduz a disponibilidade de recursos orçamentários para outras áreas ou induz o aumento da carga tributária sobre a sociedade.  De  outro  lado,  algumas  empresas  afastam  trabalhadores,  e  muitas  vezes  os  despedem  logo  após  a  concessão  do  beneficio.  Com  isso,  o  trabalhador se afasta, já sendo portador de doença crônica contraída no labor, e o desemprego poderá se prolongar na medida em que, para  obter o novo emprego, será necessária a realização do exame admissional, no qual serão eleitos apenas aqueles considerados como “aptos”  e, portanto, não portadores de enfermidades.  Fonte: RESOLUÇÃO CNPS Nº 1.269, DE 15 DE FEVEREIRO DE 2006 

_________________  1. Tributo: Impostos; taxas e contribuições de melhoria, devida ao poder público.

Uanderson Rebula de Oliveira

Estatística

- 10 CONCEITO DE ESTATÍSTICA É  A  CIÊNCIA  QUE  SE  DEDICA  EM  COLETAR,  ORGANIZAR,  APRESENTAR,  ANALISAR  E  INTERPRETAR  DADOS  (INFORMAÇÕES) PARA TOMADA DE DECISÃO.  

Estatística  é  a  ciência  dos  dados.  A  Estatística  lida  com  a  coleta,  o  processamento  e  disposição  de  dados  (informações),  atuando  como  ferramenta  crucial  nos  processos  de  soluções  de  problemas.  A  Estatística  facilita  o  estabelecimento  de  conclusões  confiáveis  sobre  algum  fenômeno  que esteja sendo estudado (WERKEMA, 1995).  



É por meio da análise e interpretação dos dados estatísticos que é possível o  conhecimento  de  uma  realidade,  de  seus  problemas,  bem  como,  a  formulação de soluções apropriadas por meio de um planejamento objetivo  da ação, para além dos “achismos” e “casuismos” comuns. 



No  uso  diário  o  termo  “estatística”  refere‐se  a  fatos  numéricos.  Tenha  em  mente, entretanto, que estatística é bem diferente de matemática. Estatística  é, antes de qualquer coisa, um método científico que determina questões de  pesquisa;  projeta  estudos  e  experimentos;  coleta,  organiza,  resume  e  analisa  dados;  interpreta  resultados  e  esboça  conclusões.  Ou  seja,  utiliza‐se  dados  como  evidências  para  responder  a  interessantes  questões  sobre  o  mundo.  A  matemática só é utilizada para calcular a estatística e realizar algumas das análises, mais isso é apenas uma pequena parte  do  que  realmente  é  a  estatística.  Portanto,  a  estatística  mantém  com  a  matemática  uma  relação  de  dependência,  solicitando‐lhe auxílio, sem o qual não poderia desenvolver‐se. 



A  Estatística  é  uma  ciência  interdisciplinar,  ou  seja,  é  comum  a  duas  ou  mais  disciplinas  ou  ramos  de  conhecimento.  Assim, a Estatística é aplicada na Medicina, Administração, Engenharias, Economia, Contabilidade, Direito, Segurança do  Trabalho, Qualidade, Marketing entre outras áreas. Veja abaixo. 

Medicina.  Estudos  de  epidemiologia,  *Engenharia de Produção. Estudos de  Segurança  do  Trabalho.  Estudos  de  inter‐relações  dos  determinantes  da  freqüência  e  distribuição  de  doenças  populacionais  Contabilidade.  Estudos  das  informações financeiras das empresas  públicas e privadas. 

um  conjunto  de  dados  de  todas  as  acidentes  e  doenças,  suas  causas,  fases de um processo produtivo.  quantidade, parte atingida, setores, %  de afastamentos etc.  Finanças.  Estudos  de  uma  série  de  Economia.  Estudos  de  taxas  de  informações estatísticas para orientar  inflação,  índice  de  preços,  taxa  de  investimentos.  desemprego, futuro da economia. 

*Engenharia de Produção – A aplicação da Estatística na produção merece especial atenção. A atual ênfase na qualidade torna o controle da qualidade uma importante aplicação da estatística na área da produção. Usa‐se uma série de mapas  estatísticos  de  controle  de  qualidade  para  monitorar  o  resultado  (output)  de  um  processo  de  produção.  Suponha,  por  exemplo, que uma máquina preencha recipientes com 2 litros de determinado refrigerante. Periodicamente, um operador  do  setor  de  produção  seleciona  uma  quantidade  de  recipientes  e  verifica  a  exatidão,  ou  seja,  se  não  há  desvios.  A  Estatística também é usada na Engenharia de Produção para Estratificação, que consiste no agrupamento da informação  (dados) sob vários pontos de vista, de modo a focalizar a ação, considerando os fatores equipamento, tempo entre outros.  Exemplo: 

Roupas danificadas   em uma lavanderia 

Uanderson Rebula de Oliveira

Tipo de dano:  Tipo de roupa: 

Operador:  Marca do sabão: 

Máquina de lavar:  Máquina de secar: 

Estatística

- 11 UM POUCO DE HISTÓRIA E ATUALIDADE O termo “Estatística” provém da palavra “Estado” e foi utilizado originalmente  para  denominar  levantamentos  de  dados  (riquezas,  impostos,    nascimentos,  mortalidade,  batizados,  casamentos,  habitantes  etc.),  cuja  finalidade  era  orientar o Estado em suas decisões.    Segundo  Costa  (2005,  p.  5)  em  1085,  Guilherme  “O  Conquistador”,  ordenou  que  se  fizesse  um  levantamento  na  Inglaterra,  que  deveria  incluir  informações  sobre  terras,  proprietários,  uso  da  terra,  empregados,  animais  e  serviria,  também,  de  base  para  cálculo  de  impostos. Tal levantamento originou um volume intitulado “domesday book”.   No  século  XVIII  o  estudo  dos  dados  foi  adquirindo,  aos  poucos,  feição  verdadeiramente  científica.  A  palavra  Estatística  apareceu  pela  primeira  vez no século XVIII e foi sugerida pelo alemão Godofredo Achenwall (1719‐ 1772), onde determinou o seu objetivo e suas relações com as ciências.   Desde  essa  época,  a  Estatística  deixou  de  ser  a  simples  catalogação  de  dados  numéricos  coletivos  e  se  tornou o estudo de como chegar a conclusões sobre o todo, partindo da observação e análise de partes  desse todo. Essa é sua maior riqueza.  

Atualmente  a  sociedade  está  completamente  tomada  pelos  números.  Eles  aparecem  em  todos  os  lugares  para  onde  você  olha,  de  outdoors  mostrando  as  últimas  estatísticas  sobre  aborto,  passando  pelos  programas  de  esporte  que  discutem  as  chances  de  um  time  de  futebol  chegar  à  final  do  campeonato,  até  o  noticiário  da  noite,  com  reportagens  focadas  no  índice  de  criminalidade,  na  expectativa de vida de uma pessoa que não come alimentos saudáveis e no índice  de aprovação do presidente.   Em  um dia  comum,  você  pode  se deparar  com cinco, dez  ou,  até mesmo, vinte  diferentes estatísticas  (ou  até  muito  mais  em  um  dia  de  eleição).  Se  você  ler  todo  o  jornal  de  domingo,  irá  se  deparar  com  centenas  de  estatísticas em reportagens, propagandas e artigos sobre todo tipo de assunto: desde sopa (quanto em média uma  pessoa consome por ano?) até castanhas (quantas castanhas você precisa comer para aumentar seu QI?).  Nas  empresas  a  Estatística  desempenha  um  papel  cada  vez  mais  importante  para  os  Gerentes.  Esses  responsáveis pela tomada de decisão utilizam a estatística para:   Apresentar e descrever apropriadamente dados e informações sobre  a empresa;   Tirar conclusões sobre grandes populações, utilizando informações  coletadas a partir de amostras;   Realizar suposições confiáveis sobre a atividade da empresa;   Melhorar os processos da empresa.  A estatística é um instrumento eficiente para a compreensão e interpretação da realidade e não  deve ser subestimada. Realmente existem pesquisas feitas de forma incorreta e que, por isso, não  são confiáveis. Mas, em geral, quando um estudo estatístico é feito com critério, seus resultados  permitem  obter  conclusões  e  prever  tendências  sobre  fatos  e  fenômenos.  Um  estudo  bem  feito  não elimina o erro, mas limita‐o a uma margem, procurando torná‐la o menor possível. 

Uanderson Rebula de Oliveira

Estatística

- 12 1.2 FASES DO ESTUDO ESTATÍSTICO Um estudo estatístico confiável depende do planejamento e da correta execução das seguintes etapas: 

1. Definir o que será estudado e a natureza dos dados, como exemplo: ESTUDO

NATUREZA DOS DADOS

Acidentes do  Trabalho no Brasil 

     

Quantidade e período  Por regiões, estados ou municípios  Por atividade econômica  Por idade dos acidentados  Por parte do corpo atingida  Por causas dos acidentes etc. 

Peças danificadas na  linha A 

    

Tipo de peça   |  Tipo de defeito  Quantidade   Período e Turnos  Máquinas e Operadores  Matéria prima etc. 

Defina  com  clareza  os  objetivos  da  pesquisa, ou seja, o que se pretende  apurar,  que  tipo  de  problema  buscará detectar. 

2. Coletar dados Após definir o que será estudado e o estabelecimento do planejamento do trabalho (forma de coleta dos dados,  cronograma das atividades, custos envolvidos, levantamento das informações disponíveis), o passo seguinte é o  da  coleta  de  dados,  que  consiste  na  busca  ou  compilação  dos  dados,  componentes  do  fenômeno  a  ser  estudado. Nessa etapa recolhem‐se os dados tendo o cuidado de controlar a qualidade da informação.  O sucesso de uma pesquisa depende muito da qualidade dos dados recolhidos.  Podem ser por meio 

de Criação de Softwares, a exemplo da CAT; Uso de Softwares da empresa; Dados históricos  da empresa (físicos); Pesquisas com questionários etc. 3. Organizar e contar dados À procura de falhas e imperfeições, os dados devem ser cuidadosamente organizados e contados, a fim de não incorrermos  em erros grosseiros que possam influenciar nos resultados. No exemplo da “Estatística na prática”, após a coleta da quantidade  de  acidentes  por  meio  da  CAT,  organiza‐os  por  período,  regiões  etc.  Da  mesma  maneira,  se  você  usa  um  questionário  para coletar dados na empresa, organiza‐os da forma necessária à pesquisa, além da contagem a ser feita. 

4. Apresentação de dados 2.000 .000

Os dados devem ser  apresentados  sob  a  forma de tabelas ou  gráficos,  a  fim  de  tornar  mais  fácil  e  rápido  o  exame  daquilo  que  está  sendo estudado.

1.796.671

1.750 .000

Aprovação das NR’s

1.743.825

Involução da QUANTIDADE de ACIDENTES DO TRABALHO no Brasil - 1970 a 2005.

1.551.461 1.464.211

1.504. 723

1.500 .000 1.220. 111

1.178. 472

1. 207.859

1.250 .000

991.581

961. 575

1.000 .000 693. 572

750 .000

532.514 388.304 395. 455

500 .000

414.341

363. 868

340.251

393.071 399.077

465.700 491.711

250 .000 0 1970

1972

1974

19 76

1978

19 80

FONTE: Revista Proteção

1982

1 984

1986

1 988

1990

1992

Anos

1994

1996

199 8

2000

20 01

2002

20 03

2004

2 005

5. Análise dos dados e tomada de decisão Chegamos à fase mais complexa do processo estatístico, que consiste na análise dos dados. Por fim, a  partir  da  análise  realizada,  poderemos  chegar  a  uma  tomada  de  decisão.  Observe  o  estudo  “Estatística  na  prática”.  O  que  resultou  a  análise  dos  acidentes  no  Brasil,  no  período  de  1970  a  2005?    Veja  que  os  Ministérios  do  Trabalho,  Previdência  Social  e  da  Saúde  se  mobilizaram  para  resolverem essa questão de saúde pública, com diversas ações a serem implementadas no país. A  partir  dessa  discussão,  fica  claro  que  um  profissional  com  conhecimentos  de  Estatística  terá  maior  facilidade  em  identificar  um  problema  em  sua  área  de  atuação,  determinar  os  tipos  de  dados  que  irão contribuir para sua análise, coletar esses dados e a seguir estabelecer conclusões e determinar  um plano de ação para a solução do problema detectado. 

Uanderson Rebula de Oliveira

Estatística

- 13 1.3 VOCABULÁRIO BÁSICO DE ESTATÍSTICA  O  vocabulário  utilizado  em  estudos  estatísticos  teve  sua  origem  nos  primeiros  estudos  feitos  pela  humanidade  e  que  eram  relativos  à  demografia  (estudo  estatístico  das  populações).  Por  isso  a  Estatística  emprega  termos  próprios  dessa  área  de  conhecimento, mas com um sentido diferenciado. Assim, para dar prosseguimento, é de extrema importância destacar alguns  termos utilizados no jargão estatístico. 

VARIÁVEL – É o termo usado para aquilo que você está pesquisando, estudando, analisando.  , 



No  estudo  representado  no  gráfico  abaixo  a  variável  é  o  acidente  do  trabalho.  Utilizada  como  um  adjetivo  do  vocabulário do dia‐a‐dia, variável sugere que alguma coisa se modifica ou varia.   1.796.671 1.743.825

2.000.000 1.750.000

Involução da QUANTIDADE de ACIDENTES DO TRABALHO no Brasil - 1970 a 2005.

1.551.461 1.464.211

1.504.723

1.500.000 1.220.111

1.178.472

1.250.000

1.207.859

VARIÁVEL 991.581

961.575

1.000.000 693.572

750.000

532.514 388.304 395.455414.341 363.868

500.000

465.700 491.711 393.071 399.077 340.251

250.000 0 1970

1972

1974

1976

1978

FONTE: Revista Proteção

1980

1982

1984

1986

1988

1990

1992

1994

1996

1998

2000

2001

2002

2003

2004

2005

Anos

São exemplos de Variáveis Doenças, Sexo, Estaturas, Peso, Idade, Renda, Natalidade, Mortalidade, PIB, Inflação, Exportações brasileiras, Produção de café, Alimentação, Peças produzidas por hora, Paradas de produção no mês, Rotatividade de estoque por ano, Poluição, Clima na região sudeste, Consumo de energia no mês, Vendas mensais de uma empresa, Produção diária de automóveis etc.

EXEMPLO DE APLICAÇÃO: A associação dos moradores de um bairro queria traçar um perfil dos frequentadores de um parque ali situado.  Uma equipe de pesquisa elaborou questões a fim de reunir as informações procuradas. Numa manhã de quarta‐ feira,  6  pessoas  foram  entrevistadas  e  cada  uma  respondeu  a  questões  para  identificar  idade,  número  de  vezes  que freqüenta o parque por semana, estado civil, meio de transporte utilizado para chegar ao parque, tempo de  permanência no parque e renda familiar mensal. Os resultados são mostrados na tabela a seguir:  Variáveis

Cada um dos aspectos investigados — os quais permitirão fazer a análise desejada — é denominado variável. 

Uanderson Rebula de Oliveira

Estatística

- 14 TIPOS DE VARIÁVEIS Há,  pois,  uma  divisão  principal  para  as  variáveis  estatísticas,  que  consiste  em  considerá‐las  como  Variáveis  Quantitativas  (discretas ou contínuas) e Variáveis Qualitativas (nominal ou ordinal). Esta divisão é de facílima compreensão!  Inteiros

DISCRETA Números

Quando  as  variáveis  forem  em  números  inteiros, obtido por contagem:   0      1      2      3      4     55     77   987   etc. 

Ex.: Idade (anos), gols de futebol, etc

QUANTITATIVA Não inteiros

CONTÍNUA

Quando  as  variáveis  forem  em  números  não inteiros, assumem qualquer valor:   0,2       1,12      3,77      4,768       etc. 

Ex.: Altura (cm), peso (kg), tempo (hh:mm) VARIÁVEL Ordenável

ORDINAL Nomes

Quando é possível ordenas as categorias.  Pesquisa de alimentação:       [1] Ótimo     [2] Bom    [3] Regular    [4] ruim  Grau de instrução de funcionários de uma empresa     1º grau     2º grau     Superior    Mestrado     Doutorado 

QUALITATIVA Não é ordenável

NOMINAL

Quando não é possível ordenar as categorias.  Ex.:  sexo  (masculino  ou  feminino),  Cor  dos  olhos  (preto  ou  verde),  campo de estudo (Engenharia, Direito etc)  Não  é  possível  estabelecer  uma  ordem,  uma  gradação,  o  mais  ou  menos importante, prioritário etc. 

Então, os tipos de Variáveis da pesquisa do parque serão: Qualitativa nominal

Quantitativa discreta

Quantitativa contínua 

PARA LEITURA Se a dúvida persiste, você pode observar no quadro abaixo mais esclarecimentos sobre esses conceitos.  Resposta fornecida à pesquisa

Tipo de VARIÁVEL Quantitativa (Em números)

 Discreta (números inteiros) (contagem)

 Contínua (Números não inteiros) (medição) Qualitativa (nomes, atributos)

Será Quantitativa a variável para a qual se possa atribuir um valor numérico. Se a resposta fornecida à pesquisa estiver expressa  por um número, então a variável é quantitativa. Por exemplo: quantos livros você lê por ano? A resposta é um número? Então,  variável quantitativa. Quantas pessoas moram em sua casa? A resposta é um número? Então, novamente, variável quantitativa.   No caso do estudo “ACIDENTE DO TRABALHO, é uma variável quantitativa, pois estudamos a quantidade de acidentes no período  de 1970 a 2005 Variável  Quantitativa  Discreta  é  a  variável  quantitativa  que  assume  somente  números  inteiros.  Resulta,  geralmente,  de  contagem.  Esta  variável  não  pode  assumir  qualquer  valor,  dentro  de  um  intervalo  de  valores  de  resultados  possíveis.  Por  exemplo, se eu pergunto quantos irmãos você tem, a resposta jamais poderia ser “tenho 3,75 irmãos”, ou “tenho 4,8 irmãos”, ou  seja, a resposta não poderia assumir todos os valores de um intervalo! Este acima é o conceito formal de variável discreta! O  conceito  para  memorizar  é  o  seguinte:  aquela  variável  obtida  por  meio  de  uma  contagem.  Em  outras  palavras:  a  variável  discreta você conta!. Exemplos: quantas pessoas moram na sua casa? Quantos livros você tem? Quantos carros você tem? Se,  para responder à pergunta, você faz uma contagem, então está diante de uma variável quantitativa discreta.  Variável Quantitativa Contínua é aquela que pode assumir qualquer valor dentro de um intervalo de resultados possíveis. Se eu  pergunto quantos quilos você pesa, a resposta pode ser 65,35kg. Se eu pergunto qual a temperatura na cidade hoje, a resposta  pode  ser  27,35°C.  Para  facilitar  a  memorização,  basta  lembrar  que  a  variável  quantitativa  contínua  pode  ser  obtida  por  uma  medição,  ou  seja,  a  variável  contínua  você  mede!  Exemplos:  peso,  altura,  duração  de  tempo  para  resolução  de  uma  prova,  pressão, temperatura etc.  Se  a  pergunta  é  “qual  a  sua  cor  preferida?”,  logicamente  a  resposta  não  será  um  número,  daí  estaremos  tratando  de  uma  variável qualitativa, ou seja, aquela para a qual não se atribui um valor numérico. Exemplos: Sexo: masculino ou feminino 

Uanderson Rebula de Oliveira

Estatística

- 15 1.4 POPULAÇÃO E AMOSTRA  Quando você quer saber se a sopa ficou boa, o que você faz? Mexe a panela, retira um pouco com  uma colher e prova. Depois tira uma conclusão sobre todo o conteúdo da panela sem, na verdade,  ter provado tudo. Portanto, é possível ter uma idéia de como a sopa está sem ter que comer tudo.  Isso é o que se faz em estatística.  A estatística deixou de ser a simples catalogação de dados numéricos e se tornou o estudo de como  chegar  a  conclusões  sobre  o  todo  (população),  partindo  da  observação  e  análise  de  partes  desse  todo (amostra). Essa é sua maior riqueza. Assim, podemos conceituar população e amostra como: 

POPULAÇÃO É UM CONJUNTO DE TODOS OS ELEMENTOS EM ESTUDO.  AMOSTRA É UMA PARTE DA POPULAÇÃO (ou subconjunto). 

AMOSTRA (uma parte da população)

Podemos visualizar o conceito    de  população  e  amostra  na    figura ao lado.  Quando  pesquisamos  toda  a    população, damos o nome de  censo.   

  A  precisão  depende  do  tamanho    da  amostra,  e  quanto  maior  é  o  tamanho    amostral,    maior  será  a  precisão das informações.   

“n”

POPULAÇÃO (todos os elementos em estudo)

“N”

N é designado para População n é designado para Amostra

 Muitas vezes quando queremos fazer um estudo estatístico, não é possível analisar toda a população  envolvida com o fato que pretendemos investigar, como exemplo o sangue de uma pessoa ou a poluição  de um rio. É impossível o teste do todo. Há situações também em que é inviável o estudo da população,  por  exemplo,  a  pesquisa  com  todos  os  torcedores  em  um  estádio  de  futebol  durante  uma  partida.  Nesses  casos,  o  estatístico  recorre  a  uma  amostra  que,  basicamente,  constitui  uma  redução  da  população a dimensões menores, sem perda das características essenciais.   Os resultados fundamentados em uma amostra não serão exatamente os mesmos que você encontraria  se  estudasse  toda  a  população,  pois,  quando  você  retira  uma  amostra,  você  não  obtém  informações  a  respeito  de  todos  em  uma  dada  população.  Portanto,  é  importante  entender  que  os  resultados  da  amostra fornecem somente estimativas dos valores das características populacionais. Com métodos de  amostragens  apropriados,  os  resultados  da  amostra  produzirão  “boas”  estimativas  da  população,  ou  seja, um estudo bem feito não elimina o erro, mas limita‐o a uma margem, procurando torná‐la o menor  possível. Quando aprendemos estatística inferencial, também aprendemos técnicas para controlar esses  erros de amostragem.  4 razões para selecionar uma amostra O número de elementos em uma população é muito grande;  Demanda menos tempo do que selecionar todos os itens de uma população;  É menos dispendioso (caro) do que selecionar todos os itens de uma população;  Uma análise amostral é menos cansativa e mais prática do que uma análise da população inteira.  

Uanderson Rebula de Oliveira

Estatística

- 16 São exemplos de População e Amostra: MEDICINA.  Pretende‐se  estudar  o  efeito  de  um  novo  medicamento  para  curar  determinada  doença.  É  selecionado um grupo de 50 doentes, administrando‐se o novo medicamento a 10 desses doentes escolhidos ao  acaso e o medicamento habitual aos restantes.   População: Todos os 50 doentes com a doença que o medicamento a estudar pretende tratar.  Amostra: Os 10 doentes selecionados.  CONTROLE DE QUALIDADE. O Gerente de Produção de uma fábrica de parafusos pretende assegurar‐se de que  a  porcentagem  de  peças  defeituosas  não  excede  um  determinado  valor,  a  partir  do  qual  determinada  encomenda poderia ser rejeitada.   População: Todos os parafusos fabricados ou a fabricar, utilizando o mesmo processo.  Amostra: Parafusos escolhidos ao acaso entre os lotes produzidos.  ESTUDOS DE MERCADO. O gerente de uma fábrica de produtos desportivos pretende lançar uma nova linha de  esquis, pelo que encarrega uma empresa especialista em estudos de mercado de “estimar“ a porcentagem de  potenciais compradores desse produto.  População: conjunto de todos os praticantes de desportos de neve.  Amostra: conjunto de alguns praticantes inquiridos pela empresa.  SISTEMAS DE PRODUÇÃO. Um fabricante de pneus desenvolveu um novo tipo de pneu e quer saber o aumento  da  durabilidade  em  termos  de  kilometragem  em  relação  à  atual  linha  da  empresa.  Produz  diariamente  1000  pneus e selecionou 120 para testes.  População: 1000 pneus.  Amostra: 120 pneus. 

OUTROS EXEMPLOS DE AMOSTRAS:

Uanderson Rebula de Oliveira

Estatística

- 17 1.5 ESTATÍSTICA DESCRITIVA E ESTATÍSTICA INFERENCIAL  AMOSTRA (uma parte da população)

POPULAÇÃO (todos os elementos em estudo)

Estatística descritiva – É o ramo da estatística  que  envolve  a  organização,  o  resumo  e  a  representação  dos  dados  para  tomada  de  decisão.  Estatística Inferencial – É o ramo da estatística  que  envolve  o  uso  da  amostra  para  chegar  a  conclusões  sobre  a  população.  Uma  ferramenta  básica  no  estudo  da  estatística  inferencial é a probabilidade. 

Algumas ferramentas Estatística Inferencial: 

aplicadas

à

Probabilidades Uma Probabilidade é uma medida numérica que representa a chance de um evento ocorrer. Ex.:  Ao lançar um dado, qual a probabilidade de obter o valor 4? R = 1/6 = 16% 

Estimação, margem de erro e intervalo de confiança Suponha que o tempo médio que você leva para chegar ao trabalho de carro é de 35’, com uma margem de erro  de 5’ para mais ou para menos. A estimativa é de que o tempo médio gasto até  chegar  ao  trabalho  fica  em  algum  ponto  entre  30’  e  40’.  Esta  estimativa  é  um  intervalo de confiança, pois leva em consideração o fato de que os resultados da  amostra irão variar e dá uma indicação de uma variação esperada. 

A  margem  de  erro  é  uma  medida  de  quão  próximo  você  espera  que  seus resultados representem toda a  população  que  está  sendo  estudada.  Vários  fatores  influenciam  a  amplitude  de  um  intervalo de confiança, tais como o  tamanho amostral, a variabilidade da população e o quanto você espera obter de precisão. A maioria dos pesquisadores contenta‐se com 95%  de  confiança  em  seus  resultados.  Estar  95%  confiante  indica  que  se  você  coletar  muitas,  mas  muitas  amostras  e  calcular  o  intervalo  de  confiança para todas, 95% dessas amostras terão intervalos de confiança que abrangerão o alvo. 

Teste de hipótese Teste de hipótese é um procedimento estatístico em que os dados são coletados e medidos para comprovar uma  alegação feita sobre uma população. Por exemplo, se uma pizzaria alega entregar as pizzas dentro de 30’ a partir  do  pedido,  você  pode  testar  se  essa  alegação  é  verdadeira,  coletando  uma  amostra  aleatória  do  tempo  de  entrega durante um  determinado período de tempo e observar o tempo médio de entrega para essa amostra. 

Uanderson Rebula de Oliveira

Estatística

- 18          

                         

2 SÉRIES ESTATÍSTICAS

                                                         

Uanderson Rebula de Oliveira

Estatística

Prof. MSc. Uanderson Rébula de Oliveira

Uma mensagem do Prof. MSc Uanderson Rébula. CLIQUE NO VÍDEO

CLIQUE AQUI E INSCREVA-SE NO CURSO JÁ

Sumário

- 19 2.1 CONCEITOS E TIPOS DE SÉRIES  As  tabelas  e  gráficos  constituem  um  importante  instrumento  de  análise  e  interpretação  de  um  conjunto  de  dados.  Diariamente  é  possível  encontrar  tabelas  e  gráficos  nos  mais  variados  veículos  de  comunicação  (jornais,  revistas,  televisão,  Internet),  associadas  a  assuntos  diversos  do  nosso  dia‐a‐dia,  como  resultados  de  pesquisas  de  opinião,  saúde  e  desenvolvimento humano, economia, esportes, cidadania, etc. A importância das tabelas e dos gráficos está ligada sobretudo à  facilidade e rapidez na absorção e interpretação das informações por parte do leitor e também às inúmeras possibilidades de  ilustração e resumo dos dados apresentados. 

TABELAS São quadros que resumem um conjunto de dados. 

Título – conjunto de informações sobre o estudo.  Cabeçalho –especifica o conteúdo das colunas  Coluna indicadora –especifica o conteúdo das linhas  Coluna numérica ‐–especifica  a quantidade das linhas  Linhas – retas imaginárias de dados  Célula – espaço destinado a um só número  Rodapé – simplesmente a fonte dos dados

Tipos de Tabelas SÉRIE HISTÓRICA  Descreve  os  valores  da  variável,  discriminados  por  TEMPO  (anos,  meses, dias, horas, etc. 

SÉRIE GEOGRÁFICA  Descreve  os  valores  da  variável,  discriminados por REGIÕES  (países,  cidades, bairros, ruas, layout, etc) 

SÉRIE ESPECÍFICA  Descreve  os  valores  da  variável,  discriminados  por  temas  ESPECIFICOS. 

SÉRIE CONJUGADA  É utilizado quando temos a necessidade de apresentar em uma única  tabela  a  variação  de  valores  DE  MAIS  DE  UMA  VARIÁVEL,  isto  é,  fazer de forma conjugada de duas ou mais séries.  Esta série, por exemplo, é GEOGRÁFICA – HISTÓRICA 

Uanderson Rebula de Oliveira

Estatística

- 20 GRÁFICOS A  importância  dos  gráficos  está  ligada  à  facilidade  e  rapidez  na  absorção  e  interpretação  das  informações  e  também às inúmeras possibilidades de ilustração e resumo dos dados apresentados. Eis os mais usados:  Gráfico em Linha (para séries históricas) É a representação dos valores por meio de linhas. Usamos quando precisamos de uma informação rápida de um  valor ao longo do tempo.   ACIDENTES DO TRABALHO SÃO PAULO: 1989 ‐ 1994 10000 8658 Quantidade

8000

9578

7265 6325

6254

6000 5458 4000 2000 0 1989

1990

1991

1992

1993

1994

Anos

FONTE: Dados fictícios

ACIDENTES DO TRABALHO EM  SÃO PAULO: 1989 ‐ 1991 2500 São Paulo

Quantidade

2000

Guarulhos 1500

Campinas Osasco

1000

Santos

500 0 1989

FONTE: Dados fictícios

1990

1991

anos

Gráfico em Colunas É  a  representação  dos  valores  por  meio  de  retângulos,  dispostos  verticalmente.  Utiliza‐se  muito  quando  necessitamos saber a quantidade de valor.   QUANTIDADE DE ACIDENTES DO TRABALHO SÃO PAULO: 1989 ‐ 1994 12000 9578

Quantidade

10000 8000

8658 7265

6254

6325 5458

6000 4000 2000 0 1989

FONTE: Dados fictícios

Uanderson Rebula de Oliveira

1990

1991

1992

1993

1994

Anos

Estatística

- 21 -

Tipo

Gráfico em Barras É o mesmo conceito que o de Colunas, porém utiliza‐se sempre que os dizeres a serem inscritos são extensos.         QUANTIDADE DE ACIDENTES DO TRABALHO   EM SÃO PAULO ‐ POR TIPO ‐  1989   598 Corte     3578 Queda   Atrito 698   Perfuração 55        1396 Impacto   0 1000 2000 3000 4000   Quantidade   FONTE: Dados fictícios     Gráfico em Setores Este gráfico é construído com base em um círculo, e é empregado sempre que desejamos ressaltar a participação  de um dado no total, geralmente na forma de porcentagem.   

 

                   

ACIDENTES DO TRABALHO SÃO PAULO ‐ 1989 

FONTE: Dados fictícios

   

Gráfico Polar É  o  gráfico  ideal  para  representar  séries  temporais  cíclicas,  isto  é,  séries  temporais  que  apresentam  em  seu  desenvolvimento determinada periodicidade, por exemplo, o mês de janeiro a dezembro. 

 

ACIDENTES DO TRABALHO SÃO PAULO ‐ 1989 

 

FONTE: Dados fictícios

 

Uanderson Rebula de Oliveira

 

Estatística

- 22 Gráfico de Pareto É  um  gráfico  de  colunas  na  qual  a  altura  de  cada  barra  representa  os  dados,  porém  na  ordem  de  altura  decrescente,  com  a  coluna  mais  alta  posicionada  à  esquerda.  Tal  posicionamento  ajuda  a  enfatizar  dados  importantes e é frequentemente usado nos negócios.  Os cinco veículos mais vendidos  no Brasil em janeiro de 1995 

Os cinco veículos mais vendidos  no Brasil em janeiro de 1995

Veículo  Ômega  Monza  Gol  Corsa  Fusca  FONTE: dados fictícios 

Quantidade (milhões)

40

Quantidade  (milhões)  34  30  25  22  15 

34 30

30

25

22

20

15

10 0

Ômega FONTE: Dados fictícios

Monza

Gol

Corsa

Fusca

Veículos

Gráfico de Dispersão É usado para representar a relação entre duas variáveis quantitativas, por meio de pontos e linhas. Aprendemos a  utilizar esse gráfico quando estudamos “Correlação e Regressão”.  Investimentos versus vendas   no setor da empresa X  Anos  1999  2000  2001  2002 

Investimentos  500  1000  1500  2000 

Vendas   1000  2000  3000  4000 

FONTE: dados fictícios 

Gráfico Cartograma Este  gráfico  é  empregado  quando  o  objetivo  é  o  de  figurar  os  dados  estatísticos  diretamente  relacionados  com  áreas geográficas ou políticas (mapas), corpo humano entre outras figuras. 

Número de cada    Delegacia   

FONTE: SSP/SP 

Uanderson Rebula de Oliveira

Estatística

- 23 2.2 DISTRIBUIÇÃO DE FREQUÊNCIA  Frequência absoluta e Histograma Ao se trabalhar com grandes conjuntos de dados, em geral é útil organizá-los e resumi-los em uma tabela, chamada Distribuição de frequência. 



Na distribuição de frequência listamos todos os valores coletados, um em cada linha, marcam‐se as vezes em que eles  aparecem,  incluindo  as  repetições,  e  conta‐se  a  quantidade  de  ocorrências  de  cada  valor.  Por  este  motivo,  tabelas  que apresentam valores e suas ocorrências denominam‐se distribuição de freqüências.  O termo “freqüência” indica o número de vezes que um dado aparece numa observação estatística. 

EXEMPLO Um professor organizou os resultados obtidos em uma prova com 25 alunos da seguinte forma:      Notas dos 25 alunos       

4,0  4,0  4,0  4,0  4,0 

5,0  5,0  5,0  6,0  6,0 

7,0  7,0  7,0  8,0  8,0 

9,0  9,0  9,0  9,0  9,0 

9,0  9,0  9,0  9,0  9,0 

      Comentário 

Agora  ele  pode  fazer  uma  representação  gráfica  para  analisar  o  desempenho  da  turma.  Em  primeiro  lugar,  o  professor  pode  fazer  uma  tabulação dos dados, ou seja, organizá‐los de modo que a consulta a eles  seja  simplificada.  Então,  faremos  a  distribuição  de  freqüência  destas  notas, por meio da contagem de dados. 

       Distribuição de freqüência  

Nota 

 Freqüência, f 

4,0  5,0  6,0  7,0  8,0  9,0 

5  3  2  3  2  10  f=25 

(nº de alunos) 

 

Representamos a freqüência por um gráfico, chamado Histograma.      Comentário 

Número de alunos

Desempenho dos alunos na prova 10

10 8 6

3

2

3

2

0 4,0

5,0

6,0 7,0 Nota

8,0

Quando  os  dados  numéricos  são  organizados,  eles  geralmente  são  ordenados  do  menor  para  o  maior,  divididos  em  grupos  de  tamanho  razoável  e,  depois,  são  colocados  em  gráficos  para  que  se  examine  sua  forma,  ou  distribuição  (no  exemplo:  4,0  –  5,0  –  6,0  –  7,0  –  8,0  –  9,0).  Este  gráfico é chamado de Histograma.   Um  histograma  é  um  gráfico  de  colunas  juntas.  Em  um  histograma  não  existem espaços entre as colunas adjacentes, como ocorre em um gráfico  de  colunas.  No  exemplo,  a  escala  horizontal  (→)  representa  as  notas  e  a  escala vertical (↑) as freqüências. 

5

4 2

A frequência absoluta da nota 4,0 é 5.  A freqüência absoluta da nota 9,0 é 10. 

O  símbolo  grego    “sigma”  significa  “somatório”,  muito  usado  em  Estatística. Portanto, f=25 significa a soma de 5+3+2+3+2+10. 

        HISTOGRAMA            

12

    Comentário

Esta  forma  de  organizar  dados  é  conhecida  como  distribuição  de  frequência,  e  o  número  de  vezes  que  um  dado  aparece  é  chamado  de  frequência absoluta, representado por f. Exemplos:  

9,0

O histograma ao lado indica que cinco alunos tiraram a nota 4,0; três alunos tiraram  a nota 5,0; dois alunos tiraram a nota 6,0; três alunos tiraram a nota 7,0; dois alunos  tiraram 8,0 e dez alunos tiraram 9,0. 

ESTA FREQUÊNCIA QUE ACABAMOS DE ESTUDAR É DENOMINADA FREQUENCIA  ABSOLUTA (f), QUE É SIMPLESMENTE A CONTAGEM DOS DADOS.  

Em Estatística não trabalhamos somente com frequência absoluta (f), mas também com outros tipos de freqüências,  que são: freqüência relativa (fr), frequência absoluta acumulada (Fa) e frequência relativa acumulada (FRa). 



Estudaremos agora cada uma delas. 

Uanderson Rebula de Oliveira

Estatística

- 24 Frequência Relativa fr (%) Conceito. Representado por fr(%), significa a relação existente entre a frequência absoluta f e a soma das freqüências  f. É a  porcentagem (%) do número de vezes que cada dado aparece em relação ao total. 

EXEMPLO 5

     /25 * 100  =  20%.        freqüência relativa fr (%)      

Nota  4,0  5,0  6,0  7,0  8,0  9,0 

           Comentários aos cálculos f A frequência relativa fr(%) é obtida por  /f * 100, conforme abaixo: 



fr(%)  5  20%  3  12%  2  8%  3  12%  2  8%  10  40%  f=25  100% 

     

5

A fr(%) da nota 4,0 é    /25 * 100  =  20%. 3 A fr(%) da nota 5,0 é   /25 * 100   = 12% 2 A fr(%) da nota 6,0 é   /25 * 100   =  8% 3 A fr(%) da nota 7,0 é   /25 * 100   = 12% 2 A fr(%) da nota 8,0 é   /25 * 100  = 8% 10 A fr(%) da nota 9,0 é   /25 * 100 = 40%.

Frequência Absoluta Acumulada Fa Conceito. Representado por Fa, significa a soma das freqüências absolutas até o elemento analisado. 

EXEMPLO     Fa2=5+3 = 8       frequência absoluta acumulada (Fa)  

Nota  4,0  5,0  6,0  7,0  8,0  9,0 



fr(%)  5  20%  3  12%  2  8%  3  12%  2  8%  10  40%  f=25  100% 

       Comentários aos cálculos 

A frequência absoluta acumulada Fa é obtida conforme abaixo: 

Fa  5  8  10  13  15  25  ‐ 

     

A Fa da nota 4,0 é 5 (sempre repete a primeira).  A Fa das notas 4,0 e 5,0 é 5+3=8.  A Fa das notas 4,0, 5,0 e 6,0 é 5+3+2=10.  A Fa das notas 4,0, 5,0, 6,0 e 7,0 é 5+3+2+3=13.  A Fa das notas 4,0, 5,0, 6,0, 7,0 e 8,0 é 5+3+2+3+2=15.  A Fa das notas 4,0, 5,0, 6,0, 7,0, 8,0 e 9,0 é 5+3+2+3+2+10=25 

Frequência Relativa Acumulada FRa (%) Conceito. Representado por FRa (%), significa a soma das freqüências relativas fr(%) até o elemento analisado. 

EXEMPLO    20% + 12% = 32%     frequência relativa acumulada (FRa)         

Nota  4,0  5,0  6,0  7,0  8,0  9,0 

f  fr(%)  5  20%  3  12%  2  8%  3  12%  2  8%  10  40%  f=25  100% 

Fa  5  8  10  13  15  25  ‐ 

FRa(%)  20%  32%  40%  52%  60%  100%  ‐ 

   Comentários aos cálculos 

A frequência relativa acumulada FRa(%) é obtida conforme abaixo:       

A FRa(%) de 4,0 é 20% (sempre repete a primeira).  A FRa(%) de 4,0 e 5,0 é 20+12 = 32%  A FRa(%) de 4,0, 5,0 e 6,0 é 20+12+8 = 40%  A FRa(%) de 4,0, 5,0, 6,0 e 7,0 é 20+12+8+12 = 52%  A FRa(%) de 4,0, 5,0, 6,0, 7,0 e 8,0 é 20+12+8+12+8 = 60%  A FRa(%) de 4,0, 5,0, 6,0, 7,0, 8,0 e 9,0 é 20+12+8+12+8+40=100% 

NOTA IMPORTANTE SOBRE DISTRIBUIÇÃO DE FREQUÊNCIA:  Nota 



fr(%) 

f=25 

100% 

Uanderson Rebula de Oliveira

Fa  25  ‐ 

FRa(%)  100%  ‐ 

Para saber se o desenvolvimento da distribuição de freqüência por completo está  correto, os valores ao lado, em vermelho, deverão coincidir. 

Estatística

- 25 Agrupamento em Classes Em uma distribuição de frequência, ao se trabalhar com grandes conjuntos de dados e com valores dispersos, podemos agrupá-los em classes. 

Se  um  conjunto  de  dados  for  muito  disperso,  uma  representação  melhor  seria  através  do  agrupamento  dos  dados  com a construção de classes de frequência. Caso isso não ocorresse, a tabela ficaria muito extensa. Veja abaixo: 

EXEMPLO Um radar instalado na Dutra registrou a velocidade (em Km/h) de 40 veículos, indicadas abaixo:     Velocidade de 40 veículos (Km/h) 

70  71  73  76  80  81  83  86 

90  93  95  97  97  97  99  99 

100  102  103  105  105  109  109  109 

  110   123   115    123   115  123   115  123   117  124   117  124   121  128   121  128 

Distribuição de frequência 

Nota  70  71  73  76  80  81  83  86  90  93  95  97  99  100  102  103  105  109  110  115  117  121  123  124  128 



1  1  1  1  1  1  1  1  1  1  1  3  2  1  1  1  2  3  1  3  2  2  4  2  2  f=40 

É  fácil  ver  que  a  distribuição  de  frequências  diretamente  obtida  a  partir  desses  dados  é  dada uma tabela razoavelmente extensa. 

 

     Distribuição de frequência com classes 

Limite  inferior 

i  1  2  3  4  5  6 

Classes

Velocidade (Km/h) 



70   80  80   90    90   100     100   110     110   120     120   130 

4  4  8  8  6  10  f=40 

Limite  superior 

A  distribuição  em  ”classes”  é  como  se  fosse  uma  compressão  dos  dados.  Imagine  se  fizéssemos uma distribuição de frequência de todas velocidades (de 70 a 128). A tabela  ficaria imensa! Por este motivo existe a distribuição de frequência com classes. 

Como criar uma Distribuição de Freqüência com classes  1. Calcule a quantidade de classes (i), pela raiz da quantidade de dados. São  40 veículos. Então,  40 = 6,3        i = 6 classes. 2. Calcule a amplitude de classe (h) que é o tamanho da classe, sendo:  

Maior valor  – Menor valor      =    128 – 70  = 9,6         h=10              quantidade de classes (i)      6  Nota: o Maior valor (128) e o Menor valor (70) são obtidos da lista dos registros das  velocidades dos 40 veículos. 

3. Montar  as  classes  a  partir  do  Menor  valor  (70),  somando  com  a amplitude de classe (10) até que se chegue na 6ª classe, assim: i    1  2...  ...6 

Velocidade (Km/h)  70   +10    80  80   +10    90   120   +10   130 

TIPOS DE INTERVALOS DE CLASSE  Tipo 

Representação 

Dados do intervalo 

Aberto 

 70   80 

Fechado à esquerda 

 70  80    70  80    70   80 

70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80  70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80 

Fechado  Fechado à direita 

70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80  70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80 

No  Brasil  usa‐se  o  intervalo    (Resolução  866/66  do  IBGE).  Já  na  literatura  estrangeira  utiliza‐se comumente com intervalo fechado. 

CONCEITOS IMPORTANTES  LIMITES DE CLASSE ‐  São os valores extremos de cada classe. No exemplo 70  80,  temos que o limite inferior é 70 e o limite superior  80.   AMPLITUDE TOTAL DA DISTRIBUIÇÃO (AT) – É a diferença entre o limite superior da  última classe e o limite inferior da primeira classe, no exemplo 130 – 70 = 60.  AMPLITUDE AMOSTRAL  (AA) – É a diferença entre o valor máximo e o valor mínimo  da amostra, no exemplo 128 – 70 = 58. 

Uanderson Rebula de Oliveira

Estatística

- 26 Abaixo  vemos  as  distribuições  de  frequências  absoluta  f,  relativa  fr(%),  absoluta  acumulada  Fa  e  relativa  acumulada  FRa(%),  bem como o Histograma desta distribuição.    Distribuição de freqüência com classes f, fr(%), Fa e FRa (%) 



Fr(%) 

Fa 

FRa(%) 

4  4  8  8  6  10 

10%  10%  20%  20%  15%  25% 

4  8  16  24  30  40 

10%  20%  40%  60%  75%  100% 

              f=40 

Quantidade de veículos

i  Velocidade (Km/h)  1  70   80  2  80   90  3   90   100  4      100   110  5      110   120  6      120   130 

Resultados dos registros  de um radar

12

10

10 8

8

8 6

6 4

4

4

2 0

100% 

70         80        90         100       110        120       130  Velocidade (Km/h) 

OUTRAS REPRESENTAÇÕES GRÁFICAS DE UMA DISTRIBUIÇÃO DE FREQUÊNCIA  Polígono de frequência – É um gráfico em linha que representa os pontos centrais dos intervalos de classe.  Para construir este gráfico, você deve calcular o ponto central de classe (xi), que é o ponto que divide o intervalo de classe em  duas partes iguais. Por exemplo, a velocidade dos veículos da 1ª classe pode ser representada por  70 + 80  = 75Km/h        2  Velocidade (Km/h) 



xi 

70   80  80   90    90   100   100   110   110   120   120   130 

4  4  8  8  6  10 

75  85  95  105  115  125 

Resultados dos registros  de um radar

12 Quantidade de veículos

i  1  2  3  4  5  6 

Ponto central

 75Km/h

70   80

              f=40 

10 8 6 4 2

0              70  75   80   85   90    95  100  105  110  115

A construção de um polígono de frequências é muito simples. Primeiro,  construímos  um  histograma;  depois  marcamos  no  “telhado”  de  cada  coluna o ponto central e unimos sequencialmente esses pontos. 

120

 125  130

Velocidade (Km/h) 

 Ogiva  –    (pronuncia‐se  o’jiva).  Conhecida  também  por  polígono  de  frequência  acumulada.  É  um  gráfico  em  linha  que 

i  Velocidade (Km/h)  1  70   80  2  80   90  3   90   100  4      100   110  5      110   120  6      120   130 



Fa 

4  4  8  8  6  10 

4  8  16  24  30  40 

              f=40 

Quantidade de veículos

representa  as  freqüências  acumuladas  (Fa),  levantada  nos  pontos  correspondentes  aos  limites  superiores  dos  intervalos  de  classe. Para construí‐la, você deve elaborar o histograma de freqüência f em uma escala menor, considerando o último valor a  freqüência acumulada da última classe, no caso, 40. 

40 35 30 25 20 15 10 5 0

Resultados dos registros  de um radar

40  30 

24  16 

4

4  4

8  8

10

8

6

70          80           90          100         110         120         130  Velocidade (Km/h) 

Uanderson Rebula de Oliveira

Estatística

- 27 -

3 MEDIDAS RESUMO O que dizer se um professor quer saber sobre as notas dos 110 alunos de uma disciplina? Poderíamos, talvez,  utilizar  para  resposta  uma  tabela  com  as  frequências  das  notas.  Porém,  o  professor  gostaria  de  uma  resposta  rápida, que sintetize a informação que se tem, e não uma distribuição de frequência das notas coletadas.  Para resumir a quantidade de informação contida em um conjunto de dados, utilizamos, em estatística, medidas  que descrevem, POR MEIO DE UM SÓ NÚMERO, características desses dados. Veja exemplo abaixo.  NOTAS DE ESTATÍSTICA DE 110 ALUNOS DA ESCOLA A  5.6 

8.3 

4.5 

8.7 

3.9 



5.5 

7.9 

9.5 

10 

9.6 

6.6 

5.3 



9.5 

3.9 



5.6 



5.9 



8.9 



8.7 







6.7 

4.2 

6.5 

6.5 

4.6 

9.5 

5.3 

3.9 





8.8 



8.9 

7.1 

6.5 

3.9 

4.9 

9.4 

5.3 

9.5 



5.3 

7.5 

9.2 

9.8 

9.5 

5.9 

5.5 





8.3 

5.6 



6.1 

5.6 

4.9 

6.5 



9.6 

7.5 





4.5 

4.2 

8.9 

9.6 

9.8 



6.5 

7.9 





5.3 

7.3 





5.6 



9.8 



9.5 

3.6 



8.6 

4.2 

9.6 

8.9 

5.9 

4.2 



5.3 



2.8 

9.2 



9.8 

3.9 



9.5 

3.3 

8.4 

5.3 

4.5 

Para uma conclusão rápida, qual foi o desempenho desses alunos? Isto pode ser respondido com as medidas abaixo.  Medidas resumo 

Valor 

Média 

6,5 

Interpretação  Valor que representa o ponto de equilíbrio das notas (como uma gangorra). 

Mediana 

7,0 

50% dos alunos tiraram abaixo de 7,0. 

Moda 

9,0 

Nota que mais se repetiu. 

Desvio padrão ‐ DP 

2,3 

A maioria das notas está variando entre ±2,3 em torno da média 6,5 (4,2‐‐‐‐8,8) 

Coeficiente variação 

34% 

Há variação de 34% das notas em torno da média (complementa o DP). 

1º Quartil 

5,0 

25% dos alunos tiraram abaixo de 5,0. 

3º Quartil 

9,0 

75% dos alunos tiraram abaixo de 9,0. 

Através dessas informações é possível analisar o desempenho desses alunos. 

Uanderson Rebula de Oliveira

Estatística

- 28 3.1 MEDIDAS DE POSIÇÃO  São medidas que utilizamos para obter um  número que represente o valor central  de um conjunto de dados. As Medidas de  Tendência Central mais utilizadas são: Média, Mediana e Moda. 

MÉDIA MÉDIA SIMPLES - É uma medida que representa um valor típico ou normal num conjunto de dados.  A  média  simples  serve  como  um  “ponto  de  equilíbrio”  em  um  conjunto  de  dados  (como  o  ponto  de  apoio  de  uma  gangorra). Cada dado tem igual importância e peso. Sofre a influência de todos os dados. 

      A Média simples é obtida pela seguinte equação: 

x

 = x     →          soma dos valores dos dados    n      →              quantidade de dados 

A Média é representada por  (lê‐se “x barra”) 

x

EXEMPLO.  Supondo  que  uma  escola  adote  como  critério  de  aprovação  a  Média  7,0  e,  considerando  as  quatro  notas de João e Maria durante o ano, informe se foram aprovados. 

Notas de João:   3,5  |  6,0  |  9,5  |  9,0  | 

  n  

  4 

6.0

6.0 4.0

9.0

7,0

8.0 Notas

x  = x       3,5 + 6,0 + 9,5 + 9,0 

Média das notas de João  9.5

10.0

Média de João

3.5

2.0

x  = 7,0  →  aprovado

0.0 1º Bim 2º Bim Média 3º Bim 4º Bim Bimestres

MÉDIA PONDERADA. Semelhante a Média simples, porém, atribuindo-se a cada dado um peso que retrate a sua importância. 

O termo “ponderação” é sinônimo de peso, importância, relevância. Sugere, então, a atribuição de um peso a um determinado dado.  Em alguns casos, os valores variam em grau de importância, de modo que podemos querer ponderá‐los apropriadamente. É calculada  multiplicando‐se um peso por cada valor, fazendo com que alguns valores influenciem mais fortemente a média do que outros. 

A Média ponderada é obtida pela seguinte equação: 

xp

Vamos representar a  Média ponderada por 

= (x . p)      →      soma dos valores . pesos   p        →             soma    dos pesos 

xp

EXEMPLO Supondo que uma escola adote como critério de aprovação a Média 7,0, sendo que as provas bimestrais  são ponderadas  com pesos 1, 2, 3 e 4, respectivamente para o  1º bim, 2º bim, 3º bim e 4º bim. Considerando as  notas de João (na ordem bimestral crescente), informe se foi aprovado.  Média ponderada das notas de João 

Notas de João:  | 9,0  |   8,0   |  6,0  |  5,0 

x p = (x . p)            p 

xp

=   (9,0 . 1) + (8,0 . 2) + (6,0 . 3) + (5,0 . 4)  1+2+3+4 

x p = 6,3  →  reprovado Nota. Em uma média simples ele seria aprovado por 7,0. 

Notas e pesos

10,0 9,0

8,0

8,0

6,3

6,0

Média ponderada  5,0

6,0

4,0 2,0 1

2

1º Bim

2º Bim

3

4

0,0 Média 3º Bim Bimestres

4º Bim

A  atribuição  de  pesos  visa  fazer  com  que  certos  valores  tenham  mais  influência  no  resultado  do  que  outros.  Também  pode  ser  aplicado em cálculos de índices de inflação, atribuindo pesos para setor de vestuário, alimentação, etc.

Uanderson Rebula de Oliveira

Estatística

- 29 MÉDIA DE DISTRIBUIÇÃO DE FREQUÊNCIA – aplica-se quando não se tem a lista original dos dados Quando  trabalhamos  com  uma  distribuição  de  frequência,  não  sabemos  os  valores  exatos  que  caem  em  determinada  classe.  Para  tornar  possíveis  os  cálculos,  consideramos  que,  em  cada  classe,  todos  os  valores  amostrais sejam iguais ao ponto central de classe. Por exemplo, considere o intervalo de classe 70   80, com  uma frequência de 4. Admitimos que todos os 4 valores sejam iguais a 75 (o ponto central de classe). Com o total  de 75 repetido 4 vezes, temos um total de 75 x 4 = 300. Podemos, então, somar esses produtos obtidos de cada  classe para encontrar o total de todos os valores, os quais, então, dividimos pela quantidade de dados. 

É  importante salientar que a distribuição de frequência resulta em uma aproximação da média  porque não se baseia na lista original exata dos valores amostrais. 

CALCULANDO A MÉDIA DE DISTRIBUIÇÃO DE FREQUÊNCIA COM INTERVALO DE CLASSE  Ponto central de classe 



i  Velocidade (Km/h)  1  70   80  2  80   90  3    90   100  4     100   110  5     110   120  6     120   130 



f . x 

4  x            75     =   300  4  85  340  8  95  760  8  105  840  6  115  690  10  125  1250  ‐  f=40  (f.x) = 4180 

Procedimento:  1. 2. 3.

4.

Multiplicar  as  frequências  f  pelos  pontos  centrais de classe x e adicionar os produtos.  Somar as frequências f; Somar os produtos (f.x); Aplicar a fórmula abaixo:

x  =    (f.x)   →    4180  =  104,5 Km/h    f   

 40 

Média a partir de um HISTOGRAMA COM INTERVALOS DE CLASSE:  R e s u lta d o s  d o s  re g is tro s  d e  u m  ra d a r

Quantidade de veículos

12

10

10

(4*75)+(4*85) ...

8 6

4

4





2

8

8

Não é necessário montar tabela. Veja na figura ao lado  que  basta  multiplicar  a  freqüência  pelo  ponto  médio  e  adicionar  os  produtos.  Depois,  divida  pela  soma  das  freqüências. 

6

(4*75)+(4*85)+(8*95)+(8*105)+(6*115)+(10*125)          4+4+8+8+6+10      

4



0

 75              85             95            105           115           125  70              80                90              100              110             120              130  Velocidade (Km/h) 

x  =    (f.x)   →    4180  =  104,5 Km/h    f   

 40 

CALCULANDO A MÉDIA DE DISTRIBUIÇÃO DE FREQUÊNCIA SEM INTERVALO DE CLASSE  f 

Nota (x) 

f . x 

(nº de alunos) 

4,0  5,0  6,0  7,0  8,0  9,0 

  = 

  X           5 

3  2  3  2  10  f=25 

20  15  12  21  16  90  (f.x) = 174 

Média a partir de um HISTOGRAMA SEM INTERVALO DE CLASSE 

Número de  alunos

Desempenho dos alunos na prova 12 10 8 6 4 2 0

10

5 3

x  4.0

5.0

2

3

6.0 7.0 Nota

Uanderson Rebula de Oliveira

Quando a distribuição não tem agrupamento de classes,  consideraremos  as  frequências  como  sendo  os  pesos  dos elementos correspondentes: 

(5*4,0)+(3*5,0)+(2*6,0)+(3*7,0)+(2*8,0)+(10*9,0)          5+3+2+3+2+10      

x  =(f.x)   →    174  =  6,96    f   

  25 

Multiplique a freqüência por  “x”  (notas) e adicione os  produtos. Depois, divida pela soma das freqüências. 

(5*4,0)+(3*5,0)+(2*6,0)+(3*7,0)+(2*8,0)+(10*9,0)          5+3+2+3+2+10      

x  =(f.x)   →    174  =  6,96 2

8.0

   f   

  25 

9.0

Estatística

- 30 MEDIANA Medida que representa o valor que está no MEIO de um conjunto de dados. Uma desvantagem da média simples é que ela é sensível a qualquer valor, de modo que um valor  excepcional  (alto  ou  baixo)  pode  afetar  drasticamente  a  média.  A  Mediana  supera  grandemente  essa desvantagem, pois não é afetada por valores extremos, de tal modo que você pode utilizar a  mediana quando estão presentes valores extremos.

0%    

      50%         

        100%

Mediana 

Como achar a mediana de um conjunto de dados  



As posições dos termos  centrais são dadas por: 



    e     P2 = a que sucede P1

P1

1 2 9

P

   = 5     →      5ª posição 



0 1 2

Ex.: 12, 78, 69, 75, 80, 71, 82, 73, 785, 995.   n=10 

Ex.: 12, 78, 69, 75, 80, 71, 82, 73, 785.    n=9  

P1

1 2 n

P

A Posição do termo central é dada por:     

n 2

Para quantidade PAR de valores 

Para quantidade ÍMPAR de valores 

 = 5ª posição        e 

 P2 =  6ª posição 

A Md é o valor entre a 5º e 6ª posição. Ordenando os dados, temos: 

A Md é o valor da 5º posição. Ordenando os dados, temos: 

       12, 69, 71, 73,       75, 78      80, 82, 785, 995 

 12, 69, 71, 73,     75    ,78, 80, 82, 785 

   1ª      2ª       3ª       4ª                  5ª       6ª               7ª      8ª         9ª        10ª 

  1ª      2ª       3ª       4ª             5ª            6ª       7ª        8ª        9ª 

 = 76,5 

2



8 7

A Md é a Média dos dois termos centrais.  

5 7

d M

       Mediana

         Mediana 



MEDIANA de uma distribuição de frequência e Histograma SEM INTERVALOS DE CLASSE 

    → 

1 5 2 2



1 2 n

Da 1ª até a 4ª  4  Da 5ª até a 7ª  7  Da 8ª até a 9ª  9    Da 10ª até a 12ª   12  14   Da 13ª até a 14ª  25   Da 15ª até a 25ª 

4  3  2  3  2  11 

Desempenho dos alunos na prova

f = n = 25 → ímpar  

Observações 

P

4,0  5,0  6,0  7,0  8,0  9,0 

Fa 



=  13ª

Os  dados  já  estão  ordenados.  Então  a  Md é o valor da 13ª posição. Através da  Fa fica fácil identificar a posição central: 

Número de alunos



 Nota 

12 10 8 6 4 2 0

11

 Fa 13ª 4

3

4.0

           Então, a nota Md = 8,0  

3

2

5.0

6.0

2

7.0

8.0

9.0

Nota     Md = 8,0

f=25   

MEDIANA de uma distribuição de frequência e Histograma COM INTERVALOS DE CLASSE  n

Acumule Fa e ache a posição da Md 

i  1  2  3  4  5  6 

Velocidades 



Fa 

70   80  80   90     90   100   100   110   110   120   120   130 

4  4  8  8  6  10 

4  8  16  24  30  40 

n   2   ‐  Fa ant  * h  Md  l inf    f

 20ª 

l inf      =  limite inferior da classe mediana  Faant =  Fa da classe anterior  h       = amplitude do intervalo de classe  f        = freqüência da classe mediana 

     f=40  Resultados dos registros  de um radar Fa 

Quantidade de veículos

12

  10   8     6   4   2 0

Fa ant = 16  (4+4+8) 

20ª  8

4

10

8

  f = 8

40

Independente se n é ímpar ou par usa‐se a equação  /2.  Então,  /2  = 20 A  Md  está  na  20ª posição  e será algum valor da  classe mediana  100   110. A  partir da equação abaixo podemos achar uma aproximação da Md. 

6

4

  ← h →      10  l inf 

Resolvendo a equação, temos: 

 40   2   ‐  16 * 10 Md  100   8 Md = 105 Km/h, aproximadamente 

O total das frequências é 40.  Então, a Md será 40/2 = 20ª posição.  Observe  pelo  Fa  que  a  classe  mediana  é  100    110.  Também  é  possível  determinar l inf, Fa ant, h e f. Então, aplicando a equação, temos: 

 40   2   ‐  16 * 10 = 105 km/h, aproximadamente  Md  100   8

70       80          90        100        110       120      130  Velocidade (Km/h) 

Uanderson Rebula de Oliveira

Estatística

- 31 NOTA SOBRE A MEDIANA. A mediana é menos utilizada do que a média simples. A mediana pode ser aplicada quando existem valores  discrepantes em um conjunto de dados. Por exemplo, se a renda per capita de sete famílias fosse: $240; $370; $410; $520; $630; $680 e $820,  a mediana seria $520 e a média $524. Essas duas medidas poderiam representar este conjunto de dados. Mas se a renda de sete famílias fosse:  $240; $370; $410; $520; $630; $680 e $10.000, o valor da mediana manter‐se‐ia o mesmo, enquanto a média simples passaria a ser $1.836,  pois foi influenciada pelo valor discrepante ($10.000), que não é uma medida ideal para representar este conjunto de dados. A medida ideal  seria a mediana. Note que os valores discrepantes tem, pois, muito menor influência sobre a mediana do que sobre a média.   Em  relação  à  mediana  na  distribuição  de  freqüência  com  intervalos  de  classe,  admite‐se  que  as  velocidades  dos  veículos  se  distribuem  40 continuamente. Nesse caso, a mediana é a velocidade para o qual a metade da freqüência total  /2 = 20 fica situada abaixo e a outra acima dele. Ora, a soma das três primeiras freqüências de classe é 4+4+8 = 16. Então, para obter a 20ª velocidade desejada, são necessários mais 4  4 dos 8 casos existentes na 4ª classe. Como o quarto intervalo de classe, 100  110, a mediana situa‐se a 4/8 de distância, e é: 100 +  /8 (110 –  100)  = 105 km/h. Com a equação fica mais fácil encontrar a mediana pois não exige este tipo de raciocínio. 

MODA Medida que representa o valor que mais se REPETE em um conjunto de dados. Na linguagem coloquial, moda é algo que está em evidência, ou seja, algo que se vê bastante! Em estatística a moda é o valor que detém  o  maior  número  de  observações,  ou  seja,  o  valor  ou  valores  mais  frequentes  em  uma  série  de  dados.  A  moda  não  é  necessariamente única, ao contrário da média simples ou da mediana. É especialmente útil quando os valores ou observações não são numéricos, uma vez  que a média e a mediana podem não ser bem definidas. 

Exemplos: 

A série {1, 3, 5, 5, 5, 6, 6, 7} apresenta moda =  5, pois é o número que mais se repete.   A série {1, 3, 5, 5, 6, 6, 7, 8} apresenta duas modas (Bimodal): 5 e 6, pois são os que mais se repetem.   A série {1, 3, 5, 5, 6, 6, 7, 7} apresenta mais do que duas modas (Polimodal): 5, 6 e 7  A série {1, 3, 2, 5, 8, 7, 9, 10} não apresenta moda = amodal, pois nenhum número se repete. 

MODA de uma distribuição de freqüência e Histograma SEM INTERVALOS DE CLASSE  Notas dos alunos 

5,0  6,0  6,0  7,0  7,0  7,0  8,0 

8,0  9,0  9,0  9,0  9,0  9,0  9,0 

9,0  9,0  9,0  9,0 

A Moda será a  nota  9,0,  pois é  a  que  mais  se  repete  no  conjunto de dados 

Nota  4,0  5,0  6,0  7,0  8,0  9,0 

Desempenho dos alunos na prova

f  (nº de alunos)

5  3  2  3  2  10  f=25 

Número de alunos

4,0  4,0  4,0  4,0  4,0  5,0  5,0 

12

10

10

Moda Nota  9,0 

8 5

6

3

4 2

2

3

2

0 4,0

5,0

6,0 7,0 Nota

8,0

9,0

MODA de uma distribuição de frequência e Histograma COM INTERVALOS DE CLASSE  120+130 = 125Km/h  a) Moda Bruta

4  4  8  8  6  10 

            f=40 

A  Moda  Bruta  será  o  ponto  médio  de  classe  modal,  que  é  a  classe  que  apresenta  a  maior  frequência. Então:  Mo = 120 + 130   =   125Km/h       2 

Classe modal (tem maior frequência)

12 Quantidade de veículos

i  Velocidade (Km/h)  1  70   80  2  80   90  3   90   100  4      100   110  5      110   120  6      120   130 



        2  Resultados dos registros  de um radar

10 8

8

8 6

6 4

10

4

4

2 0

70        80          90        100        110       120      130 Velocidade (Km/h) 

NOTAS SOBRE A MODA. Na distribuição de freqüência em classes, o método utilizado para encontrar a moda por meio do ponto médio  de classe é chamado de moda bruta, e é apenas uma aproximação pois não foi baseada na lista original de dados. Existem outros métodos para  encontrar  a  Moda  de  uma  distribuição  de  freqüência  com  intervalo  de  classe:  Método  de  Czuber,  Método  de  King  e  Método  de  Pearson,  normalmente exigidos em concursos públicos. 

Uanderson Rebula de Oliveira

Estatística

- 32 -

b) Moda de czuber D1 Mo Czuber    *h D1  D 2

  limite inferior da classe modal D1 = f* – f(ant) D2 = f* – f(post) h = amplitude da classe modal

f* = frequência da classe modal f(ant) = frequência da classe anterior à classe modal f(post) = frequência da classe posterior à classe modal

Exemplo de cálculo da Moda de Czuber (pela Distribuição de Freqüência e pelo Histograma)  Registro das velocidades de veículos em uma rodovia i  Velocidade (Km/h)  f 

4  70   80  4  80   90  8   90   100  8      100   110  6      110   120  10      120   130          f=40 

  Classe modal       (tem maior frequência) 

Quantidade de veículos

1  2  3  4  5  6 

Resultados dos registros  de um radar

12 10

8

8

f(ant)

f(post)

6

6 4

8

f* 10

4

4

h*

2 0

70        80          90     100        110       120       130 

Classe modal

Velocidade (Km/h)  (10 - 6)

Mo  l 

D1 * h          →    D1  D 2

Mo  120  

4  * 10 4  10

(10 - 6)

Mo  122,85

(10 - 0)

Nota: Como não existe frequência simples da classe posterior à classe modal, então f‐ f(post) = 10 ‐ 0. 

- FUNDAMENTOS DA EQUAÇÃO DE CZUBER – Pode‐se  determinar  graficamente  a  posição  da  Moda  no  histograma  representativo  de  uma  distribuição  de  frequências.  O  método descrito abaixo é o equivalente geométrico da equação de Czuber. 

1º ‐ A partir dos vértices superiores do retângulo correspondente à classe modal (A e B), traçamos os seguimentos concorrentes  AC  e  BD,  ligando  cada  um  deles  ao  vértice  superior  adjacente  do  retângulo  correspondente  a  uma  classe  vizinha,  conforme  ilustrado na figura acima.  2º ‐ A partir da interseção dos segmentos AC e BD, baixamos uma perpendicular ao eixo horizontal, determinando o ponto que  indica a Moda, que é 122,85. 

Uanderson Rebula de Oliveira

Estatística

- 33 -

RELAÇÃO

ENTRE MÉDIA, MEDIANA E MODA.

  Pelo formato da distribuição dos dados, sempre existirá uma relação empírica (baseado na experiência) entre a  média,  mediana  e  a  moda.  Através  dessa  relação  podemos  saber,  aproximadamente,  onde  se  encontram  essas  medidas, sem necessidade de cálculos.    Quando a Média, Mediana e Moda se coincidem, chamamos a distribuição dos dados de Simétrica ou Normal.    SIMÉTRICA ou NORMAL ou FORMA DE SINO  Média = mediana = moda   

Resultados dos registros  de um radar

10 Quantidade de veículos

                       

8

7

6 4

4

Quando  a  distribuição  tem  a  forma  de  sino  (linha  tracejada),  a  quantidade  de  dados  vai  aumentando,  atinge  um  pico,  e  depois  Média diminui.  Se  dividíssemos  em  duas  metades,  a  partir  do  centro,  Mediana  note que os dois lados seriam iguais. O calculo abaixo confirma a  Moda  afirmativa  que  numa  distribuição  normal  a  média,  mediana  e  moda se coincidem.  

  Média = 70(3) + 80(4) + 90(7) + 100(4) + 110(3) = 90 Km/h  3+4+7+4+3    Mediana = 90 Km/h  90=90=90      Moda = 90 Km/h 

4

3

3

2 0         70            80           90            100          110          

Velocidade (Km/h) 

Quantidade de veículos

  Quando a Média, Mediana e Moda não se coincidem, chamamos a distribuição dos dados de assimétrica.    Assimétrica à esquerda (ou negativa)  Média  80   ≥ 80  Moda = 80 Km/h 

Média 

9 6

6 4 2

Neste  tipo  de  distribuição,  a  média,  mediana  e  a  moda  estarão  aproximadamente conforme gráfico ao lado. A média será maior  que a mediana e a moda.  O cálculo abaixo confirma a afirmativa: 

Resultados dos registros  de um radar

12 Quantidade de veículos

                       

3 2 1

0

        70           80              90           100        110        

 

Velocidade (Km/h) 

Uanderson Rebula de Oliveira

Estatística

- 34 -

3.2 MEDIDAS DE ORDENAMENTO (ou separatrizes). São medidas que "separam" o conjunto de dados em um certo número de partes iguais. As medidas usadas são a Mediana, o Quartil, Decil e o Percentil. A mediana já conhecemos. Estudaremos as outras medidas. 

QUARTIL (4 PARTES) 

 0%  

Divide  um  conjunto  de  dados  em  quatro  partes  iguais. Precisamos,  portanto,  de  3  quartis  (Q1  ,  Q2  e  Q3  )  para  dividir  a  série  em quatro partes iguais. 

    25%  

   50%  

   75%  

   100%   

|----------|---------|----------|---------|   Q1    

   Q2  

 

   Q3 

2º quartil   Coincide com a    mediana.

1º quartil   deixa 25% dos dados  abaixo dele.

3º quartil   deixa 75% dos dados  abaixo dele.

O  método  mais  prático  é  utilizar  o  princípio  do  cálculo  da  mediana  para  os  3  quartis.  Na  realidade  serão  calculadas  "3  medianas" em uma mesma série.    Determine Q1, Q2 e Q3. dos salários de 9 empregados da uma empresa, abaixo       1º               2º     Q1      3º                4º                         5º                             6º              7º      Q3         8º       9º 

$500     $550   |   $600      $650          $700                  $575       Q1 será a média da 2ª e 3ª posição   

$750      $800   |    $850      $900

    Q2   Md     

$825             Q3 será a média da 7ª e 8ª posição 

=

1 5 4 4

1º quartil Q1 =   

Fa 4 8 16  24 30 45 



= 11,5 ≈ 12ª posição = 95Km/h

Interpretação: 25% dos veículos tiveram velocidades abaixo de 95 Km/h 

← 3º quartil 

)   =(

1 5 4 4

3º quartil Q3 =  (

3

← 1º quartil 

1 n 4

f  Velocidades  85  4  90  4  95  8  100  8  105  6  110  15             f=45 

3

i  1  2  3  4  5  6 

1 4 n

QUARTIL de uma distribuição de freqüência SEM INTERVALOS DE CLASSE 

)  = 34,5 ≈ 35ª posição =110Km/h 

Interpretação: 75% dos veículos tiveram velocidades abaixo de 110 Km/h 

QUARTIL de uma distribuição de freqüência COM INTERVALOS DE CLASSE  Usa‐se  a  mesma  técnica  do  cálculo  da  mediana,  bastando  adaptar  a  sua  equação,  conforme mostrado abaixo.  

 por 

n 3 4

n 2

 por 

3º quartil 

n 4

n 2

1º quartil

Acumule Fa e ache as posições Q1 e Q3. 

i  Velocidades  f  1  4  70   80  2  4  80   90  3     90   100  8  4   100   110  8  5   110   120  6  6   120   130  10    f=40 

1º quartil Q1 

Fa 4  8  16  24  30  40 

← 1º quartil  ← 3º quartil 

3º quartil Q3 

Independente  se  n  é  ímpar  ou  par  usa‐se  somente  a  Independente  se  n  é  ímpar  ou  par  usa‐se  somente  a  n

40

3n

3*40

equação  /4.  Então,    /4   =  10.   O Q1  está na  10ª posição  equação    /4.    Então,  /4    =  30.      O  Q3  está  na  30ª e será algum valor da classe Q1  90  100. Logo:  posição e será algum valor da classe Q3  110  120. Logo: 

n   4   ‐  Fa ant * h   Q1  l inf   f l inf =  limite inferior da classe Q1  Faant =  Fa da classe anterior  H  = amplitude intervalo classe  f  = freqüência da classe Q1

Resolvendo a equação: 

 40   4   ‐  8 *10   Q1  90   8 Q1 = 92,5 Km/h 

Interpretação: aproximadamente 25% dos veículos registrados  tiveram velocidades abaixo de 92,5 Km/h 

Uanderson Rebula de Oliveira

 3n   4   ‐  Fa ant * h   Q3  l inf   f l inf =  limite inferior  classe Q3  Faant =  Fa da classe anterior  h = amplitude intervalo classe  f  = freqüência da classe Q3

Resolvendo a equação: 

3*40   4   ‐  24 *10   Q3  110   6 Q3 = 120 Km/h 

Interpretação: aproximadamente 75% dos veículos registrados  tiveram velocidades abaixo de 120 Km/h 

Estatística

- 35 DECIL (10 PARTES) 

 0%  

Divide um conjunto de dados em dez partes  iguais, como mostrado ao lado. 

   10%      20%     30%      40%      50%      60%        70%      80%     90%     100%   

|---|---|---|---|---|---|---|---|---|---|   D1   

DECIL de uma distribuição de freqüência  Usa‐se  a  mesma  técnica  do  cálculo  da  mediana,  bastando adaptar a sua equação, conforme abaixo:  n 0 D 1

n 2

 por 

D = decil procurado  n = quantidade de dados 

Acumule Fa e ache as posições. 

Ache o 3º Decil (D3) da distribuição de frequência  Dn

3*40

Usando  /10  temos  /10  =  12.    O  D3  está  na  12ª posição e será algum valor da classe D3  90  100: 

 Dn   10   ‐  Fa ant * h   D3  l inf   f l inf =  limite inferior da classe D4  Faant =  Fa da classe anterior  h  = amplitude intervalo classe  f  = freqüência da classe D4

Resolvendo a equação: 

3* 40   10   ‐  8 *10 D3  90    8 D3 = 95 Km/h 

Interpretação: aproximadamente 30% dos veículos registrados  tiveram velocidades abaixo de 95 Km/h 

  D2  

   D3  

  D4  

   D5   

  D6    

Coincide com a mediana.

i  Velocidades  f  1  4  70   80  2  4  80   90  3     90   100  8  4   100   110  8  5   110   120  6  6   120   130  10    f=40 

Fa  4  8  16  24  30  40 

   D7  

  D8   

  D9 

←     Classe D3 

←     Classe D8 

Ache o 8º Decil (D8) da distribuição de frequência  Dn

8*40

Usando a equação  /10 temos   /10 = 32.  O D8 está na 32ª posição e será algum valor da classe D8  120  130: 

 Dn   10   ‐  Fa ant * h   D8  l inf   f l inf =  limite inferior da classe D8  Faant =  Fa da classe anterior  h  = amplitude intervalo classe  f  = freqüência da classe D8

Resolvendo a equação: 

8*40   10   ‐  30 *10   D8  120   10 D8 = 122 Km/h 

Interpretação: aproximadamente 80% dos veículos registrados  tiveram velocidades abaixo de 122 Km/h. 

PERCENTIL (100 PARTES) 

 0%  5%   10% ...  17%  ... 33%  ...  42%          50%    57%    63%     70%       80%        93%       100%   

Divide  um  conjunto  de  dados  em  cem  partes iguais, como mostrado ao lado. 

|-|-|---|---|---|---|--|--|--|---|---|---|   P5     P1 0          P17            P33           P42           P50        P57        P63       P70            P80                P93 

PERCENTIL de uma distribuição de freqüência 

 por 

0 n 0 P 1

n 2

Usa‐se  a  mesma  técnica  do  cálculo  da  mediana,  bastando adaptar a sua equação, conforme abaixo.   P = percentil procurado  n = quantidade de dados 

Acumule Fa e ache as posições. 

Ache o 27º Percentil (P27) da distribuição de frequência  Pn

27*40

Usando  /100  temos   /100 = 10,8 ≈ 11.  O P27 está na 11ª posição e será algum valor da classe P27  90  100: 

 Pn   100  ‐  Fa ant * h   P27  l inf   f l inf =  limite inferior classe P27  Faant =  Fa da classe anterior  h  = amplitude intervalo classe  f  = freqüência da classe P27

Resolvendo a equação:  27* 40   100   ‐  8 * 10  P27  90    8

P27 = 93,5 Km/h 

Interpretação: aproximadamente 27% dos veículos registrados  tiveram velocidades abaixo de 93,5 Km/h. 

Uanderson Rebula de Oliveira

i  Velocidades  f  1  4  70   80  2  4  80   90  3     90   100  8  4   100   110  8  5   110   120  6  6   120   130  10    f=40 

Fa 4  8  16  24  30  40 

←   Classe P27  ←   Classe P72   

Ache o 72º Percentil (P72) da distribuição de frequência  Pn

72*40

Usando  /100  temos   /100 = 28,8 ≈ 29.  O P72 está na 29ª posição e será algum valor da classe P29  110  120: 

 Pn   100  ‐  Fa ant * h   P72  l inf   f l inf =  limite inferior classe P72  Faant =  Fa da classe anterior  h  = amplitude intervalo classe  f  = freqüência da classe P72

Resolvendo a equação:  72* 40   100   ‐  24 *10  D8  110    6

P72 = 118 Km/h 

Interpretação: aproximadamente 72% dos veículos registrados  tiveram velocidades abaixo de 118 Km/h. 

Estatística

- 36 3.3 MEDIDAS DE VARIAÇÃO (OU DISPERSÃO)  INTRODUÇÃO O termo “variação” sugere tornar vário ou diverso; alterar, diversificar; mudar; ser inconstante; não ser conforme,  discrepar. Na maioria dos casos existirá variação em um conjunto de dados, independente da característica que  você esteja medindo, pois nem todos os indivíduos terão o mesmo exato valor para todas as variáveis. 

EXEMPLO Durante  o  ano  letivo  a  Média  das  notas de  João,  Mário,  Maria  e  José  foi  7,0.  Se  considerarmos apenas  a  Média, não notaremos qualquer diferença entre os quatro alunos. No entanto, observa‐se que as notas são  muito diferentes em relação a Média. Há variação de notas e, no caso de João e José, é bem discrepante:  Média das notas de João  9,5

10,0 6,0

6,0 4,0

Média das notas de Mário 

7,0

8,0

3,5

2,0

7,0

7,0

7,0

4,0

0,0

Média das notas de Maria   6,5

6,5

7,0

1º Bim 2º Bim Média 3º Bim 4º Bim Bimestres

Pequena variação a  partir da Média 

7,5

Média das notas de José  9,5 10,0

7,5

6,0 4,0

7,0

8,0 Notas

Notas

7,0

6,0

1º Bim 2º Bim Média 3º Bim 4º Bim Bimestres  

8,0

7,0

2,0

0,0

10,0

Sem variação a  partir da Média 

10,0

9,0 Notas

Notas

8,0

Grande variação  a partir da Média 

8,5 6,0

6,0 4,0

Grande variação a  partir da Média 

4,0

2,0

2,0

0,0

0,0 1º Bim 2º Bim Média 3º Bim 4º Bim Bimestres

1º Bim 2º Bim Média 3º Bim 4º Bim Bimestres

Diante  deste  contexto,  podemos  questionar:  qual  o  aluno  é  mais  estável?  Qual  teve  melhor  desempenho?  Qual  o  aluno  com  pior  desempenho?  Notadamente  o  aluno  de  melhor  desempenho  é  o  Mário, pois todas as suas notas foram 7,0 e, portanto, não houve nenhuma variação em relação a Média.  Já José e João tiveram o pior desempenho pois suas notas estiveram muito distantes da Média.   Neste  capítulo  vamos  desenvolver  maneiras  específicas  de  realmente  medirmos  a  variação,  de  modo  que possamos usar números específicos em lugar de julgamento subjetivo.  Outros exemplos de variações:         

Os preços das casas variam de casa para casa, de ano para ano e de estado para estado.   Os preços de um produto variam de supermercado para supermercado.  O tempo que você leva para chegar ao trabalho varia dia a dia.  O tamanho das peças produzidas em uma empresa também varia.   A renda familiar varia de família para família, de país para país e de ano para ano.    Os resultados das partidas de futebol, de temporada para temporada, variam.   As notas que você tira nas provas, não diferente, também variam.   Seu saldo bancário também varia, podendo ser de hora em hora, dia a dia, mês a mês. 

Estudaremos  alguns tipos de medidas de variação: variância, desvio padrão e coeficiente de variação. 

Uanderson Rebula de Oliveira

Estatística

- 37 VARIÂNCIA E DESVIO PADRÃO (amostral) São medidas que representam “um valor médio de variação” em torno da média. O desvio padrão é um modo que se usa para medir a variabilidade entre os números em um conjunto de dados. Assim como o termo  sugere,  um  desvio  padrão  é  um  padrão  (ou  seja,  algo  típico)  de  desvio  (ou  distância)  da  média.  O  desvio  padrão  é  uma  estatística  importante,  mas,  frequentemente,  é  omitida  quando  os  resultados  são  relatados.  Sem  ele,  você  está  recebendo  apenas  uma  parte  da  história sobre os dados. Os estatísticos gostam de contar a história do homem que estava com um dos pés em um balde de água gelada e  o  outro  em  um  balde  de  água  fervendo.  O  homem  dizia  que,  na  média,  ele  estava  se  sentindo  ótimo!  Mas  imagine  a  variabilidade  da  temperatura para cada um dos pés. Agora, colocando os pés no chão, o preço médio de uma casa, por exemplo, não lhe diz nada sobre a  variedade de preços de casas com a qual você pode se deparar enquanto estiver procurando uma casa para comprar. A média dos salários  pode não representar o que realmente está se passando em sua empresa se os salários forem extremamente discrepantes. 

 Entendendo a Variância e o Desvio Padrão    Desvios em torno da Média das notas de João 

9,5

10,0  

7,0

Notas

8,0

  6,0  

   ‐3,5 

9,0

 + 2,5    +2,0

  ‐1,0  6,0

4,0   2,0

3,5

0,0 1º Bim

2º Bim

Média   Bimestres 

3º Bim

4º Bim

   Calculando a Variância e o Desvio Padrão   O  problema  da  soma  dos  desvios  foi  resolvido  pelos  matemáticos: basta elevar  cada desvio ao quadrado antes  de  somá‐los.  Um  número  ao  quadrado  é  sempre  positivo,  portanto a soma não se anula mais, e a média dos desvios ao  quadrado pode ser calculada: 

Notas  Média  Desvios   Desvios elevado ao  (x)  ( x )  (x ‐  x )  quadrado  (x ‐  x )2  3,5  7,0  ‐3,5        (‐3,5)2 =   12,25  6,0  7,0  ‐1,0        (‐1,0)2 =   1  9,5  7,0  2,5        (2,5)2   =   6,25  9,0  7,0  2,0        (2,0)2  =   4  n=4  ‐  =0     =23,5 

Variância amostral No gráfico percebemos que o desvio determina o quanto  Agora,  podemos  calcular  a  média  dos  quadrados  dos  2 cada  elemento  do  conjunto  de  dados  se  distancia  da  desvios, chamada de Variância, representada por S :  média 7,0. No 1º Bim. faltam ‐3,5 para se chegar a Média  2  23,5    =  7,8  S2 =  ( x  x)   → e  no  2º  Bim.  ‐1,0.  Já  nos  3º  e  4º  Bim.  temos  +2,5  e  +2,0      4 ‐ 1  acima  da  média,  respectivamente.  Transpondo  essas   n ‐ 1  informações para uma tabela, temos: 



Notas   (x)  3,5  6,0  9,5  9,0  ‐ 

   Média  ( x )  7,0  7,0  7,0  7,0  ‐ 

Desvios   (x ‐  x )  ‐3,5  ‐1,0  2,5  2,0  =0 

A divisão por n−1 aparece por fornecer um melhor resultado do  que a divisão por n. 

Desvio padrão amostral Mas,  se  elevamos  os  desvios  ao  quadrado  para  poder  calcular sua média, não seria correto que agora fizéssemos a  raiz  quadrada  dessa  média,  para  desfazer  a  potenciação?  Sim,  e  o  valor  dessa  raiz  é  chamado  Desvio  padrão,  representado por S: 

Desvio padrão   → 

 S =  7,8 = 2,8  

Interpretação:  O  desvio  padrão  indica  que  a  maioria  das  notas  de 

Perceba  que  a  soma  dos  desvios  é  igual  a  zero.  Esta  João  está  concentrada  dentro  dos  limites  de   2,8  em  torno  da  característica  não  é  exclusiva  deste  exemplo.  Ela  sempre  média 7,0. Ou seja, se concentrando entre 4,2 e 9,8:  ocorre e prende‐se ao fato de que a média é o ponto de    4,2      ‐2,8                   +2,8       9,8  equilíbrio em um conjunto de dados.   Como os desvios indicam o grau de variação dos valores  em  relação  à  média,  seria  interessante  poder  encontrar  um  único  número  que  o  representasse.  Algo  como  a  média  dos  desvios.  Mas,  para  fazer  essa  média,  precisamos somar os desvios e acabamos de ver que essa  soma é sempre igual a zero. 

  7,0    Equação da Variância e Desvio padrão Podemos concluir, então, o uso das equações: 

      da Variância 

do Desvio padrão 

 

S2 =   ( x  x )  

2

S = 

S2

 n ‐ 1 

Uanderson Rebula de Oliveira

Estatística

- 38 Calculando a Variância e o Desvio padrão das notas de Maria, José e Mário – passo a passo.  Notas de Maria:           6,5   6,5   7,5   7,5  1º Calcular a Média   

             x   x  

S2 =  

 ( x  x)

  2

 

S = 

n 1

n  

3º Calcular o Desvio padrão 

2º Calcular a Variância   

S2

 

x = 6,5+6,5+7,5+7,5 = 7,0                       4 

S2 = (6,5 – 7,0)2 + (6,5 – 7,0)2 + (7,5 – 7,0)2 + (7,5 – 7,0)2  =  0,33  4 – 1 

  →    

0 , 33

 

S = 0,5 

  6,5      ‐0,5                       +0,5       7,5 

Interpretação: O resultado indica que a maioria das notas de Maria  está concentrada dentro dos limites de   0,5 em torno da Média  7,0. Ou seja, se concentrando entre 6,5 e 7,5. 

  7,0 

Notas de José:           4,0   9,5    8,5   6,0  1º Calcular a Média   

             x   x  

S2 =  

 ( x  x)

  2

 

S = 

n 1

n  

3º Calcular o Desvio padrão 

2º Calcular a Variância   

 

x = 4,0+9,5+8,5+6,5 = 7,0                       4 

S2 = (4,0 – 7,0)2 +  (9,5 – 7,0)2 + (8,5 – 7,0)2 + (6,0 – 7,0)2  = 6,16                                                      4 ‐ 1 

S2

  →    

6 ,16

 

S = 2,5 

  4,5      ‐2,5                       +2,5       9,5 

Interpretação: O resultado indica que a maioria das notas de Maria  está concentrada dentro dos limites de   2,5 em torno da Média  7,0. Ou seja, se concentrando entre 4,5 e 9,5. 

  7,0 

Notas de Mário:           7,0   7,0    7,0   7,0  1º Calcular a Média   

             x   x  

S2 =  

 ( x  x)

  2

 

S = 

n 1

n  

3º Calcular o Desvio padrão 

2º Calcular a Variância   

S2

  →   S = 0 

 

x = 7,0+7,0+7,0+7,0 = 7,0                       4 

S2 = (7,0 – 7,0)2 +  (7,0 – 7,0)2 + (7,0 – 7,0)2 + (7,0 – 7,0)2  =  0                                                      4 ‐ 1 

O  resultado  indica  que  todas  as  notas  de  Mário  estão  dentro  dos  limites  de  concentrando exatamente na média 7,0. Portanto, sem variação.   

 0  em  torno  da  Média  7,0.  Ou  seja,  se 

NOTAS SOBRE O DESVIO PADRÃO. O  desvio  padrão  é  desvios sempre  um  valor  que  está  na  mesma  unidade  dos  dados  originais.  Um desvio padrão pequeno, basicamente, significa que os valores do  conjunto  de  dados  estão,  na  média,  próximos  do  centro  desse  conjunto,  enquanto  um  desvio  padrão  grande  significa  que  os  valores  do  conjunto  de  dados  estão,  na  média,  mais  afastados  do  média centro. Então, quanto mais espalhados ou dispersos forem os dados,  maior  será  o  desvio  padrão  e,  quanto  mais  concentrados  ou  homogêneos  forem  os  dados,  menor  será  o  desvio  padrão.  Se  os  Desvio padrão valores  forem  iguais,  ou  seja,  sem  variação,  o  desvio  padrão  será  zero.     Um  desvio  padrão  pequeno  pode  ser  um  bom  objetivo  em  determinadas  situações,  onde  os  resultados  são  restritos,  como  exemplo,  na  produção  e  no  controle  de  qualidade  de  uma  indústria.  Uma  determinada peça de carro que deve ter centímetros de diâmetro para encaixar perfeitamente não pode apresentar um desvio padrão grande,  nesse caso, significaria que acabariam sendo jogadas fora, pois ou não se encaixariam adequadamente ou os carros teriam problemas.    

Observe que o desvio padrão das notas de João indica que estão concentradas dentro dos limites de   2,8 em torno da média 7,0. Ou seja, se  concentrando entre 4,2 e 9,8.  Isto representa um desvio padrão grande.

Uanderson Rebula de Oliveira

Estatística

- 39 COEFICIENTE DE VARIAÇÃO - CV É a medida relativa de variação que é sempre expressa sob a forma de porcentagem (%). Em  algumas  situações,  podemos  estar  interessados  em  uma  estatística  que  indique  qual  é  o  tamanho  do  desvio  padrão  em  relação  à  média. A melhor forma de representá‐la é através do coeficiente de variação por ser expressa na forma de porcentagem. 

O  coeficiente  de  variação,  representado  Exemplo: Considerando a Média 7,0 de João com Desvio padrão de 2,8,  por Cv, é calculado da seguinte maneira:  temos: 

Cv =  S  x 100       Cv =   2,8  x  100   →    40%    7,0  x

Cv =     S   x 100            x

O  resultado  indica  que  a  Média  7,0  de  João  teve  um  Desvio  padrão  em  torno de 40%. 

Ou seja:    Cv = Desvio padrão  x 100     Média 

Fazendo a Distribuição de Variabilidade das notas de João, Maria, José e Mário, temos:  Desvio padrão (S)  Cv (%)  Cálculo do Cv (%)  Assim,  podemos  concluir  que  o  Alunos     Média ( x )     2,8 desempenho dos alunos será:  2,8  João  7,0  40%  → /7,0 x 100  1º ‐ Mário     0,5 0,5  Maria  7,0  7%  → /7,0 x 100  2º ‐ Maria     2,5 2,5  José  7,0  36%  → /7,0 x 100  3º ‐ José  0  4º ‐ João  Mário  7,0  0%  ‐  Interpretação do Cv: Cv