Análise de componentes principais (PCA)

Redução de dados

•  Sumarizar os dados que contém muitas variáveis (p) por um conjunto menor de (k) variáveis compostas derivadas a partir do conjunto original. p

n

A

k

n

X

Data Reduction •  Variação “residual” são informações contidas em A que não estão presentes em X. •  Compromisso entre: – redução do tamanho, representação mais compacta – supersimplificação: perda de informação relevante.

Análise de componentes principais (PCA)

•  Provavelmente o método multivariado mais usado e conhecido de redução de dados •  Inventado por Pearson (1901) e Hotelling (1933)

Principal Component Analysis (PCA)

•  usa uma conjunto de dados representado por uma matriz de n registros por p atributos, que podem estar correlacionados, e sumariza esse conjunto por eixos não correlacionados (componentes principais) que são uma combinação linear das p variáveis originais •  as primeiras k componentes contém a maior quantidade de variação dos dados

Raciocínio geométrico da PCA

•  Objetos são representados por uma nuvem de n pontos em um espaço multidimensional, com um eixo para cada uma dos p atributos •  o centroide dos pontos é definido pela média de cada atributo •  a variância de cada atributo é média dos quadrados da diferença dos n pontos com relação a média de cada atributo n

2 1 Vi = X im − X i ) ( ∑ n −1 m =1

Raciocínio geométrico da PCA •  Grau com que cada variável é linearmente correlacionado é representado pela sua covariância.

Covariance of variables i and j Sum over all n objects

Value of Mean of variable i variable i in object m

Value of variable j in object m

Mean of variable j

Interpretação geométrica da PCA •  O objetivo da PCA é rotacionar rigidamente os eixos desse espaço pdimensional para nova posições (eixos principais) que tem a seguinte propriedade: – Ordenado de tal maneira que o eixo principal 1 tem a maior variância, o eixo 2 tem a próxima maior variância, .... , e o último eixo tem a menor variância – Covariância entre cada par de eixos é zero (os eixos principais não são correlacionados).

2D Example of PCA

•  variáveis X1 and X2 tem covariância positiva e cada uma delas têm variância similar.

Os dados são centralizados

•  Cada variável é ajustada para ter média zero (subtraindo a média para cada valor).

Componentes principais são calculadas

•  PC 1 tem a maior variância possível (9.88) •  PC 2 tem variância de 3.03 •  PC 1 e PC 2 tem covariância zero.

A medida dedissimilaridade usada na PCA é a distância euclidiana •  PCA usa a distância euclidiana calculada a partir dos p atributos como uma medida de dissimilaridade entre os n objetos •  PCA calcula as k melhores possíveis dimensões (k < p) representandos a distância euclidiana entre os objetos

Generalização para p-dimensões •  Na prática, PCA não é usada com somente 2 variables •  A algebra para encontrar os eixos pode ser facilmente extendida para p variáveis •  PC 1 é a direção de maior variação na nuvem p-dimensional de pontos •  PC 2 está na direção da próxima maior variância, condiciodicionada a zero covariânciancia com PC 1.

Generalização para p-dimensões •  PC 3 está na direção da próxima maior covariância, condidionada com zero covariância entre PC 1 e PC 2 •  e assim por diante... até PC p

•  cada eixo principal é uma combinação linear das variáveis originais •  PCj = ai1Y1 + ai2Y2 + … ainYn •  aij’s são os coeficiente para o fator i, multiplicado pela dimensão da variável j PC 1

PC 2

•  os PC eixos são rotações rígidas das variáveis originais •  PC 1 é simultaneamente a direção de maior variâcia e simultaneamente melhor reta “ajustada” que minimiza a distância média entre os pontos e PC1 PC 1

PC 2

Generalização para p-dimensões •  se tomarmos as primeiras k components, eles definem um hiperplano k-dimensional que “melhor se ajusta” à nuvem de pontos •  Da variância total dos p atributos: –  PCs 1 até k representam a proporção máximo possivel de variância que pode ser mostrada em k dimensões

Covariancia vs Correlação •  usar covariância entre variáveis somente faz sentido se elas estão representadas na mesma unidade •  Mesmo assim, variáveis com alta variância vão dominar as componentes principais •  Esses problemas são geralmente contornados normalizando os atributos Média de i Desvio padrão de i

Covariance vs Correlation •  covariancias entre variáveis normalizadas são correlações correlações •  Depois da normalização, cada variável tem variância 1 •  Correlações também podem ser calculadas a paritr de variâncias e covariâncias: Correlation between variables i and j

Variance of variable i

Covariance of variables i and j Variance of variable j

Algebra do PCA

•  O primeiro passo é calcular a matriz de produto vetorial de variâncias e covariâncias (ou correlações) entre cada par dos p atributos •  Matriz quadrada e assimétrica •  Diagonais são covariâncias, fora, covariâncias. X1

X2

X1

6.6707

3.4170

X2

3.4170

6.2384

Variance-covariance Matrix

X1

X2

X1

1.0000

0.5297

X2

0.5297

1.0000

Correlation Matrix

Algebra da PCA

•  Em notação matricial:

•  onde X é a matriz n x p de dados, com cada variável centralizada X1

X2

X1

6.6707

3.4170

X2

3.4170

6.2384

Variance-covariance Matrix

X1

X2

X1

1.0000

0.5297

X2

0.5297

1.0000

Correlation Matrix

Manipulação de Matrizes •  Transposição: inverte linhas e colunas

X =

10 0 4 7 1 2

•  Multiplica as matrizes

X’ =

10 7 0 1 4 2

Algebra do PCA •  Soma dos elementos diagonais da matriz de variância-covariância é chamado traço •  Ele representaa variância total dos dados •  É a distância média quadrada entre cada ponto e o centro no espaço p-dimensional. X1

X2

X1

6.6707

3.4170

X2

3.4170

6.2384

Trace = 12.9091

X1

X2

X1

1.0000

0.5297

X2

0.5297

1.0000

Trace = 2.0000

Algebra do PCA

•  Encontrar os eixos principais envolve encontrar os auto-vetores da matriz de produto vetorial (S) •  The auto-valores de S são soluções (λ) da equação característica

Algebra do PCA

•  os auto-valores, λ1, λ2, ... λp correspondem à variância representada em cada componete principal •  A soma de todos os p auto-valores é igual ao traço de S. X1

X2

X1

6.6707

3.4170

X2

3.4170

6.2384

Trace = 12.9091

λ1 = 9.8783 λ2 = 3.0308 Note: λ1+λ2 =12.9091

Algebra do PCA

•  Cada auto-vetor consiste nos p valores que representam a contribuição de cada atributo para a componente principal •  Autovetores são não correlacionaods (ortogonal) –  Seus produtos-internos são zero.

Auto-vetores u1

u2

X1

0.7291

-0.6844

X2

0.6844

0.7291

0.7291*(-0.6844) + 0.6844*0.7291 = 0

Algebra do PCA

•  As coordenadas de cada objeto i na kesimo eixo principal, chamada de escores na PC k, são computadas como

•  one Z é a matriz n x k de PC escores, X é a n x p matriz centralizada de daos e U é a p x k matriz de autovetores.

Algebra da PCA

•  variancia dos scores em cada PC é proporcional ao auto-valor correspondente para aquele eixo •  O autovalor representa a variância mostrada (“explicada” or “extraida”) pelo eixo k •  A soma dos primeiros k autovalores é proporcional ao total de variância explicada pelas primeiras k-dimensões da transformação

λ1 = 9.8783

λ2 = 3.0308

Trace = 12.9091

PC 1 mostra (“explica”) 9.8783/12.9091 = 76.5% of the total variance

Algebra da PCA •  A matriz do produto vetorial calculada usando as p componentes principais tem uma forma simples: – Todos os elementos for a da diagonal tem valores zero – A diagonal contém os auto-valores. PC1

PC2

PC1

9.8783

0.0000

PC2

0.0000

3.0308

Variance-covariance Matrix of the PC axes