• Sumarizar os dados que contém muitas variáveis (p) por um conjunto menor de (k) variáveis compostas derivadas a partir do conjunto original. p
n
A
k
n
X
Data Reduction • Variação “residual” são informações contidas em A que não estão presentes em X. • Compromisso entre: – redução do tamanho, representação mais compacta – supersimplificação: perda de informação relevante.
Análise de componentes principais (PCA)
• Provavelmente o método multivariado mais usado e conhecido de redução de dados • Inventado por Pearson (1901) e Hotelling (1933)
Principal Component Analysis (PCA)
• usa uma conjunto de dados representado por uma matriz de n registros por p atributos, que podem estar correlacionados, e sumariza esse conjunto por eixos não correlacionados (componentes principais) que são uma combinação linear das p variáveis originais • as primeiras k componentes contém a maior quantidade de variação dos dados
Raciocínio geométrico da PCA
• Objetos são representados por uma nuvem de n pontos em um espaço multidimensional, com um eixo para cada uma dos p atributos • o centroide dos pontos é definido pela média de cada atributo • a variância de cada atributo é média dos quadrados da diferença dos n pontos com relação a média de cada atributo n
2 1 Vi = X im − X i ) ( ∑ n −1 m =1
Raciocínio geométrico da PCA • Grau com que cada variável é linearmente correlacionado é representado pela sua covariância.
Covariance of variables i and j Sum over all n objects
Value of Mean of variable i variable i in object m
Value of variable j in object m
Mean of variable j
Interpretação geométrica da PCA • O objetivo da PCA é rotacionar rigidamente os eixos desse espaço pdimensional para nova posições (eixos principais) que tem a seguinte propriedade: – Ordenado de tal maneira que o eixo principal 1 tem a maior variância, o eixo 2 tem a próxima maior variância, .... , e o último eixo tem a menor variância – Covariância entre cada par de eixos é zero (os eixos principais não são correlacionados).
2D Example of PCA
• variáveis X1 and X2 tem covariância positiva e cada uma delas têm variância similar.
Os dados são centralizados
• Cada variável é ajustada para ter média zero (subtraindo a média para cada valor).
Componentes principais são calculadas
• PC 1 tem a maior variância possível (9.88) • PC 2 tem variância de 3.03 • PC 1 e PC 2 tem covariância zero.
A medida dedissimilaridade usada na PCA é a distância euclidiana • PCA usa a distância euclidiana calculada a partir dos p atributos como uma medida de dissimilaridade entre os n objetos • PCA calcula as k melhores possíveis dimensões (k < p) representandos a distância euclidiana entre os objetos
Generalização para p-dimensões • Na prática, PCA não é usada com somente 2 variables • A algebra para encontrar os eixos pode ser facilmente extendida para p variáveis • PC 1 é a direção de maior variação na nuvem p-dimensional de pontos • PC 2 está na direção da próxima maior variância, condiciodicionada a zero covariânciancia com PC 1.
Generalização para p-dimensões • PC 3 está na direção da próxima maior covariância, condidionada com zero covariância entre PC 1 e PC 2 • e assim por diante... até PC p
• cada eixo principal é uma combinação linear das variáveis originais • PCj = ai1Y1 + ai2Y2 + … ainYn • aij’s são os coeficiente para o fator i, multiplicado pela dimensão da variável j PC 1
PC 2
• os PC eixos são rotações rígidas das variáveis originais • PC 1 é simultaneamente a direção de maior variâcia e simultaneamente melhor reta “ajustada” que minimiza a distância média entre os pontos e PC1 PC 1
PC 2
Generalização para p-dimensões • se tomarmos as primeiras k components, eles definem um hiperplano k-dimensional que “melhor se ajusta” à nuvem de pontos • Da variância total dos p atributos: – PCs 1 até k representam a proporção máximo possivel de variância que pode ser mostrada em k dimensões
Covariancia vs Correlação • usar covariância entre variáveis somente faz sentido se elas estão representadas na mesma unidade • Mesmo assim, variáveis com alta variância vão dominar as componentes principais • Esses problemas são geralmente contornados normalizando os atributos Média de i Desvio padrão de i
Covariance vs Correlation • covariancias entre variáveis normalizadas são correlações correlações • Depois da normalização, cada variável tem variância 1 • Correlações também podem ser calculadas a paritr de variâncias e covariâncias: Correlation between variables i and j
Variance of variable i
Covariance of variables i and j Variance of variable j
Algebra do PCA
• O primeiro passo é calcular a matriz de produto vetorial de variâncias e covariâncias (ou correlações) entre cada par dos p atributos • Matriz quadrada e assimétrica • Diagonais são covariâncias, fora, covariâncias. X1
X2
X1
6.6707
3.4170
X2
3.4170
6.2384
Variance-covariance Matrix
X1
X2
X1
1.0000
0.5297
X2
0.5297
1.0000
Correlation Matrix
Algebra da PCA
• Em notação matricial:
• onde X é a matriz n x p de dados, com cada variável centralizada X1
X2
X1
6.6707
3.4170
X2
3.4170
6.2384
Variance-covariance Matrix
X1
X2
X1
1.0000
0.5297
X2
0.5297
1.0000
Correlation Matrix
Manipulação de Matrizes • Transposição: inverte linhas e colunas
X =
10 0 4 7 1 2
• Multiplica as matrizes
X’ =
10 7 0 1 4 2
Algebra do PCA • Soma dos elementos diagonais da matriz de variância-covariância é chamado traço • Ele representaa variância total dos dados • É a distância média quadrada entre cada ponto e o centro no espaço p-dimensional. X1
X2
X1
6.6707
3.4170
X2
3.4170
6.2384
Trace = 12.9091
X1
X2
X1
1.0000
0.5297
X2
0.5297
1.0000
Trace = 2.0000
Algebra do PCA
• Encontrar os eixos principais envolve encontrar os auto-vetores da matriz de produto vetorial (S) • The auto-valores de S são soluções (λ) da equação característica
Algebra do PCA
• os auto-valores, λ1, λ2, ... λp correspondem à variância representada em cada componete principal • A soma de todos os p auto-valores é igual ao traço de S. X1
X2
X1
6.6707
3.4170
X2
3.4170
6.2384
Trace = 12.9091
λ1 = 9.8783 λ2 = 3.0308 Note: λ1+λ2 =12.9091
Algebra do PCA
• Cada auto-vetor consiste nos p valores que representam a contribuição de cada atributo para a componente principal • Autovetores são não correlacionaods (ortogonal) – Seus produtos-internos são zero.
Auto-vetores u1
u2
X1
0.7291
-0.6844
X2
0.6844
0.7291
0.7291*(-0.6844) + 0.6844*0.7291 = 0
Algebra do PCA
• As coordenadas de cada objeto i na kesimo eixo principal, chamada de escores na PC k, são computadas como
• one Z é a matriz n x k de PC escores, X é a n x p matriz centralizada de daos e U é a p x k matriz de autovetores.
Algebra da PCA
• variancia dos scores em cada PC é proporcional ao auto-valor correspondente para aquele eixo • O autovalor representa a variância mostrada (“explicada” or “extraida”) pelo eixo k • A soma dos primeiros k autovalores é proporcional ao total de variância explicada pelas primeiras k-dimensões da transformação
λ1 = 9.8783
λ2 = 3.0308
Trace = 12.9091
PC 1 mostra (“explica”) 9.8783/12.9091 = 76.5% of the total variance
Algebra da PCA • A matriz do produto vetorial calculada usando as p componentes principais tem uma forma simples: – Todos os elementos for a da diagonal tem valores zero – A diagonal contém os auto-valores. PC1