16 de septiembre de 2011

Volviendo a las bases


Algo sencillo, fácil y que causa dolores de cabeza: ¿qué significan los coeficientes de una tabla summary de un modelo lineal con interacción?

Supongamos que tenemos dos variables independientes, una es continua (X) y la otra es categórica (Z) con tres niveles (a, b, c). Si queremos probar la interacción nuestro modelo será 

fit<-lm(Y~X*Z)

y un ejemplo de tabla de salida podría ser...

summary(fit)
---
Coefficients:
            Estimate Std. Error t value Pr(>|t|)   
(Intercept)   0.1078     0.3136   0.344 0.732958   
X             0.9714     0.2561   3.793 0.000505 ***
Zb            2.6422     0.4435   5.957 5.94e-07 ***
Zc            0.2278     0.4435   0.514 0.610429   
X:Zb         -1.5674     0.3622  -4.328 0.000101 ***
X:Zc         -0.7103     0.3622  -1.961 0.057013 . 
---

Residual standard error: 0.7013 on 39 degrees of freedom
Multiple R-squared: 0.6045,     Adjusted R-squared: 0.5538
F-statistic: 11.92 on 5 and 39 DF,  p-value: 4.884e-07

Antes de seguir, extraigamos los coeficientes.

B<-fit$coeff

Esta forma de presentar los resultados se debe a la codificación como dos dummies de la variable categórica, que toman valores de (0;0) para el nivel a (tomado como referencia alfabéticamente), (1;0) para el nivel b y (0;1) para el nivel c. Así, la fórmula completa arrojada por summary hace referencia a


Y = B[1] + B[2]X + B[3]dummy1 + B[4]dummy2 + B[5]Xdummy1 + B[6]Xdummy2.



La tabla de summary tiene toda la información necesaria para dibujar 3 rectas, una por cada nivel del factor. 

Para el nivel a
beta1=0.1078                    beta2= 0.9714
B1a<- B[1];              B2a<- B[2]
Para el nivel b
beta1 =0.1078 + 2.6422      beta2= 0.9714 + (-1.5674)
B1b<- B[1]+B[3];          B2b<- B[2]+B[5]
Para el nivel c
beta1 =0.1078 + 0.2278      beta2= 0.9714 + (-0.7103)
B1c<- B[1]+B[4];          B2c<- B[2]+B[6]
 
Podemos verlo en un gráfico
plot(Y~X, type="n")
abline(B1a,B2a)
abline(B1b,B2b, col="red")
abline(B1c,B2c, col="blue")


Finalmente, una tabla anova nos indicará si el término de interacción es globalmente significativo.

anova(fit)
Analysis of Variance Table

Response: Y
          Df  Sum Sq Mean Sq F value   Pr(>F)   
X          1  1.0129  1.0129  2.0593 0.159250   
Z          2 19.0662  9.5331 19.3825 1.43e-06 ***
X:Z        2  9.2397  4.6199  9.3930 0.000468 ***
Residuals 39 19.1817  0.4918                    
---


Licencia Creative Commons
Este obra está bajo una licencia Creative Commons Atribución-NoComercial-CompartirIgual 2.5 Argentina.