Estudiante
Introducci´n o
Una tabla de contingencia es una de las formas m´s comunes de resumir datos caa teg´ricos. En general, el inter´s se centra en estudiar si existe alguna asociaci´n entre o e o una variable fila y otra variable columna y/o calcular la intensidad de dicha asociaci´n. o Sean X e Y dos variables categ´ricas con I y J categor´ respectivamente. Un o ıassujeto puede venir clasificado en una de las I × J categor´ que es el n´mero posible ıas, u de categor´ que existe. ıas Cuando las casillas de la tabla contienen las frecuencias observadas, la tabla se denomina tabla de contingencia, t´rmino que fue introducido por Pearson en 1904. e Una tabla de contingencia (o tabla de clasificaci´n cruzada), con I filas y J columnas o se denomina una tabla I × J.Por ejemplo, se considera la distribuci´n conjunta de dos variables y la correspono diente tabla de contingencia en una muestra de pacientes de un hospital. Se tiene la siguiente tabla: X ≡ Se toma aspirina o placebo (I = 2) Y ≡ Se sufre ataque card´ ıaco o no (J = 2).
Ataque mortal Ataque no mortal Placebo 18 171 Aspirina 5 99
No ataque 10845 10933
Como resumen de la informaci´n quepresenta la tabla, de los 11034 enfermos que o tomaron un placebo, 18 tuvieron un ataque al coraz´n, mientras que de los 11037 que o tomaron aspirina, 5 tuvieron ataques al coraz´n. o
1
La distribuci´n conjunta de dos variables categ´ricas determina su relaci´n. Esta o o o distribuci´n tambi´n determina las distribuciones marginales y condicionales. o e
Distribuci´n conjunta o
La distribuci´nconjunta viene dada por o πij = P (X = i, Y = j) con i = 1, . . . , I y j = 1, , . . . , J. Es la probabilidad de (X, Y ) en la casilla de la fila i y la columna j.
Distribuci´n marginal o
Las distribuciones marginales son
J J
πi+ = P (X = i) =
j=1 I
P (X = i, Y = j) =
j=1 I
πij
π+j = P (Y = j) =
i=1
P (X = i, Y = j) =
i=1
πij
es decir, el s´ ımbolo + indica la sumade las casillas correspondientes a un ´ ındice dado. Se cumple siempre que π+j =
j i
πi+ =
i j
πij = 1
Distribuci´n condicional o
En la mayor parte de las tablas de contingencia, como en el ejemplo anterior, una de las variables, digamos Y, es una variable respuesta y la otra variable X es una variable explicativa o predictora. En esta situaci´n no tiene sentido hablar de distribuci´n oo conjunta. Cuando se considera una categor´ fija de X, entonces Y tiene una distribuci´n de ıa o probabilidad que se expresa como una probabilidad condicionada. As´ se puede estudiar el cambio de esta distribuci´n cuando van cambiando los ı, o valores de X. Distribuci´n condicionada de Y respecto de X o P (Y = j|X = i) = πj|i = 2 πij πi+
Se tiene que πj|i = 1
j
y el vector deprobabilidades π1|i , . . . , πJ|i forman la distribuci´n condicionada de Y o en la categor´ i de X. ıa La mayor parte de los estudios se centran en la comparaci´n de las distribuciones o condicionadas de Y para varios niveles de las variables explicativas.
Independencia y Homogeneidad
Cuando las variables que se consideran son de tipo respuesta, se pueden usar distribuciones conjuntas o biendistribuciones condicionales para describir la asociaci´n entre o ellas. Dos variables son independientes si πij = πi+ · π+j lo cual implica que la distribuci´n condicionada es igual a la marginal: o πj|i = π+j para j = 1, . . . , J, dado que πj|i = para todo i y j. Si X e Y son variables respuesta entonces se habla de independencia Si Y es variable respuesta y X es variable explicativa entonces se habla dehomogeneidad. Ejemplo con SAS Muchas veces, los datos categ´ricos se presentan en forma de tablas como la anterior, o y otras veces se presentan en forma de matriz de datos. Supongamos, por ejemplo, que los datos se presentan seg´n la siguiente tabla: u Tratamiento Favorable Placebo 16 Test 40 En SAS el modo de introducir esta tabla ser´ ıa: Desfavorable 48 20 πij πi+
3
OPTIONS ls =70;...
Regístrate para leer el documento completo.