¿Qué es el análisis multivariado? Parte 2

Posted On 02 Nov 2017
Comment: Off

En la entrega anterior nos referimos a los conceptos básicos que se tienen en cuenta a la hora de plantear un análisis multivariado.

Presentaremos ahora tres ejemplos sencillos de análisis uni y multivariado llevados a cabo con cada uno de los métodos de regresión a que nos referimos en entregas anteriores. En todos los casos nos basamos en 151 casos de pacientes portadores de insuficiencia cardíaca crónica, de los que se recabaron datos clínicos basales y de distintos estudios complementarios (ecocardiograma, laboratorio, caminata de 6 minutos, composición corporal). Se contó con datos de seguimiento a 2 años.

1. Predicción de la distancia recorrida en 6 minutos (tabla 1)

¿Qué es el análisis multivariado? Parte 2

Un primer análisis que se realizó tuvo como objeto encontrar las variables predictivas independientes de la capacidad funcional evaluada por la distancia recorrida en la caminata de 6 minutos. Dicha distancia es una variable continua, y como ya hemos visto, el método elegido para predecir el valor de una variable continua a partir de un conjunto de variables basales es la regresión lineal.

La tabla 1 nos muestra en la parte superior una serie de regresiones lineales simples. Cada una entonces define a partir de una variable basal el coeficiente beta correspondiente con su IC 95% y el valor de p. Recordemos que en la regresión lineal el coeficiente beta señala cuál es el cambio esperado en la variable respuesta (aquella cuyo valor buscamos predecir) a partir del cambio en una unidad de la variable predictiva.

Por ejemplo, la primera variable considerada es la edad. El coeficiente beta es -5,4, con un IC 95% que va de -7,1 a -3,6 (no toca el 0). El valor de p es <0.0001, lo cual implica alta significación estadística al afirmar que dicho coeficiente es diferente de 0. ¿Cómo leemos esta información? Entendemos que por cada año que aumente la edad, dentro del rango de valores considerados, podemos predecir que la caminata de 6 minutos disminuye 5,4 metros, y que 95 de cada 100 veces que realizáramos el experimento dicha reducción estaría entre 3,6 y 7,4 metros. La segunda regresión lineal simple vincula la hemoglobina (en g/dl) con la caminata. El coeficiente beta es 19,6, con un IC 95% que va de 6,1 a 33,1. El valor de p es 0.005, estadísticamente significativo. Por g/dl que aumente la hemoglobina, dentro del rango de valores considerados, podemos predecir que la caminata de 6 minutos aumenta 19,6 metros, y que 95 de cada 100 veces que realizáramos el experimento dicho aumento estará entre 6,1 y 33,1 metros.

Para las siguientes regresiones valen las mismas explicaciones. Como vemos, la que involucra la glucemia arroja un valor de coeficiente beta que es no significativo.

Todas las variables que en la regresión lineal simple han sido significativas (edad, hemoglobina, albumina) entran a un proceso de regresión lineal múltiple. Y allí resulta que la edad y la albúmina, con coeficientes diferentes a los que tenían en la regresión simple, mantienen significación estadística, mientras que la hemoglobina, puesta a jugar en un análisis común con las otras, la pierde.

En conclusión, en nuestro muy somero análisis podemos decir que los predictores independientes de distancia caminada son la edad y la albúmina.

2. Predicción de morbimortalidad (tabla 2)

¿Qué es el análisis multivariado? Parte 2

En este caso quisimos predecir una variable a la que llamamos morbimortalidad (combinación de muerte y hospitalización por insuficiencia cardíaca). Se trata de una variable dicotómica que ocurre o no (en este caso ocurrió en el 54,3% de los pacientes. Como ya vimos, en este caso el método de regresión empleado para la predicción es la regresión logística, y expresamos los resultados como odds ratio (OR).

En la primera regresión logística simple consideramos la edad en años. El OR que vincula edad con morbimortalidad es 1,05, con un IC 95% que va de 1,02 a 1,08 (no toca el 1). Esto implica que por cada año que aumenta la edad el riesgo de morbimortalidad aumenta un 5%, y que si repitiéramos la observación 100 veces, el aumento en 95 de los casos oscilaría entre 2 y 8%. El valor de p es 0.001, claramente significativo.

La segunda regresión logística simple involucra a la diabetes. Si bien el OR es 1,62, el IC 95% cruza el 1 y el valor de p es no significativo. Las siguientes regresiones logísticas simples son significativas, y señalan una disminución de riesgo de morbimortalidad a medida que aumenta la fracción de eyección (OR 0,91, lo cual implica una disminución del riesgo de un 9% por cada punto de aumento en la medición) y la caminata de 6 minutos (OR 0,993, es decir una reducción de riesgo del 0,7% por cada metro que aumenta la distancia recorrida), mientras que el aumento de la urea implica un aumento del riesgo (OR 1,03; aumenta el riesgo un 3% por cada mg/dl de aumento en la urea).

Todas las variables significativas en el análisis simple entran en la regresión logística múltiple. Y en dicho análisis, considerando en forma conjunta a las 4 variables la edad deja de ser un predictor significativo (el IC 95% cruza el 1 y el valor de p es 0,329). Sólo la fracción de eyección y la caminata son con todo derecho predictores independientes de morbimortalidad. La urea presenta ahora tendencia a ser predictor, con valor de p > 0.05, pero todavía menor de 0,10. Una interpretación estricta la deja fuera de la lista; una visión más clínica puede todavía tenerla en cuenta, aunque con limitaciones.

3. Predicción de tiempo a la muerte (tabla 3)

¿Qué es el análisis multivariado? Parte 2

Como vimos recientemente, cuando se trata de predecir el tiempo a un evento recurrimos al análisis de sobrevida. En este caso, tuvimos en un seguimiento medio de 1.130 días, 44 muertes. La medida de asociación de cada variable predictiva con el resultado es el hazard ratio (HR).

Como en los casos anteriores, comenzamos con análisis simples.

La edad, con un HR de 1,06 y un IC 95% entre 1,03 y 1,10 es predictor: entendemos que por cada año que aumenta la edad el riesgo de muerte crece un 6%, 95 veces entre 3 y 10% si repetimos el experimento 100 veces. Este aumento es significativo (el IC 95% no cruza el 1 y el valor de p es <0.0001). Como vemos en los análisis siguientes, la diabetes no es predictor de tiempo a la muerte; el valor logarítmico de la concentración de NT pro BNP (con un HR de 5,01) y la presencia de Insuficiencia mitral moderada a severa (con un HR de 3,45) aumentan el riesgo y en cambio cada incremento de la albúmina de 1 g/dl reduce el riesgo un 79% (HR 0,21).

Las 4 variables predictivas en análisis simples entran al multivariado. Solo dos de ellas (albúmina e insuficiencia mitral) persisten como predictores independientes del evento.

En conclusión el análisis multivariado permite definir en cada una de las situaciones planteada cuáles son las variables independientemente asociadas al resultado de interés.

Es ilustrativo al respecto el ejemplo que se desprende del estudio Val HeFT, que evaluó el efecto del valsartán en la evolución de pacientes con fracción de eyección deprimida. El análisis univariado definió 29 variables asociadas a mayor riesgo de muerte. El análisis multivariado redujo la cifra a 10.

En la próxima entrega haremos algunas consideraciones adicionales.

Dr. Jorge Thierer