¿Cómo demuestro que mi curva de calibración es lineal?
En este post intentaremos derribar el mito del coeficiente de correlación con “muchos” 9’s como prueba de linealidad. Además, presentaremos dos test formales para evaluar el modelo de calibración lineal en química analítica.
Coeficiente de correlación
Este parámetro estadístico indica la fuerza y dirección de la relación de dos variables cuantitativas, por ejemplo;
- Concentración (
) y Absorbancia ( ) y Potencial (Ecuación de Nernst)- La edad de las ganadoras de Miss América con los asesinatos utilizando objetos calientes y vapor. ¡Cuidado con las correlaciones espurias!
Todos los químicos estamos familiarizados con la ecuación de Lambert-Beer, la cual establece la archiconocida relación entre absorbancia y concentración en métodos espectrofotométricos:
De la ecuación 1 se observa claramente la relación con el modelo estándar de calibración lineal
OK, de acuerdo. Este modelo físico-químico sólo es válido bajo ciertas condiciones (como todos los modelos), de hecho son conocidas las desviaciones de la ley de Lambert-Beer a altas concentraciones.
Derribando el mito del r = 0,999…
Para comenzar, por favor, ponga atención a la figura @ref(fig:anscombe) denominada “El Cuarteto de Anscombe”. La “gracia” de estos datos de calibración es que todos tienen la misma pendiente, intercepto, error de calibración y… ¡coeficiente de correlación!
¿No me cree? Le dejo este link para que descargue los datos en archivo Excel y se convenza con sus propios ojos.
El punto que revela la figura 1 es que es posible obtener coeficientes de correlación “altos” inclusive con datos que, a simpe vista, no revelan una relación lineal entre
Moraleja: Trate, en lo posible, de diseñar la curva con los puntos equiespaciados y evite los saltos de varios órdenes de magnitud de la concentración.
La linealidad tampoco es un parámetro cuantitativo, una curva con r = 0,999 no es más lineal que otra con r = 0,99. Observe la figura 3, ambas curvas fueron simuladas en lenguaje R
con el mismo intercepto y pendiente siguiendo estrictamente el modelo lineal
set.seed(123) # Es para que Ud. obtenga los mismos
# resultados en su simulación en R
<- 1 # Intercepto = 1
b0 <- 10 # Pendiente = 10
b1 <- 1 # Desviación estándar de calibración
s
# Simulamos el mismo modelo lineal
<- 1:10 # Calibrantes
x <- b0 + b1*x + rnorm(10, 0, s) # Absorbancias con
y1 # error = s = 1
<- b0 + b1*x + rnorm(10, 0, 10*s) # Absorbancias con
y2 # error = 10*s = 10
Test formales de linealidad
Existen varios tests estadísticos formales para evaluar el supuesto de linealidad de la curva de calibración. Sin embargo, en este post veremos dos que son los más utilizados en Química Analítica y son sugeridos por normativas internacionales (para presentárselos a los amables auditores).
Si bien no es estrictamente riguroso, para simplificar el concepto, diremos que ambos tests estadísticos intentan dirimir entre dos hipótesis:
(a.k.a Hipótesis Nula) : El modelo lineal es adecuado para describir los datos de calibración (a.k.a Hipótesis alternativa): El modelo lineal NO es adecuado para describir los datos de calibración
También debemos hacer la siguiente acotación: En estadística un modelo lineal es aquel en que sus parámetros son lineales. Por ejemplo, la curva de calibración lineal clásica
Dicho esto, el modelo cuadrático de calibración
Test de carencia de ajuste (Lack of fit) ISO 11095
Este test está basado en comparar dos estimadores del error aleatorio:
- Error puro o experimental
- Error de carencia de ajuste o lack of fit
Es decir, necesitamos un estimador del error aleatorio totalmente independiente del error del modelo de calibración que queremos ajustar. Para estimar este error, la prueba de carencia de ajuste exige que hagamos replicados de cada uno de los calibrantes.
Pero tienen que ser replicados verdaderos. No es válido inyectar varias veces el mismo estándar en el equipo. Prepárelos independientemente.
Si los dos estimadores del error aleatorio son similares, entonces el modelo de calibración que acabamos de ajustar es adecuado para modelar los datos experimentales. ¿Cuán similares tienen que ser? Lo probaremos con un test F. Los detalles algebraicos son latosos-engorrosos y pueden ser consultados en la bibliografía. Sólo indicaremos cómo hacer este test de linealidad en lenguaje R
, como no. (¿Y en Excel cuándo?)
La tabla 1 muestra los datos de calibración de cloranfenicol en matriz leche obtenida por GC/MS-NCI (Gas Chromatography/Mass Spectrometry - Negative Chemical Ionization …¡Qué tiempos aquellos!). Note que cada nivel de calibración está preparado en triplicado totalizando n = 15 calibrantes independientes. La figura 4 muestra la curva de calibración.
La tabla 2 muestra el análisis estadístico de esta calibración:
Por ahora no nos detendremos en el análisis de la tabla (eso quedará para otro post). Haremos directamente el Test de Carencia de Ajuste (lack of fit) en R
el cual se muestra en la tabla 3:
library(olsrr) # Cargamos el package 'olsrr' para aplicar el test lack-of-fit
ols_pure_error_anova(fit.cal)
Lack of Fit F Test
------------------
Response : y.caf
Predictor: x.caf
Analysis of Variance Table
---------------------------------------------------------------------------------
DF Sum Sq Mean Sq F Value Pr(>F)
---------------------------------------------------------------------------------
x.caf 1 1680303154.42 1680303154.42 54131.47 6.444664e-25
Residual 13 392485.57 30191.20
Lack of fit 3 82074.03 27358.01 0.8813464 0.4832262
Pure Error 10 310411.54 31041.15
---------------------------------------------------------------------------------
Lack of Fit F Test
------------------
Response : y.caf
Predictor: x.caf
Analysis of Variance Table
---------------------------------------------------------------------------------
DF Sum Sq Mean Sq F Value Pr(>F)
---------------------------------------------------------------------------------
x.caf 1 1680303154.42 1680303154.42 54131.47 6.444664e-25
Residual 13 392485.57 30191.20
Lack of fit 3 82074.03 27358.01 0.8813464 0.4832262
Pure Error 10 310411.54 31041.15
---------------------------------------------------------------------------------
Ok, para interpretar el test de carencia de ajuste nos fijaremos en la fila que dice “Lack of fit” y en el p-value del test, el cual aparece bajo la columna Pr(>F) = 0.483. La interpretación tradicional de una prueba estadística diría algo más o menos así:
Dado que el p-value
, entonces, no hay evidencias en contra de la hipótesis nula. El modelo lineal es adecuado para modelar los datos de calibración.
Algunas consideraciones:
- ¿Dice en alguna parte que el modelo de calibración es lineal? Póngalo de wallpaper en su pantalla: NO.
- Lo único que se puede extraer como conclusión es que el modelo lineal es adecuado, es razonable para modelar los datos de calibración. Nada más.
- Existen infinitos modelos de calibración que podrían ser idóneos, este test nos dice si el que hemos elegido para modelar los datos es razonable/adecuado, sin embargo, no nos dice que sea “EL” modelo perfecto.
- ¿Qué tiene de especial el famoso 0,05? Absolutamente NADA. ¿Qué concluiría Ud. si el p-value fuese 0,04999 ó 0,05001? Sería un test totalmente inconcluyente.
- Lamentablemente, esto es una dicotomía perversa que desde hace mucho tiempo ha sido objeto de varias críticas. Le invito a leer las siguientes referencias sobre la interpretación y controversia de los p-values en ciencia:
Ronald L. Wasserstein & Nicole A. Lazar (2016) The ASA’s Statement on p-Values: Context, Process, and Purpose The American Statistician Volume 70, 2016 - Issue 2 link
M.Baker Statisticians issue warning over misuse of P values Nature 531, 151 (10 March 2016) link
Singh Chawla D. Big names in statistics want to shake up much-maligned P value. Nature. 2017 Jul 26;548(7665):16-17 link
“The p-value was never intended to be a substitute for scientific reasoning” Ron Wasserstein, Director Ejecutivo de la Asociación Americana de Estadística ASA.
Test de Mandel ISO 8466-1
Esta prueba estadística es bastante sencilla y está basada en la comparación entre el modelo de calibración lineal y un modelo alternativo. Por lo tanto, no es una prueba absoluta, sino relativa a la elección del modelo alternativo. Require al menos n = 6 calibrantes (sin replicado).
En general, el test de Mandel utiliza el modelo de calibración cuadrático para compararlo con el modelo lineal:
Los detalles estadísticos pueden consultarse en la bibliografía.
- Primero calcule la suma de cuadrados de los residuos
para cada uno de los modelos de acuerdo a la siguiente expresión:
Donde el residuo
Un buen modelo tiene residuos pequeños. Un residuo grande para cierto de nivel de concentración implica que existe una gran diferencia entre lo observado y lo que predice el modelo, por lo tanto, nos guiará (en otro post) a detectar posibles valores anómalos o outliers.
- Calcule la diferencia entre ambas sumas de cuadrado de los residuos, la del modelo no lineal
y la correspondiente al modelo lineal :
- Estime el estadístico F calculado:
Obtenga el F de tabla para 1 grado de libertad en el numerador y
para el denominadorCompare el
con el y decida en base a la siguiente regla:
Si
se concluye que no hay evidencias en contra de la hipótesis nula de linealidad del modelo. ¿Quiere decir que el modelo de calibración es exactamente lineal? Ya sabemos que NO. Rigen las mismas consideraciones que que notamos en el test de carencia de ajuste.Si
se rechaza la hipótesis nula de linealidad del modelo. Los datos no son consistentes con la hipótesis. Y aquí se abre una caja de Pandora, pues esta conclusión también tiene muchas consideraciones estadísticas que se deben tener en cuenta para interpretarla apropiadamente las cuales, por ahora, no profundizaremos.
Los pasos recién descritos son para llevar a cabo el Test de Mandel “a mano”, afortunadamente los softwares estadísticos como R
y Excel (sí ¡Excel!) tienen incorporada esta prueba estadística de linealidad. Veamos un ejemplo.
La tabla 4 muestra los datos de calibración de Cu por AAS; la figura 5, la curva de calibración:
A simple vista se observa la no linealidad de la curva de calibración. Veamos que nos dice el Test de Mandel en la siguiente tabla ANOVA:
# d: corresponde al data frame de los datos de calibración
<- lm(y ~ x, data = d) # Ajuste lineal.
fit.lin <- lm(y ~ x + I(x^2), data = d) # Ajuste no lineal cuadrático
fit.nolin
anova(fit.lin, fit.nolin)
Analysis of Variance Table
Model 1: y ~ x
Model 2: y ~ x + I(x^2)
Res.Df RSS Df Sum of Sq F Pr(>F)
1 9 0.0054816
2 8 0.0000186 1 0.005463 2351.1 3.621e-11 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
En la tabla el valor
Entonces, resumiendo ¿Por qué no puedo probar linealidad de la curva de calibración?
Porque la decisión está basada en pruebas estadísticas, las cuáles tienen algunas consideraciones para su correcta interpretación:
Con estas pruebas estadísticas no se puede probar linealidad, lo que podemos concluir es que el modelo lineal es adecuado o razonable para modelar nuestros datos de calibración ¡nada más!.
Es imposible que en un sistema físico-químico complejo como una llama o plasma/detector (ICP-MS) exista una relación “perfectamente” lineal entre absorbancia (cuentas) y concentración. Lo que hicieron Lambert & Beer (o cualquier científico que proponga un modelo de la naturaleza) fue proponer una simplificación del sistema y representarlo mediante un modelo cuantitativo.
Existen muchos modelos que se podrían ajustar muy bien a nuestros datos de calibración, pero en estadística existe el principio de parsimonia:
En igualdad de condiciones, la explicación más sencilla suele ser la más probable
¿Por qué complicarnos la existencia con un modelo hiper-super-parabólico- tangencial si el modelo lineal es razonable y adecuado para nuestros propósitos de cuantificación? Pero ojo:
“Everything should be made as simple as possible, but no simpler” – Albert Einstein
Es aquí donde las pruebas estadísticas nos ayudan a decidir entre varios modelos plausibles.
En defensa del coeficiente de correlación
Es cierto, el
El coeficiente de correlación está íntimamente ligado con la incertidumbre de calibración. A mayor
menor es la incertidumbre de calibración.
Puede profundizar en este aspecto consultando en:
Ellison, S.L.R. In defense of the correlation coefficient. Accred Qual Assur (2006) 11: 146. https://doi.org/10.1007/s00769-006-0087-y
Por último… ¿y el ?
Ahhh, pero eso es otra cosa… hasta la próxima.
Bibliografía
Lutz Brüggemann, Wolfgang Quapp, Rainer Wennrich Test for non-linearity concerning linear calibrated chemical measurements (2006) Accreditation and Quality Assurance Volume 11, Issue 12, pp 625–631
J. M. Andrade and M. P. Gómez-Carracedo Notes on the use of Mandel’s test to check for nonlinearity in laboratory calibrations Anal. Methods, 2013,5, 1145-1149