ID | Duplicado 1 | Duplicado 2 |
---|---|---|
QAQC-01 | 30.79 | 30.54 |
QAQC-02 | 31.89 | 32.04 |
QAQC-03 | 31.28 | 31.32 |
QAQC-04 | 31.30 | 30.89 |
QAQC-05 | 30.70 | 30.66 |
QAQC-06 | 30.86 | 30.69 |
¿Cuál es la máxima diferencia tolerable entre duplicados de análisis?
Un día cualquiera en un laboratorio que aún no establece criterios de aceptación de precisión:
- Duplicado 1 = 25.56 % Cu
- Duplicado 2 = 25.66 % Cu
- Diferencia = 0.10 % Cu
La diferencia observada ¿es aceptable para el laboratorio?
Para responder a esta pregunta debemos considerar varias cosas:
- ¿Los duplicados fueron realizados en condiciones de repetibilidad o reproducibilidad?
- ¿Existe alguna normativa al respecto que se deba cumplir?
- ¿Cuál es la metodología analítica? No es lo mismo determinar Cu en concentrado de cobre por electrogravimetría (método primario) que por Fluorescencia de Rayos X.
- ¿Cuál es la incertidumbre del método analítico?
- ¿Existe algún acuerdo a nivel comercial sobre estas diferencias?
Para abordar este problema tendremos que hace la suposición que los duplicados fueron obtenidos en condiciones de repetibilidad, es decir: mismo analista, mismo día, mismo instrumento, etc. Bajo esta premisa hay varias formas de estimar la máxima diferencia tolerable entre duplicados de análisis.
Nota: En realidad, los conceptos que mostraremos a continuación son completamente análogos para estimar la máxima diferencia tolerable en condiciones de reproducibilidad. Sin embargo, dedicaremos otro post a ese tema específico.
El concepto estadístico clave para establecer la tolerancia entre duplicados es el límite de repetibilidad \(r\).
Límite de repetibilidad \(r\) ISO 5725
La guía ISO 5725 define el límite de repetibilidad \(r\) de la siguiente manera:
\[ r = 2.8\cdot s_{r} \] y corresponde a la máxima diferencia, en valor absoluto, que puede tolerarse entre duplicados de análisis, obtenidos bajo condiciones de repetibilidad con un 95% de confianza. Veamos:
\(s_{r}\) es la desviación estándar de repetibilidad, la cual da cuenta de la dispersión de las diferencias entre duplicados. Ya explicaremos cómo calcular este parámetro.
El factor 2.8: aquí les exijo una prueba de fe mis hermanos, me tienen que creer porque si quieren la demostración, aumentaría mucho la viscosidad de este post . A grosso modo, el factor 2.8 tiene que ver con el 95% de confianza, nos indica que cuando se establece la máxima diferencia tolerable, está permitido que el 5% de los duplicados estén fuera del límite \(r\), y aún el sistema analítico se encontraría bajo Control Estadístico.
¿Cómo obtenemos la precisión de repetibilidad \(s_{r}\)?
Existen varios métodos estadísticos para abordar la estimación de la desviación estándar de repetibililidad \(s_{r}\), sin embargo, en este post nos enfocaremos en los dos más utilizados en química analítica:
Estimación basada en el registro histórico de duplicados de análisis.
La estimación mediante estudios de precisión siguiendo las directrices de la guía ISO 5725.
No describiremos todos los detalles de cada uno de los diseños experimentales expuestos en estas guías, más bien, ejemplificaremos el cálculo de la desviación estándar de repetibilidad \(s_{r}\):
Método de estimación en base a datos históricos de duplicados
Obviamente necesitamos crear una base de datos con los registros de análisis de muestras en duplicados en condiciones de repetibilidad. Estas muestras pueden corresponder a muestras de clientes, materiales de referencia primarios o secundarios, muestras control, etc. Lo importante es que ambos duplicados cumplan con las condiciones de repetibilidad. La tabla 1 es un ejemplo de una base de datos a utilizar en este método:
Puede descargar esta base de datos desde este link. Y ahora la pregunta del millón: ¿Cuántas muestras en duplicado necesito? Si bien es posible obtener un cálculo “exacto” del número de muestras \(n\), esto está fuera del alcance de este post. Sin embargo, podemos decir que \(n > 25\) es un número inicial adecuado.
Una vez construida la base de datos, se puede obtener una estimación de \(s_{r}\) mediante la ecuación 1:
\[ s_{r} = \sqrt{\frac{\sum_{i = 1}^{n} (x_{i1} - x_{i2})^2}{2n}} \tag{1}\]
Esta ecuación puede ser fácilmente implementada en Excel pero en este post, como no, haremos los cálculos en lenguaje R. Pero antes, observe la figura 1 la cual muestra un gráfico de dispersión entre Duplicado 1 (\(X\)) y Duplicado 2 (\(Y\)). En este caso el orden es irrelevante. Si ajustáramos un modelo lineal entre ambas variables ¿Qué valores de pendiente e intercepto deberíamos obtener?
¡Correcto! Pendiente \(\beta_{1} = 1\) e intercepto \(\beta_{0} = 0\). La línea roja representa esta recta teórica. Note también que la dispersión de los datos es constante en todo el rango de concentración, propiedad denominada Homocedasticidad.
Esta propiedad es deseable, sin embargo, no todos los sistemas analíticos la poseen. En sí misma no es una problema, sin embargo, si la varibilidad de los duplicados aumenta con la concentración (heterocedasticidad) tendremos que modelar esta variabilidad en función de la concentración en forma explícita o segmentar el rango, lo cual veremos en otro post.
También advierta la presencia de datos alejados de la diagonal, es decir, diferencias entre duplicados grandes. ¿Qué hacemos con ellos?¿Los mantenemos o los eliminamos?
Si los eliminamos, y realmente reflejaran la variabilidad del método, entonces subestimaríamos la máxima diferencia tolerable entre duplicados, aumentando la frecuencia de alertas de duplicados no conformes (nos ponemos la soga al cuello solitos). Si los mantenemos, y realmente fueron errores puntuales de medición, sobreestimaríamos la tolerancia y la carta control sería de poca utilidad (mágicamente todos los datos caerían siempre dentro del los límites). Este tema lo abordaremos en otro post (llevo una lista).
Como dato “anecdótico” en las operaciones de trading en el mercado mundial de concentrado de cobre, la máxima diferencia tolerable entre resultados de distintos laboratorios (a.k.a exportador v/s importador) es 0,20 % Cu. Si la diferencia supera este límite, ambos negociadores se van a un arbitraje (multiplique 0,2 % Cu por la millones de toneladas que se transan en el mercado…a \(X\) US/libra no es un asunto trivial).
Utilizando los datos históricos estimamos una desviación estándar de repetibilidad de \(s_{r} = 0.2\) % Cu. Por lo tanto, el límite de repetibilidad es obtenido de la ecuación 2:
\[ \begin{eqnarray} r &=& 2.8\cdot s_{r} \\ r &=& 2.8\cdot 0.2 \\ r &=& 0.57\, \text{% Cu} \end{eqnarray} \tag{2}\]
Interpretación: La máxima diferencia tolerable, en valor absoluto, entre duplicados de análisis en condiciones de repetibilidad es \(r = 0.57\) % Cu.
Entonces, dados los datos iniciales:
- Duplicado 1 = 25.56 % Cu
- Duplicado 2 = 25.66 % Cu
- Diferencia = 0.10 % Cu
La diferencia encontrada entre duplicados \(\Delta = 0.1 < 0.57\) % Cu, por lo tanto, se acepta la diferencia entre duplicados, es un dato de QAQC conforme.
¿Y qué hacemos si no tenemos datos históricos de duplicados? Por favor, continue leyendo.
Estimación mediante estudios de precisión siguiendo las directrices de la guía ISO 5725
Cuando no existen datos históricos, la guía ISO 5725 sugiere llevar a cabo un diseño experimental en el cual se estudien diversos factores que podrían, eventualmente, tener un efecto importante en la precisión del método analítico. Por ejemplo:
- Analistas distintos
- Equipos de medición (cromatógrafos, AAS, etc.)
- Días distintos
- Etc.
El “problema” de esta aproximación es que a medida que crece el número de factores, el tamaño del diseño experimental (a.k.a número de experientos) crece en forma rápida incluso, en algunos diseños, en forma exponencial.
La ventaja de este método es que permite estimar en un único estudio la precisión de repetibilidad, reproducibilidad y la precisión intermedia, es decir, entre-analistas, entre-equipos, etc. La otra ventaja es que permite estimar los denominados componentes de varianza “¿Y?” – se preguntará. Bueno, los componentes de varianza nos indican cuál es el factor que más aporta a la variabilidad del sistema analítico ¿será la variabilidad entre-analistas? ¿o los distintos equipos que dispone el laboratorio? De esta forma Ud. podrá focalizar los esfuerzos y recursos en mejorar la precisión del método sólo en aquellos factores que más aporten a la variabilidad total.
Veamos en qué consiste este método de estimación de precisión en base al estudio del factor Analista. Existen varios diseños experimentales para evaluar este factor, sin embargo, en este post comenzaremos con algo light:
Estimaremos la precisión de reptibilidad y reproducibilidad del método volumétrico para la determinación de Cu en concentrado de cobre, en un laboratorio donde \(n = 4\) analistas son igualmente competentes para llevar a cabo el análisis, siguiendo el mismo instructivo.
Para abordar este objetivo, proponemos el siguiente diseño experimental:
- Una única muestra será analizada por los \(n = 4\) analistas.
- Cada analista realizará el análisis en quintuplicado \(j = 5\)
- Los \(k = n\cdot j = 20\) análisis deben ser obtenidos en condiciones de repetibilidad
Si bien podríamos publicar una enciclopedia de posts sobre diseño experimental en química, surgen algunas preguntas sobre este diseño en particular:
¿Por qué una única muestra? Porque si cada analista recibiera una muestra distinta, entonces la precisión del factor analista estaría “contaminada” con la variabilidad entre muestras, la cual no nos interesa en este estudio.
¿Y si una única muestra no es suficiente para llevar a cabo los 20 análisis? Existen otros diseños experimentales denominados anidados que permiten estimar la precisión utilizando muestras distintas.
¿Por qué los análisis de cada analista deben ser obtenidos en condiciones de repetibilidad? Porque no queremos que otro factor no controlado (por ejemplo, equipos distintos) influya en la estimación de la precisión entre-analistas.
En lo posible, aumente el número de analistas en vez de hacer muchos replicados. Es mejor 5 analistas en triplicado, que 3 en quintuplicado.
“La” muestra podría corresponder a una muestra del cliente. No es necesario que sea un material de referencia, sin embargo, esta muestra debe ser lo suficientemente homogénea… ¡Ah, eso es trampa! ¿Cómo demostramos que la muestra es homogénea? Le doy un dato, anote:
Si su muestra es material particulado, le tengo malas noticias: No existen las muestras homogéneas de este tipo de material (gracias a san Pierre Gy por el dato).
Como mencionamos anteriormente podríamos postear ad infinitum sobre diseño de exprimentos en química, sin embargo, la banda ancha es finita así que vamos al grano. La tabla 2 muestra los datos experimentales del estudio de precisión propuesto:
Replicado | Analista 1 | Analista 2 | Analista 3 | Analista 4 |
---|---|---|---|---|
1 | 24.74 | 24.73 | 25.06 | 25.00 |
2 | 25.06 | 25.16 | 25.17 | 24.98 |
3 | 25.34 | 24.98 | 25.24 | 24.79 |
4 | 25.28 | 25.11 | 24.80 | 24.65 |
5 | 25.02 | 24.72 | 25.11 | 24.82 |
Antes de llevar a cabo el análisis estadístico formal, observemos la figura 2 la cual muestra el valor promedio de cada analista \(\pm\) 1 desviación estándar. Ella nos indica que, aparentemente, los resultados entre los analistas son bastante consistentes.
Ahora bien ¿Cómo, entonces, estimamos la precisión de repetibilidad y reproducibilidad a partir de la tabla 2? Fácil, con el todopoderoso Análisis de Varianza (ANOVA).
No detallaremos la matemática detrás de esta poderosa técnica, sin embargo, diremos simplemente que el ANOVA es un método cuyo propósito es particionar la variabilidad total de un conjunto de datos en componentes que intentan explicarla. Aplicada a nuestro caso, utilizaremos ANOVA para particionar la variabilidad total de los 20 resultados de % Cu entre dos componentes:
- El factor analista
- La repetiblidad del método analítico.
para lo cual seguiremos paso a paso las instrucciones de la guía ISO 5725. En primer lugar obtendremos la tabla ANOVA mediante lenguaje R
:
Origen Variación | g.l | SQ | MS | F calculado | p-value |
---|---|---|---|---|---|
analista | 3 | 0.2 | 0.07 | 1.8 | 0.19 |
Residuals | 16 | 0.6 | 0.04 |
Las tablas ANOVA muy similares en casi todos los softwares estadísticos profesionales… y en Excel también. Entonces:
Repetibilidad \(s_{r}\): Es simplemente la raíz cuadrada del término \(MS\) de los Residuos. En la nomenclatura de ANOVA es lo que se conoce como variabilidad dentro (within). Para los datos de la tabla 2 se obtiene \(s_{r} = \sqrt{\text{MS}_{Residuals}} = \sqrt{0.04} = 0.19\) % Cu.
Precisión intermedia o variabilidad entre-analistas \(s_{analista}\): ¡No tan rápido! No es la raíz cuadrada de \(MS\) del factor analista. Debemos hacer el siguiente cálculo adicional:
\[\begin{eqnarray} s_{analista} &=& \sqrt{\frac{MS_{analista} - MS_{Residuals}}{j}} \\ s_{analista} &=& \sqrt{\frac{0.07 - 0.04}{5}} \\ s_{analista} &=& 0.08\, \text{% Cu} \end{eqnarray}\]
donde \(j = 5\) es el número de replicados que hizo cada analista
- Reproducibilidad \(s_{R}\): Es simplemente la combinación en cuadratura de las precisiones arriba calculadas.
\[\begin{eqnarray} s_{R} &=& \sqrt{s_{r}^{2} + s_{analista}^2}\\ s_{R} &=& 0.21\, \text{% Cu} \end{eqnarray}\]
Por lo tanto, con estos datos podemos calcular el límite de repetibilidad sin necesidad de tener una base de datos histórica de duplicados. En este caso \(r = 2.8 s_{r} = 0.58\) % Cu.
¿Y si quisiera establecer la máxima diferencia tolerable entre analistas?
Nos vemos en el siguiente post.
Bonus track : Breve historia del factor 2.8
Sea \(x_{1}\) y \(x_{2}\) los duplicados de análisis 1 y 2, respectivamente. Cada uno de ellos “sigue” una distribución Normal con media \(\mu\) y varianza \(V = \sigma_{r}^2\) y, además, entre ellos son independientes, entonces se cumple lo siguiente:
la diferencia entre duplicados \(\Delta = x_{1} - x_{2}\) sigue una distribución Normal con media 0 y varianza \(V_{\Delta} = V(x_{1} - x_{2}) = V(x_{1}) + V(x_{2}) = 2\sigma_{r}^2\).
Si la varianza de las diferencias es \(V_{\Delta} = 2\sigma_{r}^2\), entonces la desviación estándar es \(\sqrt{2} \sigma_{r}\).
Por lo tanto, si quisiéramos construir un intervalo de confianza al 95% para la diferencia entre duplicados obtendríamos \(\Delta \pm 2\sqrt{2} \sigma_{r}\). El 2 es por que para una distribución Normal se sabe que entre la media \(\pm\) 2 la desviación estándar se encuentran aproximadamente el 95% de las observaciones.
\(s_{r}\) es la estimación de \(\sigma_{r}\), la cual es fija pero desconocida.
Como \(\sqrt{2}\approx 1,41\) entonces, con un 95% de confianza, la diferencia se encuentra entre \(\Delta \pm 2\cdot 1,41 \cdot s_{r} = 2.8\cdot s_{r}\). Ahora imágineme como el mago Tamariz al final de sus actos tocando el violín ¡chiararaaá! (Si eres old school sabrás quien es el mago Tamariz. Si eres millenial mira este video).
Bibliografía
ISO 5725 – 3:1994 Accuracy (trueness and precision) of measurement methods and results – Part 3: Intermediate measures of the precision of a standard measurement method
Michael Thompson, Bertil Magnusson Methodology in internal quality control of chemical analysis Accreditation and Quality Assurance August 2013, Volume 18, Issue 4, pp 271–278