The objective of this study was the proposal of a statistical analysis methodology that will guide the researcher by making repeated measurements over time in the same experimental unit, through a case study with legumes as a substrate in the production of
With the continuous development of research and the search for new statistical analysis strategies that provide greater precision and accuracy in obtaining results, attention has been focused on determining which is the most appropriate for the analysis of data from experiments with repeated measures at different times in the same experimental unit.
In the agricultural and livestock field, more and more experiments with these characteristics are carried out, since repeated measurements in the same experimental unit over time are cheaper than the use of a different experimental unit for each measurement over time, less experimental units are required, sample size and costs are reduced, test power and accuracy in estimating trends over time are improved. If this type of analysis is properly applied, it emphasizes the validity of statistical conclusions, because it has greater accuracy in the estimation of parameters of the analysis model (
The design with repeated measures over time was studied with the analysis of univariate and multivariate variance (ANOVA and MANOVA), respectively (
The statistical procedure with mixed models allows to analyze correctly and efficiently the data of experiments with repeated measures, through the modeling of the structure of variance-covariance matrix that consider the correlations between repeated measures and the presence of heterogeneous variances to make more precise inferences.
The objective of this study was the proposal of a methodology for statistical analysis to guide the researcher by using experiments with repeated measures over time in the same experimental unit. It is presented through a case study with legumes as a substrate in the production of
Three shrub legumes were evaluated:
The variable studied was
In order to obtain estimates with lower bias and lower variance of model parameters, the variance-covariance structures were examined: Unstructured (UN), Toeplitz (TOEP), AutoRegressive of order 1 (Ar (1)), Composite Symmetry (CS) and Components of Variance (CV). These were selected from the smallest values of the information criteria: Akaike (AIC), Corrected Akaike (AICC) and Bayesian (BIC).
Parameters were estimated by the Maximum Restricted Likelihood method and means were compared with the multiple comparison test of Tukey, modified by Kramer, with a significance level for P <0.05 (
The estimation method was the approach of Laplace contained in the GLIMMIX procedure of SAS (
To determine the distribution followed by data, SAS Proc Severity was used and Poisson (Logarithmic), Gamma (Reciprocal), Normal Log (Log), Normal (Identity) and Binomial (Logit) distributions were analyzed with their corresponding bonding functions. The expression for the mixed generalized linear model was the following:
- response variable
- intercept or common mean
- fix effect of the
- fix effect of the
- fix effect of the
- random effect of the
- random error asociated to all observationes
H: times
H2
H4
H6
H8
H10
H12
H16
H24
H2
1
H4
0.95
1
H6
0.91
0.99
1
H8
0.82
0.93
0.96
1
H10
0.85
0.95
0.99
0.96
1
H12
0.85
0.96
0.99
0.97
1
1
H16
0.85
0.95
0.99
0.97
1
1
1
H24
0.85
0.95
0.99
0.97
0.99
0.99
1
1
Another necessary assumption in repeated measures over time is sphericity, which requires the variances of differences between all pairs of observations to be equal (
PGas: gas production
Variable
W of Mauchly
Aprox.χ²
FD
Value of P
Epsilon
Greenhouse-Geisser
Huynh-Feldt
Inferior limit
0.00
398
27
0.001
0.15
0.15
0.14
Origin
Type III of square sum
FD
Mean square
F
Signif.
Schedules
Assumed sphericity
28710.17
7
4101.45
1453.17
0.00
Greenhouse-Geisser
28710.17
2.11
13591.30
1453.17
0.00
Huynh-Feldt
28710.17
2.79
10271.34
1453.17
0.00
Inferior limit
28710.17
1.00
28710.17
1453.17
0.00
Error (times)
Assumed sphericity
296.35
105
2.82
Greenhouse-Geisser
296.35
31.69
9.35
Huynh-Feldt
296.35
41.93
7.07
Inferior limit
296.35
15.00
19.8
Results of statistic tests for checking normality assumption, with P <0.0100, appear in
Variable
Statistical test
Value of P
Shapiro-Wilk
0.0000
Kolmogoro-Smirnov
<0.0100
Information criteria
Variance-covariance structures
UN
TOEP
Ar(1)
VC
CS
AIC
751.84
751.84
753.84
753.84
751.84
AICC
763.84
763.84
766.88
766.88
763.84
BIC
746.43
746.43
748.22
748.22
746.43
Residual
0.01
a,b,c,d,e,f,g,h,i,j,k,l,m,n Different letters indicate significant differences for P<0.05 ( ) original means
Times (h)
Treatment
Acacia
Albizia
Leucaena
2
2.15 m (8.57)
1.54 n (4.67)
2.23 m (9.26)
±0.0494 P=0.0024
4
2.96 ijk (19.23)
2.23 m (9.31)
2.93 ijk (18.74)
6
3.37 fg (29.05)
2.55 l (12.82)
3.25 fgh (25.75)
8
3.63 de (37.87)
2.76 kl (15.80)
3.42 ef (30.58)
10
3.83 cd (45.90)
2.91 jk (18.45)
3.61 de (37.03)
12
3.96 bc (52.67)
3.03 hij (20.79)
3.75 cd (42.37)
16
4.13 ab (61.99)
3.16 ghi (23.58)
3.90 bc (49.36)
24
4.28 a (72.18)
3.31 fg (27.29)
4.07 ab (58.76)
From the results, a methodological proposal is made and the steps to be followed in research in the agricultural and livestock field in which experiments with repeated measures over time in the same experimental unit are evaluated and described with greater precision:
Calculate the Pearson correlation matrix to determine the degree of association among sampling times Analyze the fulfillment of the sphericity condition using the Mauchly test and, otherwise, apply the correction factor. Mauchly proves that variance-covariance matrix is spherical or not, and if it is not, it increases the probability of committing type I error. Therefore, it is necessary to correct the degrees of freedom through the epsilon of Huynh-Feldt and Greenhouse-Heisser Analyze the theoretical assumption of normality with the tests of Kolmogorov-Smirnov and Shapiro-Wilk. Examine several variance-covariance structures to obtain estimations with lower bias and lower variance of the model parameters. Unstructured (UN) Toeplitz (TOEP) Autoregressive (AR1) Variance components (VC) Composite symmetry (CS) Obtaining the information criteria that help to select the most appropriate variance-covariance structure. Akaike (AIC) Corrected Akaike (AICC) Bayesian (BIC) For the best fit of the model, choose the lowest values of the information criteria, to obtain the most appropriate variance-covariance structure. Define the model to be used for each particular situation: If the assumption of normality was met, the Mixed Linear Model will be used. If the assumption of normality was not met, try the variants of Poisson, Gamma, Normal Log, Normal and Binomial distributions with their respective Logarithmic, Identity and Logistic link functions. To use the mixed generalized linear model.
The breach of the assumption of normality of residues from the used tests defined the use of the mixed generalized linear model as an alternative of analysis in experiments with repeated measures over time in the agricultural sector. The information criteria allowed obtaining the optimal structure of the variance-covariance matrix. A work methodology is proposed for processing data with these characteristics.
El objetivo de este trabajo fue la propuesta de una metodología de análisis estadístico que sirva de guía al investigador al realizar mediciones repetidas en el tiempo en la misma unidad experimental, a través de un estudio de caso con leguminosas como sustrato en la producción de gas
Con el continuo desarrollo de las investigaciones y la búsqueda de nuevas estrategias de análisis estadístico que brinden mayor precisión y exactitud al obtener los resultados, se ha centrado la atención en determinar cuál es la más apropiada para el análisis de datos provenientes de experimentos con medidas repetidas en diferentes momentos en el tiempo en la misma unidad experimental.
En la esfera agropecuaria se realizan cada vez más experimentos con estas características, pues las mediciones repetidas en la misma unidad experimental a través del tiempo son más económicas que el uso de una unidad experimental diferente para cada medición en el tiempo, se requieren menos unidades experimentales, se reduce el tamaño de la muestra y los costos, mejora la potencia de prueba y la precisión en la estimación de las tendencias en el tiempo. Si este tipo de análisis se aplica adecuadamente, acentúa la validez de las conclusiones estadísticas, ya que posee mayor exactitud en la estimación de los parámetros del modelo de análisis (
El diseño con medidas repetidas en el tiempo se estudió mediante el análisis de la varianza univariado y multivariado (ANOVA y MANOVA), respectivamente (
El procedimiento estadístico con modelos mixtos permite analizar correcta y eficientemente los datos de experimentos con medidas repetidas, a través del modelaje de la estructura de la matriz de varianzas - covarianzas que consideren las correlaciones entre medidas repetidas y la presencia de varianzas heterogéneas para realizar inferencias más precisas.
El objetivo de este trabajo fue la propuesta de una metodología para el análisis estadístico que sirva de guía al investigador al utilizar experimentos con medidas repetidas en el tiempo en la misma unidad experimental. Se presenta a través de un estudio de caso con leguminosas como sustrato en la producción de gas
Se evaluaron tres leguminosas arbustivas:
La variable estudiada fue la producción de gas
Con el fin de obtener estimaciones con menor sesgo y menor varianza de los parámetros del modelo, se examinaron las estructuras de varianza-covarianza: No estructurada (UN), Toeplitz (TOEP), Autorregresiva de orden 1 (Ar (1)), Simetría compuesta (CS) y Componentes de varianza (CV). Estas se seleccionaron a partir de los valores más pequeños de los criterios de información: Akaike (AIC), Akaike corregido (AICC) y Bayesiano (BIC).
Los parámetros se estimaron por el método de Máxima Verosimilitud Restringida y para la comparación de medias se utilizó la dócima de comparación múltiple de Tukey modificado por Kramer con un nivel de significación para P < 0.05 (
El método de estimación fue el de aproximación de Laplace contenido en el procedimiento GLIMMIX del SAS (
Para determinar la distribución que siguieron los datos se empleó el Proc Severity del SAS y se analizaron las distribuciones Poisson (Logaritmica), Gamma (Recíproca), Log Normal (Log), Normal (Identidad) y Binomial (Logit) con sus correspondientes funciones de enlace.
- variable respuesta
- media común o intercepto
- efecto fijo del
- efecto fijo del
- efecto fijo del
- efecto aleatorio de la
- error aleatorio asociado a todas las observaciones
En la
H: times
H2
H4
H6
H8
H10
H12
H16
H24
H2
1
H4
0.95
1
H6
0.91
0.99
1
H8
0.82
0.93
0.96
1
H10
0.85
0.95
0.99
0.96
1
H12
0.85
0.96
0.99
0.97
1
1
H16
0.85
0.95
0.99
0.97
1
1
1
H24
0.85
0.95
0.99
0.97
0.99
0.99
1
1
Otro de los supuestos necesarios en medidas repetidas en el tiempo es la esfericidad, que requiere que las varianzas de las diferencias entre todos los pares de observaciones sean iguales (
PGas: gas production
Variable
W of Mauchly
Aprox.χ²
FD
Value of P
Epsilon
Greenhouse-Geisser
Huynh-Feldt
Inferior limit
0.00
398
27
0.001
0.15
0.15
0.14
La
Origin
Type III of square sum
FD
Mean square
F
Signif.
Schedules
Assumed sphericity
28710.17
7
4101.45
1453.17
0.00
Greenhouse-Geisser
28710.17
2.11
13591.30
1453.17
0.00
Huynh-Feldt
28710.17
2.79
10271.34
1453.17
0.00
Inferior limit
28710.17
1.00
28710.17
1453.17
0.00
Error (times)
Assumed sphericity
296.35
105
2.82
Greenhouse-Geisser
296.35
31.69
9.35
Huynh-Feldt
296.35
41.93
7.07
Inferior limit
296.35
15.00
19.8
Los resultados de las dócimas estadísticas para la comprobación del supuesto de la normalidad, con P<0.0100, se muestran en la
Variable
Statistical test
Value of P
Shapiro-Wilk
0.0000
Kolmogoro-Smirnov
<0.0100
En la
Information criteria
Variance-covariance structures
UN
TOEP
Ar(1)
VC
CS
AIC
751.84
751.84
753.84
753.84
751.84
AICC
763.84
763.84
766.88
766.88
763.84
BIC
746.43
746.43
748.22
748.22
746.43
Residual
0.01
En la
a,b,c,d,e,f,g,h,i,j,k,l,m,n Different letters indicate significant differences for P<0.05 ( ) original means
Times (h)
Treatment
Acacia
Albizia
Leucaena
SE± Sign.
2
2.15 m (8.57)
1.54 n (4.67)
2.23 m (9.26)
±0.0494 P=0.0024
4
2.96 ijk (19.23)
2.23 m (9.31)
2.93 ijk (18.74)
6
3.37 fg (29.05)
2.55 l (12.82)
3.25 fgh (25.75)
8
3.63 de (37.87)
2.76 kl (15.80)
3.42 ef (30.58)
10
3.83 cd (45.90)
2.91 jk (18.45)
3.61 de (37.03)
12
3.96 bc (52.67)
3.03 hij (20.79)
3.75 cd (42.37)
16
4.13 ab (61.99)
3.16 ghi (23.58)
3.90 bc (49.36)
24
4.28 a (72.18)
3.31 fg (27.29)
4.07 ab (58.76)
A partir de los resultados obtenidos se realiza una propuesta metodológica y se describen, con mayor, precisión los pasos a seguir en investigaciones en la esfera agropecuaria en que se evalúen experimentos con medidas repetidas en el tiempo en la misma unidad experimental:
Calcular la matriz de correlación de Pearson para determinar el grado de asociación entre los tiempos de muestreo. Analizar el cumplimiento de la condición de esfericidad mediante la prueba de Mauchly y en caso contrario aplicar el factor de corrección. Mauchly prueba que la matriz de varianza-covarianza es esférica o no, si no lo es, aumenta la probabilidad de cometer error de tipo I, por lo tanto es necesario corregir los grados de libertad mediante el épsilon de Huynh-Feldt y Greenhouse-Heisser. Analizar el supuesto teórico de la normalidad mediante las dócimas de Kolmogorov Smirnov y Shapiro Wilk. Examinar varias estructuras de varianza-covarianza para obtener estimaciones con menor sesgo y menor varianza de los parámetros del modelo. No estructurada (UN) Toeplitz (TOEP) Autorregresiva (AR1) Componentes de varianza (VC) Simetría compuesta (SC) Obtención de los criterios de información que ayuden a seleccionar la estructura de varianza-covarianza más adecuada. Akaike (AIC) Akaike corregido (AICC) Bayesiano (BIC) Para el mejor ajuste del modelo, escoger los menores valores de los criterios de información, para obtener la estructura de varianza-covarianza más adecuada. Definir el modelo a emplear para cada situación en particular: Si se cumplió con el supuesto de la normalidad se utilizará el Modelo Lineal Mixto. Si no se cumplió con el supuesto de normalidad probar las variantes de las distribuciones de Poisson, Gamma, Log Normal, Normal y Binomial con sus respectivas funciones de enlace Logarítmico, Identidad y Logístico. Para utilizar el Modelo Lineal Generalizado Mixto.
El incumplimiento del supuesto de normalidad de los residuos a partir de las dócimas utilizadas definió el empleo del Modelo Lineal Generalizado Mixto como alternativa de análisis en experimentos con medidas repetidas en el tiempo en el sector agropecuario. Los criterios de información permitieron la obtención de la estructura óptima de la matriz de varianza-covarianza. Se propone una metodología de trabajo para el procesamiento de datos con estas características.