Skip navigation

Use este identificador para citar ou linkar para este item: https://repositorio.ufpb.br/jspui/handle/123456789/37173
Tipo: Dissertação
Título: Uma estratégia de validação híbrida para calibração multivariada baseada na seleção de amostras fixadas pelo algoritmo SPXY
Autor(es): Costa, João Batista de Sousa
Orientador: Silva, Edvan Cirino da
Resumo: Em análise multivariada, é usual deparar-se com o problema recorrente de particionar o conjunto de dados de modo a obter, para o subconjunto de calibração, as amostras mais representativas e que cubram a fronteira do espaço amostral de natureza multidimensional. O presente trabalho teve como objetivo desenvolver uma estratégia de validação híbrida para calibração multivarida (a exemplo da MLR-APS e do PLS group-out), a qual previne problemas de extrapolação e proporciona modelos com maior capacidade preditiva e robustez. A estratégia propostautiliza o algoritmo SPXY para selecionar as amostras de fronteira do espaço experimental para a calibração eque sejammais representativaspor explorar a estatística de X (respostas instrumentais) e Y (parâmetro de interesse). Para avaliar seu desempenho, foram empregados dois conjuntos de dados de NIR. O primeiro envolve a análise de amostras detrigo nas quaisfoi determinado o conteúdo de proteína; o segundo refere-se à determinação do teor de umidade em milho.Na validação híbridaaplicada à modelagem PLS grou-out, não foi possível avaliar a variabilidade do RMSEP em função do índice de amostras. Isso porque o mesmo não apresentava uma variabilidade significativa dos resultados para 20 execuções, impossibilitando uma melhor avaliação da estratégia proposta.Na modelagem MLR-APS, observou-se uma variabilidade em termos de RMSECV e RMSEP, tornando possível a avaliação da influência das amostras fixadas na capacidade preditiva dos modelos. Os modelos resultantes da fixação de amostras de fronteira na calibração apresentaram os maiores coeficientes de correlação, os quaisforam iguais a, respectivamente, 0,9996 e 0,9934 para o conjunto de dados de milho e de trigo. Os valores de RMSEP e RMSECV para os dois conjuntos apresentaram uma diminuição significativa. De fato, foram obtidos, repectivamente, os valores 0,194e 0,163% (m/m) para o conteúdo de proteína no trigo e 0,0121 e 0,0061% (m/m) para umidadenas amostras de milho. Um número de variáveis menor foi também obtido. A estratégiade validação híbrida é uma alternativa viável paracalibração multivariada, proporcionado modelosmais parcimoniosos e com maior robustez e capacidade preditiva.
Abstract: In multivariate analysis, it is usual to come across the recurring problem of partitioning the dataset in order to obtain, for the calibration subset, the most representative samples that cover the boundary of the multidimensional sample space.The present work aimed to develop a hybrid validation strategy for multivariate calibration (such as MLR-APS and PLS group-out), which prevents extrapolation problems and provides models with greater predictive capacity and robustness.The proposed strategy uses the SPXY algorithm to select the experimental space boundary samples for calibration and which are more representative for exploring the statistics of X (instrumental responses) and Y (parameter of interest). To assess its performance, two sets of NIR reflectance data were used.The first involves the analysis of wheat samples in which the protein content has been determined; the second refers to the determination of the moisture content in corn. In the hybrid validation applied to the PLS grou-out modeling, it was not possible to assess the variability of the RMSEP as a function of the sample index. This is because it did not present a significant variability of results for 20 executions, making it impossible to better evaluate the proposed strategy. In the MLR-APS modeling, a variability was observed in terms of RMSECV and RMSEP, making it possible to assess the influence of fixed samples on the predictive capacity of the models.The models resulting from the fixation of frontier samples in the calibration showed the highest correlation coefficients, which were equal to, respectively, 0.9996 and 0.9934 for the corn and wheat dataset. The values of RMSEP and RMSECV for the two sets showed a significant decrease.In fact, the values of 0.194 and 0.163 % (m/m) were obtained, respectively, for the protein content in wheat and 0.0121 and 0.0061 % (m/m) for moisture in the corn samples. A smaller number of variables was also obtained. The hybrid validation strategy is a viable alternative for multivariate calibration, providing more parsimonious models with greater robustness and predictive capacity.
Palavras-chave: Validação cruzada
Amostras fixadas
SPXY
Calibração multivariada
PLS
APS-MLR
Cross validation
Fixed samples
SPXY algorithm
Multivariate calibration
CNPq: CNPQ::CIENCIAS EXATAS E DA TERRA::QUIMICA
Idioma: por
País: Brasil
Editor: Universidade Federal da Paraíba
Sigla da Instituição: UFPB
Departamento: Química
Programa: Programa de Pós-Graduação em Química
Tipo de Acesso: Acesso aberto
Attribution-NoDerivs 3.0 Brazil
URI: http://creativecommons.org/licenses/by-nd/3.0/br/
URI: https://repositorio.ufpb.br/jspui/handle/123456789/37173
Data do documento: 28-Jun-2021
Aparece nas coleções:Centro de Ciências Exatas e da Natureza (CCEN) - Programa de Pós-Graduação em Química



Este item está licenciada sob uma Licença Creative Commons Creative Commons