Use este identificador para citar ou linkar para este item:
https://repositorio.ufpb.br/jspui/handle/123456789/32100
Tipo: | Tese |
Título: | Algoritmo inspirado nos morcegos para seleção de variáveis em problemas de classificação |
Autor(es): | Souza, Juliana da Cruz |
Primeiro Orientador: | Silva, Edvan Cirino da |
Primeiro Coorientador: | Soares, Sófacles Figueredo Carreiro |
Resumo: | O uso da Análise Discriminante Linear (LDA) em modelagem de classificação multivariada permite a construção de modelos no domínio dos dados originais, o que possibilita a realização de inferência química direta dos resultados. Entretanto, essa técnica requer uma baixa dimensionalidade dos dados e produz modelos com problemas de generalização quando existe uma alta multicolinearidade entre as variáveis. Para superar esses problemas, o uso de algoritmos de seleção de variáveis tem se mostrado muito eficiente especialmente quando dados UV-Vis, NIR, etc, são usados. Nesse contexto, o uso de algoritmos bio-inspirados (a exemplo do algoritmo genético-GA) tem permitido a realização bem-sucedida de seleção de variáveis. No presente trabalho, propõe-se o algoritmo inspirado no comportamento dos morcegos (Bat Algorithm-BA) para a seleção de variáveis em modelagem via LDA. O algoritmo proposto, denominado aqui BA-LDA, utiliza uma função de custo associada ao risco médio de classificação incorreta (Gcost), a qual foi implementada no código do seu programa escrito em Matlab. O desempenho do BA-LDA foi avaliado em quatro estudos de caso, envolvendo o emprego de dados espectrométricos de massas (MS), NIR, UV-Vis e em dados com informação simulada. Para cada conjunto de dados analisados, os parâmetros do BA-LDA foram otimizados usando um planejamento fatorial fracionário 24-1. Os dados MS foram provenientes de análises de 216 amostras de soro de pacientes com e sem câncer de ovário. Os dados NIR foram obtidos na análise de 60 amostras de cafés pertencentes a duas classes (gourmet e tradicionais). Para obtenção de dados UV-Vis, foram registrados espectros de amostras de óleos vegetais pertencentes a quatro classes, a saber: soja, canola, milho e girassol. Para o estudo com uma classe de amostras simuladas, foram empregados dados NIR de diesel. O desempenho do BA-LDA foi comparado ao obtido com os algoritmos GA-LDA e SPA-LDA usados para seleção de variáveis e com as técnicas de análise discriminante por mínimos quadrados parciais (PLS-DA) e modelagem independente e flexível por analogia de classe (SIMCA). O algoritmo proposto selecionou 11, 3, 7 e 9 variáveis e obteve as taxas de classificação correta (TCC) de 93, 100, 100 e 100 % na classificação baseada nos dados de, respectivamente, MS, NIR, UV-Vis e da classe simulada (NIR). No conjunto de dados MS, o BA-LDA superou o desempenho do SPA-LDA (79,1 % de TCC) e GA-LDA (88.4 % de TCC ), porém foi inferior ao do algoritmo PLS-DA que apresentou 98% de TCC. Para os demais conjuntos de dados, a performance do BA-LDA foi comparável ao desempenho dos algoritmos clássicos. Em todos os estudos de caso, o BA-LDA superou o desempenho do SIMCA. Ademais, o BA-LDA se mostrou menos susceptível ao ruído adicionado aos espectros das amostras de teste do conjunto de dados simulados. Visto que o BA-LDA é estocástico, seu principal diferencial é a convergência e robustez que demonstrou em todos os conjuntos de dados, nos quais as variáveis selecionadas possibilitaram uma interpretação química segura. |
Abstract: | The use of Linear Discriminant Analysis (LDA) in multivariate classification modeling allows the construction of models in the domain of the original data, in which a direct chemical inference of the results may be accomplished. However, this technique requires a low dimensionality of the data and produces models with generalization problems when there is a high multicollinearity among the variables. To overcome these drawbacks, the use of variable selection algorithms has proved to be very efficient especially when UV-Vis, NIR, etc, data are used. In this context, bio-inspired algorithms (such as the genetic algorithm-GA) have allowed the successful selection of variables. In the present work, a bat-inspired algorithm (BA) for selection variables in modeling via LDA is proposed. This algorithm, here named BA-LDA, uses a cost function associated with the average risk of misclassification (Gcost), which was implemented in its code written in Matlab. The performance of BA-LDA was evaluated in four case studies, involving the use of mass spectrometric (MS), NIR, and UV-Vis data, as well as a dataset with simulated information. For each analyzed dataset, the BA-LDA parameters were optimized using a 24-1 fractional factorial design. MS data were resulting of analyzes of 216 serum samples from patients with and without ovarian cancer. The NIR data were acquired in analysis of 60 coffee samples belonging to two classes (gourmet and traditional). UV-Vis data were obtained from recorded spectra of vegetable oil samples belonging to four classes, namely: soybean, canola, corn and sunflower. For the study with a class of simulated samples, diesel NIR data were employed. The performance of BA-LDA was compared to those obtained with the GA-LDA and SPA-LDA algorithms used for variable selection; it was also compared to the partial least squares discriminant analysis (PLS-DA) and independent and flexible modeling by class analogy (SIMCA). The proposed algorithm selected 11, 3, 7 and 9 variables and obtained correct classification rates (TCC %) of 93, 100, 100 and 100% in the classification based on data from MS, NIR, UV-Vis and of the simulated class (NIR). In the case of MS data, BA-LDA outperformed SPA-LDA (79.1% TCC) and GA-LDA (88.4% TCC), but was lower than the PLS-DA algorithm that showed a TCC of 98%. For the other datasets, the BA-LDA performance was comparable to the classical algorithms. In all case studies, BA-LDA outperformed SIMCA. Furthermore, the BA-LDA proved to be less susceptible to noise added to the spectra of the test samples from the simulated dataset. Since the BA-LDA is stochastic, its main differential is the convergence and robustness that it demonstrated in all data sets, in which the selected variables allowed a safe chemical interpretation. |
Palavras-chave: | Química analítica Bioinspiração Análise discriminante linear Classificação multivariada Analytical chemistry Biospiration Linear discriminant analysis Multivariate classification |
CNPq: | CNPQ::CIENCIAS EXATAS E DA TERRA::QUIMICA |
Idioma: | por |
País: | Brasil |
Editor: | Universidade Federal da Paraíba |
Sigla da Instituição: | UFPB |
Departamento: | Química |
Programa: | Programa de Pós-Graduação em Química |
Tipo de Acesso: | Acesso aberto Attribution-NoDerivs 3.0 Brazil |
URI: | http://creativecommons.org/licenses/by-nd/3.0/br/ |
URI: | https://repositorio.ufpb.br/jspui/handle/123456789/32100 |
Data do documento: | 3-Mar-2023 |
Aparece nas coleções: | Centro de Ciências Exatas e da Natureza (CCEN) - Programa de Pós-Graduação em Química |
Arquivos associados a este item:
Arquivo | Descrição | Tamanho | Formato | |
---|---|---|---|---|
JulianaDaCruzSouza_Tese.pdf | 4,67 MB | Adobe PDF | Visualizar/Abrir |
Este item está licenciada sob uma
Licença Creative Commons