Skip navigation

Use este identificador para citar ou linkar para este item: https://repositorio.ufpb.br/jspui/handle/123456789/26066
Tipo: Dissertação
Título: Abordagem de aprendizagem de máquina para predição de famílias de peptídeos antimicrobianos vegetais
Autor(es): Andrade, Annie Elisabeth Beltrão de
Primeiro Orientador: Rêgo, Thaís Gaudencio do
Primeiro Coorientador: Quintans, Isadora Louise Alves da Costa Ribeiro
Resumo: Os peptídeos antimicrobianos (AMPs) vegetais consistem em moléculas com 29 a 100 aminoácidos e geralmente carregadas positivamente, sendo encontrados em uma ampla variedade de formas de vida. A maioria dos AMPs tem ação anti patogênica direta, enquanto outros apresentam atividade imunomoduladora. Num contexto de rápido desenvolvimento de multi resistência crescente aos antibióticos convencionais, e a necessidade da diminuição da utilização de agentes agrotóxicos, esforços para o desenvolvimento de produtos biotecnológicos baseados em AMPs vêm se acelerando. AMPs são conhecidos por terem composição de sequência específica para suas famílias, característica que pode ser utilizada para atuar na prospecção e engenharia de AMP, auxiliando na caracterização de funções, padrões bioquímicos e características de interesse industrial. No entanto, abordagens experimentais são custosas e laboriosas, além disso, a predição e caracterização de AMPs in silico é difícil visto o tamanho pequeno de sua sequência, mas cruciais. Nesse sentido, o objetivo deste trabalho foi o desenvolvimento de modelos utilizando métodos de aprendizagem supervisionada capazes de classificar seis famílias de peptídeos antimicrobianos de plantas: Tioninas, Proteínas de Transferência de Lipídeos, Heveínas, Snakinas, Defensinas e Ciclotídeos, visto que essa caracterização pode acelerar pesquisas com AMPs. Os métodos utilizados para classificação foram o LightGBM, regressão logística, vizinhos mais próximos, árvore de decisão, máquina de vetor de suporte e naive bayes. O treinamento foi feito usando as bases de dados PhytAMP e PlantpepDB, cujos rótulos foram atribuídos por metodologias experimentais. Os resultados foram comparados com os sistemas CAMPSing e um sistema de alinhamento de sequências previamente desenvolvido pelo nosso grupo de pesquisa com a base OneKP, bem como, foram realizados testes com o modelo desenvolvido para classificação das bases de dados do CAMPR3, que contempla as famílias Tionina e Defensina; e OneKP, utilizada por Quintans (2019), que contempla as famílias Tioninas, LTPs, Heveínas e Snakinas. Ambas as bases têm rótulos atribuídos por metodologias in silico . Em relação aos resultados, considerando as bases de treinamento, o algoritmo LightGBM apresentou os melhores valores de desempenho em relação aos demais. Após as definições dos melhores hiperparâmetros, o LightGBM apresentou uma acurácia média de 91,5%. Em relação à base de dados OneKP, o método apresentou uma acurácia média de 91,2%, sendo o desempenho de predição variável entre as classes. Por fim, para a base do CAMPR3, o modelo apresentou uma acurácia média de 93%.
Abstract: Plant antimicrobial peptides (AMPs) consist of molecules ranging from 29 to 100 amino acids, generally positively charged and are found in a wide variety of life forms. Most AMPs have direct antipathogenic action, while others have immunomodulatory activity. In a context of a rapid development of increasing multi-resistance to conventional antibiotics as well as the need to reduce the use of pesticides, efforts to develop biotechnological products based on AMPs have been accelerated. AMPs families are known to have a specific sequence composition, a characteristic that can be used to prospect and design AMPs, helping to characterize functions, biochemical patterns and characteristics of industrial interest. However, experimental approaches are costly and laborious, besides, AMPs in silico prediction and characterization are hard because of the small length and sequence, but crucial. In this sense, the objective of this work was to develop models using supervised learning methods capable of classifying six families of plant antimicrobial peptides: Thionins, LTPs, Heveins, Snakins, Defensins and Cyclotides, since this characterization can accelerate research with AMP. The methods used for classification were LightGBM, logistic regression, nearest neighbors, decision tree, support vector machine and naive bayes. The training was performed using the PhytAMP and PlantpepDB databases, whose labels were assigned by experimental methodologies. The results were compared with the CAMPSing systems and the one described in Quintans (2019), as well as tests were carried out with the model developed to classify the CAMPR3 databases, which includes the Thionine and Defensin families; and OneKP, and a alignment based system developed by our study group with OneKP base, which includes the Thionin, Lipid Transference Protein, Hevein and Snakin families. Both databases have labels assigned using in silico methodologies. Regarding the results, considering the training bases, the LightGBM algorithm presented the best performance values in relation to the others. After defining the best hyperparameters, LightGBM presented an average accuracy of 91.5%. In relation to the OneKP database, the method presented an average accuracy of 91.2%, with the prediction performance being variable between classes. Finally, for the CAMPR3 base, the model presented an average accuracy of 93%.
Palavras-chave: Light Gradient Boosting Machine
Aprendizagem supervisionada
Classificação
Biologia molecular
Plantas
Supervised learning
Classification
Molecular biology
Plants
CNPq: CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
Idioma: por
País: Brasil
Editor: Universidade Federal da Paraíba
Sigla da Instituição: UFPB
Departamento: Informática
Programa: Programa de Pós-Graduação em Informática
Tipo de Acesso: Acesso embargado
Attribution-NoDerivs 3.0 Brazil
URI: http://creativecommons.org/licenses/by-nd/3.0/br/
URI: https://repositorio.ufpb.br/jspui/handle/123456789/26066
Data do documento: 29-Ago-2022
Aparece nas coleções:Centro de Informática (CI) - Programa de Pós-Graduação em Informática

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
AnnieElisabethBeltrãoDeAndrade_Dissert.pdf1,56 MBAdobe PDFVisualizar/Abrir    Solicitar uma cópia


Este item está licenciada sob uma Licença Creative Commons Creative Commons