Use este identificador para citar ou linkar para este item:
https://repositorio.ufpb.br/jspui/handle/123456789/32493
Tipo: | TCC |
Título: | Explorando o Potencial da IA Generativa para Melhorar a Classificação de Estilos Arquitetônicos com Data Augmentation |
Autor(es): | Albuquerque, Caio Assunção |
Primeiro Orientador: | Rêgo, Thaís Gaudencio Do |
Resumo: | O interesse crescente na inteligência artificial generativa destaca-se como uma oportunidade promissora para ampliar os limites da criação e manipulação de imagens. Especificamente, os modelos de difusão oferecem novas perspectivas para aumentar tanto o volume quanto a diversidade das imagens, que são fundamentais para treinar modelos precisos de classificação. Neste estudo, buscamos explorar o potencial do modelo Stable Diffusion para enriquecer os conjuntos de dados de treinamento e, consequentemente, aprimorar modelos de classificação de imagens, com foco na identificação de estilos arquitetônicos de monumentos históricos. Essa abordagem permitiu a geração de novas imagens a partir de prompts de texto e uma imagem de entrada, proporcionando um aumento significativo no volume do conjunto de dados de treinamento. Além disso, para treinar os modelos de classificação de imagens, foi empregado uma rede neural convolucional (CNN), ResNet50, utilizando o conjunto de dados expandido, composto pelas imagens sintéticas e pelas imagens originais. Foram realizados 5 experimentos. No experimento 1, foi explorado o potencial das imagens sintéticas na melhoria da capacidade de generalização do classificador de estilo Barroco, mantendo uma proporção de 50% para cada tipo de imagem, neste experimento, não foi usado data augmentation, e foi observado pequenas variações na acurácia, sugerindo que as imagens sintéticas podem ser utilizadas para o data augmentation sem perder as características essenciais de cada classe. Nos experimentos 2 e 3, o data augmentation foi aplicado apenas a uma única classe de desempenho abaixo da média,triplicando o volume de imagens do conjunto de treino, enquanto no experimento 4, foi realizado data augmentation para as duas classes de pior desempenho. Para esses três experimentos houve melhorias na taxa de acerto do classificador onde o conjunto de treino foi aumentado. Já no experimento 5, foi feito data augmentation para todas as classes, aumentando em até 4 vezes o volume de imagens geradas para cada classe, entretanto não houve mudanças significativas na acurácia das classes, exceto para classe neoclássica, neste houve uma melhoria significativa na acurácia, de 60,34% para 82,76%, embora tenha sido notada uma tendência em classificar erroneamente imagens ecléticas como neoclássicas. |
Abstract: | The growing interest in generative artificial intelligence stands out as a promising opportunity to expand the boundaries of image creation and manipulation. Specifically, diffusion models offer new perspectives to increase both the volume and diversity of images, which are crucial for training accurate classification models. In this study, we aimed to explore the potential of the Stable Diffusion model to enrich training datasets and consequently enhance image classification models, focusing on identifying architectural styles of historical monuments. This approach enabled the generation of new images from text prompts and an input image, leading to a significant increase in the volume of the training dataset. Additionally, to train the image classification models, a convolutional neural network (CNN), ResNet50, was employed using the expanded dataset composed of synthetic and original images. Five experiments were conducted. In Experiment 1, we explored the potential of synthetic images to improve the generalization ability of the Baroque style classifier while maintaining a 50% proportion for each image type. Data augmentation was not used in this experiment, and slight variations in accuracy were observed, suggesting that synthetic images can be used for data augmentation without losing the essential characteristics of each class. In Experiments 2 and 3, data augmentation was applied only to a single below-average performing class, tripling the volume of images in the training set, while in Experiment 4, data augmentation was performed for the two worst-performing classes. For these three experiments, there were improvements in the classifier's accuracy where the training set was augmented. In Experiment 5, data augmentation was performed for all classes, increasing the volume of generated images for each class up to four times; however, there were no significant changes in the accuracy of the classes except for the Neoclassical class. In this class, there was a significant improvement in accuracy, from 60.34% to 82.76%, although a tendency to misclassify eclectic images as neoclassical was noted. |
Palavras-chave: | Aumento de dados IA generativa Rede neural convolucional |
CNPq: | CNPQ::OUTROS |
Idioma: | por |
País: | Brasil |
Editor: | Universidade Federal da Paraíba |
Sigla da Instituição: | UFPB |
Departamento: | Computação Científica |
Tipo de Acesso: | Acesso aberto Attribution-NoDerivs 3.0 Brazil |
URI: | http://creativecommons.org/licenses/by-nd/3.0/br/ |
URI: | https://repositorio.ufpb.br/jspui/handle/123456789/32493 |
Data do documento: | 30-Abr-2024 |
Aparece nas coleções: | TCC - Ciência da Computação - CI |
Arquivos associados a este item:
Arquivo | Descrição | Tamanho | Formato | |
---|---|---|---|---|
Caio Assunção Albuquerque_TCC.pdf | TCC | 24,17 MB | Adobe PDF | Visualizar/Abrir |
Este item está licenciada sob uma
Licença Creative Commons