Explorando o Potencial da IA Generativa para Melhorar a Classificação de Estilos Arquitetônicos com Data Augmentation

Albuquerque, Caio Assunção

Use este identificador para citar ou linkar para este item: https://repositorio.ufpb.br/jspui/handle/123456789/32493

Registro completo de metadados

Campo DC	Valor	Idioma
dc.creator	Albuquerque, Caio Assunção	-
dc.date.accessioned	2024-11-18T19:08:21Z	-
dc.date.available	2024-05-29	-
dc.date.available	2024-11-18T19:08:21Z	-
dc.date.issued	2024-04-30	-
dc.identifier.uri	https://repositorio.ufpb.br/jspui/handle/123456789/32493	-
dc.description.abstract	The growing interest in generative artificial intelligence stands out as a promising opportunity to expand the boundaries of image creation and manipulation. Specifically, diffusion models offer new perspectives to increase both the volume and diversity of images, which are crucial for training accurate classification models. In this study, we aimed to explore the potential of the Stable Diffusion model to enrich training datasets and consequently enhance image classification models, focusing on identifying architectural styles of historical monuments. This approach enabled the generation of new images from text prompts and an input image, leading to a significant increase in the volume of the training dataset. Additionally, to train the image classification models, a convolutional neural network (CNN), ResNet50, was employed using the expanded dataset composed of synthetic and original images. Five experiments were conducted. In Experiment 1, we explored the potential of synthetic images to improve the generalization ability of the Baroque style classifier while maintaining a 50% proportion for each image type. Data augmentation was not used in this experiment, and slight variations in accuracy were observed, suggesting that synthetic images can be used for data augmentation without losing the essential characteristics of each class. In Experiments 2 and 3, data augmentation was applied only to a single below-average performing class, tripling the volume of images in the training set, while in Experiment 4, data augmentation was performed for the two worst-performing classes. For these three experiments, there were improvements in the classifier's accuracy where the training set was augmented. In Experiment 5, data augmentation was performed for all classes, increasing the volume of generated images for each class up to four times; however, there were no significant changes in the accuracy of the classes except for the Neoclassical class. In this class, there was a significant improvement in accuracy, from 60.34% to 82.76%, although a tendency to misclassify eclectic images as neoclassical was noted.	pt_BR
dc.description.provenance	Submitted by Michelle Barbosa (mi.2020@outlook.com.br) on 2024-11-18T19:08:21Z No. of bitstreams: 2 license_rdf: 805 bytes, checksum: c4c98de35c20c53220c07884f4def27c (MD5) Caio Assunção Albuquerque_TCC.pdf: 24753138 bytes, checksum: 9c2a36678f952d4d0ee2fd70d82e79be (MD5)	en
dc.description.provenance	Made available in DSpace on 2024-11-18T19:08:21Z (GMT). No. of bitstreams: 2 license_rdf: 805 bytes, checksum: c4c98de35c20c53220c07884f4def27c (MD5) Caio Assunção Albuquerque_TCC.pdf: 24753138 bytes, checksum: 9c2a36678f952d4d0ee2fd70d82e79be (MD5) Previous issue date: 2024-04-30	en
dc.language	por	pt_BR
dc.publisher	Universidade Federal da Paraíba	pt_BR
dc.rights	Acesso aberto	pt_BR
dc.rights	Attribution-NoDerivs 3.0 Brazil	*
dc.rights.uri	http://creativecommons.org/licenses/by-nd/3.0/br/	*
dc.subject	Aumento de dados	pt_BR
dc.subject	IA generativa	pt_BR
dc.subject	Rede neural convolucional	pt_BR
dc.title	Explorando o Potencial da IA Generativa para Melhorar a Classificação de Estilos Arquitetônicos com Data Augmentation	pt_BR
dc.type	TCC	pt_BR
dc.contributor.advisor1	Rêgo, Thaís Gaudencio Do	-
dc.contributor.advisor1Lattes	http://lattes.cnpq.br/3166390632199101	pt_BR
dc.creator.Lattes	http://lattes.cnpq.br/8549689207526317	pt_BR
dc.description.resumo	O interesse crescente na inteligência artificial generativa destaca-se como uma oportunidade promissora para ampliar os limites da criação e manipulação de imagens. Especificamente, os modelos de difusão oferecem novas perspectivas para aumentar tanto o volume quanto a diversidade das imagens, que são fundamentais para treinar modelos precisos de classificação. Neste estudo, buscamos explorar o potencial do modelo Stable Diffusion para enriquecer os conjuntos de dados de treinamento e, consequentemente, aprimorar modelos de classificação de imagens, com foco na identificação de estilos arquitetônicos de monumentos históricos. Essa abordagem permitiu a geração de novas imagens a partir de prompts de texto e uma imagem de entrada, proporcionando um aumento significativo no volume do conjunto de dados de treinamento. Além disso, para treinar os modelos de classificação de imagens, foi empregado uma rede neural convolucional (CNN), ResNet50, utilizando o conjunto de dados expandido, composto pelas imagens sintéticas e pelas imagens originais. Foram realizados 5 experimentos. No experimento 1, foi explorado o potencial das imagens sintéticas na melhoria da capacidade de generalização do classificador de estilo Barroco, mantendo uma proporção de 50% para cada tipo de imagem, neste experimento, não foi usado data augmentation, e foi observado pequenas variações na acurácia, sugerindo que as imagens sintéticas podem ser utilizadas para o data augmentation sem perder as características essenciais de cada classe. Nos experimentos 2 e 3, o data augmentation foi aplicado apenas a uma única classe de desempenho abaixo da média,triplicando o volume de imagens do conjunto de treino, enquanto no experimento 4, foi realizado data augmentation para as duas classes de pior desempenho. Para esses três experimentos houve melhorias na taxa de acerto do classificador onde o conjunto de treino foi aumentado. Já no experimento 5, foi feito data augmentation para todas as classes, aumentando em até 4 vezes o volume de imagens geradas para cada classe, entretanto não houve mudanças significativas na acurácia das classes, exceto para classe neoclássica, neste houve uma melhoria significativa na acurácia, de 60,34% para 82,76%, embora tenha sido notada uma tendência em classificar erroneamente imagens ecléticas como neoclássicas.	pt_BR
dc.publisher.country	Brasil	pt_BR
dc.publisher.department	Computação Científica	pt_BR
dc.publisher.initials	UFPB	pt_BR
dc.subject.cnpq	CNPQ::OUTROS	pt_BR
Aparece nas coleções:	TCC - Ciência da Computação - CI

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
Caio Assunção Albuquerque_TCC.pdf	TCC	24,17 MB	Adobe PDF	Visualizar/Abrir

Mostrar registro simples do item Visualizar estatísticas

Este item está licenciada sob uma Licença Creative Commons

Repositório Institucional da UFPB