Skip navigation

Use este identificador para citar ou linkar para este item: https://repositorio.ufpb.br/jspui/handle/123456789/31601
Tipo: TCC
Título: Análise da Geração de Imagens a Partir da Descrição em Texto de Cenas Utilizando Stable Diffusion
Autor(es): Melo Júnior, Jorge Gomes de
Primeiro Orientador: Rêgo, Thaís Gaudencio do
Resumo: O campo da geração de imagens sintéticas, utilizando Inteligência Artificial (IA), teve avanços significativos nos últimos anos, com contribuições notáveis de modelos como o DALL-E, MidJourney, Stable Diffusion e entre outros. Este trabalho se propõe a explorar o atual estado da arte na geração de imagens, a partir de descrições em linguagem natural, enfatizando as técnicas empregadas e abordagens adotadas na área. O Stable Diffusion, popular Modelo de Difusão Latente e referência no âmbito Open Source, que se destaca por realizar a geração de imagens sintéticas em um espaço latente, com baixo tempo de inferência e custo computacional, ´ e o principal foco deste estudo. Os experimentos conduzidos apresentaram variações de itens a serem gerados, quantidade e cor, inicialmente com descrições textuais elementares, como “dog”e “cat”, e avançando para cenários mais detalhados, como “ten red dogs and ten blue cats”. Essa variação permitiu uma análise qualitativa aprofundada do impacto das descrições de cenas nos resultados obtidos pelo modelo Stable Diffusion. O estudo identificou desafios significativos na área, especial mente na otimização das descrições de cenas para os modelos generativos. A descoberta das melhores práticas para a formulação dos prompts ´e um processo em evolução, e é crucial para atingir os resultados esperados nas imagens geradas. Outra questão relevante ´ e a limitação do modelo em produzir imagens realistas e fidedignas aos detalhes requisitados, quando apresentado com prompts que contém um número elevado de objetos a serem representados. A pesquisa conclui que, a seleção adequada das descrições em texto ´ e essencial para orientar o processo de geração de imagens e alcançar os resultados desejados. Entretanto, apesar dos avanços significativos, o campo ainda demanda pesquisas adicionais para superar esses desafios e melhorar a qualidade das imagens geradas.
Abstract: The field of synthetic image generation, using Artificial Intelligence (AI), has made signi f icant advances in recent years, with notable contributions from models such as DALL-E, MidJourney, Stable Diffusion, and others. This work proposes to explore the current state of the art in image generation from natural language descriptions, emphasizing the techniques employed and approaches adopted in the area. The Stable Diffusion, a po pular Latent Diffusion Model and reference in the Open Source scope, which stands out for performing synthetic image generation in a latent space, with low inference time and computational cost, is the main focus of this study. The conducted experiments presented variations of items to be generated, quantity, and color, initially with elementary textual descriptions, such as “dog”and “cat”, and advancing to more detailed scenarios, such as “ten red dogs and ten blue cats”. This variation allowed for a deep qualitative analysis of the impact of scene descriptions on the results obtained by the Stable Diffusion model. The study identified significant challenges in the area, especially in optimizing scene des criptions for generative models. The discovery of best practices for formulating prompts is an evolving process and is crucial to achieving the expected results in the generated images. Another relevant issue is the model’s limitation in producing realistic images faithful to the requested details when presented with prompts that contain a high number of objects to be represented. The research concludes that the appropriate selection of text descriptions is essential to guide the image generation process and achieve the desired re sults. However, despite significant advances, the field still demands additional research to overcome these challenges and improve the quality of the generated images.
Palavras-chave: Modelos generativos
Stable diffusion
Visão computacional
Inteligência artificial
CNPq: CNPQ::OUTROS
Idioma: por
País: Brasil
Editor: Universidade Federal da Paraíba
Sigla da Instituição: UFPB
Departamento: Computação Científica
Tipo de Acesso: Acesso aberto
Attribution-NoDerivs 3.0 Brazil
URI: http://creativecommons.org/licenses/by-nd/3.0/br/
URI: https://repositorio.ufpb.br/jspui/handle/123456789/31601
Data do documento: 20-Jun-2023
Aparece nas coleções:TCC - Ciência da Computação - CI

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
Jorge Gomes de Melo J´unior_TCC.pdfTCC5,05 MBAdobe PDFVisualizar/Abrir


Este item está licenciada sob uma Licença Creative Commons Creative Commons