Detecção e destaque em vídeo de objetos utilizando YOLO

Araújo, Aline Moura

Use este identificador para citar ou linkar para este item: https://repositorio.ufpb.br/jspui/handle/123456789/26374

Registro completo de metadados

Campo DC	Valor	Idioma
dc.creator	Araújo, Aline Moura	-
dc.date.accessioned	2023-03-06T14:15:45Z	-
dc.date.available	2022-12-20	-
dc.date.available	2023-03-06T14:15:45Z	-
dc.date.issued	2022-10-31	-
dc.identifier.uri	https://repositorio.ufpb.br/jspui/handle/123456789/26374	-
dc.description.abstract	In mobile devices and cameras, the image magnification (zoom) functionality is increasingly present, however, it is still an innovation to use object detection to automate this task. Detection is a classic problem related to computer vision that deals with the location of instances of semantic objects in a specific class. In this sense, the objective of this work was to implement a system capable of performing the detection of objects automatically in video, evaluating its operation with acoustic guitar, electric guitar and microphone. After this detection, a new video was generated emphasizing the detected instrument, in order to facilitate the observation of its execution. For that, a system was developed that, using a YOLOV4 model, is able to identify objects and perform a procedure similar to a zoom in on the video. A pipeline was implemented, where the frames are first extracted, and then the detection of a parameterized object in an interval of 12 frames. After detection, the clipping is made following an interpolation methodology to deal with the fluidity of the video, and, finally, a new video is generated from these clippings. Tests were made with different parameters for extracting the frames, using videos retrieved from Youtube, evaluating 4 scenarios for extracting the images. In these tests, the performance of the detection model, the time taken for extraction and the percentage of information excluded in the output video in each scenario were evaluated. For the validation of this pipeline, a methodology was adopted, assuming that detection would work efficiently, to validate the heuristic implemented in the interpolation, the confidence of the model for the 4 extraction scenarios and the behavior of the system when dealing with occlusion problems in the video.. In the validation, a pre-trained model of the YOLOV4 open source neural network with 80 classes was used, performing the detection of arbitrary objects, with cat and dog being the chosen classes. In addition, a customized YOLOV4 model was also trained to be able to perform specific detection of musical instruments with the Imagenet database. Regarding the network results, although not the focus of this work, the average accuracy achieved by the model in the guitar, acoustic guitar and microphone classes was 61.90%, 87.94% and 62.27%, respectively. In the zoom in system, it was possible to notice that the better the extraction parameter, the greater the number of objects detected by the model, as well as the greater precision and quality of detection. There was a small loss of quality from the resolution of the original video, and there was no significant loss of video content due to frame gap in detection. Concluding the analysis of the results obtained, it is possible to affirm that the proposal of the work was successful, therefore, all the presented objectives were reached. For future work, we aim to test new detection models, implement new output video evaluation criteria and parallelize the pipeline steps.	pt_BR
dc.description.provenance	Submitted by Fernando Augusto Alves Vieira (fernandovieira@biblioteca.ufpb.br) on 2023-02-27T10:15:00Z No. of bitstreams: 2 license_rdf: 805 bytes, checksum: c4c98de35c20c53220c07884f4def27c (MD5) AlineMouraAraújo_Dissert.pdf: 16605978 bytes, checksum: f474f967d7e0c6d8b1dcf4e5e2cc5492 (MD5)	en
dc.description.provenance	Approved for entry into archive by Biblioteca Digital de Teses e Dissertações BDTD (bdtd@biblioteca.ufpb.br) on 2023-03-06T14:15:45Z (GMT) No. of bitstreams: 2 license_rdf: 805 bytes, checksum: c4c98de35c20c53220c07884f4def27c (MD5) AlineMouraAraújo_Dissert.pdf: 16605978 bytes, checksum: f474f967d7e0c6d8b1dcf4e5e2cc5492 (MD5)	en
dc.description.provenance	Made available in DSpace on 2023-03-06T14:15:45Z (GMT). No. of bitstreams: 2 license_rdf: 805 bytes, checksum: c4c98de35c20c53220c07884f4def27c (MD5) AlineMouraAraújo_Dissert.pdf: 16605978 bytes, checksum: f474f967d7e0c6d8b1dcf4e5e2cc5492 (MD5) Previous issue date: 2022-10-31	en
dc.description.sponsorship	Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPES	pt_BR
dc.language	por	pt_BR
dc.publisher	Universidade Federal da Paraíba	pt_BR
dc.rights	Acesso aberto	pt_BR
dc.rights.uri	http://creativecommons.org/licenses/by-nd/3.0/br/	*
dc.subject	Sistemas de computação	pt_BR
dc.subject	YOLO	pt_BR
dc.subject	Instrumentos musicais	pt_BR
dc.subject	Detecção de objetos	pt_BR
dc.subject	Detecção em vídeo	pt_BR
dc.subject	Computing systems	pt_BR
dc.subject	Musical instruments	pt_BR
dc.subject	Object detection	pt_BR
dc.subject	Video detection	pt_BR
dc.title	Detecção e destaque em vídeo de objetos utilizando YOLO	pt_BR
dc.type	Dissertação	pt_BR
dc.contributor.advisor1	Rêgo, Thaís Gaudencio do	-
dc.contributor.advisor1Lattes	http://lattes.cnpq.br/3166390632199101	pt_BR
dc.contributor.advisor-co1	Silva, Lincoln David Nery e	-
dc.contributor.advisor-co1Lattes	http://lattes.cnpq.br/0721450925602821	pt_BR
dc.creator.Lattes	http://lattes.cnpq.br/0069599162039995	pt_BR
dc.description.resumo	Em dispositivos celulares e câmeras, está crescentemente presente a funcionalidade de ampliação de imagem (do inglês, zoom), no entanto, ainda é uma inovação utilizar detecção de objetos para automatizar esta tarefa. A detecção é um problema clássico relacionado à visão computacional que trata da localização de instâncias de objetos semânticos em uma classe específica. Nesse sentido, o objetivo deste trabalho foi implementar um sistema capaz de realizar a detecção de objetos de forma automática em vídeo, avaliando seu funcionamento com guitarra, violão e microfone. Após essa detecção, um novo vídeo foi gerado dando ênfase ao instrumento detectado, a fim de facilitar a observação de sua execução. Para tanto, foi desenvolvido um sistema que, utilizando um modelo YOLOv4, é capaz de identificar objetos e fazer um procedimento semelhante a um zoom in no vídeo. Foi implementado um pipeline, onde é feita primeiramente uma extração dos quadros dos vídeos, e, em seguida, a detecção de um objeto parametrizado em um intervalo de 12 quadros. Após a detecção, é feito o recorte seguindo uma metodologia de estabilização para tratar a fluidez do vídeo, e, por fim, um novo vídeo é gerado a partir desses recortes. Foram feitos testes com diferentes parâmetros de extração dos quadros, utilizando vídeos recuperados do Youtube, avaliando 4 cenários para a extração das imagens. Nesses testes, foram avaliados a performance do modelo de detecção, o tempo levado para a extração e o percentual de informação excluída no vídeo de saída em cada cenário. Para a validação desse pipeline, foi adotada uma metodologia, assumindo que detecção funcionaria de forma eficiente, para validar a heurística implementada na estabilização, a confiança do modelo para os 4 cenários de extração e o comportamento do sistema ao lidar com problemas de oclusão no vídeo. Na validação, foi utilizado um modelo pré-treinado da rede neural de código aberto YOLOv4 com 80 classes, realizando a detecção de objetos arbitrários, sendo gato e cachorro as classes escolhidas. Além disso, também foi treinado um modelo personalizado YOLOv4 para que seja capaz de fazer a detecção específica de instrumentos musicais, utilizando a base de dados da Imagenet. Em relação aos resultados da rede, apesar de não ser o foco deste trabalho, a precisão média alcançada pelo modelo nas classes guitarra, violão e microfone foi 61,90%, 87,94% e 62,27%, respectivamente. No sistema de zoom in, foi possível perceber que, quanto melhor o parâmetro de extração, maior é a quantidade de objetos detectados pelo modelo, como, também, a detecção tem maior precisão e qualidade. Houve uma pequena perda de qualidade em relação à resolução do vídeo original, e não houve perda significativa de conteúdo do vídeo devido ao intervalo dos quadros na detecção. Concluindo as análises dos resultados obtidos, é possível afirmar que a proposta do trabalho obteve êxito, pois, todos os objetivos apresentados foram alcançados. Para trabalhos futuros, almeja-se testar novos modelos de detecção, implementação de novos critérios de avaliação do vídeo de saída e paralelização das etapas do pipeline.	pt_BR
dc.publisher.country	Brasil	pt_BR
dc.publisher.department	Informática	pt_BR
dc.publisher.program	Programa de Pós-Graduação em Informática	pt_BR
dc.publisher.initials	UFPB	pt_BR
dc.subject.cnpq	CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO	pt_BR
Aparece nas coleções:	Centro de Informática (CI) - Programa de Pós-Graduação em Informática

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
AlineMouraAraújo_Dissert.pdf		16,22 MB	Adobe PDF	Visualizar/Abrir

Mostrar registro simples do item Visualizar estatísticas

Este item está licenciada sob uma Licença Creative Commons

Repositório Institucional da UFPB