Rede Transformers Aplicada na Detecção de Voz Cantada

Florentino, Arthur Ruan Bizerra

Use este identificador para citar ou linkar para este item: https://repositorio.ufpb.br/jspui/handle/123456789/34519

Tipo:	TCC
Título:	Rede Transformers Aplicada na Detecção de Voz Cantada
Autor(es):	Florentino, Arthur Ruan Bizerra
Orientador:	Barbosa, Yuri de Almeida Malheiros
Resumo:	A detecção de voz cantada (SVD) visa identificar trechos vocais em Músicas e ´e fundamental em áreas de recuperação de informações musicais (MIR) relacionadas `a vocais, como na identificação de intérpretes e em pro cessos de pr´e-processamento, sendo utilizada na separação de vozes cantadas, Transcrição automática de letras de músicas, entre outras aplicações. Embora A detecção de canto parece uma tarefa simples para humanos, ela se revela ex Extremamente desafiadora para máquinas, tendo como principais desafios a com plexidade dos padrões sonoros, a sobreposição de frequências e as variações. no estilo de canto. N˜ao obstante, com o avanço dos modelos de aprendizagem. profunda e técnicas de manipulação de áudio, os resultados tˆem melhorado sig Significativamente ao longo dos anos. Este trabalho tem como objetivo demonstrar o impacto em SVD da utilização de Transformers em dois conjuntos de dados: o Jamendo Corpus e o DALI. Os resultados mostraram que o modelo enfrentou. tou mais dificuldade ao treinar com o segundo, apresentando uma diferença de. cerca de 10% no F1-score em relação ao ao primeiro, o que era esperado devido `a Menor acurácia e balanceamento desse conjunto. Além disso, o uso do Demucs, Um separador de fonte musical, para separar as vozes do acompanhamento ins Instrumental melhorou a precisão na detecção de vocais. A comparação destaca. Como diferentes volumes e qualidades de dados influenciam o desempenho do modelo na tarefa de SVD
Abstract:	Singing voice detection (SVD) aims to identify vocal excerpts in songs and is essential in areas of musical information retrieval (MIR) related to vo cals, such as singer identification and in pre-processing processes, being used in the separation of singing voices, automatic transcription of song lyrics, among other applications. Although singing detection seems like a simple task for hu mans, it proves to be extremely demanding for machines, with its main challen ges being the complexity of sound patterns, frequency overlap and variations in singing style. However, with the advancement of deep learning models and audio manipulation techniques, the results have improved significantly over the years. This work aims to demonstrate the impact on SVD of using Transformers in two datasets: the Jamendo Corpus and DALI. The results showed that the mo del was more difficult to train with the second, presenting a difference of about 10% in the F1-score compared to the first, which was expected due to the lower accuracy and balance of this set. Furthermore, using Demucs, a music source separation, to separate voices from instrumental accompaniment improved vo cal detection accuracy. The comparison highlights how different data volumes and qualities influence the model’s performance in the SVD task.
Palavras-chave:	Vocais em música Detecção de voz cantada Transcrição automática Informação musical
CNPq:	CNPQ::OUTROS
Idioma:	por
País:	Brasil
Editor:	Universidade Federal da Paraíba
Sigla da Instituição:	UFPB
Departamento:	Computação Científica
Tipo de Acesso:	Acesso aberto Attribution-NoDerivs 3.0 Brazil
URI:	http://creativecommons.org/licenses/by-nd/3.0/br/
URI:	https://repositorio.ufpb.br/jspui/handle/123456789/34519
Data do documento:	30-Out-2024
Aparece nas coleções:	TCC - Ciência da Computação - CI

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
Arthur Ruan Bizerra Florentino_TCC.pdf	TCC	2,47 MB	Adobe PDF	Visualizar/Abrir

Mostrar registro completo do item Visualizar estatísticas

Este item está licenciada sob uma Licença Creative Commons

Repositório Institucional da UFPB