Use este identificador para citar ou linkar para este item:
https://repositorio.ufpb.br/jspui/handle/123456789/34519
Tipo: | TCC |
Título: | Rede Transformers Aplicada na Detecção de Voz Cantada |
Autor(es): | Florentino, Arthur Ruan Bizerra |
Primeiro Orientador: | Barbosa, Yuri de Almeida Malheiros |
Resumo: | A detecção de voz cantada (SVD) visa identificar trechos vocais em Músicas e ´e fundamental em áreas de recuperação de informações musicais (MIR) relacionadas `a vocais, como na identificação de intérpretes e em pro cessos de pr´e-processamento, sendo utilizada na separação de vozes cantadas, Transcrição automática de letras de músicas, entre outras aplicações. Embora A detecção de canto parece uma tarefa simples para humanos, ela se revela ex Extremamente desafiadora para máquinas, tendo como principais desafios a com plexidade dos padrões sonoros, a sobreposição de frequências e as variações. no estilo de canto. N˜ao obstante, com o avanço dos modelos de aprendizagem. profunda e técnicas de manipulação de áudio, os resultados tˆem melhorado sig Significativamente ao longo dos anos. Este trabalho tem como objetivo demonstrar o impacto em SVD da utilização de Transformers em dois conjuntos de dados: o Jamendo Corpus e o DALI. Os resultados mostraram que o modelo enfrentou. tou mais dificuldade ao treinar com o segundo, apresentando uma diferença de. cerca de 10% no F1-score em relação ao ao primeiro, o que era esperado devido `a Menor acurácia e balanceamento desse conjunto. Além disso, o uso do Demucs, Um separador de fonte musical, para separar as vozes do acompanhamento ins Instrumental melhorou a precisão na detecção de vocais. A comparação destaca. Como diferentes volumes e qualidades de dados influenciam o desempenho do modelo na tarefa de SVD |
Abstract: | Singing voice detection (SVD) aims to identify vocal excerpts in songs and is essential in areas of musical information retrieval (MIR) related to vo cals, such as singer identification and in pre-processing processes, being used in the separation of singing voices, automatic transcription of song lyrics, among other applications. Although singing detection seems like a simple task for hu mans, it proves to be extremely demanding for machines, with its main challen ges being the complexity of sound patterns, frequency overlap and variations in singing style. However, with the advancement of deep learning models and audio manipulation techniques, the results have improved significantly over the years. This work aims to demonstrate the impact on SVD of using Transformers in two datasets: the Jamendo Corpus and DALI. The results showed that the mo del was more difficult to train with the second, presenting a difference of about 10% in the F1-score compared to the first, which was expected due to the lower accuracy and balance of this set. Furthermore, using Demucs, a music source separation, to separate voices from instrumental accompaniment improved vo cal detection accuracy. The comparison highlights how different data volumes and qualities influence the model’s performance in the SVD task. |
Palavras-chave: | Vocais em música Detecção de voz cantada Transcrição automática Informação musical |
CNPq: | CNPQ::OUTROS |
Idioma: | por |
País: | Brasil |
Editor: | Universidade Federal da Paraíba |
Sigla da Instituição: | UFPB |
Departamento: | Computação Científica |
Tipo de Acesso: | Acesso aberto Attribution-NoDerivs 3.0 Brazil |
URI: | http://creativecommons.org/licenses/by-nd/3.0/br/ |
URI: | https://repositorio.ufpb.br/jspui/handle/123456789/34519 |
Data do documento: | 30-Out-2024 |
Aparece nas coleções: | TCC - Ciência da Computação - CI |
Arquivos associados a este item:
Arquivo | Descrição | Tamanho | Formato | |
---|---|---|---|---|
Arthur Ruan Bizerra Florentino_TCC.pdf | TCC | 2,47 MB | Adobe PDF | Visualizar/Abrir |
Este item está licenciada sob uma
Licença Creative Commons