Use este identificador para citar ou linkar para este item:
https://repositorio.ufpb.br/jspui/handle/123456789/34519
Registro completo de metadados
Campo DC | Valor | Idioma |
---|---|---|
dc.creator | Florentino, Arthur Ruan Bizerra | - |
dc.date.accessioned | 2025-05-27T19:30:46Z | - |
dc.date.available | 2024-11-28 | - |
dc.date.available | 2025-05-27T19:30:46Z | - |
dc.date.issued | 2024-10-30 | - |
dc.identifier.uri | https://repositorio.ufpb.br/jspui/handle/123456789/34519 | - |
dc.description.abstract | Singing voice detection (SVD) aims to identify vocal excerpts in songs and is essential in areas of musical information retrieval (MIR) related to vo cals, such as singer identification and in pre-processing processes, being used in the separation of singing voices, automatic transcription of song lyrics, among other applications. Although singing detection seems like a simple task for hu mans, it proves to be extremely demanding for machines, with its main challen ges being the complexity of sound patterns, frequency overlap and variations in singing style. However, with the advancement of deep learning models and audio manipulation techniques, the results have improved significantly over the years. This work aims to demonstrate the impact on SVD of using Transformers in two datasets: the Jamendo Corpus and DALI. The results showed that the mo del was more difficult to train with the second, presenting a difference of about 10% in the F1-score compared to the first, which was expected due to the lower accuracy and balance of this set. Furthermore, using Demucs, a music source separation, to separate voices from instrumental accompaniment improved vo cal detection accuracy. The comparison highlights how different data volumes and qualities influence the model’s performance in the SVD task. | pt_BR |
dc.description.provenance | Submitted by Michelle Barbosa (mi.2020@outlook.com.br) on 2025-05-27T19:30:46Z No. of bitstreams: 2 license_rdf: 805 bytes, checksum: c4c98de35c20c53220c07884f4def27c (MD5) Arthur Ruan Bizerra Florentino_TCC.pdf: 2530541 bytes, checksum: 65afd40282dcb414715a1c45c3e83470 (MD5) | en |
dc.description.provenance | Made available in DSpace on 2025-05-27T19:30:46Z (GMT). No. of bitstreams: 2 license_rdf: 805 bytes, checksum: c4c98de35c20c53220c07884f4def27c (MD5) Arthur Ruan Bizerra Florentino_TCC.pdf: 2530541 bytes, checksum: 65afd40282dcb414715a1c45c3e83470 (MD5) Previous issue date: 2024-10-30 | en |
dc.language | por | pt_BR |
dc.publisher | Universidade Federal da Paraíba | pt_BR |
dc.rights | Acesso aberto | pt_BR |
dc.rights | Attribution-NoDerivs 3.0 Brazil | * |
dc.rights.uri | http://creativecommons.org/licenses/by-nd/3.0/br/ | * |
dc.subject | Vocais em música | pt_BR |
dc.subject | Detecção de voz cantada | pt_BR |
dc.subject | Transcrição automática | pt_BR |
dc.subject | Informação musical | pt_BR |
dc.title | Rede Transformers Aplicada na Detecção de Voz Cantada | pt_BR |
dc.type | TCC | pt_BR |
dc.contributor.advisor1 | Barbosa, Yuri de Almeida Malheiros | - |
dc.contributor.advisor1Lattes | http://lattes.cnpq.br/6396235096236217 | pt_BR |
dc.creator.Lattes | http://lattes.cnpq.br/8575695680945434 | pt_BR |
dc.description.resumo | A detecção de voz cantada (SVD) visa identificar trechos vocais em Músicas e ´e fundamental em áreas de recuperação de informações musicais (MIR) relacionadas `a vocais, como na identificação de intérpretes e em pro cessos de pr´e-processamento, sendo utilizada na separação de vozes cantadas, Transcrição automática de letras de músicas, entre outras aplicações. Embora A detecção de canto parece uma tarefa simples para humanos, ela se revela ex Extremamente desafiadora para máquinas, tendo como principais desafios a com plexidade dos padrões sonoros, a sobreposição de frequências e as variações. no estilo de canto. N˜ao obstante, com o avanço dos modelos de aprendizagem. profunda e técnicas de manipulação de áudio, os resultados tˆem melhorado sig Significativamente ao longo dos anos. Este trabalho tem como objetivo demonstrar o impacto em SVD da utilização de Transformers em dois conjuntos de dados: o Jamendo Corpus e o DALI. Os resultados mostraram que o modelo enfrentou. tou mais dificuldade ao treinar com o segundo, apresentando uma diferença de. cerca de 10% no F1-score em relação ao ao primeiro, o que era esperado devido `a Menor acurácia e balanceamento desse conjunto. Além disso, o uso do Demucs, Um separador de fonte musical, para separar as vozes do acompanhamento ins Instrumental melhorou a precisão na detecção de vocais. A comparação destaca. Como diferentes volumes e qualidades de dados influenciam o desempenho do modelo na tarefa de SVD | pt_BR |
dc.publisher.country | Brasil | pt_BR |
dc.publisher.department | Computação Científica | pt_BR |
dc.publisher.initials | UFPB | pt_BR |
dc.subject.cnpq | CNPQ::OUTROS | pt_BR |
Aparece nas coleções: | TCC - Ciência da Computação - CI |
Arquivos associados a este item:
Arquivo | Descrição | Tamanho | Formato | |
---|---|---|---|---|
Arthur Ruan Bizerra Florentino_TCC.pdf | TCC | 2,47 MB | Adobe PDF | Visualizar/Abrir |
Este item está licenciada sob uma
Licença Creative Commons