Skip navigation

Use este identificador para citar ou linkar para este item: https://repositorio.ufpb.br/jspui/handle/123456789/34519
Registro completo de metadados
Campo DCValorIdioma
dc.creatorFlorentino, Arthur Ruan Bizerra-
dc.date.accessioned2025-05-27T19:30:46Z-
dc.date.available2024-11-28-
dc.date.available2025-05-27T19:30:46Z-
dc.date.issued2024-10-30-
dc.identifier.urihttps://repositorio.ufpb.br/jspui/handle/123456789/34519-
dc.description.abstractSinging voice detection (SVD) aims to identify vocal excerpts in songs and is essential in areas of musical information retrieval (MIR) related to vo cals, such as singer identification and in pre-processing processes, being used in the separation of singing voices, automatic transcription of song lyrics, among other applications. Although singing detection seems like a simple task for hu mans, it proves to be extremely demanding for machines, with its main challen ges being the complexity of sound patterns, frequency overlap and variations in singing style. However, with the advancement of deep learning models and audio manipulation techniques, the results have improved significantly over the years. This work aims to demonstrate the impact on SVD of using Transformers in two datasets: the Jamendo Corpus and DALI. The results showed that the mo del was more difficult to train with the second, presenting a difference of about 10% in the F1-score compared to the first, which was expected due to the lower accuracy and balance of this set. Furthermore, using Demucs, a music source separation, to separate voices from instrumental accompaniment improved vo cal detection accuracy. The comparison highlights how different data volumes and qualities influence the model’s performance in the SVD task.pt_BR
dc.description.provenanceSubmitted by Michelle Barbosa (mi.2020@outlook.com.br) on 2025-05-27T19:30:46Z No. of bitstreams: 2 license_rdf: 805 bytes, checksum: c4c98de35c20c53220c07884f4def27c (MD5) Arthur Ruan Bizerra Florentino_TCC.pdf: 2530541 bytes, checksum: 65afd40282dcb414715a1c45c3e83470 (MD5)en
dc.description.provenanceMade available in DSpace on 2025-05-27T19:30:46Z (GMT). No. of bitstreams: 2 license_rdf: 805 bytes, checksum: c4c98de35c20c53220c07884f4def27c (MD5) Arthur Ruan Bizerra Florentino_TCC.pdf: 2530541 bytes, checksum: 65afd40282dcb414715a1c45c3e83470 (MD5) Previous issue date: 2024-10-30en
dc.languageporpt_BR
dc.publisherUniversidade Federal da Paraíbapt_BR
dc.rightsAcesso abertopt_BR
dc.rightsAttribution-NoDerivs 3.0 Brazil*
dc.rights.urihttp://creativecommons.org/licenses/by-nd/3.0/br/*
dc.subjectVocais em músicapt_BR
dc.subjectDetecção de voz cantadapt_BR
dc.subjectTranscrição automáticapt_BR
dc.subjectInformação musicalpt_BR
dc.titleRede Transformers Aplicada na Detecção de Voz Cantadapt_BR
dc.typeTCCpt_BR
dc.contributor.advisor1Barbosa, Yuri de Almeida Malheiros-
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/6396235096236217pt_BR
dc.creator.Latteshttp://lattes.cnpq.br/8575695680945434pt_BR
dc.description.resumoA detecção de voz cantada (SVD) visa identificar trechos vocais em Músicas e ´e fundamental em áreas de recuperação de informações musicais (MIR) relacionadas `a vocais, como na identificação de intérpretes e em pro cessos de pr´e-processamento, sendo utilizada na separação de vozes cantadas, Transcrição automática de letras de músicas, entre outras aplicações. Embora A detecção de canto parece uma tarefa simples para humanos, ela se revela ex Extremamente desafiadora para máquinas, tendo como principais desafios a com plexidade dos padrões sonoros, a sobreposição de frequências e as variações. no estilo de canto. N˜ao obstante, com o avanço dos modelos de aprendizagem. profunda e técnicas de manipulação de áudio, os resultados tˆem melhorado sig Significativamente ao longo dos anos. Este trabalho tem como objetivo demonstrar o impacto em SVD da utilização de Transformers em dois conjuntos de dados: o Jamendo Corpus e o DALI. Os resultados mostraram que o modelo enfrentou. tou mais dificuldade ao treinar com o segundo, apresentando uma diferença de. cerca de 10% no F1-score em relação ao ao primeiro, o que era esperado devido `a Menor acurácia e balanceamento desse conjunto. Além disso, o uso do Demucs, Um separador de fonte musical, para separar as vozes do acompanhamento ins Instrumental melhorou a precisão na detecção de vocais. A comparação destaca. Como diferentes volumes e qualidades de dados influenciam o desempenho do modelo na tarefa de SVDpt_BR
dc.publisher.countryBrasilpt_BR
dc.publisher.departmentComputação Científicapt_BR
dc.publisher.initialsUFPBpt_BR
dc.subject.cnpqCNPQ::OUTROSpt_BR
Aparece nas coleções:TCC - Ciência da Computação - CI

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
Arthur Ruan Bizerra Florentino_TCC.pdfTCC2,47 MBAdobe PDFVisualizar/Abrir


Este item está licenciada sob uma Licença Creative Commons Creative Commons