Skip navigation

Use este identificador para citar ou linkar para este item: https://repositorio.ufpb.br/jspui/handle/123456789/25176
Tipo: Tese
Título: Desenvolvimento de um modelo de classificação da tipologia dos sinais vocais com base no Deep Learning
Autor(es): Leite, Danilo Rangel Arruda
Primeiro Orientador: Lopes, Leonardo Wanderley
Segundo Orientador: Moraes, Ronei Marcos de
Resumo: A voz é um dos principais meios de comunicação do ser humano, sua emissão deve ser agradável, sem esforços e conforme aos interesses profissionais, sociais e pessoais do interlocutor. Qualquer alteração na sua emissão, pode ser classificada como distúrbio de voz. Diagnosticar o distúrbio no seu estágio inicial, pode ser crucial para evitar situações de morbidade mais sérias, pois fornece ao paciente a oportunidade de um tratamento sem complicações, oferecendo uma qualidade de vida melhor. Na prática clínica tradicional, são necessários diversos exames médicos para detectar um distúrbio de voz, como a observação das pregas vocais por meio de laringoscopia, para visualizar possíveis alterações morfológicas, ou a análise acústica, úteis para evidenciar possíveis alterações funcionais. Esses exames são muitas vezes invasivos e demorados podendo causar desconforto ao paciente durante o procedimento. A análise acústica tem sido indicada como uma ferramenta auxiliar que utiliza procedimentos não invasivo, de baixo custo, utilizando técnicas de processamento digital de sinal de voz colaborando no diagnóstico de patologias da voz. Dentre as possibilidades de análise acústica, a espectrografia é um recurso de grande relevância, a partir dela podem ser visualizadas informações como presença de ruído em média e altas frequências, intensidade, instabilidade dos harmônicos, quebras de sonoridade, entre outras. Diante do exposto, esse estudo construiu um modelo inteligente utilizando uma Deep Neural Network (DNN) pré-treinada para classificar imagens espectrográficas da tipologia do sinal da voz da vogal sustentada “é” de acordo com a proposta de Titze (1975) e Sprecher et al. (2010). A classificação proposta por Titze (1995), mais utilizada em procedimentos de pesquisa, categoriza os sinais em Tipo I, II e III. Sprecher et al. (2010) propuseram a inclusão do sinal Tipo IV à classificação original feita por Titze (1995). Também foi utilizado o Grad-CAM para marcar no espectrograma as partes mais relevantes utilizadas pelo modelo na classificação. Nesse sentido, uma classificação automática utilizando a proposta de Titze(1975) e Sprecher et al. (2010) pode ser útil como medida de resultado de tratamento, uma vez que a classificação reflete a intensidade do desvio vocal e a presença de alteração laríngea. A construção desse modelo de classificação automática para classificar a tipologia do sinal, poderá auxiliar o clínico no processo de tomada de decisão no seguimento do tratamento. A arquitetura desenvolvida na metodologia resultou em uma Acurácia Global do Teste de 0.94, Precision de 0.94, F1Score 0.94, kappa 0.91, sensibilidade e especificidade 0.94 e 0.98, respectivamente. O modelo construído pode ser utilizado como ferramenta na etapa de pré-processamento antes de calcular qualquer medida de perturbação, bem como contribuir para potencializar a eficiência nas análises espectrográficas, auxiliando o clínico na sua tomada de decisão.
Abstract: The voice is one of the main means of communication of the human being, its emission must be pleasant, effortless and in accordance with the professional, social and personal interests of the interlocutor. Any change in its emission can be classified as a voice disorder. Diagnosing the disorder at its early stage can be crucial to avoid more serious morbidity situations, as it provides the patient with the opportunity for an uncomplicated treatment, offering a better quality of life. In traditional clinical practice, several medical tests are necessary to detect a voice disorder, such as observation of the vocal folds by means of laryngoscopy, to visualize possible morphological alterations, or acoustic analysis, useful to evidence possible functional alterations. These exams are often invasive and time-consuming and may cause discomfort to the patient during the procedure. Acoustic analysis has been indicated as an auxiliary tool that uses non-invasive, low-cost procedures, using digital voice signal processing techniques, collaborating in the diagnosis of voice pathologies. Among the possibilities of acoustic analysis, spectrography is a resource of great relevance, from which information such as the presence of noise in medium and high frequencies, intensity, instability of harmonics, breaks in sound, among others, can be viewed. Given the above, this study built an intelligent model using a pre-trained Deep Neural Network (DNN) to classify spectrographic images of the voice signal typology of the sustained vowel “é” according to the proposal of Titze (1975) and Sprecher et al. al. (2010). The classification proposed by Titze (1995), most used in research procedures, categorizes signals into Type I, II and III. Sprecher et al. (2010) proposed the inclusion of the Type IV signal to the original classification made by Titze (1995). Grad-CAM was also used to mark in the spectrogram the most relevant parts used by the model in the classification. In this sense, an automatic classification using the proposal by Titze (1975) and Sprecher et al. (2010) may be useful as a treatment outcome measure, since the classification reflects the intensity of the vocal deviation and the presence of laryngeal alteration. The construction of this automatic classification model to classify the signal typology may help the clinician in the decision-making process following the treatment. The architecture developed in the methodology resulted in an Overall Test Accuracy of 0.94, Precision of 0.94, F1Score of 0.94, kappa of 0.91, sensitivity and specificity of 0.94 and 0.98, respectively. The built model can be used as a tool in the pre-processing stage before calculating any disturbance measure, as well as contributing to enhance the efficiency of spectrographic analyses, helping the clinician in his decision making.
Palavras-chave: Espectrogramas
Tipologia da voz
Deep Learning
Grad-CAM
Spectrograms
Voice typology
CNPq: CNPQ::CIENCIAS DA SAUDE::SAUDE COLETIVA
Idioma: por
País: Brasil
Editor: Universidade Federal da Paraíba
Sigla da Instituição: UFPB
Departamento: Ciências Exatas e da Saúde
Programa: Programa de Pós-Graduação em Modelos de Decisão e Saúde
Tipo de Acesso: Acesso aberto
Attribution-NoDerivs 3.0 Brazil
URI: http://creativecommons.org/licenses/by-nd/3.0/br/
URI: https://repositorio.ufpb.br/jspui/handle/123456789/25176
Data do documento: 23-Ago-2022
Aparece nas coleções:Centro de Ciências Exatas e da Natureza (CCEN) - Programa de Pós-Graduação em Modelos de Decisão e Saúde

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
DaniloRangelArrudaLeite_Tese.pdf2,1 MBAdobe PDFVisualizar/Abrir


Este item está licenciada sob uma Licença Creative Commons Creative Commons