Skip navigation

Use este identificador para citar ou linkar para este item: https://repositorio.ufpb.br/jspui/handle/123456789/17254
Tipo: TCC
Título: Kernel K-médias com distâncias adaptativas para dados intervalares
Autor(es): Sá, José Nataniel Andrade de
Primeiro Orientador: Ferreira, Marcelo Rodrigo Portela
Resumo: A Análise de Dados Simbólicos (ADS) ou Symbolic Data Analysis (SDA) é uma ex- tensão da análise de dados clássicos que objetiva desenvolver técnicas estatísticas e/ou computacionais para dados mais complexos que os dados usuais, geralmente representa- dos por valores e categorias, podendo incluir variações e estruturas internas. Diversos métodos de agrupamentos para dados clássicos já foram estendidos para os dados simbólicos, como por exemplo o K-médias e suas versões kernelizadas. Funções de kernel tem sido amplamente utilizadas em algoritmos de agrupamento, devido à melhora do desempenho desses métodos em situações nas quais os grupos não são linearmente separáveis. Ainda assim, esses métodos baseados em kernel consideram que as variáveis são igualmente importantes para o processo de agrupamento, o que na maioria das vezes não se configura desta forma, principalmente na era do Big Data em que conjuntos de dados com alta dimensão são facilmente encontrados. O objetivo deste trabalho é propor novos métodos de agrupamentos para dados simbólicos dos tipo intervalo baseado em kernel com ponderação automática das variáveis via distâncias adaptativas, que mudam a cada iteração do algorítimo e são obtidas como soma de distâncias euclidianas quadradas entre as observações e os centroides de cada grupo, calculadas para cada variável de forma individual. A principal vantagem dos métodos propostos sobre a abordagem convencional é que o uso de distâncias adaptativas permite atribuir pesos às variáveis, possibilitando diferenciar a importância das mesmas e, consequentemente, melhorar o desempenho do algoritmo. Este trabalho engloba o paradigma de agrupamento rígido (hard) e considera duas vertentes usadas em abordagem de kernel, onde uma considera que os protótipos estão definidos no espaço original dos dados e outra considera que os protótipos estão definidos em uma espaço de mais alta dimensão, denominado espaço de características. Experimentos realizados com dados simulados e dados reais intervalares mostram a eficiência dos métodos propostos.
Abstract: Symbolic Data Analysis (SDA) is an extension of classic data analysis that aims to develop statistical and/or computational techniques for more complex data than the usual data, usually represented by values and categories, may include variations and internal structures. Several clustering methods for classical data have already been extended for symbolic data, such as K-means and its kernelized versions. The kernel functions have been widely used in clustering algorithms due to improvements in their performance in scenarios where the clusters are non-linearly separable. Even so, these kernel-based methods consider that variables are equally important in the clustering process, which most of the time is not configured in this way, especially in the era of Big Data, where high-dimensional data sets are easily found. The objective of this work is to propose new kernel-based clustering methods for interval-valued symbolic data with automatic weigh- ting of variables through adaptive distances that change at each iteration of the algorithm and are obtained as the sum of the square Euclidean distances between the observations and centroids of each group, calculated for each variable, individually. The main ad- vantage of the proposed methods over the conventional approach is the use of adaptive distances which allows to assign weights to variables, making possible to differentiate the importance of the variables and consequently improve the performance of the algorithms. This work encompasses the hard clustering paradigm and considers two aspects used in kernel functions, when the prototypes are defined in the original data space and when the prototypes are defined in a higher dimension space, known as feature space. Experiments with simulated data and real interval-valued data shows the efficiency of the proposed methods.
Palavras-chave: Análise de dados simbólicos
Métodos de agrupamentos para dados simbólicos
Ponderação automática das variáveis
CNPq: CNPQ::CIENCIAS EXATAS E DA TERRA
Idioma: por
País: Brasil
Editor: Universidade Federal da Paraíba
Sigla da Instituição: UFPB
Departamento: Estatística
Tipo de Acesso: Acesso aberto
URI: https://repositorio.ufpb.br/jspui/handle/123456789/17254
Data do documento: 11-Mar-2020
Aparece nas coleções:TCC - Estatística

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
JNAS07042020.pdf1,68 MBAdobe PDFVisualizar/Abrir


Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.