Skip navigation

Use este identificador para citar ou linkar para este item: https://repositorio.ufpb.br/jspui/handle/123456789/31737
Registro completo de metadados
Campo DCValorIdioma
dc.creatorCarvalho, Sarah Andrade Toscano de-
dc.date.accessioned2024-09-09T14:46:39Z-
dc.date.available2023-06-27-
dc.date.available2024-09-09T14:46:39Z-
dc.date.issued2023-06-05-
dc.identifier.urihttps://repositorio.ufpb.br/jspui/handle/123456789/31737-
dc.description.abstractThe Electronic Invoice (NFe) has modernized the countrys tax administration, reduced costs and bureaucratic obstacles, and improved control by tax administration agencies. However, despite data input veri cation, NFes may contain incorrect information, ma king it di cult to identify fraud or tax evasion. With the increasing volume of data to be veri ed, the need to use arti cial intelligence and data mining techniques to de tect fraud becomes evident. The aim of this study was to compare di erent clustering methods provided by the OpenRe ne platform to group similar entities with orthographic variations in a dataset of retail NFes. Considering the peculiarities of the data and the speci c project requirements, the obtained results revealed that the k-nn method, em ploying the Levenshtein distance function with a radius of 4, along with the key collision method using the Metaphonic3 and Cologne phonetic functions, demonstrated satisfac tory performance, indicating that they are promising options. For optimal results, it is recommended to con gure the k-nn method using the PPM with a radius of 1, thus achi eving excellent precision and sensitivity. Correct data analysis can generate signi cant gains in terms of e ciency and cost reduction in various areas of activity, such as inven tory management and logistics. However, the study presented some limitations, such as the sample size, which could be expanded in future studies to ensure more robust and generalizable results, and the possibility of exploring other machine learning techniques using other platforms to improve the models performance.pt_BR
dc.description.provenanceSubmitted by Michelle Barbosa (mi.2020@outlook.com.br) on 2024-09-09T14:46:39Z No. of bitstreams: 2 license_rdf: 805 bytes, checksum: c4c98de35c20c53220c07884f4def27c (MD5) Sarah Andrade Toscano de Carvalho_TCC.pdf: 7047808 bytes, checksum: 9ba03fb43d3b287790db78deb7f10507 (MD5)en
dc.description.provenanceMade available in DSpace on 2024-09-09T14:46:39Z (GMT). No. of bitstreams: 2 license_rdf: 805 bytes, checksum: c4c98de35c20c53220c07884f4def27c (MD5) Sarah Andrade Toscano de Carvalho_TCC.pdf: 7047808 bytes, checksum: 9ba03fb43d3b287790db78deb7f10507 (MD5) Previous issue date: 2023-06-05en
dc.languageporpt_BR
dc.publisherUniversidade Federal da Paraíbapt_BR
dc.rightsAcesso abertopt_BR
dc.rightsAttribution-NoDerivs 3.0 Brazil*
dc.rights.urihttp://creativecommons.org/licenses/by-nd/3.0/br/*
dc.subjectNota fiscal eletrônicapt_BR
dc.subjectVariação ortográficapt_BR
dc.subjectAlgoritmo de agrupamentopt_BR
dc.subjectOpenrefinept_BR
dc.titleAgrupamento no OpenRe ne: analise de desempenho para agrupamento de itens com variações ortográficas em documentos fiscaispt_BR
dc.typeTCCpt_BR
dc.contributor.advisor1Barbosa, Yuri de Almeida Malheiros-
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/6396235096236217pt_BR
dc.creator.Latteshttp://lattes.cnpq.br/2193759008262523pt_BR
dc.description.resumoA criação da Nota Fiscal Eletrônica (NFe) modernizou a administração tributaria do Brasil, reduziu custos e obstáculos burocráticos e melhorou o controle dos órgãos de administração tributaria. No entanto, apesar das verificações dos dados de entrada, as NFes podem conter informações incorretas, o que dificulta a identificação de fraude ou evasão scal. Com o aumento do volume de dados a serem verificados, torna-se evidente a necessidade de usar técnicas de inteligência artificial e mineração de dados para detectar fraudes. O objetivo deste trabalho foi comparar diferentes métodos de clusterizacao disponibilizados pela plataforma OpenRe ne para agrupar entidades semelhantes com variações ortográficas em um conjunto de dados de NFes varejistas. Levando em consideracao as particularidades dos dados e os requisitos especícos do projeto, os resultados obtidos revelaram que o método k-nn, empregando a função de distancia Levenshtein com um raio de 4, juntamente com o método de colisão de chaves utilizando as funções Me taphonic3 e Cologne phonetic, demonstraram um desempenho satisfatório, indicando que são opções promissoras. E, para resultados ideais, e recomendado congurar o método k-nn com o uso do PPM e um raio de 1, alcançando assim uma ótima precisão e sensibilidade. A analise correta dos dados pode gerar ganhos signicativos em termos de e ciência e redução de custos em diversas áreas de atuação, como a de gestão de estoques e logística. No entanto, o trabalho apresentou algumas limitações, como o tamanho da amostra, que pode ser ampliado em estudos futuros para garantir resultados mais robustos e generalizáveis, e a possibilidade de explorar outras técnicas de aprendizado de maquina utilizando outras plataformas visando a melhoria no desempenho do modelo.pt_BR
dc.publisher.countryBrasilpt_BR
dc.publisher.departmentComputação Científicapt_BR
dc.publisher.initialsUFPBpt_BR
dc.subject.cnpqCNPQ::OUTROSpt_BR
Aparece nas coleções:TCC - Ciência da Computação - CI

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
Sarah Andrade Toscano de Carvalho_TCC.pdfTCC6,88 MBAdobe PDFVisualizar/Abrir


Este item está licenciada sob uma Licença Creative Commons Creative Commons