Please use this identifier to cite or link to this item: https://repositorio.ufpb.br/jspui/handle/tede/6076
metadata.dc.type: Dissertação
Title: Uma técnica de indexação de dados semi-estruturados para o processamento eficiente de consultas com ramificação
metadata.dc.creator: Viana, Talles Brito
metadata.dc.contributor.advisor1: Silveira, Glêdson Elias da
metadata.dc.description.resumo: O surgimento de sistemas baseados na Web tem gerado uma vasta quantidade de fontes de documentos semi-estruturados, os quais necessitam ser indexados por sistemas de busca a fim de possibilitar a descoberta de documentos de acordo com necessidades de informação do usuário. Entretanto, um dos maiores desafios no desenvolvimento de técnicas de indexação para documentos semi-estruturados diz respeito a como indexar não somente o conteúdo textual, mas também a informação estrutural dos documentos. O principal problema está em prover suporte para consultas com ramificação sem introduzir fatores que causem perda de precisão aos resultados de pesquisa, bem como, o crescimento indesejado do tempo de processamento de consultas e dos tamanhos de índice. Várias técnicas de indexação para dados semi-estruturados são encontradas na literatura. Apesar das relevantes contribuições, as propostas existentes sofrem com problemas relacionados à perda de precisão, requisitos de armazenamento ou custos de processamento de consultas. Neste contexto, nesta dissertação é proposta uma técnica de indexação (denominada BranchGuide) para dados semi-estruturados que suporta uma bem definida classe de consultas com ramificação sem perda de precisão. Esta classe compreende caminhos com ramificação que permitem expressar dependências paifilho entre elementos nos quais podem ser impostas restrições sob os valores de atributos de tais elementos. Como evidenciado experimentalmente, a adoção da técnica BranchGuide gera excelentes tempos de processamento de consulta e tamanhos de índice menores do que os gerados por uma técnica de interseção estrutural.
Abstract: The explosive growth of web-based information systems has created various sources and vast quantities of semi-structured data, which need to be indexed by search engines in order to allow the retrieval of documents according to user needs. However, one of the major challenges in the development of indexing techniques for semi-structured data is related to how to index not only textual but also structural content. The main issue is how to efficiently handle branching path expressions without introducing precision loss as well as undesired growth of query processing costs and index file sizes. Several proposals for indexing semistructured data can be found in the literature. Despite their relevant contributions, existing proposals suffer from at least one of the problems related to precision loss, storage space requirements and query processing costs. In such a context, this thesis proposes an efficient, lossless path-based indexing technique (named as BranchGuide) for semi-structured data, which deals with a well-defined class of branching path expressions. This well-defined class includes branching paths that allow expressing parent-child dependencies between elements in which may be imposed restrictions over the textual value of attributes of such elements. As evinced by experimental evaluation, the adoption of the BranchGuide technique results in excellent query processing time and generates smaller index file sizes than a structural join indexing technique.
Keywords: Informática
Indexação
Recuperação de Informação
Dados Semi-Estruturados
Data Processing
Indexing Techniques
Information Retrieval
Semi-Structured Data
metadata.dc.subject.cnpq: CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
metadata.dc.language: por
metadata.dc.publisher.country: BR
Publisher: Universidade Federal da Paraí­ba
metadata.dc.publisher.initials: UFPB
metadata.dc.publisher.department: Informática
metadata.dc.publisher.program: Programa de Pós-Graduação em Informática
Citation: VIANA, Talles Brito. Uma técnica de indexação de dados semi-estruturados para o processamento eficiente de consultas com ramificação. 2012. 130 f. Dissertação (Mestrado em Informática) - Universidade Federal da Paraí­ba, João Pessoa, 2012.
metadata.dc.rights: Acesso aberto
URI: https://repositorio.ufpb.br/jspui/handle/tede/6076
Issue Date: 20-Apr-2012
Appears in Collections:Centro de Informática (CI) - Programa de Pós-Graduação em Informática

Files in This Item:
File Description SizeFormat 
arquivototal.pdf1,69 MBAdobe PDFThumbnail
View/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.