Biblioteca

Seja um dos 9 apoiadores do Ludopédio e faça parte desse time! APOIAR AGORA
Dissertação

Recuperação da informação em acervos digitais de jornais

proposta para uso de ontologia no domínio do futebol
Ano

2016

Faculdade/Universidade

Centro de Ciências da Educação, Universidade Federal de Santa Catarina

Tema

Dissertação

Área de concentração

Mestrado em Ciência da Informação

Páginas

201

Arquivos

Resumo

Esta pesquisa visa a modelagem de uma ontologia do domínio do futebol para o tratamento de variações diacrônicas e sincrônicas da língua, com intuito de apoiar a recuperação da informação em acervos digitais de jornais. Com a oferta dos acervos de jornais em sítios na Internet é preciso que os acessos a essas informações sejam facilitados, pois esses ambientes reúnem documentos de diferentes épocas e culturas e também estão em constante atualização. Por essa razão, necessitam de uma organização que contemple a diversidade linguística e de conteúdo. Quando a organização da informação é conduzida para um domínio do conhecimento, as ambiguidades podem ser tratadas e entendidas conforme o contexto que se aplicam. Assim, o futebol tem o jornal como importante fonte de informação e também apresenta mudanças gramaticais e variações linguísticas que se mostraram pertinentes a este estudo. Trata-se de uma pesquisa aplicada, utilizando como base um acervo digital de jornal. Possui caracterização exploratória e descritiva e abordagem qualitativa. Utiliza a metodologia OntoForInfoScience, de Mendonça (2015) para desenvolver a ontologia do domínio do futebol. A coleta das informações foi realizada em materiais de referência do domínio e em notícias de jornais. Cronologicamente, o recorte estabelecido abrange terminologia utilizada entre 1900 a 2015, período que contempla a existência dos clubes de futebol no Brasil. A coleta foi realizada em jornais digitalizados e também nascidos digitais. A partir da amostra dos termos criou-se artefatos como Glossário de Conceitos, Dicionário de Conceitos, Glossário de Relações, Tabela de Conceitos e Valores e modelo de representação gráfica, em que foram tratados os aspectos linguísticos do domínio do futebol presentes nos acervos digitais. Com base do que foi modelado em linguagem natural foi formalizada a ontologia em linguagem lógica, com o auxílio do editor Protegé, etapa em que foram definidas classes, subclasses, propriedades de relação e equivalências. Como forma de avaliar a ontologia desenvolvida, elaborou-se questões de competência que foram executadas em linguagem SPARQL. Para atestar o uso da ontologia em ambientes compostos por jornais impressos e digitais foram realizadas buscas demonstrativas em um acervo real, analisando quais os resultados obtidos sem a ontologia e quais os prováveis resultados se ela fosse implementada. A análise dos resultados permitiu evidenciar que sem o uso da ontologia nos acervos digitais de jornais, a recuperação das informações é exaustiva e recupera documentos não relevantes, devido à ausência de relacionamentos entre os termos que formam o domínio. Dessa forma, com a inclusão da ontologia no sistema, a pesquisa por informações não exigiria tanto letramento do usuário, visto que as ontologias tornam mais inteligentes os sistemas, pois suas relações são feitas com base na realidade. Assim, as principais contribuições científicas deste trabalho para a Ciência da Informação envolvem a análise e tratamento de documentos históricos do domínio do futebol, a fim de apoiar a recuperação da informação de acervos digitais de jornais, utilizando como recurso uma ontologia de domínio.

Abstract

This research proposes the making of a domain-ontology on soccer, to deal with the synchronic and diachronic variances of the language, and to aid information retrieval on digital files of newspapers. With the supply of newspaper archives in websites, it is necessary for the access to this information to be improved, because these sites group documents from different times and cultures and also are constantly under update. For that reason, they need an arrangement that encompasses the diversity of language and content. When the arrangement of the information is placed in a domain knowledge, all ambiguity can be dealt with and understood according to the context to which they apply. Thus, soccer has the newspaper as an important source of information, and also presents grammar changes and linguistic variations that are shown to be pertinent to this study. This is an applied research, based on a digital newspaper archive. it is exploratory and descriptive and a qualitative approach to its subject matter. Uses Mendonça’s OntoForInfoScience methodology (2015) to develop the domain-ontology on soccer. The gathering of information was done based on reference material from the domain and in newspaper articles. The chronological interval that was established encompasses the terminology used between 1900 and 2015, period that covers the spawn of soccer clubs in Brazil. The data collection was from digitized and originally digital newspapers. Artifacts were created from the sample of terms, which are: glossary of concepts, dictionary of concepts, glossary of relationships, table of concepts and values, and graphic representation model, in which we deal with the linguistic aspects of the soccer domain, in the digital files. Based on what was modeled in natural language we formalized the ontology in logic language, with the help of the Protegé editor. At this stage, we defined categories, subcategories, relationship properties and equivalences. As a means to evaluate the developed ontology, questions of competence were created and executed in SPARQL language. In order to attest the usage of the ontology in environments with digital and printed newspapers some demonstrative searches were carried out in a real archive, analyzing what were the results without the ontology and the probable results if it were implemented. The analysis of the results allowed us to show that without the use of the ontology in the digital archive of newspaper the information retrieval is exhaustive and retrieves irrelevant documents, due to the lack of relationships among the terms that compose the domain. In this fashion, having the ontology included in the system, the research would not require much specific knowledge of the user, since the ontologies make systems smarter because their relationships are based on reality. So the main scientific contributions of this work to the Information Science are about the analysis and management of historical documents on the soccer domain, in order to improve the information retrieval in digital archives of newspapers, using the domain ontology as a resource.

Sumário

1 INTRODUÇÃO, 25
1.1 Definição do problema, 27

2 OBJETIVOS, 30
2.1.1 Objetivo Geral, 30
2.1.2 Objetivos específicos, 30
2.2 Justificativa, 30

3 FUNDAMENTAÇÃO TEÓRICA, 33
3.1 Patrimônio digital, 33
3.2 Patrimônio: O jornal do impresso ao digital, 36
3.2.1 Informação, Futebol e Jornal, 42
3.3 Recuperação da Informação, 47
3.4 Busca Semântica, 50
3.4.1 Web Semântica, 55
3.4.3 Ontologias de domínio, 58
3.4.4 Ontologias de fundamentação, 62
3.4.5 Metodologia para construção de ontologias, 66
3.4.6 Linguagens de representação descritiva, 79

4 PROCEDIMENTOS METODOLÓGICOS, 87
4.1 Descrição geral da metodologia de pesquisa, 89
4.1.1 Avaliação da necessidade da ontologia, 90
4.1.2 Especificação da ontologia, 90
4.1.3 Aquisição de Informações, 92
4.1.4 Conceitualização, 96
4.1.5 Fundamentação ontológica, 100
4.1.6 Formalização da ontologia, 102
4.1.7 Avaliação da Ontologia, 103
4.2 Demonstração do uso da ontologia na recuperação da informação em acervos digitais,104

5 APRESENTAÇÃO DOS RESULTADOS, 106
5.1 Desenvolvimento da OntoFootballForNewspapers, 106
5.1.1 Documento de especificação, 109
5.1.2 Coleta de informações, 111 
5.1.3 Modelos conceituais, 115
5.1.4 Reuso ontologia de fundamentação, 123
5.1.5 Conteúdo ontológico, 126
5.1.6 Elucidação das questões de competência, 139
5.2 Mensuração da recuperação da informação, 143

6 CONSIDERAÇÕES FINAIS, 153

REFERÊNCIAS, 158

Referência

SANTOS, Luana Carla de Moura dos. Recuperação da informação em acervos digitais de jornais: proposta para uso de ontologia no domínio do futebol. 2016. 201 f. Dissertação (Mestrado em Ciência da Informação) - Centro de Ciências da Educação, Universidade Federal de Santa Catarina, Florianópolis, 2016.
Cadastre-se para receber novidades