Compiling Specialised Comparable Corpora. Should we always trust (Semi-)automatic Compilation Tools?

Compiling Specialised Comparable Corpora. Should we always trust (Semi-)automatic Compilation Tools?
QR Code

Compiling Specialised Comparable Corpora. Should we always trust (Semi-)automatic Compilation Tools?

Decisions at the outset of compiling a comparable corpus are of crucial importance for how the corpus is to be built and analysed later on.Several variables and external criteria are usually followed when building a corpus but little is been said about textual distributional similarity in this conte...

Full abstract

Saved in:
Translated title: Compilação de Corpos Comparáveis Especializados: Devemos sempre confiar nas Ferramentas de Compilação Semi-automáticas?
Compilação de Corpos Comparáveis Especializados: Devemos sempre confiar nas Ferramentas de Compilação Semi-automáticas?
Journal Title: Linguamática
Main Author: Hernani Costa
Other Authors: Isabel Dúran Muñoz;
Gloria Corpas Pastor;
Ruslan Mitkov
Palabras clave:
Language: English
Get full text: http://www.linguamatica.com/index.php/linguamatica/article/view/v8n1-1
Resource type: Journal article
Source: Linguamática; Vol 8, No 1 (Year 2016).
Publisher: Universidade de Vigo / Universidade do Minho
Usage rights: Reconocimiento (by)
Subjects: Applied Sciences --> Computer Science, Artificial Intelligence
Social Sciences --> Linguistics
Abstract: Decisions at the outset of compiling a comparable corpus are of crucial importance for how the corpus is to be built and analysed later on.Several variables and external criteria are usually followed when building a corpus but little is been said about textual distributional similarity in this context and the quality that it brings to research. In an attempt to fulfil this gap, this paper aims at presenting a simple but efficient methodology capable of measuring a corpus internal degree of relatedness. To do so, this methodology takes advantage of both available natural language processing technology and statistical methods in a successful attempt to access the relatedness degree between documents. Our findings prove that using a list of common entities and a set of distributional similarity measures is enough not only to describe and assess the degree of relatedness between the documents in a comparable corpus, but also to rank them according to their degree of relatedness within the corpus.
Translated abstract: Decisões tomadas anteriormente à compilação de um corpo comparável têm um grande impacto na forma em que este será posteriormente construído e analisado.Diversas variáveis e critérios externos são normalmente seguidos na construção de um corpo, mas pouco se tem investigado sobre a sua distribuição de similaridade textual interna ou nas suas vantagens qualitativas para a investigação.Numa tentativa de preencher esta lacuna, este artigo tem como objetivo apresentar uma metodologia simples, contudo eficiente, capaz de medir o grau de similaridade interno de um corpo. Para isso, a metodologia proposta usa diversas técnicas de processamento de linguagem natural e vários métodos estatísticos, numa tentativa bem sucedida de avaliar o grau de similaridade entre documentos. Os nossos resultados demonstram que a utilização de uma lista de entidades comuns e um conjunto de medidas de similaridade distribucional são suficientes, não só para descrever e avaliar o grau de similaridade entre os documentos num corpo comparável, mas também para os classificar de acordo com seu grau de semelhança e, consequentemente, melhorar a qualidade do corpos através da eliminação de documentos irrelevantes.
Decisões tomadas anteriormente à compilação de um corpo comparável têm um grande impacto na forma em que este será posteriormente construído e analisado.Diversas variáveis e critérios externos são normalmente seguidos na construção de um corpo, mas pouco se tem investigado sobre a sua distribuição de similaridade textual interna ou nas suas vantagens qualitativas para a investigação.Numa tentativa de preencher esta lacuna, este artigo tem como objetivo apresentar uma metodologia simples, contudo eficiente, capaz de medir o grau de similaridade interno de um corpo. Para isso, a metodologia proposta usa diversas técnicas de processamento de linguagem natural e vários métodos estatísticos, numa tentativa bem sucedida de avaliar o grau de similaridade entre documentos. Os nossos resultados demonstram que a utilização de uma lista de entidades comuns e um conjunto de medidas de similaridade distribucional são suficientes, não só para descrever e avaliar o grau de similaridade entre os documentos num corpo comparável, mas também para os classificar de acordo com seu grau de semelhança e, consequentemente, melhorar a qualidade do corpos através da eliminação de documentos irrelevantes.