BookPDF Available

Digital Humanities, Corpus and Language Technology: A look from diverse case studies.

September 2023

September 2023

DOI:10.21827/646242d096b

Authors:

Andrés Felipe Grajales Ramírez

University of Antioquia

Jorge Mauricio Molina Mejia

University of Antioquia

Content uploaded by Jorge Mauricio Molina Mejia

Content may be subject to copyright.

Digital Humanities, Corpus and

Language Technology

Humanidades Digitales, Corpus

y Tecnología del Lenguaje

Editors

Andrés Grajales Ramírez

Jorge Molina Mejía

Pablo Valdivia Martin

DATA SCIENCE, CULTURE

& SOCIAL CHANGE

Digital Humanities, Corpus and Language Technology

Humanidades Digitales, Corpus y Tecnología del Lenguaje

“Digital Humanities, Corpus and Language Technology: A look from diverse

case studies is an outstanding collection of research contributions that

explores the intersection of technology and the humanities. The authors

provide a comprehensive overview of how these technologies can

enhance research across various disciplines, from literature to history to

anthropology. This book is a must-read for anyone interested in future

research in the humanities. Digital Humanities, Corpus, and Language

Technologies are rapidly growing fields that have the potential to

revolutionize research across various disciplines. New technologies have

opened up new perspectives for research, allowing scientists to analyze

data in previously impossible ways. The interdisciplinary approach and

practical applications make it an invaluable resource for researchers,

students, and anyone interested in the intersection of technology and

the humanities.”

Andrés Grajales Ramírez is a Hispanic

philologist from the University of Antioquia

(Colombia) and holds a Master’s degree

in Cinematografía from the University of

Córdoba (Spain).

Jorge Molina Mejía is an associate professor

in the area of linguistics at the University

of Antioquia, professor of computational

linguistics and Spanish as a foreign language,

coordinator of the research group Corpus

Ex Machina, he is part of the Committee of

the Doctorate in Linguistics of the Faculty of

Communications and Philology (University of

Antioquia).

Pablo Valdivia Martin is Chair-Full

Professor of European Culture and Literature

(University of Groningen), Accreditated

Full Professor [Catedrático Universidad]

of Arts and Humanities (ANECA, Spain),

Associate in Applied Physics at Harvard

Paulson School of Engineering and Applied

Sciences (Harvard University), Academic

Director of the Netherlands Research School

for Literary Studies (OSL), Scientific Advisor

of the Netherlands Institute of Advanced

Studies in Social Sciences and Humanities

and the Netherlands Royal Academy of Arts

and Sciences (NIAS-KNAW), Coordinator

Research Theme Group Data Science,

Culture & Social Change at Research Centre

for the Study of Democratic Cultures and

Politics (DemCP, RUG), Co-Editor of the

Routledge Companions to Hispanic and

Latin American Studies and Research Fellow

“Corpus Ex Machina” Research Group

Incubator (UdeA).

Digital Humanities, Corpus and Language Technology

Humanidades Digitales, Corpus y Tecnología del Lenguaje

Digital Humanities, Corpus and

Language Technology

A look from diverse case studies

Humanidades Digitales, Corpus

y Tecnología del Lenguaje

Una mirada desde diversos casos

de estudio

Editors

Andrés Grajales Ramírez

Jorge Molina Mejía

Pablo Valdivia Martin

Published by University of Groningen Press

Broerstraat 

 CP Groningen

e Netherlands

In co-edition with Facultad de Comunicaciones y Filología, Universidad de Antioquia (Colombia)

First published in the Netherlands ©  Andrés Grajales Ramírez, Jorge Molina Mejía and Pablo Valdivia

Martin (eds.)

is book has been published open access thanks to the nancial support of the Open Access Book Fund

of the University of Groningen.

Additionally, we are grateful for the nancial support of OSL (e Netherlands Research School for Liter-

ary Studies).

Cover design: Bas Ekkers

Typesetting: LINE UP boek en media bv | Mirjam Kroondijk

ISBN (print) 

ISBN (ePDF) 

DOI https://doi.org/./cbed

is work is licensed under the Creative Commons Attribution-NonCommercial-ShareAlike . International

License. e full licence terms are available at creativecommons.org/ licenses/by-nc-sa/./legalcode

International Scientic-Editorial Committee

To the team that oversaw the academic and scientic evaluation of the chapters that make up this

book: ank you very much for your eort, willingness, and knowledge.

Comité Cientíco-Editorial Internacional

Al equipo que se encargó de evaluar académica y cientícamente los capítulos que componen este

libro: Muchas gracias por su esfuerzo, disposición y conocimientos.

Dra. Lirian Astrid Ciro. Universidad del Valle, Colombia.

Dr. Carlos A. Mayora Pernía. Universidad del Valle, Colombia.

Dra. Irina Kostina. Universidad del Valle, Colombia.

Dr. Jorge Mauricio Molina Mejía. Universidad de Antioquia, Colombia.

Dra. Ana María Agudelo Ochoa. Universidad de Antioquia, Colombia.

Dr. Ricardo Cedeño Montaña. Universidad de Antioquia, Colombia.

Dr. Juan David Martínez Hincapié. Universidad de Antioquia, Colombia.

Mg. María Isabel Marín Morales. Universidad de Antioquia, Colombia.

Mg. Laura M. Quintero Montoya. Universidad de Antioquia, Colombia.

Mg. Juan E. Hincapié Atehortúa. Universidad de Antioquia, Colombia.

Dr. George E. Dueñas Luna. Universidad Nacional, Colombia.

Dr. Fabio A. González Osorio. Universidad Nacional, Colombia.

Dr. Jhon Williams Montoya Garay. Universidad Nacional, Colombia.

Dra. Bell Manrique Losada. Universidad de Medellín, Colombia.

Dr. Andrés Lombana Bermúdez. Ponticia Universidad Javeriana, Colombia.

Dr. Sergio Jiménez Vargas. Instituto Caro y Cuervo, Colombia.

Dr. Pablo Valdivia Martin. University of Groningen, Países Bajos.

Mg. Juan Albá Durán. University of Groningen, Países Bajos.

Dr. René A. Venegas Velasquez. Ponticia Universidad Católica de Valparaíso, Chile.

Dr. Ricardo Martínez-Gamboa. Universidad Diego Portales, Chile.

Dr. Fernando M. Carranza. Universidad de Buenos Aires, Argentina.

Dr. César Antonio Aguilar. Instituto de Investigaciones en Educación de la Universidad Veracruzana,

México.

Dr. Miguel Fuster Márquez. Universitat de València, España.

Dr. Diego A. Burgos Herrera. Wake Forest University, Estados Unidos de América.

Dra. Emmanuelle Esperança-Rodier. Université Grenoble Alpes, Francia.

Mg. Norman D. Gómez Hernández. Johannes Gutenberg-Universität Mainz, Alemania.

Series:

Data Science, Culture & Social Change

is collection is a joint editorial eort between the research groups Data Science, Culture and Social

Change of the University of Groningen and the research incubator group Corpus ex Machina of the

Universidad de Antioquia. e relationship between these universities has grown stronger in recent

years and this collection aims to continue the production of knowledge from a modern, interdisci-

plinary and multicultural perspective. e ‘Data Science, Culture and Social Change’ series will

provide a collaborative space for an international network working within and across dierent elds

(digital humanities, educational innovation, cultural analytics, computational and corpus linguistics,

discourse analysis, political science, computer science, etc.).



Table of Contents

Preface 

Introduction 

Introducción 

Part I Digital Humanities 

Chapter I

Understanding Outsider Art in the context of Digital Humanities 

Entender el Arte Outsider en el contexto de las Humanidades Digitales

— John Roberto & Brian Davis

Chapter II

La Biblioteca Virtual de la Filología Española (BVFE) y su acervo hispanoamericano 

e Biblioteca Virtual de la Filología Española (BVFE) and its Hispanic American heritage

— Jaime Peña Arce & M. Ángeles García Aranda

Chapter III

De dos bases de datos relacionales a una base de datos XML. El proyecto COMREGLA 

From two relational databases to an XML one. Project COMREGLA

— Eveling Garzón Fontalvo, Berta González Saavedra, José Ignacio Hidalgo González, Iván López Martín,

Alberto Pardal Padín, Guillermo Salas Jiménez & Cristina Tur

Chapter IV

Análisis del epistolario del coronel Anselmo Pineda con Python: una mirada al proyecto

coleccionista y al territorio desde las redes sociales y el aprendizaje automático 

Analysis of Colonel Anselmo Pineda’s epistolary with Python: a glance to the collecting project

from the study of the territory and social networks

— Santiago Alejandro Ortiz Hernández



Digital Humanities, Corpus and Language Technology

Part II Corpus construction 

Chapter V

Desarrollo de un corpus de atlas lingüísticos 

Development of a corpus of linguistic atlases

— Carolina Julià Luna

Chapter VI

The C-ORAL-BRASIL proposal for the treatment of multimodal corpora data: the BGEST

corpus pilot project 

La propuesta del C-ORAL-BRASIL para el tratamiento de datos multimodales en corpus: el

proyecto piloto del corpus BGEST

— Camila Barros & Heliana Mello

Chapter VII

Las tecnologías del lenguaje y las lenguas indígenas mexicanas: constitución de un corpus

paralelo amuzgo-español 

Human language technology and the indigenous languages in Mexico: the Amuzgo-Spanish

parallel corpus

— Antonio Reyes Pérez & H. Antonio García Zúñiga

Chapter VIII

Methodological bases: the construction of a corpus for the detection of deception and

credibility assessment 

Bases metodológicas: la construcción de un corpus para la detección de mentiras y la

evaluación de la credibilidad

— Pedro Eduardo Hernández Fuentes

Chapter IX

Türkisch für Anfänger

a partir de las fórmulas rutinarias de saludo 

Türkisch für Anfänger: proposal of a corpus of modern colloquial German, exemplied from

routine phrases for greetings

— Karen Lorena Baquero Castro



Table of Contents

Chapter X



English online in Colombia 

CLEC - Corpus Colombiano de Aprendices de Inglés: primer corpus de producción escrita de

aprendices de inglés en Colombia disponible en línea

— María Victoria Pardo Rodríguez & Antonio Jesús Tamayo Herrera

Part III Corpus analysis and Natural Language Processing 

Chapter XI

Pronunciation of consonant clusters in Spanish speakers based on the Czech read

speech corpora 

La pronunciación de los grupos de consonantes en hispanohablantes basándose en el corpus

oral leído checo

— Kateřina Pugachova & Jitka Veroňková

Chapter XII

Relacionando los análisis cualitativo y cuantitativo. Una propuesta de modelo estadístico

predictivo para completar la descripción compleja de los verbos cognitivos 

Relating qualitative and quantitative analysis. A predictive statistical model proposal to

complete the complex description of cognitive verbs

— M. Amparo Soler Bonafont

Chapter XIII



Sustainable Development Goals 

Uso de redes Bayesianas para el análisis de corpus de problemas locales relacionados con los

Objetivos de Desarrollo Sostenible

— Manuel Caro Piñeres & Ernesto Llerena García

Chapter XIV

Correlación entre la metáfora orientacional bueno es arriba / malo es abajo y polaridad

positiva/negativa en verbos del español: un estudio con estadística de corpus 

Correlation between the orientational metaphor    /    and positive/

negative polarity in Spanish verbs: a study with corpus statistics

— Benjamín López Hidalgo, Irene Renau & Rogelio Nazar

Chapter XV

UnderRLPOS tagging 

UnderRL Tagger: un soware libre para etiquetar POS en Under-Resourced Languages

— José Luis Pemberty Tamayo & Jorge Mauricio Molina Mejía



Preface

Pablo Valdivia Martin

University of Groningen – Netherlands

When discussing with colleagues and students about the change in the paradigm that we

are witnessing in the Humanities, we oen nd it challenging to dene the fundamental

elements of our discussion. In this regard, it is more important than ever to nd common

ground and a baseline for starting the dialogue in the Humanities from wherever we, ter-

minologically, are. One of the goals of this book is to provide a shared territory where it

will be easier to move, get inspired, and move forward together. erefore, we must ask

ourselves critical questions and oer tentative working frameworks. Despite commonly

and regularly using the term Digital Humanities, it sometimes seems dicult to agree on

what we call Digital Humanities. us, under the context of this volume, I suggest a work-

ing denition of Digital Humanities as an interdisciplinary eld that applies computation-

al methods and tools to study human culture and society. It encompasses various disci-

plines, such as literature, history, art, music, linguistics, philosophy, and more. Digital

Humanities aims to enhance our understanding of human expression and experience

through analyzing, visualizing, and preserving digital data.

Additionally, when I refer to the term Corpus Studies, also crucial in this book, I opt

for a broad denition encompassing a large and structured collection of texts or other forms

of data that are representative of a language or a domain. Corpus Studies is essential for

Digital Humanities because it provides the raw material for various types of analysis, such

as text mining, sentiment analysis, topic modeling, stylometry, and more. Corpus Studies

can also help us discover new patterns, trends, and insights not readily observable in indi-

vidual texts or sources.

Furthermore, Language Technologies, another notion pillared in this volume, are un-

derstood in the context of these pages as a branch of articial intelligence that deals with

the processing and generation of natural language. Language Technologies enable us to

interact with computers using natural languages, such as speech recognition, machine

translation, and chatbots. Language Technologies also facilitate analyzing natural language

data, such as natural language understanding, generation, information extraction, summa-



Digital Humanities, Corpus and Language Technology

rization, and many more, which are well assessed and reected in the pages of the present

volume.

is book presents examples and applications of how these scientic areas can enrich

our knowledge and appreciation of human culture and society. Moreover, this book will

inspire new generations of scholars to explore the possibilities and challenges of Digital

Humanities in their research and teaching practices.

erefore, the research present in the chapters of this volume contributes to exploring

new avenues regarding the cross-/inter-/multi-disciplinary intersections between the Dig-

ital Humanities, Computational Cultural and Literary Studies, and Computational Lin-

guistics. From its very conception, this book results from a joint eort between the Uni-

versity of Antioquia and the University of Groningen and a rm belief in the cross-cutting

domain nature of cultural and literary studies and how interdisciplinary approaches to

everyday challenges, as recently brought up to the light by the UNESCO “Knowledge

Driven Actions (), it an essential toolkit for the engineering of our future.

Every chapter has been rigorously evaluated by academic peers who are experts in one

of the varied elds of knowledge in this volume. is book will be a valuable resource for

researchers, students, and anyone interested in the broadly so-called “digital turn” and the

Humanities. I thank the authors who contributed to this book and the academic peers who

reviewed their work. I would also like to thank our colleagues at the University of Antioquia

and the University of Groningen for their support in bringing this project to fruition.

Digital Humanities, Corpus, and Language Technologies are rapidly growing elds that

have the potential to revolutionize research across various disciplines. New technologies

have opened up new perspectives for research, allowing scientists to analyze data in previ-

ously impossible ways.

e rst part of this book is devoted to Digital Humanities. is section includes chap-

ters on digital storytelling, data visualization, and text mining. ese contributions demon-

strate how Digital Humanities can enhance research in various elds, from literature to

history to anthropology. For example, one chapter discusses how digital storytelling can

be used to teach history. e authors argue that students can better understand historical

events and their signicance using multimedia elements such as images, videos, and audio

recordings. Another chapter discusses how data visualization can be used to analyze liter-

ary texts. e authors demonstrate how visualizing patterns in language use can reveal

insights into literary style and authorship.

e second part of this book focuses on linguistic corpora construction. A corpus is a

collection of texts for linguistic analysis. Corpus-based research has become increasingly



Preface

popular in linguistics because it allows researchers to analyze large amounts of data. is

section includes contributions to corpus annotation, corpus design, and corpus-based lan-

guage teaching. Another chapter discusses how corpus-based research can study language

change over time. e authors demonstrate how analyzing changes in word frequency over

time can reveal insights into linguistic evolution. While another contribution discusses

how corpus-based language teaching can improve second language acquisition. e au-

thors argue that exposing learners to authentic language use through corpora can develop

more naturalistic language skills.

is book’s third part explores projects with corpus analysis and natural language pro-

cessing as the main areas of interest. Computational linguistics studies how computers can

process natural language data, while natural language processing is the application of com-

putational techniques to analyze and understand human language. is section includes

contributions to machine translation, named entity recognition, and text classication. For

example, one of the chapter studies how machine learning can improve sentiment analysis.

e authors demonstrate how training a machine learning algorithm on a large corpus of

annotated data can improve its ability to classify sentiment accurately in new texts. Other

scholars made substantial advancements in how named entity recognition can extract in-

formation. is book overviews current Digital Humanities, Corpus, and Language Tech-

nologies research. It demonstrates how these elds can enhance research across various

disciplines. e conversation is now open. e data revolution has already changed every-

thing. How would this inform the Humanities of tomorrow? is very question remains

open, and yet its overwhelming and unattainable challenge is one of the most scientic

quests that our generation must provide an answer to. e pages of this book are a modest

but robust eort to create and nd new paths.

Prof. dr. Pablo Valdivia

Academic Director Netherlands Research School for Literary Studies (OSL)

Chair-Full Professor European Culture and Literature – University of Groningen



Introduction

Jorge Molina Mejía & Andrés Grajales Ramírez

Universidad de Antioquia – Colombia

“Digital Humanities, Corpus and Language Technology: a look from diverse case studies” is

a title that takes up, in an innovative way, three elds of knowledge that are combined in

this research book, which is the result of a joint editing work between the University of

Antioquia and the University of Groningen. It is important to note that in the present time

and context, it is of utmost importance to elaborate works that have interdisciplinary stud-

ies as a north and, in this sense, the work that we present below has the vocation to address

current works in these three aspects, always with a view from the computer science and its

application in the eld of human and social sciences, and all this from an inter-university

perspective. We have also decided to present the dierent chapters of this compendium in

Spanish and English, so that they can be consulted by students and researchers who speak

both languages. All this is based on the fact that the book we present here has been pro-

duced between two institutions in which the most widely used languages are Spanish and

English. Nevertheless, from a global perspective, our intention is that the chapters pub-

lished here will reach a large part of the researchers who use either of these two languages

in their research and teaching process.

is book presents several case studies where the relationship between Digital Human-

ities and Language Technology and its application in linguistic corpora is evident. As pre-

viously anticipated, Digital Humanities can contribute to the creation and analysis of lin-

guistic corpora thanks to the use of new technologies and tools that allow greater

eciency and precision in Natural Language Processing. On the other hand, the study of

corpora can help to discover patterns and trends in linguistic data that would be dicult

to detect using traditional methods, which benets the Digital Humanities. New technol-

ogies and digital tools allow today to complement each other, through greater eciency

and precision in the processing and understanding of human languages. From this mo-

ment, it can be glimpsed that the future of these disciplines is highly promising, as they

have begun to play an important role in research and studies, and is expected to continue

to grow. As the current era advances and new developments emerge, language technologies



Digital Humanities, Corpus and Language Technology

become more sophisticated, so there will be new opportunities, but also new challenges in

these elds.

Currently, it is common for work related to these topics to be focused on elds such as

literature, history, linguistics, sociology, etc. However, it is expected that, in the future, the

Digital Humanities and the analysis of linguistic corpora will be able to extend their appli-

cations to even more diverse disciplines, such as digital anthropology, computational ar-

chaeology, cultural studies or music. is will make it possible to address and investigate

a wide range of human phenomena from a digital approach. is is quickly evidenced by

the recent advancement of articial intelligences and machine learning, with which Natu-

ral Language Processing and corpus analysis are expected to become even more accurate.

is will open new possibilities for linguistic, philological, and other studies, allowing

researchers to perform more in-depth analysis, with more subtle pattern detection. Simi-

larly, access to corpora of texts and data is expected to become increasingly easier, as with

the rise of digital libraries, data repositories, and information gathering and storage tools,

researchers will have access to an ever-increasing number of digital resources to analyze,

which will greatly expand research possibilities.

In summary, the future of Digital Humanities, Corpus Studies, and Language Technol-

ogy, all put together, demonstrates an inevitable expansion of their application in various

disciplines, whereby the advancement of natural language processing techniques and ac-

cess will be ever-increasing. ese advances promise an exciting future within these disci-

plines, giving them a major role in future research, especially in the study of the Humani-

ties in the digital environment. e possibilities and applications of these disciplines are

just beginning to be visualized, but there will be more to come and explore. A revolution

that is now focused on the “awakening” of AI, but that in the future may be something we

did not see coming.

is book is therefore subdivided into three main parts, the rst of which is devoted to

Digital Humanities and the use of new technologies for dierent aspects of the human and

social sciences. e second part deals with research works related to the compilation, char-

acterization, or construction of linguistic corpora. Finally, the third part explores projects

based on corpus analysis and natural language processing. All the chapters presented here

have been rigorously evaluated by academic peers, experts in some of the elds of knowl-

edge mentioned here. We will now present each of the parts and their respective chapters.

In the rst part of this work, we can nd four chapters, which deal with topics about

digital humanities such as: visual arts, online libraries, relational databases for the study of

classical Greek and Latin, and the use of Python in epistolary analysis.



Introduction

Chapter I has been co-written by Professors John Roberto and Brian Davis and is en-

titled “Understanding Outsider Art in the context of Digital Humanities”. is chapter pre-

sents the Outsider Art project, which aims to present a group of very innovative artists who

are called “outsiders”, who are usually marginalized aesthetically and socially due to their

psychiatric condition, as well as homeless people, prison inmates, people with disabilities,

migrants, and ethnic minorities. is is how this project arises, which aims to propose an

automatic discovery of the semantic limits of outsider art in the context of digital human-

ities. Methodologically, this proposal is based on three tasks: a) the collection of a corpus

of outsider art; b) generate a large dataset of digital images about this type of art; and c)

build the rst ontology of this art.

Chapter II deals with “e Virtual Library of Spanish Philology (BVFE) and its Hispan-

ic-American heritage”, and has been co-written by professors Jaime Peña Arce and María

Ángeles García Aranda. is work has a double objective: on the one hand, to publicize the

Library of Spanish Philology, which is a portal that gathers a large number of linguistic

works related to Spanish, which can be accessed freely and free of charge. Secondly, the

authors seek to investigate the Hispanic American component of its collection, with the

purpose of reecting on all that has been done and what still remains to be done.

In Chapter III, “From two relational databases to an XML database. e COMREGLA

project”, co-written by a group of researchers attached to higher education centers in Spain:

Eveling Garzón Fontalvo, Berta González Saavedra, José Ignacio Hidalgo González, Iván

López Martín, Alberto Pardal Padín, Guillermo Salas Jiménez and Cristina Tur. In this

chapter the authors present a series of modications and adaptations made on two rela-

tional bases of the REGLA project (REction and Complementation in Ancient Greek and

Latin) whose emphasis is on verbal predications. It is important to emphasize that the

purpose of the changes introduced is to make the information contained in the database

compatible with other automatic language processing tools and to provide analyses that go

beyond the nuclear and basic predications, that is, towards full texts. In order to enable the

respective analyses, the researchers have created a new annotation standard that allows to

reect the richness of morphological, syntactic, semantic and lexical information; all this

allows to account for the very recursion of language and to enrich the analysis with labels

for linguistic components not studied before.

In Chapter IV, Santiago Alejandro Ortiz Hernández proposes the work called “Anal-

ysis of the correspondence of Colonel Anselmo Pineda with Python: a look at the collector

project and the territory from social networks and machine learning”. is chapter analyzes

the collecting of Colonel Anselmo Pineda during the nineteenth century in Colombia,



Digital Humanities, Corpus and Language Technology

based on his voluminous epistolary preserved in the National Library of Colombia. To this

end, the author proposes a mixed methodology that combines the traditional close reading

and a distant reading carried out from the machine thanks to techniques of data science

and geographic information systems implemented thanks to the Python language. is

approach has two main objectives: a) to discover the colonel’s method of collecting docu-

ments by examining the comp osition of his network of collaborators reconstructed through

his personal correspondence, all based on digital humanities and digital history; and b) to

explore the spatial scope of this network of collaborators, which should make it possible

to evaluate the spatial dimension in the formation of the Pineda library within the civiliz-

ing project of the nascent republic in New Granada.

e second part has to do with corpus linguistics, in this sense, six chapters were re-

ceived, in which important topics such as: linguistic atlas corpora, the study of multimod-

al corpora applied to the Brazilian oral language, the study of Mexican indigenous languag-

es, lie detection and credibility assessment based on corpora specially designed for this

purpose, linguistic corpora that allow the study of colloquial German language, and a

corpus of learners of English as a Foreign Language.

Chapter V, entitled “Development of a corpus of linguistic atlases”, is a proposal by

Professor Carolina Julià Luna. In this chapter, the author presents some characteristics and

functionalities of this type of computer tools, in which data from various regional linguis-

tic atlases of European Spanish are stored. e purpose of all this is to conserve the linguis-

tic heritage, to serve as a source for the dissemination of variation and richness in the

language and, nally, to help complement the data from textual corpora and lexicograph-

ic works that help to expand research on linguistic change and the history of the Spanish

language.

Chapter VI deals with “e C-ORAL-BRASIL proposal for the treatment of multimodal

data in corpus: the pilot project of the BGEST corpus”, a work proposed by Professors Cami-

la Barros and Heliana Mello. According to the authors, this chapter discusses methodolog-

ical issues associated with the collection and processing of multimodal data, especially

those related to the predominant role of action. e main objective of the chapter is to

connect the organization of the structure of information, based on the union of the eo-

ry of Language in Action and the concept of spatial-motor packaging. At the end, the au-

thors will show us the crucial role of prosody in the informational categories of L-AcT and

its impact on the interpretation of gestures.

Chapter VII, co-written by Antonio Reyes Pérez and Antonio García Zúñiga, is entitled

“Language technologies and indigenous Mexican languages: constitution of an Amuzgo-Span-



Introduction

ish parallel corpus”. is proposal describes the particularities of the construction of the

rst Amuzgo-Spanish parallel corpus, which represents a real source of data for scientic

research in the eld of language, as well as for the development of resources and tools for

languages that are scarcely represented and in danger of disappearing.

Chapter VIII deals with the “Methodological Bases: the construction of a corpus for the

detection of lies and the evaluation of credibility” and is the work of Pedro Eduardo Hernán-

dez Fuentes. In this chapter it is possible to access the meta-analytical approaches that show

that verbal information is a reliable indicator that allows to identify lies or to evaluate the

credibility of a testimony. For this purpose, the author shows a work based on a linguistic

corpus that has been developed thanks to a transdisciplinary perspective between linguis-

tics and psychology.

In Chapter IX, “Türkisch für Anfänger: proposal of a corpus of modern colloquial Ger-

man, exemplied from routine phrases for greetings”, Karen Baquero Castro builds a specif-

ic corpus of German from more than , lines of dialogue from the German television

series Türkisch für Anfänger. e aim of this corpus is to optimize the process and accom-

paniment in the teaching and learning of German as a foreign language. In order to exem-

plify its usefulness and use, the corpus focuses on the formulas used in the series, more

precisely on the greeting formulas. ese are analyzed by the author from a didactic per-

spective and appealing to the analysis of linguistic corpora that consider the context in

order to favor the teaching-learning process by means of authentic texts.

Finally, among these works on corpus construction, we have chapter X “CLEC - Co-

lombian Learner English Corpus: rst learner corpus of written production in English online

in Colombia”, which deals with the study of Professor M. Victoria Pardo and Professor

Antonio Tamayo, both Colombians, on the constitution of a corpus called CLEC. is

would be the rst corpus on English learners, based on written texts produced by the

learners themselves, from Colombia, and accessible through the website of the TNT re-

search group of the University of Antioquia. It is a corpus of more than , words that

is fully labeled to classify the types of errors made by learners, as well as the level of the

learner. e chapter shows the criteria used for the collection of CLEC, respecting the

guidelines of corpus linguistics and learner corpus. us, in this corpus, learners’ errors

can be consulted, and this phenomenon can be studied by teachers and researchers, who

can contribute new texts, as well as by those interested in learning and studying English as

a foreign language.

e third and last part also deals with works in the eld of corpus linguistics, but from

a perspective more related to analysis and its methods, in which computational linguistics



Digital Humanities, Corpus and Language Technology

and Natural Language Processing (NLP), as well as statistical analysis, are oen used. is

section is made up of ve chapters.

us, Chapter XI, entitled “Pronunciation of consonant clusters in Spanish speakers

based on the Czech read speech corpora”, and written by Czech researchers Kateřina

Pugachova and Jitka Veroňková, presents a study that aims to determine which Czech

consonant clusters are dicult to pronounce for Spanish speakers and which are the most

frequent sound changes due to dierences in syllable structure between these two languag-

es. A set of consonant clusters in initial, middle, and nal positions of words was select-

ed. Seventy-ve words cont aining the target consonant clusters were included in a coherent

text written in Czech (of words). e study provides useful information for improving

the teaching of Czech to native speakers of Spanish.

Continuing with the analyses on specic corpora, in Chapter XII, “Relating qualitative

and quantitative analysis. A predictive statistical model proposal to complete the complex

description of cognitive verbs”, M. Amparo Soler Bonafont (Spain) presents a proposal for

a predictive statistical model to complete the complex description of cognitive verbs, spe-

cically performative forms. e model designed allows us to recognize, with a high degree

of explanatory power, the meanings, and pragmatic functions of polysemous and polyfunc-

tional units such as “creo”. Moreover, the model can be replicated in other texts and genres

in which similar epistemic units may appear.

In Chapter XIII, “Use of Bayesian networks for the analysis of corpus of local problems

related to the Sustainable Development Goals”, Caro Piñeres and Moreno García, from the

University of Córdoba (Colombia), present a sentiment analysis study based on Bayesian

networks in a corpus related to social problem solving. It exemplies the use of Bayesian

networks for data analysis, modeling, and decision support in various domains. e need

for techniques and tools that automatically construct Bayesian networks from massive text

or bibliographic data is discussed, especially in relation to the United Nations-led Sustain-

able Development Goals (SDGs). e paper also discusses the collection and analysis of

textual information to build Bayesian networks, as well as the limitations and challenges

associated with this technique. e objective is to describe the process of collecting, organ-

izing, annotating, and validating a corpus of more than , descriptions of problems

related to SDG compliance in three regions of Colombia. e main outcome of the study

was the creation of a large digital corpus of descriptions of problems related to SDG com-

pliance in these three regions. In addition, the potential of the corpus was evaluated through

the application of a Bayesian network algorithm, which produced a high rate of correct

answers.



Introduction

Chapter XIV welcomes us to the study on the correlation between the orientational

metaphor    /    and positive/negative polarity in Spanish

verbs. is study, entitled “Correlation between the orientational metaphor    /

   and positive/negative polarity in Spanish verbs: a study with corpus statistics”

and conducted by colleagues from the Ponticia Universidad Católica de Valparaíso

(Chile), seeks to test the relationship between vertical orientation and polarity in Spanish

orientational metaphors. Ten Spanish verbs with ‘up’/‘down’ meaning were selected and

their association was measured in corpus concordances with lexical units with ‘posi-

tive’/‘negative’ meaning, labeled by means of a polarity lexicon. e results of the study

indicate that there is a relationship between vertical orientation and positive or negative

polarity in real contexts of use of the units of analysis. is makes it possible to test empir-

ically and by means of corpus statistical methods the orientational metaphor on a linguis-

tic level. With this it can be stated, with a high degree of certainty, that verbs with a sense

of ‘up’ will tend to be part of sentences in which a ‘positive’ sense will be expressed, and

verbs with a sense of ‘down’ will tend to be included in sentences with a ‘negative’ sense.

Finally, a dierent and innovative study in the eld of language processing is the work

of José Luis Pemberty, accompanied and advised by J. Molina Mejía, editor of this volume.

is Chapter XV, “UnderRL Tagger: a free soware for Under-Resourced Languages POS

tagging”, presents a free soware that allows morphologically annotating (POS) under-re-

sourced languages (Under-Resourced Languages). With this model, the process can be

performed manually, but the algorithm can also be trained to gradually automate it. e

output format uses the EAGLES tags in XML, with the intention of making it possible to

process big data. is would provide a valuable computing resource for languages with few

native speakers or poorly studied languages.



Introducción

Jorge Molina Mejía & Andrés Grajales Ramírez

Universidad de Antioquia – Colombia

“Humanidades Digitales, Corpus y Tecnología del Lenguaje: una mirada desde diversos casos

de estudio” es un título que retoma, de una manera innovadora, tres campos del conoci-

miento que se conjugan en el presente libro de investigación, el cual es fruto de un trabajo

conjunto de edición entre la Universidad de Antioquia y la Universidad de Groningen. Es

importante constatar que en la época y el contexto actuales resulta de suma importancia

elaborar obras que tengan como norte los estudios interdisciplinarios y, en este sentido, la

obra que presentamos a continuación tiene por vocación abordar trabajos actuales en estos

tres aspectos, siempre con una mirada desde la informática y de su aplicación en el campo

de las ciencias humanas y sociales, y todo ello desde una perspectiva interuniversitaria.

Hemos decidido, además, que los diferentes capítulos que hacen parte del presente com-

pendio se presenten en español y en inglés, esto con el n de que puedan ser consultados

por estudiantes e investigadores hablantes de ambas lenguas. Todo esto se fundamenta en

el hecho de que el libro que aquí presentamos se ha realizado entre dos instituciones en las

que las lenguas de mayor uso son el español y el inglés. No obstante, desde una perspecti-

va global, nuestra pretensión es que los capítulos aquí publicados lleguen a una gran parte

de los investigadores que emplean alguna de estas dos lenguas en su proceso investigativo

y de docencia.

El libro presenta diversos casos de estudio donde la relación de las Humanidades Di-

gitales con la Tecnología del Lenguaje y su aplicación en corpus lingüísticos es evidente.

Como se anticipó anteriormente, las Humanidades Digitales pueden aportar en la creación

y análisis de corpus lingüísticos gracias a la utilización de nuevas tecnologías y herramien-

tas que permiten una mayor eciencia y precisión en el Procesamiento del Lenguaje Na-

tural. Por otro lado, el estudio de corpus puede ayudar a descubrir patrones y tendencias

en los datos lingüísticos que serían difíciles de detectar mediante métodos tradicionales,

lo cual benecia a las Humanidades Digitales. Las nuevas tecnologías y herramientas di-

gitales permiten hoy en día complementarse, mediante mayor eciencia y precisión en el

tratamiento y comprensión de los lenguajes humano. Desde este instante, se puede vislum-



Digital Humanities, Corpus and Language Technology

brar que el futuro de estas disciplinas es altamente prometedor, pues han empezado a

desempeñar un papel importante en las investigaciones y los estudios, y se espera que siga

creciendo. A medida que se avanza y surgen nuevos desarrollos en la era actual, las tecno-

logías del lenguaje se tornan más sosticadas, por lo cual habrá nuevas oportunidades, pero

también nuevos desafíos en estos campos.

Actualmente, es común que los trabajos relacionados con estas temáticas se centren en

campos como la literatura, la historia, la lingüística, la sociología, etc. Sin embargo, se es-

pera que, en el futuro, las Humanidades Digitales y el análisis de corpus lingüísticos puedan

ampliar sus aplicaciones en disciplinas aún más diversas, tales como la antropología digital,

la arqueología computacional, los estudios culturales o la música. Lo cual va a permitir

abordar e investigar una amplia gama de fenómenos humanos desde un enfoque digital.

Esto rápidamente se evidencia en el reciente avance de las inteligencias articiales y el

aprendizaje automático, con lo que se espera que el Procesamiento del Lenguaje Natural y

el análisis de corpus se vuelvan aún más precisos. Esto abrirá nuevas posibilidades para los

estudios lingüísticos, lológicos y demás, permitiendo que los investigadores realicen aná-

lisis a más profundidad, con detección de patrones más sutiles. De igual manera, se espera

que el acceso a corpus de textos y datos sea cada vez más fácil, pues con el incremento de

las bibliotecas digitales, los repositorios de datos y las herramientas de recolección y alma-

cenamiento de información, los investigadores tendrán acceso a una cantidad cada vez

mayor de recursos digitales para analizar, lo cual ampliará enormemente las posibilidades

de investigación.

En resumen, el futuro de las Humanidades Digitales, el estudio de Corpus y la Tecno-

logía del lenguaje, todo puesto en relación, demuestra una inevitable expansión de su

aplicación en diversas disciplinas, por lo que el avance de las técnicas de procesamiento del

lenguaje natural y el acceso será cada vez mayor. Estos avances prometen un futuro emo-

cionante dentro de estas disciplinas, otorgándoles un papel principal en las investigaciones

venideras, sobre todo, en cuanto al estudio de las Humanidades en el entorno digital. Las

posibilidades y aplicaciones de estas disciplinas apenas se empiezan a visualizar, pero habrá

más por llegar y explorar. Una revolución que ahora tiene puesto el foco en el “despertar”

de las IA, pero que en el futuro puede tratarse de algo que no veníamos venir.

El presente libro se encuentra subdividido, por lo tanto, en tres grandes partes, la pri-

mera dedicada al tema de las humanidades digitales y la utilización de las nuevas tecnolo-

gías para diferentes aspectos de las ciencias humanas y sociales. En la segunda parte, se

abordan trabajos de investigación que tienen que ver con la compilación, caracterización

o construcción de corpus lingüísticos. Finalmente, la tercera propende por explorar pro-



Introducción

yectos que tienen como punto de apoyo el análisis de corpus y el procesamiento del len-

guaje natural. Todos los capítulos aquí presentados, han sido rigurosamente evaluados por

pares académicos, expertos en alguno de los campos de conocimiento aquí mencionados.

Pasaremos, a continuación, a presentar cada una de las partes y sus respectivos capítulos.

En la primera parte de la presente obra podemos encontrar cuatro capítulos, los cuales

versan sobre temas acerca de las humanidades digitales tales como: las artes visuales, las

bibliotecas en línea, las bases de datos relacionales para el estudio del griego y el latín clá-

sicos, y el empleo de Python en el análisis epistolario.

El capítulo I ha sido coescrito por los profesores John Roberto y Brian Davis, y lleva

por título “Entender el Arte Outsider en el contexto de las Humanidades Digitales”. En este

capítulo se presenta el proyecto de Arte Outsider, el cual tiene como objetivo presentar a

un grupo de artistas muy innovadores que son los denominados “outsiders”, los cuales

normalmente se encuentran marginados a nivel estético y social debido a su condición

psiquiátrica, también de ser personas sin hogar, reclusos carcelarios, personas con disca-

pacidad, migrantes y minorías étnicas. Es así como surge este proyecto que tiene como

nalidad proponer un descubrimiento automático de los límites semánticos del arte out-

sider en el contexto de las humanidades digitales. Metodológicamente, esta propuesta se

fundamenta en tres tareas: a) la recopilación de un corpus de arte outsider; b) generar un

gran conjunto de datos de imágenes digitales sobre este tipo de arte; y c) construir la pri-

mera ontología de este arte.

El capítulo II versa sobre “La Biblioteca Virtual de la Filología Española (BVFE) y su

acervo hispanoamericano”, y ha sido coescrito por los profesores Jaime Peña Arce y María

Ángeles García Aranda. En este trabajo parte de un doble objetivo, por un lado, dar a co-

nocer la Biblioteca de la Filología Española, la cual se constituye como un portal que reco-

ge una gran cantidad de obras lingüísticas relacionadas con el español, a las que se puede

acceder de forma libre y gratuita. En segundo lugar, los autores buscan indagar en el com-

ponente hispanoamericano de su acervo, con el propósito de recapacitar sobre todo aque-

llo que se ha hecho y lo que aún queda por hacerse.

En el capítulo III, “De dos bases de datos relacionales a una base de datos XML. El

proyecto COMREGLA”, coescrito por un grupo de investigadores adscritos a centros de

educación superior de España: Eveling Garzón Fontalvo, Berta González Saavedra, José

Ignacio Hidalgo González, Iván López Martín, Alberto Pardal Padín, Guillermo Salas Ji-

ménez y Cristina Tur. En este capítulo los autores presentan una serie de modicaciones y

adaptaciones efectuadas sobre dos bases relacionales del proyecto REGLA (REcción y com-

plementación en Griego Antiguo y Latín) cuyo énfasis se encuentra en las predicaciones



Digital Humanities, Corpus and Language Technology

verbales. Resulta importante destacar que la nalidad de los cambios introducidos se en-

marcan en el proyecto COMREGLA conduce a que la información contenida dentro de la

base de datos sea compatible con otras herramientas de tratamiento automático del len-

guaje y que provea análisis que vayan más allá de las predicaciones nucleares y básicas, es

decir, hacia las de textos completos. Con el n de permitir los respectivos análisis, los in-

vestigadores han creado un nuevo estándar de anotación que permite reejar la riqueza de

la información morfológica, sintáctica, semántica y léxica; todo ello permite dar cuenta de

la propia recursividad del lenguaje y enriquecer el análisis con etiquetas para componentes

lingüísticos no antes estudiados.

En el capítulo IV, el profesor Santiago Alejandro Ortiz Hernández propone el trabajo

denominado “Análisis del epistolario del coronel Anselmo Pineda con Python: Una mirada

al proyecto coleccionista y al territorio desde las redes sociales y el aprendizaje automático”.

En dicho capítulo se analiza el coleccionismo del coronel Anselmo Pineda durante el siglo

XIX en Colombia, a partir de su voluminoso epistolario conservado en la Biblioteca Na-

cional de Colombia. Para tal n, el autor propone una metodología mixta que combina la

tradicional lectura cercana y una lectura distante efectuada a partir de la máquina gracias

a técnicas propias de la ciencia de datos y los sistemas de información geográca imple-

mentados gracias al lenguaje Python. Esta manera de proceder busca dos grandes objetivos:

a) poder descubrir el método de recopilación de documentos del coronel al examinar la

composición de su red de colaboradores reconstruida mediante su correspondencia per-

sonal, todo ello basado en las humanidades digitales y la historia digital; y b) explorar el

alcance espacial de esa red de colaboradores, lo que debería posibilitar la evaluación de la

dimensión espacial en la conformación de la biblioteca Pineda al interior del proyecto ci-

vilizatorio de la naciente república en Nueva Granada.

La segunda parte tiene que ver con la lingüística de corpus, en este sentido se recibieron

seis capítulos, en los cuales se abordan temas tan importantes como: los corpus de atlas

lingüísticos, el estudio de corpus multimodales aplicados a la lengua oral brasileña, el es-

tudio de lenguas indígenas mexicanas, la detección de mentiras y la evaluación de la cre-

dibilidad a partir de corpus especialmente diseñados para tal n, corpus lingüísticos que

permiten el estudio del alemán coloquial, y un corpus de aprendices de inglés como lengua

extranjera.

El capítulo V, que lleva por título “Desarrollo de un corpus de atlas lingüísticos”, es una

propuesta de la profesora Carolina Julià Luna. En este capítulo, su autora presenta algunas

características y funcionalidades de este tipo de herramientas informáticas, en la que se

almacenan datos provenientes de diversos atlas lingüísticos regionales del español europeo.



Introducción

Todo ello, tiene como nalidad que se pueda conservar el patrimonio lingüístico, que

puedan servir como fuente de divulgación de la variación y la riqueza en el lenguaje y, -

nalmente, que ayuden a complementar los datos procedentes de corpus textuales y de obras

lexicográcas que ayuden a ampliar las investigaciones sobre el cambio lingüístico y la

historia de la lengua española.

En el capítulo VI se aborda “La propuesta del C-ORAL-BRASIL para el tratamiento de

datos multimodales en corpus: el proyecto piloto del corpus BGEST”, un trabajo propuesto

por las Profesoras Camila Barros y Heliana Mello. Según las autoras, en este capítulo se

discuten cuestiones metodológicas asociadas a la recopilación y al tratamiento de datos

multimodales, especialmente a aquellos ligados al papel preponderante de la acción. El

objetivo principal del mismo es el de conectar la organización de la estructura de la infor-

mación, a partir de la unión de la Teoría de la lengua en Acto y el concepto de empaque-

tado espacio-motor. Al nal, las autoras nos mostrarán el papel crucial que adquiere la

prosodia en las categorías informacionales de la L-AcT y su impacto en la interpretación

de los gestos.

El capítulo VII, coescrito por Antonio Reyes Pérez y Antonio García Zúñiga, lleva por

título “Las tecnologías del lenguaje y las lenguas indígenas mexicanas: constitución de un

corpus paralelo amuzgo-español”. En esta propuesta se describen las particularidades de la

construcción del primer corpus paralelo amuzgo-español, el cual representa una fuente de

datos reales para la investigación cientíca en el campo del lenguaje, particularmente, así

como en lo que respecta al desarrollo de recursos y de herramientas para lenguas escasa-

mente representadas y en peligro de desaparición.

El capítulo VIII tiene que ver con las “Bases metodológicas: la construcción de un corpus

para la detección de mentiras y la evaluación de la credibilidad”, y es obra de Pedro Eduardo

Hernández Fuentes. En este capítulo es posible acceder a los acercamientos metaanalíticos

que muestran que la información verbal es un indicador conable que permite identicar

mentiras o evaluar la credibilidad de un testimonio. Para ello, el autor muestra un trabajo

fundamentado en un corpus lingüístico que ha sido desarrollado gracias a una perspectiva

transdisciplinaria entre lingüística y psicología.

En el capítulo IX, “Türkisch für Anfänger: propuesta de un corpus del alemán coloquial

actual, ejemplicado a partir de las fórmulas rutinarias de saludo”, Karen Baquero Castro

construye un corpus especíco de alemán a partir de más de   líneas de diálogo de la

serie de televisión alemana Türkisch für Anfänger. El objetivo de este corpus es optimizar

el proceso y el acompañamiento en la enseñanza y aprendizaje del alemán como lengua

extranjera. Se centra entonces, para ejemplicar su utilidad y uso, en las fórmulas de tra-



Digital Humanities, Corpus and Language Technology

tamiento allí presentes, más precisamente en las fórmulas de saludo. Estas son analizadas

por la autora desde una perspectiva didáctica y apelando al análisis de corpus lingüísticos

que tengan en cuenta el contexto para favorecer la enseñanza-aprendizaje por medio de

textos auténticos.

Tenemos, por último, dentro de estos trabajos sobre construcción de corpus, el capí-

tulo X ”CLEC - Corpus Colombiano de Aprendices de Inglés: primer corpus de producción

escrita de aprendices de inglés en Colombia disponible en línea”, en el cual se aborda el estu-

dio de la profesora M. Victoria Pardo y el profesor Antonio Tamayo, ambos colombianos,

sobre la constitución de un corpus llamado CLEC. Este consistiría en el primer corpus

sobre aprendientes de inglés, el cual se basa en textos escritos producidos por los mismos

aprendientes, provenientes de Colombia, y accesible por medio de la web del grupo de

investigación TNT de la Universidad de Antioquia. Es un corpus de más de   pa-

labras que se encuentra totalmente etiquetado para clasicar los tipos de errores que co-

meten los aprendientes, así como también el nivel del estudiante. El capítulo muestra los

criterios que se utilizaron para la recolección de CLEC, respetando las pautas de la lingüís-

tica de corpus y de corpus de aprendientes. Es así como en este corpus se pueden consultar

los errores de los aprendientes y estudiar este fenómeno tanto profesores e investigadores,

que pueden aportar textos nuevos, como interesados en aprender y estudiar el idioma inglés

como lengua extranjera.

La tercera y última parte aborda también trabajos en el campo de la lingüística de cor-

pus, pero desde una perspectiva más relacionada con el análisis y sus métodos, en el que a

menudo se valen de la lingüística computacional y el procesamiento del lenguaje natural

(PLN), como también del análisis estadístico. Esta sección se encuentra constituida por

cinco capítulos.

De esta manera, el capítulo XI, titulado “La pronunciación de los grupos de consonantes

en hispanohablantes basándose en el corpus oral leído checo”, y escrito por los investigadores

checos Kateřina Pugachova y Jitka Veroňková, presenta un estudio que tiene como objeti-

vo determinar qué grupos de consonantes del checo son difíciles de pronunciar para los

hablantes de español y cuáles son los cambios de sonido más frecuentes debido a las dife-

rencias en la estructura silábica entre estos dos idiomas. Se seleccionó un conjunto de 

grupos de consonantes en posiciones iniciales, medias y nales de palabras. Se incluyeron

 palabras que contenían los grupos de consonantes objetivo en un texto coherente escri-

to en checo (de  palabras). El estudio proporciona información útil para mejorar la

enseñanza del checo a los hablantes nativos de español.



Introducción

Continuando con los análisis en corpus especícos, en el capítulo XII, “Relacionando

los análisis cualitativo y cuantitativo. Una propuesta de modelo estadístico predictivo para

completar la descripción compleja de los verbos cognitivos”, M. Amparo Soler Bonafont (Es-

paña) nos presenta una propuesta de modelo estadístico predictivo para completar la des-

cripción compleja de los verbos cognitivos, especícamente las formas performativas. El

modelo diseñado permite reconocer con un elevado grado de explicatividad ante qué sig-

nicados y funciones pragmáticas de unidades polisémicas y polifuncionales como “creo”

nos encontramos. Además, el modelo es replicable en otros textos y géneros en los que

pueden aparecer unidades epistémicas similares.

En el capítulo XIII, “Uso de redes Bayesianas para el análisis de corpus de problemas

locales relacionados con los Objetivos de Desarrollo Sostenible”, Caro Piñeres y Moreno Gar-

cía, de la Universidad de Córdoba (Colombia), presentan un estudio de análisis de senti-

miento basado en redes bayesianas en un corpus relacionado con resolución de problemas

sociales. Este ejemplica el uso de redes bayesianas para el análisis de datos, modelado y

apoyo a la toma de decisiones en varios dominios. Se discute la necesidad de técnicas y

herramientas que construyan automáticamente redes bayesianas a partir de textos masivos

o datos bibliográcos, especialmente en relación con los Objetivos de Desarrollo Sosteni-

ble (ODS) liderados por las Naciones Unidas. El documento también aborda la recopila-

ción y análisis de información textual para construir redes bayesianas, así como las limi-

taciones y desafíos asociados con esta técnica. El objetivo es describir el proceso de

recopilación, organización, etiquetado y validación de un corpus de más de   descrip-

ciones de problemas relacionados con el cumplimiento de los ODS en tres regiones de

Colombia. El resultado principal del estudio fue la creación de un gran corpus digital de

descripciones de problemas relacionados con el cumplimiento de los ODS en estas tres

regiones. Además, se evaluó el potencial del corpus mediante la aplicación de un algoritmo

de red bayesiana, que produjo una alta tasa de respuestas correctas.

El capítulo XIV nos da la bienvenida al estudio sobre la correlación entre la metáfora

orientacional    /    y la polaridad positiva/negativa en verbos

del español. Este estudio, titulado “Correlación entre la metáfora orientacional  

 /    y polaridad positiva/negativa en verbos del español: un estudio con

estadística de corpus” y realizado por los colegas de la Ponticia Universidad Católica de

Valparaíso (Chile), busca comprobar la relación entre la orientación vertical y la polaridad

en las metáforas orientacionales del español. Se seleccionaron verbos del español con

signicado ‘subir’/ ‘bajar’ y se midió su asociación en las concordancias del corpus con

unidades léxicas con signicado ‘positivo’/‘negativo’, etiquetadas mediante un lexicón de



Digital Humanities, Corpus and Language Technology

polaridad. Los resultados del estudio indican que existe una relación entre la orientación

vertical y la polaridad positiva o negativa en contextos reales de uso de las unidades de

análisis. Esto permite comprobar empíricamente y mediante métodos de estadística de

corpus la metáfora orientacional en un nivel lingüístico. Con ello se puede armar, con un

grado elevado de certeza, que los verbos que presenten un sentido de ‘subir’ tenderán a

formar parte de frases en las que se expresará un sentido ‘positivo’, y los verbos con sentido

‘bajar’ tenderán a estar incluidos en frases con sentido ‘negativo’.

Por último, un estudio diferente e innovador en el ámbito del tratamiento del lenguaje

es el trabajo de José Luis Pemberty, acompañado y asesorado por J. Molina Mejía, editor

de este volumen. Este capítulo XV, “UnderRL Tagger: un soware libre para etiquetar POS

en Under-Resourced Languages”, se presenta un soware libre que permite anotar morfo-

lógicamente (POS) lenguas de pocos recursos (Under-Resourced Languages). Con este

modelo se puede realizar de manera manual el proceso, pero, además entrenar el algoritmo

para paulatinamente ir automatizándolo. El formato de salida utiliza las etiquetas EAGLES

en XML, con la intención de que sea posible el tratamiento de grandes datos. De este modo,

se les aportaría un valioso recurso informático a lenguas de pocos hablantes nativos o

lenguas poco estudiadas.

Part I

Digital Humanities



C I

Understanding Outsider Art in the

context of Digital Humanities

Entender el Arte Outsider en el

contexto de las Humanidades

Digitales

John Roberto & Brian Davis

Dublin City University – Ireland

Abstract: This chapter introduces the Outsider Art Project. “Outsiders” are highly



-

grants and ethnic minorities. Because of the need to characterize outsider art on a

formal basis, this project is aimed at the automatic discovery of the semantic bound-

aries of outsider art in the context of digital humanities. From the methodological



corpus of outsider art, generating a large dataset of digital images about outsider art



Resumen: Este capítulo presenta el Proyecto de Arte Outsider. Los “outsiders” son

artistas muy innovadores que han sido marginados estética y socialmente debido a

su condición de pacientes psiquiátricos, personas sin hogar, reclusos, personas con

discapacidad, migrantes y minorías étnicas. Debido a la necesidad de caracterizar el

arte outsider de manera formal, este proyecto tiene como objetivo el descubrimien-

to automático de los límites semánticos del arte Outsider en el contexto de las hu-

manidades digitales. Desde el punto de vista metodológico, el Proyecto de Arte Out-

sider se organiza en torno a tres tareas: recopilar un corpus sobre arte outsider,

generar un gran conjunto de datos de imágenes digitales sobre arte outsider y con-

struir la primera ontología del arte outsider.

Understanding Outsider Art in the context of Digital Humanities



Digital Humanities, Corpus and Language Technology

1. Introduction

e world of art and culture can be divided into mainstream art and outsider art. Outsider

artists are highly creative people who have been marginalized because they have broken,

in some way, whether intentionally or not, rightly or wrongly, with the cultural conven-

tions, rules and codes established by a community. Hence, we are referring to people with

some form of physical, intellectual, or psychiatric disability, members of minority groups

and social mists involved in any artistic activity. Outsider artists oen employ obsessive

and repetitive patterns to represent disturbing themes such as sex and violence through

the use of unconventional materials.

Outsider art is a concept that cannot be dened in absolute terms. e word was coined

by Roger Cardinal in  as an English equivalent for the term ‘art brut’, which was creat-

ed around  by the French artist Jean Philippe Arthur Dubuet. Dubuet stated that

Art Brut was free from all social and cultural constraints because outsider artists are unfa-

miliar with the academic dogmas in which mainstream artists have been schooled. Accord-

ing to Professor Colin Rhodes, “as a category construction, ‘art brut’ was meant to highlight

a creative tributary that was not so much dierent in kind from mainstream art, but rath-

er in its lack of self-censorship or interest in following art world fashions” (C. Rhodes,

personal communication, December , ). roughout its history, the term outsider

art has been associated with very closed terms that focused on a specic dimension of the

notion. For example, the term ‘naïve art’ emphasizes the lack of formal training of some

artists, ‘neuve invention’ is used to refer to subversive and inventive artists, and ‘self-taught

art’ is a term which tries to avoid “the stigmas that some feel are attached to the Outsider

Art denition” (Raw Vision magazine). Oen, such denitions may end up in overlaps or

even fall into circular reasoning: “Art Brut means ‘Raw Art’” (Raw Vision magazine) and

“Outsider art is used to describe art that has a naïve quality” (the Tate website’s glossary).

In general, outsider art has always been the “other art”. For many in of the mainstream

art community, outsider art is considered an “anti-intellectual”, “anti-professional” and

“anti-academic” genre. Even, it is seen as “unsightly rubbish” by some art purists (Hernán-

dez, ). A signicant part of the artistic mainstream despises outsider art, partly because

its creators are seen to exist outside established culture and society, and partly because they

are artists with a disability or untrained artists. A prototypical example of an outsider

artist is Rodó. Rodó is a Latin American artist diagnosed with paranoid schizoaective

1 

2 

3 



Understanding Outsider Art in the context of Digital Humanities

disorder. He emigrated to Barcelona (Spain) in the late s, where he did not have an

easy life: he slept on the streets and begged for money. When Rodó was a child, he enjoyed

sculpting in clay and painting in oils. Nowadays, Rodó divides his time between his job as

a cleaner and painting with watercolours. However, the truth is that despite his talent, Rodó

has little hope of achieving fame.

From the analytical point of view, understanding outsider art is a considerable chal-

lenge, due to the large number of prejudices and misunderstandings surrounding the con-

ceptualization of this artistic style. Although marginalization is a common trait of the ar-

tistic and cultural worlds, the marginalization of outsiders is the rule. For example, abstract

expressionism was a mainstream movement dened by the machismo of its most repre-

sentative gures, Jackson Pollock and Willem de Kooning. e New York School – which

represented the abstract expressionists in America – rejected the painter Robert Rauschen-

berg for being gay and neglected the work of the American artist Lee Krasner for being a

woman. Hans Hofmann once said, with regard to a painting by Krasner: “so good you

would not know that it was done by a woman.” erefore, if gender inequality is predicta-

ble in mainstream art (Miller, ), then female outsider artists are discriminated against

both because they are women and because they are outsiders. Indeed, there also seems to

be a tendency towards the structural exclusion of women from the “canon” of outsider art.

In a show organized by the Hayward Gallery featuring the most prolic outsiders of the

last several decades, . were male and only . were female. However, what is particu-

larly poignant for outsider artists is that some of them would not even consider themselves

to be artists. An example is Barry Woo, who said the following when he was called an

artist: “I thought I was just a ‘schizophrenic’!”.

In this chapter we present the Outsider Art Project, an innovative research project that

applies digital technologies to the objective conceptualization of the artistic practices that

lie outside the mainstream art world. Analysing outsider art by computational means is

important for the characterization of a hermetic part of the world of creativity and, by

extension, of society. From a scientic point of view, outsider art is an entry point for un-

derstanding a number of complex and interdisciplinary issues such as the psychological

relationship between art and disability (Pettinari, ), how cultural (sociological) prod-

ucts are legitimated as art (Alexander & Bowler, ) and the philosophical role of artistic

artefacts in the reproduction of power and domination in our society (Sana et al., ),



case of outsider artists, anonymity protects them from social rejection.



Digital Humanities, Corpus and Language Technology

among others. is project will provide a better understanding of an art oen produced by

people who are socially and culturally marginalized by assigning semantic meaning to huge

amounts of textual and visual data.

is chapter is organized in ve sections, in addition to this introduction. Section 

discusses outsider art as a concept and describes its relationship to mainstream art. Section

deals with two main problems aecting the state of the art of scientic production in out-

sider art. Section  presents the methodological framework that we consider necessary to

understand outsider art. Sections  and  briey introduce the key resources with which

we work: the corpus, ontology and dataset of images. Finally, Section , presents our con-

clusions and summarizes the most salient points made in this chapter.

2. Outsider Art, a Bargaining Chip for Contemporary Art

Outsider art must be considered an extremely complex phenomenon in which dierent

“levels of reality” are present simultaneously. ere have been many attempts to dene

outsider art across the disciplines, though most of them have limited themselves to pre-

senting personal views and concerns about the concept without providing empirical evi-

dence or having a formal basis. For example, the New York Times journalist Roberta Smith

() attempted to dene the concept as “a somewhat vague, catchall term for self-taught

artists of any kind”. e critic, curator and writer Lyle Rexer (), in an attempt to char-

acterize the confusing terminology around the term, denes outsider art as art “created

under the conditions of a massively altered state of consciousness, product of an unquiet

mind”. Ramón Almela (), Ph.D. in Art, talks of “art created outside of conventional

circumstances”. David Davies () proposed a theoretical characterization of the artistic

status of outsider art on the basis of broader considerations regarding the philosophy of

art. Jerry Saltz () argues that outsider art does not exist at all, except as a discrimina-

tory boundary preventing untrained artists from taking their rightful places in the canon.

Linda Rainaldi () later examined American and European perspectives on outsider art,

focusing on biases, ideologies, and social factors, concluding that “I was no closer to artic-

ulating one comprehensive denition of outsider art”. Rebecca Homan, director of the

Outsider Art Fair, has her own, more general criteria: “I utilize the term ‘outsider art’ as an

umbrella for a lot of dierent categories” (Acosta, ).

e point here is that outsider art is culturally marginalized by mainstream art. us,

while mainstream artistic styles (e.g., cubism, realism, baroque or abstract) are usually

described on the basis of artistic criteria such as the use of the colour, shapes, space or



Understanding Outsider Art in the context of Digital Humanities

techniques, outsider styles are most frequently described on the basis of negative non-ar-

tistic criteria such as the mental condition or the lack of training of the artist. In the cases

in which aesthetic criteria were used, they tend to lead to a negative assessment of the works

of art. Paradoxically, in spite of this, “outsiders” are considered to be highly innovative

artists and the visibility of outsider art has increased dramatically in recent years. Even

more paradoxical is the fact that mainstream artists have found inspiration in the work of

their marginalized peers.

As a result, there is an unhealthy relationship between mainstream art and other forms

of art. Experienced artists, such as Paul Klee, Wassily Kandinsky, Pablo Picasso, Jean Dubuf-

fet, Max Ernst and André Breton, sought “inspiration” in the art of children, the art of

“primitive” societies, the art of madness, mass culture and even in totally unintentional art

such as that produced by animals. A well-documented story in this sense is that of the

British zoologist Desmond Morris, who sold paintings by a chimpanzee named Congo to

Salvador Dali, Pablo Picasso and Joan Miro. We also all know that Andy Warhol became a

huge inuence on popular culture by placing ordinary everyday items at the heart of his

work. He said, “I don’t think art should be only for the select few, I think it should be for

the mass of the American people.” With this in mind, Warhol turned art into a mass-pro-

duced commodity and the artist into a brand name. Max Ernst, who abandoned his stud-

ies in psychiatry at the University of Bonn for painting, was profoundly interested in the

“art of the insane” as a way to access primal emotion. Ernst was probably responsible for

bringing ar t brut into surrealism. Paul Klee wrote that “in our own time worlds have opened

up which not everybody can see into, although they too are part of nature. Perhaps it’s

really true that only children, madmen and savages see into them” (MacGregor J., ).

Joan Miró also turned to “extra-cultural art” for inspiration, including children’s art and

primitive and folk-art. Linda Ferrell () states that “Miró has not only made use of a

child’s color scheme, but he has added the child’s painting technique to the shapes and

motifs he has chosen and to his use of space and line.” Ferrell also argues that Jean Dubuf-

fet’s art shows a major inuence from the art of children. Specically, he used elements

from the artwork of children in the dawning realism stage, which marks the transition

between art as purely symbolic to art as a creative outlet. In the same vein, Heather Malin

() from Stanford University states that Wassily Kandinsky “gave special privilege to the

lack of purpose in children’s art making” and, in an article published by Sharla Ackles from

Colorado State University, she stated that:



Digital Humanities, Corpus and Language Technology

Most of the artists who have been inuenced by the art of the primitive have included the

art of children as an inuence. One of the artists who used children’s art as his main source

of inspiration was Paul Klee. He had great respect and enthusiasm for the work of children

(Ackles, ).

e case of outsider art is paradigmatic in this regard because there are those who believe

that outsider art has been used, reproduced and nally scrapped by mainstream art: “the

mainstream appropriates artifacts as art but then insists that they occupy a marginal or

degraded position” (Alexander & Bowler, ). As a result, there are mainstream artists who

draw “inspiration” from outsider artists. For example, in Figure we can see the similarities

and coincidences between an illustration by the Spanish illustrator Ricardo Cavolo (Fig-

urea) and a serigraphy by the outsider artist Antonio Roseno de Lima (Figureb). erefore,

the demarcation line between both artistic styles, outsider and insider, in terms of their

mutual inuence can be dicult to dene. Consider, for example, the case of the self-taught

artist Jean-Michel Basquiat, who has been directly classied by some art historians as an

outsider because of his use of found materials and the obsessive and repetitive use of symbols

in his work. Others, however, nd this idea disturbing because Basquiat’s work sells for mil-

lions. On the other hand, Jean Dubuet, who was greatly inspired by the work of the outsid-

er painter Adolf Wöli, completely embraced this style. Along the same lines, but regarding

the neural mechanisms regulating face and body perception in the work of the mainstream

artist Francis Bacon, researchers on neuroaesthetics at University College London stated that

“he [Bacon] subverted the normal neural representation of faces and bodies” (Zeki and Ishi-

zu, ), leading to produce a “visual shock” in the spectator (see Figurec). We can observe

a similar eect in the portraits of the outsider artist Jean-Marc Renault (see Figured) who

created “a dozen portraits of war victims who carry their physical deformation forever”

(Chernetska, ).

Apart from mainstream art, it is very surprising – or perhaps not – the extent to which

outsider art shares some common visual traits with the art of children. Figureshows how

both an outsider artist and a four-year old boy represent a human gure. Aside from the

dierences related to age, for instance the fact that the child has not introduced a baseline

to organize objects in space, both subjects share a common vision of some parts of the body

such as the feet, knees, waist (belt buckle), chest (right pocket), hands in pockets or arms

that are drawn close to the body and big eyes. Typically, the drawings of children and out-

siders are self-portraits and may be a realistic portrayal or an idealized image. In the case

of children, it is known that egocentric thinking plays a crucial role in the self-dening

process of four-year old boys and girls. In the case of outsiders, psychologists state that a



Understanding Outsider Art in the context of Digital Humanities

“preoperational features such as egocentric thinking and perception-bound reasoning have

been implicated in the association between schizotypy and creativity” (Winston et al.,

).

Figure 2. 

year old boy (Marginarte, 2019).

Figure 1. (a) Ricardo Cavolo’s illustration (Cavolo, 2021). (b) Bebado, serigraphy by the outsider artist

Antonio Roseno de Lima (Collection de l ’Art Brut, undated). (c) Francis Bacon, Self-Portrait

1969). (d) Jean-Marc Renault, Por trait no. 9 (Renault, 2018).

a cb d



Digital Humanities, Corpus and Language Technology

3. State-of-the-art in Outsider Art

Until now, outsider art has been analysed in the light of theoretical but not computation-

al models. According to the Scopus database, while  of the papers in computer science

dealing with artistic styles are about mainstream art (e.g., pop, conceptual, abstract and

street art), only  of papers are about outsider art. us, it is not uncommon to nd

papers on mainstream art describing a mathematical algorithm to produce abstract paint-

ings (Spann, ), on applying optical techniques with the aim of identifying similarities

and dierences between the th century painting Madonna della Cesta by Rubens and a

Piero Fevere tapestry (Dal Fovo, et al., ), on detecting the presence of grati art on

building facades using Deep Learning models (Novack et al., ), or on generating pop

art-like images from photographic images using binomial distribution methods (Hiraoka,

), among many others. However, this does not occur with outsider art, where we can

refer to only two works in computer science: Roberto & Davis () and Roberto et al.

(). We call this problem the computational gap.

On the other hand, although there are no studies in this regard, there are reasons to

think that less than  of the documents on outsider art are written in the rst person. is

is particularly strange considering that outsider artists are prone to expressing their feelings

in writing. In contrast to outsider art, it is not uncommon to nd papers on mainstream

art written by artists in the rst person. First-hand experience in ne art is a self-reexive

qualitative research method which foregrounds the artist’s subjectivity. By probing the

“artist’s intent” it is possible to improve dierent tasks such as the conservation of works

of art: “it seems that the conservation eld is opening up towards the use of writing in rst

person in art research” (Quabeck, ). e value of rst-person texts for ne art experts

is based on the generation of reliable knowledge by co-constructing (with the artists) in-

stead of reconstructing the experience of the artist. Unfortunately, the co-construction of

knowledge based on artists’ rst-hand experience is not frequent in the research on out-

sider art, probably because researchers do not consider the artists a reliable source of in-

formation. We call this problem the data imbalance problem.

It is therefore necessary to develop methodologies for describing outsider art based on

objective and formal knowledge, such as those provided by processes like digitization,

computation and the quantication of linguistic and graphic data. Natural Language Pro-

4 

conceptualization of disinterestedness (Ardery, 1997).



Understanding Outsider Art in the context of Digital Humanities

cessing and Machine Learning techniques play a signicant role in this task. But rst, it is

necessary to dene framework that support both approaches.

4. Methodological Framework for Understanding Outsider Art

e Outsider Art Project is being conducted within the framework of the digital humani-

ties. However, there are two behaviours which, according to the critics, should be avoided

in digital humanities projects. First, thinking that digital humanities is just “about intro-

ducing digital technologies where there were none before” (Brennan, ) and, secondly,

believing that it is possible to “reveal the secrets of complex social and cultural processes”

through algorithmic computation. erefore, we are considering digital humanities as a

methodological framework in order to place outsider artists at the centre of the research

and to promote the development of digital infrastructures for the computational process-

ing of outsider art. Other aims, dierent to those already proposed, should be evaluated

on the basis of social and cultural criteria by attending to the voices of multiple stakehold-

ers and considering the complexity of the subject matter. e latter leads us to talk about

the transdisciplinary and multimodal nature of the Outsider Art Project.

According to dierent researchers such as Kemman (), “one of the dening char-

acteristics of digital humanities is its emphasis on interdisciplinary collaboration” between

disciplinary peers (research teams, faculties, laboratories and institutions). But describing

digital humanities as interdisciplinary practices places limitations on our research. at is

because of the possibility of collaborative work between scholars or “disciplinary peers”

ruling out the voice of underprivileged and marginalized groups, including outsider artists

(see “data imbalance problem” at Section ). As Martin and Runyon () recognise:

e digital humanities represent, for many researchers, the potential for extending their

research in terms of audience, scope, methods, and opportunity for interdisciplinary col-

laboration. Ideally, this potential should also extend access to cultural engagement and

preservation for marginalized groups.

In order to overcome the limitations associated with interdisciplinary research, we consid-

ered it more appropriate to adopt a transdisciplinary approach. Adopting a transdiscipli-

nary approach can inuence scientic agendas and change the dynamics of research by

promoting the participation of disadvantaged actors. Indeed, it is clear that social actors

other than researchers play a crucial role in transdisciplinary research. Transdisciplinary

research occurs when academics and non-academics contribute their dierent expertise

to understanding a problem holistically by developing a common intellectual framework



Digital Humanities, Corpus and Language Technology

that goes beyond particular perspectives. Seeking the collaboration of researchers and

non-academic actors in order to develop a common denition of a problem is a way to deal

with the complexity of real-world problems such as those referring to cultural marginali-

zation. erefore, in contrast to those who emphasise the interdisciplinary nature of the

digital humanities, we prefer to state that the digital humanities is a transdisciplinary eld.

is assertion is supported by bibliometric analyses such as those obtained by Yang et al.

() and Isemonger (). At the same time, one ought not to forget that in order to

resolve real world or complex problems, transdisciplinarity places the emphasis on human-

ities: “transdisciplinarity integrates the natural, social and health sciences in a humanities

context, and transcends their traditional boundaries” (Choi, ). A transdisciplinary

view of outsider art will enable us to make both societal and scientic advances by looking

at a problem from many angles and by involving both academics and marginalized artists.

In addition to the need to establish a transdisciplinary framework for the project, we

are aware of the fact that understanding outsider art depends on analysing both textual and

pictorial information. It is therefore necessary to have a multimodal model of semantics

that makes it possible to link textual information with its real-world counterpart, (digital)

cultural objects, and, as we shall see below, with emotional information too. is is not a

new approach, there are a number of voices arguing in favour of “visual digital humanities”:

Since there are several overlaps in epistemic cultures of visually oriented and digitally

supported research in art and architectural history studies, museology, and archaeology,

as well as cultural heritage, we introduce ‘visual digital humanities’ as novel ‘umbrella’ term

to cover research approaches in the digital humanities that are dependent on both consum-

ing and producing pictorial, rather than textual, information to answer their humanities

research questions (Münster and Terras, ).

e multimodality of digital cultural information arises from external and internal factors

from which outsider art is not exempt. First, this is due to the development of new Infor-

mation and Communications Technologies (ICTs) for creating and linking textual and

graphic information. ere are many tools for creating digital exhibitions that allow experts

to manage digital assets and create robust narratives and layouts for display online. For

example, Contentdm and OmekaS are publishing platforms for institutions interested in

connecting digital cultural heritage collections with other resources online. Digital tech-

nologies for cultural heritage have demonstrated their value by oering a virtual space in

which to build ideas collectively. Currently, dierent museums around the world are using

a number of digital technologies that allow the users to add digital content to cultural



Understanding Outsider Art in the context of Digital Humanities

items. is is the case of the GIFT Box, a set of apps that allow visitors to add new digital

content to a physical exhibit and ArchAIDE, a soware that automatically identies

archaeological ceramic fragments pieces thereby allowing experts to enter textual descrip-

tions about them. Obviously, this enormous amount of cultural data (texts, images and

audio) needs to be interpreted and contextualized in order to be useful.

e metaphorical meaning of cultural assets is the second reason to explain the multi-

modal digital humanities. is metaphorical meaning emerges from the symbolic nature

of feelings and emotions for both creators and viewers. On the one hand, cultural artefacts

are made by creators to be beautiful but also to express an important idea or feeling while,

on the other hand, viewers use their own experiences, views, and preferences to “under-

stand” cultural artefacts. As a result, heritage materials tend to be embedded in narratives

and analogies that can be interpreted by expert curators and interested lay persons. at

motivates us to think that the semantic enrichment of outsider art collections must be based

on models that integrate visual and emotional information, in addition to linguistic infor-

mation. Empirical work on semantic processing has shown that integrating both forms of

information together with linguistic information plays an important role in understanding

semantic data. Rotaru and Vigliocco () found that including visual and emotional

information performs better to capture aective information than purely linguistic models

based on distributional models of semantics, such as Latent Semantic Analysis (Landauer

& Dumais, ). ey are even more specic: “we found that including visual information

is particularly benecial to more concrete concepts, whereas including emotional infor-

mation is particularly benecial to more abstract concepts” (p.). Similar results have been

shared by De Deyne et al. () and Ponari et al. (), among others. erefore, we as-

sume that in order to understand outsider art it is necessary to combine linguistic infor-

mation derived from objective text corpora (e.g., scientic papers), visual information

derived from image collections (e.g., the textual descriptions that typically accompany

objects in digital collections), and emotional information derived from rst-person texts

by outsider artists.

In this regard, it is important to emphasise that cultural artefacts are oen enriched

with and through linguistic information. Moreover, the way in which cultural heritage

artefacts are represented and communicated has a signicant impact on the way in which

those artefacts are interpreted. A semiotic approach to the museum phenomenon consid-

5 https://gifting.digital/

6 



Digital Humanities, Corpus and Language Technology

ers museum objects as performing a social function, always enhanced by textual descrip-

tions that contribute to the process of sign production and of sign interpretation. For ex-

ample, museum catalogues are uniquely valuable sources because they encourage visitors

to recover their freedom of decoding, while at the same time they function as a marketing

tool that encourages people to come and buy cultural goods and may even confer addition-

al value to a specic piece. Such publications must be capable of capturing the complexity

of an exhibit in a written text. Additionally, cultural heritage artefacts need to be digitised

and labelled with metadata standards in order to be shared across dierent environments

and domains. In other words, metadata standards enable intra-collection searches and also

support cross-boundary access to collections. is provides an opportunity for users to

interconnect the cultural heritage objects to contextual information and vice-versa.

From our point of view, addressing the social, aesthetic and linguistic issues surround-

ing outsider art requires an analysis of both texts and images by computational methods.

at is because, in the world of the arts, visual and textual languages are two sides of the

same coin. erefore, in our project we are applying Natural Language Processing to the

interpretation of texts on outsider art while applying Machine Learning to the analysis of

paintings by outsider artists.

5. Analysing Natural Language to Understand Outsider Art

is project draws on Natural Language Processing and Computational Linguistics to

understand how society perceives outsider art or, more specically, how outsider art is

conceptualised in scientic and popular writing. According to the Stanford Encyclopedia

of Philosophy “Computational Linguistics (CL) is the scientic and engineering discipline

concerned with understanding written and spoken language from a computational per-

spective, and building artefacts that usefully process and produce language, either in bulk

or in a dialogue setting.” Similarly, Natural Language Processing (NLP) is broadly dened

as the automatic manipulation of natural language by soware. Natural Language Process-

ing and Computational Linguistics are helping us to understand outsider art by automat-

ically capturing/enriching data with metadata and by transforming textual content into a

computer-reliable format. In the Outsider Art Project, the rst of these tasks has been

tackled through the compilation of the outsider art corpus and the second task is current-

ly being carried out through the development and implementation of the outsider art

ontology.

7 https://plato.stanford.edu/entries/computational-linguistics/



Understanding Outsider Art in the context of Digital Humanities

5.1. The Outsider Art Corpus

Collecting textual data about outsider art is the rst step toward understanding this

domain. anks to the explosion in the volume of machine-readable text and advances in

available computing power, text corpora have become essential components of new devel-

opments in computational linguistics from  until the present. Corpus linguistics pro-

vides a wealth of experience in dealing with language problems and also contribute to the

understanding of specic domains. In both cases, the kind of data plays an important role

in achieving research goals. In the case of the analysis of outsider art, we found it useful to

make a distinction between primary and secondary data.

In general, raw text is classied as primary data, while annotations of these primary

texts are considered secondary data. However, considering that “the term ‘secondary’ sug-

gests that the data provide indirect access to the research domain” (Østergaard & Torst,

), we have adopted a broader vision of data types. So, primary data refers to those data

that are collected directly from the source, in our case, rst-person texts by outsider artists.

In contrast, secondary data involve an existing document, which had previously been used

by another researcher for a dierent research question. Secondary data oen involve the

interpretation of cultural artefacts and are distant from the time and place of the original

artefact. An example of primary data with which we work is the illustrated novel entitled

e History of My Life, the autobiographical narrative of the outsider artist Henry Darger.

An example of secondary data is the book Henry Darger, in the realms of the possibly real,

a biography of Darger by Jim Elledge.

For this project, we decided to compile a large text corpus of secondary data for two

main reasons: the lack of primary data and the diculties of anonymizing it. Although

there is a long tradition in cultural heritage of capturing primary data, this type of data is

scarce in the eld of outsider art (see Section ). erefore, while there are many books,

catalogues, magazines, webpages and articles on outsider art written by experts, there are

not many artists’ accounts of their own experiences captured through interviews or any

other primary data collection method. Besides the problem of this lack of primary data,

personal information on outsider artists should also be removed from primary data in

order to reduce the risk of unnecessary information exposure to third parties. Encryption,

pseudonymization and anonymization are methods for removing sensitive information

from documents and are also known as de-identication methods. In Kacane (), an-

onymization is performed by the interviewees themselves who were asked about their

habits in attending museums. Automatic de-identication methods, in turn, are typically

limited to a few common named entity types (e.g., a person’s name, hometown and work-



Digital Humanities, Corpus and Language Technology

place) and “human supervision will still be needed for it to completely guarantee the an-

onymization of the messages” (Helbrink & Åkesson, ). However, the de-identication

of ne-grained entities, such as the titles of artworks and nicknames, is of great importance

for outsider artists. erefore, it is necessary to seek ways to adjust sensitive personal data

in such a way that it is no longer possible to identify the originating outsider artist before

working with primary data. We assume that the ne-grained de-identication of personal

information for research purposes involving marginalized groups is a pending task and

this has a direct impact on corpus goals.

We compiled the outsider art corpus with the goal of describing how society under-

stands outsider art by identifying the patterns of language use in the target textual domain.

Specically, we are interested in discovering how outsider art is conceptualised in writings

about art. erefore, the question that the outsider art corpus must be capable of respond-

ing to is: what are the terms/concepts and linguistic structures that characterise texts on

outsider art? e outsider art corpus will be used as a silver standard for machine learning

because it is (semi)automatically generated. Our aim is to use this corpus to train machine

learning algorithms that are able to capture the main essentials of the outsider art knowl-

edge domain: concepts and hierarchies.

e outsider art corpus currently contains , words extracted from  docu-

ments that have been collected by hand in order to ensure quality and relevance. e

corpus includes English texts that talk about outsider art, art brut, folk art, naïve art and

self-taught art. We include three main text types or genres: artist bios, scientic articles

(e.g., books and papers) and op-ed articles (e.g., art criticism and art press releases). e

texts in this corpus had been obtained from web pages and documents in PDF format.

Additionally, there is a set of texts coming from printed books consisting of excerpts of text

under copyright law. Every text in the corpus is stored within a separate XML le (in

UTF- text encoding). Two main types of XML annotations were added to the outsider art

corpus: meta-information about the document (e.g., author, genre, if the text is an excerpt

from a major work, theme/style, type of source and url) and information about the struc-

ture of the document (e.g., paragraphs, sentences, titles and subtitles).

In addition to the foregoing, a subset of , random sentences has been manually

annotated with domain-specic terms belonging to three dierent semantic categories as

shown in Table : (a) very typical outsider art terms, (b) terms that bear a relationship with

8 

9 

10 Outsider art, art brut, folk art, naïve art, self-taught art and autism.



Understanding Outsider Art in the context of Digital Humanities

the life and creative work of outsider artists, and (c) terms that include a wide range of

specic entities not directly connected with outsider artists. We performed this task with

CATMA open-source soware, which allowed us to dene our own set of tag categories.

Each annotation collection in CATMA is represented as one TEI XML le and terms can

be retrieved by using a character oset (the position of the rst letter and the last letter of

the selected term). is subset of random sentences will be used as a gold standard domain

model in order to establish a system for detecting outsider art terms automatically.

Table 1. 

a. Yet, for outsider artistsself-taught , amateurish and reclusive , the usual rules don’t

apply.

b. Born in 1891, Marino AuritiItalian-American self-taught artist .

c. Roger Cardinal

Finally, it is important to note that bias is an additional problem aecting secondary data

related to outsider art. In our experience, language and gender are the most important

factors inuencing the process of the interpretation of outsider art. ere is an overrep-

resentation of English-speaking articles and European and North American regions in the

literature on the subject. is is not only because English is the dominant language (lan-

guage-based bias) but also because most featured artists were born in the United States or

Europe (geography-based bias). In the same way, gender is one of the most prevalent bias-

es in this domain since the featured artists are mostly male. Gender imbalance in the art

world (see Section ) has been documented by Bocart et al.,  and Cameron et al., ,

among many other researchers. erefore, factors causing bias have been controlled for

where possible by applying existing methods such as those described by Wang et al. ()

and Sun et al. ().

5.2. The Outsider Art Ontology

Capturing and codifying knowledge related to outsider art is the second step towards under-

standing this domain. erefore, an important task of the Outsider Art Project concerns

encoding knowledge about outsider art in a machine-readable language or computational

ontology. In computer science, an ontology is a linguistic/cognitive based representation of

the concepts, relations, attributes and hierarchies that are present in a given domain of

11 https://catma.de/



Digital Humanities, Corpus and Language Technology

knowledge. For example, in the expression “Adolf Wöli was born in Bern” the term “Adolf

Wöli” is an instance of the category “outsider artist” and is linked to the word “Bern” (cap-

ital of Switzerland) by the relation “was born in”. An ontology is lled with thousands of these

relations, which makes it possible to draw complex inferences about the domain.

Ontologies for cultural heritage are interdisciplinary artefacts since they describe objec-

tive manifestations of the human mind, including customs, practices, places, objects, artistic

expressions and values. ere are a number of projects in Europe working to reduce the

digital gap between the humanities and technology through the creation of ontologies and

new metadata models for representing knowledge related to cultural heritage, including Eu-

ropeana and POSTDATA (González-Blanco et al., ). Europeana is an authoritative re-

pository of more than  million cultural and scientic heritage objects represented in the

Europeana Data Model (EDM), a metadata framework for the interoperability and stand-

ardisation of cultural data. e EDM metadata standard contributes to the creation of new

knowledge by incorporating semantic information from external resources located in dier-

ent countries across Europe. e POSTDATA (Poetry Standardization and Linked Open

Data) project has as its main objective to provide a means to publish European poetry (EP)

data as Linked Open Data (LOD) through the creation of a digital semantic web-based plat-

form for poetry analysis and edition. Although there are several repertoires and databases

that have the “poem” as object of study, they cannot communicate because they are not se-

mantically interoperable. erefore, POSTDATA applies a reverse engineering process by

which the project team analyses the logical models of dierent databases in order to create a

common conceptual model for all the existing ones.

To the best of our knowledge, there has been no attempt to formalize knowledge about

outsider art via a computational ontology or any other tool for terminological standardi-

zation. erefore, we are constructing the ontology of outsider art by assigning meaning

to the large amount of relevant but scattered textual data stored in electronic form. Con-

cretely, we are applying Natural Language Processing and Machine Learning techniques to

the development of a machine-processable ontology in a semi-automatic fashion. It is

important to point out that, when categorising aesthetic objects, the rule is to integrate

several external resources. ere are several examples of ontology integration in the cul-

tural heritage eld, including the Conservation Reasoning ontology (Moraitou et al., )

and the Heritage Building ontology (Tibaut et al., ).

12 The Europeana Data Model for Cultural Heritage.

13 https://postdata.linhd.uned.es/



Understanding Outsider Art in the context of Digital Humanities

However, due to the heterogeneity of the concepts potentially associated with the out-

sider art domain, we decided to build the ontology from scratch. Indeed, the outsider art

ontology must deal with both the artistic/cultural and social issues associated with inequal-

ity, mental disorders, physical disabilities, racial and ethnic origins and geographical/geo-

political settings, among others. For example, as can be seen in Figure, Henry Joseph

Darger is characterized by a set of artistic and non-artistic properties that depict him as an

outsider artist (novelist, painter and draughtsman). Some of the artistic properties are “has

exhibited in: collection de l’art brut”, “creator of: the story of the vivian girls”, “use of mate-

rials: recovered paper” and “deal theme sex: nudity”. Some non-artistic properties associat-

ed with Darger are “worked as: janitor”, “enrolled in: mission of our lady of mercy”, “suer

mental condition: tourette syndrome”, “born place: chicago” and “featured by: john macgre-

gor”. As can be seen in Figure , the central class in the ontology is the outsider artist,

represented by the “Creator” category. is is one of the major dierences with respect to

other existing cultural heritage ontologies in which the collection or the artifact/object

occupies a prominent position.

In a basic sense, the main goal of the outsider art ontology is to contribute to the transfer

of knowledge between dierent sectors and disciplines by standardizing the terminology

associated with this artistic phenomenon. Additionally, this resource will be used to pre-

serve and disseminate outsider art collections and to develop high-level soware tools (e.g.,

systems that recommend outsider art assets to tourists).

6. Analysing Images to Understand Outsider Art

Digital images play an essential role in cultural heritage. Encoding the image features of

paintings for classifying art styles automatically is a typical task in the eld of the compu-

tational analysis of visual aesthetics. A few datasets of ne-art images are commonly used

to train automatic image classiers but none of them are about outsider art. For example,

Painting- (Khan et al., ) is a dataset consisting of digital paintings from  dierent

painters including Picasso, Rubens and Kandinsky; ArtK (Mao et al., ) is a large-

scale dataset containing over , artworks annotated with detailed artist labels; the

Sculptures k Dataset of images (Arandjelović & Zisserman, ) consists of , sculp-

tures by Henry Moore and Auguste Rodin collected from Flickr; the Museum of Modern

14 

15 https://deepart.ust.hk/ART500K/art500k.html.



Digital Humanities, Corpus and Language Technology

Art (MoMA) dataset contains , records with basic metadata about all the artists who

have work in the MoMA collection, although images must be requested separately via

email; SemArt is a collection with , digital paintings in which each image is associ-

16 https://github.com/MuseumofModernArt/collection.

17 http://noagarciad.com/SemArt/.

Figure 3. A fragment of the outsider art ontology.



Understanding Outsider Art in the context of Digital Humanities

ated to a textual artistic comment; ErgSap is a visual art gallery application that contains

almost , images of art work grouped by artist; the WikiArt dataset contains over

, images of art work labeled across  varied art styles collected from WikiArt.org.

As with primary data, there is an important lack of datasets on outsider art painting

which would allow for research to be carried out on visual aesthetics based on machine

learning approaches. To resolve this problem, we are preparing a large dataset of outsider

art paintings. A rst version of this dataset with , images was used in Roberto et al.

() to establish an initial approach to the automatic classication of digital images re-

lated to outsider art. is limited version of the outsider art dataset merged , images

labelled as Naïve Art from WikiArt, a category that is considered to be very close to the

outsider art style (Van Heddeghem, , p.) and , outsider art images collected from

dierent sources. In the referenced paper, we addressed the question of whether it is pos-

sible to classify dierent artistic styles by using Deep Learning methods. Preliminary results

suggested that there are no signicant dierences between ten artistic styles, including

outsider art. Additionally, we concluded that outsider art can be computationally modelled

by objective means but it is necessary to dispose of a larger dataset in order to provide

stronger and more robust assessments. For this reason, we are currently generating a large

dataset with , images related to outsider art, folk art, naïve art and art brut. Gener-

ating a new dataset involves routine tasks such as collecting digital images via crawling and

scanning, transforming images into digital format (if necessary), editing images and re-

moving de-duplicates and noising images. ese images are taken from social networks,

non-governmental organization, museums, galleries, books and magazines, among other

sources.

7. Conclusion

is chapter describes the main goals, the development status and the methodological

details of the Outsider Art Project, which is being carried out at the ADAPT Centre of

Dublin City University. We propose a transdisciplinary and multimodal framework for

identifying and classifying the main concepts in the outsider art domain. We claim that, in

order to properly understand this domain, it is necessary to analyse heterogeneous data

including text and images, and to incorporate the voices of multiple stakeholder groups at

dierent stages of the project. However, due to a lack of data for undertaking a computa-

18 

19 



Digital Humanities, Corpus and Language Technology

tional analysis of the domain, our eorts have mainly been aimed at collecting a corpus of

texts about outsider art and a large dataset of digital images of outsider artworks. Addi-

tionally, we are developing the rst ontology of outsider art to standardize the terminology

of the domain in order to enable semantic interoperability between heterogeneous meta-

data and to examine the relationship between social exclusion and cultural artefacts. In

general, the Outsider Art Project posits outsider art as an object of study of digital humanities

by entailing the existence of a research niche merging art, technology and society.

References

Ackles, S. (). e inuence of primitive art on early modern European painters. Colorado State

University.

Acosta, A. (). A semantic analysis of the meaning of the word outsider art. ArtsLife. https://artslife.

com////a-semantic-analysis-of-the-meaning-of-the-word-outsider-art/

Alexander, V. D., & Bowler, A. E. (). Contestation in aesthetic elds: Legitimation and legitimacy

struggles in outsider art. Poetics, , -. ISSN -X.

Almela, R. (). Outsider… deconstructing art from the outside. Epistemology of marginal art as

an expressive visual practice. Criticarte. http://www.criticarte.com/Page/le/art/outsider_

decons_ingles.pdf.

Arandjelović, R., & Zisserman, A. (). Smooth object retrieval using a bag of boundaries.

International Conference on Computer Vision, -.

Ardery, J. (). ‘Loser wins’: outsider art and the salvaging of disinterestedness. Poetics, (), -

.

Bocart, F., Gertsberg, M. & Pownall, R. A. J. (August , ). Glass Ceilings in the Art Market

Available at SSRN: https://ssrn.com/abstract= or http://dx.doi.org/./ssrn..

Brennan, T. (). e Digital-Humanities Bust. Chronicle of Higher Education, (). http://www.

chronicle.com/article/e-Digital-Humanities-Bust/.

Cameron, L., Goetzmann, W. & Nozari, M. (). Art and Gender: Market Bias or Selection Bias?

Available at SSRN: https://ssrn.com/abstract= or http://dx.doi.org/./ssrn..

Chernetska, A. (, August ). Behind the mask. Raw Vision Magazine, (), -.

Choi, B.C. & Pak, A.W. (). Multidisciplinarity, interdisciplinarity and transdisciplinarity in

health research, services, education and policy: . Denitions, objectives, and evidence of

eectiveness. Clin Invest Med. (): -. PMID: .

Dal Fovo, A., Striová, J., Pampaloni, E., Fedele, A., Morita, M.M., Amaya, D., Grazzi, F., Cimó, M.,

Cirrincione, C., & Fontana, R. (). Rubens’ painting as inspiration of a later tapestry: Non-

invasive analyses provide insight into artworks’ history. Microchemical Journal, . .

Davies, D. (). On the Very Idea of ‘outsider art’. e British Journal of Aesthetics, .

De Deyne, S., Navarro, D., Collell, G., & Perfors, A. (). Visual and aective grounding in language

and mind. OSF.

Ferrell, L.L. (). e inuence of children’s art on Joan Miró and Jean Dubuet. [Master thesis].

Mary Washington College of the University of Virginia.

González-Blanco, E., Ros, S., Ruíz, P. Díez, M. L., Bermúdez, H. et al. (). Poetry and Digital

Humanities making interoperability possible in a divided world of digital poetry: POSTDATA



Understanding Outsider Art in the context of Digital Humanities

project. EADH : Data in Digital Humanities, European Association for Digital Humanities,

Dec , Galway, Ireland.

Heather, M. (). Making Meaningful: Intention in Children’s Art Making. International Journal

of Art & Design Education, (), -.

Helbrink, J. & Åkesson, S. (). Data Anonymization using Machine Learning and Natural Language

Processing. [Master esis]. Department of Computer Science. Lund University.

Hernández, J. F. ( ). Local Art, Global Issues: Tales of Survival and Demise Among Contemporary

Art Environments. In L. Del Giudice (Ed.),Sabato Rodia’s Towers in Watts: Art, Migrations,

Development(pp. –). Fordham University Press. https://doi.org/./j.cttccjcv..

Hiraoka T. (). Generation of pop art-like images using binomial distribution. ICIC Express

Letters, (), -.

Isemonger, I. (). Digital Humanities and Transdisciplinary Practice: Towards a Rigorous

Conversation. Transdisciplinary Journal of Engineering & Science, , -.

Kacane, I. (). Heritage sites as means of bringing cultural awareness: intergenerational attitudes

towards visiting museums. Proceedings of INTED Conference th-th March . (pp. -

). Daugavpils University (LATVIA).

Kemman, M. (). Boundary Practices of Digital Humanities Collaborations. In W. Dillen, et al.

(Eds.), Integrating Digital Humanitites (pp. -). DH Benelux Journal.

Khan, F., & Beigpour, S, Weijer, J. & Felsberg, M. (). Painting-: A large scale database for

computational painting categorization. Machine Vision and Applications, , -.

Landauer, T. K., & Dumais, S. T. (). A solution to Plato’s problem: e latent semantic analysis

theory of acquisition, induction, and representation of knowledge. Psychological Review, (),

–.

MacGregor J. (). e discovery of the art of the insane. Princeton: Princeton University Press.

Mao, M. & Cheung, M. & She, J. (). DeepArt: Learning Joint Representations of Visual Arts.

MM’: Proceedings of the th ACM international conference on Multimedia (pp. –).

https://doi.org/./..

Martin, J., & Runyon, C. (). Digital humanities, digital hegemony: exploring funding practices

and unequal access in the digital humanities. SIGCAS Comput. Soc. (), -.

Miller, D. (). Gender and the Artist Archetype: Understanding Gender Inequality in Artistic

Careers. Sociology Compass, (), -.

Moraitou, T., Aliprantis, J., & Caridakis, G. (). Semantic Preventive Conservation of Cultural

Heritage Collections. SWCH@ ESWC.

Münster, S. & Terras, M. (). e visual side of digital humanities: a survey on topics, researchers,

and epistemic cultures. Digital Scholarship in the Humanities, (), -.

Novack, T., Vorbeck, L., Lorei, H., & Zipf, A. (). Towards Detecting Building Facades with Grati

Artwork Based on Street View Images. ISPRS International Journal of Geo-Information, (), .

http://dx.doi.org/./ijgi.

Østergaard, S. & Torst, P. (). Research styles: data and perspectives in the human sciences. In C.

Emmeche, D. Pedersen, & F. Stjernfelt (Eds.), Mapping frontier research in the humanities.

Bloomsbury Academic.

Pettinari, G. (). e ‘Art and Madness’ debate in Italy and the life story of Antonio Tolomei.

Epidemiology and Psychiatric Sciences, (), -. doi:./S.

Ponari, M., Norbury, C. F., & Vigliocco, G. (). Acquisition of abstract concepts is inuenced by

emotional valence. Developmental Science, (), e.



Digital Humanities, Corpus and Language Technology

Quabeck, N. (). Reframing the Notion of “e Artist’s Intent:” A Study of Caring for omas

Hirschhorn’s Intensif-Station (), Journal of the American Institute for Conservation, DOI:

./...

Rainaldi, L. (). outsider art: forty years out (T). University of British Columbia. https://open.

library.ubc.ca/collections/ubctheses//items/..

Rexer, L. (). How to Look at outsider art. Harry N. Abrams, Inc. ISBN : .

Roberto, J. & Davis, B. (). Towards the Ontologization of the outsider art Domain: Position Paper.

th Joint ACL - ISO Workshop on Interoperable Semantic Annotation at LREC .

Roberto, J., Ortego, D. & Davis, B. (). Toward the Automatic Retrieval and Annotation of outsider

art images: A Preliminary Statement. Proceedings of the st International Workshop on Articial

Intelligence for Historical Image Enrichment and Access (AIHI-). European Language

Resources Association (ELRA), pp. -.

Rotaru, A. S., & Vigliocco, G. (). Constructing Semantic Models From Words, Images, and

Emojis. Cognitive science, (), e. https://doi.org/./cogs..

Sana, A., Gaynullina, L., & Cherepanova, E. (). A work of art in the space of network culture:

creativity as bricolage. Creativity Studies, (), -. https://doi.org/./cs...

Saltz, J. (, February ). Jerry Saltz on the outsider art Fair — and Why ere’s No Such ing As

‘Outsider’ Art. Vulture. https://www.vulture.com///jerry-saltz-on-the-outsider-art-fair.html.

Smith, R. (). e outsider art Fair’ e Puck Building Lafayette and Houston Streets SoHo

rough Sunday. e New York Times. https://www.nytimes.com////arts/art-in-

review-.html

Spann, R. (). An algorithm for abstract images. Journal of Mathematics and the Arts, (-),

-. doi:./...

Sun, T., Gaut, A., Tang, S., Huang, Y., ElSherief, M., Zhao, J., Mirza, D., Belding, E., Chang, K., & Yang

Wang, W. (). Mitigating Gender Bias in Natural Language Processing: Literature Review.

Proceedings of the th Annual Meeting of the Association for Computational Linguistics. ACL,

Florence, Italy.

Tibaut, A., Kaučič, B., Dvornik, P., Tiano, P., & Martins, J. () Ontologizing the Heritage Building

Domain. In: M. Ioannides, J. Martins, R. Žarnić, & V. Lim (Eds.), Advances in Digital Cultural

Heritage. Lecture Notes in Computer Science, vol  (pp. -). Springer, Cham.

Van Heddeghem, R. (). Outsider art, In or Outside the World of Art? A study of the framing of the

paradoxical position of outsider art. [Master thesis]. Erasmus School of History, Culture and

Communication, Erasmus University Rotterdam.

Wang A., Narayanan A. & Russakovsky O. () REVISE: A Tool for Measuring and Mitigating Bias

in Visual Datasets. In A. Vedaldi, H. Bischof, T. Brox, & J.M. Frahm. (Eds.) Computer Vision –

ECCV . ECCV . Lecture Notes in Computer Science, vol . Springer, Cham.

Winston, C. N., Tarkas, N. J., & Maher, H. (). Eccentric or egocentric? Preoperational features

in schizotypic and creative adults. Psychology of Aesthetics, Creativity, and the Arts, , -.

Yang, M., Wang, M., Wang, H., Yang, G., & Liu, H. (). Exploring the Transdisciplinary Nature

of Digital Humanities. Proceedings of the ACM/IEEE Joint Conference on Digital Libraries in .

Zeki S, Ishizu T. (). e “Visual Shock” of Francis Bacon: an essay in neuroesthetics. Fronters in

Human Neuroscience, ().



C II

La Biblioteca Virtual de la Filología

Española (BVFE) y su acervo

hispanoamericano1

e Biblioteca Virtual de la

Filología Española (BVFE) and its

Hispanic American heritage

Jaime Peña Arce & M.ª Ángeles García Aranda

Universidad Complutense de Madrid – España

A Manuel Alvar Ezquerra

Resumen: El objetivo de este capítulo es doble. Por un lado, se da a conocer la Bi-

blioteca Virtual de la Filología Española (BVFE), un portal que recoge una gran cantidad

de obras lingüísticas relacionadas con el español, a las que proporciona un acceso

libre y gratuito. Por otro, se indaga en el componente hispanoamericano de su acer-

vo, con el propósito de recapacitar sobre lo que ya se ha hecho y sobre lo que queda

por hacer.

Abstract:

Biblioteca Virtual de la Filología EspañolaBVFE), a portal that gathers numerous







1 Este trabajo se enmarca en el Proyecto de Investigación “Biblioteca Virtual de la Filología Española. Fase III:

FFI2017-82437-P),



La Biblioteca Virtual de la Filología Española (BVFE) y su acervo hispanoamericano



Digital Humanities, Corpus and Language Technology

1. Introducción

Las páginas siguientes están dedicadas a mostrar la riqueza y utilidad de un recurso en línea a

través de parte de sus materiales. Por un lado, nos sirven para presentar la Biblioteca Virtual de

la Filología Española (a partir de ahora, BVFE), un portal que atesora un sinfín de títulos —dic-

cionarios, gramáticas, diálogos, ortografías y otros textos de contenido lingüístico— relaciona-

dos con la lengua castellana, muy reconocido ya entre la comunidad investigadora lológica a

ambos lados del Atlántico. El  Congreso Internacional de Lingüística Computacional y de

Corpus (CILCC ) y  Workshop en Procesamiento Automatizado de Textos y Corpus (WoPA

TeC ), celebrado en la ciudad colombiana de Medellín entre el  y el  de octubre del

, nos dio la oportunidad de dar a conocer nuestra herramienta y sus recursos —aunque

fuera de forma virtual, debido a las actuales condiciones de pandemia— a un amplio público,

implicado en el estudio y en la descripción de la lengua de Cervantes, que aborda su trabajo

desde las más variadas perspectivas que ofrece en la actualidad el panorama investigador.

Por otro lado, los miembros de este equipo de trabajo consideramos que dicho encuen-

tro, organizado y amparado por la Universidad de Antioquia (en colaboración con la neer-

landesa Rijksuniversiteit Groningen), podía ser un buen pretexto para examinar el corpus

de obras y autores hispanoamericanos incluido dentro de la BVFE, un componente funda-

mental de nuestra herramienta. La construcción de este acervo es siempre una prioridad

para nosotros, no en vano, el propio nombre de nuestro portal es un homenaje a una de

las recopilaciones que más ha ayudado a los investigadores de Historiografía lingüística en

el pasado, a saber, la Biblioteca histórica de la lología castellana, del Conde de la Viñaza

( []), autor que también prestó una particular atención a la realidad lingüística del

Nuevo Mundo en su Bibliografía española de lenguas indígenas de América (). Con

estos antecedentes, el examen que contienen estas páginas resultaba más que obligado.

La metodología que hemos empleado para la elaboración de este trabajo, gracias a las

variadas opciones de búsqueda que ofrece nuestro sitio web (http://www.bvfe.es), es bas-

tante sencilla. A partir de los parámetros autor, lugar de impresión, biblioteca en la que se

conservan los ejemplares físicos e idioma, mostraremos la importancia cuantitativa y cua-

litativa de la presencia hispanoamericana en la BVFE. Tanto el lugar de impresión como la

biblioteca que atesora el ejemplar físico debían estar radicados en algún punto del conti-

nente hispanoamericano; los idiomas, además de los trasplantados desde Europa (español,

2 Los criterios seguidos para aceptar títulos dentro de nuestro portal son los siguientes: por un lado, se

incluye toda obra de contenido lingüístico de cualquier autor español o natural de un país hispanohablante,

con independencia del idioma que describa o estudie; por otro lado, se recoge todo texto que trate sobre la

lengua española, al margen de la nacionalidad de su autor.



La Biblioteca Virtual de la Filología Española (BVFE) y su acervo hispanoamericano

latín…), tenían ser los propios de las comunidades indígenas locales para ser tenidos en

cuenta. Respecto a los autores, debían ser nacidos en algún rincón de los antiguos Virrei-

natos españoles y actuales estados soberanos o haber realizado en aquellas tierras la mayor

parte de su actividad cientíca; esta última ponderación resultó imprescindible por la fuer-

te corriente migratoria que, con origen en la Península y destino a aquellas latitudes, ha

existido en diferentes momentos de la historia.

La estructura de estas páginas está en consonancia con el doble propósito del que ha-

blábamos más arriba. En primer lugar, vamos a realizar una presentación general de la

BVFE, atendiendo a sus orígenes y trayectoria, para nalizar con la presentación de sus

actuales datos de impacto. En segundo término, nos centraremos en el análisis de su com-

ponente hispanoamericano a partir de los parámetros ya señalados: lugar de impresión,

biblioteca, idioma y autoría. Finalmente, se incluyen unas conclusiones que pretenden

relacionar ambos bloques, con el objetivo de mostrar una perspectiva del acervo hispano-

americano de la BVFE lo más completa y contextualizada que sea posible y reexionar

sobre el camino a seguir en el futuro. El capítulo se cierra con el desarrollo de las referencias

bibliográcas traídas a colación a lo largo de esta investigación.

2. La Biblioteca Virtual de la Filología Española (BVFE)

2.1. Orígenes

El origen de la BVFE hay que buscarlo en la idea que el profesor Manuel Alvar Ezquerra (-

), de inolvidable memoria y uno de los investigadores más importantes que ha tenido la

lengua española en fechas recientes, tuvo durante el segundo lustro del presente siglo. Su

propósito inicial fue construir un catálogo que incluyera todos los repertorios lexicográcos

del español y, simultáneamente, crear una biblioteca virtual que ordenara los materiales dis-

ponibles en la red y garantizara su acceso de forma libre, gratuita y con las garantías de calidad

de quien dedicó su vida al estudio de esta disciplina y de gran parte de sus títulos más impor-

tantes. Esa primera pretensión pronto se amplió y terminó dando cabida a cualquier obra de

contenido lingüístico relacionada con nuestro idioma. Así, tras varios años de esfuerzos, y

3 El trabajo que, a este respecto, se había realizado hasta aquel momento era bastante modesto. Además de

obras de carácter más general (Esparza-Niederehe 1995, 1999 y 2005), solo existían una serie de aproxi-



académico italiano (Fabri 1979 y 2002; San Vicente 1995).

4 Si se quiere saber más sobre la historia de la BVFE, consúltese: Alvar Ezquerra y Miró Domínguez (2013),

Calero Hernández, Fernández de Gobeo y Peña Arce (2018), Cazorla Vivas y García Aranda (2018) y García

Aranda y Peña Arce (2019).



Digital Humanities, Corpus and Language Technology

gracias al trabajo de los miembros del equipo y los colaboradores —junto a las ayudas públicas

captadas—, la BVFE se abrió al público como parte de la biblioteca de la Universidad Com-

plutense de Madrid (en adelante, BUCM), https://webs.ucm.es/BUCM/nebrija/, en el año

. Desde entonces, la BVFE nos ha facilitado la investigación, pues los interesados en estas

cuestiones tenemos acceso a numerosas obras sin tener que acudir a bibliotecas, sin tener que

localizar ejemplares, sin tener que solicitar reproducciones y sin la necesidad de comparar

catálogos, bibliografías y demás fuentes para comprobar si la información dada es able.

2.2. Desarrollo

El desarrollo, el crecimiento y la mejora que imponía la BVFE obligó a su cambio de ubi-

cación, de manera que, desde el año , nuestros materiales pueden consultarse en http://

www.bvfe.es, página web que mantiene, desarrolla y edita la empresa especializada Stílogo.

Basta una comparativa cuantitativa para comprobar el trabajo llevado a cabo en este

sentido en la BVFE:

Tabla 1. Comparativa del n.º de registros entre la BUCM y la BVFE.

BUCM (2010-2014) www.bvfe.es (2014-2020)

•  • 

• 3641 gramáticas y tratados gramaticales.

• 626 ortografías y prosodias.

• 430 diálogos.

Total: 9335 registros

El camino hasta llegar a la situación actual de la BVFE no ha sido fácil. Así, por ejemplo,

los continuos cambios en las direcciones electrónicas de las obras digitalizadas obligan a

una revisión permanente de los enlaces; el crecimiento exponencial de los libros digitali-

zados también supone, por las necesidades de actualización, un reto importante; los erro-

res en las informaciones bibliográcas de los catálogos y las bibliotecas exigen una inves-

tigación concienzuda y la dicultad, por no decir la imposibilidad, de elaborar una lista

completa y able de todas las obras lingüísticas del pasado nos obliga a replantearnos de

forma constante nuestros objetivos y nuestra metodología de trabajo. A todos estos retos

5 

BVFEFFI2011-24107), “Biblioteca Virtual de la Filología Española. Fase II. Consolidación, mejora y am-

FFI2014-53851-P) y “Biblioteca Virtual

de la Filología Española. Fase III

resultados” (FFI2017-82437-P).



y dicultades tratamos de buscar solución en nuestro quehacer cotidiano, en aras de la

creación de un repositorio lo más completo que sea posible.

La BVFE facilita el acceso a obras lingüísticas seleccionadas a partir de una serie de

criterios (en español, sobre el español, compuestas en otras lenguas por autores españoles,

bilingües con el español, multilingües con el español) y que son integradas en un servidor

diseñado para esta biblioteca virtual (autor, título, datos de edición/impresión, enlace, len-

guas, notas, parte de otra obra…). La forma de trabajar es sencilla: se buscan las obras a

partir de una serie de palabras clave en los catálogos de bibliotecas y repositorios para

obtener los ejemplares de las obras lingüísticas digitalizados en ellos y se cargan en una

base de datos especícamente diseñada para ello, donde se ponen todos esos datos, y un

comentario o aclaración que puedan ser útiles al usuario. Cuando se han comprobado

todas las informaciones (que son correctas, que no hay duplicaciones, etc.), los registros se

depositan en el servidor. El usuario puede recuperar los datos de la BVFE a partir de una

serie de búsquedas que realiza en la web a partir de una serie de parámetros:

• En primer lugar, una búsqueda alfabética, seleccionando la letra inicial de la obra o tipo

de texto que se desea localizar (gramática, tratado gramatical, ortografía, prosodia, no-

menclatura, diccionario).

• En segundo lugar, una búsqueda sencilla en el buscador de la página principal, intro-

duciendo el término de búsqueda.

• Y en tercer lugar, una búsqueda avanzada, en donde se pude ltrar por obra, fecha de pu-

blicación, impresor, lugar de impresión, lenguas de publicación, periodo cronológico, etc.

Y los resultados que arrojan estas búsquedas pueden, a su vez, ordenarse a partir de varios

criterios, a saber: título ascendente/descendente, recientemente modicado, autor ascen-

dente/descendente, fecha ascendente/descendente, impresor ascendente/descendente,

lugar de impresión ascendente/descendente y biblioteca ascendente/descendente. Una vez

nalizada la búsqueda y la ordenación, solo hay que pinchar en el título de la obra para

acceder a los datos completos del registro (título, autor, ciudad y fecha de impresión, pági-

nas que ocupa, procedencia del ejemplar digitalizado, signatura) y al ejemplar o a la cha

biobibliográca del autor, de las que se habla en el párrafo siguiente.

La BVFE se sirve de discos de alta gama NVMe que mejoran considerablemente el

rendimiento y la eciencia de las conexiones gracias a la rapidez de lectura y al aumento

de ancho de banda, lo que se aprecia en una navegación ligera y dinámica. Alexa, la apli-

cación sobre tráco web, la sitúa en el ranking mundial (formado por más de  millones

de páginas web) en el puesto   .

La Biblioteca Virtual de la Filología Española (BVFE) y su acervo hispanoamericano



Digital Humanities, Corpus and Language Technology

Para que la BVFE funcione correctamente son necesarios ) un mantenimiento conti-

nuo del soware, ) actualizaciones periódicas, ) controlar las defensas de los ataques de

robots y mecanismos que desean acceder de forma ilícita a ella, ) mejoras constantes de

la interfaz (por ejemplo, con su traducción al inglés) y del motor de ltrado (parámetros

incluyentes y excluyentes en las búsquedas avanzadas; ltros de ordenación “ascendente/

descendente” de los resultados obtenidos en las búsquedas para todos los criterios utiliza-

dos…), auditorías de seguridad y optimización para evitar ralentizaciones y bloqueos.

Por otro lado, y desde la segunda fase o consolidación de la BVFE, esto es, desde nales

del , el corpus acopiado se ha enriquecido con la inclusión de las chas biobibliográ-

cas de los autores cuyas obras recogemos (actualmente, ). Estas chas se estructuran

así: .º) los datos biográcos del autor y una breve reseña de su producción, .º) la descrip-

ción de su obra lingüística, tanto de la incluida en la BVFE como de la que no se encuentra,

.º) las principales referencias bibliográcas y .º) la rma del autor. En la actualidad,

contamos con  chas biobibliográcas, número que crece cada día gracias al trabajo de

nuestros miembros y colaboradores. A continuación, se incluye un ejemplo del trabajo

descrito en este párrafo:

Figura 1. 



Figura 2. 

2.3. Datos actuales

En la BVFE pueden consultarse registros digitalizados de la mayoría de las bibliotecas y

repositorios españoles, europeos y extranjeros. Se han escrutado los catálogos de más de

 instituciones. Dentro de nuestra colección priman los títulos atesorados en diferentes

bibliotecas —físicas o virtuales— de España: ya pertenezcan a la administración general

del estado (la Biblioteca Nacional de España, la Biblioteca Virtual del Patrimonio Bibliográ-

co, Hispana, la Universidad Nacional de Educación a Distancia, la Real Academia Espa-

ñola o las bibliotecas públicas estatales de las diferentes capitales provinciales), ya a las

diferentes comunidades autónomas (Biblioteca de Catalunya, Biblioteca Valenciana, Biblio-

teca Virtual de Andalucía, Biblioteca Virtual de Castilla y León…) o a sus universidades

(Complutense de Madrid, Salamanca, Zaragoza, Sevilla, Granada, Barcelona, Valencia,

Santiago de Compostela…), ya a colecciones privadas (Fundación Sancho el Sabio, en

Vitoria, o Fundación Sierra Pambley, en León) o municipales (Biblioteca Histórica Muni-

cipal, en Madrid).

También contamos con las aportaciones de las bibliotecas nacionales más importantes

de Europa (la Bibliothèque Nationale de France, la British Library, Bayerische Staatsbiblio-

thek de Múnich, la Österreichische Nationalbibliothek de Viena, la Národní Knihovna České

Republiky de Praga o las bibliotecas nacionales italianas de Florencia, Roma y Nápoles) y

del mundo (Library of Congress, en Washington, la Biblioteca Nacional de Colombia, la

Biblioteca Nacional de Chile…). Asimismo, hemos incorporado los registros pertinentes

de las principales bibliotecas universitarias de Europa (Oxford University, Cambridge Uni-

versity, Universiteitsbibliotheek Gent, Université de Toulouse, Università degli Studi di Roma

La Biblioteca Virtual de la Filología Española (BVFE) y su acervo hispanoamericano



Digital Humanities, Corpus and Language Technology

“La Sapienza”…), de los Estados Unidos (Harvard University, University of Michigan, Uni-

versity of California, e John Carter Brown Library, Brown University, Columbia Universi-

ty…), Canadá (University of Toronto), Hispanoamérica (Universidad Autónoma de Nuevo

León, Universidad Nacional Autónoma de México…) o Australia (La Trobe University).

Igualmente, recogemos las referencias depositadas en los más importantes repositorios

virtuales, como Google books o Archive. En denitiva, estamos en condiciones de presumir

de nuestro completo acervo, que recoge obras custodiadas por instituciones que van desde

las más modestas, como el Instituto de Enseñanza Secundaria Alfonso X el Sabio, en Mur-

cia, hasta las de primer nivel, como la New York Public Library.

Más interesante es, si cabe, el balance que arroja la comparativa, en cuanto a número

de visitantes, de los últimos años. Cifras que evidencian el interés y la conanza de los

usuarios por la BVFE:

Tabla 2. Datos de impacto de la BVFE.

Año 2018 2019 2020

N.º total de visitas 126 872 210 548 397 681

Visitantes diarios distintos 69 004 81 255 197 025

Páginas vistas 1 043 598 7 815 384 8 388 692

España lidera la lista de países con mayor número de páginas vistas en estos años, seguida

por los Estados Unidos, México, Francia, Alemania, Ecuador, Colombia, Argentina, Italia,

Perú y Panamá. Cantidades que se convierten en un reto para seguir trabajando por la

mejora y el crecimiento constantes de la BVFE. En cuanto a la posición de la BVFE en los

resultados de búsquedas de Google Search, suele ocupar los primeros puestos al indagar

sobre diccionarios de metáforas, palabras en rifeño, diccionario mallorquín-castellano, dic-

cionario menorquín, diccionario de andalucismos, vocabulario quirúrgico, gramática analí-

tica o diálogos españoles o al tratar de averiguar los datos biográcos de Ambrosio Calepi-

no, Vicente Salvá, Esteban Pichardo, Carlos Felipe Beltrán, Pedro Marbán o Francisco de

Paula Mellado.

De todo ello, tanto de los nuevos registros como de las biografías de los autores y de las

novedades en la web, damos puntual cuenta cada nal de mes con un boletín de novedades

al que cualquiera puede suscribirse desde la página de la BVFE.

6 En los primeros meses de 2021, fecha en la que se escribe este trabajo, el número de visitas a páginas de la

BVFE asciende a 38 011.



3. El componente hispanoamericano de la BVFE

En los siguientes epígrafes vamos a descomponer el acervo hispanoamericano contenido

en nuestro portal. Tal como anunciamos al inicio del capítulo, el orden en el que se va a

llevar a cabo el estudio es este: lugar de impresión, biblioteca, idioma y autoría.

3.1. Lugares de impresión

Más de  ejemplares de los incluidos en la BVFE han sido impresos en imprentas his-

panoamericanas (un .  del total). La llegada de la imprenta a los virreinatos de la

Nueva España y del Perú en época temprana (después llegaría a la Nueva Granada y al Río

de la Plata) y su desarrollo posterior en todo el continente explican esta cifra.

Tabla 3. Registros de la BVFE impresos en Hispanoamérica.

Totales En Hispanoamérica

9335 1083 (11.60 %)

Los primeros textos impresos en estos talleres se deben a la labor de descripción realizada

por los misioneros sobre las lenguas amerindias. El Vocabulario en la lengua castellana y

mexicana de Alonso de Molina y el Arte de la lengua de Michuacán de Maturino Gilberti

en el taller de Juan Pablos ( y ); el Arte en lengua zapoteca de Juan de Córdova, el

Arte en lengua mixteca de Antonio de los Reyes y el Vocabulario en lengua misteca de

Francisco de Alvarado en la imprenta de Pedro Balli (, ), o el Vocabulario manual

de las lenguas castellana y mexicana de Pedro de Arenas en la imprenta de Henrico Martí-

nez () son buena muestra de la actividad en México. Por otro lado, el Arte y vocabulario

en la lengua general del Perú llamada quichua de Alonso de Bárcena en el taller de Antonio

Ricardo (), el Arte y gramática general de la lengua que corre en todo el reyno de Chile

de Luis de Valdivia y la Gramática y arte nueua de la lengua general de todo el Perú de Diego

González Holguín en la imprenta de Francisco del Canto ( y ) ilustran las produc-

ciones textuales limeñas.

Pero en estos primeros siglos no solo se publicaron obras misioneras, también hubo

tiempo, dinero y dedicación para, entre otros, los Discursos de la antigüedad de la lengua

cántabra vascongada de Balthasar Echave (México, Henrico Martínez, ) o para la Or-

tografía castellana de Mateo Alemán (México, Jerónimo Balli, ).

Ahora bien, el siglo que más resultados de impresiones hispanoamericanas proporcio-

na es el . Durante esta centuria se publicaron en México, Chile, Perú, Argentina y Co-

lombia numerosas obras lingüísticas que testimonian la riqueza y el interés del periodo

La Biblioteca Virtual de la Filología Española (BVFE) y su acervo hispanoamericano



Digital Humanities, Corpus and Language Technology

para la Historia de la lingüística, pues entre ellas se pueden encontrar aportaciones a dife-

rentes disciplinas lingüísticas (semántica, sociolingüística, dialectología, gramática, lexi-

cografía, ortografía, traducción, enseñanza de la lengua o lingüística misionera) desde otras

tantas perspectivas, metodologías y corrientes teóricas (tradicional, normativa, racionalis-

ta, general, lógica, historicista, didáctica…), lo que resulta una innegable contribución para

la historia de la lengua española. Sirvan como muestra las que se citan a continuación:

• Diálogos (Diálogos de Juan Luis Vives, traducidos en lengua castellana por el doctor Cris-

tóbal Coret y Peris, México, ).

• Ortografías y ortologías (De la ortografía México, ; Ortografía española acomodada

a la pronunciación megicana México, ; Principios de la ortología y métrica de la len-

gua castellana, Santiago de Chile, ; Acentuaciones viciosas, Santiago de Chile, ;

Neógrafos kontemporáneos, Santiago de Chile, ; Ortografía fonética, Santiago de

Chile, ; Ortografía castellana americana, Buenos Aires, ; Enseñanza de la lectu-

ra y la logografía. Instrucciones para los maestros, Buenos Aires, ).

• Silabarios (Silabario de idioma mexicano México, ; Silabario de idioma mexicano,

México, ).

• Repertorios lexicográcos (Nuevo vocabulario losóco-democrático, México, ; Dic-

cionario de sinónimos castellanos México, ; Manual de voces equívocas sacadas del

Diccionario de la lengua castellana México, ; Vocabulario del idioma comanche, Mé-

xico, ; Diccionario etimológico de la lengua castellana (ensayo), México, ; Dic-

cionario de dudas ortográcas formado con arreglo al último de la Real Academia, Méxi-

co, ; Diccionario de mejicanismos, México, ; Diccionario para el pueblo,

republicano, democrático, moral, político y losóco, Lima, ; Neologismos y america-

nismos, Lima, ; Diccionario hispano chileno, Santiago de Chile, ; Diccionario de

chilenismos, Santiago de Chile, ; Diccionario lológico-comparado de la lengua cas-

tellana, Buenos Aires, ; El lenguaje gauchesco, Buenos Aires, ; Minucias lexico-

grácas. Tata, tambo, poncho, chiripá, etc., Buenos Aires, ; La religión en el idioma.

Ensayo paremiológico, Buenos Aires, ).

• Gramáticas (Elementos de gramática castellana para el uso de las escuelas México, ;

Arte del idioma othomí, México, ; Compendio de gramática de la lengua española,

según se habla en Méjico México, ; Epítome de la gramática de la lengua castellana,

México, ; Gramática de la lengua castellana, compuesta por la Real Academia Espa-

ñola, México, ; Estudios gramaticales sobre el “náhuatl”, México, ; Compendio

de la gramática castellana para el uso de las escuelas de primeras letras del Perú, Lima,

; Gramática de la lengua castellana, Lima, ; Gramática latina, Santiago de Chile,



; Gramática de la lengua chilena, Santiago de Chile, ; Gramática de la lengua

castellana destinada al uso de los americanos, Santiago de Chile, ; Borrones grama-

ticales, Santiago de Chile, ; Gramera berria, Buenos Aires, ; Arte de la lengua

lule y toconoté, Buenos Aires, ).

• Métodos de enseñanza de segundas lenguas (Novísima gramática francesa, México, ;

La clave del francés, México, ; El maestro de inglés, Lima, ; Lecciones de gramá-

tica francesa, Santiago de Chile, ).

En Colombia, país en el que se funda en  la Imprenta Nacional en los talleres de los

afamados Echavarría Hermanos, se imprimieron, entre otros muchos, unos Elementos de

la gramática castellana y ortografía (), la Gramática y ortografía de la lengua castellana

para uso de los niños en las escuelas de primeras letras del Departamento del Cauca (),

La ortografía jada en la Nueva Granada. Método perfeccionado de enseñanza para las

primeras letras (), Nuevo epítome de gramática castellana (), Observaciones curiosas

sobre lengua castellana (), Prontuario de ortografía de la lengua castellana (), Salvá

reformado (), Diccionario ortográco (), Apuntaciones críticas sobre el lenguaje

bogotano (-), Gramática de la lengua latina para el uso de los que hablan castellano

(), Análisis ideolójica de los tiempos de la conjugación castellana (), Gramática de

la lengua castellana destinada al uso de los americanos () o Ensayo de gramática hispa-

no-goahiva ().

Las razones expuestas explican que el país hispanoamericano que más textos suminis-

tra a la BVFE sea México, seguido de Chile, Perú, Argentina, Colombia y Costa Rica:

7 Antes de esa fecha existían los talleres de Antonio Espinosa, de Salazar, de José A. Cuella, N. Gómez, de Fran-

cisco Torres Amaya, Arnulfo Guarín, Foción Mantilla, la Imprenta de El Día, la Imprenta del Neogranadino,

Imprenta del Tradicionalista, entre otros.

8 Por ciudades, la distribución es la siguiente: Aguascalientes 1, Bogotá 71, Buenos Aires 92, Caracas 19, Cart-

agena de Indias 3, Chiapas 8, Concepción (Chile) 4, Córdoba (Argentina) 2, Cuenca (Ecuador) 1, Cuernavaca

(México) 7, Cuzco 8, Guadalajara 13, Guanajuato 3, Guatemala 2, Habana/La Habana 28, Iquitos 1, La Paz

2, La Plata 8, La Victoria (Venezuela) 2, León (México) 1, Lima/Ciudad de los Reyes/Los Reyes 126, Matanzas

6, Medellín 3, México/Méjico/México D. F. 383, Mérida de Yucatán 26, Monterrey 2, Montevideo 9, Morelia

11, Oaxaca 6, Panamá 3, Ponce (Puerto Rico) 3, Puebla/Puebla de los Ángeles 23, Quito 3, Puerto Rico/San

Juan de Puerto Rico 5, San Cristóbal de las Casas (México) 3, San José de Costa Rica 28, San Juan de los Lagos

(México) 2, Santa Fe del Río (México) 1, Santiago/Santiago de Chile 124, Santiago de Cuba 1, Salta 1, Sucre/

Chuquisaca 5, Tegucigalpa 4, Toluca (México) 1, Valdivia 2, Valparaíso 12, Veracruz 1, Zacatecas 2.

La Biblioteca Virtual de la Filología Española (BVFE) y su acervo hispanoamericano



Digital Humanities, Corpus and Language Technology

Tabla 4. Registros hispanoamericanos de la BVFE por países y ciudades (en %).

País y ciudad Porcentajes %

México

Ciudad de México

45 %

35 %

Chile

Santiago de Chile

13 %

11.5 %

Perú

Lima

12.5 %

11.5 %

Argentina

Buenos Aires

8.7 %

8.4 %

Colombia

Bogotá

6.8 %

6.5 %

Costa Rica 2.3 %

3.2. Bibliotecas

En cuanto a las bibliotecas en que se localizan los ejemplares de la BVFE hay que destacar

la Biblioteca Nacional de Colombia (https://bibliotecanacional.gov.co/es-co). Fundada en

 con una colección de los padres jesuitas expulsados de España, hoy constituye el fondo

nacional hispanoamericano más importante para nuestro portal. Su página web, cómoda

y sencilla; sus múltiples servicios para atender a todos los usuarios, y sus varias colecciones

temáticas (corográca, botánica, fondos especiales, bibliotecas digitales de autor, fondos

grácos, prensa del siglo  y hemeroteca digital) la convierten en un recurso útil y com-

pleto. Tras él se encuentran los fondos nacional y general de México (que están albergados

en la Universidad Nacional Autónoma de México, https://www.bidi.unam.mx/), la Univer-

sidad Autónoma de Nuevo León, https://www.dgb.uanl.mx/?mod=bdigital, y la Biblioteca

Nacional de Chile (https://www.bibliotecanacional.gob.cl/). Muy por detrás se encuentran

los fondos de Costa Rica (http://www.sinabi.go.cr/bibliotecas/biblioteca_nacional.aspx),

Argentina (https://www.bn.gov.ar), Perú (https://www.bnp.gob.pe) y Guatemala (http://

mcd.gob.gt/biblioteca-nacional/).

Tabla 5. Registros de la BVFE en bibliotecas de Hispanoamérica.

Totales En bibliotecas hispanoamericanas

9335 539 (5.77 %)

9 Los ejemplares digitalizados en bibliotecas hispanoamericanas son algunos más, pero todavía no están





En la actualidad, y esperamos que sea una realidad que se subsane lo antes posible, la can-

tidad de digitalizaciones de obras procedentes de bibliotecas de este hemisferio es notable-

mente inferior al de otros territorios, como Europa o América del Norte. Por este motivo,

las cifras ofrecidas en este epígrafe son más un motivo de reexión que algo realmente

orientativo. Sea como fuere, los datos desglosados por bibliotecas son los que siguen:

Tabla 6. Registros de la BVFE en bibliotecas de Hispanoamérica (desglose).

Biblioteca y número de ejemplares

Biblioteca Nacional de Colombia 192

Universidad Nacional Autónoma de México 118

Universidad Autónoma de Nuevo León 103

Biblioteca Nacional de Chile 60

Biblioteca Nacional Miguel Obregón Lizano, Costa Rica 19

Biblioteca Pública del Estado “Juan José Arreola”, Guadalajara 15

Biblioteca Nacional Mariano Moreno de la República Argentina 10

Biblioteca Nacional de Maestros, Buenos Aires 7

Biblioteca Nacional del Perú 4

Biblioteca Palafoxiana, Puebla 4

Universidad de Chile 4

El Colegio de México 1

Universidad Francisco Marroquín, Guatemala 1

Universidad Nacional de Colombia 1

3.3. Lenguas amerindias

Una de las mayores riquezas de la BVFE es el número y variedad de lenguas que atesora.

De las más de  lenguas que están presentes en la BVFE,  se hablan o se han hablado

en territorio hispanoamericano, y con ellas se han compuesto  obras, esto es, un

. del total de registros.

Tabla 7. Registros de la BVFE de lenguas amerindias.

Totales En bibliotecas hispanoamericanas

9335 1007 (10.78 %)

10 Los ejemplares digitalizados en bibliotecas hispanoamericanas son algunos más, pero todavía no están

BVFE , pues están a falta de un estudio detallado de sus contenidos.

La Biblioteca Virtual de la Filología Española (BVFE) y su acervo hispanoamericano



Digital Humanities, Corpus and Language Technology

Destacan, en este sentido, los textos compuestos en náhuatl (), quechua (), mapuche

(), otomí (), maya (), tarasco (), michoacano (), cachi (), purépecha (),

cachiquel (), guaraní (), quiché (), zapoteco (), cahíta () y cabécar (), que en

su mayoría se utilizaron para componer textos correspondientes a la Lingüística misione-

ra. En la BVFE no solo contamos con trabajos descriptivos sobre las lenguas amerindias

mayoritarias, también atesoramos diccionarios y gramáticas sobre idiomas muy minorita-

rios, como, por ejemplo, el cuna (Vocabulario castellano-cuna, de A. L. Pinart, publicado

en ), la lengua propia de un pueblo que habita entre Panamá y Colombia, o el ixil (Arte

y vocabulario de la lengua ixil, anónimo, post ), empleada en el noroeste del altiplano

guatemalteco y perteneciente al tronco mayense.

3.4. Autores y época

El último parámetro manejado para describir el componente hispanoamericano en la

BVFE es el de autores o chas biobibliográcas. En este apartado se ha incluido a) autores

cuyas sus obras traten sobre lenguas amerindias; b) autores, con independencia de su lugar

de nacimiento, cuyas obras fueran imprimidas en ese continente, y c) autores nacidos en

América, con independencia de la temática de sus obras. La BVFE cuenta con un total de

 autores, de los que  cuenta actualmente con una cha biobibliográca; de ellos, 

cumplen los criterios antes mencionados (un   sobre el total de autores ya estudiados).

Tabla 8. Autores hispanoamericanos en la BVFE .

Registros totales (autores) Registros con cha Fichas de autores hispanoame-

ricanos

1917 911 202

11 Alfabéticamente, las lenguas que han aportado registros a las BVFE son: achagua 2, aimara 18, allentiac 12,

arasairi 1, atacameño 5, ayook 1, baure 3, biceita/viceyta 2, boruca 1, bribri 1, cabécar 20, cachi 28, cachiquel

26, cahíta 21, campa 3, caviñeno 2, chaima 3, chanabal 3, chiapaneca 3, chibcha 19, chilote 1, chinanteco

1, chinchaisuyo 1, chiquito 5, chirripó 1, chol 6, choltí 5, coa 3, comanche 1, cora 3, cumanagoto 4, cuna 1,

eudeve 1, guahibo 5, guaraní 26, guatuso 1, guaymíe 1, hegue 1, huasteco 14, ixil 1, kunza 1, lean 1, lenguas

de México 23, lule 18, machiguenga 1, mam 12, mame 5, mapuche 57, matlatzinca 4, maya 35, mazahua 1,

mazateco 1, michoacano 28, mixe 2, mixteco 10, mochica 1, mojo 19, morocosi 1, muisca 16, mulía 1, mutsun

7, nahua 135, névome 3, ópata 1, orosí 1, otomí 57, páez 2, pame 1, paria 2, pima 3, pocoman 8, pocomchí

4, popoluca 1, purépecha 27, quechua 79, quekchí 1, quiché 24, rusien (Canadá) 1, sáliba 1, setevo 1, siona

1, sipibo 1, subinha 1, tacana 2, talamanca 1, tarahumara 6, tarasco 33, tatché 2, telamé 2, tepehuán 1,

tepeguano 1, térraba 2, timucua 1, toba 2, totonacalpa 1, totonaco 1, tucurrique 1, tupí 17, tzeltal 7, tzendal

7, tzotzil 4, tzutuhil 2, yaqui 1, yook 1, yunga 5, yupa 1, zapoteco 24, zend 9, zoque 8, zutunil 4.



En cuanto a la época en que estos autores desarrollaron su actividad, los datos reejan,

como era de esperar, un continuo crecimiento a medida que pasa el tiempo. De los ocho

autores del siglo  se pasa a los  del siglo .

Tabla 9. Autores y siglos.

Siglos Número de autores

Siglo xvi 8

Siglos xvi-xvii 10

Siglo xvii 19

Siglos xvii-xviii 4

Siglos xviii 21

Siglos xviii-xix 7

Siglo xix 72

Siglos xix-xx 47

Siglo xx 14

En las primeras centurias destaca la presencia de misioneros de diferentes órdenes religiosas,

mientras que en las últimas los protagonistas son prestigiosos lingüistas internacionales que

desarrollaron su labor docente e investigadora o publicaron sus textos en sus países natales.

12 -

mente: Abeille, Luciano. xix-xx; Ágreda, Antonio de. xviii; Agüero, Cristóbal de, O. P. xvii; Aguilera Patiño, Luisita, xx;

Alvarado, Francisco de, O. P. xvi-xvii; Amunátegui Aldunate, Miguel Luis. xix; Anchorena, José Dionisio. xix; Arenas,

Pedro de. xvii; Arias de la Vega, Eusebio. xix; Armentia, fr. Nicolás. xix; Arroyo, Santiago. xviii-xix; Aza, José Pío, O.

P. xix-xx; Baralt, Luis A. xix-xx; Bárcena, Alonso de, S. I. xvi; Basalenque, Diego, O. S. A. xvii; Bayo, Ciro. xix-xx; Bello,

Andrés. xix; Belmar, Francisco. xix-xx; Beltrán de Santa Rosa María, Pedro, O. F. M. xviii; Bertonio, Ludovico, S. I.

xvi xvii; Botello Movellán, José Ceferino. xviii xix; Caballero, Darío Julio. xix; Cáceres, José María. xix; Caro,

Miguel Antonio. xix; Carochi, Horacio, S. I. xvii; Carricaburu, Alfredo. xix; Chimalpopocatl Galicia, Faustino. xix-xx;

Chomé, Ignace, S. I. xviii; Ciudad Real, Antonio de, O. F. M. xvi-xvii; Company Company, Concepción. xx; Conto,

César. xix; Córdova, Juan de, O. P. xvi;xix; Dávila Garibi, José Ignacio Paulino. xx; Espinosa,

Juan. xix; Febrés, Andrés, S. I. xviiixix; Flores, Ildefonso José, O. F. M. xviii; Franco, José

Félix. xix; Frías, Heriberto. xix; Fuentes, Ventura y Victor E. François. xix-xx; Galván, Mariano. xix; Gárate Arriola,

Justo. xx; García del Río, Juan. xix; Gilberti, Maturino, O. F. M. xvi; Gómez de la Maza, Manuel. xix-xx; González del

Valle, Manuel. xix; González Holguín, Diego, S. I. xvi-xvii; Guerra, Juan, O. F. M. xvii; Gutiérrez, Rafael. xix; Henríquez

Ureña, Pedro. xx; Herranz y Quirós, Diego Narciso. xviii-xix; Huerta, Alonso de. xvi-xvii; Lemos Ramírez, Gustavo.

xviii-xix; León, Nicolás. xix-xx; Limardo, Ricardo Ovidio. xix; López Yepes, Joaquín, O. F. M. xix; Lugo, Bernardo de,

O. P. xvii; Machoni de Cerdeña, Antonio, S. I. xvii-xviii; Magdalena, Agustín de la, O. F. M. xviii; Marroquín, José

Manuel. xix; Matto de Turner, Clorinda. xix; Membreño, Alberto. xix-xx; Meneses y Gómez, Sabas. xix; Mesías,

José Mercedes. xix; Mossi, Miguel Ángel. xix; Navarro, Manuel, O. F. M. xix-xx; Neve y Molina, Luis de, O. F. M. xviii;

Obelar, Raimundo D. xix-xx; Oroz, Rodolfo. xx; Pareja, Francisco, O. F. M. xvi-xviixix-xx; Pichardo

y Tapia, Esteban. xix; Pinart, Alphonse Louis. xix; Pinilla, Norberto. xx; Ponce de León, Néstor. xix; Quesada,

Ernesto. xix-xx; Rabanales O., Ambrosio. xx; Restrepo, Félix, S. I. xx; Reyes, Antonio de los, O. P. xvi; Reyes, Rincón,

Antonio del, S. I. xvi; Rivera, Gregorio. xviii-xix; Rivodó, Baldomero. xix; Rojas, Arístides. xix; Rojo Mejía y Ocón, Juan.

xvii; Rosales, Carlos Joseph, O. F. M. xviii; Ruz, Joaquín, O. F. M. xviii-xix; San Buenaventura, Gabriel de, O. F. M. xvii;

Sarmiento, Domingo Faustino. xix; Suárez, José Bernardo. xix-xx; Suárez, José Bernardo. xix; Tangol, Nicasio. xx;

Tellechea, Miguel, O. F. M. xviii-xix; Thiel, Bernardo Augusto, C. M. xix; Torres Rubio, Diego de, S. I. xvi-xvii; Torresa-

no, fr. Estevan. xviii; Uribe Uribe, Rafael. xix-xx; Uricoechea, Ezequiel. xix; Valdivia, Luis de, S. I. xvi-xvii; Velarde, Fer-

nando. xix; Vetancurt, Agustín de, O. F. M. xvii; Vico, Domingo de, O. P. xvi; Vicuña Cifuentes, Julio. xix-xx; Villarreal,

La Biblioteca Virtual de la Filología Española (BVFE) y su acervo hispanoamericano



Digital Humanities, Corpus and Language Technology

Entre los primeros, ante la imposibilidad de nombrarlos a todos, queremos citar a Arenas,

Ciudad Real, Córdova, Flores, Gilberti, González Holguín, Neve y Molina, Rosales o Vico;

entre los segundos, a Bello, Cuervo, Caro, García del Río, Gómez de la Cortina, Marroquín,

Obelar, Rojas, Sarmiento o a Lenz, quien cuenta con treinta registros en la BVFE actualizados

los pasados meses (La oración y sus partes, estudios sobre el español de Chile, reexiones

sobre fonética y ortografía, ¿Para qué estudiamos gramática? o el papiamento).

4. Conclusiones

La BVFE es un proyecto consolidado, al que avalan sus once años de trayectoria, y líder en

su ámbito, como atestiguan los datos sobre el número total de visitas o sobre las páginas

visitadas. Su aportación a la sociedad del conocimiento fue reconocida el pasado mes de

septiembre con la concesión del primer premio de la V Edición de los Premios de Trans-

ferencia de Tecnología y de Conocimiento de la Universidad Complutense de Madrid

(). Resulta justo decir que esta herramienta, nacida y desarrollada en España, no

podría entenderse sin el componente hispanoamericano, al igual que le sucede al idioma

que compartimos. Para corroborar esta armación, solo hace falta traer a colación unos

cuantos datos que ya han sido apuntados más arriba:

En primer lugar, según el lugar de impresión de las obras, ese componente hispano-

americano alcanza al .  de nuestros registros. Dentro de los territorios de la América

hispana destaca, respecto a la cuestión que nos ocupa, la zona septentrional de Mesoamé-

rica, ocupada en el pasado por el Virreinato de la Nueva España y, desde comienzos del

siglo , por los Estados Unidos Mexicanos. Y en el seno del país azteca, brillan con luz

propia las prensas de la Ciudad de México, antaño capital del más importante virreinato

del Nuevo Mundo y hoy del país con el mayor número de hispanohablantes del orbe. A

continuación, y justo por encima del otro gran reino de las Indias españolas, el del Perú

con capital en Lima, ocupan un lugar destacado las prensas chilenas —y, en particular, las

santiaguinas—; realidad que se justica por el proceso de digitalización de documentos

llevado a cabo por las instituciones culturales de ese país del cono de Sudamérica.

En segundo lugar, si hablamos del porcentaje de registros cuyo ejemplar físico corres-

pondiente se custodia en una biblioteca de ese continente, el porcentaje asciende al . .

En este sentido y junto a la última alusión del párrafo anterior, cabe destacar en trabajo de

la Biblioteca Nacional de Colombia y el de dos de las principales instituciones mexicanas

Federico. xix-xx; Vingut, Francisco Javier. xix; Vivero, Luis Fernando. xix; Ybarra, Alejandro. xix-xx; Zambrano Bonilla,

José. xviii.



de educación superior, la Universidad Nacional Autónoma de México y la Universidad

Nacional Autónoma de Nuevo León.

En tercer lugar, un   de nuestros diccionarios, gramáticas u ortografías profundizan

en el estudio y la descripción de alguna lengua amerindia. Y, como ha quedado dicho, no

solo de las más extendidas, sino también de algunas de las más desconocidas. El quehacer

de los lingüistas misioneros fue especialmente fructífero en las áreas de los grandes virrei-

natos históricos: Nueva España —náhuatl (), otomí (), maya (), tarasco () o mi-

choacano— y Perú —quechua ()—. El papel algo sobredimensionado de las lenguas

amerindias chilenas —mapuche ()— se debe a la ya mencionada (y muy completa) di-

gitalización de las obras custodiadas en la Biblioteca Nacional de Chile.

En cuarto lugar y para terminar, del total de autores ya estudiados y que poseen su cha

biobibliográca, un   proceden de esta región del planeta. Temporalmente hablando, y

tal como ocurre con el conjunto de registros de nuestro portal (García y Peña, , -

), una mayoría de ellos pueden radicarse en el siglo  y durante el primer tercio del

. En este sentido, ese porcentaje se debe, fundamentalmente, a los trabajos realizados

por alguno de los miembros del equipo de investigación, como Jaime Peña Arce y Leticia

González Corrales, o por alguno de nuestros colaboradores, como Darío Rojas, Susana

Serra Sepúlveda, Érika Moreno o Viviana Ávila.

En denitiva, la Biblioteca Virtual de la Filología Española pretende dar soporte a cual-

quier investigador, con independencia del lado del Atlántico en el que viva, y acercarle

aquellos materiales que, geográcamente, le queden más alejados. El objetivo nal es seguir

trabajando juntos por el estudio y el cuidado de la lengua española y de todos aquellos

autores que han ayudado a engrandecerla.

Referencias

Alvar Ezquerra, M. ().Biblioteca Virtual de la Filología Española (BVFE): directorio bibliográco

de gramáticas, diccionarios, obras de ortografía, ortología, prosodia, métrica, diálogos e historia

de la lengua. [Consulta: //]. https://www.bvfe.es/es/.

Alvar Ezquerra, M. y Miró Domínguez, A. (). Antecedentes y primeros pasos de la Biblioteca

Virtual de la Filología Española. En P. Spinato, P. Bruschi, & J. J. Martínez (Eds.), Cuando quiero

hallar las voces, encuentro los afectos. Studi di Iberistica oerti a Giuseppe Bellini (pp. -).

Consiglio Nazionale delle Ricerche.

Cazorla Vivas, M.ª C. y García Aranda, M.ª Á. (). Herramientas en red: la Biblioteca Virtual de

la Filología Española. E-Scripta Romanica, , -.

Calero, E., Fernández, N. y Peña, J. (). La Biblioteca Virtual de la Filología Española (BVFE) y la

digitalización de obras complutenses del siglo. En A. Menéndez de la Cuesta González (Ed.),

Encuentros digitales: escrituras, colecciones, aprendizajes en español. Encontros digitais: escritas,

La Biblioteca Virtual de la Filología Española (BVFE) y su acervo hispanoamericano



Digital Humanities, Corpus and Language Technology

colecçoes, aprendizagem em portugués (pp.-). Universidad Complutense de Madrid y

Fundación BBVA.

Esparza Torres, M. Á. y Niederehe, H.-J. (). Bibliografía cronológica de la lingüística, la gramática

y la lexicografía del español (BICRES). Desde los comienzos hasta el año . John Benjamins.

Esparza Torres, M. Á. y Niederehe, H.-J. (). Bibliografía cronológica de la lingüística, la gramática

y la lexicografía del español (BICRES II). Desde el año  hasta el año . John Benjamins.

Esparza Torres, M. Á. y Niederehe, H.-J. (). Bibliografía cronológica de la lingüística, la gramática

y la lexicografía del español (BICRES III). Desde el año  hasta el año . John Benjamins.

Fabbri, M. (). A Bibliography of Hispanic Dictionaries. Catalan, Galician, Spanish, Spanish in Latin

America and the Philippines. Appendix: A Bibliography of Basque Dictionaries. Galeati.

Fabbri, M. (). A Bibliography of Hispanic Dictionaries. Catalan, Galician, Spanish, Spanish in

Latin America and the Philippines. Supplement I. Panozzo Editore.

García Aranda, M.ª Á. y Peña Arce, J. (). La Biblioteca Virtual de la Filología E spañola: de Antonio

de Nebrija a Antonio de Nebrija. En J. M.ª Santos Rovira (Ed.), Raíces y horizontes del español.

Perspectivas dialectales, históricas y sociolingüísticas (pp.-). Axac.

San Vicente, F. (). Bibliografía de la lexicografía española del siglo . Piovan editore.

Viñaza, Conde de la, (). Bibliografía española de lenguas indígenas de América. Sucesores de

Rivadeneyra.

Viñaza, Conde de la, (). Biblioteca histórica de la lología castellana. Imprenta y Fundición de

Manuel Tello.



De dos bases de datos relacionales a una base de datos XML. El proyecto

COMREGLA

C III

De dos bases de datos relacionales

a una base de datos XML. El

proyecto COMREGLA

From two relational databases to

an XML one. Project COMREGLA

Eveling Garzón Fontalvo a, Berta González Saavedra b, José Ignacio Hidalgo González c, Iván

López Martín b, Alberto Pardal Padín a, Guillermo Salas Jiménez b & Cristina Tur a

Universidad de Salamanca (a), Universidad Complutense de Madrid (b), IES Sant Marçal (c) –

España

Resumen:         

adaptaciones que hemos hecho a dos bases relacionales del proyecto REGLA (REc-

ción y complementación en Griego Antiguo y Latín) cuyo foco se encuentra en el



proyecto COMREGLA

otras herramientas de tratamiento automático del lenguaje y que el análisis no sea

solo de predicaciones nucleares y básicas, sino de textos completos. Para ello, se ha

-

ción morfológica, sintáctica, semántica y léxica de las bases de datos originales, dar

cuenta de la propia recursividad del lenguaje (en términos de posibles relaciones de

estructuras) y enriquecer el análisis con etiquetas para componentes que no se es-

tudiaban antes (complementación no obligatoria de la predicación expandida).

Abstract: -

bases belonging to REGLA (Rección y complementación en Griego antiguo y Latín,

Spanish acronym for Government and complementation in Ancient Greek and Latin), a

research project centred on the study of verbal predications. This transformation,

   COMREGLA, seeks to make the information





Digital Humanities, Corpus and Language Technology



-



-



  

the expanded predication.

1. Introducción

El proyecto COMREGLA tiene como objetivo hacer accesibles y compatibles con otros

recursos digitales dos bases de datos relacionales que se concibieron para estudiar las

estructuras predicativas de los verbos más frecuentes del griego antiguo y el latín. A raíz

de la aparición de corpus anotados para estas dos lenguas a partir de los años  y del

nacimiento del proyecto Linking Latin (Passarotti et al., ), se ha hecho evidente la

necesidad de abrir estas bases de datos y convertirlas en recursos accesibles y compatibles

con otras herramientas disponibles de tratamiento automático del lenguaje.

Esta transformación ha supuesto una serie de dicultades que están directamente re-

lacionadas no solo con el tipo de información almacenada en las bases de datos originales,

sino también con la naturaleza de la información recogida en los otros recursos con los

que se pretende hacer compatible nuestra herramienta.

En esta contribución, en primer lugar, presentaremos los datos contenidos en el recur-

so de partida (es decir, en las bases de datos relacionales) y explicaremos algunas de las

dicultades que entraña su adaptación para, acto seguido, describir cómo otros recursos

existentes abordan estas cuestiones (§ ). A continuación, especicaremos el marco teóri-

co en el que se encuadra nuestro proyecto (§ ), así como los aspectos metodológicos de la

transformación de las bases de datos relacionales (§ ). Por último, profundizaremos en la

descripción de algunos problemas relativos al análisis de las formas nominales del verbo y

en las soluciones dadas a estos (§ ). Para nalizar, plantearemos unas conclusiones (§ ).

1 Financiado gracias a una  de la Fundación

BBVA (convocatoria 2018).



De dos bases de datos relacionales a una base de datos XML. El proyecto COMREGLA

2. Cuestiones preliminares. Presentación de los recursos de

partida

COMREGLA ha supuesto toda una renovación de nuestros recursos que ha desembocado

en la creación de una nueva base de datos. A continuación, describiremos nuestro proyec-

to de partida, REGLA, y otros proyectos similares que han servido de base teórico-técnica

para el desarrollo de esta nueva herramienta.

2.1. Nuestro proyecto: REGLA

El grupo de investigación Rección y Complementación en Griego antiguo y Latín

(REGLA), que es el inicio del actual proyecto COMREGLA, fue creado en  por un

grupo de investigadores de cuatro universidades españolas: U. Autónoma de Madrid, U.

Complutense de Madrid, U. de Alcalá de Henares y la U. de Santiago de Compostela, al

que se fueron incorporando otras como la U. de Salamanca y la U. de Oviedo.

En los últimos años, el equipo ha estado trabajando en el desarrollo de dos bases de

datos relacionales, REGLA-Griego y REGLA-Latín, que tienen como objetivo último ob-

tener un repertorio lo más completo posible de los marcos predicativos (MP), esto es, los

esquemas de complementación obligatoria de los verbos más frecuentes en griego antiguo

y latín. Así pues, estas bases de datos han sido diseñadas para recoger, organizar y recupe-

rar las apariciones de cada verbo en un corpus seleccionado, con su correspondiente aná-

lisis sintáctico, semántico y léxico.

A pesar de sus diversas transformaciones (cambio en la nomenclatura de los distintos

proyectos nanciados y en la conguración del equipo de trabajo), el objetivo del grupo

ha sido siempre el estudio de la estructura oracional del griego antiguo y el latín y, en par-

ticular, de los aspectos relacionados con la sintaxis y semántica de los constituyentes que

la integran.

Para ilustrar el tipo de análisis que recogen estas bases de datos, podemos observar la

sección superior de una de las chas del verbo appello ‘nombrar, denominar’ en latín:

2 En orden cronológico los proyectos concedidos son: Corpus y base de datos sobre la complementación. Un

estudio lingüístico sobre el griego y el latín (CAM 06/0013/1999); Sintaxis y semántica de la complementación II

(BFF2001-0135-C04); Corpus de rección y complementación en griego y latín (HUM2005-06622-C04); Corpus de

rección y complementación en griego y latín II (FFI2009-13402-C04); Problemas de complementación en griego

y latín (FFI2013-47357-C4); Interacción del léxico y la sintaxis en griego y latín (FFI2017-83310-C3). Como ante-

cedentes de estos proyectos se pueden mencionar Las funciones nominales en Griego y en Latín: Tucídides y

Cicerón (PS91-0014); Las unidades funcionales en la oración en griego y en latín (PB94-0197); Sintaxis, semántica y

pragmática de la complementación (PB97-0005-C04), que desarrollaron las bases teóricas. En la actualidad, el

proyecto vincula a más de una quincena de investigadores (entre profesores y alumnos de postgrado).



Digital Humanities, Corpus and Language Technology

Figura 1. REGLA.

Aquí tenemos parte del texto recogido en la cha de la Figura .

Ejemplo (1).

radix, quam Graeci  uocant, uulgus

raíznom.sg rel.ac.sg griegosnom.pl.ac.sg llaman vulgonom.sg

autem nostra consuetudine laserpitium appellat

part nuestraabl.sg tradiciónabl.sg laserpicioac.sg denomina

“la raíz que los griegos llaman ; el vulgo, en cambio, según nuestra tradición, la denomina laserpicio” (Colum.

6.17.8)

En concreto, en esta cha se analiza la predicación uulgus autem nostra consuetudine laser-

pitium appellat, traducida como “el vulgo, en cambio, según nuestra tradición, la denomi-

na laserpicio”, y se recoge la estructura argumental del verbo appello. Así pues, los elemen-

tos destacados en verde, esto es, uulgus y laserpitium, se identican con los elementos

obligatorios –y, nótese bien, explícitos– de la predicación de este verbo. En la cha se

recoge también la formalización del análisis del verbo en este pasaje en la casilla MP, donde

se nos indica que en esta construcción appello cuenta en realidad con los siguientes cons-

tituyentes obligatorios (dos explícitos y uno elíptico contextual): un Argumento 

Actor-Agente tipicado como /+humano/ (uulgus); un Argumento  Afectado /+concreto/

(elíptico contextual) y un Argumento  Afectado con la caracterización léxica /+palabras/

(laserpitium).

A pesar de que los datos consignados en estas bases de datos son de bastante calidad,

puesto que los análisis han sido llevados a cabo por miembros del equipo de investigación

con formación en lingüística y en griego y latín, esta forma de organizar y almacenar los

datos ha resultado no ser del todo efectiva, ya que plantea, sobre todo, dos dicultades:



De dos bases de datos relacionales a una base de datos XML. El proyecto COMREGLA

i Incapacidad de dar cuenta del carácter recursivo del lenguaje. Cuando un constituyen-

te de la oración forma, a su vez, una estructura predicativa propia (por ejemplo, otra

oración), no se puede abordar el análisis de manera conjunta, sino que cada elemento

predicativo ha de analizarse en una cha diferente. En el ejemplo (), el análisis de la

oración de relativo (quam Graeci σίλφιον uocant ‘que los griegos llaman silo’) no se

puede poner en relación con el de la oración principal en la que se integra.

ii Limitación del análisis a constituyentes centrales de la predicación. Por esta razón, un

sintagma como nostra consuetudine ‘según nuestra tradición’ (ejemplo ), que funciona

como un disjunto (esto es, un elemento que trasciende el ámbito de la predicación),

queda fuera del ámbito de análisis en REGLA.

Identicar estas dos cuestiones problemáticas y darles una solución satisfactoria ha sido

clave para cumplir con una parte crucial del proyecto COMREGLA, como es el hacer

compatible los datos disponibles en REGLA con otras herramientas y recursos dedicados

a las lenguas que nos ocupan.

2.2. Otros proyectos

De cara a resolver los tres problemas descritos, uno de los primeros pasos ha sido compro-

bar de qué manera se abordaban en otros treebanks con anotación semántica y sintáctica,

especialmente los dedicados a las lenguas clásicas, como PROIEL (Haug & Jøhndal, ),

el Index omisticus Treebank (ITTB; Passarotti, ) y el Ancient Greek and Latin

Dependency Treebank (AGLDT; Bamman & Crane, ).

La primera de las tres herramientas se sirve del etiquetado morfológico de Universal

Dependencies para el análisis sintáctico de textos con el objetivo de presentar de forma

arbórea las distintas dependencias de un predicado; este sistema es aplicado a un pequeño

corpus de obras latinas y griegas, entre otras lenguas.

El ITTB, por su parte, surge de uno de los proyectos pioneros en lingüística computa-

cional, el Index omisticus. Su objetivo inicial era la anotación morfológica de las obras

de Tomás de Aquino. Con todo, desde hace algunos años se ha ampliado el corpus con

autores clásicos latinos, se ha comenzado a anotar también información sintáctica y se-

mántica y se ha añadido un léxico de valencias basándose en el marco teórico desarrollado

por el Prague Dependency Treebank, aunque con ciertas adaptaciones.



Digital Humanities, Corpus and Language Technology

Por último, el AGLDT, de la Universidad de Leipzig, ofrece una recopilación de textos

griegos y latinos de distintos géneros y épocas usando también el etiquetado de dependen-

cias sintácticas del Prague Dependency Treebank.

Los treebanks citados ofrecen el análisis de obras completas, por lo que se han tenido

que enfrentar a los problemas que planteábamos en el punto anterior: el análisis de estruc-

turas complejas de subordinación y coordinación con sus propias funciones y la anotación

de complementos no centrales. El análisis de estructuras complejas está resuelto por estos

treebanks; sin embargo, no permiten un análisis tan pormenorizado como el que se ofrece

en REGLA, que contempla más categorías y depura mucho más los datos. La transforma-

ción directa al formato de uno de estos treebanks habría supuesto, por lo tanto, una pérdi-

da de información de la base de datos de partida, razón por la que no se ha llevado a cabo.

Con todo, sí resultó útil la observación y el conocimiento de los treebanks mencionados

para comprobar cómo se anotaban los constituyentes no centrales de la predicación, que,

en general, reciben etiquetas distintas para marcar su relación sintáctica y semántica menos

estrecha con la predicación.

3. Marco teórico

Para explicar por qué el análisis preexistente en las bases de datos relacionales de REGLA

es más preciso y no puede ser transformado directamente al formato usado por otros

treebanks es necesario mencionar que nuestras bases de datos tienen como principal fun-

damento teórico la Gramática Funcional de S. Dik (). Este modelo se ha aplicado con

notable éxito al estudio tanto del latín como del griego. Cabe destacar en esta línea el tra-

bajo de Pinkster para el latín (; ) y los desarrollados por los miembros de REGLA

tanto para el latín como para el griego (p. ej., Baños et al., ; Torrego et al., ; Baños,

; Jiménez López, ).

En concreto, es fundamental tener en cuenta el concepto de predicación y de MP (Dik,

, p.ss; de la Villa, ) para comprender el desarrollo de la base de datos REGLA.

El primero hace referencia a una estructura sintáctico-semántica formada por un verbo y

los elementos que de él dependen, tanto si son obligatorios como si no. El segundo es el

3 Cabe mencionar además la existencia de algunos léxicos de valencias, herramientas que recogen bien la

estructura sintáctica de los verbos, como el  para las obras homéricas (que anota

según los parámetros teóricos sintácticos del ) o el IT-VaLex para la obra de

Tomás de Aquino, bien su estructura semántica, como el Latin Vallex (desarrollado a partir de la anotación

semántica del Index Thomisticus Treebank).

4 Algo similar ocurre con los léxicos de valencias de acceso abierto que, a pesar de la valiosa información que

comparten, no aportan una tan detallada y completa como la que contiene REGLA.



De dos bases de datos relacionales a una base de datos XML. El proyecto COMREGLA

esquema de complementación obligatoria de un verbo. Este estudio de los MP es, en últi-

ma instancia, el responsable de que el interés de la base de datos previa se haya centrado

sobre la complementación obligatoria y haya dejado de lado el análisis exhaustivo de todos

los elementos de la predicación y la oración.

Esta perspectiva funcionalista se ha enriquecido a lo largo de los años con aportaciones

de otros marcos teóricos anes como la Gramática Cognitiva (Langacker, ) o la Gra-

mática de las Construcciones (Goldberg, ), así como con otras teorías funcionalistas

posteriores a las de Dik, como la Gramática del Papel y la Referencia (Van Valin & LaPolla,

) y la Gramática Funcional del Discurso (Hengeveld & Mackenzie, ). Todas estas

perspectivas comparten una visión de la lengua en la que priman la función comunicativa

del lenguaje y el uso en contexto por encima de cuestiones puramente formales.

4. Aspectos metodológicos

Con el n de hacer compatibles las bases de datos REGLA-Griego y REGLA-Latín con

otras herramientas de procesamiento del lenguaje natural, era necesario hacer una migra-

ción de las dos bases de datos relacionales a una base de datos XML, COMREGLA, lo que

supone un cambio estructural de gran calado, puesto que las formas de almacenamiento

de la información son muy diferentes.

En un primer momento, tomamos como modelo un standard XML ya existente para

el análisis sintáctico y semántico necesario en la creación de treebanks, el Prague Markup

Language (PML), un sistema de marcado desarrollado para el Prague Dependency Treebank

y que ya ha sido aplicado al latín en el ITTB, entre otros recursos (cf. §.).

A grandes rasgos, el PML es un marcaje stand-o que se articula en cuatro capas o

niveles de análisis: tokens o nivel words, morfología o nivel morfológico, análisis sintáctico

o nivel analítico y análisis semántico-pragmático o nivel tectogramatical. No obstante, tal

y como hemos mencionado (§ .), no resultó ser del todo compatible con el tipo de infor-

mación que se almacena en nuestras bases de datos relacionales. En efecto, si bien hasta el

nivel morfológico el PML se adecúa correctamente al tipo de información de REGLA, en

el nivel sintáctico y semántico, sigue preceptos teóricos diferentes a los que sustentan nues-

tro proyecto. Por otra parte, PML resulta insuciente para reejar determinada informa-

ción sintáctica y semántica que se tiene en cuenta en REGLA (como es el caso de las ca-

5 Por ejemplo, el PML distingue entre argumentos y adjuntos obligatorios, mientras que en COMREGLA los





Digital Humanities, Corpus and Language Technology

racterísticas semánticas de las predicaciones en su conjunto, cuando son componentes de

una principal).

Así las cosas, decidimos que los elementos de la base de datos COMREGLA estarían

anotados mediante un sistema propio de etiquetas XML que se ajustara lo más posible a

los campos de las bases de datos relacionales de REGLA. Este sistema de etiquetas se basa

en buena medida en el PML, pero también en otros sistemas de gramática de dependencias,

como PROIEL.

Las bases de datos de REGLA contienen cuatro tipos de información lingüística: mor-

fológica, sintáctica, semántica y léxica. Esta información se ha redistribuido, como se ob-

serva en la tabla , en dos niveles stand-o: , en el que se recoge la forma y el lema

de cada palabra del texto, así como su información morfológica, y , que es de

mayor complejidad, en el que se explicitan los rasgos léxicos de las unidades lingüísticas,

las relaciones sintácticas y semánticas que se establecen entre ellas y las jerarquías de es-

tructuras sintácticas en las que se insertan.

Tabla 1. Distribución de la información lingüística en los nuevos niveles.

WORDS CLAUSES

Morfología Forma y lema

Características

morfológicas

Sintaxis - Palabras (words) < Predicaciones (clauses) < Oraciones (sentences)

Relaciones sintácticas (dependencias, funciones sintácticas, etc.)

• entre las palabras de una oración,

• entre las predicaciones que conforman una oración

Semántica - Características semánticas

• de las relaciones (funciones semánticas, tipos de subordinación,

etc.),

• de las predicaciones (polaridad, diátesis, fuerza ilocutiva, control,

aspecto léxico, etc.)

Léxico - Rasgos léxicos

Los aspectos sintácticos que se recogen en la capa  parten de la división del texto

en unidades. Todo texto se compone de palabras y otros tokens como la puntuación, núme-

ros, etc., que constituyen la forma más básica (). Las unidades básicas comprendidas

entre puntuación fuerte forman oraciones (). Entre ambas unidades se sitúa la

unidad lingüística que para nosotros es central: las predicaciones (), que es, como

se dijo en § , la unidad de análisis fundamental de las bases de datos relacionales de



De dos bases de datos relacionales a una base de datos XML. El proyecto COMREGLA

REGLA. Una vez determinadas las unidades sintácticas, establecemos las relaciones entre

estas unidades, tanto de las palabras entre sí, como de las predicaciones u oraciones.

Asimismo, las relaciones entre las unidades sintácticas tienen una dimensión semánti-

ca, para lo que se consignan, por ejemplo, las funciones semánticas, que denen el tipo de

relación entre el verbo y sus elementos (Agente, Paciente, Beneciario, etc.) o los tipos de

subordinación (completiva, condicional, concesiva, etc.). Además, las propias predicacio-

nes tienen ciertas características semánticas que les son propias, como pueden ser la pola-

ridad, la diátesis, la fuerza ilocutiva o el aspecto léxico. Por último, se anota la información

sobre el léxico de los elementos que funcionan como participantes en la oración.

Como se ha ilustrado anteriormente, en las bases de datos relacionales se analizan

fragmentos sueltos sin conexión entre ellos, elegidos solamente con el n de analizar los

MP de ciertos verbos. En la nueva base de datos, en cambio, las oraciones se encontrarán

en su contexto, ya que se analizan textos completos. Comparemos el análisis del ejemplo

() en REGLA (Figura ) con la forma que presenta el mismo ejemplo en la base de datos

COMREGLA. En la capa , como se ha mencionado ya, aparece la información

morfológica de cada palabra. Así, como se puede observar en la tabla , de la palabra radix

‘raíz’, por ejemplo, se recogerá el tipo de palabra (sustantivo), la declinación (ª declina-

ción), el caso, el número y el género. Para el verbo uocant ‘llaman’, se incluirán datos como

la conjugación, el tiempo, el modo, la voz, la persona y el número.

Tabla 2. Análisis del ejemplo (1) en COMREGLA.

radix quam Graeci σίλφιον uocant uulgus autem nostra consue-

tudine

laserpi-

tium

appellat

Sust.

3ª decl.

Nom.

Sg.

Fem.

Pron.

Acus.

Sg.

Fem.

Sust.

2ª decl.

Nom.

Pl.

Masc.

Sust.

2ª decl.

Acus.

Sg.

Fem.

Verbo

1ª conj.

Pres.

Ind.

Act.

3 pers.

Pl.

Sust.

2ª decl.

Nom.

Sg.

Neutr.

Indecl. Det.

Abl.

Sg.

Fem.

Sust.

3ª decl.

Abl.

Sg.

Fem.

Sust.

2ª dec.

Acus.

Sg.

Neutr.

Verbo

1ª conj.

Pres.

Ind.

Act.

3 pers.

Sg.

En la capa , por su parte, se muestran las relaciones entre las palabras dentro de

las predicaciones y entre las predicaciones entre sí. Dado que, como se ha visto antes, el

verbo es generalmente el núcleo de la predicación, en nuestro ejemplo, hay dos predica-

ciones, una cuyo núcleo es uocant ‘llaman’ y otra cuyo núcleo es appellat ‘denomina’. Los

demás elementos de la predicación se relacionan con ellos tanto sintáctica como semánti-

camente. De este modo, por ejemplo, Graeci ‘los griegos’ es el sujeto (función sintáctica)



Digital Humanities, Corpus and Language Technology

Agente (función semántica) de uocant ‘llaman’, y uulgus ‘el pueblo’ cumple las mismas

funciones (sujeto Agente) respecto a appellat ‘denomina’.

Así mismo, los elementos de una predicación pueden remitir secundariamente a otros

componentes. Por ejemplo, los nombres σίλφιον y laserpitium, que es como cada uno de

los pueblos llama a la raíz en cuestión, cumplen una doble función: sintácticamente son

complementos del objeto obligatorios de los verbos llamar y denominar (“a la raíz la llaman

laserpicio”), semánticamente hacen referencia a radix ‘la raíz’. Esta doble relación está mar-

cada mediante una línea discontinua.

Por otro lado, las predicaciones en su conjunto también cuentan con sus propias carac-

terísticas sintácticas (si se trata de una oración principal o subordinada; si es esto último,

de qué tipo es y qué función sintáctica cumple) y semánticas (si es un evento controlado,

su polaridad y diátesis).

Además de todo esto, se reejan las características léxicas de los distintos elementos,

sean palabras o predicaciones completas.

En la siguiente ilustración se muestra un modelo de representación gráca del análisis

en COMREGLA.

Figura 2. Modelo de representación de la capa clause s para el ejemplo (1).



De dos bases de datos relacionales a una base de datos XML. El proyecto COMREGLA

5. El problema de las formas nominales del verbo en latín y en

griego antiguo

Una vez presentada la estructura general de la nueva base de datos XML, ahora profundi-

zaremos en la descripción de algunos problemas relativos al análisis de las formas nomi-

nales del verbo –elementos altamente productivos en las lenguas estudiadas (§ .)– y en

las soluciones que se ofrecen desde el nuevo modelo COMREGLA (§ .).

5.1. Descripción de los problemas

Las llamadas “formas nominales del verbo” tienen unas peculiaridades morfológicas que

las hacen participar de una doble naturaleza nominal y verbal, pero la razón por la cual las

hemos escogido para profundizar en los problemas que nos han surgido es que en el plano

sintáctico y semántico se caracterizan, sobre todo, porque no suelen formar una oración

independiente: no suelen constituir un mensaje completo, puesto que no tienen autonomía

sintáctica ni comunicativa. Tienen, pues, un carácter subordinado: están insertas en una

oración y, a la vez, tienen su propio MP.

A través de los ejemplos que se analizan a continuación se ilustra la gran variedad de

construcciones sintácticas a las que dan lugar estas formas nominales y se recoge de ma-

nera esquemática la información presente en las bases relacionales de REGLA.

Para comenzar, en el ejemplo () tenemos una construcción de innitivo no concerta-

do, donde el verbo en innitivo (facere) se inserta en el MP del verbo principal (uolo), al

tiempo que tiene su propia complementación: un sujeto (te) y un objeto (hoc). El innitivo

participa, en este sentido, en dos predicaciones al mismo tiempo.

6 Estas no son las únicas construcciones que forman oraciones subordinadas en griego y en latín, pues

tenemos oraciones introducidas por conjunciones subordinantes, así como por pronombres relativos. Sin

embargo, la elección de las formas nominales del verbo para este artículo es que son mucho más frecuentes

y productivas en ambas lenguas.

7 En los modelos de representación de los ejemplos se han empleado las siguientes abreviaturas:

• ARG-SBJ: argumento-sujeto

• ARG-OBJ: argumento-objeto

• CN: complemento del nombre

• Coord: coordinación

• Disj: disjunto

• elip: elemento elíptico

• MP: marco predicativo

• Prep: preposición

• *: elemento sin correspondencia en el nivel words



Digital Humanities, Corpus and Language Technology

Ejemplo (2).

nunc ego te facere hoc uolo

adv pron.ac.sg pron.ac.sg inf.pres.act pron.ac.sg querer1sg.pste.ind.act

“ahora yo quiero que tú hagas eso” (Plaut. Bacch. 93)

Figura 3. Modelo de representación del ejemplo (2).

Otra construcción típica de estas formas en las lenguas clásicas es la del participio sustan-

tivado, ilustrado en (). En ejemplos como este, a la participación de la forma nominal del

verbo en dos predicaciones a la vez se añade el problema del marcaje del léxico. En efecto,

debido a la sustantivación de ο οκοντε ‘los que viven’ nos encontramos con una dico-

tomía a la hora de establecer el léxico del participio: ¿es /+humano/ porque está sustanti-

vado o es /+evento/ porque expresa un estado?

Ejemplo (3).

 οἱ οἰκοῦντες

permanecer

3pl.aor.ind.act

part adv art.nom.pl prep art.

ac.sg

marac.sg habitarpart.

pres.nom.pl



prep Solos

dat.pl

“Y se quedaron también los que viven junto al mar, en Solos” (X. An. 1.2.24).



De dos bases de datos relacionales a una base de datos XML. El proyecto COMREGLA

Figura 4. Modelo de representación del ejemplo (3).

El ejemplo () representa otra de las estructuras habituales a las que dan lugar estas formas:

el participio atributivo. En este caso, el participio είνα ‘que permanece’ funciona como

un modicador de στρατ ‘ejército’. Sin embargo, en su análisis se pierde información

sobre su complementación, dado que se le asigna un sujeto elíptico contextual, a pesar de

que tal sujeto sea el sustantivo στρατ.

Ejemplo (4).

  μείνας  

conj conj art.nom.sg permanecerpart.

nom.sg

adv prep Greciagen.

lugardat.

pl.

  

ejércitonom.

conseguir3sg.

fut.ind.act

regresogen.

salvaciónac.sg

“pero ni siquiera el ejército que permanece ahora en territorio griego conseguirá la salvación del regreso” (A. Pers.

796-797).



Digital Humanities, Corpus and Language Technology

Figura 5. Modelo de representación de ejemplo (4).

En resumen, por la naturaleza de las lenguas clásicas, las formas no personales del verbo

son uno de los escollos más frecuentes y que mejor ilustran este proceso de transformación

de un sistema a otro, ya que obligan a condensar información que, hasta el momento,

aparecía en dos (o más) chas y a establecer cuál es la relación entre las predicaciones, sea

esta de carácter obligatorio, tal como hemos visto en los ejemplos () y (), o no, como en

el ejemplo ().

Por otra parte, vemos cómo hay otros elementos que están dentro de la predicación o

que unen una oración con la anterior en el texto (en el ejemplo , λλ’ y οδ’ cumplirían

esta función) o que enlazan predicaciones y que quedarían sin etiqueta (al igual que la

predicación segunda en ) y tampoco aparecerían recogidos de ninguna manera.

5.2. Soluciones adoptadas en COMREGLA

El nivel  del marcaje en XML de COMREGLA ofrece las herramientas necesarias

para afrontar los problemas planteados por las formas no personales del verbo. Veamos

cada uno de los ejemplos y comprobemos cuáles son las soluciones que proponemos en

COMREGLA.

Figura : respecto a la integración de subordinadas en sus respectivas predicaciones

principales, problema que se ilustró en el ejemplo (), la nueva base de datos permite es-

tablecer la naturaleza morfológica y sintáctico-semántica del objeto de la predicación re-

gida, a diferencia de REGLA; recordemos que en estas solo se recogía la información

morfológica (un innitivo) sin que se pudiese establecer la relación entre ambas predica-

ciones. Para relacionarlas, como se observa en la gura , la base de datos COMREGLA



De dos bases de datos relacionales a una base de datos XML. El proyecto COMREGLA

se sirve de un elemento en la oración principal que no remite a ninguna realidad textual y

que recoge la información de la predicación subordinada (*).

Figura 6. Solución de análisis en COMREGLA para el ejemplo (2).

Figura : el segundo de los problemas que plantean las formas nominales de los verbos y

que se ha ejemplicado en () es la necesidad de recoger la información léxica de las pre-

dicaciones subordinadas cuando están sustantivadas. A este respecto, como se ilustra en la

gura (), la base de datos COMREGLA es capaz de almacenar esta información, añadién-

dosela al elemento (*). Así, en la oración principal, el elemento que remite a la predicación

 en su conjunto presenta el rasgo /+humano/ y la predicación en sí conserva su carácter

de evento. Además, permite etiquetar elementos que no pertenecen a la predicación

nuclear, como δ y κα.

Figura 7. Solución de análisis en COMREGLA para el ejemplo (3).



Digital Humanities, Corpus and Language Technology

Figura : en el análisis de la base de datos REGLA, no es posible establecer una relación entre

el participio atributivo (είνα) y el sustantivo al que complementa (στρατ). Por el contrario,

la nueva base de datos, como se ve, permite relacionar ambos términos en dos sentidos: por

un lado, mediante un elemento en la oración principal que no remite a ninguna palabra y que

recoge la información de la predicación subordinada en su conjunto se marca la función de la

predicación subordinada como complemento del nombre στρατ. Por el otro, en la predica-

ción subordinada se considera un sujeto elíptico cuya información es coincidente con la de

στρατ. Además, como ya sucedía en la gura , los elementos que no pertenecen estricta-

mente al ámbito de la predicación, sino al nominal (como los artículos) y al oracional (partí-

culas discursivas y algunos adverbios), reciben sus etiquetas correspondientes.

Figura 8. Solución de análisis en COMREGLA para el ejemplo (4).

A través de los anteriores ejemplos hemos podido mostrar cómo el nuevo análisis propues-

to por COMREGLA permite solucionar los problemas principales que plantean las bases

de datos relacionales REGLA: la relación entre predicaciones y el etiquetado de elementos

que no pertenecen a la estructura obligatoria de la predicación.

De esta manera, la información recogida en COMREGLA mantiene el análisis rena-

do de las bases de datos predecesoras solventando sus carencias y consiguiendo, al mismo

tiempo, ser compatible con otras herramientas de PLN.

6. Conclusiones

Como se ha podido comprobar, la nueva base de datos XML hereda de las antiguas bases

de datos relacionales la capacidad de almacenar y gestionar un profundo análisis sintácti-

co-semántico que puede ser de enorme ayuda en la labor de investigación lingüística del

griego antiguo y el latín, pero también supone algunas novedades respecto a sus predece-

soras.



De dos bases de datos relacionales a una base de datos XML. El proyecto COMREGLA

Como se recordará, las bases de datos relacionales de las que parte este trabajo se nutren

de fragmentos no conectados entre sí, de los que solo podían analizarse el verbo y su com-

plementación obligatoria. Frente a esto, la base de datos COMREGLA permite tanto eti-

quetar textos completos, estableciendo para ello las relaciones pertinentes entre distintas

predicaciones, como analizar todos sus componentes, sean obligatorios o no.

Asimismo, posibilita unas búsquedas mucho más precisas y completas, al haber mucha

más información analizada que poder recuperar: estructuras complejas como las formas

nominales del verbo, adjetivos con función atributiva, construcciones no pertenecientes a

la predicación, entre otras, sin perder la precisión que se había ganado con la anotación

detallada de las estructuras predicativas.

Por otro lado, el hecho de emplear la misma tecnología que otros recursos similares,

como, por ejemplo, LiLa, permite la compatibilidad con ellos y, aunque esté de momento

centrado en el latín y el griego antiguo, es un modelo de etiquetado que podría aplicarse a

otras lenguas.

Referencias

Bamman, D. & Crane, G. (). e Ancient Greek and Latin Dependency Treebank. In C. Sporleder,

A. van Den Bosch & K. Zervanou (Eds.), Language Technology for Cultural Heritage, ser.

Foundations of Human Language Processing and Technology (pp. -). Springer.

Baños, J.M. (coord.) (). Sintaxis del latín clásico. Liceus E-Excellence.

Baños, J.M., Cabrillana, C., Torrego, M.E. y de la Villa, J. (). Praedicativa: complementación en

griego y latín. Universidade de Santiago de Compostela.

Dik, S. C. (). e eory of Functional Grammar (K. Hengeveld (ed.); nd, rev. ed., Issues -).

Mouton de Gruyter.

Goldberg, A.E. (). Constructions: a Construction Grammar approach to argument structure. e

University of Chicago Press.

Hajič, J., Bejček, E., Bémová, A., Buráňová, E., Hajičová, E., Havelka, J., Homola, P., Kárník, J.,

Kettnerová, V., Klyueva, N., Kolářová, V., Kučová, L., Lopatková, M., Mikulová, M., Mírovský,

J., Nedoluzhko, A., Pajas, P., Panevová, J., Poláková, L., … Žabokrtský, Z. (). Prague

Dependency Treebank .. Prague: Institute of Formal and Applied Linguistics, LINDAT/CLARIN,

Charles University, LINDAT/CLARIN PID. (http://hdl.handle.net//-).

Haug D.T.T. & Jøhndal, M.L. (). Creating a Parallel Treebank of the Old Indo-European Bible

Translations. In C. Sporleder & K. Ribarov (Eds.), Proceedings of the Second Workshop on

Language Technology for Cultural Heritage Data (LaTeCH ) (pp. -). Marrakech.

Hengeveld, K. & Mackenzie, J.L. (). Functional discourse grammar: a typologically-based theory

of language structure. Oxford University Press.

Jiménez López, M. D. (Coord. Ed.) (). Sintaxis del griego antiguo.  vols. CSIC.

Langacker, R.W. (). Cognitive Grammar: an Introduction. Oxford University Press.

Passarotti M. (). eory and Practice of Corpus Annotation in the Index omisticus Treebank.

Lexis, , -.



Digital Humanities, Corpus and Language Technology

Passarotti M., Cecchini F.M., Litta E., Franzini G., Mambrini F. & Ruolo P. (). LiLa: Linking

Latin – A Knowledge Base of Linguistic Resources and NLP Tools. In T. Declerck, & J. P. McCrae

(Eds.), Proceedings of the Poster Session of the nd Conference on Language, Data and Knowledge

(LDK-PS ). University of Leipzig. DOI: ./zenodo.

Pinkster, H. (). e Oxford Latin Syntax. Volume : e Simple Clause. Oxford University Press.

Pinkster, H. (). e Oxford Latin Syntax. Volume II: e Complex Sentence and Discourse. Oxford

University Press.

Torrego, M.E., Baños, J.M., Cabrillana, C. y Méndez Dosuna, J.V. (). Praedicativa II: esquemas

de complementación verbal en griego antiguo y en latín. Prensas de la Universidad de Zaragoza.

Van Valin, R. D. & LaPolla, R. J. (). Syntax: Structure, Meaning, and Function. Cambridge

University Press.

Vendler, Z. (). Verbs and times. In Z. Vendler (Ed.), Linguistics in philosophy (pp. -). Cornell

University Press.

Villa, J. de la. (). Límites y alternancias en los marcos predicativos. In J. M. Baños, C. Cabrillana,

M. E. Torrego, y J. de la Villa (Eds.), Praedicativa. Complementación en griego y latín (pp. -).

Universidad de Santiago de Compostela.



C IV

Análisis del epistolario del coronel

Anselmo Pineda con Python: una

mirada al proyecto coleccionista y

al territorio desde las redes

sociales y el aprendizaje

automático

Analysis of Colonel Anselmo

Pineda’s epistolary with Python: a

glance to the collecting project from

the study of the territory and social

networks

Santiago Alejandro Ortiz Hernández

Red Humanidades Digitales – Colombia

Resumen: Este artículo analiza el coleccionismo del coronel Anselmo Pineda, quien

fue el mayor coleccionista de documentos públicos del siglo XIX colombiano, a partir

de su voluminoso epistolario conservado en la Biblioteca Nacional de Colombia. Se

usa una metodología mixta que combina la tradicional lectura cercana y la lectura

distante realizada por la máquina e implementada a través de técnicas propias de la

-

thon. De manera que, a través de esa doble lectura, se propone alcanzar dos obje-

tivos: I) plantear una aproximación basada en humanidades digitales e historia dig-

ital que permita descubrir el método de recopilación de documentos del coronel al

examinar la composición de su red de colaboradores reconstruida exclusivamente

mediante su correspondencia personal, y II) explorar el alcance espacial de esa red



Digital Humanities, Corpus and Language Technology

de colaboradores de forma tal, que posibilite la evaluación de la dimensión espacial

en la conformación de la biblioteca Pineda en el marco del proyecto civilizatorio de

la naciente república en Nueva Granada.

Abstract-

jor documental collector of Colombian XIX century, taking as source his rich and

abundant personal correspondence preserved at the National Library of Colombia.

The previous through a mixed methodology that blend the traditional close reading

of the letters and distant reading performed by the machine and implemented

trough data science and GIS









and II



under the civilizatory project at the emergent republic of Nueva Granada.

1. Introducción

Con base en la abundante correspondencia personal del coronel Anselmo Pineda dispersa

en varios archivos colombianos públicos y privados, en las pocas biografías juiciosas del

coronel y en una investigación del autor del presente texto que contó con la nanciación

del Ministerio de Cultura de Colombia a través del programa de estímulos para la investi-

gación en Humanidades Digitales, se reconstruyó tanto la trayectoria del militar, político

e ilustrado, así como su estrategia coleccionista. En ese sentido, la trayectoria del coronel

estuvo desde muy temprano marcada por la guerra y por un indiscutible patriotismo que

se expresaba no solo en sus actos de lealtad a los ideales republicanos del siglo XIX, sino

en sus consistentes esfuerzos por construir un monumento a la república, que en forma de

colección documental, cumpliera el propósito de servir como archivo para el doble propó-

sito de la conservación de la memoria y la identidad nacional, así como fuente de autoridad

y legitimidad estatal desde un punto de vista jurídico y político.

Tras el proceso de independencia, la naciente república neogranadina resultó con un

vacío simbólico y documental que requirió de la agencia de una extensa red de ilustrados,

libreros, amigos, familiares y, en menor medida, autoridades estatales que colaboraron en



Análisis del epistolario del coronel Anselmo Pineda con Python: una mirada al proyecto coleccionista y al territorio

desde las redes sociales y el aprendizaje automático

la consecución de un gran proyecto coleccionista materializado en dispersas colecciones

privadas de diversa índole. Algunas de estas colecciones no solo fueron pensadas por sus

propietarios en términos de su coherencia y orden interno, también fueron pensadas para

enlazarse con otras y formar una sólida base documental que solventara la urgencia fun-

dacional de un archivo de la historia y la ley de la república. Es el caso de la colección Pi-

neda, la más grande del siglo, diseñada por su autor-coleccionista para eslabonarse con las

colecciones de menor volumen que paralelamente organizaban el general Joaquín Acosta

y Manuel Ancizar, y dotar así a la Biblioteca Nacional de un gran repositorio conocido

como la Biblioteca de Obras Nacionales que desde la geografía, la historia, los soportes de

documentos ociales y la literatura legal y política, hiciera las veces de punto de partida

para la historia del progreso, la formación nacional y la consolidación estatal. De manera

que hubo un proyecto coleccionista consciente y colectivo que buscó hacer de algunas de

las colecciones privadas un recurso indispensable para el Estado.

Este proyecto coleccionista fue consustancial al proyecto de colonización interna y a

los esfuerzos civilizatorios de las élites criollas, en la medida de que los más importantes

coleccionistas, como Anselmo Pineda, tuvieron la doble función de adelantar la coloniza-

ción interna y exploración de los territorios, así como la de congurar una representación

y narrativa nacional a través de la recolección, clasicación y disposición del universo

documental condensado en esas colecciones privadas. Dicho esto, en la colección Pineda,

a la luz de su biografía, se maniesta la yuxtaposición del proyecto de colonización interna

del territorio con el proyecto coleccionista de la élite ilustrada de la República de Nueva

Granada, que tras la independencia comprendía a Ecuador, Venezuela, Panamá y Colom-

bia, y pasó a llamarse la Gran Colombia.

Así emerge el carácter indudablemente político del coleccionismo, pues este no solo fue una

práctica ilustrada con los nes ya mencionados, tampoco fue solo una manía compulsiva de

algunos, sino que fue un instrumento político de promoción y defensa de una determinada

visión nacionalista a la medida de su autor y de su red social. Es decir, el coleccionista, especial-

mente Anselmo Pineda, que recopila, ordena y cataloga su colección, también termina por

manufacturar una poderosa arma de guerra oponible a otros proyectos nacionales en compe-

tencia y a la que debe defender mediante el debate público en periódicos, tertulias informales

y discursos en el senado de la república, en búsqueda de suciente legitimidad para elevar su

colección privada al estatus de archivo de Estado, tal y como lo demostrará este artículo.

Siendo así, es vital señalarle al lector que el interés de este artículo versa más sobre el co-

leccionismo de Anselmo Pineda que sobre su colección propiamente, no obstante, la propues-

ta de investigación que se mostrará apunta a relacionar la colección con sus condiciones de



Digital Humanities, Corpus and Language Technology

posibilidad mediante el abundante epistolario que el coronel premeditadamente decidió con-

servar para su estudio histórico. Las Humanidades Digitales y las Geohumanidades Digitales

ofrecen una especial forma de análisis apropiada para el estudio de un especial y voluminoso

corpus de epístolas compuesto por  documentos personales que serán procesados con

diversos algoritmos diseñados por el investigador e implementados en el lenguaje de progra-

mación Python. Se explicará en detalle el proceso en el apartado sobre la metodología.

2. Antecedentes

Sobre el coronel Anselmo Pineda se han escritos contadas investigaciones con diferentes

niveles de profundidad historiográca, por un lado, existen las biografías apologéticas

mayormente publicadas a comienzos y hasta mitad del siglo XX, cuya característica es que

dan al lector una imagen de Pineda coherente con los valores cívicos y republicanos. Entre

estas encontramos La Biografía de Anselmo Pineda (León Gómez, ), y Coronel Anselmo

Pineda (Giraldo, ). Por otro lado, existen las biografías con una narrativa histórica más

rigurosa entre las que están Anselmo Pineda (Moreno de Ángel, ); e Struggle for

Power in Post-Independence Colombia and Venezuela (Brown, ), y dos tesis de pregra-

do: La Biblioteca de Obras Nacionales Formada por el Coronel Anselmo Pineda Como un

Aporte a la Formación de la Nación Colombiana, (Pardo, ) y nalmente la tesis Vida y

Obra del Coronel Anselmo Pineda. Un Estudio del Coleccionismo y las Redes Sociales en

Nueva Granada Durante el Siglo XIX (Ortiz, ).

Cabe resaltar que solo los últimos dos trabajos académicos emplean como fuentes pri-

marias la correspondencia del coronel Pineda, pero únicamente el último trabajo compren-

de todo el epistolario encontrado hasta el momento en los repositorios de la Biblioteca Na-

cional de Colombia. El presente artículo introduce también la correspondencia del coronel,

conservada en otros archivos colombianos como el Archivo Central del Cauca, Tomas Ci-

priano de Mosquera; el Archivo de la Universidad EAFIT; el Archivo Histórico Cipriano

Rodríguez Santamaría - Universidad de la Sabana; el Archivo Histórico Universidad Nacio-

nal de Colombia y, de la sección de Libros Raros y Manuscritos, el Archivo Julio Arboleda de

la Biblioteca Luis Ángel Arango. Por último, es necesario destacar que este artículo hace

parte de los resultados de varios años de investigación y trabajo de archivo que, en adición,

en  recibió una beca de investigación del Ministerio de Cultura de Colombia. Con todo,

la investigación aún se encuentra inacabada dadas las varias aristas y niveles de profundidad

para el análisis del objeto de estudio y procesamiento de las numerosas fuentes.



3. Breve biografía del coronel

Anselmo Pineda nació en abril de , en El Santuario, Antioquia, para entonces perte-

neciente a la jurisdicción de Marinilla, motivo por el cual ha existido confusión sobre su

lugar de origen. Con  años, el joven Pineda fue remitido por su padre a estudiar juris-

prudencia en el Colegio Mayor Seminario de San Bartolomé en Bogotá, pero como varios

de sus contemporáneos abandona la academia en busca de un ocio que le permitiera

iniciar una carrera en el Estado. Es así como por intermedio de su coterráneo y para el

momento Secretario del Interior, José Manuel Restrepo, obtiene el cargo de ayudante archi-

vero de la Secretaría del Interior para una año después ser promovido a ocial escribiente

de la Secretaria de Hacienda. Ambos cargos son determinantes en la trayectoria del joven

Pineda, pues al entrar en contacto con las desordenadas reservas documentales de la

naciente república, termina por motivarse a iniciar el coleccionismo documental, dice

Pineda en : “adquirí el hábito importante del arreglo de papeles de un archivo, ya desde

entonces el convencimiento íntimo, por el desorden en que se hallaba aquel y por el ímpro-

bo trabajo que costaba dar con algún antecedente” (RM , , folios -)

Sin embargo, su carrera en los archivos estatales se vería brevemente interrumpida por

un evento que obligaría a su escape rumbo a Antioquia en compañía de su entrañable amigo

Mariano Ospina Rodríguez, quien se vio envuelto en la llamada conspiración septembrina

de , en contra de Simón Bolívar. En , Pineda es nombrado por Manuel Antonio Ja-

ramillo en el cargo de ocial archivero de la Secretaría de Gobierno de la provincia antioque-

ña, pero duraría poco en el cargo debido a su incorporación a las huestes del general José

María Córdova conocidas como el Ejercito de la Libertad y que tenían como propósito en-

frentarse al gobierno central de Bolívar (Pineda, , págs. Pág. -). El conicto regional

escaló hasta convocar a los dos ejércitos en el campo de batalla de El Santuario en .

El resultado de la contienda dejó diezmado y acorralado al Ejército de la libertad, al

general Córdova muerto por ejecución sumaria (Brown, , cap. ) y a nuestro persona-

je con graves heridas de bala que, de no ser por la ayuda del hermano menor del general

Córdova, Salvador Córdova, hubiese tenido el mismo destino. Varios meses después de su

recuperación y tras el indulto otorgado por Daniel O’Leary a los excombatientes en ,

Pineda fue nombrado interventor de la Tesorería de Antioquia (Pineda, , pág. ), no

obstante, las secuelas del conicto de El Santuario estaban lejos de acabar y las relaciones

de varios implicados en la contienda apenas comenzarían. Solo un año más tarde, en ,

Pineda fue puesto en la cárcel acusado de conspirador e inepto en su cargo, pero tras fu-

garse se incorpora a las tropas de Salvador Córdova, esta vez para una nueva campaña

militar en contra del gobierno central de Rafael Urdaneta (Pineda, , págs. -).

Análisis del epistolario del coronel Anselmo Pineda con Python: una mirada al proyecto coleccionista y al territorio

desde las redes sociales y el aprendizaje automático



Digital Humanities, Corpus and Language Technology

Una vez depuesto el presidente, inicia la persecución y exilio de los bolivarianos radicales

(Brown, , cap. ), dando lugar a una reconguración de las redes de poder regionales en la

que Pineda se beneciaría. Con el patronazgo de José María Obando, ministro de guerra, Pine-

da fue restablecido en su puesto en la Tesorería de Antioquia y, en , incorporado al ejército

regular del gobierno central en donde le fueron reconocidos los rangos alcanzados en el Ejerci-

to de la Libertad. Anselmo Pineda no solo se vio beneciado en lo que respecta a su carrera

militar, también comenzó a establecer importantes relaciones personales con la élite payanesa

al contraer matrimonio con la viuda del prohombre de la independencia Pedro Acevedo Tejada.

Esta nueva relación no solo le daría mejor estatus al antioqueño, también le daría los medios

sociales para cimentar relaciones de cooperación con coleccionistas ilustrados del Cauca.

Pineda dedicó los siguientes  años al intercambio coleccionista con amigos como Anto-

nio María Gutiérrez, quien le siguiere tener buenas relaciones con los correistas y “con este

método para que lleves al cabo tus Colecciones” (RM , , folio -) y Tomás Ci-

priano de Mosquera, con quien compartía la ación botánica y naturalista (Carpeta , Pieza

, folio ; RM , , folio ), además se concentró en la fundación de sociedades

de instrucción, colegios e instituciones para la educación de niñas (RM  folio ; RM 

pág. ; RM , folio ). Sin embargo, la reconguración de las redes de poder del go-

bierno central, sumada a un ambiente político volátil y una tendencia a las armas devino en

un nuevo conicto bélico conocido como la Guerra de los Supremos. En este conicto José

María Obando, aprovechando la insurrección promovida por el cura Francisco Villota en

Pasto por el cierre de ocho conventos, se levanta en armas en contra del presidente José Ig-

nacio Márquez, por lo que fueron enviados el general Pedro Alcántara Herrán y el capitán

Anselmo Pineda, que para entonces se ocupaba del arreglo del archivo general del ejército

granadino (carpeta , Pieza , folio ), a pacicar la provincia del Cauca. En esta cam-

paña la función de Pineda consistió en administrar las nanzas del ejército por lo que fue

ascendido a tesorero de guerra (Carpeta , Pieza , folio ), y aunque no poseía cono-

cimientos contables hizo una formidable labor en la organización y control de los recursos

de campaña (Carpeta , Pieza , folio ), pero inconforme con las dicultades en su

labor (Carpeta , Pieza , folio ; Carpeta , Pieza , folio ) solicitó un reempla-

zo y también ser colocado en primera línea de combate (Carpeta , Pieza , folio ). Una

vez en el campo de batalla tuvo un destacado desempeño en la batalla de Chuaguabamba por

lo que fue ascendido a sargento mayor.

1 Los principales colaboradores en Popayán fueron la familia Arroyo y Caicedo, pero también contó con el

apoyo de los Arboleda y Mosquera.



Al levantamiento fueron sumándose caudillos de todas las provincias en oposición al gobier-

no central, incluyendo a Salvador Córdova en Antioquia (RM  Folio ; RM , folio ; RM

, folio ), motivo por el cual Pineda fue enviado por Márquez a solicitar apoyo al presidente

de Ecuador, José María Flóres, así como también ordenó a Tomás Cipriano de Mosquera a unir-

se a Pedro Alcántara Herrán en el sur. Tras la victoria, Pineda y Mosquera fueron enviados a

Antioquia para enfrentar a Córdova (Carpeta , pieza , folio ), quien al ser derrotado fue

ejecutado por Mosquera, por su parte Pineda fue remitido de vuelta al Cauca con la misión de

perseguir remanentes de guerrillas opositoras (Carpeta , Pieza , folio ; Carpeta ,

Pieza , folio ). El n de esta guerra no solo cierra un ciclo de tensiones presentes desde la

guerra de El Santuario, también marca el momento en que Pineda constituye nuevas lealtades e

inicia una carrera política, coleccionista y militar en ascenso (Ortiz, , pág. ).

En el siglo XIX la esfera política, militar e intelectual suelen sobreponerse de modo que re-

sulta imposible encasillar una gura de la época en alguna de esas categorías separadamente,

por tal motivo, al mismo tiempo que Pineda mejora su posición social y asciende en el ejército

también se va perlando como un político de inuencia. Es así como para dar por terminada la

Guerra de los Supremos es comisionado a negociar una salida pacíca con el supremo de Pana-

má, Tomás Herrera, lo que consigue con éxito y es nombrado coronel de infantería por el pre-

sidente interino y pariente Domingo Caicedo, quien además habría facilitado el matrimonio de

su sobrina María Josefa Valencia con Anselmo Pineda varios años atrás después de combatir

hombro a hombro al gobierno del bolivariano Rafael Urdaneta. La carrera política de Pineda

cobra forma con su elección como representante de Antioquia en , pero es nombrado go-

bernador de Panamá poco tiempo después por el presidente Pedro Alcántara Herrán, motivo

por el cual debe abandonar su curul en la Cámara de Representantes hasta su retorno en .

En Panamá, Pineda puso en marcha proyectos de educación popular a través de escuelas-taller

para el fortalecimiento del comercio de exportación; también mediante publicaciones periódicas

como la Cartilla Popular, la que gozó del apoyo de la élite intelectual y política local y extranjera,

es el caso del militar, intelectual y coleccionista Joaquín Acosta, quien al respecto comenta:

acabo de recibir el N.  de la Cartilla Popular [...]. Diríjase pues usted en mi nombre a Mr

Hormes Secretario de la Sociedad de Educación del Liceo de Nueva York que él le procu-

rará libros elementales escogidos por las escuelas por precios ínmos y solo calculados para

reembolsar una pequeña parte de los gastos de impresión y papel-- Hoy no tengo lugar de

buscar el cuaderno que me pide, pero seguiré por el otro correo. He leído su carta al Sr

Ordoñez en presencia de varios señores interesados en sus proyectos. Yo por mi parte nada

puedo sino suscribirme a la Cartilla más como no he visto sino el N. ignoro el precio de

la suscripción para remitirle (Acosta, RM , folio ).

Análisis del epistolario del coronel Anselmo Pineda con Python: una mirada al proyecto coleccionista y al territorio

desde las redes sociales y el aprendizaje automático



Digital Humanities, Corpus and Language Technology

Estos proyectos consistieron también en la fundación de la Sociedad Filantrópica de Pana-

má que contó con el respaldo de otras sociedades lantrópicas granadinas y de inuyentes

amigos como el cura Antonio María Gutiérrez, quien le advirtió a Pineda sobre el rol

político y la poderosa inuencia de las sociedades, dice Gutiérrez:

El primero entraremos en los trabajos de Chagres, y ya te he dicho que no nos acompañas

porque las lantrópicas, tienen ya y tendrán la parte inuyente en las elecciones i como

que he oído con disgusto que por allá trabajan bajo tus auspicios, por el B.M.O. [para

referirse a Mosquera] hace para presidente pobre patria si tendrás en tus ultimas convul-

siones un Maximiliano que te arranque las entrañas (RM , folio ).

Cabe señalar que el coronel Pineda no era un novato en este tipo de proyectos, dado que

ya contaba con experiencia en la fundación de sociedades y a él le eran reportados con

frecuencia los avances de sociedades lantrópicas en Antioquia en las que participó como

fundador en años anteriores.

Expuesto así, es evidente la inseparabilidad anotada entre el ejercicio político, militar e

intelectual de Pineda que se materializó en su Biblioteca de Obras Nacionales. En consecuen-

cia, el coleccionismo respondía a intereses especícos de un nicho social ubicado en un de-

terminado espectro político, pero también a un particular y singular proyecto civilizatorio

que, en el caso especíco de Pineda, consistía en desarrollar las bases para el progreso nacio-

nal que fundamentalmente buscaban educar a las masas en actividades prácticas para el

comercio, la construcción de infraestructura y la exploración de las zonas de frontera inex-

ploradas y alejadas del poder institucional del Estado como Panamá, Túquerres y Caquetá.

En este sentido, Anselmo Pineda a pesar de ser uno de los padres fundadores del partido

conservador, no tuvo como prioridad la enseñanza moral y si la educación práctica sin dis-

tinción de género, lo cual expresa el talante intelectual del coleccionista y su postura política

2  “No

creo demás indicar a U que en la actualidad tengo la dicha de pertenecer a la respetable y grande sociedad de

instrucción primaria de esta capital, y también correspondo a su consejo administrativo que dignamente preside el

muy ilustre señor Arzobispo y distinguido ciudadano José Manuel Mosquera, y yo desearía que la de esa provincia

se pusiera en comunicación con la de esta capital y se estableciera entre todas las asociaciones de esta clase una

marcha igual, acorde, constante y sostenida en la propagación de las escuelas de la enseñanza general”. (RM 441,

folio 105)

3 

Antioquía, dice: 

que se han presentado cuales son la supresión de billares, la corrección de niños, una contribución para alumb-



que dispone se nombre un cabildo parroquial” (RM 446, folio 109)



difícil de encasillar, muy semejante a la gura de Simón Rodríguez, a quien conoció durante

su insospechado paso por Caquetá cuando Pineda fungía como prefecto.

De conformidad con esos presupuestos identicados en la visión de progreso de Pine-

da, durante su gobernación en Panamá, este convenció al presidente Herrán de la conve-

niencia de la construcción del canal en alianza tripartita de Nueva Granada, Francia e

Inglaterra (Carpeta , Pieza , folio ; Carpeta , Pieza , folio ), pero tras

el fracaso del proyecto este renunció al cargo y con su nombramiento como prefecto de

Caquetá y luego como gobernador de Túquerres, emplea de nuevo esos instrumentos de

colonización interna practicados en Panamá, esto es: construcción de infraestructura (Car-

peta , Pieza , folio ), control del contrabando (Carpeta , Pieza , folio ),

convocatoria de colonos con exención de impuestos y adjudicación de tierras baldías (Pi-

neda, Pieza , , folios -), puesta en marcha de escuelas-taller sin distinción de

género para el artesanado (RM , Pieza ) y exploración de la geografía selvática. En

este momento, Pineda conoce al maestro de Simón Bolívar, el célebre Simón Rodríguez

(), con quien tuvo la oportunidad de desarrollar un proyecto civilizatorio único basa-

do en la colonización del territorio efectuado por ciudadanos con habilidades manuales

-agrícolas y artesanales – capaces de auto sustentarse y contribuir al desarrollo de la nación.

En particular, se propusieron, en primer lugar, enseñar en las escuelas-taller varias técnicas

de carpintería, agricultura y construcción, así como aritmética, civismo republicano, gra-

mática y retórica, y en segundo lugar, moral y catecismo, tal y como lo propuso Rodríguez,

pues se trataba de una educación a la medida de la realidad americana.

4 La colaboración entre Rodríguez y Pineda al respecto del proyecto educativo y de la exploración de la

geografía fronteriza, le cuenta el maestro a Pineda: “No escribiré a usted largo, porque se me olvidó el día del

correo, y la persona que lleva ésta a Pasto la está esperando para ponerse en talones. La casualidad ha traído

aquí un médico naturalista suizo, que anda explorando, y me ha hecho el favor de dar algunos remedios a



Cumbal. No hay más noticias del País, y en las de Santa Fe corre que el General Mosquera es Presidente de la



haciendo confesión general. Los angloamericanos se han tragado a México como un pastelito. Yo estoy bueno. El

 (Rodríguez,

“Extracto sucinto de mi obra, 1954, pág. 376). Y sobre los fondos solicitados por Pineda para la manutención

de Rodríguez, Escribe Emeterio Gómez: “Para el establecimiento del señor Rodríguez se ha adelantado cuanto

ha sido posible” (RM 446, folio 192)

5 Son varias las correspondencias entre Pineda y el presidente Mosquera sobre la llegada del educador y

“solo he regresado

p[ar]a despachar la correspondencia, y asegurarle un alojamiento cómodo al ilustrado patriota Simón Rodríguez

Bolívar ¡Ah! no le hablaré nada de esta respetable sujeto, porque recuerdo,

que lo hice con vivo interés en el año pasado y V[uestra] E[xcelencia] no me contestó nada, enteram[en]te nada, le

he pagado parte de su su viaje y en el proccimo d[iciem]bre, después que me deje bien establecido aquí la escuela

normal seguirá conmigo a Bogotá voy a llevar a V[uestra] E[xcelencia] esta reliquia cuyo merito sobresaliente se

conocerá tratándolo y viéndolo [Inserto: ocupado] en la grandiosa obra de dar luz al entend[imien]to embrutesido;

desde q[u]e he tratado y conocido al s[eño]r Rod[rígue]z hasta he renunciado a la pación de vicitar la Europa, y

el tiempo q[u]e había de consagrar en esto pienso ocuparlo recibiendo lecciones de este Rusó [!]. No crea q[u]e

Análisis del epistolario del coronel Anselmo Pineda con Python: una mirada al proyecto coleccionista y al territorio

desde las redes sociales y el aprendizaje automático



Digital Humanities, Corpus and Language Technology

Si bien Pineda desarrolló un proyecto colonialista singular durante su ejercicio en car-

gos públicos en zonas de frontera, este no fue el único en emprender la colonización inter-

na al explorar y documentar personalmente vastas selvas y ríos inexplorados, atraer nuevos

pobladores y utilizar las sociedades lantrópicas para su educación a la luz de la ideología

del progreso decimonónico, es el caso de su cercano amigo y dedicado colonizador interno

Elías González con quien intercambia numerosas comunicaciones respecto a planes de

fundación de poblaciones en Tolima y Huila, y también sobre las actividades de las socie-

dades lantrópicas en la comunidad (RM , Folio ; RM , Folio ), comenta

González sobre el trabajo de Pineda: “complacido al ver que mi más querido amigo es quien

marcha a la vanguardia en la noble e interesante empresa de ilustrar y de moralizar las

masas populares de su patria” (RM , Folio ).

Pineda también se apoyó constantemente en misioneros jesuitas como José Layner, quien

emprendía viajes a través de las selvas del sur de Colombia para evangelizar indígenas, y

cuyos reportes le servían a Pineda para conocer e incorporar a su colección diarios de viaje

sobre la geografía todavía indocumentada (RM , Folio ), lo que le mereció, según el

propio Anselmo Pineda ante el congreso, el reconocimiento de autoridades en la materia

como el geógrafo y militar Agustín Codazzi, quienes reconocen la valiosa información apor-

tada por esos documentos, dice el coronel Pineda sobre carta de Codazzi: “en que manies-

ta que la “colección Pineda” suministra conocimientos nuevos i mui importantes sobre la

jeograa de territorios que nadie ha recorrido ni descrito tales son los Andaquies i Caqueta”.

No solo la agencia colonialista del coronel Pineda expandió sus alcances coleccionistas,

también lo hizo para coleccionistas de raros artículos de historia natural como su colaborador,

antes enemigo en el campo de batalla de El Santuario, Daniel O’Leary quien le solicita a Pi-

neda: “Si en aquel distrito nuevo para la civilización encuentra V. algunos objetos de Historia

natural que llamen la atención, suplico a V. los compre para mí, avisando de su clase y valor.

Algunas muestras de fósiles y minerales serán muy apreciadas” (Moreno de Ángel, , p.)

A su regreso a Bogotá en , el coronel Pineda ocupa su curul en la Camara de Re-

presentantes, y allí se opone a la expulsión de los jesuitas por considerarlos indispensables

le ecsajero, mi g[ene]ral, estoy encantado con el s[eño]r Rod[rígue]z y V[uestra] E[xcelencia], V[uestra] E[xcelencia]



que mis atenciones se han dirijido a otros varios medios de adelantar estos pueblos moralisar y formar constum-

 (Carpeta 41, Pieza 140, folio 21998)

6 Por la correspondencia de González con Pineda se puede establecer la cercanía del primero con el misione-

ro jesuíta José Layner con el cual efectivamente colaboró en Antioquia en tareas civilizatorias. (RM 444, Folio

201); Además, González a su llegada a Neiva en 1842, le comenta a Pineda: “



como una legua de camino hecho”. (RM 446, Folio 100)

7 Memorial dirigido al congreso. No hay registro de la carta de Codazzi dirigida a Pineda. (RM 640, Pieza. 58)



para la causa civilizatoria. Durante los siguientes años se dedicó a asuntos personales, al

intercambio de documentos, arreglo de la colección y al debate público mediante publica-

ciones sobre la importancia de la colección Pineda para la república (RM , Pieza ).

Gestión que procuró la legitimidad de la colección documental entre la élite intelectual y

política con artículos de autoría propia o de terceros para convencer de la conveniencia de

su compra por parte del congreso colombiano. Resulta imprescindible señalar que esta fue

una ardua tarea con encendidos debates sobre la relevancia de la colección, al respecto

Pineda señala en comunicación al congreso:

[…] En cuanto a la importancia de la colección, apelo al testimonio de los que la han visto,

la comisión nombrada por el cuerpo legislativo; y los que ni a estos, ni a los otros quieran

creer, suspendan su juicio hasta la próxima reunión imparcial del congreso en que los señores

Maldonado, Miranda y Paz habrán acabado su trabajo, a ellos me reero al público impar-

cial, a los amigos que tan generosamente me han franqueado algunos documentos; y para

decirlo de una vez, a los tres encargados de negocios de Francia i a la Gran Bretaña i al señor

Bucconi encargado de la numeración Romana, que han hecho más aprecio de mi penoso

trabajo que el recién venido que en un virulento articulo ha opacado mi colección basando

su artículo sobre supuestos falsos unos, y equivocados otros (RM , Pieza )

Este esfuerzo por llamar la atención hacia la colección documental y persuadir a la opinión

pública de su relevancia, respondió también a otras circunstancias personales que obliga-

ron a Pineda a publicar los catálogos y a buscar, incluso en Estados vecinos o europeos, el

apoyo que con tanta dicultad obtendría en Colombia. Esa contradicción entre ofrecer

la colección al público o conservarla para sí, dado que a los ojos del coleccionista todavía

permanecía inacabada, pone de maniesto el nivel afectivo del coleccionismo y el coste

personal de llevar a cabo esta empresa, por lo que el coleccionista maniesta:

8 

a la Constitución liberal de 1853: “Las diarias i multiplicadas ocupaciones de mi colección me habian impedido

-



. (RM 622.

Pieza. 126)

9 

importante empresa que Ud ha acometido de formar la colección estadística e histórica de los documentos cele-

bres e importantes que se han publicado en la Nueva Granada desde una época remota Con mucho gusto haré

” (RM 444, folio 244). Son varias las cartas que

demuestran el respaldo de amigos en tertulias informales y publicaciones periódicas a la colección (RM 439,

folio 81; RM 445, folio 365; RM 445, folio 367; RM 437, folio 33)

10 Fueron varias las comunicaciones que demuestran pretendidas negociaciones con el gobierno británico,

por intermedio del representante de la legación británica en Bogotá, Daniel O’Leary, para la adquisición de

la colección Pineda, (Miscelánea 1440, Pieza 8. Biblioteca Luis Ángel Arango). Así como la respuesta negativa

del gobierno venezolano a la propuesta del coronel para venderles la colección. (RM 444, folio 245)

Análisis del epistolario del coronel Anselmo Pineda con Python: una mirada al proyecto coleccionista y al territorio

desde las redes sociales y el aprendizaje automático



Digital Humanities, Corpus and Language Technology

Jamás había pensado desprenderme de la copiosa colección de documentos ociales que

poseo y de que voy a hablar, adquiridos a costa de mil privaciones desde . Pero repen-

tinamente sin casi sentirlo me encuentro al presente con enfermedades de cuidado, adqui-

ridas en el servicio, que me están inhabilitando para ocuparme en una vida activa, y esta

circunstancia fatal, agregada al deber de dar educación á  hijos me han determinado con

harto pesimismo a publicar los índices de una parte de los documentos que tengo en mi

poder y solicitar la aquiescencia de los hombres ilustrados de las  republicas en que se

dividió la antigua Colombia para generalizar dichos documentos. Estoy persuadido que

contando con las luces y la experiencia de los que tengan un mediano conocimiento de los

consabidos documentos a la vez que se les puede dar el carácter de utilidad, que es lo que

más me ha determinado a hacer la publicación podré desprenderme de ellos con un me-

diano provecho (RM , Pieza )

Finalmente, se realizó la entrega de  volúmenes y con esta la solicitud de baja del ejér-

cito por parte del coronel Pineda, pero unos meses más tarde es apresado por sospechas

de su participación en la insurrección conservadora instigada por Pastor y Mariano Ospi-

na Rodríguez. Una vez puesto en libertad, Pineda es nombrado custodio y curador de la

Biblioteca Nacional por el vicepresidente de turno José de Obaldía.

Llegados a este punto, fueron dos los eventos trascendentales en la vida del coronel, por

una parte, logra que su colección sea reconocida y aceptada ocialmente y, por otra parte,

termina su matrimonio con la payanesa María Josefa Valencia, lo cual afecta poderosa-

mente sus relaciones con ilustrados de Popayán, pero también abre nuevas posibilidades

de relación con la élite costeña después de que contrajo matrimonio con Ana María Danies

Kennedy a nales de la década del .

En lo que resta de los años , Anselmo Pineda se reincorpora al ejército para llevar a

cabo el golpe de estado, en el que participaron mancomunadamente liberales y conservado-

res, en contra del presidente José María Melo y sus políticas económicas favorables hacia el

artesanado (RM , folios -). Pineda además contrae matrimonio por segunda vez e

invierte buena parte de la contraprestación concedida por su colección en la producción de

quina y caucho en el Huila y en continuar con su colección para una posterior entrega. Los

esfuerzos coleccionistas de Pineda durante este último periodo se sirvieron del cargo que

desempeñó en Magdalena como intendente de hacienda nombrado por el presidente Maria-

no Ospina Rodríguez, quien además le encargó al coronel civilizar, pacicar e insertar en los

circuitos económicos a la Guajira (RM , Folio ). Este cargo le permitió a Pineda expan-

dir su poder político, fortalecer la sociedad de fomento a la industria que fundó (RM ,

folios , ) y tener acceso privilegiado tanto a oportunidades de negocio con comercian-

tes extranjeros para su negocio de quinas (RM , folios , ), como oportunidades de



negocio con agentes locales para su parentela (RM , Folio ), así como también conec-

tarse a fuentes documentales inéditas (RM , folios , , , ).

Años después es encargado en el arreglo de los archivos de la Tesorería General del

Estado (RM , Pieza ). Al respecto recibe la siguiente comunicación que no solo

demuestra el reconocimiento social alcanzado por Pineda en materia de organización y

catalogación de archivos documentales, sino que también, en tanto que experto como

ningún otro en materia de archivo, obtiene la conanza pública para ser encargado de

tareas sensibles para el Estado, al respecto Pineda recibe la siguiente carta:

[..] en honor de la verdad debo decir a usted que a lo que se queria dar el nombre de ar-

chivo en la tesoreria jeneral, es un cuarto donde estaban amontonados en una confusion

incomplicable, libros, legajos, documentos de deuda pública de la mayor importancia como

se ha visto despues, restos de [ilegible], y en n objetos de todas clases tan cubiertos de

polvo tan revueltos que costaba trabajo creer que aquello hubiera podido ser algun tiempo

el archivo de una de las ocinas mas importantes de la Republica. Fui testigo muchas veces,

que necesitando el gobierno ó algun particular un dato, por importante que fuera, habia

que renunciar a encontrarlo si se inferia que pudiera estar en el archivo, pues ni siquiera

se pensaba en este, y decir, tal documento debe estar en el archivo, era lo mismo que decir,

no existia. [...] Cuando sali de la tesoreria, ese cáos de papeles tomaba ya forma y usted

habia clasicado muchos documentos importantes. Pero lo que no quiero dejar de consig-

nar aqui es el importantisimo servicio que usted ha hecho a la nación desenterrando del

polvo documentos de gran valor, tales como esqueletos rmados de vales de manumición,

cupones de renta sobre el tesoro y muchos otros de un valor considerable que si hubieran

caido en manos menos dignas, como desgraciadamente ha sucedido ya, habrían causado

grandes perjuicios a nuestra hacienda [...] Me consta, así mismo, que cuando por falta de

fondos en la tesoreria jeneral ó por cualquier otro motivo, no se pagavan sus ayudantes

usted les daba adelantado de su bolsillo (RM , Pieza ).

Es importante cerrar esta condensada biografía del coronel Anselmo Pineda, haciendo hin-

capié en un aspecto clave de su estrategia coleccionista, consistente en el uso de su prestigio

personal y la legitimidad de su colección, para solicitar formalmente a las administraciones

regionales la remisión de cuanto documento fuera impreso por estos gobiernos. De manera

que ya no dependía de intermediarios que reunieran y le enviaran documentos, pues ya

gozaba de una relación directa con los gobiernos locales que destinaban algunos recursos

para alimentar su colección como si se tratase de un depósito legal, dice Pineda:

11 Anselmo Pineda, por su larga experiencia en archivos públicos y actividad coleccionista, expresa la urgencia

de profesionalizar al archivista: “Este ramo merece tanta más profesión cuanto es mayor el deseo nacional que

se advierte ya en algunos hombres ilustrados; deseo que en todos los países civilizados de la tierra ha llamado su

atención” (RM 630, Folios 24-27).

Análisis del epistolario del coronel Anselmo Pineda con Python: una mirada al proyecto coleccionista y al territorio

desde las redes sociales y el aprendizaje automático



Digital Humanities, Corpus and Language Technology

Desde  y aun desde mucho antes que me propuse compaginar y arreglar la nueva

Colección adicional que debo enlazar con la otra, dirigi circulares y comunicaciones o-

ciales a los ciudadanos presidentes de los estados sobre este asunto y lo relacionado con los

impresos que se acompañan. Pero se me ha cobrado ultimamente por el ocio que original

acompaño con la cubierta, y de seguro seguiran cobrandome por todas las notas ociales

y documentos importantes que para evitar su estrabio vengan con cubierta. Ultimamente

han aparecido entre memorias, mensajes, proclamas del Libertador y del General Santan-

der como mil otras piezas importantes de que no tan solamente no tenia noticia, sino que

en publicaciones de  habia asegurado y repetido despues no existian. […]. Por estas

razones y otras que omito por ser cansado; en atencion al absoluto abandono que he hecho

de mis negocios particulares desde hace tanto tiempo; por el desesperante anhelo de com-

plementar este aservo publico en pro de mi patria (RM , Pieza ).

De la misma manera y no menos importante, el coronel le solicita a la ocina de correos

que no se le cobre el envío de documentos pues se trata de un asunto de importancia ocial

por las siguientes razones:

Primero: Poco más poco menos desde cuando han notado ustedes que con mucha mas

frecuencia que antes los funcionarios de los Estados y aun los Presidentes de dichos Estados

me remiten, memorias, codigos de leyes y toda una a una las publicaciones ociales que se

hacen en las Capitales. Segundo: Si han notado ustedes que viniendo comunicaciones

ociales con alguna frecuencia relativos a la segunda Colección de Obras Nacionales que

hubiera ya compajinado si tuviera piezas que tengo que contestarle ocialmente y si a

pesar de palpar que es sobre asuntos ociales me han cargado el porte de los impresos que

se remiten al Estado soberano del Ystmo (RM , pieza ).

Finalmente, Anselmo Pineda entrega una segunda parte de su biblioteca en  y se reti-

ra a su casa en Fusagasugá, Cundinamarca. Muere en  dejando las huellas de una vida

de guerra, entrega a la república y a la actividad intelectual marcada por un pleno conven-

cimiento patriótico cristalizado en su colección.

4. Metodología

En ese apartado se detallará la metodología empleada para analizar el epistolario del coro-

nel Pineda ofreciendo una nueva perspectiva para leer y procesar un corpus documental

voluminoso. Son varios los componentes que hacen parte del proceso y varias las relacio-

nes entre estos, pues los distintos enfoques para el tratamiento de datos son capaces de

generar nueva información que resulta provechosa para otros procesos de cómputo. Es el

caso del modelo nal de aprendizaje automático que emplea atributos generados en cada



uno de los procesos de exploración, georreferenciación, indicadores relacionales e indica-

dores de minería de textos aplicados al corpus.

Antes de explicar cada proceso, vale la pena comentar el procedimiento de captura de

datos que se realizó de las  cartas que hasta ahora componen el epistolario Pineda. Este

proceso básicamente consolida en una base de datos la información de cada carta, tal como:

remitente; destinatario; lugar y fecha de elaboración; descripción del contenido; transcrip-

ción de al menos  cartas y una columna con un código binario que servirá para iden-

ticar la relación de la carta con el coleccionismo y también como etiqueta de evaluación

cuando se clasiquen los colaboradores coleccionistas.

Una vez consolidada la base de datos, se exploró la distribución de los datos mediante

estadísticas descriptivas básicas como frecuencia de remitentes y destinatarios, frecuencia

de contactos epistolares relacionados y no relacionados con el coleccionismo, frecuencia

de términos y su visualización sobre un eje temporal. Más tarde se llevó a cabo la explora-

ción de las redes sociales del coronel mediante la generación de grácos de red divisibles

en duraciones temporales, pero que para el presente artículo se optó por un grafo de la red

completa, aun así, se pueden distinguir interacciones interesantes. El análisis de interac-

ciones permite también producir algunos indicadores de centralidad e intermediación

útiles para identicar los nodos más importantes en la topología de la red, y además útiles

para el modelo de aprendizaje automático posterior.

Simultáneamente, se procedió a georreferenciar mediante el geoetiquetado automático

de la toponimia del lugar de elaboración de cada documento para producir mapas de dis-

tribución espacial del epistolario. Cada mapa comprende la ubicación de los lugares de

producción de las cartas dentro de duraciones especícas de tiempo dadas por aquellos

momentos de cambios abruptos en términos relacionales, identicables en el paso anterior

y sustentados en la biografía de nuestro personaje. Por último, queda una de las fases más

importantes y complejas en este estudio, conocido como Procesamiento de Lenguaje Na-

tural (NLP), que busca producir nuevos atributos derivados de la minería de texto, además

de servir para el reconocimiento de entidades (NER) como nombres de personas, lugares

u organizaciones y para el cómputo de temas principales dentro de una colección docu-

mental. Cada uno de estos procesos permite el desarrollo de diferentes herramientas se-

cundarias como un sistema de recomendación documental, basado en el cálculo de la se-

mejanza (cosine similarity) de vectores numéricos que representan cada documento en

tanto que conjunto de palabras vectorizadas según su identidad numérica, y además una

interface con los temas principales basada en una colección de diccionarios conformados

a partir de conjuntos de tres palabras, trigramas, y en un modelo de bolsa de palabras.

Análisis del epistolario del coronel Anselmo Pineda con Python: una mirada al proyecto coleccionista y al territorio

desde las redes sociales y el aprendizaje automático



Digital Humanities, Corpus and Language Technology

Figura 1. Esquema de la metodología sobre el levantamiento de datos en archivo.

Finalmente, todos los atributos numéricos generados en todas las fases descritas, además

de algunos atributos cualitativos originales como la fecha de escritura de la carta, fueron

el insumo para el algoritmo de aprendizaje automático que implementa el modelo Bosque

Aleatorio (Random Forest) para clasicar cada registro con base en su probabilidad de

pertenecer a un grupo u otro: colaborador y no colaborador. La clasicación usa una bús-

queda informada de hiperparámetros para encontrar valores óptimos de clasicación, esta

búsqueda se compone de una primera búsqueda aleatoria de hiperparámetros y luego de

una búsqueda ordenada con los mejores hiperparámetros de la búsqueda aleatoria. Para

evaluar la efectividad del algoritmo se usaron las etiquetas binarias insertadas por el equi-

po de investigación en la base de datos inicial y se computó una matriz de confusión que

muestre los errores y aciertos del proceso de clasicación automático.



Las librerías empleadas para el análisis son: I) Pandas para la gestión de la base de datos;

II) Seaborn y Matplotlib para las visualizaciones; III) Networkx y Holoviews para generar

las redes de individuos; IV) Geopy y Folium para la georreferenciación y visualización web;

V) NLTK, Gensim, Polyglot, pyLDAvis y Spacy para el procesamiento de lenguaje natural;

VI) Scipy y Scikit-learn para implementar el modelo de aprendizaje automático.

5. Análisis del epistolario con Python

Las técnicas antes descritas permiten

diseccionar con sumo detalle el corpus

epistolar, de manera que, dada la exten-

sión de un análisis que considere toda

la vida de Pineda, en esta sección solo

nos concentramos en la época más

activa del coronel y relacionada con su

coleccionismo, que como ya vimos en

el apartado biográco, tiende a coinci-

dir con el apogeo de su carrera militar

y política.

En este sentido, conforme Pineda

ganó mayor protagonismo como gura

política y militar, mayor fue su capaci-

dad de convocatoria para solicitar y

recibir documentos para la colección,

en especial durante los años que

precedieron a la primera entrega. Es

decir, a medida que la carrera política

del coronel iba en ascenso, también lo

hacía el número de cartas y, por ende,

el número de contribuciones que las acompañaban, no obstante, el signicativo esfuerzo

del coleccionista no solo radicó en solicitar documentos, sino en persuadir de la impor-

tancia de la colección en tanto que archivo de Estado (RM , pieza ).

Figura 2. Número de epístolas y menciones al colec-

cionismo por remitente en 1848-1849.

Análisis del epistolario del coronel Anselmo Pineda con Python: una mirada al proyecto coleccionista y al territorio

desde las redes sociales y el aprendizaje automático



Digital Humanities, Corpus and Language Technology

Figura 3. Actividad epistolar de Pineda, por número, y menciones al coleccionismo, por año.

Las grácas anteriores, dedicadas a la actividad epistolar y coleccionista, muestran la ten-

dencia de que, a mayor número de contactos epistolares, mayor la cantidad de contribu-

ciones a la biblioteca Pineda. Por una parte, en la primera gráca de barras aparece Josefa

Acevedo de Gómez encabezando la lista, seguida de José María Duque Pineda, primo del

coronel; Juan Nepomuceno Duque, primo; y otros corresponsales entre familiares y amigos

de los cuales sobresalen Joaquín Acosta, Manuel María Quijano, Andrés Arroyo, Domingo

Caicedo, Daniel O’Leary y Manuel María Paz. Cabe hacer la salvedad de que si bien duran-

te el periodo entre -, se da la mayor actividad coleccionista, antes existieron cola-

boradores muy importantes como la del cura dominico Antonio María Gutiérrez quien,

hasta meses previos a su muerte en , aportó  epístolas de un total de  cartas que

en el epistolario versan sobre el envío de documentos para la biblioteca Pineda.

Por otra parte, el segundo gráco muestra la actividad epistolar durante toda la vida

del coronel Pineda y las menciones al coleccionismo rastreadas con palabras clave como

manuscrito, colección, gaceta, biblioteca, cuaderno, cartilla popular, libro, compilación o

memorias, entre otros términos recurrentes en cartas que acusan envío adjunto de docu-

mentos. Esta gráca también permite evaluar la asociación entre número de contactos y

número de contribuciones, pero además posibilita la identicación del auge simultáneo de

12 Con toda certeza, Antonio María Gutiérrez fue uno de los amigos más cercanos de Anselmo Pineda. El sac-

erdote fue abogado, teólogo, orador, profesor y senador, pero además fue quien, a su regreso de Jamaica

posterior al exilio a causa de su inclinación realista previa a la independencia, reclutó al joven Pineda para



en la fundación de la masonería en Nueva Granada junto a Francisco de Paula Santander entre 1820-1825 y

RM 446, folios 85-86).



actividad epistolar y coleccionista entre - previo a un abrupto descenso en  y

a la primera entrega en .

El estudio de redes sociales aplicado a un corpus de correspondencia personal tiene

como principal utilidad la visualización de las interacciones entre sujetos y la representa-

ción de su relevancia relacional a través de códigos visuales de color y tamaño. Semejante

a un mapa geográco, un mapa relacional permite ubicar nodos y trazar los caminos o

vínculos que los interconectan, así como calcular el grado de centralidad o intermediación

de cada uno de los individuos en consideración a los vínculos que posea.

En primer lugar, la centralidad, representada por color, es el coeciente del número de

contactos que un nodo particular tiene en la red, es decir, se basa en el hecho de que nodos

importantes o populares tienen mayor número de contactos epistolares. En segundo lugar,

la intermediación, representada por tamaño, mide el número de veces en que un nodo

especíco está presente en el camino más corto entre otros dos nodos en la red, es decir,

los nodos con mayor grado de intermediación tienen un rol signicativo en la comunica-

ción y ujo de información. No menos importante es la conguración topológica de la red,

pues resulta determinante en el acceso de los nodos a recursos e información que, al estar

ubicados de manera desigual y asimétrica en la estructura social, poseen grados asimétri-

cos de inserción y posibilidades de acceso a recursos sociales. La red que se presenta en la

gura , es de tipo egocentrado, dado que el nodo central (ego) aglomera entorno a sí a la

mayoría de los vínculos existentes en la red que abarca toda la duración comprendida

entre la primera hasta la última carta del epistolario.

Esta red comprende el rango de - y ofrece gran cantidad de información visual,

en ella se prerió destacar con etiquetas los nodos de mayor centralidad. Se observa al ego

principal, el coronel Anselmo Pineda, seguido por el general Joaquín Acosta, ambos com-

partían el proyecto coleccionista privado con propósito público, tal y como se describió en

el apartado biográco, pero también se muestran otros personajes relevantes en la historia

del siglo XIX como Tomás Cipriano de Mosquera quien, como se comentó, fue un amigo

coleccionista de Pineda en su faceta naturalista y botánica (RM , Folio , -), se

encuentran también Antonio María Gutiérrez, Domingo Caicedo, Pedro Alcántara Herrán

y además se muestran otros nodos importantes en esta estructura social reconstruida des-

de el epistolario, por ejemplo, se observa la importancia relacional de la segunda esposa de

Pineda, Ana María Danies Kennedy, quien fue para el coronel la vía de acceso a la élite

costeña y la posibilidad de emprender los proyectos del gobierno central para la inserción

de las zonas de frontera al circuito económico. Danies también posee el mayor indicador

de intermediación observable en la gráca de barras incluida, seguida por la primera es-

Análisis del epistolario del coronel Anselmo Pineda con Python: una mirada al proyecto coleccionista y al territorio

desde las redes sociales y el aprendizaje automático



Digital Humanities, Corpus and Language Technology

posa de Pineda, María Josefa Valencia, quien fue a su vez la vía de acceso a la élite payane-

sa décadas antes. Estos altos índices de intermediación, con los que cuentan ambas esposas,

conrman la hipótesis sobre la importancia de los vínculos matrimoniales para conectar

al coronel Pineda con las élites a las que pertenecieron cada una de estas mujeres, y que

terminaron por impulsar tanto la carrera política y militar, como el proyecto coleccionista

del coronel Pineda.

Figura 4. Red social de Anselmo Pineda: Red epistolar-coleccionistas 1806-1880.

La anterior gura, que representa la red epistolar centrada en Pineda, se expande y aclara

en el siguiente indicador de intermediación de la gura :



Figura 5. Complemento a la red epistolar a través de sus indicadores de intermediación.

Otro matiz interesante al que se puede acceder mediante esta aproximación en HD es el

carácter espacial del epistolario que, a través del lugar de elaboración de las cartas georre-

ferenciadas, permite estudiar la distribución espacial de las redes epistolares y el espacio

de circulación de documentos puesto que, como ya se explicó, la correspondencia funcio-

naba como mecanismo para el tráco de impresos y manuscritos. En este sentido, un mapa

del epistolario hace posible dimensionar el alcance de las colaboraciones coleccionistas que

Pineda sostenía con los viajeros a Europa y con proveedores locales.

Al respecto, en respuesta a las solicitudes del coleccionista, un remitente desconocido

le cuenta a Pineda desde París:

No he olvidado las encarecidas recomendaciones de ud para solicitar las obras i escritos de

todo género relativos a la historia de nuestra patria desde su descubrimiento hasta hoy [...]

Aquí no es posible conseguir ninguno de los manuscritos u obras inéditas que especialmen-

Análisis del epistolario del coronel Anselmo Pineda con Python: una mirada al proyecto coleccionista y al territorio

desde las redes sociales y el aprendizaje automático



Digital Humanities, Corpus and Language Technology

te me recomendó Ud, como la relación del mando del Virci, Montalvo, la de Quesada, i los

demás documentos especiales antiguos i modernos de que Ud me halla en sus instrucciones.

Esperaba hallar todo esto en el tiempo durante mi viaje a España, para tener copias au-

ténticas de las interesantes piezas que Ud desea para su bella colección, i de todos los demás

documentos que pudiera descubrir; […] Respecto de las obras de Mútis, Cáldas, Lozano.

D’Eluyar i demas hombres ilustrados de nuestro pais que Emile trajo, de Bogotá a Madrid,

procuraré descubrir su paradero, i formar, si es posible, copias de las menos voluminosas i

más interesantes, pues de los escritos sobre botánica e historia natural no será esto fácil

porque entiendo que [mutilado] descubrir su paradero (RM , folio ).

Figura 6. Mapa del alcance espacial en el epistolario de Pineda por países.

En el mismo sentido, el coleccionista comenta que:

Se han mandado sacar copias de documentos sumamente interesantes que deben existir

en los archivos de Simancas; y otros de Europa; se han solicitado de las provincias docu-

mentos que pongan en claro, acontecimientos pasados que el tiempo i la indolencia han

sepultado en el olvido; como son los pormenores de la guerra de Pasto desde  hasta la

época presente, y otros muchos que son de suma importancia (RM , folio ).

Una vez señalada la potencia de explotar la dimensión espacial del corpus, podemos foca-

lizar la atención en el procesamiento de otro atributo de las cartas, a saber, su descripción

y transcripción. Como se describió en la metodología, el objetivo es descubrir los temas

principales en el corpus y discriminar todas aquellas entidades útiles para acceder a otra

dimensión del epistolario, todavía en proceso, en lo relativo a personas o lugares referidos



en el contenido de cada carta. Las siguientes grácas muestran, por un lado, la proporción

de entidades reconocidas.

Figura 7. Proporción de entidades nombradas en el corpus.

Por otro lado, se incluye una gráca del resultado del modelado de temas que muestra los

términos más importantes extraídos mediante un popular algoritmo denominado Latent

Dirichlet allocation (LDA), que permite la organización y entendimiento, desde la lectura

distante, de los temas subrepticios, pero signicativos en una gran colección de textos

(Jänicke, ). Empero, merece la pena decir que el modelado de temas no garantiza

necesariamente que los términos sean fácilmente interpretables por el ser humano, sin

embargo, existen métricas para determinar el grado de coherencia, en este caso, un indi-

cador intrínseco basado en que la ocurrencia de un término sobresaliente debe ser prece-

dida por otro término sobresaliente, en otras palabras, que la probabilidad de un término

sobresaliente debe ser más alta en un documento si este ya contiene un término sobresa-

liente, esto es el cálculo de la probabilidad condicional de ocurrencia de un término siem-

pre que ya exista otro término importante en el documento.

Análisis del epistolario del coronel Anselmo Pineda con Python: una mirada al proyecto coleccionista y al territorio

desde las redes sociales y el aprendizaje automático



Digital Humanities, Corpus and Language Technology

Figura 8. 

La siguiente gráca muestra el índice de coherencia Umass para todas las iteraciones del

modelo, dando como resultado que la mejor coherencia esta alrededor de - temas por

su cercanía al , coherencia perfecta.



Figura 9. 

La lista de términos más sobresalientes incluye palabras como colección, documentos,

impresos, gobierno, favor, publicación, gobernador, escritos, patria, viaje y pueblo, además

de otros menos claros como trabajo y administración.

Hasta ahora se han mencionado  tipos de procesamiento de lenguaje natural para

tratar el archivo epistolar de Anselmo Pineda, pero para el siguiente paso que consiste en

introducir todas las entradas de la base de datos en un algoritmo de aprendizaje automá-

tico, es necesario darle una identidad numérica para hacerlo procesable. Existen varias

maneras de surtir esa transformación, en esta investigación se usará la estadística TF-IDF

para convertir cada palabra en el valor probabilístico dado por la frecuencia de un término

en un solo texto dividida por el número de textos en el que aparece ese término, de mane-

ra que las palabras más frecuentes en un idioma y menos signicativas, palabras vacías,

son ltradas. Adicionalmente, se transforman los demás atributos cualitativos como nom-

bres y lugares a su identidad numérica mediante one hot encoding, que busca codicar

todas las categorías en una matriz binaria de ceros y unos.

Al modelo de aprendizaje automático supervisado Random Forest, elegido por obtener

mejores resultados con este corpus que otros algoritmos, se le pasa como insumo la nueva

base datos transformada desde la original con las coordenadas geográcas, fechas, conte-

nidos de las cartas, nombres y demás datos para que tome como base de conocimiento el

 de la muestra y realice la predicción sobre el  restante usando validación cruzada

para evitar fuga de datos y, en consecuencia, sobreajuste del modelo. Por otra parte, se

aplicó un modelo de aprendizaje no supervisado para identicar las agrupaciones geográ-

cas presentes en el epistolario, de acuerdo con el valor de las distorsiones calculadas entre

las distancias de los elementos de una agrupación a su centroide respectivo.

Análisis del epistolario del coronel Anselmo Pineda con Python: una mirada al proyecto coleccionista y al territorio

desde las redes sociales y el aprendizaje automático



Digital Humanities, Corpus and Language Technology

Los siguientes mapas muestran el resultado de aplicar aprendizaje no supervisado,

junto a la gráca de distorsiones para determinar el número óptimo de agrupaciones, y el

resultado del aprendizaje supervisado.

Figura 10. 

Tras un examen más detallado del mapa de agrupaciones geográcas se puede determinar

que estas coinciden, a grandes rangos, con cada ensanche o expansión de las redes sociales

epistolares de Pineda al considerar el rango temporal de cada agrupación. Dicho esto, se

calcula que la proporción de cartas en cada agrupación espacial es la siguiente: región sur

occidente contiene el  de corresponsales en un rango temporal entre -, coin-

cidente con su primer matrimonio; la región norte contiene el  de corresponsales en

un rango temporal entre -, aproximadamente coincide con su segundo matrimo-

nio; la región centro contiene el . comprendido en un rango temporal entre -,

que responde a las redes de parentesco y patronazgo tras la reconguración de las redes de

poder; la región centro occidente conserva el . entre -, coincidente con la

mudanza de Pineda a la capital. Lo anterior solo corrobora la hipótesis de que a medida

que Pineda expande sus horizontes relacionales, a través del matrimonio y las relaciones

políticas, también expande su inuencia en el territorio.

En cuanto a la evaluación del modelo predictivo, resulta muy útil el computo de una

matriz de confusión para determinar que tantos aciertos o desaciertos tuvo el algoritmo.

Este paso, a juicio del investigador, sirve más para probar qué tan útiles son los datos uti-

lizados para la predicción, que para probar la utilidad del algoritmo. Los resultados son los

siguientes:



Tabla 1. Matriz de confusión.

Valores reales

Negativo Positivo

Predicción Negativo Verdadero Negativo (608) Falsos negativos (0)

Positivo Falsos positivos (36) Verdadero Positivo (95)

De la muestra destinada a la predicción (), el algoritmo alcanzó una precisión de .,

una sensibilidad de . y una exactitud de .. Esto quiere decir que el modelo tiene

una excelente capacidad de predicción de positivos (precisión), así mismo una alta tenden-

cia a producir falsos positivos (sensibilidad) y, nalmente, una buena capacidad de produ-

cir predicciones correctas (exactitud). Estos valores, al lado de la matriz de confusión

permiten evaluar el comportamiento del modelo que, para este caso, se consideró menos

riesgoso un falso positivo a un falso negativo, dados los costos temporales de vericación

para los falsos negativos. En consecuencia, podríamos concluir que el modelo es aceptable

al ponderar falsos positivos, falsos negativos y total de aciertos.

6. Conclusión

Como se evidenció en este artículo, las diversas y potentes metodologías de las humanida-

des digitales tienen la capacidad de colocar al investigador en una posición privilegiada al

momento de enfrentarse a un complejo y voluminoso corpus documental que, en este caso,

permanecía inexplorado, tanto como la gura histórica a la que perteneció y quien sin

duda se descubre como un personaje clave para el estudio de la vida política e intelectual

del siglo XIX. El archivo epistolar de Anselmo Pineda es el laboratorio perfecto para apli-

car metodologías experimentales que sean capaces de asumir la retadora tarea de hacer

historia, a la vez que un aporte metodológico poco convencional en el campo de las HD

aplicado a la investigación social del siglo XXI en Colombia y a la historia digital. Aún son

muchas las posibilidades abiertas para el estudio del epistolario con metodologías distintas

a las presentadas o con metodologías semejantes, pero aplicadas a otros epistolarios del

siglo XIX, en un esfuerzo por comprender las dinámicas sociales de uno de los periodos

más interesantes en la historia americana.

Si bien la combinación de las diversas técnicas de análisis de datos expuestas resulta

muy potente en el caso estudiado, cada una de ellas constituye un campo especializado que

valdría la pena explorar y poner a prueba con otros archivos documentales semejantes y

epistolarios del mismo periodo. En este sentido, una de las técnicas con mayor alcance es

el análisis de redes, pues al incorporar no solo un epistolario, sino varios epistolarios de los

Análisis del epistolario del coronel Anselmo Pineda con Python: una mirada al proyecto coleccionista y al territorio

desde las redes sociales y el aprendizaje automático



Digital Humanities, Corpus and Language Technology

ilustrados de mediados de siglo, sería factible producir un mapa de topología relacional

para la élite intelectual y política del momento y abrir la puerta a un estudio sin preceden-

tes que en diferentes escalas pueda incorporar las demás técnicas de análisis digital y deri-

var en enfoques que podrían enmarcarse, bien sea, en la historia de la ciencia para el estu-

dio del tráco y difusión de saberes, textos y artículos cientícos; en la historia cultural y

política con el análisis de tendencias de agrupación y comportamientos sociales acorde al

partido político, la parentela o lugar de nacimiento; o en la geografía histórica con la com-

prensión y visualización de la estructura social de este grupo ilustrado con un énfasis en

su distribución espacial, entre otros posibles ángulos e intereses de estudio de la historia

de Colombia.

Referencias

Benjamin, W. (). El coleccionista. Libro de los Pasajes. Akal.

Bourdieu, P. (). Poder, derecho y clases sociales. Desclée.

Brown, M. (). e Struggle for Power in Post- independence Colombia and Venezuela. Macmillan.

Castillo Gómez, A. (). Del tratado a la práctica. La escritura epistolar en los siglos XVI y XVII.

En C. Sánchez, y C. Castillo (Coords.), Actas del VI Congreso Internacional de Historia de la

Cultura Escrita, Vol. , La correspondencia en la historia. Modelos y prácticas de escritura epístola

(pp. -). Calambur.

Cerarols, R. y García, A. L. (). Geohumanidades. El papel de la cultura creativa en la intersección

entre la geografía y las humanidades. Treballs de la Societat Catalana de Geograa, , -.

Derrida, J. () Mal de Archivo. Una impresión freudiana. Trotta.

González Stephan, B. (). Coleccionar y exhibir: la construcción de patrimonios culturales.

Revista de Literatura, (), -.

Gutiérrez Lorenzo, M.P. (). Prácticas y modelos epistolares de un archivo decimonónico: la

correspondencia del Hospicio Cabañas. En C. Sánchez. y C. Castillo (Coords.), Actas del VI

Congreso Internacional de Historia de la Cultura Escrita, Vol. , La correspondencia en la historia.

Modelos y prácticas de escritura epístola (pp. -). Calambur.

Hernández de Alba, G. y Carrasquilla Botero, J. (). Historia de la Biblioteca Nacional. Instituto

Caro y Cuervo.

Imízcoz, J. M. y Arroyo, L. (). Redes Sociales y Correspondencia Epistolar. Del Análisis Cualitativo

de las Relaciones Personales a la Reconstrucción de Redes Egocentradas. Redes. Revista Hispana

para el Análisis de Redes Sociales, (), -.

Jänicke, S., Franzini, G., Cheema, M. F. & Scheuermann, G. (). On close and distant reading in

digital humanities: A survey and future challenges. Procedimientos de EuroVis. (pp. -). STAR

– State of e Art Report. http://dx.doi.org/./eurovisstar.

König, H-J. (). El Camino Hacia la Nación: nacionalismo en el proceso de formación del Estado y

de la Nación de la Nueva Granada,  a . Editorial Banco de la República.

Moreno de Ángel, P. (). Anselmo Pineda. Colección Academia Antioqueña de Historia. Editorial

Vieco.

Moretti, F. (). Graphs, maps, trees: abstract models for a literary history. Ve r s o.



Ortiz, S. A. (). Vida y Obra del Coronel Anselmo Pineda. Un Estudio del Coleccionismo y de la

Redes Sociales en Nueva Granada Durante el Siglo XIX. [Tesis de grado]. Pontica Universidad

Javeriana.

Pineda, A. (). Prospecto. En J. M. Bermúdez (Ed.), La Cartilla Popular: periódico moral, industrial

y noticioso.-. Panamá

Rodríguez, S. (). Extracto sucinto de mi obra sobre la educación republicana. Sociedades

americanas. Biblioteca de Ayacucho, , -.

Silva, R. (). Los Ilustrados de Nueva Granada, -. Genealogía de una comunidad de

interpretación. Fondo Editorial Universidad EAFIT.

Wolf, E. (). Relaciones de Parentesco, de Amistad y de Patronazgo en las Sociedades Complejas.

Clásicos y Contemporáneos en Antropología. Alianza.

Fuentes primarias

Correspondencia de Anselmo Pineda. Fondo Tomas Cipriano de Mosquera del Archivo Central del

Cauca.

Correspondencia de Anselmo Pineda. Fondo Mariano Ospina Rodríguez del Archivo histórico de la

Universidad EAFIT.

Correspondencia de Anselmo Pineda. Archivo Histórico Cipriano Rodríguez Santamaría de la

Universidad de la Sabana.

Correspondencia de Anselmo Pineda. Fondo Manuel Ancizar Basterra en el Archivo Histórico

Universidad Nacional de Colombia.

Correspondencia de Anselmo Pineda. Archivo Julio Arboleda de la sección de Libros Raros y

Manuscritos en la Biblioteca Luis Ángel Arango.

Pineda, A. Manifestación comprobada que José Anselmo Pineda ocial primero interventor de la

tesorería departamental de Antioquia hace al público, de la injusta persecusión suscitada contra

él en los días de la tiranía por el tesorero José Prieto. Medellín: Impreso por Manuel Antonio

Balcázar, .

Pineda, A. Disposiciones del prefecto Anselmo Pineda para el aprovechamiento de Caquetá. Fondo

Pineda Pieza , Folios -

Tomo  en Raros y Manuscritos de la Biblioteca Nacional de Colombia.

Tomo  en Raros y Manuscritos de la Biblioteca Nacional de Colombia.

Tomo  en Raros y Manuscritos de la Biblioteca Nacional de Colombia.

Tomo  en Raros y Manuscritos de la Biblioteca Nacional de Colombia.

Tomo  en Raros y Manuscritos de la Biblioteca Nacional de Colombia.

Tomo  en Raros y Manuscritos de la Biblioteca Nacional de Colombia.

Tomo  en Raros y Manuscritos de la Biblioteca Nacional de Colombia.

Tomo  en Raros y Manuscritos de la Biblioteca Nacional de Colombia.

Tomo  en Raros y Manuscritos de la Biblioteca Nacional de Colombia.

Tomo  en Raros y Manuscritos de la Biblioteca Nacional de Colombia.

Tomo  en Raros y Manuscritos de la Biblioteca Nacional de Colombia.

Análisis del epistolario del coronel Anselmo Pineda con Python: una mirada al proyecto coleccionista y al territorio

desde las redes sociales y el aprendizaje automático

Part II

Corpus construction



C V

Desarrollo de un corpus de atlas

lingüísticos1

Development of a corpus of

linguistic atlases

Carolina Julià Luna

Universidad Nacional de Educación a Distancia (UNED) – España

Resumen: El objetivo del presente capítulo es la presentación de algunas caracterís-

ticas y funcionalidades del Corpus de los atlas lingüísticos (COR PAT), una herramienta

informática en la que se almacenan datos procedentes de los atlas lingüísticos re-



contienen; de servir como fuente de divulgación de la variación y la riqueza lingüís-

tica; y de complementar los datos procedentes de corpus textuales y obras lexico-

     

historia de la lengua española.

Abstract: The aim of this chapter is to present some characteristics and functional-

ities of the Corpus of Linguistic Atlases (COR PAT). This computer tool collects data from







research on linguistic change and the Spanish language history.

1 El presente texto fue escrito a mediados de 2021, por lo que los datos que constan él (referencias al corpus

y número de mapas y de registros que contiene) pertenecen a ese año. A lo largo de 2022 el corpus ha

aumentado el número de registros y desde el 1 de diciembre de 2022, CORPAT se desarrolla en el marco

del proyecto “CORPAT-PEPLEs: corpus digital para la preservación y el estudio del patrimonio lingüístico del

español” (TEDMCIN/AEI/10.13039/501100011033 y por la Unión Europea

“NextGenerationEU”/PRTR.



Digital Humanities, Corpus and Language Technology

1. Introducción

Desde hace más de una década, en España se está trabajando en la digitalización del atlas

lingüístico nacional (el Atlas Lingüístico de la Península Ibérica o ALPI, García Mouton

, ; Sousa, ); sin embargo, buena parte de los materiales de la geolingüística

regional no pueden consultarse todavía hoy en formato electrónico. El volumen de infor-

mación recogido en estos atlas regionales impresos entre  y , y de acceso muy

limitado (no se encuentran en cualquier biblioteca), es excepcional: casi  mapas que

se corresponden con más de  puntos de encuesta, lo que supone miles de formas lin-

güísticas que aportan datos fonético-fonológicos, léxico-semánticos, morfosintácticos y

etnolingüísticos de las variedades dialectales de España.

Actualmente, el hecho de que buena parte de los atlas regionales del español dirigidos

por Manuel Alvar solo puedan consultarse físicamente en algunas bibliotecas universita-

rias, y a veces de forma incompleta (pues no siempre disponen de todos los volúmenes),

diculta sus posibilidades de estudio y explotación tanto a investigadores como a cualquie-

ra que esté interesado en conocer, por ejemplo, la historia lingüística de su pueblo natal o

de otros lugares de España. Además, la forma en la que presentan los datos supone otra

barrera para los interesados no expertos, ya que la información se recoge, en muchos de

los mapas, en alfabeto fonético. Y, para mayor complejidad, en el alfabeto de la Revista de

Filología Española (ARFE), un sistema de transcripción empleado en el ámbito hispánico

que creó Tomás Navarro Tomás cuando se fundó la revista con el objetivo de servir para

“los artículos que hubieran de requerirlo y para los estudios de dialectología, fonética y

geografía lingüística que el Centro había emprendido” (Navarro Tomás, , p.).

Con el n de cubrir esta parte de la geolingüística europea, se ha ideado y diseñado

CORPAT (Corpus de los atlas lingüísticos). Se trata de un corpus en el que se pretende or-

ganizar y categorizar conjuntamente parte de la información de los atlas lingüísticos regio-

nales (ALEA, ALEANR, ALEICan, ALECant, ALCyL, ALeCMan, ADiM, CaLiEx) en una

2 ALCyLAtlas Lingüístico de Castilla y León. Valladolid: Junta de Castilla y León/Consejería

de Educación, 3 vols.; ALEA

CSIC, 6 vols.;

ALEANRAt-

Madrid /Zaragoza: La Muralla / Institución Fernando

el Católico de la Excma. Diputación provincial de Zaragoza / CSIC, 12 vols.; ALECant = Manuel Alvar con la

colaboración de Carlos Alvar, José A. Mayoral, M.ª Pilar Nuño, M.ª del Carmen Caballero y Julia B. Corral

. Madrid: Arco/Libros, 2 vols. [Etnografía y láminas de Elena

Alvar]; ALEICan

Gran Canaria: Publicaciones del Excmo. Cabildo Insular, 3 vols.

3 Quiero hacer constar mi agradecimiento a los autores del ALeCMan, la Dr.ª Pilar García Mouton y el Dr. Fran-

cisco Moreno Fernández; del iM, la Dr.ª Pilar García Mouton y la Dr.ª Isabel Molina Martos; y de CaLiEx, el

Dr. José González Salgado, por su apoyo en el inicio del desarrollo esta herramienta.



Desarrollo de un corpus de atlas lingüísticos

base de datos espacial consultable en línea. Antes de presentar la herramienta (epígrafes

-), se describe brevemente la historia de la relación que la geolingüística ha mantenido

con la tecnología (epígrafe ) y algunos de los resultados obtenidos de su aplicación.

2. La tecnología en la geografía lingüística

La geografía lingüística nace en Europa a nales del siglo XIX con el objetivo de represen-

tar la variación lingüística en mapas y dejar de lado la descripción intuitiva y fortuita de

las áreas dialectales que se había realizado hasta la segunda mitad de esa centuria (Cham-

bers y Trudgill, , p.). A principios del siglo XX, con la publicación del Altas Linguis-

tique de la France (ALF), se consolida como método de investigación dialectal basado en

la compilación de datos procedentes de testimonios orales. Desde entonces, el atlas lingüís-

tico se convierte en una obra fundamental en el ámbito de los estudios variacionistas que

irá perfeccionándose y modicándose con el paso del tiempo.

La historia de la renovación del método y de su producto principal, el atlas lingüístico,

reeja cambios de diverso tipo; desde las innovaciones vinculadas con la organización de

los datos (p. ej. el paso de la organización alfabética del ALF a la onomasiológica del AIS)

hasta modicaciones relacionadas con el foco de interés lingüístico (p. ej. el surgimiento

de atlas sintácticos como el SCOSYA o el DynaSAND, que atienden una parte de la gra-

mática poco representada en los primeros atlas) y con el tipo de informante (p. ej. la am-

pliación de las encuestas a hablantes urbanos, más jóvenes y que incluyan tanto a hombres

como a mujeres), entre otras (Julià, ). Además de estas variaciones, asociadas a la

evolución de la propia metodología y de las teorías lingüísticas, uno de los aspectos que ha

supuesto un cambio mayor es la aplicación de los ordenadores a su creación, diseño y ex-

plotación. La aplicación de la tecnología a la geografía lingüística es sumamente importan-

4 La 23.ª ed. del 

atlas lingüístico “Conjunto de mapas en que se presentan datos lingüísticos procedentes de encuestas” (s. v.

atlas). Para más información sobre el concepto ‘atlas lingüístico’, véase Coseriu (1977).

5 Tradicionalmente, los cuestionarios tenían como objetivo recoger información procedente de hablantes

(generalmente hombres) que conocieran el medio rural, sus tradiciones y sus costumbres; a este informante

tipo, según Chambers y Trudgill (1994, p.57), se le denomina mediante el acrónimo NORM (nonmobile, older,

rural, males). Sin embargo, “en las últimas décadas, las antiguas formas de vida y las tareas asociadas con

ellas se han transformado hasta casi desaparecer” (García Mouton y Molina 2009, p.180) y también lo han

hecho los informantes que son objeto de interés en la geografía lingüística. El ALeCMan, por ejemplo, incluye

novedades respecto a sus antecesores (el ALEA, el ALEANR o el ALEICan) como, por ejemplo, la incorporación

de dos informantes sistemáticamente por localidad, “un hombre y una mujer entre los que se reparten el

contenido de un cuestionario muy extenso. Se hicieron sistemáticamente dos entrevistas por punto: una

con un hombre y otra con una mujer” (Molina, 2018, p.4). Para una visión global de la representación del

papel de la mujer como informante en la geografía lingüística de la península ibérica, véase García Mouton

(1999a).



Digital Humanities, Corpus and Language Technology

te para los estudios dialectales, para la investigación lingüística (Nerbonne et al., ) e

incluso para la historia de las humanidades digitales (Sousa, ).

Los primeros testimonios de la aplicación de los ordenadores al estudio geolingüístico

se pueden fechar en la década de los sesenta (Ziamandanis, , p.). En , Roger

Shuy, en el capítulo titulado “An Automatic Retrieval Program for the Linguistic Atlas of

the United States and Canada”, explica cómo ideó un programa informático de tarjetas

perforadas —como hizo Busa en el proceso de lematización de la obra de Santo Tomás de

Aquino en el Index omisticus— para trabajar en la automatización de los datos con el

objetivo de que fueran más accesibles. Para demostrar la viabilidad de su idea, se centró en

 informaciones gramaticales de una región de Estados Unidos (e Linguistic Atlas of

New England) con el n de trazar relaciones sociolingüísticas signicativas. Los resultados

de este primer acercamiento a la automatización de los atlas lingüísticos son, en opinión

del autor, una demostración del potencial de los datos después de haber sido procesados

electrónicamente:

is program, of course, is only suggestive of what can be done with the Atlas materials

once the data are submitted to automation. ese materials will be more accessibleand

reproducible than ever before. More signicant, the dialectologist will be able to broaden

his investigation of the sociological implications of American speech through improved

handling of data. As indicated previously, one of the benets of our program is in the area

of distributions by occupation, sex, age, and type. (Shuy, ).

A la propuesta de Shuy () empiezan a suceder otros estudios. Por un lado, investiga-

ciones en las que con la incorporación de los ordenadores al análisis de los datos se pre-

tendía extraer el máximo rendimiento a la información lingüística desde el punto de vista

de la variación y de la delimitación de las áreas dialectales (Gordon, , p.). Entre ellas

se sitúan, por ejemplo, los estudios en dialectometría. Por otro lado, los primeros trabajos

que emplean la informática para crear atlas se sitúan en la década de los setenta. Así, en la

6 Las tarjetas perforadas constituyen el primer medio de almacenamiento digital de información empleado

para introducir y guardar datos en ordenadores. Este método fue muy empleado en la década de los setenta

del siglo XX.

7 No se cita la página porque se ha consultado la edición electrónica del trabajo y en ella no constan las páginas.

8 dialectometría 

instrumental, que se apoya en la geografía lingüística y recurre a procedimientos objetivos —estadísticos

y taxométricos—, para establecer relaciones de semejanza o diferenciación dialectales, en un intento de

sintetizar los contenidos de un atlas lingüístico”. Aunque en los primeros trabajos dialectométricos de Jean

Séguy (1973) se prescindiera de la automatización, y los cálculos se hicieran manualmente (García Mouton,



disciplina.



Desarrollo de un corpus de atlas lingüísticos

geolingüística estadounidense, Wood ( apud Ziamandanis, , p.) propone, en la

línea de Shuy (), el uso de computadoras y tarjetas perforadas para editar atlas lingüís-

ticos. Y es en la década de los setenta cuando se sitúa el inicio de la informatización de los

atlas (Hoch y Hayes, , p.) que ofrecerá los primeros resultados en los años ochenta

y noventa para la geografía lingüística europea: “e three projects which stand out as

pioneers are Computer Developed Linguistic Atlas of England (Viereck y Ramisch, -

), Atlas Linguarum Europae (Alinei et al., ) and Kleiner Deutscher Sprachatlas

(Veith et al., -)” (Sousa, , p.).

En las siguientes décadas, el acelerado progreso en el ámbito de la comunicación y la

expansión del uso de la tecnología generó cambios en los estudios geolingüísticos y dialec-

tales. Entre esos cambios, destacan las mejoras en los escáneres de imágenes, la prolifera-

ción de programas de bases de datos espaciales (BDE) y el surgimiento de numerosas

aplicaciones y programas para crear mapas (Google My Maps, Gabmap, Diatech, Open-

StreetMap, ArcMap, Carto, Mapbox o QGIS). El empleo de estas herramientas ha permi-

tido, por ejemplo, digitalizar los primeros atlas lingüísticos y recogerlos en la web (a modo

de facsímil) con el n de preservarlos y ponerlos a disposición de cualquiera que quiera

consultarlos. Entre otros, pueden mencionarse los proyectos de digitalización del Sprachat-

las des Deutschen Reichs (DSA) de Georg Wenker, que actualmente se puede consultar en

RegionalSprache.de (Herrgen  y Limper, Phei y Williams : ); el Atlas Lin-

guistique de la France (ALF), disponible en CartoDialect (Davoine et al., ); y el Sprach

und Sachatlas Italiens und der Südschweiz (AIS) de Karl Jaberg y Jakob Jud, accesible en

NavigAIS (Tisato, ). Algunos de ellos, además, incluyen la posibilidad de consultar

bases de datos en las que la información está organizada y clasicada por categorías (formas

y campos semánticos, por ejemplo).

En España es también en la década de los setenta cuando se empieza a pensar en la

automatización de la geografía lingüística regional (Alvar, ; Alvar y Verdejo, 

[]; Alvar y Nuño, ) y a partir de los ochenta se plantea el análisis automatizado de

los datos (Enríquez, ). El proyecto del ALES (Atlas Lingüístico de Santander) —al que

hoy se conoce como Atlas Lingüístico y Etnográco de Cantabria (ALECant)— es la prime-

9 Sobre el Atlas Linguarum Europae (ALE

pueden leerse algunos de los primeros planteamientos en Putschke (1969 y 1972) a los que se van sucedien-

do otros trabajos y propuestas.

10 Esta referencia aparece citada en Alvar y Nuño (1981, p.359, nota 1). En la primera nota al pie se explica que

es una publicación que deriva de una comunicación que Manuel Alvar había presentado en febrero de 1974

en el Simposio Ordenadores y Lingüística que organizó la Universidad Complutense. Según se indica en

Alvar y Nuño (1981, p.359), el contenido del texto presenta resultados de los primeros contactos que Manuel

Alvar mantuvo con W. Putschke para el Atlas Linguarum Europae (ALE).



Digital Humanities, Corpus and Language Technology

ra muestra de aplicación de la tecnología a los atlas españoles. En el artículo de Alvar y

Verdejo (), titulado “Automatización de atlas lingüísticos”, se presentan las bases de los

primeros pasos de la geolingüística española en el proceso de creación de atlas automati-

zados. Los autores toman como modelo el atlas de Andalucía (ALEA) para explicar la

complejidad que supone el proceso manual de elaboración de cada uno de los mapas:

Cada cuaderno de formas es la base para que un cartógrafo dibuje un mapa por cada

binomio —concepto, región— representando en él los testimonios —provincia, localidad,

respuesta— pertenecientes al mencionado binomio. Más tarde se lleva a cabo la impresión.

(Alvar y Verdejo, , p.)

En palabras de los propios autores, se trata de un “complejo proceso manual” repleto de

dicultades que “puede simplicarse en mucho con un proceso de automatización” (Alvar

y Verdejo, , p.-). Era evidente que la automatización del proceso se veía, princi-

palmente, como una vía para reducir el tiempo dedicado a dibujar los mapas y para mitigar

los errores que pudieran introducirse en el proceso de cartograado manual de la infor-

mación lingüística. Así, los autores describen con detalle en el artículo cuál tendría que ser

el método de automatización que debería seguir un atlas; y, en la conclusión, explican que

esta es la metodología que han empezado a aplicar para la publicación de los materiales del

ALECant, cuya recopilación de datos terminó en julio de . Sin embargo, el proceso de

automatización descrito por Alvar y Verdejo (), que luego se complementa con el

artículo de Alvar y Nuño (), fue más costoso de lo que parecía inicialmente. Tales

fueron las dicultades del proyecto —asociadas a su proceso de informatización (como

puede leerse en el epígrafe titulado “Lamento inicial” que precede a la nota preliminar del

ALECant, , p.)— que el atlas no se publicó hasta casi veinte años más tarde. Después

del atlas de Cantabria, se publican otros atlas de forma automatizada como el ALCyL y el

ALeCMan. El primero, según Alvar, sigue los criterios del ALECant (ALCyL, Prólogo: );

el segundo, en cuya informatización empezó a trabajarse desde  en la Universidad de

Alcalá de Henares, sigue un camino distinto: para su elaboración se creó un programa

informático especíco denominado Atlante que tenía por objetivo la automatización de las

“labores que conducen a la confección de un atlas lingüístico, así como el aprovechamien-

to de toda la información lingüística que contiene una obra de estas características” (More-

no et al., , p.). Este atlas, que puede consultarse en internet actualmente, seguía la

línea de trabajo iniciada en otros proyectos europeos y americanos en los que la informá-

tica permitía automatizar el proceso de cartograado y gestionar las bases de datos espa-

ciales.



Desarrollo de un corpus de atlas lingüísticos

Posteriormente, en la segunda década el siglo XXI, se inician los trabajos de edición di-

gital del Atlas Lingüístico de la Península Ibérica (ALPI) parcialmente consultable en la red

en la actualidad (García Mouton, ). Paralelamente a estos trabajos de digitalización de

atlas tradicionales se ha consolidado el diseño y la producción digital de atlas, lo que ha ge-

nerado que nos encontremos ante una nueva generación de contenidos geolingüísticos más

sostenibles y accesibles que ya no se publican en papel; es el caso, por ejemplo, del Atlas

Dialectal de Madrid (ADiM), que sigue la línea iniciada por el ALeCMan. Por otra parte,

además de estos proyectos, cabe señalar que el empleo del mapa como medio de representa-

ción de datos lingüísticos se ha expandido más allá de la publicación de los atlas. Son diver-

sos los trabajos en los que se (geo)localizan valiosas informaciones lingüísticas en mapas y

que permiten realizar interesantes estudios de variación desde el eje diatópico (COSER).

En este proceso de digitalización e informatización de los atlas, la geografía regional

del español (nos referimos a los atlas que dirigió Manuel Alvar desde la segunda mitad del

siglo XX) cuenta con pocas iniciativas y, por el momento, son pocos los proyectos que

trabajan en esta línea. Uno de ellos es el Atlas Lingüístico y Etnográco de la provincia de

Zaragoza (ALPEZ) cuyos datos proceden del ALEANR (Atlas Lingüístico y Etnográco de

Aragón, Navarra y La Rioja). Se trata de un atlas digital que recoge los materiales del cuar-

to volumen de este atlas. Se puede consultar en línea y ofrece los datos organizados e in-

terpretados desde diferentes perspectivas, lo que permite realizar consultas de distinto tipo:

Este Atlas digital ofrece nuevas posibilidades de búsqueda (visual e interactiva), estudios

con grácos-estadísticos, multi-task, un mapa interactivo (actualizable), respuestas en

transcripción ortográca, un mapa-leyenda en colores que remite al del ALEANR y una

base de datos informatizada. (Tranquilli, , p.)

El acercamiento a los datos que ofrece este reciente recurso constituye una muestra de las

posibilidades que brinda la aplicación de la tecnología a los datos de los atlas regionales.

Asimismo, son interesantes otras investigaciones también recientes en las que se explotan

los datos de los atlas regionales mediante la tecnología. En el proyecto VitaLex (desarro-

llado en la Universidad de Granada), que se centra en el análisis de la zona de la Alpujarra

(Andalucía), el objetivo principal es analizar las respuestas léxicas de  puntos de encues-

ta del ALEA y contrastarlas con datos actuales obtenidos de nuevas entrevistas. Los resul-

tados de este estudio permitirán ver los cambios que se han producido en cincuenta años

11 Sobre el español de América se inician también múltiples e interesantes proyectos de digitalización e

informatización de atlas lingüísticos en la misma época; por ejemplo, sobre el Atlas Lingüístico de Puerto Rico

- ALPR o el  - ALEC Digital, entre otros.



Digital Humanities, Corpus and Language Technology

en esta zona (Fernández Morell en prensa). En los capítulos  y  de Fradejas (),

titulados “Mapas con R. Un poco de geografía lingüística”, se muestra también algunos de

los resultados de la aplicación de la tecnología a los datos que atesoran los mapas de la

geografía lingüística regional. Es en este marco, en el de aprovechar las posibilidades que

ofrecen las bases de datos espaciales y los sistemas de información geográca (SIG), entre

otros, en el que nace la idea de crear COR PAT (Corpus de los atlas lingüísticos), una base

de datos cuyos objetivos, contribuciones y características se describen a continuación.

3. Objetivos y contribución

CORPAT se concibe como una herramienta digital que pretende, por un lado, preservar el

patrimonio histórico-lingüístico y cultural de la lengua española y, por otro lado, aproxi-

mar la investigación de la variación lingüística a la sociedad. Para la consecución de estos

objetivos, se parte de las posibilidades que ofrecen las nuevas tecnologías para la divulga-

ción y la gestión de datos geolocalizados en el marco de las humanidades digitales. Median-

te el traspaso de las formas de las cartas lingüísticas a bases de datos espaciales en trans-

cripción ortográca se favorece su difusión, además de permitir que los materiales

permanezcan almacenados con el n último de contribuir a su preservación y divulgación.

La creación y el diseño del corpus se justica tanto desde la perspectiva histórica como

actual para la geografía lingüística española y europea. El lento y desafortunado desarrollo

de la geografía lingüística en España (Heap, ; García Mouton, ) impidió la publica-

ción completa del Atlas Lingüístico de la Península Ibérica (ALPI). Para suplir este vacío,

fueron publicándose sucesivamente, desde la década de los sesenta del siglo XX, un conjun-

to de atlas regionales que abarcan diferentes zonas: Andalucía (ALEA), Aragón, Navarra y

La Rioja (ALEANR), las Islas Canarias (ALEICan), Cantabria (ALECant) y Castilla y León

(ALCyL). Posteriormente, esta saga de atlas lingüísticos se ha completado con otros como el

de Castilla-La Mancha (ALeCMan) y el de Madrid (ADiM) en formato digital y consultables

en línea. A estos hay que añadir los atlas de las zonas bilingües que han ido publicándose de

forma paralela a los del español, pero que abarcan solo el estudio de la lengua coocial y que,

en algunos casos, se encuentran en Internet (Galicia: ALGa, País Vasco: EEHHA y Cataluña,

Valencia y Baleares: ALDC), y también los trabajos de González Salgado sobre el extremeño

(Cartografía lingüística de Extremadura) que completan la cartografía por regiones. Así pues,

a pesar de contar con datos geolingüísticos sobre el español europeo de una gran parte del

territorio, lo cierto es que estos materiales no se han explotado ni estudiado de forma exhaus-

tiva y contrastada y las comunidades lingüísticas de las que proceden frecuentemente ignoran

su existencia. La cuantía de datos que incluyen y la gran cantidad de tiempo invertido en su



Desarrollo de un corpus de atlas lingüísticos

elaboración es uno de los principales motivos que ha generado que la última fase del método

de la geografía lingüística —en la que se procede a su estudio— se haya desarrollado parcial-

mente (Del Barrio, ; Fernández Morell, en prensa).

Así pues, la contribución principal de CORPAT es la preservación del patrimonio lin-

güístico español; esto es, el almacenamiento y la gestión de los datos que actualmente se

hallan distribuidos en bibliotecas y centros de investigación y que corren el riesgo de des-

aparecer por el formato en el que se conservan. Los mapas de los atlas son multidimensio-

nales y permiten estudiar aspectos diversos desde perspectivas distintas, como la variación

fonético-fonológica (Llorente, ), la caracterización y la delimitación de los campos

semánticos (Salvador, ), los procedimientos de formación de palabras (Uritani y Be-

rrueta, ), los procesos de creación léxica (Fuster, ), la historia de la lengua y la

etimología (Prat, ; García Mouton, , ; Fernández-Ordóñez, ); el cambio

lingüístico (Molina ; Del Barrio ), etc.. Así, contar con un recurso informático

que permita consultarlos de forma rápida y sistematizada aportará información muy va-

liosa para la investigación en lengua española desde múltiples perspectivas. Por ejemplo,

se podrán estudiar los procesos de creación léxica más frecuentes en la lengua popular o

contrastar la extensión y la vitalidad de los fenómenos fonético-fonológicos en la época en

la que se recogieron los datos. Además, esto podría tomarse como punto de partida para

entrevistar de nuevo los territorios y estudiar el cambio lingüístico en los últimos setenta

años, de forma similar a lo que se está haciendo, por ejemplo, para otras lenguas como el

inglés (http://tweetolectology.com/) o, a pequeña escala, con una parte del territorio anda-

luz (proyecto Vitalex). Los datos no serán solo útiles individualmente, también servirán

como complemento a otros grandes bancos de datos digitales como son los corpus textua-

les, los diccionarios electrónicos y otros atlas lingüísticos digitales (en especial, el ALPI).

Asimismo, la divulgación digital de la información contenida en las cartas lingüísticas

también contribuirá, por un lado, a educar en empatía lingüística (Ibarretxe-Antuñano,

), un aspecto con escasa presencia en el proceso de enseñanza-aprendizaje de lenguas;

y, por otro, a conservar y a dar a conocer la memoria histórica de las comunidades lingüís-

ticas de España. Por ejemplo, las localidades que fueron encuestadas a mediados del siglo

XX podrán tener acceso a los datos sobre las herramientas y las técnicas de cultivo emplea-

das por sus antepasados, las creencias o las costumbres sobre juegos, tradiciones y estas

populares, entre otros aspectos de carácter etnolingüístico. Conocer su pasado a través de

los atlas lingüísticos, les permitirá entender su presente. A continuación, se describe bre-

vemente la estructura y el contenido del corpus en el inicio de su conguración.



Digital Humanities, Corpus and Language Technology

4. Estructura y contenido del corpus en la fase preliminar

El corpus, que se halla en una etapa preliminar (desarrollo en fase de pruebas en la que se

han incorporado los datos de  mapas relativos a  conceptos, lo que supone, por el momen-

to, más de  registros), se recopila en una base de datos MySQL .. Se trata de una base

de datos relacional en código abierto compuesta por tablas (algunas formadas con catálogos

y otras abiertas) en las que se relaciona la información lingüística con la geográca. En la

interfaz de introducción de datos, en la que se trabaja en línea —lo que permite que diferen-

tes personas introduzcan datos a la vez— se pueden modicar, eliminar y crear registros de

cada una de las tablas. Para cada una de las respuestas recogidas (formas) en un mapa se crea

un registro en la base de datos que se categoriza y completa según los siguientes parámetros

(que constituyen campos en la base de datos): concepto, punto de encuesta, lengua, informa-

ción morfológica, información semántica, información sintáctica, información fonética,

información etnolingüística, tipo de respuesta, otras informaciones. A continuación, se des-

criben algunas de las funcionalidades básicas del corpus que atañen a una parte de la infor-

mación que se incorpora en la base de datos para cada uno de los registros. Se trata de la parte

que más se ha desarrollado hasta la actualidad (mayo de ) y que se reere principalmen-

te a las búsquedas de información léxico-semántica y geográca.

El corpus se ha diseñado, igual que otras herramientas lingüísticas creadas mediante ta-

blas relacionales (cfr. por ejemplo, la versión electrónica del Diccionario Crítico Etimológico

Castellano e Hispánico - DECH, versión en CD ROM ), para que puedan realizarse bús-

quedas simples (por un solo criterio) o búsquedas múltiples (que combinan distintas opcio-

nes y permiten ltrar la información para obtener resultados más concretos). Al acceder a la

interfaz, se llega a la consulta principal, que se divide en tres campos (gura ):

Figura 1. Interfaz de consulta principal de CORPAT.

En la búsqueda por  se recoge en transcripción ortográca la palabra o secuencia

de palabras que se corresponde con la respuesta de un punto de encuesta del atlas. Por

ejemplo, si se introduce la palabra jamón en la caja de consulta, el desplegable ofrece la lista

ordenada alfabéticamente de los diez registros que contienen esta cadena de caracteres,



Desarrollo de un corpus de atlas lingüísticos

bien sean palabras simples, derivadas o sintagmas que la contengan (el jamón, hueso del

jamón, jamón, jamoncete, jamoncillo). El usuario puede elegir la forma que le interese del

desplegable o verlas todas. Si se eligen todos los registros, se obtiene información sobre los

conceptos, los atlas, los mapas y los puntos de encuesta en los que aparecen estas formas.

La búsqueda arroja  registros relativos a los conceptos ‘hueso de la cadera’ y ‘pulpejo’

(gura ):

Figura 2. Resultados de la búsqueda por forma en CORPAT.

Los resultados obtenidos en esta búsqueda constituyen el reejo de la necesidad de poder

ver los datos de los atlas organizados de este modo para examinar qué relaciones lingüís-

tico-conceptuales se establecen entre los diferentes conceptos y ámbitos semánticos que

forman parte de los atlas (como las partes del cuerpo y los alimentos).

En la búsqueda por  se incluye el nombre identicativo del mapa que consti-

tuye la realidad que es objeto de investigación. Es el que suele aparecer en los índices de los

atlas y habitualmente se ubica en la parte superior izquierda de las cartas geolingüísticas

(véase la gura ). Esta posibilidad de búsqueda está vinculada al orden onomasiológico en

el que los atlas se conciben. Se parte, por tanto, del concepto (realidad) para llegar al lexema.

El nombre del concepto se ha vinculado previamente a un subcampo semántico que, a su vez,



Digital Humanities, Corpus and Language Technology

se relaciona con un campo semántico. Esta clasicación conceptual deriva de la organización

de los índices de los atlas lingüísticos. Así, por ejemplo, en el campo semántico Agricultura

(que en el ALEA ocupa del mapa  al mapa ), se incluyen quince subcampos semánticos

(aparejo para las bestias de carga, arado, carbonero, carro, el campo y sus cultivos, el corcho

y su elaboración, molinos de harina y panicación, olivo y oleicultura, vid y vinicación, etc.)

en cada uno de los cuales se clasican los conceptos cartograados. La jerarquía puede es-

quematizarse del siguiente modo con los mapas del ALEA referidos al subcampo semántico

de la vid y la vinicación que se recoge en la gura :

Figura 3. Ejemplo de jerarquía onomasiológica del corpus.

El corpus incorpora tanto los conceptos cartograados como aquellos que no tienen mapa

propio porque se consideró que presentaban poca variación para representarla en un

mapa. En la mayor parte de los atlas, los conceptos no cartograados suelen aparecer en

otros mapas y señalados en el índice con un asterisco. El ALCyL es el único que incluye las

respuestas a conceptos no cartograados en una lista —titulada “Preguntas no cartogra-

adas” (pp. -)— en lugar de incorporarlas en otros mapas. Véase, a modo de ejem-

plo, la información que sobre el concepto ‘articulación’ incluye el mapa  del ALEICan

en el que las respuestas que aparecen cartograadas son las del concepto ‘hueso de la

cadera’ (gura ):



Desarrollo de un corpus de atlas lingüísticos

Figura 4. ALEICan, mapa 494).

Esto es importante por cuanto amplía considerablemente el número de registros incorpo-

rados en el corpus. El ALEA, por ejemplo, en su primer volumen, incluye  conceptos no

cartograados en el interior de los mapas, lo que supone un incremento de un   más

de registros para este volumen.

Aunque los atlas lingüísticos regionales del español siguen una metodología homogé-

nea —motivo por el cual sus datos pueden ser contrastados y analizados como una uni-

dad—, existen pequeñas divergencias que han implicado un trabajo de unicación previo

para sistematizar la búsqueda en este campo de la base de datos. Por ejemplo, algunos

conceptos no se etiquetan con el mismo nombre, aunque se reeren a la misma realidad.

Así sucede en el caso del concepto ‘incisivo’ que aparece identicado como ‘incisivos su-

periores centrales’ en el ALEA (mapa *), ‘incisivos’ en el ALECant (mapa ), ‘(dien-

te) incisivo’ en el ALEANR (mapa ) y ‘dientes delanteros’ en el ALeCMan (mapa ).

En la búsqueda por   el usuario puede seleccionar de una lista cerra-

da el ámbito de signicación sobre el que desea realizar la consulta. Como se ha detallado

anteriormente en la descripción de la búsqueda por , los campos semánticos que

aparecen en el corpus vienen determinados por las áreas de interés de los cuestionarios que

aparecen organizados onomasiológicamente en los atlas: agricultura, animales domésticos,

animales silvestres, apicultura, creencias populares y supersticiones, de la cuna a la sepul-

tura, el cuerpo humano, el mar, el tiempo, etc. De igual modo que en el caso de la búsque-



Digital Humanities, Corpus and Language Technology

da por concepto, la información de este apartado requiere de una unicación previa. Así,

por ejemplo, mientras que el ALEA, el ALEANR y el ALEICan coinciden en dividir el

campo semántico relativo a los vegetales en diversos apartados (plantas silvestres, ores,

arbustos, hortalizas, árboles frutales, el bosque, etc.), el ALECant recoge la información

bajo el epígrafe “Vegetales” sin establecer ninguna división. Por ello, los conceptos del

ALECant que coinciden con los de los otros atlas, se han clasicado según estos. El con-

cepto ‘musgo’ puede servir de ejemplo: aparece en el ALEA, el ALEANR y el ALEICan en

el apartado “Plantas silvestres, ores y arbustos”, por ello, en CORPAT , los registros del

ALECant para este mapa se categorizan bajo este subcampo semántico que, por el momen-

to, no se visualiza en la interfaz de consulta.

A las tres búsquedas principales que se han descrito (por ,  y 

) se añaden otras opciones vinculadas a la fuente de obtención de datos. Se

puede buscar por , por   , por   , por  

  y por . Es posible, además, combinar estas búsquedas con las tres

principales; así, el usuario puede obtener todas las formas que el corpus contiene, por

ejemplo, para la provincia de Huelva en el campo semántico del cuerpo humano o todos

los registros de una localidad (gura ):

Figura 5. Interfaz de consulta secundaria de COR PAT.

En el campo    se incluye el código que recibe el enclave geográco en

cada uno de los mapas según la metodología seguida por Alvar desde el ALEA:

cada lugar está representado por una sigla (que representa el nombre de la provincia, según

la abreviatura ocial del Ministerio de Obras Públicas) y un número de tres cifras […]

cada provincia está dividida idealmente en seis casillas de las cuales las que registras cen-



Desarrollo de un corpus de atlas lingüísticos

tenas impares corresponden al oeste y las pares al este. Dentro de ellas, la localización

(norte, centro, sur) se hace por orden creciente:  (noroeste),  (centro-oeste),  (sudoeste);

 (nordeste),  (centro-este) y  (sudoeste)). (ALEA, Nota preliminar: )

El corpus, por tanto, mantiene la codicación original de los atlas regionales. El punto de

encuesta se recoge previamente en una tabla en la que se asocian con información sobre el

atlas al que pertenece, el nombre de la localidad, la provincia y las coordenadas (la longitud

y la latitud) que permiten la geolocalización. Cada registro se localiza en el mapa al pinchar

en el nombre de la localidad (gura ):

Figura 6. Localidad y punto de encuesta en CO RPAT.

Además de permitir la consulta de formas por puntos de encuesta (gura ), existe también

la posibilidad de ver todos los puntos de encuesta, bien por atlas, bien en conjunto (gura ):

Figura 7. Consulta de formas por puntos de encuesta.



Digital Humanities, Corpus and Language Technology

Figura 8. Puntos de encuesta de los atlas en CORPAT.

Igual que en algunos de los campos anteriores, se han tenido que ajustar y unicar algunas

informaciones relativas a la codicación que generaban algunos problemas en el proceso

de geolocalización. Por un lado, se han actualizado los nombres de algunas poblaciones

bien por cambios ortográcos bien porque en la búsqueda actual del nombre aparecía

información que no se halla en el atlas (tabla ); se trata de un problema al que otros inves-

tigadores han hecho alusión con anterioridad (Pato, , p.-).

Tabla 1. Algunos ejemplos los cambios de nombres de localidades.

Atlas Punto de encuesta Nombre en el atlas Nombre en CORPAT

ALEANR Na 103 Arcos Los Arcos

Na 303 Salinas Salinas de Ibargoiti

Lo 303 Tovía Tobía

Vi 600 La Guardia Laguardia

ALEA J 102 Isabela La Isabela

J 600 Pozo-Alcón Pozo Alcón

ALEICan L P 1 Garafía Villa de Garafía

ALECant S 202 Mortera de Piélagos Mortera

ALCyL Bu 602 Pinilla Pinilla de los Moros

ALeCMan GU 310 Abádanes Abánades

Además de esta falta de coincidencia parcial con el nombre actual, en el ALCyL se han

encontrado dos puntos de encuesta que tienen el mismo nombre: So  y So  se ree-

ren a Torrevicente, aunque actualmente no se han podido identicar dos localidades con

el mismo nombre. Siguiendo la ubicación del mapa del atlas, se ha identicado Torrevi-



Desarrollo de un corpus de atlas lingüísticos

cente en So . Además de estos casos, también se han tenido que modicar algunos de

los códigos de los puntos de encuesta porque coincidían en más de un atlas y ello genera-

ba un conicto al etiquetar la localidad. Esto ha sucedido en los puntos de encuesta del

ALEANR situados en Soria (So , So  y So ) y Burgos (Bu ), ya que el código

empleado coincidía con el del ALCyL. Como se trata solo de cuatro casos, se han modi-

cado ligeramente los nombres añadiendo una tercera letra a la abreviatura del nombre de

la provincia. Así, los cuatro puntos del ALEANR mencionados se hallan en CORPAT eti-

quetados como Bur , Sor , Sor  y Sor , por lo que no existe posibilidad de

confusión con los puntos del ALCyL. En el caso de los nombres de puntos de Cuenca y

Guadalajara del ALeCMan que coinciden con algunos del ALEANR, no existe posibilidad

de confusión porque en el atlas de Castilla-La Mancha las letras del código aparecen en

mayúscula (CU , CU ; CU  y CU ) y en el ALEANR en minúscula (Cu ,

Cu ; Gu , Gu ).

5. Conclusión

El corpus, sobre el que se han descrito brevemente algunas de las funcionalidades (princi-

palmente relativas al vocabulario dialectal) y características que presenta en esta primera

etapa de su desarrollo (muy preliminar), se ha diseñado como herramienta complementa-

ria a los corpus textuales y obras lexicográcas del español. No pretende, en ningún caso,

sustituir ni al atlas ni a los mapas que lo conforman, pues constituyen documentos genui-

nos de un valor incalculable, sino que persigue la protección del patrimonio histórico,

cultural y artístico. Consideramos, de acuerdo con Sousa (), que tanto los atlas como

su contenido forman parte de los bienes materiales e inmateriales de la historia de la lengua

española y que es necesario invertir tiempo en preservarlos antes de que se pierdan y el

fruto de tanto esfuerzo económico y cientíco acabe olvidándose.

Referencias

Alvar, M. (). Ordenadores y geograa lingüística: el proyecto del Atlas plurilingüe de Europa

(ALE). Revista de la Universidad Complutense, , -.

Alvar, M. y Nuño, M.ª P. (). Un ejemplo de atlas lingüístico automatizado: el ALES. Lingüística

Española Actual, (), -.

Alvar, M. y Verdejo, M. (). Automatización de atlas lingüísticos. Revista de Dialectología y

Tradiciones Populares, , -.

Aurrekoetxea, G. (). Sobre el valor de la dialectometría en la delimitación de las distancias

lingüísticas. GLOSEMA. Revista Asturiana de Llingüística, , -.



Digital Humanities, Corpus and Language Technology

Bonilla, J. E. y Bernal Chávez, J. A. (): Modelamiento de una base de datos espacial para el Atlas

Lingüístico-Etnográco de Colombia. Revista Signos. Estudios de Lingüística, (), -.

http://www.revistasignos.cl/index.php/signos/article/view//

Chambers, J. K. & Trudgill, P. (). La dialectología. Visor Libros.

Coseriu, E. (). El hombre y su lenguaje. Estudios de teoría y metodología lingüística. Gredos.

Davoine, P.-A., Ga lly, S., Garat, P., Chauvin, C., Copi, O., & Cavalière, C. (, August): New approach

to explore and to study cartographical heritage in dialectology: application to the Linguistic

Atlas of France. th International Cartographic Conference (ICC ), Rio de Janeiro, Brazil.

https://icaci.org/files/documents/ICC_proceedings/ICC/papers//fullpaper/T-

_.pdf

Del Barrio de la Rosa, F. (). Espacio variacional y cambio lingüístico en español. Visor.

Enríquez, E. (). Análisis automático de la información fónica contenida en los Atlas lingüísticos.

Lingüística española actual, (), -.

Fernández Morell, M.ª L. (). Los nombres de animales y vegetales como patrimonio lingüístico

alpujarreño a partir de los datos del proyecto VitaLex. Proyecto Vitalex. http://www.

proyectovitalex.es/pdf/articulos/--publicaciones.pdf

Fernández-Ordóñez, I. (). La lengua de Castilla y la formación del español. Discurso leído el día

 de febrero de  en su recepción pública. Real Academia.

Fuster, M.ª T. (). Voces de creación metafórica sobre el maíz y el trigo en el Atlas Lingüístico y

Etnográco de Aragón, Navarra y Rioja. Estudios de Lingüística de la Universidad de Alicante

(ELUA), , -.

Fradejas, J. A. (). Cuentapalabras. Estilometría y análisis de texto con R para lólogos. Universidad

de Valladolid. http://www.aic.uva.es/cuentapalabras/

García Mouton, P. (a). Cómo hablan las mujeres. Arco/Libros.

García Mouton, P. (b). Dialectometría. En J. M. Blecua, G. Clavería, C. Sánchez y J. Torruella

(Eds.), Filología e informática. Nuevas tecnologías en los estudios lológicos (pp. -). Editorial

Milenio.

García Mouton, P. (). El procesamiento informático de los materiales del Atlas de la Península

Ibérica de Tomás Navarro Tomás. En G. Aurrekoetxea y J. L. Ormaetxea (Eds.), Tools for lingui stic

variation (pp. -). Universidad del País Vasco/Euskal Herriko Unibertsitatea.

García Mouton, P. (). Corominas tenía razón: jamila no jámila. En M. Quirós (Ed.), Etimología

e historia en el léxico del español. Estudios ofrecidos a José Antonio Pascual (Magister bonus et

sapiens) (pp. -). Iberoamericana/Vervuert.

García Mouton, P. (). El Atlas Lingüístico de la Península Ibérica (ALPI) en línea. Geolingüística

a la carta. Estudis romànics, , -.

García Mouton, P. y Molina Martos, I. (). Trabajos sociodialectales en la comunidad de Madrid.

Revista de Filología Española, (), -.

Heap, D. (). Segunda noticia histórica del ALPI. Revista de Filología Española, (/): -.

Herrgen, J. (). e digital wenker atlas (www.diwa.info): An online research tool for modern

dialectology. Dialectologia: Revista electrònica, I (Special Issue), -.

Hoch, S. C. & Hayes, J. J. (). Geolinguistics: e Incorporation of Geographic Information

Systems and Science. e Geographical Bulletin, (), -.

Ibarretxe-Antuñano, I. (). Empatía lingüística. Archiletras / Revista de Lengua y Letras, .

Julià Luna, C. (). Reseña a Alberto Manuel Arias García y Mercedes de la Torre García ():

Ictionimia andaluza. Nombres vernáculos de especies pesqueras del “Mar de Andalucía”. Madrid:

CSIC. Dialectologia et Geolinguistica, , -.



Desarrollo de un corpus de atlas lingüísticos

Lance, D. M. & Slemons, S. V. (). e use of the computer in plotting the geographical distribution

of dialect items. Computers and the Humanities, , -.

Limper, J., Phei, J. & Williams, A. (). REDE SprachGIS: A Geographic Information System for

Linguists. In S. Brunn & R. Kehrein (Eds.), Handbook of the Changing World Language Map (pp.

–). Springer. https://doi.org/./----_-

Llorente, A. (). Fonética y fonología andaluzas. Revista de Filología Española, (/), -.

Molina, I. (). Innovación y difusión del cambio lingüístico en Madrid. Revista de Filología

Española, (), -.

Molina, I. (). Atlas lingüísticos castellanos: el ALeCMan y el ADiM. In Coloquio Geolin güística

Peninsular: investigaciones en curso (pp. -). Instituto de Lengua, Literatura y Antro pología,

CSIC, Madrid,  de septiembre de .

Moreno, F., Moreno, J. E. y García de las Heras, A. (). Cartograado automático y bases de datos.

Boletín de Filología de la Universidad de Chile, (), -.

Navarro Tomás, T. (). Noticia histórica del Atlas Lingüístico de la Península Ibérica. En Capítulos

de Geografía Lingüística de la Península Ibérica (pp. -). Instituto Caro y Cuervo.

Nerbonne, J., Heeringa, W., Prokić, J. & Wieling, M. (). Dialectology for computational linguists.

In M. Zampieri & P. Nakov (Eds.),Similar Languages, Varieties and Dialects. A Computational

Perspective (pp. -). CUP.

Pato, E. (). La sustitución de cantara / cantase por cantaría y cantaba. Universidad Autónoma

de Madrid. http://www.corpusrural.es/publicaciones//_sustitucion.pdf

Putschke, W. (). Über ein Computerprogramm zur Herstellung von Sprachkarten, Germanistische

Linguistik, , -.

Putschke, W. (). Planung einer Projektdurchführung: Automatische Kartierung des ATLAS

LINGUARUM EUROPAE, Germanistische Linguistik, , -.

Prat Sabater, M. (). Reejo espacial del cambio léxico: los atlas lingüísticos y el DCECH. Actes

del VII Congrés de Lingüística General (Barcelona, - de abril de ), -.

Salvador, G. (). Estudio del campo semántico “Arar” en Andalucía, Archivum: Revista de la

Facultad de Filología, , -.

Shuy, R . (). An Automatic Retrieval Program for the Linguistic Atlas of the United States and Canada.

In P. L. Garvin (Ed.), Computation in Linguistics: A Case Book (pp. -). Indiana University Press.

https://publish.iupress.indiana.edu/read/c-e-a-b-addbcf/section/

e-c-c-a-dddafdtoc_

Sousa, X. (). From eld notebooks to automatic mapping: the Atlas Lingüístico Galego database.

Dialectologia et Geolingüistica, (), -.

Sousa, X. (). Humanidades digitales y geografía lingüística: la edición digital delAtlas Lingüíst ico

de la Península Ibérica.En A. Gallego & F. Roca (Eds.),Dialectología digital. Anexo deVerba

(pp.-). Universidad de Santiago de Compostela.

Tisato, G. (). Acquisizione Digitale dell’Intero AIS. Documento digital. https://www.aisv.it/

aisv/abstracts/.pdf

Tranquilli, R. (). Atlas Lingüístico y Etnográco de la provincia de Zaragoza [Presentación].

Institución Fernando el Católico. https://ifc.dpz.es/index/alepz/Atlas_linguistico/Atlas_digital_

provincia_de_Zaragoza/ALEPZ_DIGITAL

Uritani, N. y Berrueta de Uritani, B. (). Los diminutivos en los atlas lingüísticos españoles.

Lingüística Española Actual, (), -.

Wood, G. (). Dialectology by computer. International Conference on Computational Linguistics

COLING : Preprint (), -. University Edwardsville.



Digital Humanities, Corpus and Language Technology

Wood, G. (). Why Not a Computer as Editor? In L. H. Burghardt (Ed.), Dialectology: Problems

and Perspectives (pp. -). University of Tennessee.

Ziamandanis, C. M. (). Dialectología y ordenadores. En M. Alvar (Dir.), Manual de dialectología.

El español de España (pp. -). Ariel.

Fuentes primarias

ADiM = García Mouton, P. y Molina Martos, I. (): Atlas Dialectal de Madrid. CSIC. http://adim.

cchs.csic.es/es

AIS = Jaberg, K. & Jud, J. (-): Sprach-und Sachatlas Italiens und der Südschweiz. Zongen:

Gedruck mit Unterstützung der Gesellscha für Wissenschaliche Forschung an der Universität

Zurich und privater Freunde des Werkes von der Verlagsanstalt Ringier & Co.,  vols.

ALEA = Alvar, M. con la colaboración de Llorente, A. y Salvador, G. (-).Atlas lingüístico y

etnográco de Andalucía.Universidad de Granada/CSIC,  vols.

ALEANR = Alvar, M. con la colaboración de Llorente, A., Buesa, T. & Alvar, E. (-).Atlas

lingüístico y etnográco de Aragón, Navarra y Rioja. La Muralla / Institución Fernando el Católico

de la Excma. Diputación provincial de Zaragoza / CSIC,  vols.

ALECant = Alvar, M. con la colaboración de Alvar, Mayoral, J. A., Nuño, M.ª P., Caballero, M.ª del

C. y Corral, J. B. ().Atlas lingüístico y etnográco de Cantabria. Arco/Libros,  vols. [Etnografía

y láminas de Elena Alvar].

ALEC = Instituto Caro y Cuervo (). Atlas Lingüístico-Etnográco de Colombia. http://alec.

caroycuervo.gov.co

ALeCMan = García Mouton, P. y Moreno Fernández, F. (). Atlas lingüístico y etnográco de

Castilla-La Mancha. Universidad de Alcalá de Henares. https://www.linguas.net/alecman/

ALEICan = Alvar, M. (-). Atlas lingüístico y etnográco de las Islas Canarias. Publicaciones

del Excmo. Cabildo Insular,  vols.

ALF = Gilliéron, J. & Edmont, E. (-). Atlas Linguistique de la France. Honoré Champion, 

vols.

ALPI = García Mouton, P. (coord.), Fernández-Ordóñez, I., Heap, D., Perea, M.ª P., Saramago, J. y

Sousa, X. (). ALPI-CSIC, edición digital de Navarro Tomás, T. (dir.):Atlas Lingüístico de la

Península Ibérica. CSIC. http://www.alpi.csic.es/

ALPR = Navarro Tomás, T. (): Atlas Lingüístico de Puerto Rico. In El español en Puerto Rico:

Contribución a la geografía lingüística hispanoamericana. Río Piedras. https://portfolio.

umontreal.ca/view/view.php?id=

CaLiEx = González Salgado, J. A. (-).Cartografía Lingüística de Extremadura.

COSER = Fernández Ordóñez, I. (dir.) (-). Corpus Oral y Sonoro del Español Rural. www.

corpusrural.es

DECH = Coromines, J. y Pascual, J. A. (-). Diccionario Crítico Etimológico Castellano e

Hispánico. Gredos. Edición digital en CD-ROM ().

DLE = Real Academia Española (). Diccionario de la lengua española. Espasa Calpe. https://dle.

rae.es/

DSA = Wenker, G. (). Sprachatlas von Nord-und Mitteldeutschland.Auf Grund von systematisch

mit Hilfe der Volksschullehrer gesammeltem Material aus circa  Orten. Straßburg.

DynaSAND = Barbiers, S. et al. (). Dynamische Syntactische Atlas van de Nederlandse

Dialecten(DynaSAND). Meertens Instituut. http://www.meertens.knaw.nl/sand/.

SCOSYA = Smith, J., Adger, D., Aitken, B., Heycock, C., Jamieson, E. & oms, G. (). e Scots

Syntax Atlas. University of Glasgow. https://scotssyntaxatlas.ac.uk.



C VI

The C-ORAL-BRASIL proposal for

the treatment of multimodal

corpora data: the BGEST corpus

pilot project

La propuesta del C-ORAL-BRASIL

para el tratamiento de datos

multimodales en corpus: el

proyecto piloto del corpus BGEST

Camila Barros & Heliana Mello

Federal University of Minas Gerais – Brazil

Abstract: Due to major technological advances, multimodal data treatment and



interplay of the sound signal and its corresponding gestuality in multimodal sponta-





      

information structure organization, as it is treated through the Language into Act





of this methodological proposal stems from the crucial role prosody plays in the



The BGESTORAL-BRASIL research initiative, is pre-

sented as the basis of the discussion carried.

e C-ORAL-BRAIL proposal for the treatment of multimodal corpora

data: the BGET corpus pilot project



Digital Humanities, Corpus and Language Technology

Resumen: Debido a los principales avances tecnológicos, la recopilación y el tratam-

iento de datos multimodales es una posibilidad animadora para brindar nuevas per-

spectivas sobre la interacción de la señal sonora con la gestualidad en datos multi-

modales producidos espontáneamente de cómo se acoplan el habla y los gestos.

Este capítulo discute cuestiones metodológicas asociados con la recopilación y el

tratamiento de datos multimodales, especialmente con respecto al papel crucial de

la acción. El objetivo principal fue conectar la organización de la estructura de la in-







sucede del papel crucial que la prosodia desempeña en las categorías informacion-

ales de la L-AcT y su impacto en la interpretación de los gestos. El corpus BGEST, un

estudio piloto dentro del grupo de investigación C-ORAL-BRASIL, es presentado como

base para la discusión realizada.

1. Introduction

Technological advances have enabled researchers to study speech beyond its transcription.

is has shown how much information is lost in the direct conversion of spoken texts to

their written counterpart. Transcriptions can oen be misleading and fail to provide a

myriad of nuances that are crucial to the understanding of how speech is produced (Mello,

). Recently, the same conclusion could be drawn regarding multimodal data (Allwood,

). Considering that most daily human interactions happen in face-to-face contexts,

what is lost if the study of these events is limited to their audio recordings?

e study of multimodal data may pose even bigger challenges than those found in

speech data study when it comes to corpora compilation and treatment, because the process

might demand even more planning and manual treatment. e use of high-quality equip-

ment, such as wireless microphones, discreet cameras and powerful soware is only part

of the issue. Most of the work involved refers to pre-planning, in which the type of inter-

action, size, format, technical specications, and usability of the corpus are established.

ese decisions aect directly the corpus and the kind of analysis that may be developed.

Moreover, the theoretical path that led to the methodological decisions must be clear to

enable a coherent analysis later on. e BGEST corpus will serve as a case-study, present-

ing methodological decisions designed to enable gesture-prosody interface studies, joining



The C-ORAL-BRAIL proposal for the treatment of multimodal corpora data: the BGET corpus pilot project

the eorts made by both the study of speech and gesture in face-to-face interactions. ese

issues will be tackled in the next sections.

2. Background

e current state of the art of multimodal corpora resembles more closely an analytic

heuristic for gesture studies than a set of guidelines towards the systematic collection of

machine-readable linguistic data (Duncan, ). Most publications rely on ad hoc data

collections that provide material for analysis but are not comparable to other data sets. Part

of the problem is due to unclear legislation that fails to provide clear rules about how to

guarantee participant anonymity while still making the data widely available. e other

major problem is the amount of time required to collect, treat, and annotate the data.

While spoken corpora are growing in terms of length and automation, multimodal

corpora fail to meet the criteria of variability, size and comparability that are common to

spoken corpora. On multimodal corpora variability, Mello () points out that the issues

inherent to video recordings outnumber the available technical solutions. Alongside the

additional costs, it is hard to predict how people will behave when video-recorded. A room

lled with video cameras, as in a movie shooting, besides demanding enormous resources

would impairs the intended spontaneity, even when the person is not camera-shy. e data

treatment required also poses a constraint to multimodal data, regarding the time em-

ployed to select, edit, transcribe, and annotate the overwhelming amount of information

that comes up in a recorded situation. When Loehr (, ) gave his rst steps in this

direction, he pointed out that annotation could take up to one hour per second of data:

thus, only ten minutes of data could take h to be ready to be analysed.

erefore, the corpus pre-planning phase should be guided initially by what can be

feasibly accomplished (Mello, ). is means that, given the current possibilities of data

compilation, it is better to have simple and well-structured data than to have many unre-

liable excerpts that cannot be directly compared. In comparison to spoken corpora, the

size must be shrunken, to enable careful annotation and internal variability, given the

previously mentioned compilation issues. A case study of the BGEST corpus, a multimod-

al corpus pilot project, stemming heavily from the C-ORAL spoken corpora family is

presented in the following sections. Many practical considerations had to be made, as the

following paragraphs show.

e protocol conducted in the BGEST corpus was intended mostly to allow studies on

the interplay of gesture and prosody according to the Language into Act eory (Cresti, ;

Moneglia & Raso, ), resulting in a multimodal corpus comparable to the monologue



Digital Humanities, Corpus and Language Technology

section of the C-ORAL spoken corpora family. e Language into Act eory is a cor-

pus-based theory about informational patterning in speech. e theory establishes that pros-

ody is a necessary interface between the linguistic content and illocutions (speech acts) con-

veyed through speech (Cresti & Moneglia, ; Moneglia, ; Cavalcante, ). is

means that speech is conducted by the actions performed in interaction, such as a question,

assertion, among many others, technically referred to as illocutions. e prosody carries (most

of) the illocutionary force. In terms of analysis, the basic is unit are utterances, perceived as

pragmatically and prosodically autonomous units, which convey the illocution. An utterance

can be internally divided in tonal units. e unit which carrying the illocution is called Com-

mentary and appears without internal divisions in the utterance. In case the utterance has

internal divisions, other units frame the illocution complementing it with textual informa-

tional or with discourse markers, regulating interaction (Moneglia & Raso, ).

e intention behind the use of L-AcT as a theoretical background to compile a mul-

timodal corpus was grounded on the actional basis that underlies both prosody and gesture

(Wagner, et al., ). In prosody, action is portrayed through an illocution, a highly con-

ventionalized form that conveys a speech act (Cresti, ; Cresti & Moneglia, ). In

gesture, action comes as a representation that is not entirely conventionalized, but it is

packed as spatio-motoric information complementary to speech (Kita & Özyürek, ).

As such, the research question that guided our research proposes a deep look into how

action may frame multimodal information.

Cantalini () dealt with this question, analysing excerpts of recited and spontaneous

speech by three Italian actors. e author analysed up to ten minutes of data in both typol-

ogies and concluded that the internal divisions in gesture are temporally compatible to

prosodic breaks, both terminal and non-terminal. Her research also showed that gestures

align to speech at the lexical, informational and illocutionary levels. ese ndings may be

seen as evidence that the informational patterning has a role in the organization of speech

and gesture.

e BGEST corpus architecture was drawn from the C-ORAL corpora family, a mul-

ti-language corpora compilation project covering all major Romance languages (Cresti &

Moneglia, ), including Brazilian Portuguese (Raso & Mello, ), Angolan Portuguese

(Rocha, et al., ) in addition to English (Cavalcante & Ramos, ). e major dier-

ence between the C-ORAL corpora to other spoken corpora initiatives is the variability of

situations portrayed, pre-planned to accurately encompass diaphasic variation. Diastratic

variation resulted from the variation of recording situations and the diatopy was restricted

to a metropolitan regional variety.



The C-ORAL-BRAIL proposal for the treatment of multimodal corpora data: the BGET corpus pilot project

e C-ORAL family documents both formal and informal spontaneous registers, be-

sides telephone conversations, television discourse, conferences, political debates, and

teaching. Informal texts are normally not shorter than , words (around ten-minute

recordings) and never longer than , words. is constraint warrants textual autonomy,

but it does not overtly represent idiosyncratic characteristics (Mello, ). e two regis-

ters branch into public and private/family contexts. e division between public and pri-

vate/family contexts takes into account the role the participants exercise in the interaction.

Within the C-ORAL family, cultural dierences moulded these denitions. Here, we only

consider the C-ORAL-BRASIL.

Regarding the architecture above, some considerations must be made to make a mul-

timodal corpus feasible. e rst concern is the time required for data treatment, which

will inevitably reduce the text’s size. In gesture study tradition, texts are considerably small:

Loehr () analysed  seconds (summing up  gestures) in four dyatic interactions.

Other authors worked with smaller time stretches: Condon and Ogston () analysed

ve seconds of psychiatric consultations, Kendon () worked on  seconds of data

collected at a pub, and McClave () analysed  gestures extracted from hours of lmed

conversations. McNeill () worked with  gestures in six dierent languages in elic-

ited monologues. Cantalini () analysed around  minutes of spontaneous speech and

seven minutes of recited speech, which were used as a model for our research.

In an attempt to select texts that were not overtly long but still held their autonomy, it

was decided that they should be no shorter than two minutes and no longer than three

minutes. is provided around  words and  gestures per text. Regarding the type of

adequate to create a friendly environment that could compensate for the recording equip-

ment embarrassment eect.

e C-ORAL family corpora have as a primary goal to be as representative as possible of

the diaphasic variation in spontaneous speech. is motivation is based on the fact that the

linguistic structure of a communicative event drastically changes from one situation to an-

other, regulated by the ongoing activities. Monologues, interactions in which one speaker

holds the oor to explain or tell a story, follow a semantic trajectory in which the main ac-

tionality is the speaking process itself. Dialogues and conversations have at least two partic-

ipants that “perform co-dependent speech actions” (Mello, , p.). While monologues

are more informative, with a richer elaboration of its content, dialogues and conversations

are less informative but richer with respect to their illocutions. e C-ORAL family is divid-

ed in one third monologic and two thirds dialogical (dialogues and conversation) texts. e



Digital Humanities, Corpus and Language Technology

justication for such division is grounded on the necessity to replicate what is found in au-

thentic interactions and represent dierent degrees of interactivity, especially regarding dif-

ferent levels of actionality. In the BGEST corpus, adjustments had to be made to encompass

the specicity of gesture capture, as gestures become more elaborate as the linguistic content

complexies. us, the BGEST corpus compilation was restricted to monologues, as their

illocutionary monotony would be compensated by a richer gestural production.

Restricting the text typology to private/family monologues, the diaphasic variation was

compromised. A greater diaphasic variation would require a whole set of cameras around

one environment that allowed participants to move around freely, as the lapel-microphones

do. For the moment, the amount and kind of data that monologues provided suce for the

analysis of the relation between gesture and prosody in this textual type.

e BGEST corpus followed the C-ORAL-BRASIL I guidelines (Raso & Mello, )

regarding the diatopic variety, capturing speakers aged  to , living in the metropolitan

area of Belo Horizonte for at least two years,  of them originally are from that city. Ten

participants are recorded in the almost , words comprising the BGEST corpus. Six of

them are female and four are male, each one responsible for roughly  of the words

uttered. All the participants were either enrolled in an undergraduate course or held college

degrees. To avoid code-blending phenomena (Casey & Emmorey, ; Emmorey et al.,

), in which uent sign language speakers gesture with signs while using an oral lan-

guage, the participants who were uent in Brazilian Sign Language were excluded (one

participant). e dominant hand was controlled to guarantee that there was no side bias

(eight were right-handed and two were le-handed). An analysis conducted aer the data

collection concluded that the gesture position and the dominant hand do not hold any

correlation (χ² = .(), p < .).

3. Data collection and treatment

3.1. Recordings

Aer the architecture was settled, recordings took place. e main concerns in this task

were acoustic quality, video recording and gesture production. e participants provided

their consent to the data collection beforehand, as well as their legal consent to image usage

rights. ere are still no clear guidelines in Brazilian legislation regarding how image can

be distributed, which leads to the videos being only available to the research group mem-

bers involved in the project. Participants’ identities are not revealed, and they are only

referred to by a codied sequence of letters.



The C-ORAL-BRAIL proposal for the treatment of multimodal corpora data: the BGET corpus pilot project

For the BGEST corpus, the participants were recruited using the main researcher’s

personal network. e researcher would refer to the project without mentioning the spe-

cic interest in gestures, asking for an appointment at the participant’s earliest convenience

and, if given permission, beginning the recording. A comfortable situation was crucial to

assure adequate data collection, especially considering that the recordings took place dur-

ing the ’s coronavirus pandemic.

e recording should enable high quality audio and video, in a way that allows phonet-

ic studies and gesture analysis. e rst constraint is easy to be overcome using high qual-

ity equipment, such as wireless lapel microphone system (Sennheiser EKG) preferably

accompanied by a dedicated recording device (TASCAM DR-MKII). is equipment

has a friendly and non-invasive size that favours the recording session as it is easily forgot-

ten by participants. e video recordings posed problems of a dierent nature: the image

resolution for analysis does not need to be extremely high (e.g., p is sucient when the

facial expression is not relevant, according to ELAN’s guidelines), but it should encompass

dierent angles of the participant. is enables the participant to freely move while talking,

not being constrained to a specic frame. Two or more cameras also give a three-dimen-

sional sense to the footage, allowing ne-grained perception of gestures. e cameras

should capture the participant’s upper limbs to the extent of wide-open arms and should

be placed as out of sight as possible. A simple, yet successful way to accomplish this is to

place the researcher in between two cameras. By doing so, the participant tends to look

more directly at the researcher than at the cameras. is also prevents the embarrassment

that a recording session may cause to participants, because they usually forget about the

equipment in a few minutes and carry the interaction naturally.

e distance in which the participants should be placed depends on the kind of lenses

used. In the BGEST corpus, two kinds of lenses were used: mm (Panasonic HC-XM)

and mm (GoPro Hero ). mm lenses are more common, accessible and distort less the

image. Because the camera must be placed on a tripod at least . m from the participant,

it draws some attention and has an inherent risk of something extraneous occurring in

between the lenses and the participant (someone walking by, for instance). mm lenses

have a smaller focal distance with a resulting broader angle of view, which causes a bigger

distortion. Even so, the smaller design and higher stability (it does not require a tripod),

makes it easier to be placed out of sight. Because it can be placed closer to the speaker, it

diminishes the risk of something coming in between the lenses and the participant.



Digital Humanities, Corpus and Language Technology

Following Mello’s () guidelines, some experience is required to nd the equipment

nest tune and recording of more time than what is intended to be transcribed should be

done. is is important due to three main reasons (Mello, , p.):

a to allow for the possibility of choosing the best acoustic quality excerpt;

b to allow for the possibility of choosing the most interesting and actional excerpts;

c to allow for the possibility of choosing more than one excerpt from the same recording

session.

e recording sessions were up to one hour long. is was more than enough for the par-

ticipants to get acquainted with the situation, speak freely and (hopefully) move their

hands. Excerpts up to three minutes long were collected from each recording, in which the

participant was holding the oor for at least  seconds (Loehr, ). Each excerpt was

then analysed concerning the informational units used and how comfortable the partici-

pant seemed. Out of fourteen recording sessions, one was excluded because the participant

was uent in Brazilian Sign Language (to avoid code-blending), three were excluded

because the participants did not feel comfortable during the session or requested to be

excluded. One was partially censored upon the participant’s request. In the ten remaining

recordings, three to ve excerpts were analysed to meet the  second criteria. Out of each

recording session, only one excerpt up to three minutes long was chosen.

e acoustic quality of the audios was measured by the script provided by Ferrari, Mello

and Vieira (), also used on C-ORAL-BRASIL II (Raso et al., in preparation). e crite-

ria used for the analysis are f, formants (F and F) and signal-noise ratio. e method

employed combines a series of Praat (Boersma & Weenink, ) measurements to a human

evaluator’s appraisal, which is crucial to double check all parameters. For audios from one to

ve minutes, ve excerpts of two seconds long were analysed. Each parameter received a score

and weighted average values with arbitrary weights were calculated. e tags are from A (best

quality) to C (worst quality). e audios in the BGEST corpus received dierent tags: ve

were classied as (A), four were (AB) and one was classied as (B).

In the best-case scenario, all the recordings should be of (A) quality, to enable good pro-

sodic analysis, as recorded by at least two cameras. However, because the recordings were

carried during the coronavirus pandemic, attempting new recording sessions was not feasible.

3.2. Transcription, speech segmentation and informational tagging

e main points that must be taken into consideration in a transcription are the previous

training of the team involved and decisions about which transcription criteria should be



The C-ORAL-BRAIL proposal for the treatment of multimodal corpora data: the BGET corpus pilot project

adopted. e C-ORAL-BRASIL transcription guidelines were followed and are summa-

rized in the following paragraphs (cf. Mello, ; Mello et al., ). e overall architec-

ture follows the CHAT guidelines (MacWhinney, ) used in the CHILDES project.

is means that each speaker turn is represented on one line, started by a “*” followed a

three-letter capitalized acronym for the participant. Each turn is delimited either by a

non-terminal break “/” or by a terminal break “//”. In the BGEST corpus, as in the C-ORAL

family, terminal breaks signal pragmatic- and prosodically autonomous utterances, accord-

ing to L-AcT (Cresti, ; Moneglia & Raso, ). Interruptions are delimited by a “+”

and cancelled words are marked by the following convention: a “&” precedes the interrupt-

ed word and “[/n]” indicates how many words have been retracted. Other linguistic phe-

nomena are represented by a symbolic convention: “hhh” indicates paralinguistic sounds

such as laughter and coughs; “&he” indicates hesitation or taking time (regardless of the

vowel enunciated); “<>” angular parentheses signal an overlap; “yyyy” indicates an incom-

prehensible sequence; and “xxx” indicates an incomprehensible word.

Example 1. Main criteria used in targeting – bgest_010[2-4]: 1

*CLA 

hhh I am not going to remember // <but> +

*CAM 

<but> you was on / [the] prosecution or on +

*CLA 



In the example above (), the speaker CLA laughs at the beginning of an utterance and

produces an interrupted utterance, marked by “+”. In [], CLA stutters “j” at the beginning

of the second utterance, abandoning the word. is is marked by “&j” with [/] indicating

that the previous word has been cancelled.

Orthographic conventions aim to guarantee readability, reliability and ease in the following

computational treatment. Non-orthographic criteria tried to capture on-going phenomena of

grammaticalization and lexicalization in Brazilian Portuguese, such as the apheresis of the verb

ser (to be), as in tá (>está), tar (> estar), tamos (> estamos) forms. Phenomena, such as pro-

duction and agreement errors are noted in the metadata that accompanies the transcription.

Acronyms and abbreviations can be transcribed in two ways: only in capitaled words if uttered

as a single word (e.g., SUS), or, when they are uttered as a sequence of letters, as syllables formed

by a single letter (e.g., uefeemegê – UFMG/Federal University of Minas Gerais).

1 The icons   indicate an associated audio or video that can be accessed in <>.



Digital Humanities, Corpus and Language Technology

Example 2. Transcription incorporating orthographic and non-orthographic conventions: apheresis and cliticization –

bgest_007[19]: 

*CAR 



In the example () above, other conventions are presented. In [], the apheretic forms tava

(>estava), as well as the cliticization of the subject pronouns cê (>você) and e’ (>ele) are

portrayed. e revision of the transcripts took place in two stages. e rst, shortly aer

transcription, was performed by experienced reviewers from the C-ORAL-BRAZIL group.

e second happened during the informational annotation also conducted by experient

annotators from the C-ORAL-BRAZIL group.

e segmentation of recorded stretches of speech followed L-AcT in its assumption that

utterances make up the basic pragmatic unit of study. Here, it will be argued that the prag-

matic denition used by the Language into Act eory is compatible with gesture studies

for two reasons: it is grounded on the same actional principles that are believed to regulate

and organize speech, and it is easily implemented. Furthermore, it will be argued that the

segmentation of gesture and speech cannot be conducted separately.

As briey said in section (), the BGEST corpus is grounded on the L-AcT analytical

categories. is theory holds as the basic unit of analysis the utterance, as it can be prosodi-

cally and pragmatically interpreted and conveys a speech-act. When an utterance only carries

a single information unit, it necessarily corresponds to a Comment unit, i.e., the informa-

tional unit that conveys the illocution an utterance is simple if it only conveys one information

unit and it is complex when it portrays two or more units. e informational units that frame

the illocutionary one (Comment), can be either textual or dialogic units. Textual units make

up the linguistic content in the utterance and can be: Topic, Appendix of Comment or Topic,

Locutive Introducer and Parenthetical. Dialogic units can be roughly referred to as units that

regulate the interaction (Raso, ; Raso & Vieira, ). eir specications will not be

explored in this paper (Moneglia & Raso, ). In some cases, the isomorphism of one illo-

cution per utterance is not held, in which case there are textual units named Stanzas. is

happens oen in monologues, in which the textual content is divided in Bounded Commen-

taries, which indicate a sign of prosodic continuity, or in Multiple Commentaries, which form

a prosodic pattern. Utterances can accommodate scanned units, which take place when the

speaker must divide her/his uttering of speech for reasons other than to convey an informa-

tion unit, e.g., breathing (Moneglia & Raso, ).

is approach diers from others focused on the syntactic or interactional segmenta-

tion of speech, based on complete predications or speech turns. By doing so, L-AcT is able



The C-ORAL-BRAIL proposal for the treatment of multimodal corpora data: the BGET corpus pilot project

to describe more accurately verbless units and large dierences in turn divisions caused by

dierent text typologies (Cavalcante, ). Concerning gestures, this approach also diers

from “apex-guided” approaches, such as Loehr () that looked for the rhythm align-

ment of the apex of gestures and pitch accents following the ToBI model (Pierrehumbert,

). e L-AcT approach towards gestures is tightly bound to the coordination of pro-

sodic breaks and the manual patterns that are associated with informational units. is has

the practical benet of being more easily implemented than approaches that adopt ges-

ture-speech dissociated criteria.

Another layer of annotation that was implemented in the BGEST corpus is the infor-

mational one.

3.3. Gesture annotation

Gesture annotation followed the denitions proposed by Kendon (, ) organized

in a hierarchy by Kita, van Gijn, and van der Hulst (), and systematized by Bressem,

Ladewig, and Müller (). e gestural annotation was performed in the ELAN soware

(Wittenburg et al., ) a multimodal, free and open-source data, annotation tool. e

annotation adopted in the BGEST corpus is simplied in relation to the protocol provided

by Bressem, Ladewig, and Müller (), thus, it provides only crucial information about

movement, direction, hand shape and spatial position.

e gesture is basically dened by its expressive phase, an energy peak that constitutes

the semantic part of it. e stroke may be preceded by a preparation phase and followed

by a retraction phase. e linear structure of (preparation), stroke (and retraction) is called

a gesture phrase. ey can be either isolated or compounded by sequences of phrases that

are delimited by a rest position (when the hands and arms are relaxed). A sequence of

gesture phrases is called a gesture unit. As an example of this rst explanation, an excerpt

of the bgest_ le is shown. It is synchronized to the utterance “aí minha mãe conheceu

meu pai lá //” (en. and then my mom met my dad there //).

2 



Digital Humanities, Corpus and Language Technology

Figure 1. Gesture excursion (bgest_0 01, GU: 106, GP: 214). 

e participant (JUL) initially has her hands on her lap in a rest position. en, JUL rais-

es her right hand in a at form handshape towards the center. In the third frame, the

retraction of the gesture is depicted. As there is only one movement peak, the gesture is a

single phrase and unit.

It may happen that the stroke is composed of a series of repetitive movements, dened

by Kita, van Gijn and van der Hulst () as a repetitive phase, included in the attack label.

When the stroke has a static peak of movement (McNeill, ), the stroke label is used

and the hold marked in the movement tier. Figure  shows an excerpt from bgest_,

synchronous to the utterance “a ideia é tipo você quebrar isso em [/] em / compreensão /

né / &he / discussão / e reprodução / basicamente / né //” (en. the idea is basically that you

break it in [/] in / comprehension / right / &he / discussion / and reproduction / basically /

right //).

Figure 2. Gesture excursion of a unit compound by three gesture phrases (bgest_003, GU: 103). 

Each frame illustrates a dierent stroke with no rest position in between. is is a gesture

unit compounded by three phrases.



The C-ORAL-BRAIL proposal for the treatment of multimodal corpora data: the BGET corpus pilot project

At the level of ne-grained detailing, the annotation simplies the protocols adopted.

First, gesture types as indicated by McNeill’s () were not included. is decision was

made, because this specic annotation would require an extra validation step that would

not be feasible in the time available for the research. Another dierence is that the anno-

tation was done with sound support, as “(…) if the goal is to annotate the co-speech gesture

then the removal of the information relating to speech, with respect to which the gesture

nds relevance, does not seem justied as it eliminates perceptually relevant information

for its identication.” (Cantalini & Moneglia, , p.). is decision is supported by

Loehr () and Cantalini ().

As for the three levels of annotation for gestures predicted by Bressem, Ladewig, and

Müller (), only some of the features were annotated. e annotation stage includes the

three levels listed, all mandatory:

 Determining units: gestural unit and gesture phrase;

 Annotation of form: hand shape, orientation, spatial position, movement type, direc-

tion of movement, movement quality;

 Motivation of form: mode of representation, action, motor pattern and image schema.

Only the bold items were noted, taking into account that i) this step was simplied so that

the annotation was informative, but not excessive; ii) the motivation of form was not ini-

tially considered as relevant and, therefore, not considered in this annotation. Each of the

annotated parameters is briey explained below.

Handshape is annotated according to its form during the stroke. e ngers used were

not annotated, for the hand shape was already informative enough for our purposes. e

parameters are st, at hand, single ngers, and combination of ngers.

Figure 3. 

Orientation refers to the orientation of the palm in relation to the body, using McNeill’s

denition (, p.). e features refer to the sagittal axis (considering a line perpen-



Digital Humanities, Corpus and Language Technology

dicular to the body), which dene if the gesture is towards center or away from center.

When the gesture moves in relation to the torso, it can be towards body or away from body.

e diagonal orientation of the hand was not noted.

Figure 4. Orientation of movement (Bressem, 2013, p.1088).

ere are six types of movement annotated in the corpus: straight, arched, circle, spiral,

zigzag, and S-line.

Figure 5. Movement types (Bressem, 2013, p.1088).

e spatial reference of the gesture is taken from McNeill (, p.) and sets the param-

eters as center-center, center, periphery, and extreme periphery. ey are arranged on a

le-right and up-bottom axis, as shown below (Figure ).

3 





The C-ORAL-BRAIL proposal for the treatment of multimodal corpora data: the BGET corpus pilot project

Figure 6. Gesture position (McNeill, 1992, p.89).

3.4. Usability

A multimodal, aligned corpus provides easy and ready access to sound, text and image of the

excerpt under scrutiny, allowing fruitful exploitation of it. For BGEST, the text-to-sound

alignment was done using Praat (Boersma & Weenink, ) and imported into ELAN (Wit-

tenburg et al., ), where gesture and speech annotation were coupled. Both soware were

chosen because they are free, open source and the tiers can be imported from one to the other.

e annotation is hierarchically divided in tiers separated in speech and gesture. e

speech tiers are annotated for terminal and no terminal breaks. e gesture tiers are annotat-

ed for gesture units, phrases, and phases. e phases are subdivided in orientation, movement,

handshape, and position. is enables the user not only to watch the video and follow the

transcription but also to export the alignment of the data in a data frame format, to be easily

comparable. Ready access to the audio and video allows one to see how crucial the gesture and

prosody interplay is to speech segmentation. is can be seen in the following example:

Example 3. Dierent segmentation possibilities based only on the transcription:

*GUI 

 

te-ei as manhas que tens sabe

  

right Judeo-Christian [ancestry] for a long time &he it is like this tell me who do you walk with and I will

tell you and I will tell who you are you know



Digital Humanities, Corpus and Language Technology

e possible segmentations to this excerpt, without access to the corresponding audio,

would be (almost exclusively) guided by a syntactic paradigm. Below are some possibilities

for such a segmentation:

a [e isso não só na cultura grega como a gente sabe que na cultura hebraica foi também a

questão da procedência né judaico-cristã por muito tempo] [&he] [é tipo isso me diga

com quem andas dir-te-ei as manhas que tens sabe]

b [[e isso não só na cultura grega] [como a gente sabe que na cultura hebraica foi também

a questão da procedência né judaico-cristã por muito tempo]] [[&he] é tipo isso me diga

com quem andas dir-te-ei as manhas que tens sabe]]

c [[e isso não só na cultura grega] [como a gente sabe que na cultura hebraica foi também]

[a questão da procedência [né judaico-cristã] por muito tempo]] [&he é tipo isso me

diga com quem andas dir-te-ei as manhas que tens sabe]

d [[e isso não só na cultura grega] [como a gente sabe que na cultura hebraica foi também

a questão da procedência né judaico-cristã por muito tempo]] [[&he] é tipo isso] [me

diga com quem andas] [dir-te-ei as manhas que tens sabe]

In (a), we would have a complex clause followed by an assertion, without internal divisions.

In (b), the rst clause could be internally divided in two. In (c), the clause could be even

more divided, with an insertion as “né judaico-cristã” (right Judeo-Christian [ancestry]).

e last possibility envisioned without access to audio would be an internal division of the

second clause.

Listening to the audio, the ambiguity concerning the syntactic organization of the ut-

terance are restricted to two main possibilities, which would allow a corresponding accu-

rate informational tagging.

e [[e isso] [não só na cultura grega] [como a gente sabe que na cultura hebraica] [foi

também] [a questão da procedência] [né judaico-cristã] [por muito tempo] [&he] [é

tipo isso]] [[me diga com quem andas] [dir-te-ei as manhas que tens] [sabe]]

f [[e isso] [não só na cultura grega] [como a gente sabe que na cultura hebraica] [foi

também] [a questão da procedência] [né judaico-cristã] [por muito tempo]] [[&he] [é

tipo isso] [me diga com quem andas] [dir-te-ei as manhas que tens] [sabe]]

Both possibilities sound plausible because they reect the possible prosodic patterns. e

doubt regards the placement of the terminal break that can follow por muito tempo or é

tipo isso. e prosodic pattern supports both interpretations due to a sign of continuity in

por muito tempo, weak enough to be a non-terminal break, but strong enough to not be



The C-ORAL-BRAIL proposal for the treatment of multimodal corpora data: the BGET corpus pilot project

dismissed. e ambiguity is resolved by the video, which shows two gesture units aligned

to each one of the utterances conveyed in the turn, thus leading to the segmentation in

example .

Example 4. Final segmentation with audio and video (bgest_002[3-4]):  

*GUI            

    

com quem andas / dir-te-ei as manhas que tens / sabe //

Translation:     



me who do you walk with / and I will tell you and I will tell who you are / you know //

Figure 7.  

In the rst utterance, an iterated gesture with the right hand shaped in a combination of

ngers moving in circles is made (frame ). e second frame is synchronous to “por muito

tempo” and is a straight movement. e third frame indicates how the participant used the

rest position as a shiing device, implying it to indicate the termination of the last utter-

ance. Another kind of pattern appears in “me diga com quem andas / dir-te-ei as manhas

que tens / sabe //” with the right hand using the bench as support for a rhythmic gesture.

Without ready access to aligned transcription, audio and video, this discussion would

not be possible, leading to misinterpretation of the data. Neither would it be possible to go

through the audio, make measurements, and associate it with the gesture pattern.

is discussion indicates that despite the technological milestones that spoken corpo-

ra have reached, another stretch must be taken to include multimodal information in the

analysis of human interaction. Despite the myriad of information in multimodal data, the

gestures and facial expressions that appear in the data are of the utmost importance to

accurately describe and understand ongoing communication processes.



Digital Humanities, Corpus and Language Technology

4. Conclusion

e BGEST pilot project showed that the current state of art and technological devices at

hand are not ideal but are sucient to provide the means necessary for robust multimod-

al data compilation projects. It is crucial to understand the decisions that have to be made

along the process and, by doing so, what is le behind, what is feasible and goals to be

pursued in the future.

A set of those decisions was demonstrated in this paper, having action as its founda-

tional point. e examples were drawn from the BGEST corpus to support the argument

that the possibilities available for multimodal data compilation currently allow the devel-

opment of multimodal corpora.

References

Allwood, J. (). Multimodal corpora. In A. Lüdeling & M. Kytö (Eds.), Corpus linguistics: An

international handbook (pp. -). de Gruyter.

Boersma, P., & Weenink, D. (). Praat: Doing phonetics by computer (..) [Computer soware].

http://www.praat.org/

Bressem, J. (). . A linguistic perspective on the notation of form features in gestures. In C.

Müller, A. Cienki, E. Fricke, S. Ladewig, D. McNeill, & S. Tessendorf (Eds.), Handbücher zur

Sprach- und Kommunikationswissenscha / Handbooks of Linguistics and Communication

Science (HSK) / (pp. -). de Gruyter. https://doi.org/./.

Bressem, J., Ladewig, S., & Müller, C. (). . Linguistic Annotation System for Gestures. In C.

Müller, A. Cienki, E. Fricke, S. Ladewig, D. McNeill, & S. Tessendorf (Eds.), Handbücher zur

Sprach- und Kommunikationswissenscha / Handbooks of Linguistics and Communication

Science (HSK) / (pp. -). de Gruyter. https://doi.org/./.

Cantalini, G. (). La gestualità co-verbale nel parlato spontaneo e nel recitato. Università degli studi

Rom a Tre .

Cantalini, G., & Moneglia, M. (). e annotation of gesture and gesture/prosody synchronization

in multimodal speech corpora. Journal of Speech Sciences, , -.

Casey, S., & Emmorey, K. (). Co-speech gesture in bimodal bilinguals. Language and Cognitive

Processes, (), -. https://doi.org/./

Cavalcante, F. A. (). e topic unit in spontaneous American English [Doctoral Dissertation].

Universidade Federal de Minas Gerais.

Cavalcante, F. A., & Ramos, A. C. (). e American English spontaneous speech minicorpus.

CHIMERA. Romance Corpora and Linguistic Studies, (), -.

Condon, W. S., & Ogston, W. D. (). Sound lm analysis of normal and pathological behavior

patterns. e Journal of Nervous and Mental Disease, (), -. https://doi.

org/./--

Cresti, E. (). Corpus del italiano parlato. Accademia della Crusca.

Cresti, E., & Moneglia, M. (Eds.). (). C-ORAL-ROM: Integrated reference corpora for spoken

Romance languages. J. Benjamins.



The C-ORAL-BRAIL proposal for the treatment of multimodal corpora data: the BGET corpus pilot project

Cresti, E., & Moneglia, M. (). Informational Patterning eory and the corpus-based Description

of Spoken Language: e compositionality Issue in the Topic-Comment Pattern. In M. Moneglia

& A. Panunzi (Eds.), Bootstrapping information from corpora in a cross-linguistic perspective (pp.

-). Firenze University Press.

Duncan, S. (). . Transcribing gesture with speech. In C. Müller, A. Cienki, E. Fricke, S. Ladewig,

D. McNeill, & S. Tessendorf (Eds.), Handbücher zur Sprach- und Kommunikationswissenscha

/ Handbooks of Linguistics and Communication Science (HSK) / (pp. -). de Gruyter.

https://doi.org/./.

Emmorey, K., B orinstein, H., ompson, R., & Gollan, T. (). Bimodal bilingualism. Bilingualism:

Language and Cognition, (), -. https://doi.org/./S

Ferrari, L., Mello, H., & Vieira, M. (). Reexões sobre a classicação da qualidade acústica de

dados de corpora orais. Anais do Congresso Brasileiro de Prosódia, , -.

Kendon, A. (). Some relationships between body motion and speech: An analysis of an example.

In A. Siegman & B. Pope (Eds.), Studies in dyadic communication (pp. -). Pergamon Press.

Kendon, A. (). Gesture: Visible Action as Utterance. Cambridge University Press. https://doi.

org/./CBO

Kita, S., & Özyürek, A. (). What does cross-linguistic variation in semantic variation. Journal of

Memory and Language, (), -.

Kita, S., van Gijn, I., & van der Hulst, H. (). Movement phases in signs and co-speech gestures, and

their transcription by human coders. In I. Wachsmuth & M. Fröhlich (Eds.), Gesture and Sign

Language in Human-Computer Interaction (pp. –). Springer. https://doi.org/./BFb

Loehr, D. (). Intonation and Gesture [Doctoral dissertation, University of Georgetown].

University of Georgetown.

Loehr, D. (). . Gesture and prosody. In C. Müller, A. Cienki, E. Fricke, S. Ladewig, D. McNeill,

& J. Bressem (Eds.), Handbücher zur Sprach- und Kommunikationswissenscha / Handbooks of

Linguistics and Communication Science (HSK) / (pp. -). de Gruyter. https://doi.

org/./.

MacWhinney, B. (). e CHILDES Project: Tools for Analyzing Talk (rd Edition). Lawrence

Erlbaum Associates. https://talkbank.org/manuals/CHAT.pdf

McClave, E. (). Gestural beats: e rhyt hm hyp othesis. Journal of Psycholingui stic Research, (),

-. https://doi.org/./BF

McNeill, D. (). Hand and mind: What gestures reveal about thought. University of Chicago Press.

McNeill, D. (). Gesture and thought. University of Chicago Press.

Mello, H. (). Methodological issues for spontaneous speech corpora compilation: e case of

C-ORAL-BRASIL. In T. Raso & H. Mello (Eds.), Studies in Corpus Linguistics (pp. -). John

Benjamins Publishing Company. https://doi.org/./scl..mel

Mello, H., Raso, T., Mittmann, M., Vale, H., & Côrtes, P. (). Transcrição e segmentação prosódica

do corpus C-ORAL-BRASIL: critérios de implementação e validação. In T. Raso & H. Mello,

C-ORAL-BRASIL I: Corpus de referência do português brasileiro falado informal (pp. –).

Editora UFMG.

Moneglia, M., & Raso, T. (). Appendix: Notes on the Language into Act eory. In T. Raso & H.

Mello (Eds.), Studies in Corpus Linguistics (pp. -). John Benjamins Publishing Company.

https://doi.org/./scl..mon

Pierrehumbert, J. B. (). e phonology and phonetics of English intonation [Doctoral dissertation,

Massachusetts Institute of Technology, Dept. of Linguistics and Philosophy]. MIT repository.



Digital Humanities, Corpus and Language Technology

Raso, T. (). Prosodic constraints for discourse markers. In T. Raso & H. Mello (Eds.), Studies in

Corpus Linguistics (Vol. , pp. –). John Benjamins Publishing Company. https://doi.

org/./scl..ras

Raso, T., & Vieira, M. A. (). A description of Dialogic Units/Discourse Markers in spontaneous

speech corpora based on phonetic parameters. CHIMERA: Revista De Corpus De Lenguas

Romances Y Estudios Lingüísticos, (), –. https://revistas.uam.es/chimera/article/

view/.

Raso, T., & Mello, H. (Eds.). (). C-ORAL-BRASIL I: Corpus de referência do português brasileiro

falado informal. Editora UFMG.

Raso, T., Mello, H., & Ferrari, L. (In preparation). C-ORAL-BRASIL: corpus de referência do português

brasileiro falado. II.

Rocha, B., Mello, H., & Raso, T. (). Para a compilação do C-ORAL-ANGOLA. Filologia e Linguística

Portuguesa,  (Especial): -. https://doi.org/./issn.-.viEspecialp-

Wagner, P., Malisz, Z., & Kopp, S. (). Gesture and speech in interaction: An overview. Speech

Communication, , -. https://doi.org/./j.specom....

Wittenburg, P., Brugman, H., Russel, A., Klassmann, A., & Sloetjes, H. (). ELAN: a Professional

Framework for Multimodality Research. Proceedings of LREC , –. https://archive.

mpi.nl/tla/elan



C VII

Las tecnologías del lenguaje y las

lenguas indígenas mexicanas:

constitución de un corpus paralelo

amuzgo-español

Human language technology and

the indigenous languages in

Mexico: the Amuzgo-Spanish

parallel corpus

Antonio Reyes Péreza & H. Antonio García Zúñigab

Universidad Autónoma de Querétaro (a), Instituto Nacional de Antropología e Historia (b) – México

Resumen: En este artículo se describen las particularidades de la construcción del

primer corpus paralelo amuzgo-español, el cual representa una fuente de datos

reales para la investigación lingüística, particularmente, así como para el desarrollo

de recursos y herramientas para lenguas escasamente representadas e, incluso, en

peligro de extinción. Los procesos llevados a cabo durante la constitución del corpus

se detallan de acuerdo con las siguientes fases: i) obtención de datos en la lengua

mediante entrevistas realizadas en trabajo de campo, ii) transcripción de las entre-

vistas; iii) procesamiento de la señal sonora en PRAAT para realizar análisis espec-

-

tica de traducciones a partir de la correspondencia lingüística entre lenguas.

Finalmente, se muestra el resultado de la implementación del corpus en una plata-



Abstract-

        



Digital Humanities, Corpus and Language Technology

collected from colloquial speech in Amuzgo (glossed and translated into Spanish) for





  -



iv) glossing and translating data into Spanish; v) semiautomatic alignment of trans-

lations. Finally, an open access tool is presented because of the corpus release.

1. Introducción

El lenguaje verbal es la vía más natural para que los seres humanos pueden manifestarse e

interactuar entre sí. Las Tecnologías del Lenguaje Humano (TLH) buscan, desde una pers-

pectiva que agrupa el conocimiento y las metodologías desarrolladas en diferentes campos y

disciplinas, hacer que una computadora pueda analizar, interpretar, comprender y producir

información que la faculte para la comunicación e interacción con cualquier ser humano a

través del uso del lenguaje. Para lograrlo, además de un conjunto vasto de técnicas, métodos

y algoritmos, es necesario que existan recursos que representen en un nivel micro el fenóme-

no lingüístico que sucede a nivel macro. En este sentido, una de las formas más comunes para

representar el lenguaje verbal, sea en su vertiente oral o escrita, es la constitución de corpus

lingüísticos. Con este tipo de recursos, todo sistema computacional podría tener estructura-

do el conocimiento lingüístico y así tener la posibilidad de determinar la estructura y signi-

cado de casi cualquier expresión lingüística (Manning y Shütze, ), desde la fonética y

la fonología hasta el discurso, pasando por la morfología, la sintaxis y la semántica.

En este escenario de creación de recursos que sirvan como fuente de conocimiento, no

solo para nes lingüísticos, antropológicos o sociales, sino incluso para cuestiones relacio-

nadas con el desarrollo de tecnologías que permitan el tratamiento computacional del

lenguaje, el trabajo realizado desde la segunda mitad del siglo pasado se ha centrado en un

conjunto no muy amplio de lenguas, en donde el inglés es la lengua más representada; por

citar un par de recursos muy conocidos, el Corpus Brown o el BNC. En este sentido, el

español también ha sido una lengua que goza de una representación interesante en térmi-

nos de corpus disponibles, baste mencionar tres de los más representativos: el Corpus de

Referencia del Español Actual (CREA), el Corpus Diacrónico del Español (CORDE) y el

Corpus del Español del Siglo XXI (CORPES). Asimismo, ha habido esfuerzos por repre-

sentar algunas otras lenguas, muchas de ellas con una descripción lingüística muy com-

pleta, como es el caso del italiano, el árabe y el alemán, entre otras (Quastho et al., ),



Las tecnologías del lenguaje y las lenguas indígenas mexicanas: constitución de un corpus paralelo amuzgo-español

así como lenguas escasamente representadas, minoritarias o, incluso, en peligro de extin-

ción (Prinsloo, ; Vinogradov, ; Midrigan et al., ). No obstante, hay muchas

lenguas que en la actualidad carecen de representatividad, y no solo en términos de recur-

sos, sino, en muchos casos, en términos de existencia de datos mínimos necesarios para

realizar una descripción lingüística. Tal es el caso de varias lenguas indígenas mexicanas.

En México, además del español, coexisten más de  lenguas indígenas, con sus respec-

tivas variantes, las cuales son, en algunos casos, ininteligibles entre sí. Esta enorme diversidad

se describe en el Catálogo de las lenguas indígenas nacionales: variantes lingüísticas de México

con sus autodenominaciones y referencias geoestadísticas (INALI, ) en términos de fa-

milias lingüísticas,  agrupaciones y  variantes. De las  agrupaciones identicadas, las

más representativas en términos de hablantes son el náhuatl, el maya, el mixteco y el zapote-

co. La primera con más de un millón de hablantes, la segunda con alrededor de ,

hablantes, mientras que las dos últimas con poco más de , hablantes cada una (INEGI,

). Del resto de lenguas, algunas no llegan a los , hablantes, mientras que algunas

otras están en vías de desaparición. Esta gran variedad de lenguas es, a todas luces, reejo de

una riqueza cultural y social, así como de una cosmovisión e identidad. No obstante, es evi-

dente que desde la perspectiva de las TLH hay una insuciencia de recursos, herramientas

e, incluso, materiales lingüísticos para la gran mayoría de estas lenguas. Algunas de ellas, de

forma sorprendente, a pesar de que han sido bien estudiadas y descritas.

Dado el contexto presentado, en este artículo se describe un trabajo interinstitucional

(Universidad Autónoma de Baja California e Instituto Nacional de Antropología e Histo-

ria) relacionado con una lengua que, no obstante su estado de descripción y cantidad de

hablantes, muestra ya un vínculo incipiente con las TLH: el amuzgo.

El amuzgo o jnon nda se habla en algunas localidades de tres municipios de dos en-

tidades federativas del sureste de México: Oaxaca y Guerrero. Cuenta con alrededor de

, hablantes (INEGI, ). A pesar de que existen trabajos descriptivos importantes

y notables (Buck,  y ), la lengua no ha sido documentada ni descrita de forma

exhaustiva. En términos gramaticales, el amuzgo se caracteriza por contar con un reper-

torio extenso de clases léxicas, lo que se maniesta en una alta complejidad verbal (Smith

y Tapia, ; Apóstol, ), un conjunto amplio de pronombres personales (Buck, ;

Palancar y Feist, ), así como en el empleo de tonos fonológicos para la marcación de

distintos signicados morfológicos, tales como la posesión (Hernández et al., ; García

et al., en prensa).

1 Algunos de los casos más extremos serían el ayapaneco, el oluteco, el tuzanteco, el 



Digital Humanities, Corpus and Language Technology

La constitución del corpus paralelo, que es el objetivo de este trabajo, se sustenta en la

obtención de muestras reales de habla en amuzgo mediante entrevistas realizadas en cam-

po con hablantes nativos de la lengua. Al respecto, es importante destacar que la creación

de este recurso, además de ser un aporte para aumentar la atención a las lenguas escasa-

mente representadas e, incluso, en peligro de extinción, permitirá el desarrollo de nuevos

recursos que pueden aprovechar el conocimiento explícito e implícito de los materiales que

integran el corpus. Por ejemplo, desde el ámbito de la traducción automática, para mejorar

los procesos de alineación entre segmentos del texto origen y el texto meta o, por otro lado,

para desarrollar sistemas de extracción de información sustentados en las características

intrínsecas de la lengua.

A continuación se presenta la organización de los contenidos tratados en el artículo: en

la Sección  se presentará el estado del arte de los trabajos de TLH relacionados con las lenguas

indígenas mexicana. En la Sección  se detallarán algunas características lingüísticas repre-

sentativas de la lengua amuzga. La Sección  describirá el proceso para la obtención de los

datos orales, así como el procesamiento espectrográco y textual de los mismos. En la Sección

 se explicará el proceso de glosado y de traducción al español, así como el trabajo de alinea-

ción de las traducciones y la liberación de una primera versión del corpus en una plataforma

web. Finalmente, en la Sección  se presentarán las conclusiones, centrando la atención en

algunos resultados alcanzados, así como resaltando las líneas de trabajo futuro.

2. El tratamiento tecnológico de las lenguas indígenas mexicanas

De acuerdo con los datos presentados en el documento Análisis del Sector de las Tecnolo-

gías del Lenguaje en México (, p.), la existencia de recursos en lenguas indígenas de

América Latina es casi inexistente. Una de las principales causas, señalan, es la mínima

presencia de datos, en el plano escrito, tanto en medios tradicionales, tales como textos

impresos, así como en medios electrónicos, sean estos contenidos web o de redes sociales.

A lo anterior, se puede añadir el hecho que se mencionó en la sección previa: hay varias

lenguas indígenas que no cuentan con la descripción lingüística suciente, ya sea porque

no han sido atendidas en un sentido académico, o bien, porque su gramática es difícil o la

consecución de datos es altamente complicada y, en ocasiones, riesgosa.

2 Al respecto hay que puntualizar que esta situación representa, además de una desventaja académica, una de

las consecuencias inmediatas de lo que se conoce como brecha tecnológica o digital. Como se sabe, este es un



por un lado, la marginación de las comunidades indígenas de México y otras latitudes del mundo y, por otro,

la incapacidad para emplear, adquirir y generar recursos tecnológicos que, en un contexto generalizado de

inequidad e injusticia, termina por excluir a estas comunidades (cf. Acosta & Aguilar, 2020; Arévalo, 2015).



Las tecnologías del lenguaje y las lenguas indígenas mexicanas: constitución de un corpus paralelo amuzgo-español

A pesar de esta situación poco alentadora, en Mager, Gutiérrez, Sierra y Meza (),

se listan algunos recursos digitales en estas lenguas. Entre ellos, destacan un par de corpus

paralelos, así como herramientas para análisis morfológico para algunas lenguas de las

familias otamangue y uto-azteca. De manera más especíca, en tareas relacionadas con la

constitución y explotación de corpus, se pueden citar los trabajos de Gutiérrez () y

Gutiérrez, Sierra y Hernández () en los que presentan el trabajo realizado con un

corpus paralelo náhuatl-español.

Por otra parte, en un artículo de , Mager, Barrón y Meza describen un acercamien-

to a la traducción estadística automática entre dos lenguas que en términos tipológicos son

muy diferentes: el wixarika y el español. Los autores detallan una aproximación basada en

la descomposición morfológica para mejorar los procesos de alineamiento con las traduc-

ciones al español y paliar la ausencia de datos en wixarika (Mager et al., , p.-). En

otra línea de trabajo, en el proyecto Digging Early Colonial History han utilizado técnicas

y herramientas de PLN y aprendizaje automático para realizar tareas de anotación con

documentos históricos, mayoritariamente en español, pero en los cuales también aparecen

datos en lenguas como el náhuatl, el mixteco y el maya.

En trabajos más relacionados con la oralidad se puede citar la investigación publicada

por Castellanos et al. (, p.), en la que se detallan los resultados de una aproximación

para evaluar la pronunciación de aprendices de lenguas indígenas, particularmente del

mixe, aplicando técnicas de modelado y reconocimiento de voz. Asimismo, el trabajo de-

sarrollado por Cruz y Waring () acerca del uso de redes neuronales para el reconoci-

miento automático de voz en chatino o el de Adams et al. (), también para el chatino,

en el que se focaliza la importancia y complejidad del proceso de transcripción y anotación

de los datos orales, al igual que el tratamiento adecuado de la información tonal de esta

lengua. Esto último es de suma importancia, puesto que el tono, como se verá más adelan-

te en este trabajo, constituye un elemento de la lengua amuzga esencial para marcar (dotar

de sentido) elementos gramaticales especícos, lo cual dista mucho de lo que ocurre en

lenguas como el náhuatl, el wixarika o el mixe.

3 

4 En efecto, la morfología y la sintaxis de estos dos tipos de lenguas, las tonales (el chatino), por un lado, y



casos es un ejemplo de lenguas no concatenativas (sus morfemas no están necesariamente representados

por segmentos discretos, ya que el tono, o alguna derivación fonológica de este rasgo, es un recurso para la

marcación; es decir, el tono no se ubica de forma exclusiva en un nivel léxico, sino que puede llegar a uno

de contenido gramatical), en tanto que el segundo se trata de una lengua concatenativa discreta, esto es,

siempre con morfemas segmentables.



Digital Humanities, Corpus and Language Technology

Por último, desde una perspectiva más relacionada con la industria, se puede subrayar

el trabajo realizado por algunas pequeñas empresas, así como grandes compañías como

Google y Microso, que en conjunto con instituciones gubernamentales o académicas, han

generado algunos recursos en lenguas indígenas mexicanas del tipo de repositorios de

información, traductores o apps para su aprendizaje (cf. ASTLM, :-).

3. Características lingüísticas del amuzgo

En esta sección se caracteriza la familia lingüística a la que pertenece el amuzgo con el

propósito de facilitar la presentación de los rasgos lingüísticos esenciales de dicha lengua.

Se verá que el término otomangue remite a un conjunto de sistemas complejos y diversi-

cados.

3.1. Familia otomangue

La familia otomangue en su conjunto siempre ha sido objeto de interés debido, principal-

mente, a sus características lingüísticas, muy distintas a las de otras lenguas habladas en

territorio mexicano, así como a la diversidad que existe en su interior. Pese a concentrarse

en un espacio geográco denido (la hipótesis que sustenta el origen y la integración de la

familia considera al subtiaba y al mangue, hoy en día extintos, los cuales se hablaron en

Nicaragua, lo cual rompería esta idea de continuum), cada una de las lenguas que compo-

nen la familia cuenta con un buen número de variantes, situación que obliga a pensar si se

trata de una familia de lenguas o, más bien, de una macrofamilia de familias; esto es, algu-

nas variantes, incluso, podrían llegar a considerarse lenguas diferenciadas de las otras

variantes que componen a una agrupación, para emplear la terminología del Instituto

Nacional de Lenguas Indígenas. Este es el caso de la llamada subfamilia amuzgo-mixteca-

na (Campbell, ), a la cual pertenece el amuzgo.

3.1.1.

Subfamilia amuzgo-mixtecana

El conjunto de lenguas amuzgo-mixtecanas pertenecen al otomangue del este (Campbell,

: ). En esta división también se encuentran el popoloca, el mazateco, el ixcateco, el

chocho, el zapoteco y el chatino. Como se ha dicho, la variedad interna en estas lenguas es

amplia. En el caso concreto del amuzgo se ha señalado que, en términos históricos, han

existido tres variantes: Xochistlahuaca, San Pedro Amuzgos e Ipalapa (habría otra, Tlacoa-

chistlahuaca, sobre la que no se conoce mucho). En la actualidad, se considera que solo en

dos de estos municipios existen hablantes: Xochistlahuaca (Guerrero) y San Pedro Amuz-

gos (Oaxaca). Estas demarcaciones territoriales y administrativas conforman por sí mis-



Las tecnologías del lenguaje y las lenguas indígenas mexicanas: constitución de un corpus paralelo amuzgo-español

mas dos variantes plenamente diferenciadas en casi todos los planos lingüísticos. No obs-

tante, el INALI () identica cuatro variedades (amuzgo alto del este, amuzgo bajo del

este, amuzgo del norte y amuzgo del sur). Por su parte, el resto de las lenguas amuzgo-mix-

tecanas tienen los siguientes números de variantes: mixteco (), tacuate (, la cual, en

términos lingüísticos, parece haberse separado del mixteco), cuicateco () y triqui ().

3.2. El amuzgo

Las características gramaticales del amuzgo se agrupan en torno de los niveles de análisis

lingüísticos tradicionales. De esta manera, en un sentido elemental, se reconocen aspectos

fonético-fonológicos, morfológicos y sintácticos. Sin embargo, el amuzgo al ser una lengua

en la que el tono (frecuencia acústica que se produce al interior de unidades fonológicas

como la sílaba), además de las distinciones semánticas que produce en el léxico, (véase

ejemplo ), interactúa con la morfología (ejemplo ) y la sintaxis (ejemplos  y ).

. a. su ‘l l ano’

b. su ‘copal’

. a. ba’ ‘su casa (de él/ella)’

b. ba’ ‘tu casa’

. a. kitsian ‘tigre’

b. kitsianan ‘el tigre’

. a. ts’anjni ‘persona malvada’

b. ts’anjnii ‘la persona malvada’

Como se puede ver en los ejemplos anteriores, un cambio en el tono (de medio a alto en

a y b, así como de bajo a súper alto en a y b) comporta un cambio importante en el

signicado de la palabra. En los ejemplos de  y  lo que se muestra es la forma en la que

se construye el sentido denido de una frase nominal, el cual también está asociado a un

fenómeno tonal. Obsérvese que en b y b, ejemplos en los que las frases nominales se

encuentran denidas, la última sílaba es una copia de la precedente. No obstante, en b el

5 Otro tipo de caracterizaciones de la lengua, como las de corte sociolingüístico, se delinean en varios sen-

tidos. En las primeras secciones de este trabajo se incorporaron algunos de los datos más destacados en

términos poblacionales. Al respecto se entiende que la descripción que se hace de una lengua en términos

de las necesidades de las TLH debe ser lo más amplia posible o, por lo menos, tiene que estar apegada a los



donde la creación de recursos tenga que ver con lo judicial, sin duda, la pragmática, por un lado, y la enton-

ación, por el otro, serían sumamente relevantes.

6 Los superíndices indican el tipo de tono: 1 bajo, 2 medio, 3 alto, 4 súper alto y 5 extra alto. Con estas posibili-

dades, se pueden formar ciertas combinaciones.



Digital Humanities, Corpus and Language Technology

tono alto se mantiene en la sílaba que resulta de dicha copia, mientras que en b, esto no

sucede. La explicación de esta circunstancia es que cuando el tono de la última sílaba de

una palabra es medio, el llamado artículo denido no puede tener un tono medio, por lo

que tiene que cambiar a uno bajo.

En concreto, el sistema fonológico del amuzgo se compone por  consonantes (entre

las que se cuentan dos prenasales, tres que son producto del contacto con el español, la /p/,

la /l/ y la /r/, así como una con baja frecuencia de uso, la /m/). Asimismo, existen  vocales,

algunas de la cuales muestran oposiciones entre abiertas y cerradas, fundamentalmente en

las medias (/e/, /o/), en tanto que otras tienen contrastes entre orales y nasales (de nueva

cuenta, las medias, así como la baja, o sea, la /a/, y la anterior abierta, /ε/). Por otra parte,

los tonos de la lengua son, en total, siete; cinco considerados de nivel (los explicados en

nota : bajo, medio, alto, súper alto y extra alto) y  de contorno (medio-bajo, medio-alto).

En cuanto a otros aspectos centrales de la lengua, esta es de marcación en el núcleo

(salvo en las terceras personas), las relaciones sintácticas se dan por yuxtaposición, o sea,

no se morfologizan y, como menciona Hernández (), el predicado no lleva de manera

sistemática ajos para una referencia cruzada con el sujeto. Según Smith y Tapia (), el

amuzgo presenta un orden de constituyentes Verbo-Sujeto-Objeto en las construcciones

transitivas, mientras que para las intransitivas se mantiene el verbo en posición inicial. De

igual manera, en palabras de estos autores, hay un sistema escindido en las intransitivas,

de forma tal que la codicación es distinta entre las intransitivas agentivas, las intransitivas

pacientivas y las intransitivas estativas.

El sistema de personas gramaticales se organiza en tres (primera, segunda y tercera)

con sus distinciones respectivas entre singular y plural. En la tercera persona de plural se

hace una diferencia entre inclusión del escucha y la exclusión de este. La complejidad

morfológica ha obligado a proponer un peso fuerte de las clases léxicas.

4. Diseño del corpus: fase monolingüe en amuzgo

A continuación se describen las fases de trabajo para la construcción del corpus. En par-

ticular, las relativas a la obtención y procesamiento de los datos en amuzgo. Al respecto, es

necesario remarcar que se trata de material recopilado en un ambiente natural, esto es, se

planeó, registró y estructuró en campo. En consecuencia, el corpus se puede caracterizar

como representativo de un habla natural, diverso y actual, en correspondencia con los

7 La complejidad fonológica de la lengua es amplia, por cuestiones de espacio no puede ser abordada aquí.

Para mayores detalles, consúltese Hernández (2019).



Las tecnologías del lenguaje y las lenguas indígenas mexicanas: constitución de un corpus paralelo amuzgo-español

grupos etarios que conforman la muestra. Estas características, sin duda, son las que, en

determinado momento, resaltarán cuando la información se traduzca en aplicaciones rela-

cionadas con las necesidades propias de la comunidad de habla, como aquellas relaciona-

das con la atención en servicios de salud y justicia.

4.1. Obtención de datos orales

Aunque en este trabajo se presenta una parte del corpus conformado, su totalidad engloba

la participación de un grupo de personas adultas, jóvenes e infantes, tanto hombres como

mujeres en cada subconjunto. En este sentido, hasta el momento se ha trabajado con dos

personas en cada franja etaria (la cual no coincide necesariamente con la del sistema urba-

no debido a la forma de vida comunitaria en la que, desde la infancia, se adquieren respon-

sabilidades familiares).

Asimismo, en relación con la información de corte social con la cual, tradicionalmen-

te, se organiza e identica un corpus, se consideraron las circunstancias de vida de cada

participante con el propósito de observar su conocimiento, control y dominio de la lengua.

Por ejemplo, se aplicó un pequeño y sencillo instrumento en el que se captó información

referente a la frecuencia y los contextos de uso de la lengua. Esto contribuyó a catalogar a

quienes colaboraron en la investigación en atención al bilingüismo o monolingüismo mos-

trados, o bien, a su actitud frente a la lengua (hablantes pasivos, por ejemplo). En las

condiciones actuales del mundo, cada vez se hace más necesario abrir un espacio para

hablar de la migración. En un estudio que parte de la conguración sistemática de un

corpus, el estatus migratorio de las personas es relevante porque da una ilustración más

precisa de su comportamiento lingüístico. En efecto, un(a) migrante reacciona, después de

su experiencia como tal, de forma muy diversa a una interacción comunicativa. Al respec-

to, los extremos a considerar serían: desiste de hablar su lengua o se torna un(a) purista de

ella. En el punto medio quedaría la facultad de introducir préstamos lingüísticos con ma-

yor o menor resistencia. Lo anterior, no hay duda de ello, incide en el tipo de información

que se recolecta y obliga a imaginar nuevas formas de documentación o, en todo caso, a la

aceptación de la nueva realidad.

Debido a lo que se comenta (el panorama es mucho más complejo y amplio de que lo que

aquí se presenta), a cada una de las personas que colaboró en la investigación se le solicitó

una anécdota o historia de vida, propia o ajena, al igual que una narración tradicional; sola-

mente en algunos casos se incluyeron diálogos y entrevistas. De esta manera, se procuró

estructurar un corpus real, espontáneo, natural, diverso, con información suciente, repre-

sentativo y cuidado, en el que las diferentes fases de la vida cotidiana y formas de interacción



Digital Humanities, Corpus and Language Technology

(con estructuras lingüísticas comunes y variadas) se encontraran representadas. Al nal, se

logró conformar un material cercano a las ocho horas de duración. En este trabajo se ejem-

plica con la información concerniente a una narración (La esposa del zorro) en la que se

relata el intento de rescate de la esposa del zorro, que emprenden, por separado, un tigre, una

vaca y un conejo. Resulta llamativo que, en la cultura amuzga, se observe una divergencia de

aquello que se ha mostrado en la tradición literaria conocida como occidental. En este caso

no se trata de un animal astuto, inteligente, tramposo, malo, cizañero o sagaz, sino, más bien,

de un ser pasivo que sufre y no actúa, no muestra ni coraje ni ánimo, lo que lo lleva a caer

pronto en la desesperación. Por tal razón, el tigre, la vaca y el conejo, en diferentes oportuni-

dades, le ofrecen su ayuda al mirar la impotencia con la que vive.

Todo el material que se obtuvo se registró en audios, los cuales posteriormente fueron

utilizados para guiar el proceso de transcripción, así como el de análisis acústico en herra-

mientas tales como Praat y ELAN. Los resultados del tratamiento de la señal sonora ser-

virán como base para desarrollar una línea de trabajo futuro que contempla el diseño y

construcción de un corpus oral en amuzgo, así como de herramientas que permitan sacar

provecho al material ahí registrado.

4.2. Procesamiento de la señal acústica

Tal como se describió en la Sección ., las características fonológicas del amuzgo son muy

complejas, de ahí que el tratamiento de la señal acústica se convierta en un elemento relevan-

te para el estudio de la lengua. En este sentido, aunque el objetivo del trabajo es crear un

corpus paralelo de tipo textual, no se descarta que los datos recogidos para la construcción del

corpus se utilicen para sentar las bases de un nuevo corpus de tipo oral a nivel monolingüe.

Ahora bien, independiente a esta línea de trabajo futuro, para la construcción del cor-

pus paralelo amuzgo-español fue necesario procesar la señal acústica con el n de tener un

componente que sirviera de guía para el proceso posterior de transcripción. Para ello, se

hizo uso de herramientas auxiliares para el análisis del habla que garantizaran la delidad

de los datos. En principio, se utilizó Praat para estar en posibilidades de realizar análisis de

habla, etiquetado y segmentación, síntesis y manipulación de habla, así como cuestiones

relacionadas con representaciones grácas y de experimentación. Hay que reconocer que,

en general, esta herramienta no soporta de forma eciente cadenas de habla largas. Por

esto se utilizó, fundamentalmente, para analizar entradas léxicas en las que existiera algu-

na duda respecto al tono de la palabra fonológica. En la Figura  se presenta un ejemplo de

una cadena en la que se contrastan palabras con la misma conformación silábica, pero con

contrastes tonales.



Las tecnologías del lenguaje y las lenguas indígenas mexicanas: constitución de un corpus paralelo amuzgo-español

Figura 1. Diferenciación tonal del espectro acústico en amuzgo.

En contraparte, con ELAN se tuvo la posibilidad de analizar cadenas de habla más exten-

sas; esto facilitará la incorporación de información multimodal a ese futuro corpus oral

con el que se incrementarán las posibilidades de estudio de estos datos. Finalmente, como

resultado del procesamiento acústico, se generó información relativa a la duración, el tiem-

po de emisión, el acento, así como a los formantes (pico de la intensidad o concentración

de energía de una frecuencia) con los que, entre otras cuestiones, se distinguen las vocales.

4.3. Transcripción

El procedimiento especíco de esta etapa se dio de la forma en la que se describe a conti-

nuación. En primer lugar, en lo que corresponde con la transcripción, se distinguieron los

segmentos. A partir de este momento se planicó un cotejo entre lo hecho en las notas de

campo y los espectrogramas que arroja Praat. En segundo lugar, se puntualizó en el regis-

tro de rasgos fonológicos especícos, tales como apertura vocálica, nasalidad y laringeali-

zación. En tercer lugar, como se muestra en el ejemplo , se hizo un primer acercamiento

a los tonos de la lengua. Debido a que esta es una característica fundamental en amuzgo,

se debía tener cuidado en una anotación precisa. Por tanto, se anticipaban y aceptaban

modicaciones.



Digital Humanities, Corpus and Language Technology

. . Twe’ nkwixue m’an kwiti’tyondye ts’a ti’,

. ts’ian jndë, tyua’ ju’ sku’ ti’ k’a ti’ jndë,

. Mo’ twe’ nkwi xue t-ja ti’,

. tëkitsa ti’ ts’ian,

. n o’ ya tje ti’ tyua’je,

. t’aa‘nna sku’ ti’ k’o n,

. No’ ma’kje t at s’o n  ti’ n g’e  tënon tsannji,

. të‘yon jon sku’ ti’, xue’ jon sku’ ti’. Nojo,

. ‘nni ‘nna ntsa’ ti’. Ma tëkjo ti’,

. t ’eo  ti’,

. ndo’ huxjen ‘nein tje kwi kitsian,

. tso’ kitsianan’:

. ndo’ u’ tyondyere, ndu matyo’,

. ‘ajoje. Mat ’e o  man g ’e 

. hutsan  nji tje jon b’a no’ tsiana tja jon

. të‘yon jon sku’.

Para preparar las siguientes fases, cada uno de los textos resultantes se segmentó en cláusulas,

las cuales se marcaron con número arábigos (en el ejemplo de arriba, la numeración aludida

va del  al ). Esta es una manera ecaz de organizar los textos y facilitar el análisis de glosado

y traducción.

5. Construcción del corpus: fase paralela amuzgo-español

En esta sección se describen los procesos para la obtención de los datos en español con el

propósito de conformar la estructura en paralelo amuzgo-español.

5.1. Glosado y traducción

Una vez que se realizaron los procesos previos, se tomó la decisión de trabajar con las

transcripciones con el n de expandir las posibilidades del corpus. Para ello, se realizó un

proceso de glosado y de traducción de los datos. Las etapas relacionadas con la generación

de glosas se esquematizan a continuación:

i Limpieza de las transcripciones para preparar el trabajo de glosado.

ii Empleo del sistema ortográco más consistente (Tapia, ) y contraste con el pro-

puesto por Hernández ().



Las tecnologías del lenguaje y las lenguas indígenas mexicanas: constitución de un corpus paralelo amuzgo-español

iii Vericación de rasgos fonológicos relacionados con el acento para distinguir entre pa-

labra fonológica (incluye los clíticos) y entrada léxica.

iv Marcación de los clíticos.

v Segmentación de los distintos tipos de frase: verbal, nominal, adverbial, etc.

vi Realización de la glosa de cada cláusula de acuerdo con las reglas de glosado de Leipzig

(Comrie et al., ).

El glosado, como se sabe, incluye tanto la segmentación como la identicación de la cate-

goría gramatical (no funcional) de las unidades reconocidas. La última fase del análisis

previo a la formalización de los datos en amuzgo fue la traducción de estos al español. Esta

traducción se realizó en tres pasos. Primero, una interpretación general del texto en la

lengua origen. Segundo, una alineación manual de las categorías gramaticales identicadas

con sus respectivos signicados (en este proceso se privilegió una traducción literal, man-

teniendo incluso el orden que se presentó en las oraciones en la lengua origen). Tercero,

formalización de la traducción considerando el sentido oracional, la correspondencia entre

categorías y la información producida mediante el proceso de glosado.

Este proceso de traducción fue realizado por un traductor humano, hablante nativo de

amuzgo y español, con formación profesional en lingüística amerindia. Dadas estas carac-

terísticas, se aseguró que la traducción fuera lo más el posible, tanto en términos de co-

rrespondencia lingüística como de función comunicativa, para poder realizar los procesos

automatizados de alineación de segmentos. En la Figura  se ejemplica el resultado del

proceso general de traducción. En ella se observan algunos segmentos transcritos en la

lengua origen (línea ) con sus respectivas segmentaciones y glosas (líneas  y ), así como

una primera traducción basada en el tercer paso de la traducción (línea ).



Digital Humanities, Corpus and Language Technology

Figura 2. Ejemplo de segmentos transcritos en amuzgo con sus respec tivas glosas y traducción al español.

5.2. Alineación automática de segmentos

La siguiente fase de construcción consistió en realizar un proceso automático para alinear

los textos transcritos en amuzgo con sus correspondientes traducciones al español. Esta

fase es de suma importancia para poder concretar todo corpus que tenga como caracterís-

tica el ser paralelo. Para realizar este proceso se utilizó la herramienta de alineación que

está implementada en el programa de Traducción Asistida por Computadora (TAC), Ome-

gaT. Se decidió utilizar esta herramienta dado que el proceso de alineación se hace con base

en el algoritmo de Gale-Church (), el cual ha sido utilizado en varios trabajos de lin-

güística computacional. Este algoritmo es independiente de la lengua, es decir, no es nece-

saria una gramática, en este caso del amuzgo, ni tampoco grandes volúmenes de datos para

poder emparejar los segmentos. Pondera, en contraparte, la longitud de los segmentos para

realizar la alineación con base en el supuesto de que las construcciones largas en la lengua

origen deben corresponderse con construcciones de longitud similar en la lengua meta.



Las tecnologías del lenguaje y las lenguas indígenas mexicanas: constitución de un corpus paralelo amuzgo-español

La alineación se hizo considerando los dos métodos de comparación de segmentos

implementados en la herramienta: el método parsewise y el método heapwise. El primero

privilegia el paralelismo sintáctico entre lenguas a partir de la alineación unitaria de seg-

mentos, en tanto que el segundo privilegia una alineación global de los textos. Ambos

métodos arrojaron resultados diferentes, cuya calidad fue evaluada con base en la infor-

mación de las glosas y la traducción literal. En las guras  y  se ejemplican los resultados

del proceso de alineación para un mismo fragmento. En la gura  se destaca el método

heapwise, mientras que en la , el parsewise.

Figura 3. Alineación mediante el método heapwise.



Digital Humanities, Corpus and Language Technology

Figura 4. Alineación mediante el método parsewise.

5.3. Depuración manual y realineación de segmentos

Como se puede apreciar en las guras anteriores, el resultado de alineación diere bastan-

te en los segmentos emparejados. Esta variación está en función del método de compara-

ción. Así, cuando se hizo la alineación usando heapwise, los segmentos alineados no

correspondían en buena medida con la información de la traducción. En cambio, cuando

se hizo el proceso con el método parsewise, el resultado mejoró, por lo que se decidió

utilizar este método para alinear los textos.

Cabe mencionar que, a pesar de la mejora que se observó con parsewise, la alineación

de los segmentos aún distaba de ser totalmente paralela. Por tal motivo, se decidió hacer

una depuración manual en la que se realinearon varios segmentos que no se correspondían.



Las tecnologías del lenguaje y las lenguas indígenas mexicanas: constitución de un corpus paralelo amuzgo-español

Este proceso, si bien fue extenuante, en todo momento estuvo supeditado a la información

que se obtuvo del proceso de glosado y de traducción. Ello, de alguna manera, garantiza

que los segmentos emparejados exhiben de forma adecuada una correspondencia lingüís-

tica y comunicativa entre los datos en amuzgo y sus traducciones al español. Para nalizar

esta sección, en la Figura  se evidencia el resultado de alineación después de realizar la

depuración y su consecuente realineación.

Figura 5. Resultado de segmentos emparejados después de la depuración y la realineación.

5.4. Implementación y liberación del corpus

Una vez que se concluyó el proceso total de alineación, se buscó cómo implementar el

material generado en un recurso que permitiera la consulta de los datos de una manera

eciente. Para ello, se utilizó la plataforma web GECO, la cual permite hacer una imple-

mentación de los datos en una interfaz sencilla para el usuario. Además de ello, ofrece

algunas herramientas para explotar el contenido de los corpus, por ejemplo, la búsqueda

de concordancias. Para ilustrar el resultado de la implementación en esta plataforma, en la

Figura  se muestra una captura de pantalla del corpus en la que se focaliza la búsqueda

de la palabra sku en amuzgo (base semántico-léxica de “esposa”) y los contextos en los

cuales aparece en ambas lenguas.

8 



Digital Humanities, Corpus and Language Technology

Figura 6. Concordancias amuzgo-español de la palabra sku (esposa) en el corpus.

Si bien en este momento la implementación del corpus aún no ha concluido, es importan-

te destacar que el resultado de todo este conjunto de procesos es una primera versión que

permite explotar, aunque sea de forma mínima, los datos paralelos del corpus. Es cierto

que hay información pendiente de procesar e, incluso, de implementar (por ejemplo, en

esta versión preliminar no se aportan estadísticas acerca de la relación types/tokens del

mismo debido a que es poco representativo hablar en estos términos dadas las caracterís-

ticas morfológicas del amuzgo); no obstante, es importante recalcar que el corpus cuenta

al momento con poco más de una hora de grabaciones procesadas conforme a las etapas

descritas previamente. En este sentido, el corpus se está constituyendo con información

que rebasa el espectro oral de los datos, es decir, se está incorporando información muy

valiosa en las glosas y en las traducciones, la cual, una vez liberada la versión nal del

corpus, permitirá complementar y expandir la utilidad de este para estudiar y generar

nuevo conocimiento, así como herramientas y recursos para esta lengua.



Las tecnologías del lenguaje y las lenguas indígenas mexicanas: constitución de un corpus paralelo amuzgo-español

6. Conclusiones

En este artículo se ha descrito un trabajo para constituir un corpus paralelo amuzgo-espa-

ñol. Se ha enfatizado la problemática que implica la creación de recursos en lenguas indí-

genas. En especíco, para lenguas cuya ausencia de datos diculta, incluso, su descripción

lingüística. De igual manera, se ha resaltado el trabajo realizado para la obtención de mues-

tras reales de la lengua mediante trabajo de campo. Los datos aquí presentados correspon-

den a una primera fase de grabaciones, las cuales han sido procesadas considerando dife-

rentes niveles que permitan generar un corpus de calidad: transcripción, procesamiento

de la señal acústica y transcripción fonética; asimismo, se ha trabajado con las transcrip-

ciones para realizar el proceso de glosado y de traducción al español. Esta información,

además de ser relevante para nes lingüísticos, puede ser provechosa para modelar siste-

mas sustentados en las características propias de la lengua. Cabe mencionar, por otra parte,

que se espera que en próximas fases se presenten más transcripciones de las grabaciones,

así como que el número de entrevistas aumente en el corto y mediano plazo, logrando así

un corpus más amplio.

Ahora bien, los resultados que se han obtenido a la fecha permiten hacer una proyección

de la utilidad del corpus por demás interesante. A saber, más de una hora de grabación de

muestras reales de habla en amuzgo, es decir, a diferencia de algunos corpus que parten de

documentos que reejan muy poco el habla coloquial o son traducciones de documentos

ociales o religiosos, este corpus representará un habla lo más natural posible, tal como se

da en la comunidad. Asimismo, este tipo de contenido permitirá, en el ámbito de las TLH,

contar con un recurso con el cual se pueda experimentar, por ejemplo, con modelos de

reconocimiento de voz, tomando en cuenta las características tonales de la lengua, así como

con herramientas de traducción automática que consideren los rasgos tipológicos del

amuzgo para segmentar las oraciones y alinearlas correctamente con los segmentos de la

lengua de llegada. Aunado a lo anterior, es indudable que este tipo de recursos puede co-

adyuvar a los diferentes esfuerzos que desde diversos ámbitos intentan disminuir la brecha

tecnológica entre comunidades y que, de forma ideal, como señala Crystal (), pueden

aportar para evitar la potencial desaparición (o muerte) de lenguas.

Para concluir, se destaca una serie de líneas de trabajo que permitirán formalizar el

trabajo realizado hasta ahora. La primera y más obvia es la consecución de nuevas muestras

orales que permitan expandir la cantidad de datos que integrarán el corpus. Una segunda

línea es la exploración de herramientas que permitan procesar la señal acústica de manera

más rápida, de forma que el proceso de transcripción se vuelva, en cierto punto, más in-

mediato. Finalmente, se contempla una línea de trabajo más social en la que el corpus, en



Digital Humanities, Corpus and Language Technology

tanto herramienta que reeja una forma de conceptualizar y verbalizar el mundo, permita

poner de maniesto las necesidades y oportunidades sociales de las comunidades indíge-

nas, por ejemplo, en escenarios de interpretación social, médica o jurídica.

Referencias

Acosta, O., & Aguilar, C. (). A Critical Review of the Current State of Natural Language Processing

in Mexico and Chile. In F. Pinarbaşi & M. Taşkiran (Eds.), Natural Language Processing for Global

and Local Business (pp. -). IGI Global.

Adams, O., Cohn, T., Neubig, G., Cruz, H., Bird, S. & Michaud, A. (). Evaluating phonemic

transcription of low-resource tonal languages for language documentation. In N. Calzolari, K.

Choukri, C. Cieri, T. De clerck, S. Goggi, K. Hasida, H. Isahara, B. Maegaard, J. Mariani, H. Mazo,

A. Moreno, J. Odijk, S. Piperidis, & T. Tokunaga (Eds), Proceedings of the th International

Conference on Lang uage Resources and Evaluation (pp. -) European Language Resources

Association (ELRA).

Apóstol, J. (). Clases exivas verbales en el amuzgo de Xochistlahuaca (Guerrero) [Tesis de

Maestría, Centro de Investigaciones y Estudios Superiores en Antropología Social].

Arévalo, J. (). El problema de la brecha tecnológica: un asunto de cultura. Revista Sinapsis, (),

-.

ASTLM. (). Análisis del sector de las Tecnologías del lenguaje en México. Plan del impulso de las

tecnologías del lenguaje. Gobierno de España.

Buck, M. (). Gramática del amuzgo de San Pedro Amuzgos. Instituto Lingüístico de Verano.

Buck, M. (). Gramática del amuzgo de Xochistlahuaca. Instituto Lingüístico de Verano.

Campbell, L. (). American Indian languages: the historical linguistics of Native America. Oxford

University Press.

Castellanos, A., Estrada, E. y Domínguez, W. (). Implementación de algoritmos de procesamiento

de lenguaje natural para la evaluación de la pronunciación efectiva en el aprendizaje de lenguas

indígenas. Revista Electrónica de Investigación e Innovación Educativa-REIIE, (), -.

Comrie, B., Haspelmath, M., Bickel, B. & Max Planck Institute for Evolutional Anthropology. ().

e Leipzig Glossing Rules: Conventions for Interlinear Morpheme-by-morphene Glosses. Max

Planck Institute for Evolutionary Anthropology.

Crystal, D. (). Language death. Cambridge University Press.

Cruz, H. & Waring, J. (). Deploying Technology to Save Endangered Languages. arXiv.

Gale, W. & Church, K. (). A Program for Aligning Sentences in Bilingual Corpora. Computational

Linguistics, (), -.

García, H., Hernández, N. y Mora, A. (en dictamen). Posesión y otras relaciones semánticas en

Amuzgo de San Pedro Amuzgos (otomangue). En Z. Estrada y M. Peregrina (Eds.), Dependencias

simétricas y asimétricas: Dominios semánticos y motivaciones. Universidad de Sonora.

Gutiérrez, X. (). Bilingual lexicon extraction for a distant language pair using a small parallel

corpus. En D. Inkpen, S. Muresan, S. Lahiri, K. Mazidi, & A. Zhila (Eds.), Proceedings of the 

Conference of the North American Chapter of the Association for Computational Linguistics:

Student Research Workshop (pp. -). Association for Computational Linguistics.

Gutiérrez, X., Sierra, G., & Hernández, I. (). Axolotl: a Web Accessible Parallel Corpus for

Spanish-Nahuatl. En N. Calzolari, K. Choukri, T. Declerck, S. Goggi, M. Grobelnik, B. Maegaard,



Las tecnologías del lenguaje y las lenguas indígenas mexicanas: constitución de un corpus paralelo amuzgo-español

J. Mariani, H. Mazo, A. Moreno, J. Odijk, & S. Piperidis (Eds.), Proceedings of the Tenth

International Conference on Language Resources and Evaluation (pp. -). European

Language Resources Association.

Hernández, N., Mora, A. y García, H. (). Estructura de la frase nominal posesiva en amuzgo

(otomangue). UniverSOS. Revista de Lenguas Indígenas y Universos Culturales, , -.

Hernández, N. (). El sistema tonal en el amuzgo de San Pedro Amuzgos: Interacción entre el tono

de la base nominal y los clíticos [Tesis de Maestría en Lingüística Indoamericana, Centro de

Investigaciones y Estudios Superiores en Antropología Social].

INALI, (). Catálogo de las lenguas indígenas nacionales: variantes lingüísticas de México con

sus autodenominaciones y referencias geoestadísticas. En Diario Ocial de la Federación,  de

enero de .

INEGI. (). Encuesta intercensal . Lenguas indígenas y hablantes de  años y más. http://

cuentame.inegi.org.mx/hipertexto/todas_lenguas.htm.

Mager, M., Barrón, C. y Meza, I. (). Traductor estadístico wixarika-español usando descomposición

morfológica. COMTEL, , -.

Mager, M., Gutiérrez, X., Sierra, G., & Meza, I. (). Challenges of language technologies for the

Americas indigenous languages. In E. Bender, L. Derczynski, & P. Isabelle (Eds.), Proceedings of

the th International Conference on Computational Linguistics (pp. -). Association for

Computational Linguistics.

Manning. C. & H. Schütze. (). Foundations of statistical natural language processing. MIT Press.

Midrigan, L., Boyd, V., Victoria, L., Sánchez, D., Malancea, D., Midrigan, D., & Corina, D. ().

Resources in Underrepresented Languages: Building a Representative Romanian Corpus. In

Proceedings of the th Language Resources and Evaluation Conference, European Language

Resources Association: -.

Palancar, E. y Feist, T. (). Agreeing with subjects in number: e rare Split of Amuzgo verbal

inection. Linguistic Typology, (), -.

Prinsloo, D. (). Corpus-based Lexicography for Lesser-resourced Languages - Maximizing the

Limited Corpus. Lexikos, (), -.

Quastho, U., Richter, M. & Biemann, C. (). Corpus portal for search in monolingual corpora.

In N. Calzolari, K. Choukri, A. Gangemi, B. Maegaard, J. Mariani, J. Odijk, & D. Tapias (Eds.),

Proceedings of the h International Conference on Language Resources and Evaluation (pp.

–). ELRA.

Smith, T. y Tapia, F. (). Amuzgo como lengua activa. En P. Levy (Ed.), Del cora al maya yucateco.

Estudios lingüísticos sobre algunas lenguas indígenas mexicanas (pp. -). Universidad

Nacional Autónoma de México.

Tapia, F. (). Diccionario amuzgo-español. El amuzgo de San Pedro Amuzgos. CIESAS.

Vinogradov, I. (). Linguistic corpora of understudied languages: do they make sense? Káñina,

(), -.



C VIII

Methodological bases: the

construction of a corpus for the

detection of deception and

credibility assessment1

Bases metodológicas: la

construcción de un corpus para la

detección de mentiras y la

evaluación de la credibilidad

Pedro Eduardo Hernández Fuentes

Universidad Nacional Autónoma de México –México

Abstract: Meta-analytic approaches reveal that, to identify lies or evaluate the cred-

ibility of a testimony, it is more reliable to perform a discursive or verbal material



      

make imperative the need to focus on the construction of a linguistic corpus that

-

nitive psychology. Therefore, the methodological proposal for the construction of a

-





Resumen: Los acercamientos metaanalíticos revelan que la información verbal es

-

1 Translation from Spanish language by Leon Jacob Ortega Islas.



Digital Humanities, Corpus and Language Technology

timonio. De aquí que actualmente se han desarrollado diversas investigaciones para

  

necesidad de enfocarse en la construcción de un corpus lingüístico que posibilite el

estudio del tema sin relegar las aportaciones realizadas desde la psicología (cogniti-

va). Por ello, en este texto, se desarrollará la propuesta metodológica para la cons-

trucción de un corpus en el tema. Ésta es el resultado de un trabajo transdisciplina-



cognitivas con el método de doble ciego.

1. Introduction

e study of detection of deception and credibility assessment has been of interest to many

specialists and has been approached from dierent disciplines. Although scientic tools

have been provided for its study, there is still a widespread false belief that there are key

determinants, universal body signals or physiological indicators that are irrefutable proof

that an individual is lying. Systematic review to analyze research results quantitatively

(meta-analysis) reveals that most of the indicators that researchers typically examine in

detection of deception are not related to deception at all (Vrij et al., ).

Meta-analytic research also reveal that verbal information is a more reliable indicator

to identify deception or assess the credibility of a testimony (DePaulo et al., ; Vrij,

). Hence, research from forensic linguistics, sociolinguistics, psycholinguistics and

mostly, cognitive psychology have currently been developed to make scientic contribu-

tions in this regard. ese eorts make the need to focus on the construction of a linguis-

tic corpus that allows the study of detection of deception and credibility assessment im-

perative.

erefore, this chapter will develop the methodological proposal that allows the crea-

tion of a linguistic corpus to identify some characteristic features of the evaluation of

truthfulness and lie detection in discourse. is project is the result of an inter- and trans-

disciplinary work between linguistics and psychology. e project proposal developed at

the Language and Cognition Laboratory of the Cognitive Sciences Research Center

(UAEM) will be presented, emphasizing the methodology followed for the construction

of the sample; an in-depth explanation of the method and general description for the con-

struction of the corpus is presented: type of study, type of participants, data collection

procedure and ethical considerations We believe that, before making evaluations on truth-

fulness or falsehood in discourse, it would be necessary to explore theoretically and meth-



Methodological bases: the construction of a corpus for the detection of deception and credibility assessment

odologically the construction of the discursive corpus in order to begin to explore the still

little-known map of deception and truthfulness. Beginning to establish methodological

rigor in the construction of this type of samples is not an easy task, although it is necessary

for the future experimental or quasi-experimental approach to a subject for which there

are many questions and few answers.

We also aspire to introduce to the academic context a subject that has been little ad-

dressed in the scientic eld, since there have not been enough studies that consider lin-

guistic theory to address this phenomenon: most of the research has been conducted from

the perspective of cognitive psychology. ere is also a deciency in the little research

conducted on the Spanish language; although some recent proposals consider this language

as a eld of study there are still few eorts (Hwang et al., ; Vrij et al., ).

In short, although research has emphasized the preponderance of the analysis of verbal

content in contrast to that of nonverbal behavior, there is a gap in this regard and not

enough value has been given to the construction of the corpus so that, in the future, the

main linguistic indicators that dierentiate between a discourse that intends to deceive

another and one that does not can be studied. is project will contribute to ll this gap.

2. Detection of Deception and Credibility Assessment

e subject of this paper has a long tradition within the scientic and non-scientic eld.

e approaches to this subject have been made mainly from philosophy and psychology,

although there are also contributions from anthropology, behavioral economics, sociology,

and linguistics, to mention a few examples. Possibly, the rst major contribution that these

works have given is the denition of the terms lie and deception, which have been used as

synonyms, and are understood as an attempt to generate in someone else, from verbal or

nonverbal means, a belief that the communicator assumes as false (Vrij, ; Masip, )

(§.). Other contributions concern the answer to questions such as: why do we lie or what

are the reasons for lying? (Vrij, , ), what are the characteristics of a good liar?

(Vrij, ), what skills do people have to lie? (Salekin et al., ), how oen do we lie?

(Feldman et al., ), what are the basics of lie detection? (Vrij, ), and why are we

bad lie detectors? (Vrij et al., ).

e phenomenon acquired greater visibility from its association with the study of non-

verbal behavior, whose most considered channels have been facial expression, physiology,

paralanguage and oculesics. Although the study of nonverbal behavior also includes other

channels, namely gestures, postures, orientation and movement, proxemics, haptics, and

appearance (López et al., ), these have been less regarded and studied. Within the study



Digital Humanities, Corpus and Language Technology

of facial expression, one of the greatest proponents has been Paul Ekman, who has argued

in various publications (Ekman, , ; Ekman and Friesen, , ; Ekman and

O’Sullivan, ) that facial expressions of emotions are universal and have a biological,

evolutionary, and adaptive origin, as Darwin (/) stated. Although Darwin’s

(/) and, therefore, Ekman’s proposals were initially questioned, his ndings have

now been supported by more than a hundred research studies and dierent specialists; for

example, Reissland et al. () conducted a study on facial development based on -D

ultrasound visualization of fetal facial movements.

ese investigations have led to state that one of the most reliable ways to detect decep-

tion is the study of microexpressions, which are rapid facial movements lasting less than

one-h of a second, which are important because they convey important information

about what a subject is truly feeling or experiencing emotionally and is trying to hide

(Ekman, ). Based on this, it has been suggested the idea that observable microexpres-

sions on the face are more reliable indications of deception than other channels. is,

moreover, is supported by the Filtering Hypothesis, which argues that, when a person lies,

he or she experiences emotions that he or she tries to hide because they could reveal the

truth; however, these are leaked through the subject’s face for a brief moment (Ekman and

Friesen, ).

However, the analysis of microexpressions as indicators of deception is still under dis-

cussion, since deception can generate positive or negative emotions, or even these may not

be present and, therefore, the analysis of them is not the best way to determine when a

person is hiding the truth (Burgoon, ; Vrij et al., ). In addition, it remains to delve

into the relevance or not of other indicators of nonverbal behavior that have been less

studied, such as those that DePaulo et al. () registered: the movements of arms, hands,

ngers, ngers, legs and feet and the use of illustrators. erefore, Vrij et al. () reviewed

which is the most successful way for detection of deception when a subject tries to detect

it without the help of technology: nonverbal behavioral analysis or discursive analysis,

concluding that a promising way was discursive analysis.

Following the above, Vrij () presented a literature review on the keys in detection

of deception and pointed out that the projects that study the dierences at the discursive

level are the ones that are currently predominant, as there is scientic evidence on their

level of reliability. is is also conrmed by the meta-analytical study of DePaulo et al.

(), in which, from the review of the importance of  behaviors (verbal and nonver-

bal), it was concluded that the analysis of the verbal in contrast to the nonverbal is more

relevant. So, is detection of deception a problem of linguistics?



Methodological bases: the construction of a corpus for the detection of deception and credibility assessment

2.1 Is detection of deception a problem of linguistics?

e fact that the subject has been widely approached from psychology does not imply that

it is not a problem of linguistics. From this area, some research has been carried out,

although it is not very abundant, since the study of detection of deception as a linguistic

phenomenon has been relegated; hence there is a need to oer more specic contributions

from this discipline that give a linguistic description of the phenomenon. It is likely that

the limited existence of linguistic studies of lying is the result of the methodological di-

culties involved in the design of experiments and the analysis of the information obtained

(Infante, ). e still low number of contributions made from this area regarding the

subject and some peripheral subjects could be listed more and more frequently; however,

increasing interest in the construction of a corpus other than English – the language in

which the experiments and samples have been mostly designed – may allow us to generate

a more assertive approach to the matter.

Among the linguistic contributions, those developed from forensic linguistics stand

out, for example, Picornell () has studied the detection of deception in written witness

statements and has proposed ways to look for signs of deception from the narrative char-

acteristics of the witnesses. e author has criticized that one of the shortcomings that

exist in several of the research studies is that they are conducted with university students

because they are the closest participants, although they do not reect the reality. For this

reason, in the present study, the two variables to be controlled are not related to education-

al level, but to age and sex (§.). Also noteworthy are the contributions of Fitzpatrick

(), who attempted to test the accuracy of some linguistic cues linked to deception.

From a more technological perspective, a number of tools have been developed, for

example, the Linguistic Inquiry and Word Count (Pennebaker et al., ), used to auto-

mate in a simple way the lexical analysis of deceptive text; the Voice Stress Analyzer (NITV

Federal Services, ), whose hypothesis is that vocal stress indicators reveal deception;

and the CSC Deceptive Speech (), a corpus developed to distinguish deceptive speech

from non-deceptive speech based on machine learning techniques on features extracted

from the corpus. ese endeavors, which aim to identify and quantify linguistic indicators

of deception, have generated several computational programs from dierent research are-

as and laboratories in the last een years with the direct or indirect purpose of achieving

a better identication of lies: Agent Analyzer, General Architecture for Text Engineering

(GATE), iSkim or CueCal, Coh-Metrix, Automated Deception Analysis Machine (ADAM)

(Hauch et al., ).



Digital Humanities, Corpus and Language Technology

3. Methodological proposal

e creation of this corpus responds to the interest and the need to create resources that

generate research related to truthfulness and deception in discourse, since, as stated in the

introduction, most of the current research indicates that the analysis of verbal content can

provide more clues in the detection of deception and the evaluation of credibility. us,

beginning to defragment and study how Spanish speakers lie in quasi-experimental con-

ditions is a timely, though limited, approach for resource generation and future research

purposes in this eld.

e idea that there is no single totally reliable signal for deception detection is the most

useful one because of the very diculties of lie detection. In this sense, the set of several

verbal and non-verbal indicators is the most accurate way to deal with this phenomenon;

although the focus of this work is, in principle, linguistic, by obtaining recorded audiovis-

ual material (§.), other types of approaches will be possible in the future. It should also

be noted that, as mentioned, most of the research reviewed seeks to nd patterns that help

to determine whether there are indicators of deception, leaving aside the evaluation of

truthfulness in discourse. is is also intended to be controlled in the present research.

us, the creation of this sample seeks to create a database with a general criterion

specic to the Laboratory of Language and Cognition that: ) favors projects related to the

topic; ) speeds up the necessary methodological processes of a research related to the

topic; ) allows the approach of inter- and transdisciplinary research from the same mate-

rial whose methodological decisions have a justication; ) allows nding characteristic

patterns of truthful and fallacious discourse of a specic society and with a particular

topic. In principle, the scope of the set of texts is limited to the collaborators of the Labo-

ratory, i.e., only members will be able to consult it, since there is no platform on which it

can be disseminated. Nevertheless, in the future, a greater transcendence is intended.

e rst phase of this research involved the design of the interview and the selection

of the participants (§. and §.); the second phase involved sending more specic infor-

mation through the informed consent form (§. and Appendix . CI); the third phase

involved conducting the cognitive interview divided into two sections (Appendix . GE):

implementation of the double-blind method and conducting the interview; nally, the

fourth phase involved the transcription and basic labeling that will allow for future analy-

ses (Appendix . CT).

Upon completion, y-four narratives of experience were obtained from twenty-seven

people who had some experience of the September , , earthquake that occurred in

Mexico; each participant provided one truthful narrative (twenty-seven total) and one



Methodological bases: the construction of a corpus for the detection of deception and credibility assessment

fallacious narrative (twenty-seven total). e testimonies were divided into three dierent

groups (Table ) to be able to perform comparative analyses.

3.1 Cognitive interviewing as a method for eliciting deceptive discourse

e lack of evidence that proves the usefulness of non-verbal parameters in lie detection

and credibility assessment has generated the development of research that bets on the use

of cognitive strategies. is has led to remarkable dierences between those who express

(verbally) a truth or a lie (Vrij, ) and, therefore, has prompted the design of experi-

ments that assess these distinctions: telling a story backwards rather than in chronological

order (Vrij et al., ; Vrij et al., ), looking at the direction of gaze (Vrij et al., ),

asking unexpected questions of the participant (Lancaster et al., ), asking the subject

to perform a secondary task (drawing, for example) during the interview (Lancaster et al.,

), and providing a greater number of possible details in a story (Leal et al., ).

roughout all of these approaches, the role of the interviewer is critical. For example,

one could highlight the dierence between the cognitive interview model and the Reid tech-

nique model of interviewing and interrogation, which is still used despite its proven ineec-

tiveness. So, it is important for the interviewer to take an active role and ask questions that

generate distinctive reactions between the person who is lying and the person who is telling

the truth (Masip and Herrero, ). is should be supported by protocols based on solid

theoretical models, cognitively based, and supported by research, such as the Activation-De-

cision-Construction Model (ADCM) proposed by Walczyk and those previously discussed.

It is important to consider the limitations noted about the cognitive models currently

developed, since specifying the reasons why lying is cognitively more complex is not the same

as elaborating or contrasting models that specify the cognitive processes responsible for the

distinctions between lying and telling the truth that clarify answers to questions such as what

cognitive processes are activated when a person lies? (Blandón-Gitlin et al., ).

As part of the development of research studies that focus on the use of cognitive strat-

egies, we can nd the cognitive interview, designed by Geiselman et al. () and Fisher

and Geiselman () with the purpose of obtaining quality information from the inter-

viewee; in addition to developing an alternative interview method to the existing ones,

focused on the mental processes of the witnesses instead of the events that occurred (Fish-

er and Geiselman, ). In its rst version, channeled toward criminal investigation, the

proposal contained four basic techniques: ) context reinstatement, ) telling everything,

) change of perspective, and ) change of order. In the second version of the interview

(Fisher and Geiselman, ), called the enhanced cognitive interview, social and commu-



Digital Humanities, Corpus and Language Technology

nicative factors were included, which were intended to improve the social interaction be-

tween the interviewer and the interviewee, improve the interviewee’s memory and other

cognitive processes, and achieve eective communication:

Table 1.  

No. Technique Description Improved

psychological

process

1 Rapport It aims to create a good emotional climate and develop





Social interaction

2 Active partici-

pation of the



-





Social interaction

3 Report every-

thing





he/she considers them important or not.

Memory and com-

munication

4 Reset the context 

original experience.

Memory

5 Describe in detail 

It can sometimes be initiated from a model statement

(Leal, Vrij, Warmelink, Vernham, & Fisher, 2015).

Communication

6 Close your eyes 





Cognition

7 No interruptions 



Social interaction

and cognition

8 Do not guess It is made clear to the respondent that it is okay to say “I



Cognition

9 Open questions It calls for mainly open-ended questions; closed-ended



Social interaction

and cognition

10 Multiple recovery 

search through his or her memory more than once.

Memory

11 Varied recovery It is intended to encourage the participant to search



Memory

12 Questions com-





-

dent’s current accessibility.

Memory

13 Avoid suggesting

questions

 Memory

14 Compatible

output code





Communication



Methodological bases: the construction of a corpus for the detection of deception and credibility assessment

Over the years, modications have been made to the cognitive interview and a consensus

has been reached on its eectiveness in contrast to other types of interviews such as struc-

tured interviews (Köhnken et al., ). It has also been successful in increasing the amount

of correct information recalled by the interviewee (Fisher et al., ), it has proven to be

eective in dierent contexts and in both criminal and non-criminal investigations (Fish-

er and Geiselman, ). Likewise, it has been widely used in the eld of lie detection.

erefore, in this paper, we used this type of interview to obtain the required information.

3.2. Type of study

e type of study of this research is non-probabilistic quasi-experimental in which a corpus

was obtained by convenience from the manipulation of two variables of interest: age and sex.

For this, in each interview, a pre-post evaluation was conducted from which the baseline of

the participants will be obtained according to the evaluation between the narration of the

true story (experience of the earthquake of September , , in Mexico) and the false

version of the same story; both were conducted randomly, that is, in some cases it was decid-

ed that the interviewee rst lied and then told the truth and vice versa to observe whether

this has an eect on the discourse. It should be added that this work does not aim to evaluate

the memory or recollection of the participants, but rather their intention to lie or tell the

truth; this justies the decision to use an event that occurred well in advance (see denition

of lying, §). Likewise, the participants were intended to be their own control.

e scientic method used to prevent the results of future research from being inu-

enced by observer bias was the so-called double-blind method: in the collection of the

corpus, the participants were unaware of the research topic (Appendix . D) while the in-

terviewer and analyst are still unaware of the type of discourse they formulated rst, true

or false, as the information was determined by an instructor outside the interviewer.

3.3 Participants and interview

A non-probabilistic convenience sampling was carried out. To this end,  volunteers

(Table ) were invited to participate using a poster published on social networks, with the

following requirements or inclusion criteria: internet access, time availability of approxi-

mately one hour, being of one of the requested ages, agreeing to sign an informed consent

form (Appendix . CI) with the request to videotape their participation for strictly aca-

demic purposes, to have a camera and audio in the device to be connected and to have the

video call program to conduct the meeting via this means. e exclusion criteria, in addi-

tion to non-compliance with any of the above, were neurological problems or language



Digital Humanities, Corpus and Language Technology

pathology. Since these were self-declarations, the reliability of this information could not

be controlled. Based on these requirements, men and women were selected from each of

the three groups shown in Table . It should be noted that the initial intention was to obtain

 volunteers, but only the number indicated was achieved and it was necessary to exclude

some of the participants. In the future, we intend to complete the number of participants

in order to have a fully gender-balanced sample.

Table 2. Participants.

Group Age Sex No. of participants

120-25  10

235-40  10

350-55  7

e project manager determined the eligibility of the participants according to the inclu-

sion and exclusion criteria indicated, based on the answers provided by the volunteer.

None of the three groups included vulnerable participants.

A virtual Zoom session was organized for each of the volunteers to conduct the inter-

view. e rst face-to-face (virtual) approach was by a person other than the interviewer,

known as the “instructor”, to give the participant the instructions developed in the inter-

view guide, the instructor’s guide (Appendix . GE). Once his/her participation was com-

pleted, the instructor informed the interviewer that he/she had nished so that he/she

could enter the session via Zoom and continue with the meeting as detailed in the guide.

e two participant narrations (one true and one false) were both recorded on two

dierent recordings. Each was labeled as follows: CMCvA. is label is comprised of

basic information to systematize the use of the material, consisting of: ) the letters CMC

refers to the name of the corpus “Corpus mentiras y credibilidad”; ) the sequence of four

numbers corresponds to the number of the video and changes according to the number of

testimony; ) the letter v corresponds to the clarication that it is a video; ) the capital

letter corresponds to the letter assigned to each one of the participants.

Once the material was obtained, a Word transcription was made with the correspond-

ing criteria (Appendix . CT). ese les were labeled CMCtA, which is the same as

the previous label, but with a change in the lowercase letter, which implies that it is a tran-

scription. e transcription process involved two participants: the transcriber and the re-

viewer.



Methodological bases: the construction of a corpus for the detection of deception and credibility assessment

3.4 Data collection procedure

e participation of the volunteers was videotaped with the Zoom program. e instructor

and the interviewer used the interview guide to help them (Appendix . GE). e cognitive

interview proposals (§.) were considered in the elaboration of these materials; they were

also reviewed and commented on by three experts.

As for the transcription criteria (Appendix . CT), great attention was paid to ensure

that the use of marks was the minimum necessary to achieve the purposes of this project,

while remaining rigorous. us, most of the elements linked to phonetic-phonological

characteristics were omitted. Likewise, the participants were given the “Informed Consent”

(Appendix . CI). All the forms are attached as annexes.

3.5 Ethical considerations

Regarding ethical considerations, this research had minimal risk for the participants, since

only documentary research techniques were used (cognitive interview) in which sensitive

aspects of behavior were not addressed. e research protocol was sent to the Centro de

Investigación Transdisciplinar en Psicología, Universidad Autónoma de Morelos, on Sep-

tember , , and was approved on November , .

3.6 Current track and future projections

As mentioned at the beginning, this work is mainly of a methodological nature, as it is con-

sidered that, since this is a subject that has been little addressed in linguistic and corpus

studies, the rst approach to follow is to make a proposal that allows us to obtain the truthful

and fallacious discourse. In spite of this, some of the results obtained have to do with the type

of words present in the total narration, the number of total words, the lexical variety, the

approximate duration of the narration and the number of words per minute (Tables  and ).

Table 3. Group 1. Women aged 20 to 25 years.

Type Token Lexical

variety

Approximate

duration

Words per

minute

CMC0004-B 448 1826 4.07 11 166

CMC0007-D 303 1032 3.40 9 114.66

CMC0009-E 393 1452 3.69 8 181.50

CMC0014-G 715 3803 5.31 22 172.86

CMC0017-I 479 1947 4.06 11 177



Digital Humanities, Corpus and Language Technology

Table 4. Group 2. Women aged 20 to 25 years.

Type Token Lexical

variety

Approximate du-

ration

Words per

minute

CMC0003-B 385 1526 3.96 10 152.60

CMC0008-D 533 2515 4.71 19 132.36

CMC0010-E 387 1255 3.24 7 179.28

CMC0013-G 525 2393 4.55 14 170.92

CMC0018-I 466 2072 4.44 10 207.20

e above tables show that we started from a general approach to proceed to a particular

one in which potential linguistic indexes are codied to establish their quality. Some of

them are part of the psychological, criminological and, to a lesser extent, linguistic litera-

ture that have been constantly mentioned and are currently considered as warning ags:

full pauses, negation, adverbs, verb tenses, pronouns, number of syllables, number of sen-

tences, number of big words, number of syllables per word, number of short sentences,

number of long sentences, average number of words per sentence, conjunctions, simple

sentences and adjectives (Burgoon et al., ; Fitzpatrick and Bachenko, ; Picornell,

; Villar and Castillo, ). Currently, the coding of lled pauses, pronouns, adverbs,

reported memory, in addition to those previously mentioned, is part of the tasks of the

coordinator of this research and the rst results are expected to be available in March .

4. Conclusions and discussion

Although research has emphasized the preponderance of the analysis of verbal content in

contrast to that of nonverbal behavior, there is a lack of studies that delve into the consid-

erations of linguistic theory and that focus, as a rst step, on the construction of a corpus

that allows the study of the main linguistic indicators that distinguish between a discourse

that intends to deceive and one that does not.

It is necessary to consider that detection of deception is complex, so it could be easy to

fall into the Othello error, a concept coined by Ekman () to refer to the errors in which

the evaluator may fall if he/she does not consider that a person who is telling the truth may

“appear” to be a liar when only one level of analysis is considered. In this sense, it is easy

for biases such as gaze direction or the dierent comfortable certainties mentioned in this

work to induce error. Hence, this paper seeks to reduce this type of errors through a prom-

ising approach, which is a verbal and cognitive one in which the analyst’s bias (with the

double-blind method) is reduced.



Methodological bases: the construction of a corpus for the detection of deception and credibility assessment

Regarding detection of deception and truthfulness assessment, it is clear that there are

currently dierent research studies that question the analysis of microexpressions or para-

linguistics as viable channels of analysis. Although this paper does not go into this issue in

depth, it is considered that the study of these channels can always provide valuable infor-

mation if they are considered as part of a whole. is implies aiming at a constellation of

evidence in which the analysis of linguistic behavior is as important as the analysis of

non-linguistic behavior: an isolated analysis of non-verbal behavior would be just as dan-

gerous as concentrating exclusively on a strictly linguistic analysis. For methodological

reasons, however, in this work greater weight has been given to the construction of the

corpus from a more linguistic angle, without disregarding the other channels. Hence the

audiovisual recording of the participants who took part in this project.

In sum, this work makes dierent contributions. First, it establishes methodological

rigor in the construction of a corpus for the identication of linguistic strategies linked to

lies and truthfulness. is implied the careful selection of participants, the elaboration of

instruments such as the interview guide with a solid theoretical basis, and the submission

of the project itself to an ethics committee.

Moreover, by obtaining two types of discourse (one truthful and one false), it is intend-

ed that soon it will be possible to study both dierences in the same subject, that is, to know

the linguistic baseline of the participant when he/she tells the truth in order to recognize

the relevant and signicant dierences when the same subject lies. It should be considered

that, in the future, specialists in “detection of deception” should focus on assessing truth-

fulness in discourse rather than on identifying lies. is project thus emphasizes both

fallacious and truthful discourse.

Finally, an advantage of the project is the transdisciplinary ethos that it aims to have so

that, over time, more collaborative work with dierent disciplines can be carried out to

understand a phenomenon that is present in our daily interactions.

Appendix

Below is a summary of each of the appendices attached to the research in Spanish.

1. D. Diusion

is appendix corresponds to the poster used for the search of volunteers. It indicates the

requirements, includes contact information and general information about the research.

e poster was circulated by the Language and Cognition Laboratory of the Center for

Research in Cognitive Sciences (UAEM).



Digital Humanities, Corpus and Language Technology

2. CI. Informed Consent Form

is appendix contains the informed consent form. is appendix includes the consent of

the volunteers to participate in the collection of interviews as part of the Language and

Cognition Laboratory project. It species the risks, type of research technique, rights,

benets, and general structure of the interview.

3. GE. Interview Guide

is appendix is divided into two sections: Instructor’s Guide and Interviewer’s Guide. In

the rst section, the general instructions to be given by the instructor to the interviewer

are detailed, that is, to welcome him/her and the instruction to lie or tell the truth in each

of the narratives according to the order decided by the instructor himself/herself. In the

second section, more specic information about the project is mentioned, the instruction

given by the instructor is reinforced without discovering the double-blind, a model

description of the type of narrative expected is made, the participant’s acceptance is asked

again, and the interviewee’s narrative begins with the completion of the question in which

the narrative of the experience of the earthquake of September , , is requested.

4. CT. Transcription Conventions

is section details the transcription conventions used. e criteria used in terms of spell-

ing and punctuation, phonic and lexical labeling, labeling of discursive dynamics, and

format criteria are mentioned.

References

Burgoon, J. K. (). Microexpressions Are Not the Best Way to Catch a Liar. Frontiers in Psychology,

, -.

Blandón-Gitlin, I., López, R. M., Masip, J. y Fenn, E. (). Cognición, emoción y mentira:

implicaciones para detectar el engaño. Anuario de Psicología Jurídica, (), -.

Columbia University, SRI International, and University of Colorado Boulder. (). CSC Deceptive

Speech LDCS. Recurso electrónico. Linguistic Data Consortium. https://doi.org/./

q-a

Darwin, C. (/). La expresión de las emociones. Laetoli.

DePaulo, B., Lindsay, J., Malone, B., Muhlenbruck, L., Charlton, K., & Cooper, H. (). Cues to

Deception. Psychological Bulletin, (), -.

Ekman, P. & Friesen, W. V. (). Nonverbal leakage and clues to deception. Psychiatry, , -.

Ekman, P. & Friesen, W. V. (). Detecting deception from the body or face. Journal of Personality

and Social Psychology, (), -.



Methodological bases: the construction of a corpus for the detection of deception and credibility assessment

Ekman, P., & O’Sullivan M. (). Facial expression: methods, means, and moues. In R. S. Feldman,

& B. Rimé, (Eds.), Fundamentals of Nonverbal Behavior (pp. -). Cambridge University

Press.

Ekman, P. (). Cómo detectar mentiras. Una guía para utilizar en el trabajo, la política y la pareja.

Paidós.

Ekman, P. (). El rostro de las emociones. Qué nos revelas las expresiones faciales. RBA.

Feldman, R. S., Forrest, J. A., & Happ, B. R. (). Self-presentation and verbal deception: Do self-

presenters lie more? Basic and Applied Social Psychology, (), -.

Fisher, R. P., & Geiselman, R. E. (). Memory-enhancing Techniques for Investigative Interviewing:

e Cognitive Interview. Charles C. omas.

Fisher, R. P., & Geiselman, R. E. (). Expanding the Cognitive Interview to Non-Criminal

Investigations. In J. Dickinson, N. Schreiber Compo, R. Carol, B. L. Schwartz, & M. McCauley

(Eds.), Evidence-based Investigative Interviewing Applying Cognitive Principles (pp. -).

Routledge, Taylor & Francis Group.

Fisher, R. P., Milne, R., y Bull, R. (). Interviewing cooperative witnesses. Current Directions in

Psychological Science, , -.

Fitzpatrick, E. & Bachenko, J. (). Building a forensic corpus to test language-based indicators of

deception. In: S. T. Gries, S. Wul & M. Davies (Eds.), Corpus-linguistic applications. Current

studies, new directions (pp. -). Rodopi.

Geiselman, R. E., Fisher, R. P., Firstenberg, I., Hutton, L., Sullivan, S. J., Avetissian, I. V., & Prosk, A.

L. (). Enhancement of eyewitness memory: An empirical evaluation of the cognitive

interview. Journal of Police and Science Administration, , -.

Hauch, V., Sporer, S. L., Michael, S. W. & Meissner, C. A. (). Does training improve detection of

deception? A meta-analysis. Communication Research, (), -.

Hwang, H. C., Matsumoto, D. & Sandoval, V. (). Linguistic Cues of Deception Across Multiple

Language Groups in a Mock Crime Context. Journal of Investigative Psychology and Oender

Proling, , -.

Infante Arriagada, P. (). La mentira como fenómeno lingüístico: algunos aspectos centrales para

su descripción. LL Journal, (), -.

Köhnken, G., Milne, R. Memon, A., & Bull, R. (). A meta-analysis on the eects of the Cognitive

Interview. Psychology, Crime, & Law, , -.

Lancaster, G. L., Vrij, A., Hope, L. & Waller, B. (). Sorting the liars from the truthtellers: e

benets of asking unanticipated questions on lie detection. Applied Cognitive Psychology, ,

-.

Leal, S., Vrij, A., Warmelink, L., Vernham, Z., & Fisher, R. P. (). You cannot hide your telephone

lies: Providing a model statement as an aid to detect deception in insurance telephone ca lls. Legal

and Criminological Psychology, (), -.

López Pérez, R. M., F. Gordillo León y M. Gau Olivares (coords.). (). Comportamiento no verbal.

Más allá de la comunicación y el lenguaje. Pirámide.

Masip, J., Garrido, E. y Herrero, C. (). La detección de la mentira mediante la medida de la

tensión en la voz: una revisión crítica. Estudios de Psicología, (I), -.

Masip, J., y Herrero, C. (). Nuevas aproximaciones en detección de mentiras I. Antecedentes y

marco teórico. Papeles del Psicólogo, (), -.

NITV Federal Services (). Voice Stress Analyzer. https://www.cvsa.com/.

Pennebaker, J. W., Francis, M. E. & Booth, R. J. (). Linguistic Inquiry and Word Count. Lawerence

Erlbaum Associates.



Digital Humanities, Corpus and Language Technology

Picornell, I. (). Analysing Deception in Written Witness Statements. Linguistic Evidence in

Security, Law and Intelligence, (), -.

Reissland, N., Francis, B., Mason, J. & Lincoln, K. (). Do Facial Expressions Develop before Birth?

PlosOne, (), -.

Salekin, R. T., Kubak, F. A. & Lee, Z. (). Deception in children and adolescents. In R. Rogers, &

S. D. Bender (Eds.), Clinical assessment of malingering and deception (p. -). e Guilford

Press.

Villar, G., & Castillo, P. (). e Presence of ‘Um’ as a Marker of Truthfulness in the Speech of TV

Personalities. Psychiatry, psychology, and law: an interdisciplinary journal of the Australian and

New Zealand Association of Psychiatry, Psychology and Law, (), -.

Vrij, A. (). Detecting the liars. Psychologist, , -.

Vrij, A. (). Wiley series in the psychology of crime, policing and law. Detecting lies and deceit: Pitfalls

and opportunities (ª ed.). John Wiley & Sons Ltd.

Vrij, A. (). Deception and truth detection when analyzing nonverbal and verbal cues. Applied

Cognitive Psychology, (), -.

Vrij, A., Fisher, R. P., Mann, S., Deeb, H., Jo, E., Castro Campos, C., & Hamzeh, S. (). e Ecacy

of Using Countermeasures in a Model Statement Interview. e European Journal of Psychology

Applied to Legal Context, (), -.

Vrij, A., Granhag, P. A., & Porter, S. (). Pitfalls and Opportunities in Nonverbal and Verbal Lie

Detection. Psychological Science in the Public Interest, (), -.

Vrij, A., Leal, S., Mann, S. A. y Fisher, R. P. (). Imposing cognitive load to elicit cues to deceit:

Inducing the reverse order technique naturally. Psychology, Crime & Law, , -.

Vrij, A., Mann, S. A., Leal, S. & Fisher, R . P. (). “Look into my eyes”: Can an instruction to maintain

eye contact facilitate lie detection? Psychology, Crime & Law, , -.



Türkisch für Anfänger: propuesta de un corpus del alemán coloquial actual,

ejemplicado a partir de las fórmulas rutinarias de saludo

C IX

Türkisch für Anfänger: propuesta de

un corpus del alemán coloquial



fórmulas rutinarias de saludo

Türkisch für Anfänger: proposal of

a corpus of modern colloquial

German, exemplied from routine

phrases for greetings

Karen Lorena Baquero Castro

Universidad de Salamanca – España; Universidad Ean – Colombia

Resumen: En el contexto de la enseñanza del alemán como lengua extranjera, apren-

dices y docentes se enfrentan al vacío de una didáctica que optimice el proceso y los

resultados de aprendizaje de unidades fraseológicas. En un sentido amplio de la

fraseología, se encuentran las fórmulas rutinarias, expresiones cuya polifuncionali-

dad y complejidad pragmática evidencian la necesidad de crear materiales auténti-

cos basados en el análisis de corpus lingüísticos que apelen al contexto. Para ello,

presento en este artículo la metodología de creación de una base de datos compues-

Türkisch für Anfänger, el análisis de

un subgrupo de fórmulas de saludo presentes en la misma y la correspondiente

implicación didáctica para el aprendizaje de dichas unidades basadas en el alemán

actual cotidiano.

1 Serie de televisión alemana de comedia dramática, producida en los años 2006 a 2008.



Digital Humanities, Corpus and Language Technology

Abstract: In the context of teaching German as a foreign language, learners and

teachers encounter a lack of didactics that optimizes the process and results of a

learner in phraseological units. In a broad sense of the phraseology, there are con-

-

-

           



German television series Türkisch für Anfänger

subgroup of greeting routines available in the corresponding didactic proposal to

learn such phrasemes based on quotidian German language used today.

1. Introducción

Igor Sosa Mayor (, p.) expone que los fraseólogos incluyeron el estudio de las fór-

mulas rutinarias cuando investigaban y establecían las características de otras unidades

como los fraseolexemas. A pesar de haber sido incorporadas por Burger desde  en la

investigación fraseológica del alemán, bajo la denominación de “pragmatische Phraseme”,

los investigadores aún no han llegado a un consenso sobre las características que las de-

nen. Paradójicamente, sí existe claridad suciente para la consideración de sus múltiples

funciones en la comunicación oral y escrita: estructuración de discursos, adecuada inte-

racción situacional, descarga de tiempo y estrés, así como el fortalecimiento del contacto

social a través de la precisión lingüística.

Dada su relevancia, en esta investigación consideramos necesario crear una fuente

lingüística auténtica del alemán actual que permita entre otras, indagar sobre sus diferen-

tes usos y a partir de ello desarrollar estrategias didácticas para su aprendizaje. Partimos

de la creación de un corpus compuesto por las líneas de diálogo de la serie de televisión

alemana Türkisch für Anfänger. Nos proponemos revisar qué tipo de datos recopilados

2 

3 A lo largo de la literatura se encuentran diferentes términos para referirse a dichas unidades: Pragmatische

Idiome (Burger, 1973), Routineformeln (Coulmas, 1981; Burger, 1998; Stein, 1985; Gläser, 1986; Lüger, 1999;

Sosa Mayor, 2006), Kommunikative Formeln (Fleischer, 1982), kommunikative Phraseologismen (Burger,

1998), Kommunikative Routineformeln (Hyvärinen, 2003).

4 Esta investigación hace parte del proyecto doctoral que desarrollo en la Universidad de Salamanca en el

área de lenguas modernas y que tiene como enfoque la creación de un corpus lingüístico que permita la

sistematización de datos sobre las fórmulas rutinarias del alemán coloquial actual.

5 Nos basamos en la propuesta de Lüger (2009, p.15), para quien la autenticidad es aquello que es “real”,





pueden ser usados para que los aprendices desarrollen su sentido lingüístico y sean capa-

ces de comunicarse usando fórmulas actuales y propias de los contextos coloquiales del

alemán.

1.1 Propiedades de las fórmulas rutinarias

Estas unidades, “[…] deben poseer las características comunes a todas ellas, la jación y

en ocasiones la idiomaticidad, […] pero además pueden presentar algún tipo de indepen-

dencia como enunciados fraseológicos que son” (Alvarado, , p.). Dentro de estas

propiedades se distingue la importancia de la jación formal y psicolingüística, “referida

a la convencionalización en la comunidad lingüística, es decir, a la estabilidad en su pro-

ducción y a su frecuencia de uso” (Alvarado, , p.). Como advierte la autora, dichos

rasgos pueden ocurrir de manera gradual.

En las fórmulas rutinarias, la independencia es una característica primordial. Alvarado

(, p.) distingue: la independencia entonativa, distribucional, semántica, sintáctica

y textual. En la primera de estas, la entonativa, se tiene en cuenta que estas unidades “son

actos de habla que presentan fuerza ilocutiva exclamativa de sorpresa, admiración, recha-

zo, susto, etc., por lo que tienen un esquema entonativo propio […] (Alvarado, , p.).

La independencia distribucional, como describe la autora, se reere a la libertad que tiene

el hablante de usar dichas unidades cuantas veces lo requiera (Alvarado, , p.), “por

lo tanto está estrechamente ligada con el concepto de dependencia situacional, ya que un

gran número de fórmulas depende siempre de la situación que se esté produciendo” (Al-

varado, , p.). La independencia semántica tiene que ver con que “el valor de la

fórmula está jado por el contexto habitual en el que se produce y signica por sí misma

y no necesita de otros elementos” (Alvarado, , p.). La última de estas, la indepen-

dencia textual, es aquella que el corpus permite ver con mayor claridad, “si la fórmula se

puede dar tantas veces en el discurso como se quiera es porque no depende del contexto

lingüístico, sino del situacional” (Alvarado, , p.).

Según Winzer-Kiontke (, p.), las fórmulas rutinarias se denen a partir de su fre-

cuencia, coherencia fonológica, uso y grado de independencia. Si bien se puede hablar de un

relativo consenso alrededor de la mayoría de las propiedades denitorias de las fórmulas

rutinarias, hay una, sobre la cual se generan discrepancias, a saber, la polilexicalidad. Alva-

rado () no la postula como una característica necesaria. Para Winzer-Kiontke (,

6 

apropiado lingüísticamente.

Türkisch für Anfänger

rutinarias de saludo



Digital Humanities, Corpus and Language Technology

p.), estas unidades tienden a ser polilexicales, pero se incluyen las que no lo son, es decir,

aquellas monolexicales. Por monolexicales, comprendemos aquellas fórmulas cuyo límite

mínimo es la palabra. Como propone Sosa (, p.), es justamente este aspecto el más

problemático en la clasicación de las fórmulas rutinarias ya que si se aplica de manera ca-

tegórica el criterio de polilexicalidad, se deben excluir unidades del campo de las fórmulas

rutinarias que, según el autor y nuestro estudio, deben ser tenidas en cuenta. Añade Sosa

(, p.) que incluso se tienen en cuenta aquellas fórmulas que por su frecuencia de uso

dejan de ser polilexicales y se convierten en molexicales debido a procesos lingüísticos de

elisión. Así, la monolexicalidad debe encontrarse dentro de las propiedades denitorias de

dichas unidades. Para ilustrar la relevancia de fórmulas rutinarias monolexicales, dentro del

corpus de nuestra investigación se ha encontrado un número total de  fórmulas de saludo,

en las que se incluyen fórmulas como hallo!, Tag! , Morgen, o hey.

2. Clasicación de fórmulas rutinarias

En la literatura de la fraseología, se encuentran diferentes propuestas clasicatorias. Win-

zer-Kiontke () retoma en su sistema de clasicación los aportes de Coulmas (),

Pilz (), Gläser (), Zenderowska-Korpus () y Sosa Mayor (). Tipos de

fórmulas que aparecen en cada una de estas publicaciones como las de saludo, despedida,

pésame, agradecimiento, disculpas y deseos, se tienen en cuenta de manera directa en su

clasicación. Según esta propuesta, la autora recopila los  tipos de fórmulas en sentido

estricto que se muestran en la siguiente tabla (Winzer-Kiontke, , p.):

Tabla 1. Categorías de fórmulas rutinarias según Winzer-Kiontke (2016).

Base de datos-categorías

1. Fórmula de rechazo

2. Fórmula de despedida

3. Fórmula de ocasión

4. Fórmula de tratamiento

5. Fórmula de exhortación

6. Fórmula de compasión

7. Fórmula de bienvenida

8. Fórmula de pésame

9. Fórmula de apaciguamiento

10. Fórmula de aseveración

11. Fórmula de agradecimiento

12. Fórmula de restricción

13. Fórmula emotiva

14. Fórmula de disculpas

15. Fórmula de información

16. Fórmula de advertencia

17. Fórmula de aliento

18. Fórmula de asombro

19. Fórmula de respuesta

20. Fórmula de alimento y

bebida

21. Fórmula de saludo

22. Fórmula institucional

23. Fórmula de comentario

24. Fórmula de contacto

25. Fórmula de estornudo

26. Fórmula de reprimenda y

grosería

27. Fórmula de lenguaje escrito

28. Fórmula de sorpresa

29. Fórmula de presentación

30. F órmula de advertencia (En

sentido amplio: Fórmula de

prohibición)

31. Fórmula de recibimiento

32. Fórmula de deseo

33. Fórmula de consentimiento



rutinarias de saludo

Al igual que esta propuesta, se han planteado un sinnúmero de clasicaciones, que, en su

mayoría, como la de Winzer-Kiontke (, p.), apelan a la teoría de los actos de habla.

Dentro de las más completas también se incluye la de Alvarado (, p.), consideran-

do que es otra clasicación precisa para este grupo de unidades fraseológicas, aunque

pensada para las fórmulas rutinarias del español, y que permite de entrada incluir las

fórmulas rutinarias discursivas.

En la propuesta de Alvarado, el hablante es el punto de partida “que codica sus emo-

ciones en la fórmula rutinaria” (, p.). Tiene en cuenta dos modalidades: “la moda-

lidad lógica, que se relaciona con la verdad de lo que se dice, y la modalidad subjetiva, que

muestra la valoración del hablante” (Alvarado, , p.). En el grupo de fórmulas ruti-

narias lógicas se distinguen las epistémicas, que “se vinculan con el ámbito de la posibilidad

de que un enunciado sea cierto” (Alvarado, , p.) y las deónticas, que “expresan la

obligatoriedad de que se cumpla lo que el hablante dice […]” (Alvarado, , p.), allí

se incluyen las fórmulas declarativas, interrogativas, imperativas y exclamativas. En cuan-

to a las fórmulas rutinarias subjetivas, la autora plantea dos categorías, las afectivas, que

expresan la emoción del hablante y las evaluativas, “que codican la modalidad subjetiva,

puesto que maniestan la actitud del hablante frente al dictum, y evalúan dicho enunciado

en términos valorativos” (Alvarado, , p.). En un último grupo, se encuentran las

fórmulas rutinarias discursivas, cuya función consiste en darle orden al discurso a partir

de tres distinciones: apertura, transición y cierre (Alvarado, , p.).

Consideramos la propuesta de clasicación de Winzer-Kiontke () como la más

adecuada para los nes propuestos en nuestro trabajo. Teniendo en cuenta el carácter del

corpus, nos inclinamos por una clasicación pragmática basada en el uso de las unidades

fraseológicas según su contexto o situación. Consideramos que el aporte de este corpus

consiste justamente en la explotación de las unidades allí identicadas y clasicadas. Dicha

clasicación permite que las reexiones didácticas que de allí surjan sean más operativas

y de este modo más sencillas de comprender para un aprendiz de la lengua.

3. El corpus

En el campo de la lingüística moderna, el uso de corpus se ha dado de manera extendida.

De acuerdo con Villayandre, fue el uso de los computadores para “reunir, organizar, y

procesar esos datos el que ha dotado de modernidad a esta tarea, hasta el punto de propi-

ciar el despegue de una forma de hacer lingüística, la llamada ‘lingüística de corpus’ (,

p.).



Digital Humanities, Corpus and Language Technology

El concepto de corpus previo al desarrollo de los computadores se denía a partir de la re-

copilación de textos con el n de analizar fenómenos de lenguas muertas y tenía como objeto

indagar sobre la adquisición del lenguaje a temprana edad, precisar reglas de ortografía, hacer

listas de vocabulario, comparar lenguas y crear gramáticas (Villayandre , p.). Aunque

durante el siglo XIX se vive en esta disciplina un acelerado desarrollo, es solo a partir del siglo

XX cuando esta se convierte en metodología con la lingüística americana estructuralista.

Con la postura de Chomsky que cuestionaba la metodología del empirismo, la disci-

plina pierde auge y desarrollo. La postura del autor se centraba esencialmente en tres pun-

tos: carencia del uso de la intuición a la que debe recurrir el lingüista, el carácter incom-

pleto de los datos que contienen los corpus y la metodología dispendiosa que implica el

análisis de datos (Villayandre, , p.). Sin embargo, dichas críticas se superaron a

partir de argumentos sobre la gramaticalidad de los elementos del corpus, los datos cuan-

titativos y su representatividad y el uso de computadores. Así, el mayor desarrollo de la

lingüística de corpus se aprecia desde la década de  (Villayandre, , p.).

Algunos de los corpus más representativos creados en dicha década son: el ‘Bank of

English’ el CREA (Corpus de Referencia del Español Actual) y CORDE (Corpus Diacrónico

del español). En dichos corpus se debe cumplir con características primordiales como tener

un formato digitalizado, criterios que permitan la selección de información bien sea lingüís-

tica o extralingüística, representatividad estadística y tamaño por lo general nito (Villayan-

dre, , p.). Nuestro corpus, al conformarse a partir de las líneas de dialogo de la serie

alemana mencionada previamente, se dene como corpus del alemán oral actual. En la crea-

ción de este, se llevó a cabo el proceso de transcripción de  capítulos que constituyen las

temporadas de la serie. Para el alemán existe un gran número de corpus, sin embargo,

estos no están recopilados propiamente para un uso didáctico, como lo expone Wallner

(). Así, el tamaño de nuestro corpus permite un manejo adecuado de información enri-

quecida para el desarrollo de materiales didácticos de aprendices del alemán coloquial actual.

7 -

scripciones, usando como fuente de apoyo los subtítulos descriptivos, junto con el uso de programas como

oTranscribe y Amberscript. Las líneas de dialogo fueron revisadas durante y después de la transcripción. El

corpus tuvo un proceso de revisión extenso a cargo de un ingeniero de bases de datos y una doctoranda



base de datos para el uso del material lingüístico, el corpus pasará por una tercera revisión de un hablante

lingüista y nativo del alemán.

8 Dentro de los corpus del alemán escrito se cuentan, entre otros: das Deutsche Referenzkorpus - DeReKo (In-

DWDS (Berlin-Branden-

burgischen Akademie der Wissenschaften, s.f.), das Projekt deutscher Wortschatz (Automatische Sprachver-



s. f.). Para el alemán oral existe el Datenbank gesprochenes Deutsch - DGD2 (Deppermann & Schmidt, 2014)





En el contexto de esta investigación, entendemos por corpus el conjunto de textos

orales que han sido digitalizados a partir de la recopilación y estructuración de las líneas

de diálogo de la serie alemana Türkisch für Anfänger. Como describe Jens (, p.),

desde mediados de los noventa, diferentes cómicos como Mundstuhl, Kaya Yanar Spaß-

Duo Erkan y Stefan potenciaron el lugar de los llamados etno-formatos en la radio y con

estos, los diferentes estilos de la lengua. En este contexto, surge la etno-comedia Türkisch

für Anfänger. Entre los años  y , ya se habían creado tres temporadas de esta serie

que llamaba la atención sobre la relación de la familia turco-alemana Schneider-Öz-Türk,

conformada por una madre alemana de Berlín-Neukölln y un padre turco, ambos con sus

dos hijos de tradición turco y alemana, respectivamente. A través del humor en la sobre-

actuación de los clichés de ambas culturas, se logran plasmar aspectos de la actualidad

alemana como la inmigración, la interculturalidad y la búsqueda de identidad de los inmi-

grantes. En este proceso, la lengua usada comienza a proponer reexiones de índole social,

como advierte Jens () sobre uno de los personajes de la serie:

con su elección lingüística, de la prosodia, como también de su lenguaje corporal y su ropa,

remite Cem a ambientes sociales característicos en los que se desenvuelve. En esta forma

extrema estilizada de hablar unica elementos de la cultura Hip-Hop, como de anglicismos

adaptados (…) con elementos típicos juveniles (p.).

Justamente esta riqueza semántica, física y visual es la que nos interesa para proponer la

construcción de un corpus lingüístico de este idioma que contenga variedades diatópicas,

diafásicas y diastráticas del alemán oral actual y que den cuenta de las diferentes estrategias

sintácticas, fonológicas, gestuales, corporales y lexicales que dan lugar a lo que la autora

denomina la “realización de una categoría identitaria” (Jens, , p.).

Consideramos que justamente es este proceso de construcción de identidad el que

experimentan los aprendices de lengua y, por tanto, la nalidad de este corpus consiste en

conducir a los aprendices a la lengua auténtica, entendida esta como aquella que es cerca-

na a la lengua en uso, y a un proceso de identicación con su propia construcción de

identidad que se da en la lengua meta.

Es importante aclarar que no desconocemos que la lengua usada en una serie de tele-

visión corresponde a lo que diversos autores han denominado “la oralidad ngida” (con-

cepto introducido por Goetsch (, p.) para describir la oralidad de textos literarios

y que se reere a la “ilusión de autenticidad” que existe en lo escrito que ha sido creado

para lo oral, como lo es un guion de televisión), de modo que el corpus que creamos a

partir de una lengua con estas características se permea de ellas.

rutinarias de saludo



Digital Humanities, Corpus and Language Technology

Consideramos, por tanto, que este tipo de oralidad creada “puede contribuir a crear la

ilusión de verosimilitud, ayudar a situar la acción en una determinada época y región, con-

trastar el lenguaje de los personajes según la pertenencia a cierta clase social o según la edu-

cación, y cotejar la incorporación de elementos procedentes de la tradición y el saber orales”

(Goetsch, , p.). A pesar del reconocimiento de dicha ilusión consideramos que este

corpus representa un material cercano a lo auténtico y real en el uso oral del alemán actual.

Para la comprensión de los resultados cuantitativos, en términos de usos de las fórmu-

las rutinarias de acuerdo con el interlocutor, proponemos el siguiente cuadro descriptivo

de personajes:

Tabla 2. Personajes de la serie Türkisch für Anfänger.

Personaje Actor/Actriz Rol Descripción

Lena Schneider (per-

sonaje principal)

 Hija de Doris y Markus;

hermana de Nils; herma-

nastra de Yagmur y Cem

Es una adolescente de 16 años,

estudiante de Secundaria de

origen alemán.

Doris Schneider Anna Stieblich Madre de Lena y Nils;

hija de Hermi, hermana

de Diana; madrastra de

Yagmur de Cem; esposa

de Metin



origen alemán.

Metin Öztürk Adnan Maral Padre de Cem y Yagmur;

padrastro de Nils y Lena;

esposo de Doris

Es un adulto comisario de origen

turco.

Cem Öztürk Elyas M’Barek Hijo de Metin; hermano

de Yagmur; hermanastro

de Lena y Nils; Ex novio

de Ching y Ulla

Es un joven estudiante que al

terminar sin éxito el examen de

secundaria estudia para formarse

como policía. Su origen es turco.

Yagmur Öztürk Pegah Ferydoni Hermana de Cem, hija de

Metin; hermanastra de

Nils y Lena

Joven estudiante de secundaria

de origen turco. Posteriormente

se dedica a la traducción de

textos turcos al alemán y trabaja

para el Parlamento Alemán. Su

origen es turco.

Costa Papavassilou Arnel Taci Mejor amigo de Cem;

prometido de Yagmur

Joven estudiante de secundaria

que al terminar la secundaria

crea su propio negocio de moda.

Su origen es griego.

4. Análisis cuantitativo del corpus

Con el n de analizar el uso de las fórmulas rutinarias en el contexto de saludo, es impor-

tante tener en cuenta la representación que cada personaje tiene en la serie en términos de



su participación como interlocutor, esto es, en términos del tiempo de intervención. A

continuación, se observa que en consecuencia con el rol que asume Lena, la protagonista,

es quien más participa; asimismo, Doris, su hermanastro Cem y su padrastro Metin.

Figura 1. Líneas de diálogo por personaje.

Dentro de las fórmulas rutinarias de saludo informales encontradas en el corpus, la más uti-

lizada es hey. De las  ocurrencias de esta fórmula rutinaria,  tienen la función de saludo,

las demás  se utilizan en contextos en los que los interlocutores llaman la atención y se

categorizan como fórmula rutinaria de contacto. La segunda más usada es hallo! y le sigue hi!

De estas, las más frecuentes en los textos de aprendizaje suelen ser hallo! y hi!; esporádicamen-

te se incluye hey, contrario a lo que muestra el corpus. Este fenómeno también se presenta en

las fórmulas Guten Morgen y Morgen, la segunda de estas es más usada en el corpus y no

necesariamente en los libros de enseñanza como Studio d (), Berliner Platz neu () o

incluso más recientes como Linie  (). Se explica esto teniendo en cuenta que la mayoría

de los manuales se suelen regir por la norma escrita y no por la norma hablada.

Figura 2. Líneas de diálogo que usan fórmulas rutinarias de saludo o recibimiento.

rutinarias de saludo



Digital Humanities, Corpus and Language Technology

La fórmula rutinaria más frecuente, hey, es usada incluso por personajes que tienen pocas

intervenciones. En cuanto a fórmulas de recibimiento explícitas, únicamente se identican

dos a lo largo de todo el corpus: Wir begrüßen euch y Begrüße deine Füße! Se destaca que

esta fórmula es mayoritariamente usada por interlocutores jóvenes, resaltados en negrilla

en la siguiente gráca. Precisamente, Doris, siendo un personaje principal y que tiene en

el corpus una participación comparable a la de Lena, no hace uso de la fórmula hey. Por

tanto, habría que tener en cuenta esta variable relativa a la edad.

Figura 3. Uso de la fórmula rutinaria hey, por personaje.

Contrario a esta particularidad, la fórmula rutinaria hallo es usada tanto por jóvenes como

adultos, como se observa a continuación:

Figura 4. Uso de la fórmula rutinaria hallo!, por personaje.



Si bien la fórmula rutinaria hi tiene un uso algo frecuente, es usada solo una vez por el

personaje Doris (madre) y no es usada por Metin (padre), dos de los personajes de mayor

edad en la serie.

Figura 5. Uso de la fórmula rutinaria hi!, por personaje.

Teniendo en cuenta los personajes de mayor participación, se puede inferir que los perso-

najes más jóvenes tienden a utilizar en igual medida tanto hallo como hi y en menor pro-

porción usan hey. Por otra parte, vemos que los personajes adultos utilizan más hallo y no

hi ni hey.

Figura 6. Uso comparativo de las fórmulas rutinarias de saludo hallo, hi y hey, por personaje.

Morgen aparece como una fórmula destacada dentro de las unidades fraseológicas de salu-

do ( veces), incluso con más del doble de las ocurrencias de guten Morgen ( veces). En

ambas se observa una frecuencia de uso independiente de la edad del interlocutor.

rutinarias de saludo



Digital Humanities, Corpus and Language Technology

Figura 7. Uso de la fórmula rutinaria Morgen, por personaje.

Figura 8. Uso de la fórmula rutinaria guten Morgen!, por personaje.

La gráca a continuación nos muestra la posibilidad de usar la mayoría de fórmulas ruti-

narias de saludo agregando un nombre a su estructura, como por ejemplo, hey Kathi,

Morgen Cem, hallo Metin, hi Axel, Wie geht’s Yagmur?, grüß Gott Cem! A excepción de

guten Abend, Mahlzeit! y Moin, en todas las demás fórmulas aparece un nombre dentro de

su estructura, al menos una vez.



Figura 9. Fórmulas rutinarias de saludo que se usan en combinación con un nombre.

5. Reexiones didácticas

Con los hallazgos descritos, es consecuente plantear ejercicios didácticos en los que el

profesor de lengua entregue a sus aprendices un input de fórmulas rutinarias que los sen-

sibilice frente a la posibilidad de crear conversaciones que consten únicamente de dichas

unidades, como lo muestra el siguiente ejemplo de nuestro corpus: Hallo, hier ist die Doris.

Macht euch ‘nen ganz schönen Abend und kommt auf keinen Fall vor vier nach Hause, ist

das klar? A su vez, la fuente lingüística de los aprendices puede proponerse a manera de

ejercicio en el que se deban ordenar las líneas del diálogo y que de este modo el aprendiz

se enfrente a la toma de decisiones frente a los espacios del diálogo más adecuados en el

uso de las fórmulas rutinarias. Con ello, notará el aprendiz que para algunas de estas uni-

dades la dependencia del contexto será más o menos rigurosa.

Además, en concordancia con los resultados de los datos cuantitativos, podemos plan-

tear didácticas de aquellas unidades que hayan sido recurrentes en su uso como la fórmu-

la hey, hallo o hi, pero a la vez sobre aquellas no tan representativas como grüß Gott, de las

que se obtenga información que pueda ser revisada a la par de aquello propuesto en los

manuales de enseñanza. Así, algunas de las actividades lingüísticas pueden partir de la

asignación de tareas por parte del profesor que permitan la exploración del uso de fórmu-

las rutinarias con particularidades de tipo regional. Allí por ejemplo el aprendiz puede

indagar, desde un punto de vista analítico y a través de la observación del contexto, qué

interlocutor hace uso de la fórmula grüß Gott, sus características como hablante y las

9 grüß Gott es utilizado únicamente por Ulla, quien se caracteriza por ser muy religiosa. Algunas situaciones en

las que usa la fórmula son: en el saludo del buzón de su teléfono (”Grüß Gott hier spricht Ulla!”), al saludar en

persona (”Grüß Gott Mr. Rimp.”) y al presentarse (”Grüß Gott ich bin Ulla”). Se puede tener en cuenta que esta

rutinarias de saludo



Digital Humanities, Corpus and Language Technology

condiciones de uso de esta unidad frente a los contextos. El docente, por su parte, puede

integrar en el aula guías didácticas que aprovechen el potencial de todo lo que un medio

visual ofrece: imagen, sonido, texto. La imagen podrá ser revisada en términos de la ges-

tualidad que conlleva el gesto de una fórmula; el sonido permitirá reexionar sobre la fo-

nética o entonación y el texto se convertirá en una fuente para el desarrollo de ejercicios

de tipo lingüístico o cultural. Estos ejercicios permitirán que el aprendiz se acerque a lo

que Lavid (, p.) denomina el conocimiento pragmático que implica el saber del

contexto lingüístico-discursivo, así como del extra-lingüístico.

Dentro de nuestras propuestas también sugerimos abordar el corpus desde la perspec-

tiva de la fraseodidáctica contrastiva. En esta, los aprendices recurren a sus conocimientos

de lengua materna y de su mundo conocido con el n de crear traducciones en la forma

de subtitulación o doblajes de la serie de la que cuentan con un texto recopilado en la

forma de corpus y que puede ser llevado a la comprensión de los signicados de las fór-

mulas rutinarias en el contexto auténtico y real de su uso. Así, la reexión desde la lengua

materna les permitirá hacer deducciones sobre fenómenos que caractericen dichas unida-

des como su gestualidad o entonación y con ello fortalecer las competencias comunicativas

orales de la lengua en fase de aprendizaje, en este caso, del alemán.

6. Conclusiones

Este análisis de tipo cuantitativo nos permitió clasicar los datos observados y describir

aspectos de la lengua que a continuación pueden ser tenidos en cuenta en la reexión

didáctica. Hemos detectado, a partir de resultados representativos, que hey, incluso aunque

no sea una fórmula usualmente incluida en los textos de enseñanza, sí cuenta con un uso

extendido por parte de interlocutores jóvenes. Por otro lado, al comparar otras fórmulas

de saludo, para los adultos de la serie fue más frecuente el uso de hallo. Notamos también

que otras fórmulas pueden ser utilizadas en la comunicación oral en combinación con un

nombre propio o un pronombre. Algunos casos muestran también el uso de dos fórmulas

rutinarias como Hallo Metin, schön dich zu sehn; Vorzimmer Dr. Schneider, guten Tag, was

kann ich für Sie tun?; Hi Cem! Na, was geht so; Hi Kathi! Tschuldige, dass ich mich jetzt erst

melde....

Ahora bien, recurriendo a los datos, a su clasicación, a su análisis y uso, proponemos

algunas reexiones didácticas que permitirán además la recepción y producción de dis-

fórmula tiene una marca regional del sur de Alemania y de Austria.

10 Dentro del corpus se encontró un total de 52 fórmulas de saludo combinadas con otra fórmula.



cursos que articulen un lenguaje cercano a lo auténtico del alemán como lengua extranje-

ra. Partimos de la hipótesis según la cual “en una palabra, los análisis cuantitativos permi-

ten explorar y llevar a cabo descubrimientos sobre los patrones de uso de la lengua de

forma rigurosa y able, ya que permiten comprobar empíricamente las hipótesis sobre el

uso de la lengua” (Lavid, , p.).

El carácter representativo del alemán coloquial actual que muestra el corpus descrito

al inicio del artículo, así como su fácil manipulación, permitirá que este sea explotado

tanto por aprendices como por profesores de la lengua alemana, facilitando la creación de

aplicaciones didácticas. Al respecto, de acuerdo con la propuesta de Lavid (, p.), si

bien la ventaja en el uso de corpus se basa en la posibilidad de indagar los signicados de

determinados términos de acuerdo con su aparición y distribución, son también relevan-

tes en el análisis los términos que no estén representados de manera signicativa. Las

fórmulas rutinarias son complejas por su componente social y contextual y deben ser

puestas en conocimiento del aprendiz desde el principio del proceso de aprendizaje. Tal es

el caso del subgrupo de fórmulas rutinarias de saludo, para las que hemos concluido que,

aunque ciertos hablantes adultos no utilizan, es común en el contexto del alemán de los

jóvenes. Ejemplos de ellos son hey o hi, dos fórmulas que se descuidan en los manuales y

por ende muchas veces en el aula de la enseñanza del alemán como lengua extranjera.

Referencias

Alvarado, M. (). Las fórmulas rutinarias en español actual [Tesis doctoral, Universidad de

Alicante]. Repositorio Institucional de la Universidad de Alicante. http://rua.ua.es/dspace/

handle//

Automatische Sprachverarbeitungam Institut für Informatik der Universität Leipzig. ( de enero de

). Deutscher Wor tschatz / Leipzig Corpora Collection, . http://wortschatz.uni-leipzig.de/de

Berlin-Brandenburgischen Akademie der Wissenschaen. ( de diciembre). DWDS –Digitales

Wörterbuch der deutschen Sprache. https://www.dwds.de

Burger, H. (). Idiomatik des Deutschen (Germanistische Arbeitshee). Niemeyer.

Burger, H. (). Phraseologie. Eine Einführung am Beispiel des Deutschen. Erich Schmidt Verlag.

Coulmas, F. (). Routine im Gespräch: zur pragmatischen Fundierung der Idiomatik. Athenaion.

Deppermann, A. & Schmidt, T. (). Gesprächsdatenbanken als methodisches Instrument der

Interaktionalen Linguistik: Eine exemplarische Untersuchung auf Basis des Korpus FOLK in

11 Con el corpus creado, se está desarrollando una herramienta que posibilita una consulta rápida por conteni-

do, permitiendo la depuración de este y observación de estadísticas. Inicialmente, la herramienta que se ha

usado para realizar estas tareas es Mongo DB



una forma más intuitiva. Dicha funcionalidad permitirá observar el contexto de uso de las fórmulas rutinari-

as dentro del corpus.

rutinarias de saludo



Digital Humanities, Corpus and Language Technology

der Datenbank für Gesprochenes Deutsch (DGD). Mitteilungen des Deutschen

Germanistenverbandes, , -. https://doi.org/./mdge....

Fleischer, W. (). Phraseologie der deutschen Gegenwartssprache. VEB Biblio- graphisches Institut.

Gläser, R. (). Phraseologie der englischen Sprache. Niemeyer.

Goetsch, P. (). Fingierte Mündlichkeit in der Erzählkunst entwickelter Schrikulturen. Poetica,

(), -.

Herder-Institut- Universität Leipzig. ( de febrero de ). Gesprochene Wissenschassprache.

https://gewiss.uni-leipzig.de

Hyvärinen, I. (). Kommunikative Routineformeln im nnischen DaF-Unterricht. Info DaF:

Informationen Deutsch als Fremdsprache, (), -. https://www.academia.edu//Ein_

Terrain_des_Fremdsprachenunterrichts_Deutsch_Interkulturelle_Kompetenz_in_der_

Tourismusausbildung

Hyvärinen, I. (). Beiträge zur pragmatischen Phraseologie. Peter Lang.

Institut für Deutsche Sprache, Ausbau und Pege der Korpora geschriebener Gegenwartssprache.

( de enero de ). http://www.ids-mannheim.de/kl/projekte/korpora

Jens, M. (). Mehrsprachigkeit: exibles Repertoire statt Dezit. Die deutsche Ethno-Comedy

Türkisch für Anfänger. Sprachreport: Informationen und Meinungen zur deutschen Sprache, (),

-.

Lemnitzer, L. & Zinsmeister, H. (). Korpuslinguistik: Eine Einführung. Narr Francke Attempto.

Lüger, H. (). Satzwertige Phraseologismen: Eine Pragmalingustische Untersuchung. Präsens

Verlag.

Lüger, H. (). Authentische Mündlichkeit im fremdsprachlichen Unterricht?, Beiträge zur

Fremdsprachenvermittlung. Sonderhe, (), -.

Merriam-Webster. (). Merriam-Webster Dictionary. https://www.merriam-webster.com/

dictionary/sprachgefühl

Pilz, K. (). Phraseologie: Redensartenforschung. Metzler.

Sosa, I. (). Routineformeln im Spanischen und im Deutschen. Eine pragmalinguistische Analyse.

Präsens Verlag.

Stein, S. (). Formelhae Sprache. Untersuchungen zu ihren prag-matischen und kognitiven

Funktionen im gegenwärtigen Deutsch. Lang.

Team Korpus Südtirol. ( de febrero de ). Korpus Südtirol. http://www.korpus-suedtirol.it/

Villayandre, M. (). Lingüística con corpus (I). Estudios Humanísticos. Filología, (), -.

https://doi.org/./ehf.vi.

Wal lner, F. (). Lehren und lernen mit Korpora im DaF-Unterricht. Magazin Sprache vom Goethe-

Institut München.

Winzer-Kiontke, B. (). “Gäbe es das Lehrwerk, würden wir es Ihnen empfehlen.” Routineformeln

als Lehr-/Lerngegenstand. IUDICIUM Verlag.

Zenderowska-Korpus, G. (), Sprachliche Schematismen des Deutschen und ihre Vermittlung im

Unterricht DaF. Peter Lang.



C X

CLEC - Colombian Learner English





online in Colombia

CLEC - Corpus Colombiano de

Aprendices de Inglés: primer

corpus de producción escrita de

aprendices de inglés en Colombia

disponible en línea

María Victoria Pardo Rodrígueza & Antonio Jesús Tamayo Herrerab

Universidad de Antioquia (a) –Colombia; Instituto Politécnico Nacional (b) – México

Abstract: This article aims to introduce CLEC





     



-

-



context that can be easily revised and expanded through the system administrator.





Resumen     CLEC

(Colombian Learner English Corpus) a la comunidad investigadora. Esta aplicación



Digital Humanities, Corpus and Language Technology

fue creada para buscar información dentro de un corpus de aprendices etiquetado

        

recolectado y etiquetado el corpus, fue necesario crear una herramienta que hiciera

búsquedas sistemáticas de información dentro de los datos etiquetados. La compi-

lación del corpus de aprendices siguió las pautas de la Lingüística de Corpus Com-



-

car etiquetas de error dentro de un contexto que se puede revisar y expandir fácil-

mente a través del administrador del sistema. Este corpus está disponible en línea y

está abierto a cualquier investigador que quiera consultarlo o que quiera aportar

nuevos datos para aumentar el corpus.

1. Introduction

Learner corpora (LC) emerged in the late s (Granger et al., ) as a valid scientic

way to analyze learners’ output and has the same characteristics attributed to other corpo-

ra with the dierence that the source of data is the output of language learners. Dened as

“electronic collections of natural or almost natural data produced by foreign or second-lan-

guage students (L) and gathered according to explicit design criteria” by Granger (,

p.) and Gilquin (, p.). LC has gained signicance in the analysis of students’ produc-

tion. Regarding the authenticity of the data produced in a classroom, it is important to

remember that the environment is not completely natural because the activities to obtain

that input involve some kind of “articiality” (Granger, , p.). Also, special attention

must be paid to the criteria to build the corpus. e learner corpus’ metadata, such as

students’ characteristics and the task they develop, are important factors for data collection.

e growth of LC in the late s was in part to its potential to investigate authentic

output from students. is methodology gives researchers access to outstanding amounts

of data samples to do searches for collocations, patterns, and statistics. In the eld of re-

search on second and foreign language acquisition and teaching, learner corpora give ac-

cess to learners’ errors when they have been previously tagged, facilitating the analysis of

such errors.

Error Analysis (EA) appeared in the early s, and Corder () was the rst author

to propose the idea that second language learners generated an autonomous linguistic

system that he called “transitional competence”. e author argued that learners gradually

modify their native language rules towards target language rules, probably using a univer-





sal grammar or what he called a “built-in syllabus”. Later, Selinker () called the built-in

syllabus interlanguage, and this is the term that has prevailed in time. It refers to the version

of language produced by a learner. e analysis of the interlanguage of learners can be

performed through the analysis of errors. Error analysis is “the investigation of the language

of second language learners” (Corder, , p.). ese analyses can be done using elec-

tronic learner corpora to obtain statistics and patterns and analyze what learners lack or

need in their learning process. A learner corpus can be very useful when it has error labels

to facilitate extensive studies.

Although the usefulness of a corpus of learners’ language with error labeling is unde-

niable, it does not, on itself, facilitate extensive studies that could be carried out on it. For

that reason, taking advantage of the fact that this corpus has a marking of errors in a set of

texts, a collection of documents was generated and later uploaded into a database. Aer

having the corpus collected in electronic format, there was a need for a tool that allowed

researchers access to the corpus and provided the possibility of making queries with dif-

ferent lters.

e present paper starts with a brief description of the previous related work in learn-

er corpora. en, it describes the theoretical framework that supports this work along with

the process followed during the compilation of the present corpus and the error tagging

process. Aerwards, it narrates how the CLEC app was designed and how it works to

obtain its best performance. is project was developed with the research group Transla-

tion and New Technologies (TNT) of the School of Languages at Universidad de Antioquia

and makes part of the products of a doctoral thesis.

2. Previous work

ere are numerous corpora of English learners that contain samples of learners who have

Spanish as their mother tongue, UC Louvain, (). Some of them are the Written Corpus

of Learner English (WRICLE) Mendikoetxea et al., (); the Santiago University Learn-

er of English Corpus (SULEC) Santiago University, (): the Gachon Learner Corpus

(GACHON) Carlstrom and Price, (); the NOn-native Spanish corpus of English

(NOSE) Díaz-Negrillo, (); the International Corpus of Learner English (ICLE) Grang-

er, (). e ICLE and the NOSE can be highlighted as corpora of English language with

samples of learners who have Spanish as their mother tongue. e ICLE is considered a

pioneer in the eld of learner language corpus. It has a relatively large collection (approx-

1 CLEC can be accessed via this URL: https://grupotnt.udea.edu.co/clec



Digital Humanities, Corpus and Language Technology

imately . million words) of learners’ written output from  dierent mother tongues,

including Spanish. A CD containing the collection of texts must be purchased along with

a desktop soware to carry out searches and analysis on them to have access to this corpus.

On the other hand, the NOSE (e NOn-native Spanish Corpus of English) has a collec-

tion of approximately  argumentative and descriptive texts from students at the Uni-

versity of Granada and University of Jaen. It has labeling of errors under the EARS system

Diaz-Negrillo, (). Apparently, this corpus had a web interface for its consultation

allowing ltering by subject, text type, and parameters of the student’s prole, but it is

currently not accessible. Most of these corpora lack error labeling, and none of them cur-

rently has an accessible interface for researchers or the public to allow searches on them.

e corpus of the present analysis has a collection of documents labeled with error tags.

It lets researchers, students, and teachers carry out searches systematically and with the

possibility of ltering errors on dierent categories and types. Also, with this app, it is

possible to obtain examples of these errors and their corrections. For the case of errors that

represent more than one error category, a new functionality was developed to change error

tags when necessary. is development results from a long process of trial and error, plus

tests to achieve an app that allows adding, modifying, or eliminating errors or documents.

ese functionalities are carried out with a corpus management system that is powerful,

versatile, and friendly. Initially, the development of this app was carried out in a technol-

ogy called Django, which makes use of the Python language, but it was determined that

the app should allow not only to consult but also to comply with all the initials of the CRUD

concept (James, ) (Create, Read, Update, Delete). erefore, to carry out this scalabil-

ity process, an architecture and a technology analysis exercise were developed to enable

the web application to perform these functions.

3. Corpus collection process

ere are several options to collect a learner corpus. It can be collected as part of an aca-

demic activity in which all students participate, e.g., as an exam with its corresponding

permission for data use. Another option is to ask students to volunteer their work if they

are willing to participate. In this second option, attention must be paid not to introduce a

bias considering that the most successful students would be more willing to participate

than those with a low performance, which would compromise the balance and represent-

ativeness of the data.

Regardless of how a corpus is collected, texts in a learner corpus do not occur strictly

in a natural way because they are produced in a classroom context and are the result of



activities designed to improve the learners’ skills in the target language. In the present re-

search, the output collected results from elicitation techniques that searched for the most

natural output from students. e output resulted from questions that elicited students’

information or opinions from current situations that aect their daily lives. Participating

students were able to choose their own words to express their opinions in their composi-

tions. e present research was based on the analysis of a written corpus from a cross-sec-

tional study.

A written corpus can start with handwritten or typed texts. In the case of handwritten

texts, the researcher must make sure the transcription is accurate; therefore, in typing, it is

essential to trace the texts for any involuntary addition or loss of data. When all texts are

collected, they should be coded, indicating a reference and information that make them

traceable. Attention must be paid to quotations that do not belong to the learners’ produc-

tion. Guilquin (, p.) recommends to “remove quotations (which do not represent the

learner’s own use of language and may therefore have to be excluded from the analysis of

the corpus).” In the present work, quotations were not removed to keep the entire context

from errors. In some cases, removing quotations would mean losing fundamental parts of

the text indispensable to understand the context. On the contrary, they were kept, but close

attention was paid to not analyze those parts. On the other hand, in the case of direct

computerized versions of learners’ texts, they can be kept in les as TXT texts to make sure

they can be uploaded in the most appropriate soware to conduct the tagging process.

e principles of learner corpora guided the collection of the present corpus (Pardo,

). ese are some of the guidelines that should be taken into account when designing

a corpus of learners, according to Granger, (), see Table .

Tabla 1. Guidelines for designing a learner corpus (Granger, 2002, p.9).

Learner Task settings

Learning context

Mother tongue

Other foreign languages learned

Level of performance of English as a Foreign Lan-

guage (EFL)

(The researcher could add other information that

consider relevant)

Time limit

Use of reference tools

Type of test

Audience / speaker

(The researcher could add other information that

consider relevant)

Aer having the institution’s permission to carry out the research, several stages were

needed to accomplish the collection process. Students did a placement test consisting of

an online test supplied by Oxford University Press (Oxford University Press, ) and



Digital Humanities, Corpus and Language Technology

available at www.oxfordenglishtesting.com. Aer a brief registration and the introduction

of a password, the student starts a one-hour test of about  questions that the system

sorts out with dierent degrees of diculty to determine the student’s language level. is

test type guarantees that students are classied according to their performance following

the Common European Framework of Reference for Languages (Europe, ).

In Table  it can be observed how the population of the present study was distributed.

Participating students in this study were registered in dierent semesters from several BA

programs oered by the university: Architecture, Basic Sciences, Health Sciences, Law,

Politic Sciences, International Aairs, Business School, Humanities and Social Sciences,

Engineering, Education Studies, and Mathematics. All participants share the same mother

tongue: Spanish and their average age is .

Table 2. CEFR (Pardo, 2019).

Intro-

ductory

Level

U. Norte Levels 1 2 3 4 5 6 7 8

CEFR A1 A2 A2 B1 B1 B1 B2 B2 B2

Number of Students 110 496 439 409 325 356 377 335 286

Pre-

Intermediate

Interme-

diate

Inter mediate

Upper-

Intermediate

Aer the les were collected, they were processed in dierent ways because they were

submitted in dierent formats. For instance, and because their nal work was handwritten,

for level B the process started with the scanning followed by the texts’ typing. External

assistants did the typing of texts in their nal year of their BA in languages at Universidad

de Antioquia. ey were given clear instructions regarding neither adding nor subtracting

any words from the original handwritten compositions. Aer all texts were transcribed,

they were thoroughly checked for mistakes and to make sure they were exactly as the

original. Next, they were converted into TXT texts to do error annotation. Students from

level B directly did the digital version; therefore, those texts were immediately converted

into TXT format for the error tagger. e handwritten les were in total , and the pro-

cess of typing lasted approximately seven months. Aer all the previous preparation, all

les were ready to start annotation.



3.1. Error annotation process

As any other kind of corpora, learner corpora start as raw texts of electronic versions or

transcribed texts from spoken learner output. Van Rooy (, p.) mentions three advan-

tages of using learner corpora to do research in language teaching: size, variability, and

automation. Size refers to the amount of data that can be processed (computerized corpus

allows analyses of great amounts of data). Var i a b i l i t y refers to the possibility of having

more individuals and more text types to include in a corpus. is advantage is also linked

to the possibility of having a computerized corpus. Finally, automation refers to some

automatic aspects of data analyses possible thanks to information technologies (IT).

Corpus annotation is “the practice of adding interpretative, linguistic information to

an electronic corpus of spoken and/or written language data” (Wynne, , p.). e

added information comes in the form of tags, which can be dened as single entities add-

ed to one part or parts of the speech. Tags are unique and can identify features of the

analyzed learner corpus. ere are dierent types of annotation, and they require dierent

tags depending on the goal of the researcher. For instance, descriptive linguistic uses Part

of Speech (POS) tags to obtain grammatical annotation in a corpus. Another example is

semantic annotation that requires assigning each word a semantic eld used to do rened

searches and classications according to the research purpose. For error analysis, the an-

notation process is done to identify errors according to various categories and types.

To annotate errors, it is necessary to interpret learners’ choices and decide in what

category the error best ts. is entails the construction of one or several target hypotheses

that the researcher must test. It is impossible not to interpret data. Only through interpre-

tation, the researcher will nd ways to unhide possible hypothesis to do an essential anal-

ysis. Assigning a tag to an error means that it was the researcher’s interpretation, and that

interpretation is publicly available for the reader. For that reason, when an error-tag is

assigned, there could be other interpretations, but the most important is to keep uniform-

ity in the way the tags are used. “e usefulness of error annotated corpora depends on the

consistency on the annotation” (Ludeling & Hirschmann, , p.). Once the present

learner corpus was annotated, it was easier to identify and extract data to analyse because

the data was organized and ready to be used with soware that permits further analyses.

For the present work, the learner corpus was tagged with a standardized error taxono-

my that permitted the search and counting of errors analyzing within their context. e

soware used to extract error tags was WordSmith (Scott, ) and LancsBox. (Brezina

et al., ). WordSmith was used to obtaining the total statistics of errors, the dispersion,



Digital Humanities, Corpus and Language Technology

and patterns that most aect the learner’s production. LancsBox was used to obtain a more

detailed prole of each error type and the corresponding graphics.

Regarding the annotation types in error analysis, there are two dierent types of anno-

tation: emendation and categorization (Rosen et al., ). In the rst case, the researcher

establishes one or more target hypotheses and does the correction according to the author’s

intention. On the other hand, the categorization is done following a previous established

list of errors, because error annotation relies on error taxonomies and their categories for

error classication. In the present work, aer choosing a target hypothesis the researcher

did an error categorization, adding predened tags according to the Manual of Error Tag-

ging from Louvain University version . (Dagneaux et al., ). e corpus contained in

the CLEC is a digital collection of  written les from English as a Foreign Language

(EFL) university students registered in dierent careers. Aer the corpus was collected, the

les were labeled. When an error was detected, the label was placed just before the error,

and the correction followed the error between two-dollar signs:  correction  as the man-

ual indicates:

Example:

   GADJN     

refers to the pluralization of an adjective (ADJN) in English).

e errors labeled and corrected in the CLEC are classied in the following eight categories

that grouped a total of  error types. Please refer to appendix  of the present article to see

the error types in detail.

• Form (F): groups the words used that do not exist in English and other errors of a formal

type.

• Grammar (G): groups the errors that violate the general rules of English grammar.

• Lexical-grammar (X): errors where the morphosyntactic properties of a word are vio-

lated.

• Lexis (L): errors related to the semantic properties of words or sentences.

• Words (W): redundant words, missing words, or wrong word order.

• Punctuation (Q): errors related to punctuation marks.

• Style (S): incomplete sentences and unclear sentences.

• Infelicities (Z): registration problems (related to the eld, the mode and the tenor of the

speech) and issues of political correctness.



e next step aer doing the error labeling was the extraction and alignment of the corpus.

is process was carried out using an extraction soware that searched for the labels and

grouped them according to each error type. Tags were extracted within a context that

granted proper analysis. e corpus’s alignment was done using WordSmith, Scott, ()

and LancsBox soware, Brezina et al. (), which permitted the identication of lan-

guage patterns obtaining statistics of the data with their respective graphs. Aer this pro-

cess, the analysis of the ndings took place.

3.2. Corpus metadata summary

e following are the main features of the corpus.

• Medium: written production

• Students belong to dierent university majors

• e EFL courses are  hours with an intensity of  hours per week for  weeks

• Native language of learners: Spanish

• Target language: English

• Genre of texts: there is a combination of genres between opinion paragraphs on dier-

ent topics for level B and argumentative essays for level B

• Tokens per text: at level B a maximum of , at level B up to 

• Type: local corpus that seeks to identify needs and failures of learners

• Data compilation: it is a synchronous corpus with data collected in the second semester

of 

• e incidence analysis was done by calculating the percentage of errors per  tokens

to guarantee the proportionality of the analysis

• Corpus characteristics , tokens, , types and , lemmas

4. Methodology in the designing of the web application CLEC

Aer having the corpus collected and labeled with error tags, it was necessary to develop

an application that systematically allowed the search of errors with the possibility to lter

them according to dierent categories and types. It was also required that the app could

allow changes in the error tags when they overlap among error categories. erefore, a web

application was developed with a frontend and a backend layer. Aer several tests, the

functions of adding, modifying, or eliminating unnecessary data in the corpus were

dened to be implemented. e development was possible thanks to a new technology

where the frontend and backend responsibilities could be separated, and they were not



Digital Humanities, Corpus and Language Technology

codependent. e alternative was a backend developed in Node.js (Dahl, ) together

with Express.js (a web application framework for Node.js) for its construction as a REST

API (Fielding, ) and a frontend in a JavaScript-based technology in which the options

were React (Walke, ). It was decided to develop these technologies as they have excel-

lent documentation and constant updates. Likewise, it was considered that the Node.js and

React technologies have better support and a much broader community to guarantee a

better response to the problems that arise throughout the development.

During the process, it was decided to use the persistence layer MongoDB (Merriman

et al., ) database management system (DBMS), which is document oriented because

it is consistent with the data of the corpus in the present study. is DBMS allows ecient

access when making inquiries. e structure shown in Figure , allows to store the contexts

aer being processed. In this structure, it can be observed how the data is organized by

level, name of le, context, error type, and its correction.

Figure 1. Document structure in MongoDB.

Aer dening the technologies to use, the development of the backend started by devel-

oping the methods for the search of errors. e additional services were dened and devel-

oped to enable the functions to create, read, modify, and delete contexts and create, read,

and delete errors.

In this case, the method for modifying errors was le out as this meant an unnecessar-

ily large load for processing due to the data’s nature. Instead, it was decided to leave this

functionality implicit as a combination of elimination and addition of errors. e database

of contexts was populated with the help of preprocessing Python scripts that allowed struc-

turing the data in the way it was previously dened. e new method of creating contexts

included all this preprocessing that was required for new contexts.

In Figure , it is shown the architecture of the system described above.



Figure 2. CLEC System Architecture.

As may be observed in Figure , the proposed system has two roles: administrator and user.

e administrator can modify the application’s data, whereas the user can only use the

application. e most important use cases for both administrator and users are shown

below in gure  and , respectively.

Figure 3. The administrator’s use cases.



Digital Humanities, Corpus and Language Technology

Figure 4. Use cases available for all users.

Each of the use cases depicted above will be illustrated below.

ere were two ways to obtain the text contexts, one that displayed all the texts for a

general view of dierent errors within their contexts, and one that obtained a specic text

for a detailed view of each error within its context. Let us see the general view of dierent

errors in Figure .



Figure 5. et al., 2018)

In Figure , for every sentence, it can be observed at the right side of the menu a button

link that redirects the search to see each error’s whole context. Clicking that button implies

seeing the text’s whole context that contains the error mentioned at the le side of the

sentence. When you hit the button “go to context,” you will see what is shown in Figure ,

the same error within the full context, and the correction in green.



Digital Humanities, Corpus and Language Technology

Figure 6. et al., 2018).

Considering the nature of the data and these functionalities, the possibility of modifying

contexts only to the parts of each text that did not contain errors was added. is was done

in case the researcher wants to focus only on the text with errors. ere were two methods

to achieve this goal, one that creates lists of both context parts that contained and did not

contain errors, and a second method that receives similar lists with the modications

made.

Similarly, the services corresponding to creating, reading, and eliminating errors were

developed. All of them included verications so that the rest of the errors did not enter

conict for their positions and/or for their content. For this part of the process, the service

to modify errors was le out because it resulted in multiple cases in which some verica-

tions of the data required excessive processing. is was replaced by a new possibility to

modify errors by eliminating a previous error and adding a new one. It was an easier

function, both for the development process and for the end-user.

Down, on the right side of Figure ,  buttons allow changes in the corpus: add error,

modify context, remove context, and refresh context.



Figure 7.  

ese new functionalities are a plus in case there is need for a more detailed work in the

corpus or to focus on specic parts of the texts.

A view of the search lters can be viewed in Figure . ese lters were grouped by

level: the corpus was divided into  levels of English A, A, B, B. ey were arranged in

an element of type selected:

• Basic (A)

• Pre-intermediate (A)

• Intermediate (B)

• Advanced (B)



Digital Humanities, Corpus and Language Technology

Figure 8. 

In Figure , it can be noticed how the error types explained in the corpus collection section

of this article were arranged as an element of type select.

Figure 9. et al., 2018).

In Figure , it may be noted how a condition was created so that check boxes with the

corresponding class error types would be displayed when the selection was changed. In all

this process, it can be noted how the system’s graphic design was created, selecting the

university’s institutional colors (dark and light green).



Figure 10. Check boxes to choose error types to analyze in the Grammar categor y.

In this case, Figure  shows error types from the grammar category, but if the category

changes, the error types will correspond to the chosen category.

In Figure , it is possible to observe errors within the context of one sentence. e

errors are in red and in front of the whole text with the corrections in green.

Figure 11. 

e same errors can be viewed in the whole context when hitting the button “go to con-

text.” In Figure , we may note the view of the whole context for one of the errors.



Digital Humanities, Corpus and Language Technology

Figure 12. 

It is necessary to clarify that the view of errors in Figure  shows all the dierent errors

the student made in his composition, for that reason, there are several categories and types

of errors.

All the previous functionalities were oriented for the use of all users, including unau-

thenticated ones. For authenticated users (administrator role), additional components

were made available for the other functionalities, including a button, in the context view,

for each error that would allow the possibility to eliminate them if necessary. Let us see the

detail in Figure .

Figure 13.  et al., 2018).

Besides, a set of buttons were included at the bottom of the whole contexts, and the buttons

are: Add, Modify, Remove and Refresh. By displaying a pop-up window, the user selects



the context section on which he/she wants to introduce a modication. e same process

is followed for each case. ere is another button to remove the context and the last button

to refresh the context with the changes made. Let us see Figure .

Figure 14. et al., 2018)

5. Results

From the previous process, the result was a web responsive application that completely

performs searches and does analysis on the tagged corpus of errors. is app contains a

learner corpus of English as a Foreign Language (EFL) learners that has the potential of

being easily revised and expanded through the role of the system administrator. is new

functionality will be very useful to enrich the system that can be used by linguists, teachers,

and students who may consider it to do research. is corpus is available in the given URL



Digital Humanities, Corpus and Language Technology

and is open to any researcher if you want to consult it or if you want to contribute with

learner corpora.

e development of the backend as a REST API allowed the tests to be carried out

independently of the frontend, allowing future developers to use this API for new versions

or refactoring of the frontend.

Regarding the front end, it was also possible to deliver a design that is very aesthetic

and friendly. is will allow that existing method and those that would be open to the

public were simplied and more understandable for use.

Finally, the web application was deployed on the Translation and New Technologies

(TNT) research groups of Universidad de Antioquia server. e Colombian Learner Eng-

lish Corpus (CLEC) is available online at: https://grupotnt.udea.edu.co/clec.

5.1. Graphical view of errors

e ndings of errors in the corpus were grouped by category and type. Figure  shows a

view of errors by category.

Figure 15. Incidence of errors by category (Pardo, 2019).

It is clear in gure  that the category of errors with most frequency in the corpus was

Grammar. A more detailed view of errors is displayed by type in Figure .

2 



Figure 16. Incidence of errors by t ype (Pardo, 2019).

In this case, the frequency by type can give us an idea of the frequency of each type of error.

All this information can be easily retrieved for its analysis using the CLEC app.

6. Conclusions

is work presented the CLEC app, the rst corpus of written production of Colombian

students learning English as a Foreign Language available online for the research communi-

ty. CLEC works with a modern technology that oers agile maintenance options and allows

a user interface design that is friendly and allows a satisfying interaction with the app.

Similarly, it was possible to achieve the construction of a complete, friendly, and safe

administration system to manage the data of the treated corpus allowing its scalability and

maintenance to create, read, edit, and eliminate contexts. ese functions give the appli-

cation an invaluable utility for didactic and research matters.

ere were several advantages brought with the technologies used in this project. Using

React, future development teams will be able to take over the project and add new func-

tionalities.

Despite the complexity of the structure in which the contexts and errors were handled,

it was possible to reduce the complexity of the entire process for the end-user through the

correct planning of the development and the views. Now it is an interface that allows the

use of its features in a practical way.



Digital Humanities, Corpus and Language Technology

Finally, this work gives the academic community an invaluable free access web appli-

cation, which facilitates the teaching-learning process of English as a foreign language

through an ecient and friendly error analysis.

Acknowledgements

anks to Universidad del Norte for allowing the collection of the data.

We would like to acknowledge Manuel Gómez and Nicolás Henao for their participa-

tion in the design of the CLEC app.

e research reported here was supported by a COLCIENCIAS scholarship.



Appendix

1. Error categories and types according to the manual of Louvain University

FM Form, Morphology

FS Form, Spelling

FSR Form, Spelling, Regional

GDD Grammar, Determiner, Demonstrative

GDO Grammar, Determiner, POssessive

GDI Grammar, Determiner, Indenite

GDT Grammar, Determiner, OTher

GA Grammar, Articles

GADJCS Grammar, Adjectives, Comparative / Superlative

GADJN Grammar, Adjectives, Number

GADJO Grammar, Adjectives, Order

GADVO Grammar, Adjerbs, Order

GNC Grammar, Nouns, Case

GNN Grammar, Nouns, Number

GPD Grammar, Pronouns, Demonstrative

GPP Grammar, Pronoun, Personal

GPO Grammar, Pronoun, POssessive

GPI Grammar, Pronoun, Indenite

GPF Grammar, Pronoun, ReFlexive/Reciprocal

GPR Grammar, Pronoun, Relative/ Interrogative

GPU Grammar, Pronoun, Unclear reference

GVAUX Grammar, Verbs, Auxiliaries

GVM Grammar, Verbs, Morphology

GVN Grammar, Verbs, Number

GVNF Grammar, Verbs, Non-Finite / Finite

GVT Grammar, Verbs, Tense

GVV Grammar, Verbs, Voice

GWC Grammar, Word Class



Digital Humanities, Corpus and Language Technology

LCC Lexis, Conjunctions, Coordinating

LCLC Lexis, Connectors, Logical, Complex

LCLS Lexis, Connectors, Logical, Single

LCS Lexis, Conjunctions, Subordinating

LP Lexical Phrase

LPF Lexical Phrase, False friends

LS Lexical Single

LSF Lexical Single, False friends

QC Punctuation, Confusion

QL Punctuation, Lexical

QM Punctuation, Missing

QR Punctuation, Redundant

SI Sentence, Incomplete

SU Sentence, Unclear

WM Word Missing

WO Word Order

WRS Word Redundant Single

WRM Word Redudant Multiple

XADJCO LeXico-Grammar, Adjectives, Complementation

XADJPR LeXico-Grammar, Adjectives, Dependent Preposition

XCONJCO LeXico-Grammar, Conjunctions, Complementation

XNCO LeXico-Grammar, Nouns, Complementation

XNPR LeXico-Grammar, Nouns, Dependent Preposition

XNUC LeXico-Grammar, Nouns, Uncountable / Countable

XPRCO LeXico-Grammar, PRepositions, Complementation

XVCO LeXico-Grammar, Verbs, Complementation

XVPR LeXico-Grammar, Verbs, Dependent Preposition

Z Infelicities



References

Brezina, V., McEnery, T., & Wattam, S. (). Collocations in context: A new perspective on

collocation networks. International Journal of Corpus Linguistics, (), -. https://doi.

org/./ijcl...bre

Carlstrom, B., & Price, N. (). e Gachon Learner Corpus. Retrieved from https://app.box.com/s/

erqwdvfqzekztlmkc

Corder, S. (). e signicance of learner’s errors. IRAL - International Review of Applied Linguistics

in Language Teaching, (-), -. https://doi.org/./iral...-.

Corder, S. (). Error Analysis and Interlanguage. Oxford University Press.

Dagneaux, E., Denness, S., Granger, S., Meunier, F., Ne, J., & ewissen, J. (). Error Tagging

Manual Version .. Centre for English Corpus Linguistics, Université Catholique de Louvain.

Dahl, R. (). NODE.JS. Open JS Foundation. https://nodejs.org/es/docs/

Diaz-Negrillo, A. (). EARS: a User’s Manual. Lincom Academic Reference.

Díaz-Negrillo, A. (). Learner corpora: the case of the NOSE corpus. Journal of Systemics,

Cybernetics and Informatics, (), -. https://www.iiisci.org/journal/pdv/sci/pdfs/HEBAV.

pdf

Europe, C. of. (). e Common European Framework of Reference for Languages: Learning,

teaching, assessment. Common European Framework. https://doi.org/./elt/cci

Fielding, R. (). Architectural Styles and the Design of Network-based Soware Architectures

[Doctoral dissertation, University of California, Irvine]. Donald Bren School of Information

and Computer Sciences. https://www.ics.uci.edu/~elding/pubs/dissertation/elding_

dissertation.pdf

Gilquin, G. (). From design to collection of learner corpora. In S. Granger, G. Gilquin, & F.

Meunier (Eds.), e Cambridge handbook of learner corpus research (pp. -). Cambridge

University Press.

Granger, S, Gilquin, G, & Meunier, F. (Eds.). (). e Cambridge Handbook of Learner Corpus

Research. Cambridge University Press. https://doi.org/./CBO

Granger, S. (). A Bird’s-eye view of learner corpus research. In S. Granger, J. Hung, & S. Petch-

Tyson (Eds.), Computer Learner Corpora, Second Language Acquisition and Foreign Language

Teaching (pp. -). John Benjamins Publishing Company.

Granger, S. (). e International Corpus of Learner English : A New Resource for Foreign

Language Learning and Teaching and Second Language Acquisition Research. TESOL Quarterly,

(), -.

James, M. (). Managing the database environment. Savant Research.

Ludeling, A., & Hirschmann, H. (). Error annotation systems. In S. Granger, G. Gilquin, & F.

Meunier (Eds.), e Cambridge handbook of learner corpus research (pp. -). Cambridge

University Press.

McEnery, A., & Hardie, A. (). Corpus Linguistics: Method, theory and practice. Cambridge

University Press.

Mendikoetxea, A., O’Donnell, M., & Rollinson, P. (). WriCLE: A learner corpus for Second

Language Acquisition Research . . http://ucrel.lancs.ac.uk/publications/cl/_FullPaper.

doc

Merriman, D., Horowit, E., & Ryan, K. (). MongoDB Documentation. https://docs.mongodb.

com/

Pardo, M. (). Error Analysis in a Written Corpus of Spanish Speakers EFL Learners. A Corpus-

based Study. Universidad de Antioquia.



Digital Humanities, Corpus and Language Technology

Pardo, M., Quiroz, G., Tamayo, A., Henao, N., Ortega, M., & . (). CLEC Colombian Learner

English Corpus. https://grupotnt.udea.edu.co/clec/corpu

Rosen, A., Jirka, H., Stindlová, B., Feldman, A., & Svatava, S. (). Evaluating and automating the

annotation of a learner corpus. Language Resources and Evaluation, (), -. https://doi.

org/./s---

Scott, M. (). Wor d S mith. Lexically. http://lexically.net/wordsmith/research/

Selinker, L. (). Interlanguage. International Review of Applied Linguistics in Language Teaching,

(–), -.

UC Louvain. (). Centre for English Corpus Linguistics. Learner Corpora Around the World.

https://uclouvain.be/en/research-institutes/ilc/cecl/learner-corpora-around-the-world.html

University, T. S. (). e Santiago University Learner of English Corpus (SULEC). https://sulec.

cesga.es/

Van Rooy, B. (). Annotating learner corpora. In S. Granger, G. Gilquin, & F. Meunier (Eds.), e

Cambridge handbook of learner corpus research (pp. ). Cambridge University Press.

Wal ke, J. (). React. Una biblioteca de JavaScript para construir interfaces de usuar io. React. https://

es.reactjs.org/

Wynne, M. (Ed.) (). Developing linguistic corpora: a guide to good practice. Oxbow Books.

Part III

Corpus analysis and

Natural Language

Processing



C XI

Pronunciation of consonant

clusters in Spanish speakers based

on the Czech read speech corpora

La pronunciación de los grupos de

consonantes en hispanohablantes

basándose en el corpus oral leído

checo

Kateřina Pugachova & Jitka Veroňková

Faculty of Arts, Charles University – Czech Republic

Abstract:-







   

-

-

-

         

-



Resumen: El propósito de este estudio fue determinar qué grupo de consonantes



de sonido que son más frecuentes, debido a la diferencia en la estructura de las sí-

-





Digital Humanities, Corpus and Language Technology

los grupos de consonantes estudiados se incluyeron en un texto coherente escrito

-



de consonantes se han pronunciado incorrectamente. El número de grupos de con-

sonantes pronunciados correctamente varió mucho entre los tipos de agrupaciones

e incluso dentro de las propias agrupaciones. La sustitución, elisión y prótesis repre-



dominante, afectó a todos los tipos de grupos de consonantes estudiados.

1. Introduction

In recent years, the Czech Republic has been hosted to an increasing number of Latin

American and Spanish people who usually work or carry out their studies at universities.

Smaller Spanish-speaking groups regularly take part in summer Czech language schools

for foreigners or attend preparatory courses aimed at potential international students at

Czech universities.

However, there are a limited number of textbooks for Spanish speakers on the market.

Available materials are oen a translated version or an older edition. Regarding the Czech

language of Spanish speakers, rather informal observations of teachers are available, but

systematic data-based research has not been carried out.

Our experiment aims to contribute to the research of sound aspects of Czech in Span-

ish speakers. It focuses on one of the dicult areas, i.e., the pronunciation of consonant

clusters. Perception analysis is based on recordings of Czech read speech in speakers with

Spanish as a rst language.

e diculties of Spanish learners with the pronunciation of consonant clusters or

consonants in the positions restricted in Spanish have been mainly evidenced by studies

on the acquisition of English. Based on the review of literature, Moore and Marzano ()

presented a list of possible errors of Spanish students learning English, including conso-

nants and their clusters. Based on Helman (), some of these are possible adaptations

of unfamiliar English consonant endings, the simplifying of a consonant cluster by deleting

a consonant, substituting to create an ending permissible in Spanish or a change leading

to a vowel ending. According to Magen (), initial schwa inserted by Spanish speakers

in English syllable onsets formed by fricative + stop clusters and deleting of nal /s/ be-

longed among factors listeners were sensitive to when they rated the extent of foreign ac-

cent. e application of Spanish phonological and orthographic rules on English is recog-



Pronunciation of consonant clusters in Spanish speakers based on the Czech read speech corpora

nized from spelling in written texts as well. (Fashola et al., ; Sun-Alperin and Wang,

; Hevia-Tuero et al., )

e diculties L learners may encounter are not only due to the inuence of the L

features on the target language. Piske () provides an overview of factors that may aect

the acquisition of L including pronunciation, e.g., the length of stay in the target country

and the use of language, gender or existing or lacking formal instructions; the existence of

the so-called critical period is widely discussed (comp. also Singleton, ; Rothman,

). Individual dierences among learners might be caused, for example, by the cognitive

and learning styles, language aptitude, motivation and personality (Ellis, , pp. -;

Hummel, , pp. -). Regarding our speakers, we were mainly interested in circum-

stances related to staying in the Czech Republic, studying Czech and using Czech in daily

communication; however, our research is not focused on examining the inuence of any

certain factor.

2. Theoretical framework

Sound characteristics distinguishing Czech and Spanish include syllabic structure and

consonant clusters. e primary dierence lies in the number of consonants within a sin-

gle syllable, their frequency, and phoneme combinatory aspects including constraints in

specied positions. In Czech, for example, some sonorants (mainly /l/ and /r/) may form

a syllabic nucleus, unlike in Spanish.

Czech and Spanish syllables tend to be open. In both languages, the predominant syl-

lable type is the CV type, which occurs in . in Czech (Těšitelová et al., , p.)

and in . in Spanish (Guerra, , as cited in Quilis, , p.). However, a signicant

dierence is the number of consonants within one syllable. In Spanish, onset and coda are

usually formed by one, rarely two consonants, and thus the CCCV syllable type, for in-

stance, containing three consonants in onset, is not present in Spanish, unlike in Czech in

which it has a frequency of occurrence of . (Těšitelová et al., , p.). CCVCC is

the longest Spanish syllable type – occurrence of . (Guerra, , as cited in Quilis,

, p.), the same syllable type in Czech occurs with the higher frequency of .

(Těšitelová et al., , p.). Based on the analysed texts, the longest Czech syllable type

is CCCVCC (ibid; Kučera & Monroe, , p.) with frequency of . (Těšitelová et

al., , p.); however, it is possible to nd samples even for types with longer consonant

sequences (Bičan, , p.) and the number of consonants in the onset may increase by

including a non-syllable preposition.



Digital Humanities, Corpus and Language Technology

In Czech, there are no such restrictions for one-segment or multi-segment onset and

coda, as in Spanish. (Ludvíková & Kraus, ; Kučera & Monroe, ; Bičan, ) In the

Spanish CC-onset in the initial word position there can be only combinations of obstruent

and sonorant, namely  clusters /pr, br, fr, tr, dr, kr, gr, pl, bl, , kl, gl/ (Saporta & Olson,

, p.; Quilis, , p.; Ríos Mestre, , section ....) and /tl/ in words of

Náhuatl origin (Quilis, , p.; RAE, , p.-). e loanwords containing initial

/s/ followed by another consonant are adapted by a prothetic vowel, e.g., escena (RAE, ,

p.). In loanwoards, e.g., from Latin or Greek, other consonant groups such as cn-, gn-,

mn-, pt- and ps- may occur in the initial position of the word. However, in Spanish, the

groups remain preserved only in written form, the pronunciation is simplied (the rst

consonant is elided). Simplied forms appear even in written form as parallel variants, e.g.,

gnomo – nomo, psíquico – síquico, ptolemaico – tolemaico (RAE, , p.-; RAE, ).

For the Spanish coda -C at the end of a word, studies present a limited set of phonemes

as well. It is the loanwords that are the source of new codas including -CC in the word nal

position, otherwise unusual in Spanish (Saporta & Olson, , p.), e.g., golf or vals

(RAE, , p.). However, there is a tendency towards simplication in pronunciation

too. Parallel variants may occur, e.g., cinc/zinc is pronounced both with a full coda or

without a nal consonant, or only simplied pronunciation is used, e.g., robots with elision

of /t/. (RAE, , p.-).

e sequence of consonants may be increased by the contact of a coda and an onset in

the medial position of a word. In Spanish, changes occur in those cases as well. For exam-

ple, in the combination bs + consonant, /b/ is usually weakened or skipped. According to

RAE (, p.-), nowadays it is possible to omit b not only in pronunciation but even

in writing and the simplied spelling is primary; comp. e.g., oscuro – obscuro, sustantivo

– substantivo, sustituir – substituir (RAE, ). e cause is mainly the syllable boundary.

Unlike in Czech, where the position of the syllable boundary may vary to some extent

(Palková, ; Šturm, ), in Spanish there are precise rules governing this process; the

main rule is the permission or restriction of a xed combination of sounds within a sylla-

ble. (Quilis, , pp. -; Ríos Mestre, , section ...) For example, the  clusters

dened for the initial position of a word (see above) cannot be split within a word (Quilis

& Fernández, , p.).



Pronunciation of consonant clusters in Spanish speakers based on the Czech read speech corpora

3. Methodological framework

3.1. Target consonant cluster set

In the rst step, we determined a set of target consonant clusters. Since the aim was not to

test the pronunciation of individual segments, but consonant groups as a whole, the con-

dition was determined that consonants absent in the Spanish language would not be

included in the consonant cluster set used for this research. Otherwise, any potential dif-

culties of speakers might be primarily related to the pronunciation of that segment, not

to the combination of the given cluster as a whole. For example, clusters with a specic

Czech vibrant fricative /r

/ or with a laryngeal consonant [ɦ] (in Czech, unlike most lan-

guages, voiced), none of which have equivalent in Spanish, were not tested.

e starting point was a set of consonant clusters occurring in Spanish. Based on Qui-

lis (), RAE (), and Čermák (), those consonant clusters were selected, whose

pronunciation may dier between Czech and Spanish or those that may present diculties

for L Czech speakers with Spanish as L because of position restriction etc. Due to a large

number of such clusters, another selection procedure followed. e set was limited to

two-component clusters with an initial consonant [s], with an initial consonant [p], name-

ly [pt], [ps], [pn], and the cluster [gn]. ree-component clusters [pst] and [psk] were also

included. ose clusters were then systematically supplemented based on Czech language,

e.g., by combinations containing voiced/voiceless counterparts.

In the S + consonant type, we tested all two-member combinations existing in Czech,

the rst member of which is the consonant [s] (with the exception of less common or

problematic combinations such as [sf] or [stʃ]). ose items were [s] + voiceless stops [p],

[t], [c], [k], fricative [v], nasals [m], [n], [ɲ] and oral sonorants [l], [r], [j].

Due to the use of the nasal palatal [ɲ] in conjunction with [s], we decided to test the

combination of the nasal [ɲ] with other initial consonants already used, i.e., the cluster [pɲ]

and [gɲ] were added.

Due to the fact that in Czech the voicing opposition plays an important role, four more

clusters [bn], [bɲ], and [kn], [kɲ] were added as voiced and unvoiced equivalents to the

existing clusters [pn], [pɲ], and [gn], [gɲ]. In these nasal clusters, the voicing property of

obstruents should be preserved.

Altogether,  clusters divided in  types were included in the experiment (see Table ).



Digital Humanities, Corpus and Language Technology

Table 1. Set of consonant cluster types.

2-consonant

clusters

• 

• [ps]

• [pt]

• obstruent bilabials [p], [b] and velars [k], [ɡɲ]



3-consonant

clusters

• [pst]

• [psk]

Note: In the following text, capital letters, i.e. [ps] PS are used, and palatals [ɲ] and [c] are

written as Ň and Ť.

3.2. Target words set

A set of words containing the observed consonant clusters was created. For each consonant

cluster, the position in the word selected for the test was established: initial – I, medial – M

and nal – F. e purpose of the experiment and the ideal number of tested units were

taken into account.

In the S+cons type, we focused on the initial position, because that is where Spanish native

speakers use a prothetic vowel, which is a signicant dierence compared to Czech. e orig-

inally determined nasal clusters PN and GN were tested in I and M positions. e groups with

voicing counterparts and palatal [ɲ] were tested only in M position. For other types PS, PT

and PST, PSK, an attempt to nd a representative for all three positions was made.

e Index Database (Databáze heslářů) was used for searching suitable words. It con-

tains over , entries from  Czech written sources with items from both older

dictionaries and new vocabulary occurring in newspapers or magazines. In the process of

creating the word sets, it was found that we could not always ll a dened I / M / F position.

e PST, for example, appeared only in positions M and F. For some clusters, although

lexemes were available, their occurrence was either restricted to scientic terminology, or

very limited in general frequency. For that reason, the GŇ cluster was eventually excluded

from the test. Regarding the type and position,  subgroups were dened.

To ensure that any errors would be a matter of personal pronunciation and not a case of

ignorance of orthoepic rules, in S+cons, only words in which the graphic form and pronun-

ciation of the target cluster did not dier due to voicing assimilation, as in the word zkoušky

[skouʃkɪ] (En. exams, Sp. exámenes), were tested eventually. e need to perform voicing

assimilation occurs in our set in less frequent groups: a) in all ve representatives of PST, in



Pronunciation of consonant clusters in Spanish speakers based on the Czech read speech corpora

graphic form of bst, e.g., obstarávat (En. to procure, Sp. procurar), b) once in PT in the M

position (drobty (En. crumbs, Sp. pizcas) vs. poptávka (En. demand, Sp. demanda).

Table 2. 

CC IMF

ɲB



nominative case.

CC IMF N Example Pronunciation In English In Spanish

SP I 2 spekulace [spɛkulatsɛ]speculation especulación

ST I 2 studentka [studɛntka] student (fem.) la estudiante

 I 2 st [scɛʒi:] hardly apenas

SK I 2 skupina [skupɪna] group grupo

SV I 2 svobodu [svobodu]  

SM I 2 smutná [smutna:] sad (fem.) triste (fem.)

SN I 2 snad [snat] perhaps quizas

 I 2 sňatek [sɲatɛk] marriage matrimonio

SL I 2 slunce [sluntsɛ]sun sol

SR I 2 srazila [srazɪla] (she) crashed chocó (fem.)

SJ I 2 sjezdu [sjɛzdu]  

PS I 6 psala [psala]  escribió (fem.)

psychologie [psɪxologɪjɛ]psychology psicología

PS M 7 napsaly [napsalɪ] escribieron (fem.)

kaps [kapsɪtʃkɪ]pockets bolsillos

PS F 2 kolaps [kolaps] collapse colapso

PSK M 3 Lipska[lɪpska]  

PST M 4 substanci [supstantsɪ] 

F 1 zábst [za:pst] to freeze tener frío

PT I 3 ptát [pta:t] to ask preguntar

M 3 koncepty[kontsɛptɪ]concepts conceptos

F 3 recept [rɛtsɛpt]recipe receta

PN I 3 pnula [pnula]  se enroscó (fem.)

M 3 oslepne[oslɛpnɛ] se quedará ciego

 M 3 trapně[trapɲɛ]embarrassingly embazarosamente

BN M 2 drobné[drobnɛ:] change (n.) cambio (sust.)

 M 2 bezchybně[besxɪbɲɛ] sin falta

GN I 1 gnómon [gno:mon] gnomon gnomon

M 3 ignorovat [ɪgnorovat] to ignore ignorar

KN M 2 knou [pjɛknou]  

 M 2 barokní[barokɲi:] baroque barocco



Digital Humanities, Corpus and Language Technology

A list of words containing the selected clusters in dened positions was created. We

assumed that a coherent text would be a better disguise for the target phenomenon and

that a story would be easier to read than, say, single sentences without wider context. In

order to examine as many items as possible while avoiding excessive text length, the fol-

lowing numbers of words were used: a) two words for each S+cons cluster, b) regarding

PS, six clusters in I and  in M (and two in F) to obtain more items for comparison, c) for

remaining clusters, an average of – words per cluster and position. e set of words

examined also depended on the number of suitable candidates. In cases where the number

of words of a certain type of cluster was insucient in any of the I, M, F positions, we tried

to increase the representation of the cluster in another position, e.g., the PST cluster was

represented only by one word in F, but x in M. Where possible, a loanword was used for

the given cluster and the position. Each word contained just one target consonant cluster,

with the exception of two words – skeptiku (En. sceptics, gen., Sp. escépticos, gen.), skepse

(En. scepticism, Sp. escepticismo) containing two examined consonant clusters. Table 

presents the set of dened clusters according to their position and the samples of target

words. A total of  dierent words (containing  target consonant clusters) were selected:

  words in I,   words in M and   in F. e most numerous were disyllabic (.)

and trisyllabic words (.), then -syllabic (, .). Monosyllables were represented

by seven words and - and -syllabic items were attested in three cases altogether. A text

– story ( words long) was created. In order to prevent the spread of a consonant cluster

across a word boundary, the I-cluster was preceded by a vowel, and a vowel followed the

F-cluster, or it was assumed that a pause would be realized.

3.3. Speakers

e group of participants consisted of  speakers with Spanish as L who were either from

the rst author’s circle of acquaintances or responded to requests on social media, through

which the community of foreigners living in Prague was addressed. Women showed sig-

nicantly less interest, which resulted in groups not being balanced by sex:  males and

females were eventually available for the experiment. ere were  Latin Americans from

six dierent countries and  Spanish, each coming from dierent cities in Spain. e length

of stay of speakers in the Czech Republic (CR) ranged from . years to . years, for most

speakers it was a continuous stay. Five speakers completed a one-year preparatory course

in Czech, then they studied in the CR at technical universities. One speaker stated the

study of Czech lasted . years. For other speakers, the study of Czech was shorter – from

two weeks to six months, with the characteristic that those studies took place several years



Pronunciation of consonant clusters in Spanish speakers based on the Czech read speech corpora

ago, and in two cases it was self-study; the speaker declaring two-week study had lived in

the CR for . year. Speakers also diered in the degree of use of Czech or the intensity of

contact with the Czech environment – some speakers used Czech at work or in commu-

nication with their family or friends, while others did not use Czech in their daily life at

all. With some exceptions, however, all indicated English as their primary language for

communication. ere was one more speaker, who might be considered bilingual. His

father was from Peru and his mother was Czech. is speaker had a Czech and Spanish

high school diploma and at the time of recording he was currently studying at a Czech

university. According to his words, however, he started speaking Czech at a preschool age

and he had not always felt condent in Czech in some respects. roughout his life, he had

been alternating between both Czech-dominated and Spanish-dominated environments.

All speakers interested in participating were recorded including the bilingual one as his

speech showed similar features to the rest of the speakers (see Table ).

Table 3. Information about speakers.

CR



Speaker F/M Country L1 Stay in CR

(in years)

Study Czech

(+University study)

Primary language

used in daily life

S1 F Paraguay es, pt 8.5  es, cz

S2 F Honduras es 9.5  en

S3 M Bolivia es 8.5  en, cz

S4 M Peru es 8.5  en

S5 M Colombia es 8.5  en

S6 M Peru es 2 10 m. en

S7 M Spain es 7 6 m. en

S8 M Spain es 3 6 m. en

S9 M Honduras es 2.5 3 m. en

S10 M Spain es 1.5 3 m. en

S11 F Colombia es 4.5 1 m. en

S12 M Ecuador es 2.5  en

S13 M Peru/CR es, cz   cz, es

3.4. Recording procedure

Reading of the Czech story by the  Spanish speakers were recorded individually in a

sound-treated and sound-proofed room (AKG C  B-BC microphone, sample rate

kHz, -bit depth). eir main task was to read the text. In a short introductory dia-

logue, relevant information regarding speakers’ personal data and exposure to Czech lan-



Digital Humanities, Corpus and Language Technology

guage was gathered. e form of a dialogue was preferred to a questionnaire in order to

capture the circumstances of each individual speaker.

Before recording, each speaker had been given time to get accustomed to the text. All,

but one speaker, were ready in less than  minutes. Only  speakers asked for a translation

of some less frequent words. No speaker asked for guidance in pronunciation. During the

recording, one of the authors was present in a soundproof room to reduce stress of speak-

ers due to the unknown environment. Before reading the actual text, speakers introduced

themselves shortly. is was done in order to ensure that the speaker started reading the

text in their standard voice and got accustomed to being recorded. Based on an informal

discussion following the recording, none of the speakers were able to identify the topic of

the experiment.

3.5. Perception analysis

Perception analysis supported by acoustic representation was performed using Praat so-

ware (Boersma & Weenink, ). Target words were transcribed, and the following pro-

cedure was executed:

 Presence or absence of intonation juncture between the target word and adjacent words

was examined.

 e uency of the target word as a whole was assessed on the -point scale:  meant

uent pronunciation with – signalling degrees of dysuency. Only words with  rating

were processed further.

 Intelligibility of words thus determined was assessed (-point scale).

 Further analysis concerned the target consonant clusters was performed in multiple steps.

a It was determined whether the cluster was pronounced correctly or incorrectly. During

the analysis, cases emerged in which the decision-making was uncertain. Since this

group was not large, we opted for the following solution: based on repeated listening,

a consonant cluster with little inaccuracy was rated as correct, while clusters with

greater inaccuracy were rated as incorrect.

b is rough categorization disregarded the fact that some pronunciation variants were

less intelligible than others; therefore, we proceeded to the subsequent evaluation of

that aspect (-point scale).

In case of incorrect realization,

c the type of sound changed and d) aected segments were determined.



Pronunciation of consonant clusters in Spanish speakers based on the Czech read speech corpora

e following sound changes were studied: substitution, elision, prothesis, epenthesis,

metathesis, lengthening of the consonant, weakening. Based on the analysis, another type

was added, namely splitting, i.e., the splitting of a word cluster into two parts. In some

consonant clusters, multiple sound changes co-occurred. In cases where sound changes

aected dierent segments, these changes were accounted for separately, e.g. [barokɲi:] 

[baro(k)ni:] as weakening of [k] and substitution [ɲ]  [n]. Another typical example was

the addition of a prothetic sound to a cluster and aecting a consonant simultaneously. e

category of accumulation was newly introduced for cases where a consonant was aected

by several sound changes [prokopskɛ:ɦo]  [prokops:(ʃ)skɛɦo], or when it was not possible

to clearly determine the type of sound change, e.g. [sɲatɛk]  [stǝk].

In the following analysis we use the data obtained in step  and present the results of

phase a, c and partially d.

4. Data analysis

4.1. Correctness rate: overview

e resulting set of  target clusters was analyzed ( words x  speakers): . of target

words were aected by slips of tongue, dysuency (see step  above) or repetition and those

items were excluded from further analysis, . of consonant clusters were pronounced

correctly, . of them incorrectly.

Concerning the position within a word, the I, M, F positions did not dier in the num-

ber of excluded cases, ranging from . to .. e correctness rate in M and F was

similar (M: ., F:.), in I it was a little bit lower (.).

In the following sections . and ., the results presented have already all the above-men-

tioned exclusions.

4.2. Correctness rate: consonant clusters

In this part, the results regarding consonant clusters are presented. Fig.  shows the number

of correct variants of each cluster type (for types see section .). Each type achieved at least

 of correct realizations. e S+cons and O+nas types narrowly crossed this line. e

greatest correctness rate was indicated in the PS and PSK types (about ). e PT and

PST types were situated roughly in the middle of the range.

Nevertheless, these summarizing results may disguise dierences within cluster types

according to their phonetic composition or within the same consonant cluster according



Digital Humanities, Corpus and Language Technology

to the positions I / M / F. Fig.  provides the comparison of correctness rate for consonant

clusters in which dierent positions in the word were tested.

For the PS and PT types, all three positions were tested. e PS type achieved a very high

correctness rate in M and F (slightly above ); the correctness rate was lower in I, but still

very high (almost ). For PT, the correctness rate diered for all positions, decreasing in

the direction I – M – F, the dierence between I and F is about  (I: ., F: .).

In the other three consonant cluster types, only two positions were tested. e biggest

dierence between the positions was seen in the PN type, where the realization in M was

very successful (.). On the contrary, in I, incorrect realizations prevailed (the number

of correct variants was only .). In another type with nasal GN, the M position was as

successful as in PN (.). In I, the correctness rate was slightly lower compared to M,

however, unlike in PN, the correctness rate of M in GN was still relatively high (.).

e three-segment cluster PST, similarly to PT, indicated a lower correctness rate in F

compared to M. For PT, the dierence between these positions was about ; for PST, it

was even about  (M: ., F: .). e number of correct realizations of PSK, which

was tested only in M, was similar to PST in this position (.).

Figure 1. Correctness rate of consonant cluster types (in %).

Figure 2. 



Pronunciation of consonant clusters in Spanish speakers based on the Czech read speech corpora

Figure 3. 

Figure 4. 

Fig.  shows all two-segment clusters belonging to the S+cons type which was tested in the

I position. e correctness rate of pronunciation was very high for clusters ST and SP

(between  and ). In the next band (between  and ) there were SN and SK

clusters. e limit of  was exceeded by three more clusters of the S+cons type – SŤ, SL

and SM. e S+cons clusters can therefore be divided into two groups. ere were seven

clusters with the correctness rate of over , representing four tested combinations of

two obstruents (SP, ST, SŤ, SK), two combinations with nasals SN and SM and a combina-

tion with lateral SL. e remaining four clusters did not reach even  of correct variants

– these were the remaining combinations with sonorants SR, SŇ, SJ and the cluster SV with

fricative [v].

Fig.  compares the correctness rate of O+nas clusters in the M position, i.e., the com-

binations with palatal [ɲ] (occurred only in this position in our set) and the combinations

with alveolar [n] (tested in the I and M positions, see above). As we have already shown in

the previous explanation, the correctness rate of pronunciation was very high for clusters

PN and GN in the M position (between  and ). Unlike them, the correctness rate



Digital Humanities, Corpus and Language Technology

of BN cluster was very low () and the rate of KN is situated roughly in the middle of

the range ().

e PŇ type was the only combination with a nasal palatal in which the number of

correct realizations exceeded , for KŇ the number of correct realizations was around

half of the cases, for BŇ it did not even reach  (GŇ was not eventually included in the

set, see section .). For all pairs of clusters N / Ň, the number of correct realizations was

higher for the cluster with alveolar [n] than for the cluster with palatal [ɲ]; the highest

dierence was in the pair PN – PŇ (). e same observation was made for clusters SN

– SŇ () belonging to S+cons type.

4.3. Sound changes

4.3.1.

Sound changes: overview

In this section, we provide an overview of sound changes that occurred in the set of incor-

rect pronunciation (step c, see .).

Table 4. 

Type of sound

changes

Frequency

(in %)

Example, correct

pronunciation

Example, real

pronunciation

In English In Spanish

substitution 44.3 [ɪgnorovat] →[ɪxnorovat] to ignore ignorar

[progno:zu] →[prokno:zu]  

[slɛtʃnu] →[ʃlɛtʃnu]  

elision 22.0 [supstantsɪ] † [sustantsɪ] 

[psɪsko] →[sɪsko] dog perro

prothesis 20.2 [statʃɪlo] →[ɛstatʃɪlo]  

[srovnala] →[ɛsrovnala]  

 2.8 [krɛpsɪlonɛm] →[krɛ(p)sɪlonɛm]  

epenthesis 2.1 [pnɛumatɪka] →[psnɛumatɪka] tyre neumático

lengthening 1.7 [psɛm] →[ps::ɛm]  

metathesis 0.7 [sjɛzdu] →[sɛjʒdu]  

accumulation 3.5 [prokopskɛ:ɦo] →[prokops:(ʃ)skɛɦo]  Prokop (adj.)

splitting 2.8 [popta:fka] →[pop tavka] demand demanda

Within the whole set, a multiple occurrence of incorrect realisations within the consonant

group occurred in  cases. ere was a co-occurrence of two changes, with the exception



Pronunciation of consonant clusters in Spanish speakers based on the Czech read speech corpora

of one case with three changes. e total number of sound changes was thus  higher than

the number of incorrect implementations.

Among the types of changes, substitution was the most frequently represented (.).

e second most numerous were elision (.), and prothesis (.); their frequency

was therefore about half that of substitution. e frequency of other types (weakening,

epenthesis, lengthening, metathesis, and accumulation and splitting into two stress groups)

did not reach  (see Table  for more details); their total share in the number of sound

changes was ..

4.3.2.

Sound changes in types of consonant clusters

In this section, the distribution of sound changes in consonant cluster types is presented.

Based on previous ndings, three most common types of changes, i.e., substitution, elision

and prothesis, have been distinguished; the remaining changes are included in the group

“ o t h e r s ”.

Fig.  shows two types of values for each type of consonant clusters. e rst value

represents the number of incorrect variants. Other values indicate the distribut ion of sound

changes for a given cluster type.

It is obvious that the types of clusters diered in the types and the amount of sound

changes they evoked. e most visible nding was that prothesis occurred only in S+cons.

For this type, prothesis covered the entire half of all sound changes (.). Another rela-

tively common sound change in this type was substitution. However, the distribution of

sound changes varied among single clusters of this type (see below).

Substitution was the most common sound change for O+nas, where it applied to ⅔ of

all sound changes (.). One-h of the sound changes in this type was elision. How-

ever, almost all the instances of elision appeared only in the I position of PN, which also

contained a lot of incorrect realizations overall (the position I of GN was rather successful).

In M, nearly all incorrect realizations were the matter of substitutions, regardless of the

number of incorrect forms, or whether the cluster contained N or Ň.

Elision covered more than half of the sound changes for PS and PT (., .).

However, in the case of PS it was elision in I, and in the case of PT the cluster in F was

simplied. PS and PT types, compared to other cluster types, had relatively more sound

changes included in the group “others” (for PS about ). ese changes occurred main-

ly in M.



Digital Humanities, Corpus and Language Technology

e gure does not include the types PST and PSK, for which there were only  and 

sound changes respectively; in both cases, it was mainly a substitution, in M of PST elision

as well.

Figure 5. -



Fig.  shows the number of incorrect realizations and the distribution of sound changes in

consonant clusters of the S+cons type (the absolute values of). In two of the four least

successful clusters SŇ and SV, there was a considerable number of substitutions; prothesis

reached about half of the cases there. On the other hand, in the four most successful clus-

ters, which were three obstruent clusters SP, ST, SK and SN, substitution did not occur at

all (except for one occurrence in SN). For the remaining clusters, the number of instances

of prothesis and substitution were either comparable or the number of substitutions was

lower. Elision occurred only individually; changes included in the “others” were also lim-

ited and occurred in the least successful clusters with a sonorant.

Figure 6.  



Pronunciation of consonant clusters in Spanish speakers based on the Czech read speech corpora

4.4 Success rate and sound changes in individual speakers

Concerning individual speakers (see Table a), the number of correct forms ranged from

. to ., while the number of incorrect forms ranged from . to .. Speak-

ers also diered in the number of excluded cases that ranged from . to .. e

number of excluded items did not correlate with the number of correct realizations (r=.,

using Spearman’s coecient).

Table b indicates the number of incorrect realizations for each speaker and the distri-

bution of sound changes. In the speech of speakers with fewer than  incorrect items (⅓

of all target clusters), it was substitution that prevailed, except S, who tended to elision.

Table 5. a) Number of correct and incorrect realizations and excluded clusters regarding speakers (in %).

b) Number of incorrect realizations and number and type of sound changes regarding speakers. Corr /

 

a) b)

Speaker Corr Incorr Ex Incorr S El POthers Total

S1 80.0 12.0 8.0 9 6 1 0 2 9

S2 73.3 13.3 13.3 10 7 2 1 1 11

S3 77.3 13.3 9.3 10 5 3 2 0 10

S4 57.3 41.3 1.3 31 8 11 12 1 32

S5 53.3 34.7 12.0 26 19 3 0 7 29

S6 69.3 25.3 5.3 19 10 4 1 4 19

S7 62.7 33.3 4.0 25 16 7 1 2 26

S8 53.3 41.3 5.3 31 17 4 8 6 35

S9 69.3 20.0 10.7 15 8 4 1 4 17

S10 84.0 14.7 1.3 11 6 2 0 4 12

S11 50.7 40.0 9.3 30 11 8 14 1 34

S12 44.0 53.3 2.7 40 13 8 18 4 43

S13 78.7 13.3 8.0 10 1 6 0 3 10

Sum 267 127 63 58 39 287

%44.3 22.0 20.2 13.6 100

A more detailed analysis was applied to speakers with at least  incorrect variants. ese

were six out of  analysed speakers (marked in grey in the Table a). e ratio between

correct, incorrect and excluded cases in these speakers is clearly shown in Fig. . In one of

these speakers, the number of incorrect realizations prevailed over the correct ones (S

. of incorrect variants). ere were speakers with both the low number of excluded

items (S .) and the higher number of excluded items (S .). e distribution of

sound changes was to a large extent variable (see Fig. ). Speaker S and S manifested



Digital Humanities, Corpus and Language Technology

the largest number of prothesis (more than ). Unlike them, S had no prothesis, but

dominated in the number of substitutions (.); similar number of substitutions and

almost no instance of prothesis were observed by S. Speaker S applied elision to a larger

extent than most of the others (.). Speaker S had a noticeably higher number of

“others” types of sound changes compared to most other speakers (.). Possible inu-

ence of the factors we obtained (duration of stay in the Czech Republic, studying of Czech,

etc.) on the correctness rate are discussed in the next section .

Figure 7. Number of correct (Corr) and incorrect (Incorr) realizations and excluded (Ex) items (in %) regar-

ding six mostly unsuccessful speakers.

Figure 8.  



5. Discussion

Pronunciation of dened consonant clusters was proved to present diculties for Spanish

speakers, including the advanced ones. On average, ⅔ of realizations were correct, ⅓ con-

tained errors, slips of tongue or dysuency. It seems that the initial position was slightly



Pronunciation of consonant clusters in Spanish speakers based on the Czech read speech corpora

more dicult, however compared to M and F positions, the dierence was not so remark-

able. Nevertheless, we need to bear in mind that the clusters were not tested in a balanced

way in I, M, F.

e correctness rate among the cluster types and within the types varied considerably.

ere was a tendency for clusters containing only obstruents to be more successful. is

was evidenced by the number of correct realizations of both disyllabic clusters PS and PT,

clusters of /s/ + stop – SP, ST, SŤ, SK, as well as three-syllable clusters PST and PSK. Even

the least successful obstruent clusters achieved a correctness rate of over  (with the

exception of the SV cluster, see below). Numerical values also indicated the tendency:

clusters consisting only of obstruents had a correctness rate of ., clusters with nasals

(O+nas and relevant clusters of S+cons type – SM, SN and SŇ) . and clusters contain-

ing oral sonorants SJ, SL, SR achieved the lowest correctness rate of ..

e SV cluster, indicating the lowest correctness rate of all the clusters tested – only

., was not included in the calculations above. In Spanish, [v] can be heard for example

in the word afgano as the voiced variant of /f/ (RAE, , p.). In Czech, it functions as

phoneme /v/, and phonetically, it is classied as a fricative, however, due to historical de-

velopment, it behaves like a sonorant in certain positions. For example, it does not cause

voicing assimilation of the previous unvoiced obstruent. So, in the SV cluster, [s] remains

voiceless in Czech. Both analysed words containing SV, sváteční and svobodu, achieved the

high number of incorrect forms (/). Substitution, namely sonorization [s]  [z], was

very frequent (/). Prothesis was also relatively common (/), with one speaker com-

bining both of these sound changes within a word. e incorrect realization of the SV words

was caused by the application of the incorrect orthoepic rule and the sound change typical

of the S+cons clusters following the structure of the Spanish syllable.

It was indicated that correctness rate may be inuenced by the position of the cluster

in the word. In I, M and F, two clusters PS and PT were tested. e correctness rate of PS

was very high in all positions, in M and F of about , in I slightly lower. In PT, the ten-

dency was reversed and the dierence between I and F was more evident: the I position

was the most successful – , F the least successful – . Elision, namely that of [p],

obviously prevailed among the incorrect realizations of PT and PS.

In the PT type, three words were tested in F. Two words manuskript and pološept con-

tained a greater number of incorrect realizations (/). is may be because these are

trisyllabic words, less frequent, and the Spanish equivalent of manuscrito no longer con-

tains the consonant cluster pt. e word recept, on the contrary, was relatively successful

(incorrectness /). It is a quite common disyllabic word; in Spanish, in addition to the



Digital Humanities, Corpus and Language Technology

word receta, there is also recepta, which might encourage the preservation of the consonant

cluster in pronunciation. is parallel could also be seen in tested PS words in F biceps and

kolaps with a large number of correct realizations. Both words are loanwords and in Span-

ish spelling bíceps, colapso they have retained the consonant cluster.

For PS, a potential dierence may be found between the pronunciation of native and

loanwords in I. For the latter, the tendency towards elision seems stronger. In the words

psychologie and pseudogotický, where it is possible to omit p in Spanish equivalents in

writing as well, / incorrect realizations occurred. For native vocabulary, e.g., psi, psala,

there were only / incorrect realizations. However, the word length might have aected

pronunciation as well.

In I of PN, with a considerable number of incorrect realizations (/), this dierence

was not detected. e speakers pronounced both loanwords pneumatika, pneumatiky,

whose Spanish counterpart is spelled only without p – neumático, and the native word

pnula incorrectly. PN was also another example of a cluster with a signicant dierence

between positions – unlike in I, the speakers were more successful in M (only / incorrect

forms). In addition, substitution applied mostly in M, opposite to I where elision prevailed

in both PS and PT.

An interesting tendency was noted regarding nasals – for the respective pairs PN – PŇ,

BN – BŇ and KN – KŇ tested in M, the cluster containing an alveolar was always more

successful than the one with a palatal. is applied not only to stop + nasal clusters, but

also to SN – SŇ, for which the dierence within the pair was most considerable. However,

a more detailed word-level analysis will be required to account for possible factors. For

instance, in the words snubní and barokní, substitutions [ɲ]  [n] was applied frequently.

e impact of spelling on pronunciation cannot be excluded as a factor: In these words,

the grapheme n is the part of the digram ní, which is pronounced as [ɲi:], not [ni:].

Regarding sound changes, substitution, elision and prothesis represented almost 

of them. Substitution, which aected all analysed clusters, was the most frequent. is may

have been caused by the fact that the category of substitution is very extensive and may

include dierent types of processes (voicing assimilation, articulatory assimilation both in

place and manner, etc.). InBN/BŇ, KN/KŇ and GN in M, substitution was obviously the

dominant sound change, as it occurred at least in ¾ of realizations. Examination of the

substitution types may help explain the low correctness rate of clusters containing /b/. In

accordance with Spanish rules, Spanish L speakers oen weakened the closure and pro-

nounced the sound as an approximant or a fricative. e occurrence of substitution was

also signicant for PN in M (see above) and S+cons (about ⅓ of sound changes). In the



Pronunciation of consonant clusters in Spanish speakers based on the Czech read speech corpora

latter, the type of substitution may contribute to explaining the lower correctness of some

clusters as well. For example, [s] followed by a sonorant was quite oen assimilated to [z],

similar as in SV (see above).

Elision appeared in both disyllabic and trisyllabic clusters, beginning with [p]; it was this

consonant that was mostly elided. See the discussion on PS, PT and PN above. Unlike most

of the other sound changes, prothesis was present only in S+cons, and it accounted for more

than half of all changes in this type. is may be due to the /s/ + consonant group being wide-

ly spread in Spanish but not appearing as an onset at the beginning of a word. In this position,

it is standardly divided into two syllables adding a vowel prior to the /s/ + consonant group.

e range of correctness rate in terms of speakers was relatively wide, which was not

so surprising, given the composition of the speakers group and the interview data. Based

on the correctness rate, the speakers were divided into two groups. Although the research

did not focus on the possible inuence of extralinguistic factors, we wondered if there were

some common features within the groups. e obtained data did not allow for greater

generalization; however, some ndings may be presented.

Of the  speakers, only four regularly used Czech on a daily basis (S, S, S, S) with

two of them working in Czech environment (S, S); a total of three mentioned Czech as

one of the two languages they speak mostly (S, S, S). All four speakers belonged to the

group with higher correctness rates. However, as the example of the S speaker showed,

active use, supported here by partial school attendance in Czech, was not a guarantee of

mastering pronunciation at the highest level. Although this speaker mentioned Czech be-

sides Spanish as his mother tongue, he did not deviate from other speakers with low fre-

quency of incorrect forms.

ree speakers from a more successful group shared the experience of a one-year Czech

preparatory course and subsequent study at a university in Czech (S, S, S). However,

even studying in Czech is not in itself a guarantee of a correct pronunciation, unless sup-

ported by other factors. Namely, speakers S and S also went through the same type of

course and university, but practically didn’t use Czech aerwards and, based on the anal-

yses, they belonged to a less successful group. e same may be said about the period of

stay in the Czech Republic – out of the whole group of respondents, all ve named above

stayed in the Czech Republic the longest (if S is omitted), around  years, but the correct-

ness rate was dierent.

Speaker S is a very interesting case. He made a comparable number of errors as re-

spondents who had graduated from a Czech university and used Czech regularly. Howev-

er, S moved to the Czech Republic only a year and a half before recording and had only



Digital Humanities, Corpus and Language Technology

three months of self-study. He mentioned that he loves literature, writes stories himself,

and although he did not have particularly intense contacts with the Czech environment,

he tried to listen to Czech as much as possible on the street and in the media.

us, it seems that the active use of Czech or an active approach and probably motiva-

tion are likely to be benecial. Speakers in the less successful group mentioned English as

the language of communication, some barely associated with Czechs and did not use Czech.

When they did use it, it was a less frequent use in the city, listening to TV / radio or in

meetings with Czech extended family.

6. Conclusion and perspectives

e presented experiment brought useful ndings that can be followed up. Within the

already analysed material, it would be useful to compare in more detail the realization and

sound changes of individual words. Due to the length of the recordings, the already carried

out analysis of  units could be expanded up to double in the framework of the current set

of consonant clusters; however, because of unintentional occurrences, the balance of all clus-

ters and positions is not guaranteed. Undoubtedly, it will be useful to expand the set of

analysed consonant clusters, both in terms of segment combinations and their number. It will

be appropriate to verify the identied tendencies on a larger number of respondents and to

obtain a more balanced group of males and females. e analysis was performed on the read

text, which posed both advantages (controlled occurrence of target clusters, by speakers no

need to formulate themselves) and disadvantages (potential inuence of the graphic form on

pronunciation, more dicult vocabulary), so it will be appropriate to expand the research

material with recordings of spontaneous speech. e rating of intelligibility processed by

authors was for information only; perception tests focusing on the impact on a native speak-

er in terms of foreign accent, intelligibility and comprehensibility would also be benecial.

Recordings of Czech native speakers started to be gathered to compare native and non-native

speech. In addition, it would be useful to analyse the production of consonant clusters in

speakers of other Ls, which could not only enhance our theoretical knowledge, but also be

benecial for improving methods in teaching pronunciation of Czech as L.

Acknowledgements

is research was supported by the Czech Science Foundation Project No. -S “Pho-

netic properties of Czech in non-native and native speakers’ communication”.

We would like to thank anonymous reviewers for their constructive comments and

recommendations.



Pronunciation of consonant clusters in Spanish speakers based on the Czech read speech corpora

Appendix

1. A sample of a Czech text that was read and recorded (the target clusters are

indicated)

Sára, původem Švédka, začala spolu s rodiči žít v Praze krátce po sametové revoluci. Stěho-

vat se nejdřív nechtěla. Svoje priority si nicméně postupně srovnala a později nelitovala.

Odjakživa ji lákala psychologie, po maturitě proto skládala přijímací zkoušky na Filozo-

ckou fakultu, bohužel neúspěšně. Nepochybně byla zklamaná, ale nerezignovala. Další

rok se na vytoužené studium dostala. Byla nadšená, že si konečně plní své sny a jako stu-

dentka poprvé v životě pocítila opravdovou svobodu.

Diplomovou práci psala na téma psychologie skeptiků na území Evropské unie. V

průběhu studia ji totiž zaujaly spekulace, které se týkaly vnímání skepse a její různé kon-

cepty. Včera složila státnice. Byla nesmírně šťastná a ačkoli byla abstinentka [pst], měla

sraz s kamarády a šla slavit. Ti se jí smáli, když okolo hopsala a radovala se jako malá

holka. Ignorovat ji nemohla ani skupina lidí stojících opodál. Blonďatá „Sněhurka” s

modrýma očima, štíhlé sportovní postavy snadno přitahovala pozornost. Měla na sobě

velice pěknou barokní [kɲ] sukni skořicové barvy a jemnou stylovou blůzu. Dokonalý

sváteční vzhled doplňovala bílá magnólie, která se Sáře pnula ve vlasech.

Kolem se šouralo nějaké psisko s ježatými chlupy. Tohoto psa, u něhož lékařka vyslo-

vila prognózu, že brzo oslepne, a který stěží [sc] slyšel na jedno ucho, k sobě zavolala starší,

smutná paní. Dávala si v kavárně pozdní snídani [sɲ] – popíjela svou oblíbenou vídeňskou

kávu s čerstvým meruňkovým koláčkem a četla další román Milana Kundery. Jakmile

zahlédla Sáru, začala ji pozorovat a bezchybně [bɲ] odhalovat všechny drobné detaily její

trochu extravagantní sukně. Například, že svrchní látka byla zhotovena z dvojvlákna, a

spodní, která pomáhala sukni napnout a udržet její tvar, byla jistě bavlna s krajkovou

ozdobou dole a krepsilonem. Sukně byla tak dlouhá a splývavá, že v ní člověka snad ani

nemohlo zábst [pst].

2. English translation of the Czech text sample

Sarah, originally from Sweden, started living with her parents in Prague shortly aer the

Velvet Revolution. At rst, she didn’t want to move, however, she gradually put her prior-

ities straight and later did not regret it. She has always been attracted to psychology, so aer

graduating from high school she attended the entrance exams to the Faculty of Arts, but

unfortunately was not accepted. No doubt she was disappointed, but she did not give up.



Digital Humanities, Corpus and Language Technology

e next year she got into the university. She was excited that she was nally fullling her

dreams and, as a student, for the rst time in her life she felt real freedom.

She wrote her diploma thesis on the topic of psychology of skeptics in the European

Union. During her studies, she became interested in speculations concerning the percep-

tion of skepticism and its various concepts. Yesterday she passed the state exam. She was

extremely happy and although she didn’t drink, she met her friends and went to celebrate.

ey laughed at her as she jumped around and rejoiced like a little girl. Even a group of

people standing nearby could not ignore her. A blond “Snow White” with blue eyes and

slender athletic gure would easily attract attention. She was wearing a very nice baroque

cinnamon color skirt and a delicate stylish blouse. e perfect festive look was comple-

mented by a white magnolia, which decorated Sarah’s hair.

An older, sad-looking lady called a rough-looking dog that was running around to come

close to her. It could barely hear in one ear and a doctor warned that it would go blind soon

too. e lady was having a brunch in the café; she was sipping her favorite Viennese coee

with a fresh apricot pie and reading another novel by Milan Kundera. As soon as she spot-

ted Sarah, she began to observe her, precisely revealing all the small details of her somewhat

extravagant skirt. For example, the top fabric was made of double ber, and the bottom

fabric, which helped tighten the skirt and maintain its shape, was certainly cotton and crepe

with a lace ornament at the bottom. e skirt was so long and owing that you denitely

wouldn’t feel cold in it.

3. Spanish translation of the Czech text sample

Sarah, nacida en Suecia, comenzó a vivir con sus padres en Praga poco después de la Rev-

olución de Terciopelo. Al principio no quería mudarse, sin embargo, gradualmente puso

sus prioridades en orden y no se arrepintió. Siempre le atraía la psicología, por lo que

después de realizar el bachillerato asistió a los exámenes de ingreso a la facultad, pero

lamentablemente no fue aceptada. Sin duda, estaba decepcionada pero no renunció y al

año siguiente ingresó a la universidad. Estaba emocionada de que nalmente estaba cum-

pliendo sus sueños y, como estudiante, por primera vez en su vida sintió verdadera liber-

tad.

Escribió su trabajo n de grado sobre el tema de “La psicología de los escépticos dento

la Unión Europea”. Durante sus estudios, se interesó por las variantes de la percepción del

escepticismo y sus diversos conceptos. Ayer aprobó el examen estatal y estaba extremada-

mente feliz. Aunque no bebía alcohol se fue a celebrar con sus amigos. Se rieron de ella

mientras saltaba y se regocijaba como una niña, incluso un grupo de personas que estaban



Pronunciation of consonant clusters in Spanish speakers based on the Czech read speech corpora

cerca no podían ignorarla. Una rubia “Blancanieves” con ojos azules y una gura atlética

esbelta fácilmente llamaba la atención. Llevaba una falda estilo barroco muy bonita de color

canela y una blusa elegante y delicada. El look festivo perfecto se complementó con mag-

nolia blanca, que decoraba el cabello de Sarah.

Una señora mayor y con aspecto triste llamó al perro con pelo de punta que se movía

de un lado a otro para que se acercara a ella. El perro apenas oía por un oído y el veteri-

nario advirtió que pronto tambien se quedará ciego. La señora estaba tomando un brunch

en el café, bebía su café vienés favorito con una tarta de albaricoque recién hecho y leía otra

novela de Milan Kundera. Tan pronto como vió a Sarah, comenzó a mirarla, observando

con precisión todos los pequeños detalles de su falda tan extravagante. Notó que la tela

superior estaba hecha de doble bra y la tela inferior, que tensaba la falda y mantenía su

forma, era de algodón y crepé con un adorno de encaje en la parte inferior. La falda era tan

larga y uida que una seguramente no tendría frío con ella puesta.

References

Bičan, A. (). Phonotactics of Czech. Peter Lang Verlag. https://doi.org/./----

Boersma, P., & Weenink, D. (). Praat: Doing phonetics by computer [Computer program]. Version

... http://www.praat.org.

Čermák, P. (). Fonetika a fonologie současné španělštiny. Karolinum.

Ellis, R. (). Understanding second language acquisition (nd Ed.). Oxford University Press.

Fashola, O. S., Drum, P. A., Mayer, R.E., & Kang, S. J. (). A Cognitive theory of orthographic

transitioning: Predictable errors in how Spanish-speaking children spell English words.

American Educational Research Journal, (), -. https://doi.org/./.

Helman, L. A. (). Building on the sound system of Spanish: Insights from t he alphabetic spellings

of English-language learners. e Reading Teacher, (), -. http://www.jstor.org/

stable/.

Hevia-Tuero, C., Incera, S. & Suárez-Coalla, P. (). Does English orthography inuence bilingual

Spanish readers? e eect of grapheme crosslinguistic congruency and complexity on letter

detection. Cognitive Development, , . https://doi.org/./j.cogdev...

Hummel, K. M. (). Introducing s econd language acqui sition: Perspectives and practices. John Wiley

& Sons.

Kučera, H. & Monroe, G. K. (). A comparative quantitative phonology of Russian, Czech and

German. Elsevier.

Ludvíková, M. & Kraus, J. (). Kvantitativní vlastnosti soustavy českých fonémů. Slovo a slovesnost,

(), -.

Magen, H. (). e perception of foreign-accented speech. Journal of Phonetics, (), -.

https://doi.org/./jpho...

Moore, F. B., & Marzano, R. J. (). Common errors of Spanish speakers learning English. Research

in the Teaching of English, (), -. http://www.jstor.org/stable/.



Digital Humanities, Corpus and Language Technology

Palková, Z. (). Fonetika a fonologie češtiny – s obecným úvodem do problematiky oboru (nd ed.).

Karolinum.

Piske, T., MacKay, I. R. A., & Flege, J. E. (). Factors aecting degree of foreign accent in an L: a

review. Journal of Phonetics, , -. https://doi.org/./jpho...

Quilis, A. (). Tratado de fonología y fonética españolas. Gredos (Biblioteca románica hispánica

III, ).

Quilis, A., & Fernández, J. (). Curso de fonética y fonología españolas para estudiantes

angloamericanos (th ed.). C. S. I. C.

RAE. (). Nueva gramática de la lengua española. Fonética y fonología. Espasa Libros.

RAE. (). DLE (Diccionario de la lengua española). https://dle.rae.es.

Ríos Mestre, A. (). La transcripción fonética automática del diccionario electrónico de formas

simples exivas del español: estudio fonológico en el léxico. Estudios de Lingüística del Español,

. ISSN: -. http://elies.rediris.es/elies/

Rothman, J. (). Why all counter-evidence to the critical period hypothesis in second language

acquisition is not equal or problematic. Language and Linguistics Compass (), -.

https://doi.org/./j.-X...x.

Saporta, S., & Olson, D. (). Classication of Intervocalic Clusters. Language, (), -.

https://doi.org/./.

Singleton, D. (). e Critical Period Hypothesis: A coat of many colours. International Review

of Applied Linguistics in Language Teaching, (), -. https://doi.org/./

iral.....

Sun-Alperin, M. Kendra & Min Wang (). Spanish-speaking children’s spelling errors with

English vowel sounds that are represented by dierent graphemes in English and Spanish words.

Contemporary Educational Psychology, (), -

Šturm, P. (). Experimental evidence on the syllabication of two-consonant clusters in Czech.

Journal of Phonetics, , -. https://doi.org/./j.wocn....

Těšitelová, M., Confortiová, H., Králík, J., Ludvíková, M., Nebeská, I., & Uhlířová, L. ().

Kvantitativní charakteristiky současné češtiny. Studie a práce lingvistické, sv. . Academia.



C XII

Relacionando los análisis

cualitativo y cuantitativo. Una

propuesta de modelo estadístico

predictivo para completar la

descripción compleja de los verbos

cognitivos1 2

Relating qualitative and

quantitative analysis. A predictive

statistical model proposal to

complete the complex description

of cognitive verbs

M. Amparo Soler Bonafont

Universidad Complutense de Madrid – España

Resumen: El objetivo del presente capítulo es realizar una propuesta de descripción

de los usos semántico-pragmáticos de unas formas verbales complejas como son las

formas performativas de los verbos cognitivos, concretamente, de su forma paradig-

mática creo, en la interacción oral. Para ello se lleva a cabo una aproximación cogni-

tiva con base en una propuesta estadística predictiva, creada a partir de un sistema

de regresiones multinomiales (con la herramienta STATA). Se persigue que el mode-

lo diseñado permita reconocer con un elevado grado de explicatividad ante qué

1 Este capítulo profundiza en algunos de los resultados parciales que son fruto de la tesis doctoral de la auto-

ra (Soler, 2019), así como de la ampliación que de ellos se realiza en Soler (2021b).

2 La investigación se enmarca en el proyecto Los procesos de gestión de la imagen y la descortesía: perspectivas

históricas, lingüísticas y discursivas, concretamente, en la subdivisión de análisis de procesos discursivos (ref.

PID2019-107668GB-100, Ministerio de Ciencia e Innovación, Gobierno de España).



Digital Humanities, Corpus and Language Technology

        

como creo nos encontramos, una vez sistematizadas las principales circunstancias

de aparición cualitativas que las rodean. El estudio de formas se da en un corpus

compilado de conversaciones coloquiales y de discursos de debate parlamentario.

Como resultado, se obtiene un modelo de análisis predictivo replicable en otros

textos y géneros en los que pueden aparecer unidades epistémicas similares.

Abstract: The goal of this chapter is to bring a description proposal for the semantic

and pragmatic uses of some complex verbal forms like the performative forms of

creo, in oral interaction. For this purpose, it is carried out a

-

al regressions system (through STATA tool). It is intended that the designed model al-



in so polysemic and polyfunctional units as creo  

once the main circumstances of its qualitative appearances are systematized. The

study of forms is done in a compiled corpus of colloquial conversations and parliamen-





1. Introducción

1.1. Dicultades descriptivas en el grupo de las formas performativas de los verbos

cognitivos

La explicación funcional del uso semántico-pragmático de algunas unidades epistémicas

en los textos resulta aún hoy, y tras siglos de disquisiciones, compleja. Tal es el caso, reve-

ladamente frecuente en la oralidad, de algunas formas verbales de primera persona del

singular del presente de indicativo: creo, pienso…, también conocidas como formas per-

formativas de los verbos cognitivos o de opinión (Fetzer y Johansson, ; Fetzer, ;

González Ruiz, ; Soler, ). Estas formas verbales son subjetivas y, en algunas oca-

siones, pueden manifestarse de manera integrada (creo que + verbo) o parentética (uso de

creo con movilidad posicional), desde el punto de vista morfosintáctico. No obstante, estas

características que las identican no son tan llamativas como otros de sus rasgos denito-

rios, los cuales dicultan su reconocimiento: estos son su polisemia y su polifuncionalidad

anunciadas (Hartwell et al., ; Jansegers, ; Soler, ).



Relacionando los análisis cualitativo y cuantitativo. Una propuesta de modelo estadístico predictivo para completar la

descripción compleja de los verbos cognitivos

Los diferentes signicados y funciones que pueden manifestar unidades como creo, la

forma paradigmática de este conjunto por tratarse de la más compleja y la más polisémica

y polifuncional de su clase (Soler, ), han sido estudiadas en diferentes géneros (tanto

en español como en otras lenguas), entre los que destacan los de interacción oral, especial-

mente, la conversación y el debate parlamentario. Así bien, incluso en este tipo de géneros,

creo y formas verbales semejantes a esta maniestan desde funciones atenuantes hasta

intensicadoras (Cutting, ; Fuentes Rodríguez, , ; De Hoop et al., ), a la

vez que despliegan una gran variedad de valores semánticos, desde la creencia hasta el

juicio (Soler, , ). Distinguir la multiplicidad de sus posibilidades semántico-prag-

máticas no es tarea sencilla para el lingüista, que se encuentra, desde hace más de un siglo

con un escollo adicional en estos verbos: la limitación de las herramientas lingüísticas

tradicionales para el estudio de fenómenos complejos como el citado. Los pragmatistas se

preguntan cómo denir los signicados y signicados en uso de unidades subjetivas como

las que son objeto de este trabajo, para los que no son sucientemente explicativas las

pruebas veritativo-condicionales ni las de la pragmática clásica. Por estos motivos, son cada

vez más numerosos los estudios que realizan una aproximación cognitiva a estas formas,

gracias a su concepción de la semántica y de la pragmática como un mero continuum

(Achard, ; Buceta, ; Jansegers, ; Jansegers y Gries, ; Boas y Ziem, ), lo

que ayuda a superar algunos obstáculos denitorios.

No obstante, y de acuerdo con diferentes estudios pragmáticos y sociolingüísticos re-

cientes (Díaz-Campos y Gradoville, ; González et al., ), la explicación cualitativa

cognitiva queda incompleta si no se realiza un análisis riguroso de corpus, de tipo cuanti-

tativo (Roldán ; Abdulrahim, ; Milin et al., ). Dicha incompletud se observa

en la falta de diseños metodológicos cuantitativos capaces de dar una respuesta procedi-

mental adecuada a la hora de operar ante estos casos, así como en la falta de homogeneidad

ante la descripción tanto de unos valores semánticos cerrados de creo, como de las funcio-

nes concretas que puede desarrollar.

1.2. Planteamiento de este trabajo

El objetivo de esta investigación, una vez enunciadas algunas de las fallas metodológicas en

el estudio de fenómenos lingüísticos semántica y pragmáticamente complejos, es tratar de

llevar a cabo una descripción sistemática del funcionamiento de las formas performativas de

verbos cognitivos como creo en la interacción oral. Para ello, este trabajo combina el análisis

cualitativo de corte cognitivo y el análisis cuantitativo, en lo que se propone como una pro-

puesta predictiva de reconocimiento de valores de creo. Se expone un modelo diseñado



Digital Humanities, Corpus and Language Technology

mediante distintas regresiones multinomiales de variables cualitativas de análisis (elaboradas

con una base cognitiva), las cuales se realizan a través de herramientas como STATA. Con

este modelo se consigue reconocer con un elevado grado de explicatividad ante qué signi-

cados y funciones pragmáticas de la unidad objeto de estudio podemos encontrarnos, una

vez sistematizadas las principales circunstancias de aparición que las rodean.

Las formas analizadas como tokens se han extraído de un corpus constituido por dos gé-

neros discursivos de tipo interactivo, en el español de España, de los últimos  años: conver-

saciones coloquiales (de los corpus disponibles COGILA, COJEM, Val.Es.Co.  y Val.Es.Co.

.) y discursos de debate parlamentario (pertenecientes al archivo del Congreso de los Dipu-

tados del Gobierno de España y de Les Corts Valencianes y accesible en línea). Sobre los datos

obtenidos, se han aplicado las bases de la estadística descriptiva y predictiva, como también

se ha realizado en otros trabajos de corte lingüístico previos (Abbhul y Mackey , James et

al., ). En denitiva, se obtiene un diseño predictivo propio, el cual es replicable en otro

tipo de textos y géneros textuales susceptibles de contener unidades epistémicas de funciona-

miento similar al de las formas performativas de los verbos cognitivos.

2. Acercamiento teórico a creo y otras formas performativas de

los verbos cognitivos

Una de las grandes preocupaciones de los lósofos del lenguaje desde el siglo XIX (desde Frege

o Russell, hasta Kripke o Richard), y que ha perdurado en la lingüística aún hasta nuestros

días, es la de la descripción de aquellas unidades subjetivas cuyo valor de signicado no puede

ser sucientemente explicado desde la semántica, pero para las que la pragmática tampoco

puede ofrecer una solución aislada. Tenemos un claro ejemplo en las formas performativas,

esto es, aquellos verbos en primera persona del singular del presente de indicativo, y que son

de carácter cognitivos. Son casos como considero, creo, opino, pienso, supongo…, con los que

no solo se hace evidente el origo, la presencia del hablante en la escena en que se produce lo

dicho, sino que se observa que el signicado del referente viene enriquecido con aspectos

intencionales que le superpone el hablante gracias a una doble posibilidad de lectura: propo-

sicional y también extraproposicional. Esta naturaleza hace ver, pues, que unidades como las

comentadas se encuentran en el límite mismo entre la semántica y la pragmática.

Disquisiciones aparte, en este trabajo abordamos la problemática concreta que ofrece

una forma verbal paradigmática: creo, por ser considerada esta la más compleja del con-

junto de las formas performativas de los verbos cognitivos. Con su estudio pueden verse

resumidas cuestiones que atañen al resto de unidades de primera persona del singular de



estos verbos, que funcionan de modo semejante, y cuyas dicultades denitorias (si no

todas, sí muchas de ellas) pueden verse subsumidas en las que aquí planteamos para creo.

2.1. Polisemia de creo

Creo es considerada una forma verbal con un valor altamente subjetivizador de lo dicho

(Soler, ). Es la forma performativa del verbo creer, el cual se caracteriza por ser poli-

sémico, si bien esta polisemia no había sido aclarada hasta los últimos años. El reciente

interés investigador por esta polisemia ha cristalizado en el reconocimiento de una alta

complejidad cifrada en el conjunto de varios aspectos: su polimorsmo construccional

(creer en, creer que, no creer…) (Buceta, ; Soler, ), la multiplicidad de contextos de

aparición (conversación coloquial, entrevistas políticas, debates, etc.) (Fetzer, ; Fetzer

& Johansson, ; González Ruiz, ; Soler, ), la frecuencia de un fuerte componen-

te argumentativo en su cotexto próximo (Fuentes Rodríguez, , ), y la diferente

variedad funcional, incluso complementaria (desde la atenuación a la intensicación,

pasando por la neutralidad), que puede manifestar (González Ruiz, ; Soler, ).

De todo ello se desprende que creo, la forma más peculiar de su paradigma morfológi-

co, supone un escollo para la investigación, que si bien ha observado las causas de su

complejidad, no había conseguido dar hasta la fecha con una descripción consistente de

sus usos. Y es que la bibliografía se ha tratado de acercar repetidamente a sus signicados,

los cuales uctuaban entre dos y seis valores, sin que pudiera haber acuerdo, sino solo un

resumen tradicional de los valores primordialmente en dos: el epistémico o débil y el de

opinión o fuerte (Fetzer, ; Fetzer & Johansson, ; González Ruiz, ). Estos dos

signicados polares se resumen en los siguientes ejemplos:

B: pero ¿qué es/¿que ya lo has dejado oo?

A: creo que ya lo he dejado un poco por imposible (valor epistémico o débil)

B: yo creo que tienes que insistir (valor de opinión o fuerte)

Puede observarse que el valor débil de creo presenta a modo de duda y no de una convicción

lo dicho por A, y expresa que el hablante puede no disponer de pruebas para manifestar lo

dicho con mayor grado de seguridad. Por su lado, el valor de opinión se corresponde con la

expresión de un juicio personal, independientemente de las pruebas de las que se disponga

sobre lo aseverado. En ambos casos está presente la subjetividad, pero esta pone su foco en

diferentes aspectos (bien en las pruebas de las que se dispone sobre ello, bien en la conanza

de que lo dicho sea de tal o cual modo), incluso con el uso de una misma construcción formal.

Relacionando los análisis cualitativo y cuantitativo. Una propuesta de modelo estadístico predictivo para completar la

descripción compleja de los verbos cognitivos



Digital Humanities, Corpus and Language Technology

La distinción básica revisada puede resultar viable en un primer momento, pero no lo es

si nos encontramos ante casos como los que siguen: creo que tu papi va a jugar con el barqui-

to más que tú (en que además del grado de seguridad, también podríamos hablar de opinión);

hospital de la Vega Baja, hospital –creo recordar– de Elda… (en que tenemos construcciones

de doble acusativo, muy características, en las que tampoco es fácil discernir ante qué valor

nos encontramos); eso es lo que creo (en que una nueva construcción encapsulada en función

de atributo parece estar acercándose más al valor de certeza que al de duda o al de opinión),

etc. Con ello, vemos que la polisemia debe abordarse desde un criterio efectivo, que ordene

los semas de cada valor de manera rigurosa para poder reconocer límites entre ellos, que

supere la diversidad de descripciones bibliográcas y que, de acuerdo con lo visto, evidencie

los puntos de conexión con las diferentes construcciones formales del verbo. Asimismo, y

como persigue este capítulo, se espera que la categorización obtenida se acompañe de un

criterio de reconocimiento sencillo y viable para el analista.

2.2. Polifuncionalidad de creo

La polifuncionalidad, no solo de creo, sino también de otras unidades de su mismo conjunto

de formas performativas, subjetivas y cognitivas, viene de la mano de su reconocida polisemia.

Como hemos avanzado, en usos como los de creo se han reconocido tradicionalmente funcio-

nes de atenuación (creo que ya lo he dejado un poco por imposible, Val.Es.Co. ), neutralidad

(hospital de la Vega Baja, hospital –creo recordar– de Elda, Les Corts Valencianes), e incluso

intensicación (A: es que los mayores↑ además a mí seguro que se me comen (RISAS)/ tienes

que tener un SEXTO= // B: NO↓ yo creo que exige más↑, Valesco ., C. , -).

Diversos estudios monográcos previos que han versado sobre el objeto de estudio de

este capítulo se han preguntado si existe una correlación entre los signicados reconocidos

y las funciones pragmáticas de creo. La bibliografía ha llegado a establecer una correlación

casi directa entre el valor débil y la atenuación, por un lado, y el valor de opinión, y la in-

tensicación (Fuentes Rodríguez, ; González Ruiz, ), por otro ladoo. Estas corre-

laciones establecidas de forma automática y asumidas por la comunidad cientíca llevan,

no obstante, a arrastrar varios errores conceptuales básicos. Así, por ejemplo, cabe destacar

que los estudios de corpus realizados hasta la fecha no aportan una amplitud suciente de

datos basados en corpus de lengua real ni cotejan las observaciones con pruebas objetivas

y replicables a partir de las que puedan ofrecerse resultados concluyentes, con lo cuales

pudiera conrmarse dicha automaticidad de relaciones semántico-pragmáticas de creo.

Asimismo, en los estudios se observa una ausencia de criterio para la detección de otros

posibles signicados, o funciones, distintos a los básicos, ya comentados. Prueba de ello es



que la neutralidad suele quedar fuera de los análisis, pese a que algunos investigadores han

llegado a reconocer esta función en casos aislados, o incluso que la atención a las diferen-

tes manifestaciones formales de creo y sus repercusiones a nivel semántico y pragmático

suelen estar ausentes en las investigaciones. Serán estos aspectos los que tratará de solven-

tar este capítulo con la propuesta de un modelo de análisis concreto, que se presenta como

replicable también para otros análisis de unidades doxásticas complejas.

3. Exploración de un análisis cognitivo experimental

La búsqueda de metodologías de análisis, si no alternativas, sí complementarias a las expli-

caciones cualitativas de la semántica tradicional, ha llevado a la comunidad cientíca a explo-

rar enfoques integradores, como es el caso de la lingüística cognitiva. Abdulrahim ;

Fetzer y Johansson ; Jansegers ; Jansegers y Gries ; Milin et al., ; o Roldán

 son algunos de los casos de análisis semántico-pragmáticos de tipo cognitivo combina-

dos con estadística. Este marco teórico entiende la semántica y la pragmática como un con-

tinuo, lo cual ha facilitado la comprensión de formas como creo desde este paradigma, como

prueban dichos estudios. Gracias a este enfoque, la observación cualitativa del analista no se

ve anulada, sino que es, además de reconocida, apoyada en datos reales y comprobables. Se

trata, por tanto, del motivo por el que el enfoque cognitivo está tomando cada vez más auge

en los últimos años. Asimismo, el acercamiento estadístico predictivo y experimental tam-

bién se ha visto incrementado recientemente en distintos trabajos lingüísticos, cognitivos, e

incluso funcionales y sociolingüísticos (Boas & Ziem, ; Díaz-Campos & Gradoville,

), en los cuales, como planteamos en este trabajo, un sistema de análisis cuantitativo

riguroso completa adecuada y necesariamente la aproximación cualitativa.

4. Metodología del estudio

De acuerdo con lo expuesto, la hipótesis de partida que planteamos es que debe de existir la

posibilidad de realizar un cálculo aproximado de los valores semánticos y pragmáticos que

maniestan formas performativas como creo, si el inventario de categorías (signicados y

funciones) que se les reconoce es cerrado. Por esta razón, la pregunta de investigación a la

3 creo, así como los de otras palabras

polisémicas, pueden concebirse como continuos y ordenables a partir de la ganancia o pérdida de algunos semas.





por consiguiente, pueden ser estudiados de una manera más sistemática que si el investigador se enfrentara a

toda la polisemia de elaboraciones y extensiones semánticas en su conjunto que puede generar una palabra.

Relacionando los análisis cualitativo y cuantitativo. Una propuesta de modelo estadístico predictivo para completar la

descripción compleja de los verbos cognitivos



Digital Humanities, Corpus and Language Technology

que se pretende responder es qué método, complementario al análisis cualitativo, puede

permitir una descripción más amplia y certera de los usos de unidades complejas como creo.

Este capítulo se propone, por consiguiente, aplicar un análisis de creo, como forma

paradigmática del conjunto de unidades performativas complejas de los verbos cognitivos,

desde el paradigma del cognitivismo, el cual ha resultado ecaz para la descripción de otras

formas lingüísticas (adverbiales y verbales) de funcionamiento semejante a la que es obje-

to de estudio (Abdulrahim, ; Fetzer y Johansson, ; Jansegers, ; Jansegers y

Gries, ; Milin et al., ; Roldán, ), y probar su operatividad. Asimismo, se quie-

re determinar qué parámetros afectan en el proceso de detección de la semántica y la

pragmática de la forma verbal para establecer un protocolo jerárquico de las características

observables y que, a partir de estas, pueda certicarse un alto grado de reconocimiento del

signicado y de la función pragmática de creo.

Con este n, planteamos una metodología de análisis de corpus. Se compila un con-

junto de textos disponibles de interacción oral de diferentes géneros discursivos: conver-

sación coloquial y debate parlamentario. Son estos dos los formatos en los que más se ha

estudiado hasta la fecha el comportamiento de los verbos cognitivos, tanto en el caso del

español como en otras lenguas. Asimismo, se trata de géneros que suponen puntos opues-

tos de un continuo tanto de formalidad como de otros rasgos como dialogicidad, grado

de planicación y determinación en el reparto de los turnos de los participantes, lo que

permite obtener un espectro ancho de circunstancias de la oralidad adecuadas para rea-

lizar un estudio general de tendencias de uso de creo lo más amplio posible. La compi-

lación la conforman textos de conversaciones coloquiales de los corpus COGILA, CO

JEM, Val.Es.Co.  y Val.Es.Co. .; y sesiones de debate parlamentario del Congreso

de los Diputados (del Gobierno de España) y de Les Corts Valencianes (del gobierno

autonómico de la Comunitat Valenciana), en una proporción equitativa. En el caso de

los corpus conversacionales, se analizan en su totalidad el COGILA (  palabras);

el COJEM (  palabras); Val.Es.Co.  (  palabras); y Val.Es.Co. . (

 palabras). De los corpus parlamentarios se obtiene, de manera aleatoria, una mues-

tra de una cantidad similar de palabras, repartida esta entre las dos fuentes: Congreso de

los Diputados,   palabras; Les Corts Valencianes,  . La siguiente tabla resume

esta base de la muestra:



Tabla 1. Datos de la muestra, base para el análisis.

Género N. º palabras N. º casos creo

conversación coloquial 355 760 427

debate parlamentario 351 888 303

TOTAL 707 648 730

Como se observa en esta Tabla  ilustrativa, de los corpus se extraen manualmente los ejem-

plos de creo (bien con buscadores de los archivos de PDF manejados para el caso de los

debates parlamentarios, bien a través de la escucha de las conversaciones coloquiales graba-

das). Estos suponen un total de  casos, los cuales se analizan desde el punto de vista

cualitativo, mediante la observación de  variables de análisis determinadas en análisis

previos (Soler, ), bajo un criterio de aproximación cognitiva, sobre todo, aquellos que

realizan una aproximación semántica y funcional a creo. Se trata de las siguientes variables:

I. Parámetros formales

MORFOSINTÁCTICOS

1. Construcción de creo,

2. Integración parenticidad de creo en la cláusula,

3. Sujetosintácticode creo,

4. Pronominalización del objetodirectode creo,

5. Pronominalización del objetoindirectode creo,

6. Negación de creo,

7. Posición sintáctica de creo,

8. Negación del verboregidopor creo,

9. Persona y númerodel verboregidopor creo,

10. Tiempoverbal del verboregidopor creo,

11. Modoverbal del verboregidopor creo;

DE COAPARICIÓN

12. Coaparición creo

13. Coaparición creo-

güísticas relevantes en el reconocimientode su

semántica/pragmática, norepetidas,

14. Coaparición creo-

güísticas relevantes en el reconocimientode su

semántica/pragmática, repetidas en el cotexto;

II. Parámetros semánticos

ARGUMENTATIVOS

15. Tipode argumentoen el que se sitúa creo,

16. Polifonía de creo;

DE SIGNIFICADO

17. Naturaleza factual del predicadode creo,

18. Compartición de las pruebas odatos para ava-

lan lodichocon creo,

19. Gradode subjetividad,

20. Tipode intervención en la que aparece creo,

21. Gradode convencimientodel hablante sobre

loexpresado,

22. Valor semánticobásicomanifestadopor creo;

III Parámetros discursivo-funcionales

PRAGMÁTICOS

23. Tipos de actos de habla de creo,

24. Posición discursiva de creo,

25. Gradode asertividad,

26. Funciones pragmáticas;

SOCIOPRAGMÁTICOS

27. Actividades de imagen;

PARALINGÜÍSTICOS

28. Otros aspectos relevantes;

IV. Parámetros textuales

29. Tipología textual de la secuencia de creo ,

30. Género discursivo.

Relacionando los análisis cualitativo y cuantitativo. Una propuesta de modelo estadístico predictivo para completar la

descripción compleja de los verbos cognitivos



Digital Humanities, Corpus and Language Technology

Realizado el análisis cualitativo con la observación de los aspectos cifrados en las variables

previas sobre el total de los  casos obtenidos, pasamos a realizar el análisis cuantitativo

principal que este trabajo presenta. Este consiste en la aplicación de una estadística explo-

ratoria (mediante tablas de contingencia comunes) que permite discriminar algunos datos

básicos (ej. la determinación de algunos resultados semánticos, a partir de algunos aspec-

tos formales de las manifestaciones del verbo). Tras ello, se propone un modelo de análisis

de estadística descriptivo-predictiva basado en un protocolo de tres pasos: . regresiones

logísticas, . obtención de valores de verosimilitud de cruces de las variables en la deter-

minación del grado de explicación sobre la semántica y sobre la pragmática de creo, y .

cálculo de errores. Todos estos cálculos se realizan en una programación experimental de

  iteraciones, mediante el programa STATA. Ahora bien, para poder aplicar las prue-

bas estadísticas, se crea un corpus ampliado en el que se aumentan los datos hasta llegar a

un mínimo de  casos por cada variante de las contenidas por variable aplicada (ya que se

trata del número mínimo de casos para que los que las pruebas estadísticas pueden arro-

jare resultados signicativos). Estos ejemplos se obtienen de los corpus COLAm y CORPES

XXI, para el caso de la conversación coloquial, y de otras sesiones no consultadas de las

mismas fuentes parlamentarias, para el caso del debate. La Tabla  resume los datos de creo

extraídos del corpus ampliado (un total de  casos), sobre los que se aplica el protocolo

de análisis, frente a los del corpus base ( ejemplos).

Tabla 2. Datos de los corpus base y ampliado

Corpus base Corpus ampliado

Ocurrencias de creo 730 865

Las regresiones logísticas que planteamos para este análisis son de tipo multinomial. Las

regresiones son un cálculo predictor sobre la incidencia de una variable dependiente (Y)

sobre una independiente (X). El valor de la regresión (Y ≈ β + βX) permite obtener un

coeciente que cifra la estimación de los valores, el cual se denomina R. Ahora bien, cabe

destacar que esta prueba estadística presupone linealidad entre las variables. Dado que esta

no se da entre aspectos cualitativos de análisis lingüísticos como el que presentamos y, por

consiguiente, el cálculo obtenido en el primer paso no es exacto, en un segundo paso o ins-

tancia calculamos complementariamente un número de verosimilitud de la relación entre las

variables cotejadas. Lo hacemos a partir del modelo de McFadden, el cual permite obtener,

frente a la estimación de valor de R, un valor probabilístico de pseudo-R. Este valor permi-

tirá ordenar jerárquicamente las variables preestablecidas de mayor a menor grado de expli-



cación sobre el valor semántico de creo, por un lado, y sobre el valor pragmático, por otro.

Finalmente, como este cálculo no es exacto y se realiza sobre   repeticiones del experi-

mento, se calculan posibles errores a partir de la creación de dos variables: la máxima proba-

bilidad de acierto del resultado y la mínima probabilidad de esta. Estas también se entrecru-

zan con las previas para obtener las diferencias y el margen de error.

En lo que sigue, se verán los resultados obtenidos de la aplicación de este modelo de

análisis. Asimismo, se comprobará su viabilidad como metodología replicable.

5. Análisis y discusión de los resultados

El análisis efectuado sobre la semántica y la pragmática de creo ha ofrecido resultados en

diferentes planos. En lo que sigue, presentamos los obtenidos en cada fase del estudio, y

un resumen del modelo metodológico aplicado, el cual puede considerarse también como

un resultado de la investigación.

5.1. Fases del análisis

El primer resultado que ofrece el acercamiento cognitivo a los usos discursivos de creo ha

permitido reconocer cinco valores semánticos básicos: creencia, certeza, conjetura, predicción

y juicio, de acuerdo con lo apuntado en estudios previos (Soler, ; ). Estos valores se

ordenan en un continuo de subjetividad, según el grado de implicación del hablante en la

escena que proyecta. Nuestro estudio estadístico descriptivo del corpus base, así como del

corpus ampliado, permite ver que la construcción formal de creo determina en el   de

los casos alguno de estos cinco valores. Véanse lastablas de contingencia  y :

4 creo excede los objetivos de este capítulo (véase, para ello, Soler

2021), describimos mínimamente los semas básicos de cada uno de ellos para aclarar su lectura. El valor

de creencia describe la adhesión completa del hablante a lo dicho, con independencia de las pruebas que

se tengan para ello (ej. creo en dios). El valor de certeza describe verdades que son absolutas únicamente

para el propio hablante, el cual también las presenta como independientes de su comprobación (ej. me lo

creo). El valor de conjetura hace referencia a un cálculo realizado por el hablante cuando este dispone de

algunas pruebas sobre lo dicho (ej. creo que fue ayer). La predicción, como la conjetura, se basa en algunas

pruebas, pero se proyecta sobre hechos futuros (ej. creo que viene mañana). Por último, el juicio

una opinión personal, basada en la comprobación de lo dicho, que ahora no es factual, sino que se basa en

la única escala de valores que son los personales del hablante (ej. creo que eso no está bien).

Relacionando los análisis cualitativo y cuantitativo. Una propuesta de modelo estadístico predictivo para completar la

descripción compleja de los verbos cognitivos



Digital Humanities, Corpus and Language Technology

Tabla 3. Cruce de datos obtenidos entre la construcción y el valor semántico de creo , con prevalencia

del valor semántico (Soler, 2019).

Variable formal (1): Construcción

24. SIGNIFICADO creencia certeza conoci-

miento

posibili-

dad

juicio intr. im-

preciso

no creo en 100 % 0 % 0 % 0 % 0 % 0 %

(no) me (lo) creo (X) 0 % 38,46% 0 % 0 % 0 % 0 %

ya lo creo (X) 0 % 38,46% 0 % 0 % 0 % 0 %

(no) lo creo 0 % 21,15% 0 % 7,89% 0 % 0 %

creo 0 % 0 % 11,67% 0 % 4,79% 0 %

no creo 0 % 0 % 0 % 17,54% 0 % 0 %

creo que 0 % 0 % 59,17% 34,21% 75,80% 100 %

no/tampoco creo que 0 % 0 % 0,00% 35,09% 0,23% 0 %

sí/también creo que 0 % 0 % 1,25% 0 % 3,88% 0 %

creo que no/Æ o verbo 0 % 0 % 7,92% 5,26% 4,57% 0 %

 0 % 1,92% 9,58% 0 % 2,74% 0 %

PVO del ODCC 0 % 0 % 0 % 0 % 4,57% 0 %

 0 % 0 % 8,33% 0 % 0 % 0 %

 0 % 0 % 2,08% 0 % 3,42% 0 %

Tabla 4. Cruce de datos obtenidos entre la construcción y el valor semántico de creo , con prevalencia de

la construcción (Soler, 2019).

(1) CONSTRUCCIÓN

24. SIGNIFICADO creencia certeza conoci-

miento

posibili-

dad

juicio intr. im-

preciso

(no) creo en 100 % 0,00% 0 % 0 % 0 % 0 %

(no) me (lo) creo (X) 0 % 100 % 0 % 0 % 0 % 0 %

ya lo creo (X) 0 % 100 % 0 % 0 % 0 % 0 %

(no) lo creo 0 % 55 % 0 % 45 % 0 % 0 %

creo 0 % 0 % 57,14% 0 % 42,86% 0 %

no creo 0 % 0 % 0 % 100 % 0 % 0 %

creo que 0 % 0 % 27,63% 7,59% 64,59% 0,19%

no/tampoco creo que 0 % 0 % 0 % 97,56% 2,44% 0 %

sí/también creo que 0 % 0 % 15 % 0 % 85 % 0 %

creo que no/Æ o verbo 0 % 0 % 42,22% 13,33% 44,44% 0 %

 0 % 2,78% 63,89% 0 % 33,33% 0 %

PVO del ODCC 0 % 0 % 0 % 0 % 100 % 0 %

 0 % 0 % 100 % 0 % 0 % 0 %

 0 % 0 % 25 % 0 % 75 % 0 %



Como puede observarse, tanto el valor de creencia ((no) creo en) como el de certeza ((no)

me (lo) creo (X) o ya lo creo (X)) vienen determinados en el   de los casos por una

construcción concreta de creo. Asimismo, en la totalidad de los casos analizados en los que

aparece una construcción concreta de creo, el valor semántico reconocido es el mismo, si

bien esta relación no se da ahora siempre en el sentido inverso. Se trata de creo + innitivo,

que conlleva el valor de conjetura; y no creo, que expresa predicción; y X + creo + PVO del

OD/ pron. + creo + CC, asociada al juicio. De ello se desprende que la aproximación cog-

nitiva es ecaz, y que la estadística descriptiva ofrece una prueba patente de ello, pues

certica la viabilidad de las pruebas para discernir algunas de las relaciones de variables

determinantes en el reconocimiento, en este caso, del valor semántico de creo. No obstan-

te, no es determinante para el reconocimiento de su pragmática, ni explica todos los valo-

res semánticos que ha distinguido el enfoque cognitivo aplicado. Por consiguiente, en una

segunda fase del estudio, se aplica la estadística predictiva al corpus ampliado, con el n

de alcanzar resultados más concretos.

Implementamos la metodología diseñada a partir de sucesivas pruebas de regresiones

logísticas previas al corpus base ampliado. El método de ensayo y error nos permite obte-

ner un protocolo de actuación ordenado y aplicado, nalmente, para   iteraciones,

mediante STATA. Este experimento lo realizamos dos veces ya que, al no tratarse de un

cálculo exacto (porque las variables cotejadas son cualitativas) las pruebas son de realiza-

ción extensa y apenas puede llegarse a un valor de verosimilitud, y no a un   de exac-

titud, aunque sí lo más cerca posible de este porcentaje. Así, en una primera instancia, se

aplica una regresión logística multinomial tomando como variable dependiente la relativa

al valor semántico de creo, lo cual se lleva a cabo para   iteraciones o repeticiones. Tras

ello, se repite el proceso, esta vez partiendo de la variable de la función pragmática como

dependiente, con el mismo número de repeticiones. En el siguiente apartado aportamos

los resultados obtenidos en ambas repeticiones del protocolo diseñado, siguiendo los pasos

concretos y ordenados del diseño.

5.2. Resumen del diseño de un modelo predictivo de los valores de creo en tres fases

En el modelo diseñado para el análisis predictivo de los valores de signicado de creo, en

primer lugar, y de sus funciones pragmáticas, en segundo lugar, determinamos para

comenzar () la capacidad explicativa de las variables cotejadas. Obtenemos una tabla como

la que sigue con los valores de R de McFadden por cada uno de los cruces de variables:

Relacionando los análisis cualitativo y cuantitativo. Una propuesta de modelo estadístico predictivo para completar la

descripción compleja de los verbos cognitivos



Digital Humanities, Corpus and Language Technology

Tabla 5. R2creo

(Soler, 2019).

Modelos de regresión multinomial Log Likelihood pseudo-R2

de McFadden

(1.ª INSTANCIA)

SIGNIFICADO (sin variables) -753.04064

SIGNIFICADO - CONSTRUCCIÓN -570.74281 0,242082326

SIGNIFICADO - INTEGRACIÓN -744,02822 (el modelo converge) 0,011968039

SIGNIFICADO - OD -718,37835 (el modelo converge) 0,046029773

SIGNIFICADO - OI -751,82063 (el modelo converge) 0,001620112

SIGNIFICADO - NEGACIÓN V. -647,25325 (el modelo converge) 0,14048032

SIGNIFICADO - NEGACIÓN V. SUB. -751,94636 (el modelo converge) 0,001453149

SIGNIFICADO - PERS. Y NÚM. V. SUB. -683,25781 (el modelo converge) 0,09266808

SIGNIFICADO - TIEMPO V. SUB. -639,50454 (el modelo converge) 0,150770216

SIGNIFICADO - MODO V. SUB. -639,71697 (el modelo converge) 0,15048812

SIGNIFICADO - SUJETO -730,20534 (el modelo converge) 0,030324127

SIGNIFICADO - POSICIÓN SINT. -704,22015 (el modelo converge) 0,064831149

SIGNIFICADO - REPETICIONES -706,214 (el modelo converge) 0,062183417

SIGNIFICADO - MMDD -727,2134 (el modelo converge) 0,034297272

SIGNIFICADO - OTROS ELEMENTOS -642,77243 (el modelo converge) 0,146430623

SIGNIFICADO - GÉNERO -667,35646 (el modelo converge) 0,113784271

SIGNIFICADO - TIP. TEXTUAL -598,01081 (el modelo converge) 0,205871797

Seguidamente, a partir de estos datos, se calcula () la jerarquía de las variables en el

aumento paulatino de explicación que proporcionan sobre el signicado de creo. En la

ordenación de esta jerarquía, nos jamos en el valor de verosimilitud proporcionado por

R de McFadden, si bien también se tienen en cuenta cuestiones cualitativas de aplicación

de las variables al análisis. Así, por ejemplo, se observa cualitativamente que las caracterís-

ticas de tipo formal son más rápidamente reconocibles por parte del analista (las cuales

subimos en la escala de jerarquía), y que otras de tipo semántico presentan una detección

más compleja (razón por la que, en algunos casos, las relegamos a puestos inferiores de la

jerarquía de aplicación). Así mostramos los resultados de la segunda instancia en dos

tablas. Primeramente, observamos que en la Tabla  aparecen todos los resultados de vero-

similitud obtenidos. Seguidamente, en la Tabla  reordenamos los parámetros de análisis

de mayor a menor grado de explicación sobre el valor semántico del verbo y añadimos el

porcentaje de error que este pueda estar generando.



Tabla 6. R2creo (Soler, 2019).

Variables jerarquizadas Pseudo-R2

de McFadden porcentual

(2.ª instancia)

1TIPOLOGÍA TEXTUAL 25,44 %

2CONSTRUCCIÓN 24,21 %

3TIEMPO VERBO SUBORDINADO 16,43 %

4OTROS ELEMENTOS 15,58 %

5GÉNERO 12,43 %

6PERSONA Y NÚMERO VERBO SUB. 6,44 %

7POSICIÓN SINTÁCTICA 6,42 %

8SUJETO 5,36 %

9NEGACIÓN CREO 2,94 %

Tabla 7. R2

de creo (Soler, 2019).

Variables ordenadas Error común estándar

CONSTRUCCIÓN 43,82 %

SUJETO 32,80 %

NEGACIÓN CREO 44,45 %

TIEMPO VERBO SUBORDINADO 30,11 %

PERSONA Y NÚMERO VERBO SUB. 32,80 %

POSICIÓN SINTÁCTICA 45,70 %

OTROS ELEMENTOS 27,82 %

TIPOLOGÍA TEXTUAL 20,70 %

GÉNERO 31,72 %

En la tabla  vemos cómo, en el último paso de nuestro protocolo (3) se obtiene un error

ajustado de los cálculos realizados. Este permite ver que no ha habido desfases entre la

extracción de los valores de verosimilitud de las tablas previas y los de la probabilidad total

de que se reconozcan los datos de cada variable. Dado que, en este caso, para la semántica

de creo, todos los valores obtenidos son menores al   y no presentan diferencias rele-

vantes respecto a los datos de verosimilitud de las regresiones llevadas a cabo, no se plantea

una nueva reorganización en la jerarquía de aplicación de las variables, respecto a la ya

propuesta.

Para el caso de la determinación de las funciones pragmáticas de creo, que se han esta-

blecido en las tres categorías reconocidas por la bibliografía previa (a saber, atenuación,

neutralidad e intensicación), dado que el análisis cualitativo cognitivo aplicado las reco-

Relacionando los análisis cualitativo y cuantitativo. Una propuesta de modelo estadístico predictivo para completar la

descripción compleja de los verbos cognitivos



Digital Humanities, Corpus and Language Technology

noce, efectivamente, en los mismos términos, se repite el experimento de tres fases dise-

ñado, pero ahora, sobre la base del signicado, ya reconocido gracias a la aplicación de las

fases de análisis explicadas. Véase la tabla nal obtenida:

Tabla 8. R2 de McFadden reordenados por jerarquía de aplicación, en la determinación de la función

pragmática de creo (Soler, 2019).

Regresión multinomial Log Likelihood Pseudo-R2

de McFadden (1.ª instancia)

FUNCIÓN-SDO -1227,0094 21,37 %

FUNCIÓN-SDO-INTERSUBJLOC. -1117,7345 8,91%

FUNCIÓN-SDO-POSIC. SINT.-1.125 8,34%

FUNCIÓN-SDO-GEN. -1132,3951 7,71%

FUNCIÓN-SDO-IMAGEN -1.134 7,62%

FUNCIÓN-SDO-POLIF. -1142,6586 6,87%

FUNCIÓN-SDO-ASERTIVIDAD -1.144 6,78%

FUNCIÓN-SDO-OTROSELS. -1147,1233 6,51%

FUNCIÓN-SDO-TXT. -1148,9373 6,36%

FUNCIÓN-SDO-CONVENC. -1164,7245 5,08%

En este segundo experimento, se parte de que el signicado de creo ya ha sido establecido

con la primera aplicación del protocolo. De este modo, se reduce el número de variables

en el cálculo de la función pragmática. En la obtención de errores, se estima que estos, de

nuevo, no alteran los datos de verosimilitud de R de McFadden y, por consiguiente, el

orden y jerarquía de aplicación de las variables para la determinación de la función prag-

mática de creo se mantiene como muestra, más arriba, la Tabla .

El análisis demuestra, pues, que del total de variables cognitivamente descritas para el

posible análisis semántico-pragmático de creo, solo algunas de ellas son ecaces con más

de un   de explicación y hasta más de un  , mientras que otras, pueden descartarse,

al menos, en un estudio genérico para detectar lo más automáticamente posible ante qué

tipo de creo nos encontramos.

6. Conclusiones

El análisis de este capítulo conrma que es posible diseñar un modelo de análisis cuanti-

tativo que, siempre como complemento del análisis cualitativo de fenómenos lingüísticos

como el del funcionamiento de las formas performativas de los verbos cognitivos, permite

determinar más del   de sus valores semánticos, así como entre el  y el   de sus

funciones pragmáticas (si sumamos el valor de verosimilitud de la aplicación de las varia-



bles jerarquizadas en el protocolo). Asimismo, el modelo planteado para el caso de creo es

replicable en otro tipo de textos y géneros discursivos. En contraposición con las carencias

metodológicas de la bibliografía previa, el modelo de análisis creado mejora y perfecciona

la aplicación de pruebas estadísticas que han resultado insucientes en otros estudios. Este

hecho conrma la hipótesis de partida de este trabajo, ya que es posible completar el aná-

lisis cualitativo de creo con el acercamiento cuantitativo riguroso no solo descriptivo, sino

también predictivo. Este modelo de análisis puede describirse a partir de tres fases: ()

determinación de la capacidad explicativa de las variables seleccionadas con criterios cog-

nitivos, () jerarquización de las variables para la descripción semántica y pragmática de

creo (o la forma verbal considerada), y () cálculo de errores cometidos en el proceso, las

cuales dan respuesta a la pregunta de investigación del trabajo, la cual se cuestionaba si era

posible llegar a una sistematización de análisis para el reconocimiento semántico-funcional

de unidades lingüísticas complejas como la que nos atañe.

En conclusión, cabe decir que este capítulo ha pretendido ofrecer un paradigma de

estudio que es compatible con los ya conocidos, pero que viene a completar los puntos que

no habían sido solventados hasta ahora por la investigación lingüística más tradicional.

Queda para el futuro próximo replicar este patrón propuesto y perlar el modelo de aná-

lisis y las fases de su consecución, así como también cotejar los resultados especícos que

pueda dar su aplicación a otros formatos textuales y fenómenos lingüísticos.

Referencias

Abbhul, R. & Mackey, M. (). Experimental research design. In R. Abbuhl, S. Gass & M. Mackey,

Research Methods in Linguistics (pp. -). Cambridge University Press.

Abdulrahim, D. (). Annotating corpus data for a quantitative, constructional analysis of motion

verbs in Modern Standard Arabic. In N. Habash, & S. Vogel (Eds.), Proceedings of the EMNLP

 Workshop on Arabic Natural Language Processing (ANLP) (pp. -). Association for

Computational Linguistics.

Achard, M. (). Representation of cognitive structures. Cognitive Linguistics, (), -.

Boas, H. & Ziem, A. (). Constructing a constructicon for German. Empirical, theoretical, and

methodological issues. In B. Lyngfelt, L. Borin, K. Ohara, & T. Timponi (Eds.), Constructicography:

Constructicon development across languages (pp. -). John Benjamins. https://doi.

org/./cal..boa.

Buceta, O. (). Construcciones del verbo ‘creer’. Factótum, , -.

Cutting, J. (Ed.). (). Vague Language Explored. Palgrave MacMillan.

De Hoop, H., Foolen, A., Mulder, G. & Van Mulken, V. (). I think and I believe: Evidential

expressions in Dutch. In A. Foolen, H. de Hoop & G. Mulder (Eds.), Evidence for Evidentiality

(pp. -). John Benjamins. https://doi.org/./hcp..hoo.

Relacionando los análisis cualitativo y cuantitativo. Una propuesta de modelo estadístico predictivo para completar la

descripción compleja de los verbos cognitivos



Digital Humanities, Corpus and Language Technology

Díaz-Campos, M. & Gradoville, M. (). An Analysis of Frequency as a Factor Contributing to the

Diusion of Variable Phenomena: Evidence from Spanish Data. In L. Ortiz (Ed.), Selected

Proceedings of the th Hispanic Linguistics Symposium, (pp. -). Cascadilla Proceedings

Project.

Fetzer, A. (). I think, I mean and I believe in political discourse. Collocates, functions and

distribution. Functions of Language, (), -.

Fetzer, A. & Johansson, M. (). Cognitive verbs in context. A contrastive analysis of English and

French argumentative discourse. International Journal of Corpus Linguistics, (), -.

Fuentes Rodríguez, C. (). La aserción parlamentaria: de la modalidad al metadiscurso. Oralia,

, -.

Fuentes Rodríguez, C. (). Atenuación e intensicación estratégicas. In C. Fuentes Rodríguez

(Ed.), Estrategias argumentativas y discurso político (pp. -). Arco/Libros.

González Ruiz, R. (). Los verbos de opinión entre los verbos parentéticos y los verbos de rección

débil: aspectos sintácticos y semántico-pragmáticos. Círculo de Lingüística Aplicada a la

Comunicación, , -.

González, J., Boeck, P. & Tuerlinchx, F. (). Linear mixed modelling for data from a double mixed

factorial design with covariates: a casestudy on semantic categorization response times. Journal

of the Royal Statistical Society: Series C (Applied Statistics), (), -.

Hartwell, L. M., Esperança-rodier, E. & Tutin, A. (). I think we need…: Verbal expressions of

opinion in conference presentations in English and in French. Romance Corpora and Linguistic

Studies, (), -.

James, G., Witten, D., Hastie, T. & Tibshirani, R. (). An Introduction to Statistical Learning: With

Applications in R. Springer.

Jansegers, M. (). Hacia un enfoque múltiple de la polisemia. Un estudio empírico del verbo

multimodal “sentir” desde una perspectiva sincrónica y diacrónica. Mouton de Gruyter.

Jansegers, M. & Gries, S. (). Towards a dynamic behavioral prole: a diachronic study of

polysemous ‘sentir’ in Spanish”. Corpus Linguistics and Linguistic eory, (), -.

Milin, P., Divjak, D., Dimitrijević, S. & Baayen, R. H. (). Towards cognitively plausible data

science in language research. Cognitive Linguistics, (), -.

Roldán, A. (). Applications of cognitive linguistics (CI) to languages for specic purposes (LSP).

In M. L. Carrió (Coord.), Perspectivas interdisciplinares de la lingüística aplicada, Vol.  (pp.

-). Universitat de València.

Soler, M. A. (). Algunos apuntes bibliográcos en torno a los verbos de opinión. In C. J. Álvarez

López & M. R. Martínez Navarro (Coords.), En busca de nuevos horizontes. Algunas líneas

actuales en los estudios hispánicos (pp. -). Ediçoes Húmus,

Soler, M. A. (). Semántica y pragmática de los verbos doxásticos en la interacción oral en español.

Un estudio monográco sobre la forma verbal creo [Tesis doctoral. Universitat de València].

RODERIC. https://roderic.uv.es/handle//

Soler, M. A. (a). Análisis cognitivo de la semántica de creo en el español occidental hablado. En

L. E. Aguilera, E. de los Santos, M. E. Flores & J. Haidar (Eds.), Enfoques alternativos en los

estudios del discurso (pp. -). Universidad Autónoma de Nuevo León.

Soler, M. A. (b). Semántica de creo. Análisis cognitivo de la polisemia de una forma verbal doxástica

en la interacción oral en español. Peter Lang.



C XIII



analysis of corpus of local

problems related to the

Sustainable Development Goals

Uso de redes Bayesianas para el

análisis de corpus de problemas

locales relacionados con los

Objetivos de Desarrollo Sostenible

Manuel Caro Piñeres & Ernesto Llerena García

Universidad de Córdoba – Colombia

Abstract:-

ling, and decision support in various domains. Currently, there is a need for tech-

  

literature data. Collecting people’s perception of the problems they face in their dai-

ly lives generates a great deal of textual information. Textual descriptions increase





Resumen: Las redes bayesianas son un formalismo ampliamente utilizado para el

análisis de datos, el modelado y el apoyo a la toma de decisiones en varios dominios.

Actualmente, existe la necesidad de técnicas y herramientas que construyan au-



La recopilación de la percepción de las personas sobre los problemas que enfrentan

en su vida diaria genera una gran cantidad de información textual. Las descripciones

textuales aumentan a medida que se realizan nuevas recopilaciones de datos. Debi-



Digital Humanities, Corpus and Language Technology

do a las diferencias léxicas entre las diferentes regiones de un país, es necesario

actualizar constantemente los nuevos datos modelados.

1. Introduction

e  Sustainable Development Goals (SDGs) are a plan of the United Nations to achieve

a better and more sustainable future for people and the planet by . In these goals there

are aspects related to poverty, hunger, good health and well-being, quality education, clean

water, clean energy among others. With just under ten years le to achieve the Sustainable

Development Goals, world leaders at the SDG Summit in September  called for a

Decade of Actionand delivery for sustainable development, and pledged to mobilize

nancing, enhance national implementation and strengthen institutions to achieve the

Goals by the target date of , leaving no one behind. us, it was necessary to use reli-

able technology for understanding people’s needs all around the world, and during this

decade achieve the Sustainable Development Goals (SDGs) lead by the United Nations.

In that way, Bayesian network was used for collecting data through a soware created by

EduTLan group which helps to gather and analyze all the information needed to reach

these goals. Bayesian networks are used for modelling knowledge in computational biolo-

gy and bioinformatics, learning, medicine, biomonitoring, document classication, infor-

mation retrieval, semantic search, image processing, data fusion, decision support systems,

engineering, games and law. For decision-making at the governance level, it is necessary

to know how non-compliance with the SDGs aects the well-being of the population.

However, the SDGs are little known by the general population, so it is necessary to have

techniques that can relate people’s speech in relation to the language of the SDGs. To full

this purpose, it is necessary to collect many descriptions of problems related to the SDGs

in the communities.

e main goal of this study is to describe the process of collecting, organizing, tagging

and validating a corpus of more than , descriptions of problems related to compliance

of the SDGs in three regions in Colombia. e main result of this study was a large digital

corpus of descriptions of problems related to compliance of the SDGs in three regions in

Colombia. e potential of the corpus was veried by evaluating the results of a Bayesian

network algorithm. In the evaluation, the standard processing of the text by the algorithm

produces a high rate of correct answers.

e rest of the paper is organized as follows. Section  describes the theoretical frame-

work that supports this research. Section  summarizes the methodological framework





based on Design Science Research (DSR) used to design the machine learning approach

based on Bayesian networks for the analysis of corpus of local problems related to the

Sustainable Development Goals. In Section  the results are describes. Finally, the conclu-

sions are presented.

2. Theoretical framework

For this research work, theoretical elements on structural semantics and digital lexicogra-

phy were used. Lexicon organization of the corpus from selected words were done based

on the structural semantics proposed for the semantic elds as well as the other levels of

the linguistic structure that have a structural nature and functioning. For this reason, this

position was welcomed on this research, and it is applied for the collection of information.

According to this structural organization, the entire lexicon must be organized into seman-

tic elds. A semantic eld, in linguistics, is one that makes up a group of words that share

one or more features in their meaning. is semantic eld is organized through hypernyms

and hyponyms (In this investigation the term holonym is related to hypernym and the

word meronym is related to hyponym. eoretically, the dierence between hyper-

nyms-hyponyms and hollonyms-meronys is that the former has conceptual inclusion and

the latter have material inclusion -i.e., part of-). A hypernym is a general term that can be

used to refer to the reality named by a more specic term.

For this research, each eld is equivalent to the following development objectives, which

functioned as hypernyms: no poverty, zero hunger, good health and well-being, quality

education, gender equality, clean water and sanitation, aordable and clean energy, indus-

try, innovation and infrastructure, reduced inequalities, sustainable cities and communi-

ties, responsible consumption and production, climate action, life below water, life on land,

peace, justice and strong institutions, partnerships for the goals. Each one of these referential

elds presents, in turn, relations of hyponymy. e hyponyms are words that have all the

semantic features, or semes, of a more general one – its hypernym – but that in its denition

adds other semantic characteristics that dierentiate it from others. e hyponyms of each

hyperonym were determined, so when the words that the interviewee was saying were

extracted from the recordings, they were distributed according to each hypernym and the

default hyponyms for each one. For example, the hypernym no poverty has the following

hyponyms: displaced women, social security, extreme poverty, poverty line, multidimension-

al poverty, multidimensional poverty index. For a more related relation.

is form to extract semantic relations of related words was based primarily from the

digital lexicography; the basic approaches of semantic organization were led by the way



Digital Humanities, Corpus and Language Technology

Wordnet was elaborated. WordNet is an electronic lexical reference system, developed in

the form of a lexical database, created by the psycholinguist George A. Miller which is in

line with psycholinguistic theories regarding the organization of lexical information in the

mind of the speaker (Baars, ). WordNet is a project that was supported from the be-

ginning by various US government and private institutions: e Department of Naval

Research, the James S. McDonnell Foundation and Princeton University. Apart from being

an example of government and public cooperation, it is also a project whose results have

been made public and can be freely distributed for academic purposes. WordNet is avail-

able to any user who wishes to consult its resources through the internet and the system

can be used in online mode (See http://wordnet.princeton.edu/). e primary objectives

of WordNet, and that e following are fundamental bases in the elaboration of this so-

ware: a) e validation of psycholinguistic theories on lexical organization; b) Its foresee-

able use in various applications that require access to lexical information e basic dier-

ence between this and other projects for the implementation of computational lexicons is

that it is the only relatively large-scale project in which the organization of the Lexis in

semantic elds can handle information for the purpose of gathering semantic approaches.

In fact, the main motivation for its realization has been the idea of testing, through its direct

implementation in a digital computer, psycholinguistic and lexicological theories regarding

the structure of the mental lexicon. Following a model of semantic networks for organizing

the mental lexicon, the group of researchers that made up WordNet set out in  to cre-

ate a tool that would allow moving through the structure of a dictionary conceptually and

not just alphabetically. e dierences from a traditional dictionary are obvious: WordNet

divides the lexicon into ve categories: nouns, verbs, adjectives, adverbs, and functional

elements. However, Wordnet presents a considerable amount of redundant information

that would not appear in a traditional dictionary, in those cases where a word belongs to

more than one category.

On the other hand, this type of organization greatly facilitates the analysis of the se-

mantic organization dierences that exist between these ve syntactic categories, and it is

also important to note that, by not having to force the dierent categories into the same

representational scheme, it is possible to search the most suitable way for each one of them

separately. WordNet is an attempt to reect the lexical memory model based on semantic

networks proposed by Collins and Quillian () in a lexicographic model of lexical or-

ganization. One of the rst examples of a semantic memory network model is the TLC

(Teachable Language Comprehender) (Collins & Quilliam, ). According to this mod-

el, each node is a word that represents a concept (such as “bird”). With each node, a series



of properties is stored (such as “can y” or “has wings”), as well as directions (for example,

links) to other related nodes (for example, “dove”). A node is directly linked to those oth-

ers that are a subclass or a superclass (for example, “bird” would be related to both the

“pigeon” subclass and the “animal” superclass). us, the TLC model assumes a hierarchi-

cal representation of knowledge, in which high-level nodes representing broad categories

are connected (either directly or indirectly―rough the nodes of lower classes―) to a

multitude of elements belonging to those categories. e nodes that represent concrete

examples of these supracategories would be at a lower level, only connected to the imme-

diately higher categories. Also, properties are stored at the highest level of categorization

to which they can be applied. For example, “is yellow” could be stored with “canary”; “Has

wings” could be stored with “bird” (one level up); and “can move” could be stored with

“animal” (another level up).

Nodes can also store the negation of the properties of their superordinate nodes (for

example, “can’t y” could be stored with “penguin”). is provides an economy of rep-

resentations, in which properties are only stored at the level of categorization for which

they are essential, that is, at the point where they become critical characteristics. According

to the TLC, processing is a form of activation propagation, that is, when a node is activat-

ed, the activation spreads to other nodes through the links that join them. In that case, the

response time to the question “Is the pigeon a bird?” it depends on the distance that me-

diates between the nodes “dove” and “bird” (for example, the number of intermediate nodes

that may exist).

3. Methodological framework

is section describes the Design Science Research Methodology (DSRM) (Hevner et al.,

) used in the present study to address the use of Bayesian networks in the analysis of

corpus of local problems related to the Sustainable Development Goals (SDGs).

is study adopted the DSRM due to it seeks to enhance human knowledge with the

creation of innovative artifacts and the generation of design knowledge (DK) via innovative

solutions to real-world problems. e DSRM approach, followed in this study, has been

used before in the development of knowledge-based systems and Natural Language Pro-

cessing (NLP) Systems. As an example, we could refer to the work of Pereira, Ferreira, &

Lopes () in knowledge representation and NLP case study in innovation processes

(O’Riain, Curry & Buitelaar, ). is study includes the following ve steps for the de-

velopment of a soware artifact according to DSRM.



Digital Humanities, Corpus and Language Technology

Step . Problem identication and motivation. In this stage the objectives for a solution

are described. Resources required for this activity include the state of the problem and the

importance of its solution.

Step . Objectives for a solution. Infer the objectives of a solution from the problem

denition and knowledge of what is possible and feasible. Resources required for this in-

clude knowledge of the state of problems and current solutions.

Step . Design and development. Create the artifact. Such artifacts are potentially con-

structing, models, methods, or instantiations (each dened broadly) (Hevner et al., )

or “new properties of technical, social, and/or informational resources (Jarvinen, )”.

Step . Demonstration. Demonstrate the use of the artifact to solve one or more instanc-

es of the problem. is could involve its use in experimentation, simulation, case study,

proof, or other appropriate activity.

Step . Evaluation. Observe and measure how well the artifact supports a solution to

the problem. is activity involves comparing the objectives of a solution to actual observed

results from use of the artifact in the demonstration. It requires knowledge of relevant

metrics and analysis techniques.

4. Results

is section describes the results obtained from the follow-up of each of the steps of the

DSR methodology.

4.1. Problem identication and motivation

In this step the problem formulation for the proposed research approach is stated. e

problem is described in the form of functional requirements (Eekels & Roozenburg, ;

Baskerville, et al., ). Listed below are some of the functional requirements that are

necessary to address the development of a system for translating community problem

descriptions into language of the SDGs.

• Collect many descriptions of problems related to the SDGs that aect the communities

of dierent regions of Colombia.

• Relate the documents of the corpus with the language of the SDGs, considering the

lexicon of regionalisms.

• Provide graphical reports about the problems that each population describes.

• Develop a model that translates natural language into the language of the SDGs.

• Develop an App that allows the collection, storage and translation of the problems ex-

pressed by the communities.



4.2. Dene the objectives for a solution

Create a corpus with the descriptions of the problems and actions that are carried out in

the communities, which have some relationship with the SDGs. Design a system that

translates the problem descriptions of dierent communities into the language of the

SDGs. e system must allow:

• Log in through an account.

• Record an interview by voice and convert it to text.

• Enter the data related to the interviewed user.

• Record the priority topics for the interviewed user.

• Record by voice the three main problems in your community and the system converts

it to text.

• Record by voice the three actions that have been taken

• implemented in your community for each of the three problems and the system converts

it to text.

• e system, through Articial Intelligence, reports on the SDGs related to each problem

of the interviewee.

• e system, through Articial Intelligence, reports on the goals of each SDG related to

each problem of the interviewee.

• e system reports the percentage that relates each SDG to the problem reported by the

interviewee.

• e system incorporates new vocabulary related to the SDGs using machine learning.

4.3. Design and development

e classication method used in this study is Naïve Bayes Classier, to classify online

testimonial data from leading e-traveling sites. e current Naïve Bayes Classier method

has been developed to calculate the probabilistic size of each word and provide an assess-

ment for each class. One of them is the Multinomial Naïve Bayes model developed by

Schütze et al., (). is method estimates the conditional probability of a token that has

a class, as the relative frequency of the word t in the document belonging to the class c. In

NBC, the probability of a document d (e.g., problem description) being in class c, P(c|d),

is computed as shown in this equation formula:

( | ) ( ) ∏( | )

()



Digital Humanities, Corpus and Language Technology

e Naïve Bayes Multinomial Method takes into account the number of occurrences of the

word t in class c training documents, as well as several existing events.

( | ) =∑′′ ∈

()

e data collection processing mechanism for training and prediction to be used by the

ECHO application has the following phases:

Figure 1. Input data processing and training protocol.

Phase I: Preparation of the initial data matrix (Pre-processing). is matrix can be

created as follows:

 From the cleaning of the matrix extracted from the events carried out or a particular

subset of them.

Phase II: Creation of the training dataset. is Dataset can be created in the following way:

 From experts tagging directed speeches captured by ECHO (SDG translation App).

 From the review of the application output of an Event



e Training Dataset has two columns, as shown in Figure .

Figure 2. 

e theoretical foundation of the system has its origin in the idea of the “vocabulary

matrix” (Miller et al.,) (vocabulary matrix). Miller uses the term lexical form (word

form) to refer to the physical expression that is written or pronounced and meaning.

Also, by using this methodology of “nodes” words from interviews were linked to words

related and their goals ( goals in total) as we can see on Table .

Table 1. SDG

SDGS Related words

Goal 1 No poverty -

nal poverty, multidimensional poverty index.

Goal 2 Zero hunger Agricultural product, agricultural production, agricultural productivity, environ-

ment, agricultural sector, safe food.

Goal 3 Good health



Health centers, environmental sanitation, public health, family planning, repro-



Goal 4 Quality edu-

cation

Educational infrastructure, early childhood, vocational training, preschool

education, university education, higher education, secondary education, drinking

-



enrollment, high school fees, illiterate, illiterate, quality learning, good learning,

good school, good teacher, good education, good teaching, good school.



Digital Humanities, Corpus and Language Technology

SDGS Related words

Goal 5 Gender equality Reproductive health, sexual health, physical violence, sexual violence, psycho-







sanitation

-





clean energy







-





Goal 9 industry, inno-

vation and infrastruc-

ture

-

nection.

Goal 10 Reduced

inequalities

Sexual harassment, human rights.

Goal 11 Sustainable

cities and communities

Private sector, urban area, public roads, housing project, sports venues, sustai-



Goal 12 Responsible

consumption and

production

-

terial consumption, responsible consumption, sustainable consumption.

Goal 13 Climate action 









Goal 15 Life on land 

in planning, terrestrial ecosystems.

Goal 16 Peace, justice

and strong institutions



-



Goal 17 Partnerships

for the goals

Economic development, internet, internet of things.

1. Algorithm_1. Training document by multinomial naïve bayes

2. Input: Document D, Class C

3. Output: Vocabulary V, Prior Knowledge, Likelihood condprob

4. a) Extract vocabulary V from document D

5. b) Calculate the number of N documents D

6. c) For every ∈

7. Calculate Nc as number of D documents that have class c

8. Calculate prior [c] = Nc / N

9. Combine all text in document D that has class c into textc

10. for every t V

11. Calculate Tct as the number of tokens appearing from textc which has class c

12. for every t V

13. Calculate Likelihood condprob [t] [c]= formulae (2)



e Naïve Bayes Classier performance can be improved by using corpus data that has

been created and developed in the previous stage. e use of corpus aims to give more

weight to the parameters of the probability value, for each token listed in the corpus. e

corpus used is the corpus that deals with the topic of hotel parameters, namely comfort,

cleanliness, location of the hotel, food, and friendly service.

Corpus value weights are obtained from probabilistic values. e occurrence of the

term t on the existing topic, the goal is to normalize the weight. In this study using the

proportionality of token numbers for each class c, positive classes p + = . (for inclusion

into a class) and negative p- = . (for not inclusion into a class) in the data sequence. So

that condprob can be calculated by a formula such as,

[ ] =∑log( [ ][ ] × (1 + (∑′×

′∈ )))

′∈

()

To get a score for each class [c] can use the following formulae.

[ ][ ] =∑′′ ∈ × (1 + (∑′′ ∈ × ))

()

With the knowledge base generated, the algorithm can make inferences and reasoning

based on the input from the new interviews to generate predictions regarding the SDGs

and targets that are related to the inputs.

Figure 3. 



Digital Humanities, Corpus and Language Technology

Figure 4. II.

For prediction, the algorithm deployed into the ECHO App captures the information using

Speech Recognition. e testing phase based on the results of training data can be used

Algorithm_.

1. Algorithm_2. Testing document by multinomial naïve bayes

2. Input: Class C, Vocabulary V, Prior Knowledge, Likelihood condprob, Test document d

3. Output: arg ∈ [ ]

4. Extract token W from test document d based on Vocabulary v b).

5. For each ∈

Calculate score [c] = log [ ]

For every t W

Calculate score [c] + =

log [ ][ ]

6. Count

arg ∈ [ ]

e backend of the application and the main algorithm were developed using the frame-

work Nodejs in JavaScript. e front-end was developed with the Vue.js framework, while

semantic and procedural memory data were stored in MongoDB. Below is an example of

the prediction output for the algorithm in the ECHO App.



Figure 5. 

Figure 6. Prediction of the algorithm.

4.4. Demonstration

e descriptions were collected verbally for three years and contain regionalisms related

to the SDGs from the Caribbean region, Antioquia and Bogotá. e tool was tested in the

cities of Cartagena and Medellín, where the application processed ,  and 

descriptions of community problems. To facilitate the gathering of testimonies through the

ECHO tool, a -day information gathering session was held within the framework of the



Digital Humanities, Corpus and Language Technology

project “Testing ECHO amplifying the citizen’s voices for the SDG’s”. More than  univer-

sity students participated in the sessions, who were volunteers to collect the problems of

the communities and were trained in the use of the ECHO tool. Cell phones with Android

operating system, microphone and internet connection were used to collect information.

Figure 7. 

4.5. Evaluation

e corpora were taken through oral interviews with people (men and women) from

diverse social levels (mainly , ,  social levels). e interviewer recorded the interview

with a cell phone and instantly or when a WIFI connection was able, all the information

was gathered and analyzed. us, the system shows how people think about their necessi-

ties related to the United Nations’s goals. is information will be used to promote pros-

perity while protecting the planet. Initially, the algorithm presented a level of precision of

 in the translation of the corpus into the language of the SDGs.

Precision refers to the proportion of concepts that is accurately detected relative to all

the concept elements that are represented in the corpus (Brewster et al., ). e numer-

ator of Eqs. () describe that knowledge that is accurately detected and corresponds to the

intersection of the relevant entities and the retrieved entities.

=|{ }∩{ }|

|{ }|

()



e erroneous results were analyzed by a team of OSDGsDS experts, linguists, and data

engineers to determine the causes of the failures. In this process it was found that region-

alisms were the main cause, in this sense the application training was rened with a corpus

that contained the regionalisms expressed in the problem descriptions. us, on the last

day of testing in both cities, a precision of . was obtained.

5. Conclusion

e main result of this study is a large digital corpus of descriptions of problems related to

compliance of the SDGs in three regions in Colombia. e potential of the corpus was

veried by evaluating the results of a Bayesian network algorithm. In the evaluation, the

standard processing of the text by the algorithm produces a high rate of correct answers.

e use of semantic methodology for the organization of information in semantic elds

was very ecient. Semantic eld was organized through hyperonyms and hyponyms which

allow to organize all the information in key words related for each goal. e system took

every word in discourse and classify it according to a specic sustainable development

goal. Starting from oral discourse, organizing it and taking it to quantitative data, it veries

that words can be used to be able to analyze a discourse with practical uses. is type of

methodology allows quantifying large amounts of oral information that are extracted from

interviews to nd out what people think about a specic topic, for this research, about the

sustainable development goals.

References

Baars, B. (). Interview with George Miller. In B. Baars (Ed.), e cognitive revolution in psychology

(pp. -). Guildford Press.

Baskerville, R., Baiyere, A., Gregor, S., Hevner, A., & Rossi, M. (). Design science research

contributions: nding a balance between artifact and theory. Journal of the Association for

Information Systems, (), -. https://dx.doi.org/./jais.

Brewster, C., Alani, H., Dasmahapatra, S., & Wilks, Y. (). Data driven ontology evaluation. In

M. T. Lino, M. F. Xavier, F. Ferreira, R. Costa, R. Silva (Eds.), Proceedings of the th International

Conference on Lang uage Resources and Evaluation, LREC  (pp. -). European Language

Resources Association (ELRA). https://aclanthology.org/volumes/L-/

Collins, A. & Quilian, R. (). Retrieval time from semantic memory. Journal of verbal learning

and verbal behavior (), -.

Devi, S., Priya, M.V., Akhila, P., & Vasundhara, N. (). Analysis and prediction of student placement

for improving the education standards. International Journal of Engineering & Technology, (.),

-. https://doi.org/./ijet.vi..

Eekels, J., & Roozenburg, N. F. (). A methodological comparison of the structures of scientic

research and engineering design: their similarities and dierences. Design studies, (), -.



Digital Humanities, Corpus and Language Technology

Hevner, A. R. (). A three-cycle view of design science research. Scandinavian journal of

information systems,(), .

Järvinen, P. (). Action research is similar to design science.Quality & Quantity,(), -.

Kutela, B., and Teng, H. (). Prediction of drivers and pedestrians’ behaviours at signalized mid-

block Danish oset crosswalks using Bayesian networks. Journal of Safety Research , -.

https://doi.org/./j.jsr...

Miller, G. A., Beckwith, R., Fellbaum, C., Gross, D., Miller, K., & Tengi, R. (). Five papers on

WordNet (TM).International Journal of Lexicography, (), -.

Naciones Unidas (). Informe de los objetivos de desarrollo sostenible. Naciones Unidas.

O’Riain, S., Curry, E., & Buitelaar, P. (). Engaging Practitioners within Design Science Research:

A Natural Language Processing Case Study. In M. Helfert, & B. Donnellan (Eds.),Design Science:

Perspectives from Europe. EDSS . Communications in Computer and Information Science, vol

(pp. -). Springer, Cham. https://doi.org/./----_

Pereira, A. R., Ferreira, J. J. P., & Lopes, A. (). A knowledge representation of the beginning of

the innovation process: e Front End of Innovation Integrative Ontology (FEIO).Data &

Knowledge Engineering,, . https://doi.org/./j.datak..

Sandri, M.; Berchialla, P.; Baldi, I.; Gregori, D.; & De Blasi, R., A. (). Dynamic Bayesian Networks

to predict sequences of organ failures in patients admitted to ICU. Journal of biomedical

informatics, , -.

Schütze, H., Manning, C. D., & R aghavan, P. ().Introduction to information retrieval. Cambridge

University Press.



Correlación entre la metáfora orientacional    /  

 y polaridad positiva/negativa en verbos del español: un estudio con

estadística de corpus

C XIV

Correlación entre la metáfora

orientacional bueno es arriba / malo es

abajo y polaridad positiva/negativa

en verbos del español: un estudio

con estadística de corpus1

Correlation between the

orientational metaphor    /

   and positive/negative

polarity in Spanish verbs: a study

with corpus statistics

Benjamín López Hidalgo, Irene Renau & Rogelio Nazar

Ponticia Universidad Católica de Valparaíso –Chile

Resumen: La metáfora conceptual se ha estudiado ampliamente mediante lingüís-

tica de corpus, pero es necesario seguir proponiendo métodos estadísticos que per-

   

Además, la metáfora orientacional en particular ha sido poco abordada en la inves-

tigación sobre metáfora conceptual. Esta investigación tiene como objetivo compro-

bar la relación entre la orientación vertical (arriba/abajo) y la polaridad (positiva/negativa,

respectivamente) que existe en las metáforas orientacionales del tipo bueno es arriba

/ malo es abajo-

cado ‘subir’ / ‘bajar’ y se midió su asociación en las concordancias del corpus con



1 Agradecemos al Proyecto Fondecyt Regular n.º 1231594 (ANID, gobierno de Chile).



Digital Humanities, Corpus and Language Technology



de los casos analizados.

Abstract: Conceptual metaphors have been extensively studied by means of corpus



-



-

tical orientation (up/down) and polarity (positive/negative, respectively) that exists in ori-

entational metaphors of the type good is up / bad is down found in corpora. Ten Spanish



-

beled by means of a polarity lexicon. The results indicate that such an association



1. Introducción

La metáfora orientacional (Lako & Johnson, , ; Lako, ; Langacker, ;

Kövecses, , ; Soriano, ) es un tipo de metáfora que organiza un sistema con-

ceptual en términos de una orientación espacial. Tal es el caso de los conceptos ,

, ... y , , ..., que son considerados de forma univer-

sal como positivos y negativos, respectivamente. En estos casos, la metáfora orientacional

, , ...   / , , ...   funciona

como un dispositivo conceptual que permite organizar, expresar, comprender y reforzar

cognitivamente estos conceptos abstractos. Por ejemplo, en expresiones como “Mi moral

está por los suelos” se hace explícita la relación entre ‘estar pesimista’ y la posición ‘abajo’ a

través de la locución verbal por los suelos; al contrario, en “Mi moral está por las nubes” se

muestra una relación entre ‘arriba’ y ‘optimista’. Esta relación entre la orientación espacial

/ y la consideración de algo como / se ha evidenciado

empíricamente sobre todo a partir de la psicología experimental y también de algunos

estudios de corpus (véase el apartado ). Sin embargo, la evidencia es escasa y, en particu-

lar, faltan propuestas que permitan observar este fenómeno cognitivo a través de expresio-

nes en el discurso, de forma cuantitativamente signicativa y con métodos que permitan

replicar los estudios en distintos tipos de textos y lenguas.



Correlación entre la metáfora orientacional bueno es arriba / malo es abajo y polaridad positiva/negativa en verbos del

español: un estudio con estadística de corpus

En vista de lo anterior, esta investigación se propuso comprobar si la metáfora orienta-

cional    /    puede evidenciarse empíricamente a través del

análisis estadístico de corpus. Para ello, se seleccionaron verbos del español que, en su

acepción prototípica, tuvieran el signicado de ‘subir’ o ‘bajar’, y se analizó su coocurrencia

con unidades léxicas con sentido de ‘bueno’ o ‘malo’, respectivamente. Se etiquetaron estas

unidades como  o  mediante un lexicón de polaridad, que tiene ya previamen-

te etiquetadas las unidades léxicas como ‘positivas’ o ‘negativas’.

La hipótesis que se planteó es que los verbos con signicado ‘subir’ (como ascender,

elevar, levantar, etc.) coocurren más a menudo con unidades léxicas (sustantivos, adjetivos,

verbos y adverbios, locuciones incluidas) con signicado ‘bueno’ (ej., maravilloso, alegrar,

felizmente, bondad, en las nubes), y los verbos con signicado ‘bajar’ (como caer, descender,

tumbar, etc.) coocurren más a menudo con unidades con signicado ‘malo’ (ej., horrible,

entristecer, desgraciadamente, maldad, a duras penas, etc.). El trabajo, como ya se indicó,

tiene interés al proponer un método puramente estadístico y, por tanto, fácil de aplicar a

otras lenguas y a distintos corpus, y la única herramienta externa utilizada (el lexicón de

polaridad) es muy común en muchos idiomas debido a su uso extendido en el área de la

minería de opinión (Alm et al., ; Baccianella et al., ). Desde un punto de vista más

amplio, este trabajo es un aporte a los estudios de metáfora en corpus, y en particular, a la

evidencia empírica sobre la teoría de la metáfora conceptual en el discurso.

2. Antecedentes y marco teórico

La teoría de la metáfora conceptual (Lako & Johnson, , ; Lako, ; Langacker,

; Kövecses, , ; Soriano, ) postula que la metáfora es un mecanismo cog-

nitivo utilizado por el ser humano para comprender el mundo o expresar su concepción

de la realidad; una metáfora conceptual toma como dominio de origen una realidad cono-

cida y generalmente concreta y material, y la utiliza para categorizar el dominio de destino,

correspondiente a una realidad más desconocida y abstracta. Las metáforas conceptuales

pueden expresarse mediante dibujo, fotografía, danza, música, etc., pero es muy común su

uso en expresiones lingüísticas, no solo en literatura, sino en cualquier discurso de la vida

cotidiana. Así, a través de expresiones como dejamos la vida en la cancha, el equipo atacó

con fuerza, salimos derrotados en la nal del campeonato, etc., el  (dominio de des-

tino) es caracterizado como una  (dominio de origen) a través de la metáfora

conceptual     .

El tipo de metáfora mencionado se denomina estructural porque organiza el conoci-

miento del dominio meta mediante la estructura conceptual importada del dominio fuen-



Digital Humanities, Corpus and Language Technology

te. Las metáforas ontológicas, por su lado, sirven para caracterizar elementos abstractos

(como eventos, emociones, experiencias, ideas, etc.) mediante entidades materiales. Por

ejemplo,      es una metáfora ontológica que permite comprender

la mente como un artefacto complejo; esta metáfora se observa en múltiples expresiones

lingüísticas, como mi cerebro está un poco oxidado hoy, tengo el disco duro demasiado lleno

de distracciones, etc.

La metáfora orientacional, que centra nuestra investigación, fue denida por Lako &

Johnson (, ) como “another kind of metaphorical concept, one that does not struc-

ture one concept in terms of another but instead organizes a whole system of concepts with

respect to one another”. En otras palabras, da coherencia a un conjunto de conceptos, de-

bido a que estos comparten el mismo dominio de origen (Langacker, ). Lako y John-

son (, ) las llamaron metáforas orientacionales “since most of them have to do with

spatial orientation: up-down, in-out, front-back, on-o, deep-shallow, central-peripheral”.

Por ejemplo, los conceptos  /  /  /  se unican bajo el concepto

, mientras que  /  /  /    se unican en

: estas dos estructuras conceptuales, a su vez, se unican bajo una de las metáforas

orientacionales más universales:    /   .

Existe una línea ya extensa de trabajos que han abordado la teoría de la metáfora con-

ceptual, sobre todo la metáfora estructural, desde el análisis de corpus (Charteris-Black,

; Semino et al., ; Deignan, ; Semino et al., ; Potts & Semino, ; Liu

& Mo, ). Este enfoque ha permitido comprobar cómo las metáforas, empleadas en

discursos de diversos tipos (prensa, textos especializados, escritura académica, etc.) con-

tribuyen a congurar y transmitir determinados marcos cognitivos y culturales. En el caso

de la metáfora orientacional en concreto, las evidencias parten más bien de los estudios

experimentales, con algunos pocos estudios de corpus. El enlace entre orientación espacial

 /  y la connotación  / , respectivamente, se ha evidencia-

do en el área de la psicología experimental (Meier & Robinson, , ; Crawford et

al., ; Cassanto & Dijkstra, ; Santana & De Vega, ). En estos trabajos se con-

rma empíricamente que el recuerdo de experiencias positivas facilita el realizar activida-

des motrices ascendentes, pero entorpece la actividad motriz cuando es descendente (Ca-

sasanto & Dijkstra, ). Asimismo, se compueba que colocar tarjetas de vocabulario en

ubicaciones particulares después de estudiarlas ayudan a los estudiantes a aprender las

deniciones de palabras con valencia emocional positiva (colocación arriba) o negativa

(colocación abajo) (Casasanto & De Bruin, ). Según estos estudios, pues, existe una

correlación positiva entre el concepto  y , y  y .



Las metáforas orientacionales de diversos tipos se han estudiado también en el discur-

so económico, político y del marketing. Por ejemplo, Fernández Rodríguez () compa-

ra corpus de textos de economía en español y en francés y estudia las expresiones metafó-

ricas orientacionales. En sus datos, el  de estas metáforas corresponden a la orientación

 /  (ej., “la inación china baja”, “la caída de los precios de los alimentos”, cf.

Fernández Rodríguez, , p.), y en otros casos a la orientación  / , -

 / , etc. Estas metáforas, como indican Graupe y Steestun (), sirven para

facilitar la comprensión de conceptos abstractos de la economía mediante conceptos más

intuitivos y cercanos, como ocurre con las metáforas conceptuales en general (Lako &

Johnson, ). En determinados textos, no obstante, pueden dicultar también el pensa-

miento crítico en tanto que proponen marcos conceptuales que no se discuten: por ejemplo,

el mercado visto como un  que se conceptualiza con la oposición  /

(cf. Graupe & Steenstun, ). Luque () también encuentra la metáfora orien-

tacional de tipo    /    en un corpus de discursos políticos

euroescépticos (por ejemplo, “esta Unión Europea ha caído en una serie de errores de los

que será difícil recuperarse”, Luque, , p.). Feng Dezheng (), desde una perspec-

tiva multimodal, analiza el sistema de orientaciones espaciales en el marketing, en especí-

co en anuncios publicitarios de automóviles, donde identica metáforas orientacionales

como  /    –  /   , entre otras del mismo tipo.

Finalmente, el uso de metáforas orientacionales se ha analizado también en la literatura.

Así pues, Zhao, Han y Zhao () realizaron un análisis de corpus de las metáforas con-

ceptuales en Pavilion of Women, de Pearl S. Buck, y en su estudio hallan que las metáforas

orientacionales son las menos frecuentes, aunque de ellas, la más frecuente es    /

   (por ejemplo, “She let her heart down”, cf. Zhao, Han & Zhao, , p.).

Las mencionadas aportaciones contribuyen al desarrollo de la propuesta seminal de

Lako y Johnson (), aunque, como se ha podido comprobar, las investigaciones son

escasas. Además de ello, las propuestas de corpus que han estudiado este tipo de metáfora

han empleado en ocasiones soware de gestión de corpus, como AntConc o Wordsmith,

pero el análisis en sí ha sido manual y restringido a corpus de pequeñas dimensiones. Ello,

como se indicó en la introducción, motiva la presente propuesta, que plantea un método

de explotación de grandes cantidades de datos, lo que supone un nuevo avance hacia el

estudio de este tipo de metáfora conceptual en el discurso.

Correlación entre la metáfora orientacional bueno es arriba / malo es abajo y polaridad positiva/negativa en verbos del

español: un estudio con estadística de corpus



Digital Humanities, Corpus and Language Technology

3. Marco metodólogico

3.1. Materiales

Para llevar a cabo esta investigación, se utilizó un listado de verbos con signicado ‘arriba’

y ‘abajo’, un corpus de trabajo y un lexicón de polaridad que permitiese etiquetar como

‘positivas’ o ‘negativas’ las unidades léxicas (sustantivos, adjetivos, verbos y adverbios,

incluidas expresiones pluriverbales) que coocurrieran con los verbos. Naturalmente, en

algunos casos los adverbios de negación pueden modicar la polaridad positiva o negativa

de las palabras, pero ello representa una variable aleatoria y, como tal, no puede afectar los

resultados.

En cuanto al listado de verbos empleado, se seleccionaron unidades que prototípica-

mente tuvieran signicado ‘arriba’ y ‘abajo’. Para ello, se buscaron verbos denidos, en su

primera acepción, mediante los hiperónimos subir o bajar en dos diccionarios electrónicos

(Battaner, ; RAE, ). Para el primer diccionario, se utilizó la búsqueda compleja

del CD-ROM, y para el segundo se empleó la búsqueda avanzada de la plataforma Encla-

veRAE. Del listado que se obtuvo, se seleccionaron los  de cada uno más frecuentes,

menos ambiguos y comunes a las distintas variedades del castellano: ascender, elevar, esca-

lar, levantar y trepar como hipónimos de subir, y agachar, caer, derribar, descender y tumbar

en el caso de bajar.

Como corpus de trabajo, se utilizó el EsTenTen (Kilgarri & Renau ), en concreto,

la versión Spanish Web  (esTenTen, Eu + Am), que consta de, aproximadamente,

. millones de palabras, divididas entre el español peninsular y el español de Latino-

américa.

Finalmente, se utilizó el lexicón de polaridad de Martínez () para etiquetar los

adjetivos, verbos, sustantivos y locuciones con carga positiva o negativa que coocurrieron

con los verbos seleccionados. Un lexicón de polaridad es un conjunto de unidades léxicas

que presentan una carga subjetiva que dirige hacia lo negativo o lo positivo, como aburrir-

se (–), admirable (+), etc. (Fauconnier, ; Giannakidou, ). Los lexicones de polaridad

se utilizan en minería de opinión para, por ejemplo, el análisis de la expresión del texto a

la voz (Alm et al., ), la búsqueda de contenido emocional en foros o noticias (Lloyd et

al., ; Balog et al., ) o el análisis de debates políticos y las respuestas a las pregun-

tas (Yu & Hatzivassiloglou, ). Actualmente, el análisis de sentimiento ha tenido un

gran desarrollo (Bosco et al., ; Cambria et al., ; Mäntylä et al., ; Nassif et al.,

) y sus herramientas, recursos y métodos se han ido ampliando más allá de la minería

de opinión; la presente investigación es un ejemplo de ello.



El lexicón de polaridad utilizado en esta investigación cuenta con aproximadamente

. unidades léxicas, cada una en una línea del chero seguidas de [N] en caso de ser

negativa o de [P] en caso de ser positiva (véase un fragmento en la tabla  a modo de ejem-

plo), mientras que las unidades neutras (del tipo mesa, estar, ahí, etc.) se encuentran au-

sentes del lexicón. Algunos de los  verbos seleccionados estaban recogidos en el lexicón

de polaridad empleado, por lo que, naturalmente, fueron deshabilitados del listado para

que no alteraran el análisis del algoritmo.

Tabla 1. Fragmento del lexicón de polaridad utilizado. P = positivo; N = negativo.

Afable P

Afectado N

Afectar N

Afecto P

Afectuoso P

3.2. Métodos

En primer lugar, se preparó la muestra y se creó la herramienta de medición, que consistió

en un script desarrollado en el lenguaje de programación Perl. Este script registra la fre-

cuencia de coocurrencia en el corpus entre los verbos y las unidades del vocabulario de

polaridad. En segundo lugar, se establecieron los criterios de análisis que nos permitieron

controlar mejor las variables. En tercer lugar, se aplicaron pruebas preliminares en otros

grupos de verbos que sirvieron para probar la validez del método, con el objetivo de, en la

última etapa, aplicarlo una vez validado por dichas pruebas.

Para preparar la muestra s e extrajo, con la herramienta virtual Jaguar (Nazar et al., ;

http://www.tecling.com/jaguar), una muestra aleatoria de . concordancias por cada

uno de los  verbos (ascender, elevar, escalar, levantar, trepar, agachar, caer, derribar, des-

cender y tumbar), cada una con una ventana de contexto de máximo  palabras a la iz-

quierda y  palabras a la derecha (el total de la muestra, pues, fue de . concordancias).

El corpus EsTenTen tiene etiquetado morfosintáctico con TreeTagger (Schmid, ), que

durante décadas se consideró el sistema más avanzado para ello, tanto en castellano como

en otras lenguas, lo que permitió obtener las concordancias con las unidades léxicas lema-

tizadas. Esto facilitó el cruce con las unidades del lexicón de polaridad, que se encuentran

también lematizadas. Como último paso de preparación de este material, cada muestra de

. concordancias de cada verbo se trasladó a un archivo distinto.

Correlación entre la metáfora orientacional bueno es arriba / malo es abajo y polaridad positiva/negativa en verbos del

español: un estudio con estadística de corpus



Digital Humanities, Corpus and Language Technology

Con el objetivo de medir la polaridad de las unidades léxicas que coocurren con algu-

no de los  verbos en cuestión, el script en lenguaje Perl que desarrollamos permite buscar,

evaluar, agrupar y contar las unidades léxicas del lexicón en nuestra muestra. Este código,

en concreto, se separa en tres acciones que se describen a continuación:

 Lectura e instrumentalización del lexicón de polaridad. Se asignó un valor a cada unidad

léxica del lexicón de polaridad para luego reconocer y contabilizar dichas unidades en

las concordancias. El objetivo fue hacer que tanto las unidades léxicas negativas como

las positivas del lexicón sumaran  por cada vez que aparecieran en una concordancia

(a menos que la unidad léxica tuviese  o menos letras: esto se hizo para evitar ruido de

adverbios de negación, entre otros problemas).

 Clasicación de concordancias. Luego, se realizó un conteo de las unidades léxicas posi-

tivas y de las negativas que se encontraron en cada concordancia. Como output, se

obtuvo la polaridad de cada concordancia. Si la concordancia presentaba más casos de

unidades léxicas positivas que negativas, la concordancia se clasicó como positiva, y

viceversa. Si se contaba el mismo número de unidades léxicas positivas que negativas,

la concordancia se clasicó como neutra. Por último, si no había unidades léxicas del

lexicón de polaridad en la concordancia, esta también se clasicó como neutra.

 Clasicación de verbos. Finalmente, se sumó el resultado de la clasicación anterior a

nivel de concordancias por cada verbo, con el n de determinar la tendencia del verbo

hacia ‘positivo’ o ‘negativo’. La mayor cantidad de concordancias etiquetadas como po-

sitivas por cada verbo daba como resultado que el verbo se clasicaba como ‘positivo’, y

viceversa.

4. Análisis de datos

4.1. Criterios de análisis

Una vez conformados los materiales y establecidos los métodos se tomó la decisión de jar

un umbral de comportamiento neutro de los verbos. En concreto, se postuló que si un

verbo poseía un  o más del total de concordancias que no resultaran ni positivas ni

negativas, ese verbo se consideraría neutro, ya sea por una igualdad entre los resultados

locales (+) y (−) en el verbo en cuestión o porque fueron más las concordancias en las que

el algoritmo no encontró unidades léxicas del lexicón de polaridad, debido a la extensión

de este último. Con esto se controló que la cantidad de concordancias con polaridad fuera

signicativa respecto con el total de concordancias por cada verbo. Para determinar la



signicación estadística de los resultados se empleó el nivel alfa de ., tal como es habi-

tual en ciencias sociales.

4.2. Pruebas preliminares

Antes de analizar el grupo de verbos que eran objeto de estudio, se realizaron pruebas con

dos grupos de verbos para evaluar la efectividad del método. La prueba  se realizó para

medir la conabilidad del instrumento, y consistió en aplicar el algoritmo a  verbos con

sentido positivo y  verbos con sentido negativo, en ambos casos no vinculados a las metá-

foras orientacionales que son objeto de estudio y con sentidos positivo o negativo muy

evidentes: agradecer, bendecir, felicitar, festejar, sonreír, destruir, empeorar, entristecer,

lamentar, llorar. La prueba  consistió en observar el resultado del algoritmo con  verbos

a los que no se podría asociar a priori un sentido positivo ni negativo, es decir, verbos

considerados neutros: pensar, decir, estar, dibujar, escribir, tomar, traducir, consistir, leer,

vestir. Ambas pruebas fueron realizadas con el mismo corpus empleado para los verbos en

estudio. Los resultados de estas dos pruebas preliminares se muestran en la tabla .

Tabla 2. Resultados de las pruebas preliminares.

Prueba 1

Verbos Total + Total – % concor-

dancias con

polaridad del

verbo

Polaridad

resultante

+/–

Valor p

agradecer 3260 366 73 < 2.2e-16

bendecir 3143 449 72 < 2.2e-16

felicitar 3194 366 71 < 2.2e-16

festejar 2545 685 65 < 2.2e-16

sonreír 2504 1045 71 < 2.2e-16

destruir 1339 1998 67 < 2.2e-16

empeorar 1242 2131 67 < 2.2e-16

entristecer 963 1278 66 = 2.85e-11

lamentar 1357 1916 65 < 2.2e-16

llorar 1569 1909 70 = 8.156e-09

Prueba 2

Correlación entre la metáfora orientacional bueno es arriba / malo es abajo y polaridad positiva/negativa en verbos del

español: un estudio con estadística de corpus



Digital Humanities, Corpus and Language Technology

Verbos Total + Total – % concor-

dancias con

polaridad del

verbo

Polaridad

resultante

+/–

Valor p

pensar 1873 1336 64 +< 2.2e-16

decir 1904 1215 62 +< 2.2e-16

estar 1987 1233 64 +< 2.2e-16

dibujar 2096 969 61 +< 2.2e-16

escribir 1958 1013 59 +< 2.2e-16

tomar 1865 1211 62 +< 2.2e-16

traducir 2177 1064 65 +< 2.2e-16

consistir 2126 921 61 +< 2.2e-16

leer 2006 982 60 +< 2.2e-16

vestir 1985 1034 60 +< 2.2e-16

La tabla  indica que, con respecto a la prueba , ninguno de los  verbos superó el umbral

de comportamiento neutro que se estableció ( o más), lo que implica que la cantidad

de concordancias evaluadas como positivas o como negativas es signicativa en conside-

ración al total de concordancias por cada verbo. En segundo lugar, se observa que el algo-

ritmo reconoció en el grupo de verbos de la prueba  los  verbos de polaridad positiva

como positivos y los  verbos de polaridad negativa como negativos, tal como se esperaba.

Por otra parte, se puede observar que ningún verbo presenta un valor p mayor a ., por

tanto, ninguno de estos resultados puede atribuirse al azar, lo que demuestra que hay una

dependencia estadística entre estos  verbos y la polaridad que obtuvieron como resulta-

do.

En el caso del grupo de verbos de la prueba , los  verbos presentaron polaridad

positiva (+), lo que constituye un hallazgo imprevisto. Igual que en la prueba , en este caso

el valor p también fue siempre menor a ., lo que signica que la probabilidad de que

estos resultados hayan sido producto del azar es remota (.). Este resultado indica

probablemente que ciertos verbos, aunque no tengan una polaridad aparente, generalmen-

te presentan una tendencia hacia la polaridad positiva (+); por ejemplo, se identican ac-

tividades como pensar, leer o escribir como positivas en la mayoría de los casos. La profun-

dización en el estudio de este hallazgo, que no se encuentra entre los objetivos de la

investigación, se deja para trabajo futuro.

5. Resultados y discusión

Como ya se mencionó en el apartado ., se analizaron  verbos con orientación arriba

(ascender, elevar, escalar, levantar y trepar) y  verbos con orientación abajo (agachar, caer,



derribar, descender y tumbar), que sirvieron para reejar el binomio orientacional  /

. Para analizar su relación con aquellas unidades léxicas que reejan los conceptos

 /  se aplicó el método descrito en el apartado , una vez ya realizadas las eva-

luaciones que permitieron asegurar la conabilidad (prueba ) y exiblidad (prueba ) del

instrumento de medición. Los resultados del estudio se presentan en la tabla .

Tabla 3. Resultados del análisis del grupo de verbos en estudio.

Verbos Total + Total – % concor-

dancias

con pola-

ridad del

verbo

Dif. total +

y total –

Polaridad

resultante

+/–

Chi cua-

drado

Valor p

ascender 1688 1078 55 610 1.345.264 < 2.2e-16

elevar 2055 1131 64 924 2.679.774 < 2.2e-16

escalar 1803 1474 66 329 330.305 = 9.072e-09

levantar 1665 1472 63 193 118.741 = 0.0005692

trepar 1811 1044 57 767 2.060.557 < 2.2e-16

agachar 1508 1670 64 162 8.258 = 0.004057

caer 1304 1890 64 586 1.075.128 < 2.2e-16

derribar 1425 1846 65 421 541.856 = 1.824e-13

descender 1410 1459 57 49 0.8369 = 0.3603

tumbar 1535 1620 63 85 2.29 = 0.1302

En la tabla  se muestra, en primer lugar, que ninguno de los  verbos superó el umbral

de comportamiento neutro que se estableció ( o más). El mayor porcentaje analizado

se presenta en el verbo escalar con  y el menor porcentaje analizado se presenta en el

verbo ascender con ), por lo que, como se explicó anteriormente, la polaridad fue esta-

dísticamente signicativa en consideración al total de concordancias por cada verbo. En

segundo lugar, los resultados arrojaron que los verbos de orientación  se vinculan

con el sentido positivo, mientras que los verbos de orientación  se vinculan con el

sentido negativo. La probabilidad de que este resultado fuera por azar es de . y, por

tanto, prácticamente nula.

Para comprobar en cuántos casos existe o no dependencia estadística entre las dos

variables, se aplicó el test del chi cuadrado, que arrojó que descender (.) y tumbar

Correlación entre la metáfora orientacional bueno es arriba / malo es abajo y polaridad positiva/negativa en verbos del

español: un estudio con estadística de corpus



Digital Humanities, Corpus and Language Technology

(.) presentan un valor p mayor a . y, por tanto, los resultados no son estadística-

mente signicativos. Los otros  verbos presentan, sin embargo, un valor menor al alfa

., lo que muestra que hay una dependencia estadística entre estos verbos y el sentido

positivo o negativo que se obtuvo como resultado de la aplicación del método. Es decir, en

cuanto a la formulación de nuestra hipótesis, en el  de los casos esta se conrmó.

Estos resultados, en consideración con lo estipulado en los criterios de análisis, permi-

ten comprobar que existe una relación entre la variable orientación vertical y la variable

polaridad positiva o negativa en contextos reales de uso de las unidades de análisis. Ello

permite comprobar empíricamente y mediante métodos de estadística de corpus la metá-

fora orientacional /   y /   en un nivel lingüísti-

co. Con ello se puede armar con un grado elevado de certeza que los verbos que presen-

ten un sentido de ‘subir’ tenderán a formar parte de frases en las que se expresará un

sentido ‘positivo’, y los verbos con sentido ‘bajar’ tenderán a estar incluidos en frases con

sentido ‘negativo’. Así, por ejemplo, véase la concordancia  de agachar:

agachaba la mirada con tristeza...

En este contexto se observa una polaridad negativa que es reconocida por el script al detec-

tar una unidad negativa presente en el lexicón de polaridad utilizado (tristeza) y ninguna

positiva; el resto de unidades (ver, nalmente, tiempo y mirada) son neutras. Un caso

opuesto se muestra en la concordancia  de elevar:

...cambios estructurales han permitido avanzar  estabilidad, elevar la  de la

economía...

En este contexto, el script reconoció cuatro unidades positivas (permitir, avanzar, estabili-

dad y eciencia) y ninguna negativa (pues el resto son neutras: cambio, estructural, signi-

cativamente, economía). (Se recuerda que tanto agachar como elevar, igual que el resto de

verbos en estudio, se excluyeron del lexicón para no interferir en los resultados y, por tanto,

no fueron contabilizados como positivos ni negativos).

Finalmente, el siguiente ejemplo (concordancia  de agachar) muestra que las catego-

rías  y  pueden ser controvertidas, lo que mueve a considerar que sería

difícil obtener un  de precisión con este método, como es habitual en semántica:

...ahora nos faltaagachar la cabeza de una vez y reconocererrores 



En este caso, el algoritmo identica las unidades faltar y error como unidades negativas y

reconocer como positiva y, por tanto, adjudica un resultado de polaridad negativa a esta

concordancia. Si bien la expresión agachar la cabeza es claramente negativa, podría consi-

derarse que reconocer nuestros errores, y especialmente el conjunto del contexto, es una

secuencia positiva. Esto ocurre también con adjetivos como gran(de) (+) o poco (–), que

pueden generar secuencias de polaridad contraria a la del adjetivo aislado: gran pena (–),

pocas críticas (+). Estos casos, si bien producen cierto porcentaje de error, se compensan

con la gran cantidad de datos analizados (. concordancias por cada verbo), lo que

reduce el impacto de este tipo de secuencias en la muestra.

Además, cabe destacar que los resultados arrojaron una mayor circulación de unidades

léxicas positivas a nivel general de los verbos analizados, con independencia de la polaridad

con la que fueron evaluados. Este fue un resultado sorprendente, sobre todo por la dife-

rencia reejada en el total de concordancias analizadas como positivas y en el total de

concordancias analizadas como negativas ( + frente a  total) de los verbos anali-

zados (prueba , prueba  y grupo en estudio). Además, la prueba  dio como resultado la

polaridad positiva en  de  verbos sin una polaridad aparente, lo que es otra prueba de

esta tendencia. Asimismo, la mayor diferencia entre total + y total – se dio en los verbos

evaluados como positivos, lo que habla de que, por lo general, tienen una polaridad más

marcada que los negativos (véase la gura  para ampliar el panorama de los datos).

En último lugar, el total de concordancias con polaridad en el total de verbos fue de

., es decir, un promedio de , del total analizado (. concordancias) (véase

la gura ). Este resultado, si bien es estadísticamente suciente, puede mejorar conforme

se emplee un lexicón de polaridad más amplio o se amplíe el utilizado, y el instrumento de

medición se vaya complejizando.

Correlación entre la metáfora orientacional bueno es arriba / malo es abajo y polaridad positiva/negativa en verbos del

español: un estudio con estadística de corpus



Digital Humanities, Corpus and Language Technology

Figura 1. 

grupo de verbos en estudio).

6. Conclusión y perspectivas

Esta investigación se situó en la problemática de la metáfora conceptual y su estudio desde

el análisis de corpus. En concreto, su enfoque radica en el análisis estadístico de un tipo de

metáfora orientacional y su materialización lingüística en contextos reales de uso. Para

observar el binomio / se buscaron verbos que presentaran en su denición

el verbo subir o bajar, mientras que para observar los dominios  y  se empleó

el recurso del lexicón de polaridad con el n de observar el comportamiento discursivo de

estos dominios conceptuales que física, cultural y socialmente son entendidos a nivel gene-

ral como positivos y negativos, respectivamente.

A partir de los resultados mostrados en el apartado anterior, se puede conrmar que la

relación entre verbo con orientación ya sea  o  y la polaridad ‘positiva’ y ‘ne-

gativa’, respectivamente, se maniesta a nivel lingüístico y es coherente con los postulados

de la metáfora orientacional (Lako & Johnson , b; Lako, ). Es decir, un

verbo con signicado ‘arriba’ tiende a aparecer combinado con unidades léxicas son sen-

tido positivo, y un verbo con signicado ‘abajo’ tiende a aparecer combinado con unidades

léxicas con sentido negativo.



Como trabajo futuro, el algoritmo confeccionado se puede aplicar empleando otros

lexicones que permitan analizar el uso de otras expresiones metafóricas, como puede ser,

por ejemplo, el caso de un lexicón de términos bélicos que aporte en el análisis de la me-

táfora estructural      en su dimensión lingüística. Para ello, se

podrían, eventualmente, extraer expresiones de foros o situaciones comunicativas en las

que personas debatan con respecto a un tema y hacer la búsqueda de las unidades del le-

xicón de términos bélicos en estas expresiones de situaciones comunicativas de debate o

discusión. Este es uno de los tantos ejemplos en los que el algoritmo puede contribuir en

los estudios de las metáforas conceptuales con métodos de estadística de corpus. Asimismo,

el léxico trabajado en cuanto a verbos con polaridad / se puede ampliar me-

diante otras técnicas, como por ejemplo utilizando algoritmos de aprendizaje automático.

Alternativamente, también se podría intentar la expansión del lexicón de polaridad utili-

zando los mismos métodos de esta investigación. Por ejemplo,  de  los verbos estudiados

tienen una dependencia estadística con la polaridad asignada, lo que implica que se pueden

agregar al lexicón de polaridad escalar y trepar como unidades léxicas positivas y agachar

como una unidad léxica negativa, entre otros verbos que actualmente no se encuentran en

dicho recurso.

Referencias

Alm, C., Roth, D. & Sproat, R. (). Emotions from text: machine learning for text-based emotion

prediction. En R. Mooney, C. Brew, L.-F. Chien & K. Kirchho (Eds.), Proceedings of the

Conference on Human Language Technology and Empirical Methods in Natural Language

Processing (pp. -). Association for Computational Linguistics.

Baccianella, S., Esuli, A., & Sebastiani, F. (). Sentiwordnet .: an enhanced lexical resource for

sentiment analysis and opinion mining. En N. Calzolari, K. Choukri, B. Maegaard, J. Mariani,

J. Odijk, S. Piperidis, M. Rosner & D. Tapias (Eds.), Proceedings of the Seventh International

Conference on Language Resources and Evaluation (LREC’), (pp. -). European

Language Resources Association.

Balog, K., Mishne, G. & De Rijke, M. (). Why are they excited? Identifying and explaining spikes

in blog mood levels. En D. McCarthy & S. Wintner (Eds.), th Conference of the European

Chapter of the Association for Computational Linguistics. Proceedings of the conference (pp. -

). Association for Computational Linguistics.

Battaner, P. (). Diccionario de uso del español de América y España. Spes. Versión CD- ROM.

Bosco, D., Patti, V. & Bolioli, A. (). Developing corpora for sentiment analysis and opinion

mining: a survey and the Senti-TUT case study. IEEE Intelligent Systems, (), -.

Cambria, E., Gelbukh, A., Poria, S. & Kwok, K. (). Sentic API: a common-sense based API for

concept-level sentiment analysis. En M. Rowe, M. Stankovic & A.-S. Dadzie (Eds.), Proceedings

of the the th Workshop on Making Sense of Microposts (pp. -).

Casasanto, D. & Dijkstra, K. (). Motor action and emotional memory. Cognition, (), -.

Correlación entre la metáfora orientacional bueno es arriba / malo es abajo y polaridad positiva/negativa en verbos del

español: un estudio con estadística de corpus



Digital Humanities, Corpus and Language Technology

Casasanto, D. & De Bruin, A. (). Metaphors we learn by: directed motor action improves word

learning. Cognition, , -.

Charteris-Black, J. (). Metaphor and vocabulary teaching in ESP economics. English for Specic

Purposes, (), -.

Crawford, E., Margolies, S., Drake, J. & Murphy, M. (). Aect biases memory of location:

evidence for the spatial representation of aect. Cognition and Emotion, (), -.

Deignan, A. (). Corpus linguistics and metaphor. En R. Gibbs (Ed.), e Cambridge handbook

of metaphor and thought (pp. -). Cambridge University Press.

Dezheng, F. (). Visual space and ideology. A critical cognitive analysis of spatial orientations in

advertising. En K. O’Halloran & B. Smith (Eds.), Multimodal studies. Exploring issues and

domains (pp. -). Routledge.

Fauconnier, G. (). Polarity and the scale principle. Chicago Linguistic Society, , -.

Fernández Rodríguez, Á. (). La metáfora orientacional en traducción económica (fr-es-fr).

Çédille. Revista de Estudios Franceses, , -.

Giannakidou, A. (). e meaning of free choice. Linguistics and Philosophy, (), -.

Gibbs Jr, R. W., Gibbs, R. W., & Gibbs, J. (). e poetics of mind: gurative thought, language, and

understanding. Cambridge University Press.

Graupe, S. & Steestun, T. (). ‘ e market deals out prots and losses’ – How standard economic

textbooks promote uncritical thinking in metaphors. Journal of Social Science Education, (,

-.

Hatzivassiloglou, V. & Wiebe, J. M. (). Eects of adjective orientation and gradability on sentence

subjectivity. En M. Kay (Ed.), COLING ‘: Proceedings of the th Conference on Computational

Linguistics, (pp. -). Association for Computational Linguistics.

Kilgarri, A. & Renau, I. (). EsTenTen, a vast web corpus of Peninsular and American Spanish.

Procedia-Social and Behavioral Sciences, , -.

Kövecses, Z. (). Metaphor. A practical introduction. Oxford University Press.

Kövecses, Z. (). Conceptual metaphor theory: some criticisms and alternative proposals. Annual

Review of Cognitive Linguistics, , -.

Lako, G. & Johnson, M. (). Metaphors we live by. University of Chicago Press.

Lako, G. (). e contemporary theory of metaphor. En A. Ortony (Ed.), Metaphor and thought

(.a ed.) (pp. -). Cambridge University Press.

Lako, G. & Johnson, M. (). Philosophy in the esh. e embodied mind and its challenge to western

thought. Basic Books.

Liu, D. & Mo, Q. (). Conceptual metaphors and image schemas: a corpus analysis of the

development of the on track/o track idiom pair. Journal of English Linguistics, (), -.

Lloyd, D. K. & Skiena, S. (). Lydia: a system for large-scale news analysis. En M. Consens & G.

Navarro (Eds.), String Processing and Information Retrieval. th International Conference, SPIRE

 (pp. -). Springer.

Luque, F. (). La metáfora conceptual en el discurso político euroescéptico (francés-español).

Logos: Revista de Lingüística, Filosofía y Literatura, (), -.

Mäntylä, M. V., Graziotin, D. & Kuutila, M. (). e evolution of sentiment analysis: a review of

research topics, venues, and top cited papers. Computer Science Review, , -.

Martínez, R. (). La incidencia de las interacciones verbales en la conguración de la red social

twitter: un análisis desde la polaridad, la novedad y el prestigio [Tesis doctoral]. Ponticia

Universidad Católica de Valparaíso.



Meier, B. & Robinson, M. (). Why the sunny side is up: associations between aect and vertical

position. Psychological Science, (), -.

Meier, B. & Robinson, M. (). Does “feeling down” mean seeing down? Depressive symptoms

and vertical selective attention. Journal of Research in Personality, (), -.

Nassif, A., Elnagar, A., Shahin, I. & Henno, S. (). Deep learning for Arabic subjective sentiment

analysis: challenges and research opp ortunities. Applied So C omputing Journal, , , -.

Nazar, R., Vivaldi, J. & Cabré, M. T. (). A suite to compile and analyze an LSP corpus. En N.

Calzolari, K. Choukri, B. Maegaard, J. Mariani, J. Odijk, S. Piperidis & D. Tapias (Eds.), Proceedings

of the Sixth International Conference on Language Resources and Evaluation (LREC’), (pp.

-). European Language Resources Association.

Potts, A. & Semino, E. (). Cancer as a metaphor. Metaphor and Symbol, (), -.

Real Academia Española. (). Diccionario de la lengua española (.a ed.). Espasa.

Santana, E. & De Vega, M. (). Metaphors are embodied, and so are their literal counterparts.

Frontiers in Psychology, , -.

Semino, E., Demjén, Z. & Demmen, J. (). An integrated approach to metaphor and framing in

cognition, discourse, and practice, with an application to metaphors for cancer. Applied

Linguistics, (), -.

Semino, E., Heywood, J. & Short, M. (). Methodological problems in the analysis of metaphors

in a corpus of conversations about cancer. Journal of Pragmatics, (), -.

Schmid, H. (). Probabilistic part-of-speech tagging using decision trees. Proceedings of

International Conference on New Methods in Language Processing.

Soriano, C. (). La metáfora conceptual. En I. Ibarretxe-Antuñano & J. Valenzuela (Coords.),

Lingüística cognitiva (pp. -). Anthropos.

Yu, H. & Hatzivassiloglou, V. (). Towards answering opinion questions: separating facts from

opinions and identifying the polarity of opinion sentences. En Proceedings of the  Conference

on Empirical Methods in Natural Language Processing (pp. -). Ass ociation for Computational

Linguistics.

Zhao, X., Han, Y., & Zhao, X. (). A corpus-based study of metaphor in Pavilion of women. Chinese

Semiotic Studies, (), -.

Correlación entre la metáfora orientacional bueno es arriba / malo es abajo y polaridad positiva/negativa en verbos del

español: un estudio con estadística de corpus



UnderRL Tagger: a free soware for Under-Resourced Languages POS tagging

C XV

UnderRL Tagger1

for Under-Resourced Languages

POS tagging

UnderRL Tagger: un soware libre

para etiquetar POS en Under-

Resourced Languages

José Luis Pemberty Tamayo & Jorge Mauricio Molina Mejía

Universidad de Antioquia – Colombia

Abstract:POS

tagging in a multiplicity of languages that do not have automatic taggers. The pro-

     

-

ally automated thanks to a system that makes it possible to recall and reuse tags, as

XML format

EAGLES system.

Resumen:

el etiquetado de POS en una multiplicidad de lenguas que no cuentan con etiqueta-

dores automáticos. El programa busca facilitar el trabajo con corpus en estas lenguas

a través de la lingüística computacional. Su funcionamiento permite que el proceso

manual de etiquetado se convierta poco a poco en automático gracias a un sistema

que permite recordar y reutilizar las etiquetas, de la misma manera en que permite

manejar grandes cantidades de textos y generar archivos de salida en formato XML

con etiquetas basadas en el sistema EAGLES.

1 UnderRLPOS

-

search team Corpus Ex Machina (Facultad de Comunicaciones y Filología, Universidad de Antioquia). The computer

program has been patented in 2020 by J. L. Pemberty Tamayo, J. M. Molina Mejía and M. I. Marín Morales (2020).



Digital Humanities, Corpus and Language Technology

1. Introduction

One of the most notorious aspects in the research and study of current Linguistics is the use

of textual corpora for various purposes, for example: grammatical analysis (Parodi, ;

Biber & Finegan, ; Jones & Waller, ), anaphora resolution (Mitkov, ; Poesio,

Stuckardt & Versley, ; Grajales Ramírez & Molina Mejía, ), statistical analysis by

means of corpora (Beaudouin, ; Brezina, ; Wallis, ), etc. On the other hand, it is

possible to observe the way in which a strong relationship has been established with Com-

putational Linguistics (Mitkov, ; Wilks, ; Molina Mejía, ), precisely for the

processing, handling, and interpretation of required amounts of data (Zeroual & Lakhouaja,

). Within this scenario, written texts play a prominent role, since they lend themselves

to computational processes more easily than other forms of language use (Baquero Velásquez,

; Parodi, ). Such ease has made it possible to standardize dierent levels of annota-

tion or tagging, which are ways of enriching the information in the text, making the linguis-

tic notions underlying their use patent (McEnery & Hardie, ). An example of this is the

POS (Part-of-Speech) level, the simplest and most necessary as a rst step in the annotation

of texts with linguistic information (Parodi, ; Straka & Straková, ).

e aforementioned process acquires importance when considering the purposes pur-

sued by Corpus Linguistics, because it permits computers to process information to which

they would not otherwise have access. In this sense, soware products have also been built

that, based on dierent systems of rules or articial intelligence, can automatically perform,

with a high degree of success, common forms of tagging in dierent languages, generally

the most widely spoken ones such as Spanish, English, French, German, among others

(Molina Mejía, ).

Automation in the case of corpus tagging is of great importance, since the manual work

that would be required to annotate a robust corpus of texts is quite expensive in time, eort

and human resources, not to say that it can oen seem impossible. is situation places

languages that do not have the computerized means to be processed eciently, at a disad-

vantage; since the need for manual work limits the information that can be taken for an

investigation, as well as it can dissuade potential scholars from dedicating themselves to

taking them as an object of work. is group is known as Under-Resourced Languages

(henceforth URLa) (Krauwer, ).

Considering all of the above, this chapter presents “UnderRL Tagger” (Pemberty Ta-

mayo, Molina Mejía & Marín Morales, ), a soware that aims to help researchers in

the process of tagging textual corpora in URLa, based on a system that permits to recall

the tags associated with certain words and automating their annotation as much as possi-





ble (Pemberty Tamayo, ). It should be noted that the aim of the work is not to achieve

fully automatic tagging, but to assist the manual process, as will be seen in the following

pages. is program is the result of work done at the level of conception and elaboration

of semi-automatic POS tagging systems for Under-Resourced Languages (Pemberty Ta-

mayo, ; Pemberty Tamayo & Molina Mejía, ; Pemberty Tamayo et al., ).

2. State of the Art

As mentioned in the previous section, a clear antecedent of the works whose subject is

corpus annotation are the computer platforms and computational tools that currently

fulll the task of automatically tagging large amounts of texts in dierent languages. Some

well-known free access tools are TreeTagger (Schmid, ) and TagAnt (Anthony, ),

which could help with the tagging of some dierent languages at the Part of Speech -POS-

level (Weisser, ).

Other prominent names are FreeLing (Padró, Collado, Reese, Lloberes & Castellón,

) and Stanford Parser (Schuster & Manning, ), which allow annotation at dier-

ent levels of analysis such as parsing (generation of syntactic trees from dependency gram-

mar and immediate constituents, alternatively), recognition of coreferential chains (anaph-

ora and cataphora), elaboration of semantic graphs, analysis of named entities, etc.

Regarding FreeLing, it is important to note that this program uses the EAGLES system as

a standard for the annotation of the dierent human languages.

e EAGLES are a series of conventions adopted by dierent groups in the work with

corpora; they were proposed by the “Expert Advisory Group on Language Engineering

Standards” (Leech & Wilson, ) and consist of a series of regulations in the use of certain

codes for the dierent possible values in the tagging of POS notions. Bearing this in mind,

the work presented here also embraces this standardization, its existence being an impor-

tant antecedent in the denition of the algorithms described later in this chapter.

Within the framework of the creation of a computer system destined to under-re-

sourced languages and minority languages, it is important to start from a standardized

morphosyntactic tagging system. In this way, both researchers and specialists in this type

2 POS and lemma information. More information can be found at



3 POS-



4 

link: http://nlp.lsi.upc.edu/freeling/node/1

5 

lex-parser.shtml



Digital Humanities, Corpus and Language Technology

of language will be able to understand each other. Starting from this premise, it was decid-

ed to aim to have the tags proposed by the EAGLES project. is should permit the program

to be used by specialists in minority and under-resourced languages in dierent geograph-

ical and linguistic contexts, and the data obtained from research in dierent languages to

be shared globally. It is also worth mentioning dierent academic works that focus on the

computational treatment of URLa; ese works are based on approaches as varied as the

annotating of specic languages, such as Arabic and Vietnamese (El-Haj, Kruschwitz &

Fox, ; Le & Besacier, ); speech recognition (Besacier, Barnard, Karpov & Schultz,

) or corpus collection by obtaining texts from the web (Scannell, ). ese works

share with “UnderRL Tagger” their concern for this group of languages, but they also have

the dierence that they do not properly deal with automated assistance in manual corpus

tagging and their approaches are, in most cases, monolingual.

Unlike these studies, two remarkable computer programs have also been found, since,

although they do not mention the concept of URLa in their documentation, they mark

more notable antecedents in relation to the objective of this work. ese are “FieldWorks

Language Explorer” (Moe, ) and “Field Linguist’s ToolBox” (Buseman & Buseman,

), both designed to manage corpora in dierent languages, mainly with the intention

of processing them at the lexicographic level and in order to nally produce a dictionary

of the languages worked by each of them (Rogers, ).

However, these soware programs, given the breadth of their eld of application, could

hinder the simplest task of obtaining an annotated corpus in each language, in addition to

the fact that they also lack a standardization in the eld of Corpus Linguistics such as those

mentioned in EAGLES. In this sense, they are established as antecedents of this work, but

their functionalities are not the same as those of “UnderRL Tagger” (Pember ty Tamayo, ).

3. Theoretical Framework

3.1. Computational Linguistics and Natural Language Processing

Computational Linguistics is usually dened as a discipline whose purpose is the construc-

tion of computer systems that process linguistic structures and simulate human linguistic

capabilities (Moreno Sandoval, , pp. -). is discipline is framed within Applied

Linguistics (Moreno Sandoval, ; Tordera Yllescas, , Molina Mejía, ) and, fol-

lowing the opinion of several authors (Sáiz Noeda, ; Tordera Yllescas, ), it will be

considered in this chapter as a synonym of NLP (Natural Language Processing).



Although many authors agree on this general denition, there are dierent ways of

delimiting the scope of Computational Linguistics. From practical approaches that include

all types of computer language processing (Mitkov, , p.), to more theoretical points

of view, which focus on how the simulation of linguistic capacity helps to understand

linguistic behaviour of natural languages (Tordera Yllescas, ). Considering, in addition,

the use or creation of computational models or tools that allow the computational process-

ing of natural languages, which should permit, a fortiori, that the language itself can serve

as an input for scientic research and/or formulation of programs that can be applied in

life, in society in general, thanks to the analysis of linguistic corpora in context (Molina

Mejía, ).

In this dierence of opinions, intermediate approaches have been found, such as that

of Moreno Sandoval (), who proposes the following applications: a) systems that try

to emulate the human capacity to process natural languages; b) programs to aid writing

and textual composition; and c) computer-assisted teaching and linguistic task support

systems (pp. -). is last group includes tools for managing and annotating linguistic

corpora, i.e., the work presented here. is list of applications can be extended with more

current functionalities, following Nerbonne () and Molina Mejía (): a) speech

recognition; b) speech synthesis; c) data mining; d) automatic completion systems in

smartphones; e) management of academic documents and databases; f) conversational

systems; g) automatic topic detection; h) automatic summarization; i) automatic document

classication, among others.

It is also common to nd that C omputational Linguistics is understood from its division

into theoretical and applied. eoretical Computational Linguistics deals with the con-

struction of linguistic abstractions that encompass both computer and natural language

phenomena, as well as the construction of algorithms that help model and test these ab-

stractions (Nerbonne, , p.). Applied Computational Linguistics is dedicated to the

construction of computer tools to manipulate language for dierent purposes (Nerbonne,

). e delimitation of these applications, as mentioned above, varies depending on the

authors, however some may be mentioned: a) automatic translation; b) information re-

trieval; c) human-machine interfaces; d) text analysis tools; e) lexicographic databases; f)

spelling, syntax, and style checkers; and g) educational programs for language teaching

(Moreno Sandoval, , pp. -).



Digital Humanities, Corpus and Language Technology

3.2. Corpus Linguistics

Corpus Linguistics is dened as a “methodology for languages and language research,

which allows empirical investigations to be carried out in authentic contexts” (Parodi,

, p.). Considering the empirical and authentic character indicated by this denition,

this methodology can be related to the functionalist model of linguistics, which seeks to

understand linguistic phenomena in real situations. is model is opposed to the genera-

tivist model, which is dedicated to theorizing about phenomena through linguistic intui-

tion (Baquero Velásquez, , p.; McEnery & Hardie, ).

s tasks that t within Corpus Linguistics, we can include the collection, processing and

analysis of large amounts of data representative of the use of the language or languages that

are assumed as object of study (Baquero Velásquez, ; Bernal Chávez & Hincapié More-

no, ; McEnery & Hardie, ). ere is, moreover, a marked interdisciplinarity in this

methodology, as it works both for the investigation of phenomena at any level of the lan-

guage and to help in meeting the objectives of dierent elds of Applied Linguistics (Par-

odi, , p.).

Given that authenticity, representativeness and interdisciplinarity have been such im-

portant aspects in working with corpora; the relationship that can be established between

Computational Linguistics and Corpus Linguistics becomes evident, since the former has

provided the necessary mechanisms for handling large amounts of data information and

its processing by various means (Baquero Velásquez, ; Bernal Chávez & Hincapié

Moreno, ; Parodi, ) and, on the other hand, the need for corpora that possess a

high level of quality and variety in discourses and textual typologies (Molina Mejía, ).

is relationship is even taken for granted nowadays, through authors who go so far as

to dene a corpus as a series of texts that can be processed by computers (McEnery &

Hardie, , p.). However, this relationship has not always been present, and in previous

times, such as the mid-twentieth century (Bernal Chávez & Hincapié Moreno, , p.)

and even the nineteenth century (Baquero Velásquez, ), it has been necessary to carry

out work with corpora manually. is implied enormous complications, since the more the

amount of data with which one works grows, the greater sums of time, money, eort, and

human capital are necessary, making some tasks unfeasible (Mitkov, , p.).

e help of computational means has therefore come to reduce the resources required

in these jobs and also the risk of human errors and loss of information. However, not all

languages have the appropriate tools to make use of these technologies, which places them

at a considerable disadvantage, insofar as it is not possible to carry out work of the same



magnitude with them as with languages that are more accessible to computer processing

(Baquero Velásquez, , p.).

3.2.1. What is a corpus?

e term corpus has already been used in the previous sections and, before continuing, it

is necessary to dedicate a few paragraphs to clarify its denition. We will start from the

proposal of Bernal Chávez and Hincapié Moreno (), for whom a corpus is a set of

digital texts that are collected and systemized following linguistic criteria. Note in this

denition the importance of computational means with respect to the need for texts to be

digital; in addition to this, it is also fundamental the fact that the collection and systemat-

ic organization of the corpus is done with respect to these linguistic criteria; this is the

main characteristic that distinguishes a corpus from any other collection of texts.

For its part, Parodi () proposes a more specic list of characteristics that can guide

us in understanding what a perfect corpus is:

 Collection of texts in natural environments.

 Explicitly of the dening features shared by the constituent texts.

 Final plain digital type format (*.txt) for each text or document.

 Size, preferably large.

 Respect for ecological principles.

 Semi-automatic computational tagging or annotation of a morphosyntactic or other

nature for each text.

 Availability through computational means.

 Access to complete visualization of the texts that compose it in plain format.

 Search for principles of proportionality or representativeness (possibly statistical).

 Livelihood or initial provenance specied.

 Identication of an organization around themes, types of texts, registers, genres, etc.

 Record of quantitative data that allows the comparison and possible normalization of

gures (p.).

 And to comply with all these elements at the same time, but that the importance of each

one can vary depending on the specic objectives of each collection of texts (p.).

In these characteristics, the need for computational processing is also evident, as well as

the need to make explicit the features shared by the texts; this may or may not be part of a

tagging or annotation, which is also part of the above list. With this in mind, an important

part of corpus work is usually the enrichment of textual information with other types of



Digital Humanities, Corpus and Language Technology

information that provides clarity about the underlying linguistic notions. is process is

known as tagging, and it will be the object to be dealt with in the next section.

3.3. Corpus Annotation

e construction of a corpus is a process that goes through dierent phases, which include

its design, data capture, storage system planning and text processing (Bernal Chávez &

Hincapié Moreno, , p.). Within this last step is a process called annotation.

A clearer denition of corpus annotation can be found in the work of McEnery and

Hardie (): “[…] is largely the process of providing —in a systematic and accessible

form— those analyses which a linguist would, in all likelihood, carry out anyway on what-

ever data they worked with” (p.). It is very important to take into account, from this

denition, the fact that the data included in the tagging are those that a linguist could ex-

tract from the collected texts, that is, the linguistic information that is implicit within the

use of language and that it must be made visible in a systematic way so that it can be rec-

ognized and processed by computer programs.

To achieve this systematic way of describing the information, specialized languages are

used in tagging, which help to assign dierent types of values to each of the elements of

the text, depending on what is to be said about them. Some of these languages are XML

(Extensible Markup Language), HTML (HyperText Markup Language) and GML (Gener-

alized Markup Language), as Bernal Chávez and Hincapié Moreno (, p.) explain.

JSON (JavaScript Object Notation) language and some standardized formats such as TEI

(Text Encoding Initiative) are also used very frequently, according to Molina Mejía ().

us, the result of a tagging process is usually a text in a format dierent from the original,

in which part of its implicit information is made visible.

e information that could be included in corpus annotation can be as wide as the

elements that play a role in communication are dierent and as varied as the objectives that

each researcher has when planning the construction of the corpus. In this sense, there is

great freedom in choosing what will be explicit in the tags of a corpus. However, in current

work it is possible to note that some forms of tagging have become standardized.

Two common types of annotations are the syntactic parsing, which focuses on analysis

of the functions that each word fulls in the syntax of the sentence (Parodi, , p.) and

the POS (Part-of-Speech) tagging, also known, following Mitkov (), as morphological

or lexical annotation. Although the term part-of-speech refers to something specic, this

type of tagging usually presents, in addition to this data, information on gender, number,

case, tense, mood, aspect and person (p.).



ere are dierent approaches to perform this task. For McEnery and Hardie (,

p.), a corpus can be tagged manually, automatically or an automatic process followed by

a manual review. e application of these methods may vary in their margin of error and

in the time and eort to be devoted to tagging, but as will be seen below, their choice de-

pends on how easy it is for a researcher to access automatic tagging methods in a given

language.

3.4. Under-Resourced Languages

Considering the aforementioned concepts, the importance of having properly compiled

and annotated corpora is evident, as well as the availability of tools for automatic language

processing in the studies that can be carried out in a given language (Pemberty Tamayo,

). us arises the concept of Under-Resourced Languages, which can be dened as

the set of languages that do not have the computer resources for their automatic process-

ing, as well as the lexicographic and corpus inputs that would serve as the basis for the

construction of these tools (Krauwer, ).

A denition can also be found in a series of criteria proposed in the works of Krauwer

() and Berment (), which propose the tools that a language must have in order to

be considered as having a basic level of access to computational linguistics technologies.

Languages that lack several of these elements are thus considered to be Under-Resourced

Languages:

a Lack of a single writing system or a stable spelling.

b Limited presence on the web.

c Lack of experts in Linguistics.

d Lack of electronic resources for speech and language processing.

e Lack of monolingual corpus.

f Lack of electronic bilingual dictionaries.

g Lack of transcribed oral corpus.

h Lack of pronunciation dictionaries and vocabularies.

As Maxwell & Hughes (, p.) mention, the availability of such tools in a language,

coupled with other extralinguistic factors, can greatly inuence a researcher’s decision to

work with it. is means that the lack of tools makes research in some languages less fre-

quent and, therefore, the creation of the same tools could be slow and dicult. e avail-

ability of these elements, at the same time, makes dierent applications of information and

communication technologies, such as machine translation or digital dictionaries, available



Digital Humanities, Corpus and Language Technology

to speakers of the language. at is why lling the gap in terms of tools for computational

processing in these languages is not only an academic interest, but also benets the com-

munities in which the language is spoken (Pemberty Tamayo, ).

Based on all the topics explored in this section, the need for tools for corpus tagging in

Under-Resourced Languages is evident. e UnderRL Tagger tool (Pemberty Tamayo et

al., ) proposes, through Computational Linguistics, a system that allows manual tag-

ging of large amounts of texts in dierent languages, with the help of the computer, which

provides the facility to speed up the process by a signicant proportion. is process can

also produce content that can be reused to annotate other corpora in the same language

and serve as a basis for the creation of applications that allow the fully automatic tagging

of texts (Pemberty Tamayo, ; Pemberty Tamayo et al., ).

4. Methodological Framework

Before describing the methodology through which this soware is built, it is necessary to

explain some elements that have served to frame it in a standard that facilitates its use in

the current environment.

Taking into account that the main objective of the application has been selected as the

POS level in tagging, the use of the EAGLES tag system (Leech & Wilson, ) was ac-

cepted for this purpose, which allows coding information such as grammatical category,

gender, number, etc., in a brief way, through dierent numbers and letters. An example is

shown below:

Table 1. Example of EAGLES tags for a Spanish sentence.

I BUY 

PP1CSN0 VMIP1S0 NCMS000

e table above shows how EAGLES tags are used to specify the information for each of

the words. However, these series of letters and numbers must be converted into a markup

language that can be computationally processed and parsed. To achieve this goal, the pro-

gram uses the XML language, which allows assigning individual elements within a series

of dening characteristics. us, in this language the corresponding tag can be assigned to

each of the text components. Both the EAGLES tags and the XML language correspond to

standards widely used in the corpus tagging environment, so their use guarantees under-

standing by a wide variety of researchers in the eld, as well as easy integration with pre-

vious projects or work that may have been carried out.



4.1 Description of the program structure

e UnderRL Tagger soware interface consists mainly of a window that can be interacted

with to navigate between corpus les, set tags and save or retrieve previous sessions. is

window constantly interacts with other les and folders that record everything necessary

to make the tagging process as ecient and correct as possible.

One of the folders is used by the system to store the data of the dierent dictionaries

that are created. e dictionary is a le in which the tags that can be reused in a given

corpus are stored, so that it is not necessary to re-enter them manually.

Another important location is the folder where the XML les containing the already

tagged texts are stored; this folder is automatically created in the same directory as the

original corpus texts. In addition, there is also a set of les that record at all times which

annotation projects are running and what their progress is; so, it is easy to interrupt the

tagging task at any time and come back to it later.

From here, the program can enter all the texts that make up the corpus, which must be

in plain text format (*.txt) and UTF- encoding, in which the computer will recognize a

wide variety of characters. All of them must be stored in a single folder, the address of which

will be entered in the application.

Once the texts are available, the soware will proceed to go through each of them, as

selected by the user, and perform a process that consists of separating the text by words. Once

the words have been separated, the main window shows the user each one of them, allowing

the user to select more than one when necessary. For each word, the user can select, through

several controls, the characteristics of the word to be tagged and the program takes care of

representing them according to the EAGLES model. In addition, a space in the interface

permits the creation of new tags or the editing of the default ones; in this way it is possible to

expand the tagging possibilities according to the needs outside the POS. Finally, once a tag

has been established, the user can save it in the nal XML le, where it will be arranged with

the rest of the text, with its corresponding tag and a unique identier.

In addition to simply tagging the word, the user can choose to save that tag in the dic-

tionary, so that each time the same word appears in the corpus, it will be automatically

tagged without user intervention. is is how this soware helps to greatly automate an-

notation, as it allows human intervention to be reduced to the points where it is really

necessary. Each time the tagger encounters a new word, it looks it up in the dictionary

before displaying it on the screen, so the same text can go through considerable chunks

before requiring human attention.



Digital Humanities, Corpus and Language Technology

As a consequence of this procedure, the dictionary can be strengthened as the tagging

progresses, permitting for greater automation and also providing a le that can be used to

tag other texts in the same language or as a basis for other programs that require knowledge

of these notions for language processing.

When a user perceives that the tagging of a word cannot be automated because it may

present variations in its tags throughout the corpus, he can simply choose not to save it in

the dictionary, so that each time it appears he will be presented in the main window of the

interface and will be allowed to choose the tag he considers appropriate for each occasion,

as mentioned in Pemberty Tamayo ().

5. Analysis of the algorithms

UnderRL Tagger is a soware written in Python language that can be used for semi-auto-

matic tagging of POS in Under-Resourced Languages, putting the methods of Natural

Language Processing at the service of Corpus Linguistics, and allowing the tagging process

to be signicantly speeded up by automating several of its stages (Pemberty Tamayo, ;

Pemberty Tamayo et al., ).

When a user correctly enters the address of a folder containing the texts of a corpus,

the rst actions performed by the program are to verify the existence of the texts and to

create the les and folders necessary to store the records involved in the process (Figure ),

as described in the methodological framework.

Figure 1.  



All the information that the System stores in addition to the XML tagged texts is in folders

that must be in the same directory in which the program is running, and for this purpose

les are used that are also in plain text format, so that they can be easily read and modied

in case a mistake has been made, for example, by creating an erroneous tag in the dictionary.

Once these les have been prepared, the tool goes on to tag the texts. To exemplify what

will happen in each of the steps, we will take here the same sentence that is proposed in

the work from which this program arises. is fragment is an example of the Creole lan-

guage of the islands of San Andres (Colombia) and is shown below along with a brief

analysis (Table ):

Table 2. Description of the “Sentence A” (Pembert y, 2020, p.31).

Sentence A

Word  bwai gwain da di niu house

POS Article Name Verb Preposition Article Adjective Name

Translation The boy goes to the  house

Before showing the user the texts to be tagged and the diverse options, it is necessary that

the text is processed in a specic way. In previous sections it has been said that the text is

divided into words and categories are assigned to each of them. In this sense, it is impor-

tant to specify that the appropriate concept is not that of a word, but that of a token.

According to Mitkov (), a token is a minimal linguistic unit that can correspond to a

word, a number, or a punctuation mark. An important dierence between a token and a

word is that the latter remains a single element regardless of whether it appears several

times in one or in many texts, whereas the former corresponds to a single occurrence, so

each of them must be dierentiated in relation to the others. e process of dividing a text

into its component tokens is called tokenization.



Digital Humanities, Corpus and Language Technology

Figure 2.  

e soware checks the le system to see if there is previous information on the same text

so that it can be retrieved and continue where the work le o, as well as checking from

the rst token of the text if there is a set of tags for it in the dictionary, as can be seen in the

diagram above. Assuming that this is a new project that has no tags in its dictionary, the

result of this process will simply be the tokenized text.

It is also important to note that tokens are usually identied through the blank space

between two words; however, there are also many units that are made up of two or more

words separated by spaces that would be erroneous to tagged as distinct or non-conse cutive

tokens. ese units are called multi-token words and examples of them can be phrases or

some ways of referring to numbers (Mitkov, ). To annotate these units, the system

oers the possibility of chaining some tokens with others, being able to create a composite

unit between one element and the one that follows it.



All the checks seen in Figure  are performed automatically by the system, so for the

user only a moment passes between selecting a text to tag and the rst tokens and controls

to set the tags are displayed in the window.

Figure 3.  

e program presents the user with the rst token of “Sentence A” as well as others that are

useful for understanding the context in which each one appears, as shown in Figure .

Likewise, a series of drop-down lists are enabled for the user that will permit him to choose

between distinct categories that could be assigned to the token that is selected. From the

various selections, the tag will be created.

e diverse possibilities available to the user vary depending on the rst selection to be

made, that of the part of speech to be attributed to the token, from which the others are

derived. us, the amount of information required and its type change when one of these

categories is selected.

Once you have selected the appropriate items in the drop-down lists, click on the “Show

tag” button, which permits the user to visualize, in the text bar at the bottom, the tag that

has been created from the information entered and following the EAGLES system. In the

drop-down lists the options are expressed with words commonly used in the eld of Lin-

guistics, while the tag only shows its equivalent in the annotation system, as shown in the

previous image; in this way, it is not necessary for the user to be perfectly familiar with the

EAGLES tags to be able to use them, since the program takes care of establishing which

characters are necessary.

e user can already set that tag for that token; however, he be able also to edit it, in

case he needs to add additional information of interest for his work. us, the tagger per-



Digital Humanities, Corpus and Language Technology

mits researchers to create their own tags based on EAGLES or completely new ones, so it

could be used not only for URLs, but also in other languages to tag phenomena outside the

POS level. is exibility let the user to work according to the theory or linguistic approach

he prefers or needs.

ere are also two options to x the tag and bring it denitively to the output XML le.

e rst is “Simple Tag”, which takes whatever is on the bar where the tag appears and

xes it in the output le associated with that particular token and its ID number.

On the other hand, there is a button called “Fix on Dict”. It permits to x what is writ-

ten in the tag bar in the dictionary le associated to the selected token; besides that, it

performs the procedure of xing that occurrence of the token in the XML le.

is second option should only be applied when there is certainty that the same tag

could be used on all occasions when the same word or combination of words occurs in the

token. is can easily be applied to articles, punctuation marks, prepositions, or adverbs,

and even to most nouns, adjectives and verbs. is feeds the dictionary, which will be used

to automatically tag tokens that match the information it contains. For cases where the tag

may vary, the rst option will be used, as the absence of that tag in the dictionary will always

prompt the user to manually select the appropriate categories. An example dictionary le

is shown below:

Figure 4. Tokens and dictionar y entries (Pemberty Tamayo, 2020, p.38).

As shown in Figure , this le consists of several lines of text that associate each token with

the tag that has been assigned to it. e characters found at the beginning and in the mid-

dle of each line are used by the system to dierentiate these two elements. e dictionary

lookup consists of going through this set of alphabetically ordered lines and taking from

them the tag if a match is found, and then taking it to the output le.

By constantly repeating the process of feeding the dictionary with new tokens and tags

and allowing the tagger to automatically nd and x as many word occurrences as possible,

a signicant reduction in the eort required to have a fully XML tagged corpus is achieved.



Figure 5. Final XML example.

Finally, Figure  illustrates what “Sentence A” tagged with the UnderRL Tagger system

would look like in your output le. e XML le has an identication of the text in ques-

tion and all the tokens that make it up. For each of these tokens, the form information is

available, which is the exact way it appears in the text; tag, which is the annotation that was

established for it and an ID, which is a number that identies it and dierentiates it from

all other tokens in the text. is ID is composed of the letter “t”, an integer that refers to

the position of the token in the text and another integer that refers to the number of words

that make up the token, which varies in the case of multi-token words.

6. Conclusions and Perspectives

During this chapter we have seen how it is possible to use Natural Language Processing

applications in corpus tagging in languages that do not yet have access to automatic anno-

tation tools, making it possible that, through diverse processes, to achieve a part of what

would be enormously expensive if executed completely manually.

e UnderRL Tagger soware (Pemberty Tamayo et al., ), the tool described in the

previous pages, aims to bring URLa closer to information and communication technolo-

gies, as well as to facilitate to have them as an object of investigation. For all these reasons,

as we have seen in the theoretical framework of this chapter, the existence of computer

tools capable of processing and tagging corpora in these languages is of utmost importance.

us, through a window-based interface and simple controls, UnderRL Tagger enables a

highly computer-assisted and automated manual handling tagging pro cess, oering users the

possibility to adhere to international standards in the eld of Corpus Linguistics, choose their

own tagging system and even annotate outside the POS with any other desired phenomena.

Similarly, it allows the management of dictionary les that can be used in the future to further

tag texts in the same language or share them with other researchers. Finally, it is important



Digital Humanities, Corpus and Language Technology

to note that this soware is freely available and can be found in the repository of the main

author of this work: https://github.com/jluispemberty/UnderRlTagger.

References

Anthony, L. (). TagAnt (Version .. )[Computer Soware]. Waseda University. http://www.

laurenceanthony.net/soware/tagant/

Baquero, J. M. (). Lingüística computacional aplicada. Universidad Nacional de Colombia.

Beaudouin, V. (). Statistical Analysis of Textual Data: Benzécri and the French School of Data

Analysis. Glottometrics, .

Berment, V. (). Méthodes pour informatiser les langues et les groupes de langues “ peu dotées ”

[PhD esis, Université Joseph-Fourier - Grenoble I]. https://tel.archives-ouvertes.fr/tel-



Bernal, J., & Hincapié, D. (). Lingüística de corpus. Instituto Caro y Cuervo.

Besacier, L., Barnard, E., Karpov, A., & Schultz, T. (). Automatic speech recognition for under-

resourced languages: A survey. Speech Communication, , -.

Biber, D., & Finegan, E. (). On the Exploitation of Computerized Corpora in Variation Studies.

In English Corpus Linguistics (pp. -). Routledge.

Brezina, V. (). Statistics in corpus linguistics: A practical guide. Cambridge University Press.

Buseman, K., & Buseman, A. (). Field Linguist’s ToolBox (Version ..). SIL International. https://

soware.sil.org/toolbox/

El-Haj, M., Kruschwitz, U., & Fox, C. (). Creating language resources for under-resourced

languages: Methodologies, and experiments with Arabic. Language Resources and Evaluation,

(), -.

Grajales Ramírez, A. & Molina Mejía, J. (). Problemática actual del procesamiento computacional

anafórico: el caso de FreeLing .. Lenguaje, (S), -.

Jones, C. & Waller, D. (). Corpus Linguistics for Grammar: A Guide for Research. Routledge.

Krauwer, S. (). e basic language resource kit (BLARK) as the rst milestone for the language

resources roadmap. In Proceedings of SPECOM  (pp. -).

Le, V.-B., & Besacier, L. (). Automatic speech recognition for under-resourced languages:

Application to Vietnamese language. IEEE Transactions on Audio, Speech, and Language

Processing, (), -.

Leech, G., & Wilson, A. (). EAGLES recommendations for the morphosyntactic annotation of

corpora. Istituto di Linguistica Computazionale http://www.ilc.cnr.it/EAGLES/annotate/

node.html

Maxwell, M., & Hughes, B. (). Frontiers in linguistic annotation for lower-density languages. In

T. Baldwin, F. Bond, A. Meyers, & S. Nariyama (Eds.), Proceedings of the workshop on frontiers

in linguistically annotated corpora  (pp. -). Association for Computational Linguistics.

https://aclanthology.org/W-

McEnery, T., & Hardie, A. (). Corpus Linguistics. Edinburgh University Press.

McEnery, T., & Hardie, A. (). e history of corpus linguistics. e Oxford handbook of the history

of linguistics, , .

Mitkov, R. (). Outstanding Issues in Anaphora Resolution. In A. Gelbukh (Ed.), Computational

Linguistics and Intelligent Text Processing (pp. -). Springer.

Mitkov, R. (). e Oxford Handbook of Computational Linguistics. OUP Oxford.



Mitkov, R. (). Anaphora Resolution. Routledge.

Moe, R. (). FieldWorks Language Explorer .. SIL Forum for Language Fieldwork -. SIL

Forum for Language. https://www.sil.org/resources/publications/entry/

Molina Mejía, J. M. (). Lingüística computacional y de corpus: teorías, métodos y aplicaciones.

Editorial Universidad de Antioquia.

Moreno Sandoval, A. (). Lingüística computacional: Introducción a los modelos simbólicos,

estadísticos y biológicos. Editorial Síntesis.

Nerbonne, J. (). Linguistic Challenges for Computationalists. In N. Nicolov, Recent Advances in

Natural Language Processing IV. Selected papers from RANLP  (pp. -). John Benjamins

Publishing.

Padró, L., Collado, M., Reese, S., Lloberes, M., & Castellón, I. (). Freeling .: Five years of open-

source language processing tools. In N. Calzolari, K. Choukri, B. Maegaard, J. Mariani, J. Odijk,

S. Piperidis, M. Rosner, & Daniel Tapias (Eds.), th International Conference on Language

Resources and Evaluation (pp. -). European Language Resources Association (ELRA).

Parodi, G. (). Lingüística de corpus: De la teoría a la empiria. Iberoamericana.

Pemberty Tamayo, J. L. (). Concepción y elaboración de un sistema de etiquetado semiautomático

para under-resourced languages [trabajo de grado, Universidad de Antioquia]. Grupo de Estudios

Sociolingüísticos]. Repositorio Institucional Universidad de Antioquia. https://bibliotecadigital.

udea.edu.co/handle//

Pemberty Tamayo, J. L. & Molina Mejía, J. M. (). UnderRL Tagger: Concepción y elaboración

de un sistema de etiquetado semiautomático para Under-Resourced Languages. In J. M. Molina

Mejía, P. Valdivia Martin & R. A. Venegas Velásquez (Eds.), Actas III Congreso Internacional de

Lingüística Computacional y de Corpus - CILCC  y V Workshop en Procesamiento

Automatizado de Textos y Corpus - WoPATeC  (pp. -). Universidad de Antioquia.

Pemberty Tamayo, J. L.; Molina Mejía, J. M. & Marín Morales, M. I. (). UnderRL Tagger (Versión

.) [Soware]. Corpus Ex Machina, Universidad de Antioquia.

Pemberty Tamayo, J. L.; Molina Mejía, J. M. & Vallejo Zapata, V. J. (). UnderRL Tagger: un

etiquetador gramatical para lenguas infrasoportadas tecnológicamente y lenguas minoritarias.

Forma y Función, (). https://doi.org/./fyf.vn.

Poesio, M., Stuckardt, R., & Versley, Y. (). Anaphora Resolution. Springer.

Rogers, C. (). Review of eldworks language explorer (ex) .. Language Documentation &

Conservation, , -.

Sáiz Noeda, M. (). Inuencia y aplicación de papeles sintácticos e información semántica en la

resolución de la anáfora pronominal en español. Procesamiento del lenguaje natural, , -.

Scannell, K. P. (). e Crúbadán Project: Corpus building for under-resourced languages.

Building and Exploring Web Corpora: Proceedings of the rd Web as Corpus Workshop, , -.

Schmid, H. (). TreeTagger-a language independent part-of-speech tagger. https://www.cis.uni-

muenchen.de/~schmid/tools/TreeTagger/

Schuster, S. & Manning, C. D. (). Enhanced English Universal Dependencies: An Improved

Representation for Natural Language Understanding Tasks. In LREC .

Straka, M. & Straková, J. (). Tokenizing, POS Tagging, Lemmatizing and Parsing UD . with

UDPipe. In J. Hajič, D. Zeman (Eds.), Proceedings of the CoNLL  Shared Task: Multilingual

Parsing from Raw Text to Universal Dependencies (pp. -). Association for Computational

Linguistics. https://aclanthology.org/K-

Tognini-Bonelli, E. (). Corpus Linguistics at Work. John Benjamins Publishing.



Digital Humanities, Corpus and Language Technology

Tordera Yllescas, J. C. (). Lingüística computacional: Tecnologías del habla. Publicacions de la

Universitat de València.

Wallis, S. (). Statistics in Corpus Linguistics Research: A New Approach. Routledge.

Wilks, Y. (). Corpus Linguistics and Computational Linguistics. International Journal of Corpus

Linguistics, (), -.

Zeroual, I. & Lakhouaja, A. (). Data Science in Light of Natural Language Processing: An

Overview. In J. Boumhidi, P. Érdi, Y. Ghanou, E. H. Nfaoui, & Y. Oubenaalla (Eds.), Procedia

Computer Science  (pp. -). https://doi.org/./j.procs...

ResearchGate has not been able to resolve any citations for this publication.

ResearchGate has not been able to resolve any references for this publication.

Digital Humanities, Corpus and Language Technology: A look from diverse case studies.

Recommended publications

Digital Humanities, Corpus and Language Technology: A look from diverse case studies.

Problemática actual del procesamiento computacional anafórico: el caso de FreeLing 4.1

UnderRL Tagger: a free software for Under-Resourced Languages POS tagging

Hacia un dispositivo informático basado en Corpus para la Enseñanza del Español Lengua Extranjera (D...