BookPDF Available

Digital Humanities, Corpus and Language Technology: A look from diverse case studies.

Authors:
Digital Humanities, Corpus and
Language Technology
Humanidades Digitales, Corpus
y Tecnología del Lenguaje
Editors
Andrés Grajales Ramírez
Jorge Molina Mejía
Pablo Valdivia Martin
DATA SCIENCE, CULTURE
& SOCIAL CHANGE
Digital Humanities, Corpus and Language Technology
Humanidades Digitales, Corpus y Tecnología del Lenguaje
Digital Humanities, Corpus and Language Technology: A look from diverse
case studies is an outstanding collection of research contributions that
explores the intersection of technology and the humanities. The authors
provide a comprehensive overview of how these technologies can
enhance research across various disciplines, from literature to history to
anthropology. This book is a must-read for anyone interested in future
research in the humanities. Digital Humanities, Corpus, and Language
Technologies are rapidly growing fields that have the potential to
revolutionize research across various disciplines. New technologies have
opened up new perspectives for research, allowing scientists to analyze
data in previously impossible ways. The interdisciplinary approach and
practical applications make it an invaluable resource for researchers,
students, and anyone interested in the intersection of technology and
the humanities.
Andrés Grajales Ramírez is a Hispanic
philologist from the University of Antioquia
(Colombia) and holds a Masters degree
in Cinematografía from the University of
Córdoba (Spain).
Jorge Molina Mea is an associate professor
in the area of linguistics at the University
of Antioquia, professor of computational
linguistics and Spanish as a foreign language,
coordinator of the research group Corpus
Ex Machina, he is part of the Committee of
the Doctorate in Linguistics of the Faculty of
Communications and Philology (University of
Antioquia).
Pablo Valdivia Martin is Chair-Full
Professor of European Culture and Literature
(University of Groningen), Accreditated
Full Professor [Catedrático Universidad]
of Arts and Humanities (ANECA, Spain),
Associate in Applied Physics at Harvard
Paulson School of Engineering and Applied
Sciences (Harvard University), Academic
Director of the Netherlands Research School
for Literary Studies (OSL), Scientific Advisor
of the Netherlands Institute of Advanced
Studies in Social Sciences and Humanities
and the Netherlands Royal Academy of Arts
and Sciences (NIAS-KNAW), Coordinator
Research Theme Group Data Science,
Culture & Social Change at Research Centre
for the Study of Democratic Cultures and
Politics (DemCP, RUG), Co-Editor of the
Routledge Companions to Hispanic and
Latin American Studies and Research Fellow
Corpus Ex Machina” Research Group
Incubator (UdeA).
Digital Humanities, Corpus and Language Technology
Humanidades Digitales, Corpus y Tecnología del Lenguaje
Digital Humanities, Corpus and
Language Technology
A look from diverse case studies
Humanidades Digitales, Corpus
y Tecnología del Lenguaje
Una mirada desde diversos casos
de estudio
Editors
Andrés Grajales Ramírez
Jorge Molina Mejía
Pablo Valdivia Martin
Published by University of Groningen Press
Broerstraat 
 CP Groningen
e Netherlands
In co-edition with Facultad de Comunicaciones y Filología, Universidad de Antioquia (Colombia)
First published in the Netherlands ©  Andrés Grajales Ramírez, Jorge Molina Mejía and Pablo Valdivia
Martin (eds.)
is book has been published open access thanks to the nancial support of the Open Access Book Fund
of the University of Groningen.
Additionally, we are grateful for the nancial support of OSL (e Netherlands Research School for Liter-
ary Studies).
Cover design: Bas Ekkers
Typesetting: LINE UP boek en media bv | Mirjam Kroondijk
ISBN (print) 
ISBN (ePDF) 
DOI https://doi.org/./cbed
is work is licensed under the Creative Commons Attribution-NonCommercial-ShareAlike . International
License. e full licence terms are available at creativecommons.org/ licenses/by-nc-sa/./legalcode
International Scientic-Editorial Committee
To the team that oversaw the academic and scientic evaluation of the chapters that make up this
book: ank you very much for your eort, willingness, and knowledge.
Comité Cientíco-Editorial Internacional
Al equipo que se encargó de evaluar académica y cientícamente los capítulos que componen este
libro: Muchas gracias por su esfuerzo, disposición y conocimientos.
Dra. Lirian Astrid Ciro. Universidad del Valle, Colombia.
Dr. Carlos A. Mayora Pernía. Universidad del Valle, Colombia.
Dra. Irina Kostina. Universidad del Valle, Colombia.
Dr. Jorge Mauricio Molina Mejía. Universidad de Antioquia, Colombia.
Dra. Ana María Agudelo Ochoa. Universidad de Antioquia, Colombia.
Dr. Ricardo Cedeño Montaña. Universidad de Antioquia, Colombia.
Dr. Juan David Martínez Hincapié. Universidad de Antioquia, Colombia.
Mg. María Isabel Marín Morales. Universidad de Antioquia, Colombia.
Mg. Laura M. Quintero Montoya. Universidad de Antioquia, Colombia.
Mg. Juan E. Hincapié Atehortúa. Universidad de Antioquia, Colombia.
Dr. George E. Dueñas Luna. Universidad Nacional, Colombia.
Dr. Fabio A. González Osorio. Universidad Nacional, Colombia.
Dr. Jhon Williams Montoya Garay. Universidad Nacional, Colombia.
Dra. Bell Manrique Losada. Universidad de Medellín, Colombia.
Dr. Andrés Lombana Bermúdez. Ponticia Universidad Javeriana, Colombia.
Dr. Sergio Jiménez Vargas. Instituto Caro y Cuervo, Colombia.
Dr. Pablo Valdivia Martin. University of Groningen, Países Bajos.
Mg. Juan Albá Durán. University of Groningen, Países Bajos.
Dr. René A. Venegas Velasquez. Ponticia Universidad Católica de Valparaíso, Chile.
Dr. Ricardo Martínez-Gamboa. Universidad Diego Portales, Chile.
Dr. Fernando M. Carranza. Universidad de Buenos Aires, Argentina.
Dr. César Antonio Aguilar. Instituto de Investigaciones en Educación de la Universidad Veracruzana,
México.
Dr. Miguel Fuster Márquez. Universitat de València, España.
Dr. Diego A. Burgos Herrera. Wake Forest University, Estados Unidos de América.
Dra. Emmanuelle Esperança-Rodier. Université Grenoble Alpes, Francia.
Mg. Norman D. Gómez Hernández. Johannes Gutenberg-Universität Mainz, Alemania.
Series:
Data Science, Culture & Social Change
is collection is a joint editorial eort between the research groups Data Science, Culture and Social
Change of the University of Groningen and the research incubator group Corpus ex Machina of the
Universidad de Antioquia. e relationship between these universities has grown stronger in recent
years and this collection aims to continue the production of knowledge from a modern, interdisci-
plinary and multicultural perspective. e ‘Data Science, Culture and Social Change’ series will
provide a collaborative space for an international network working within and across dierent elds
(digital humanities, educational innovation, cultural analytics, computational and corpus linguistics,
discourse analysis, political science, computer science, etc.).
Table of Contents
Preface 
Introduction 
Introducción 
Part I Digital Humanities 
Chapter I
Understanding Outsider Art in the context of Digital Humanities 
Entender el Arte Outsider en el contexto de las Humanidades Digitales
John Roberto & Brian Davis
Chapter II
La Biblioteca Virtual de la Filología Española (BVFE) y su acervo hispanoamericano 
e Biblioteca Virtual de la Filología Española (BVFE) and its Hispanic American heritage
Jaime Peña Arce & M. Ángeles García Aranda
Chapter III
De dos bases de datos relacionales a una base de datos XML. El proyecto COMREGLA 
From two relational databases to an XML one. Project COMREGLA
Eveling Garzón Fontalvo, Berta González Saavedra, José Ignacio Hidalgo González, Iván López Martín,
Alberto Pardal Padín, Guillermo Salas Jiménez & Cristina Tur
Chapter IV
Análisis del epistolario del coronel Anselmo Pineda con Python: una mirada al proyecto
coleccionista y al territorio desde las redes sociales y el aprendizaje automático 
Analysis of Colonel Anselmo Pineda’s epistolary with Python: a glance to the collecting project
from the study of the territory and social networks
Santiago Alejandro Ortiz Hernández
Digital Humanities, Corpus and Language Technology
Part II Corpus construction 
Chapter V
Desarrollo de un corpus de atlas lingüísticos 
Development of a corpus of linguistic atlases
Carolina Julià Luna
Chapter VI
The C-ORAL-BRASIL proposal for the treatment of multimodal corpora data: the BGEST
corpus pilot project 
La propuesta del C-ORAL-BRASIL para el tratamiento de datos multimodales en corpus: el
proyecto piloto del corpus BGEST
Camila Barros & Heliana Mello
Chapter VII
Las tecnologías del lenguaje y las lenguas indígenas mexicanas: constitución de un corpus
paralelo amuzgo-español 
Human language technology and the indigenous languages in Mexico: the Amuzgo-Spanish
parallel corpus
Antonio Reyes Pérez & H. Antonio García Zúñiga
Chapter VIII
Methodological bases: the construction of a corpus for the detection of deception and
credibility assessment 
Bases metodológicas: la construcción de un corpus para la detección de mentiras y la
evaluación de la credibilidad
Pedro Eduardo Hernández Fuentes
Chapter IX
Türkisch für Anfänger
a partir de las fórmulas rutinarias de saludo 
rkisch für Anfänger: proposal of a corpus of modern colloquial German, exemplied from
routine phrases for greetings
Karen Lorena Baquero Castro
Table of Contents
Chapter X

English online in Colombia 
CLEC - Corpus Colombiano de Aprendices de Inglés: primer corpus de producción escrita de
aprendices de inglés en Colombia disponible en línea
María Victoria Pardo Rodríguez & Antonio Jesús Tamayo Herrera
Part III Corpus analysis and Natural Language Processing 
Chapter XI
Pronunciation of consonant clusters in Spanish speakers based on the Czech read
speech corpora 
La pronunciación de los grupos de consonantes en hispanohablantes basándose en el corpus
oral leído checo
Kateřina Pugachova & Jitka Veroňková
Chapter XII
Relacionando los análisis cualitativo y cuantitativo. Una propuesta de modelo estadístico
predictivo para completar la descripción compleja de los verbos cognitivos 
Relating qualitative and quantitative analysis. A predictive statistical model proposal to
complete the complex description of cognitive verbs
M. Amparo Soler Bonafont
Chapter XIII

Sustainable Development Goals 
Uso de redes Bayesianas para el análisis de corpus de problemas locales relacionados con los
Objetivos de Desarrollo Sostenible
Manuel Caro Piñeres & Ernesto Llerena García
Chapter XIV
Correlación entre la metáfora orientacional bueno es arriba / malo es abajo y polaridad
positiva/negativa en verbos del español: un estudio con estadística de corpus 
Correlation between the orientational metaphor    /    and positive/
negative polarity in Spanish verbs: a study with corpus statistics
Benjamín López Hidalgo, Irene Renau & Rogelio Nazar
Chapter XV
UnderRLPOS tagging 
UnderRL Tagger: un soware libre para etiquetar POS en Under-Resourced Languages
José Luis Pemberty Tamayo & Jorge Mauricio Molina Mejía

Preface
Pablo Valdivia Martin
University of Groningen – Netherlands
When discussing with colleagues and students about the change in the paradigm that we
are witnessing in the Humanities, we oen nd it challenging to dene the fundamental
elements of our discussion. In this regard, it is more important than ever to nd common
ground and a baseline for starting the dialogue in the Humanities from wherever we, ter-
minologically, are. One of the goals of this book is to provide a shared territory where it
will be easier to move, get inspired, and move forward together. erefore, we must ask
ourselves critical questions and oer tentative working frameworks. Despite commonly
and regularly using the term Digital Humanities, it sometimes seems dicult to agree on
what we call Digital Humanities. us, under the context of this volume, I suggest a work-
ing denition of Digital Humanities as an interdisciplinary eld that applies computation-
al methods and tools to study human culture and society. It encompasses various disci-
plines, such as literature, history, art, music, linguistics, philosophy, and more. Digital
Humanities aims to enhance our understanding of human expression and experience
through analyzing, visualizing, and preserving digital data.
Additionally, when I refer to the term Corpus Studies, also crucial in this book, I opt
for a broad denition encompassing a large and structured collection of texts or other forms
of data that are representative of a language or a domain. Corpus Studies is essential for
Digital Humanities because it provides the raw material for various types of analysis, such
as text mining, sentiment analysis, topic modeling, stylometry, and more. Corpus Studies
can also help us discover new patterns, trends, and insights not readily observable in indi-
vidual texts or sources.
Furthermore, Language Technologies, another notion pillared in this volume, are un-
derstood in the context of these pages as a branch of articial intelligence that deals with
the processing and generation of natural language. Language Technologies enable us to
interact with computers using natural languages, such as speech recognition, machine
translation, and chatbots. Language Technologies also facilitate analyzing natural language
data, such as natural language understanding, generation, information extraction, summa-

Digital Humanities, Corpus and Language Technology
rization, and many more, which are well assessed and reected in the pages of the present
volume.
is book presents examples and applications of how these scientic areas can enrich
our knowledge and appreciation of human culture and society. Moreover, this book will
inspire new generations of scholars to explore the possibilities and challenges of Digital
Humanities in their research and teaching practices.
erefore, the research present in the chapters of this volume contributes to exploring
new avenues regarding the cross-/inter-/multi-disciplinary intersections between the Dig-
ital Humanities, Computational Cultural and Literary Studies, and Computational Lin-
guistics. From its very conception, this book results from a joint eort between the Uni-
versity of Antioquia and the University of Groningen and a rm belief in the cross-cutting
domain nature of cultural and literary studies and how interdisciplinary approaches to
everyday challenges, as recently brought up to the light by the UNESCO “Knowledge
Driven Actions (), it an essential toolkit for the engineering of our future.
Every chapter has been rigorously evaluated by academic peers who are experts in one
of the varied elds of knowledge in this volume. is book will be a valuable resource for
researchers, students, and anyone interested in the broadly so-called “digital turn” and the
Humanities. I thank the authors who contributed to this book and the academic peers who
reviewed their work. I would also like to thank our colleagues at the University of Antioquia
and the University of Groningen for their support in bringing this project to fruition.
Digital Humanities, Corpus, and Language Technologies are rapidly growing elds that
have the potential to revolutionize research across various disciplines. New technologies
have opened up new perspectives for research, allowing scientists to analyze data in previ-
ously impossible ways.
e rst part of this book is devoted to Digital Humanities. is section includes chap-
ters on digital storytelling, data visualization, and text mining. ese contributions demon-
strate how Digital Humanities can enhance research in various elds, from literature to
history to anthropology. For example, one chapter discusses how digital storytelling can
be used to teach history. e authors argue that students can better understand historical
events and their signicance using multimedia elements such as images, videos, and audio
recordings. Another chapter discusses how data visualization can be used to analyze liter-
ary texts. e authors demonstrate how visualizing patterns in language use can reveal
insights into literary style and authorship.
e second part of this book focuses on linguistic corpora construction. A corpus is a
collection of texts for linguistic analysis. Corpus-based research has become increasingly

Preface
popular in linguistics because it allows researchers to analyze large amounts of data. is
section includes contributions to corpus annotation, corpus design, and corpus-based lan-
guage teaching. Another chapter discusses how corpus-based research can study language
change over time. e authors demonstrate how analyzing changes in word frequency over
time can reveal insights into linguistic evolution. While another contribution discusses
how corpus-based language teaching can improve second language acquisition. e au-
thors argue that exposing learners to authentic language use through corpora can develop
more naturalistic language skills.
is book’s third part explores projects with corpus analysis and natural language pro-
cessing as the main areas of interest. Computational linguistics studies how computers can
process natural language data, while natural language processing is the application of com-
putational techniques to analyze and understand human language. is section includes
contributions to machine translation, named entity recognition, and text classication. For
example, one of the chapter studies how machine learning can improve sentiment analysis.
e authors demonstrate how training a machine learning algorithm on a large corpus of
annotated data can improve its ability to classify sentiment accurately in new texts. Other
scholars made substantial advancements in how named entity recognition can extract in-
formation. is book overviews current Digital Humanities, Corpus, and Language Tech-
nologies research. It demonstrates how these elds can enhance research across various
disciplines. e conversation is now open. e data revolution has already changed every-
thing. How would this inform the Humanities of tomorrow? is very question remains
open, and yet its overwhelming and unattainable challenge is one of the most scientic
quests that our generation must provide an answer to. e pages of this book are a modest
but robust eort to create and nd new paths.
Prof. dr. Pablo Valdivia
Academic Director Netherlands Research School for Literary Studies (OSL)
Chair-Full Professor European Culture and Literature – University of Groningen

Introduction
Jorge Molina Mejía & Andrés Grajales Ramírez
Universidad de Antioquia – Colombia
Digital Humanities, Corpus and Language Technology: a look from diverse case studies” is
a title that takes up, in an innovative way, three elds of knowledge that are combined in
this research book, which is the result of a joint editing work between the University of
Antioquia and the University of Groningen. It is important to note that in the present time
and context, it is of utmost importance to elaborate works that have interdisciplinary stud-
ies as a north and, in this sense, the work that we present below has the vocation to address
current works in these three aspects, always with a view from the computer science and its
application in the eld of human and social sciences, and all this from an inter-university
perspective. We have also decided to present the dierent chapters of this compendium in
Spanish and English, so that they can be consulted by students and researchers who speak
both languages. All this is based on the fact that the book we present here has been pro-
duced between two institutions in which the most widely used languages are Spanish and
English. Nevertheless, from a global perspective, our intention is that the chapters pub-
lished here will reach a large part of the researchers who use either of these two languages
in their research and teaching process.
is book presents several case studies where the relationship between Digital Human-
ities and Language Technology and its application in linguistic corpora is evident. As pre-
viously anticipated, Digital Humanities can contribute to the creation and analysis of lin-
guistic corpora thanks to the use of new technologies and tools that allow greater
eciency and precision in Natural Language Processing. On the other hand, the study of
corpora can help to discover patterns and trends in linguistic data that would be dicult
to detect using traditional methods, which benets the Digital Humanities. New technol-
ogies and digital tools allow today to complement each other, through greater eciency
and precision in the processing and understanding of human languages. From this mo-
ment, it can be glimpsed that the future of these disciplines is highly promising, as they
have begun to play an important role in research and studies, and is expected to continue
to grow. As the current era advances and new developments emerge, language technologies

Digital Humanities, Corpus and Language Technology
become more sophisticated, so there will be new opportunities, but also new challenges in
these elds.
Currently, it is common for work related to these topics to be focused on elds such as
literature, history, linguistics, sociology, etc. However, it is expected that, in the future, the
Digital Humanities and the analysis of linguistic corpora will be able to extend their appli-
cations to even more diverse disciplines, such as digital anthropology, computational ar-
chaeology, cultural studies or music. is will make it possible to address and investigate
a wide range of human phenomena from a digital approach. is is quickly evidenced by
the recent advancement of articial intelligences and machine learning, with which Natu-
ral Language Processing and corpus analysis are expected to become even more accurate.
is will open new possibilities for linguistic, philological, and other studies, allowing
researchers to perform more in-depth analysis, with more subtle pattern detection. Simi-
larly, access to corpora of texts and data is expected to become increasingly easier, as with
the rise of digital libraries, data repositories, and information gathering and storage tools,
researchers will have access to an ever-increasing number of digital resources to analyze,
which will greatly expand research possibilities.
In summary, the future of Digital Humanities, Corpus Studies, and Language Technol-
ogy, all put together, demonstrates an inevitable expansion of their application in various
disciplines, whereby the advancement of natural language processing techniques and ac-
cess will be ever-increasing. ese advances promise an exciting future within these disci-
plines, giving them a major role in future research, especially in the study of the Humani-
ties in the digital environment. e possibilities and applications of these disciplines are
just beginning to be visualized, but there will be more to come and explore. A revolution
that is now focused on the “awakening” of AI, but that in the future may be something we
did not see coming.
is book is therefore subdivided into three main parts, the rst of which is devoted to
Digital Humanities and the use of new technologies for dierent aspects of the human and
social sciences. e second part deals with research works related to the compilation, char-
acterization, or construction of linguistic corpora. Finally, the third part explores projects
based on corpus analysis and natural language processing. All the chapters presented here
have been rigorously evaluated by academic peers, experts in some of the elds of knowl-
edge mentioned here. We will now present each of the parts and their respective chapters.
In the rst part of this work, we can nd four chapters, which deal with topics about
digital humanities such as: visual arts, online libraries, relational databases for the study of
classical Greek and Latin, and the use of Python in epistolary analysis.

Introduction
Chapter I has been co-written by Professors John Roberto and Brian Davis and is en-
titled “Understanding Outsider Art in the context of Digital Humanities. is chapter pre-
sents the Outsider Art project, which aims to present a group of very innovative artists who
are called “outsiders”, who are usually marginalized aesthetically and socially due to their
psychiatric condition, as well as homeless people, prison inmates, people with disabilities,
migrants, and ethnic minorities. is is how this project arises, which aims to propose an
automatic discovery of the semantic limits of outsider art in the context of digital human-
ities. Methodologically, this proposal is based on three tasks: a) the collection of a corpus
of outsider art; b) generate a large dataset of digital images about this type of art; and c)
build the rst ontology of this art.
Chapter II deals with “e Virtual Library of Spanish Philology (BVFE) and its Hispan-
ic-American heritage, and has been co-written by professors Jaime Peña Arce and María
Ángeles García Aranda. is work has a double objective: on the one hand, to publicize the
Library of Spanish Philology, which is a portal that gathers a large number of linguistic
works related to Spanish, which can be accessed freely and free of charge. Secondly, the
authors seek to investigate the Hispanic American component of its collection, with the
purpose of reecting on all that has been done and what still remains to be done.
In Chapter III, “From two relational databases to an XML database. e COMREGLA
project, co-written by a group of researchers attached to higher education centers in Spain:
Eveling Garzón Fontalvo, Berta González Saavedra, José Ignacio Hidalgo González, Iván
López Martín, Alberto Pardal Padín, Guillermo Salas Jiménez and Cristina Tur. In this
chapter the authors present a series of modications and adaptations made on two rela-
tional bases of the REGLA project (REction and Complementation in Ancient Greek and
Latin) whose emphasis is on verbal predications. It is important to emphasize that the
purpose of the changes introduced is to make the information contained in the database
compatible with other automatic language processing tools and to provide analyses that go
beyond the nuclear and basic predications, that is, towards full texts. In order to enable the
respective analyses, the researchers have created a new annotation standard that allows to
reect the richness of morphological, syntactic, semantic and lexical information; all this
allows to account for the very recursion of language and to enrich the analysis with labels
for linguistic components not studied before.
In Chapter IV, Santiago Alejandro Ortiz Hernández proposes the work called “Anal-
ysis of the correspondence of Colonel Anselmo Pineda with Python: a look at the collector
project and the territory from social networks and machine learning. is chapter analyzes
the collecting of Colonel Anselmo Pineda during the nineteenth century in Colombia,

Digital Humanities, Corpus and Language Technology
based on his voluminous epistolary preserved in the National Library of Colombia. To this
end, the author proposes a mixed methodology that combines the traditional close reading
and a distant reading carried out from the machine thanks to techniques of data science
and geographic information systems implemented thanks to the Python language. is
approach has two main objectives: a) to discover the colonel’s method of collecting docu-
ments by examining the comp osition of his network of collaborators reconstructed through
his personal correspondence, all based on digital humanities and digital history; and b) to
explore the spatial scope of this network of collaborators, which should make it possible
to evaluate the spatial dimension in the formation of the Pineda library within the civiliz-
ing project of the nascent republic in New Granada.
e second part has to do with corpus linguistics, in this sense, six chapters were re-
ceived, in which important topics such as: linguistic atlas corpora, the study of multimod-
al corpora applied to the Brazilian oral language, the study of Mexican indigenous languag-
es, lie detection and credibility assessment based on corpora specially designed for this
purpose, linguistic corpora that allow the study of colloquial German language, and a
corpus of learners of English as a Foreign Language.
Chapter V, entitled “Development of a corpus of linguistic atlases, is a proposal by
Professor Carolina Julià Luna. In this chapter, the author presents some characteristics and
functionalities of this type of computer tools, in which data from various regional linguis-
tic atlases of European Spanish are stored. e purpose of all this is to conserve the linguis-
tic heritage, to serve as a source for the dissemination of variation and richness in the
language and, nally, to help complement the data from textual corpora and lexicograph-
ic works that help to expand research on linguistic change and the history of the Spanish
language.
Chapter VI deals with “e C-ORAL-BRASIL proposal for the treatment of multimodal
data in corpus: the pilot project of the BGEST corpus, a work proposed by Professors Cami-
la Barros and Heliana Mello. According to the authors, this chapter discusses methodolog-
ical issues associated with the collection and processing of multimodal data, especially
those related to the predominant role of action. e main objective of the chapter is to
connect the organization of the structure of information, based on the union of the eo-
ry of Language in Action and the concept of spatial-motor packaging. At the end, the au-
thors will show us the crucial role of prosody in the informational categories of L-AcT and
its impact on the interpretation of gestures.
Chapter VII, co-written by Antonio Reyes Pérez and Antonio García Zúñiga, is entitled
Language technologies and indigenous Mexican languages: constitution of an Amuzgo-Span-

Introduction
ish parallel corpus. is proposal describes the particularities of the construction of the
rst Amuzgo-Spanish parallel corpus, which represents a real source of data for scientic
research in the eld of language, as well as for the development of resources and tools for
languages that are scarcely represented and in danger of disappearing.
Chapter VIII deals with the “Methodological Bases: the construction of a corpus for the
detection of lies and the evaluation of credibility” and is the work of Pedro Eduardo Hernán-
dez Fuentes. In this chapter it is possible to access the meta-analytical approaches that show
that verbal information is a reliable indicator that allows to identify lies or to evaluate the
credibility of a testimony. For this purpose, the author shows a work based on a linguistic
corpus that has been developed thanks to a transdisciplinary perspective between linguis-
tics and psychology.
In Chapter IX, “Türkisch für Anfänger: proposal of a corpus of modern colloquial Ger-
man, exemplied from routine phrases for greetings, Karen Baquero Castro builds a specif-
ic corpus of German from more than , lines of dialogue from the German television
series Türkisch für Anfänger. e aim of this corpus is to optimize the process and accom-
paniment in the teaching and learning of German as a foreign language. In order to exem-
plify its usefulness and use, the corpus focuses on the formulas used in the series, more
precisely on the greeting formulas. ese are analyzed by the author from a didactic per-
spective and appealing to the analysis of linguistic corpora that consider the context in
order to favor the teaching-learning process by means of authentic texts.
Finally, among these works on corpus construction, we have chapter XCLEC - Co-
lombian Learner English Corpus: rst learner corpus of written production in English online
in Colombia, which deals with the study of Professor M. Victoria Pardo and Professor
Antonio Tamayo, both Colombians, on the constitution of a corpus called CLEC. is
would be the rst corpus on English learners, based on written texts produced by the
learners themselves, from Colombia, and accessible through the website of the TNT re-
search group of the University of Antioquia. It is a corpus of more than , words that
is fully labeled to classify the types of errors made by learners, as well as the level of the
learner. e chapter shows the criteria used for the collection of CLEC, respecting the
guidelines of corpus linguistics and learner corpus. us, in this corpus, learners’ errors
can be consulted, and this phenomenon can be studied by teachers and researchers, who
can contribute new texts, as well as by those interested in learning and studying English as
a foreign language.
e third and last part also deals with works in the eld of corpus linguistics, but from
a perspective more related to analysis and its methods, in which computational linguistics

Digital Humanities, Corpus and Language Technology
and Natural Language Processing (NLP), as well as statistical analysis, are oen used. is
section is made up of ve chapters.
us, Chapter XI, entitled “Pronunciation of consonant clusters in Spanish speakers
based on the Czech read speech corpora, and written by Czech researchers Kateřina
Pugachova and Jitka Veroňková, presents a study that aims to determine which Czech
consonant clusters are dicult to pronounce for Spanish speakers and which are the most
frequent sound changes due to dierences in syllable structure between these two languag-
es. A set of consonant clusters in initial, middle, and nal positions of words was select-
ed. Seventy-ve words cont aining the target consonant clusters were included in a coherent
text written in Czech (of words). e study provides useful information for improving
the teaching of Czech to native speakers of Spanish.
Continuing with the analyses on specic corpora, in Chapter XII, “Relating qualitative
and quantitative analysis. A predictive statistical model proposal to complete the complex
description of cognitive verbs, M. Amparo Soler Bonafont (Spain) presents a proposal for
a predictive statistical model to complete the complex description of cognitive verbs, spe-
cically performative forms. e model designed allows us to recognize, with a high degree
of explanatory power, the meanings, and pragmatic functions of polysemous and polyfunc-
tional units such as “creo”. Moreover, the model can be replicated in other texts and genres
in which similar epistemic units may appear.
In Chapter XIII, “Use of Bayesian networks for the analysis of corpus of local problems
related to the Sustainable Development Goals, Caro Piñeres and Moreno García, from the
University of Córdoba (Colombia), present a sentiment analysis study based on Bayesian
networks in a corpus related to social problem solving. It exemplies the use of Bayesian
networks for data analysis, modeling, and decision support in various domains. e need
for techniques and tools that automatically construct Bayesian networks from massive text
or bibliographic data is discussed, especially in relation to the United Nations-led Sustain-
able Development Goals (SDGs). e paper also discusses the collection and analysis of
textual information to build Bayesian networks, as well as the limitations and challenges
associated with this technique. e objective is to describe the process of collecting, organ-
izing, annotating, and validating a corpus of more than , descriptions of problems
related to SDG compliance in three regions of Colombia. e main outcome of the study
was the creation of a large digital corpus of descriptions of problems related to SDG com-
pliance in these three regions. In addition, the potential of the corpus was evaluated through
the application of a Bayesian network algorithm, which produced a high rate of correct
answers.

Introduction
Chapter XIV welcomes us to the study on the correlation between the orientational
metaphor    /    and positive/negative polarity in Spanish
verbs. is study, entitled “Correlation between the orientational metaphor    /
   and positive/negative polarity in Spanish verbs: a study with corpus statistics
and conducted by colleagues from the Ponticia Universidad Católica de Valparaíso
(Chile), seeks to test the relationship between vertical orientation and polarity in Spanish
orientational metaphors. Ten Spanish verbs with ‘up’/‘down’ meaning were selected and
their association was measured in corpus concordances with lexical units with ‘posi-
tive’/‘negative’ meaning, labeled by means of a polarity lexicon. e results of the study
indicate that there is a relationship between vertical orientation and positive or negative
polarity in real contexts of use of the units of analysis. is makes it possible to test empir-
ically and by means of corpus statistical methods the orientational metaphor on a linguis-
tic level. With this it can be stated, with a high degree of certainty, that verbs with a sense
of ‘up’ will tend to be part of sentences in which a ‘positive’ sense will be expressed, and
verbs with a sense of ‘down’ will tend to be included in sentences with a ‘negative’ sense.
Finally, a dierent and innovative study in the eld of language processing is the work
of José Luis Pemberty, accompanied and advised by J. Molina Mejía, editor of this volume.
is Chapter XV, “UnderRL Tagger: a free soware for Under-Resourced Languages POS
tagging, presents a free soware that allows morphologically annotating (POS) under-re-
sourced languages (Under-Resourced Languages). With this model, the process can be
performed manually, but the algorithm can also be trained to gradually automate it. e
output format uses the EAGLES tags in XML, with the intention of making it possible to
process big data. is would provide a valuable computing resource for languages with few
native speakers or poorly studied languages.

Introducción
Jorge Molina Mejía & Andrés Grajales Ramírez
Universidad de Antioquia – Colombia
Humanidades Digitales, Corpus y Tecnología del Lenguaje: una mirada desde diversos casos
de estudio” es un título que retoma, de una manera innovadora, tres campos del conoci-
miento que se conjugan en el presente libro de investigación, el cual es fruto de un trabajo
conjunto de edición entre la Universidad de Antioquia y la Universidad de Groningen. Es
importante constatar que en la época y el contexto actuales resulta de suma importancia
elaborar obras que tengan como norte los estudios interdisciplinarios y, en este sentido, la
obra que presentamos a continuación tiene por vocación abordar trabajos actuales en estos
tres aspectos, siempre con una mirada desde la informática y de su aplicación en el campo
de las ciencias humanas y sociales, y todo ello desde una perspectiva interuniversitaria.
Hemos decidido, además, que los diferentes capítulos que hacen parte del presente com-
pendio se presenten en español y en inglés, esto con el n de que puedan ser consultados
por estudiantes e investigadores hablantes de ambas lenguas. Todo esto se fundamenta en
el hecho de que el libro que aquí presentamos se ha realizado entre dos instituciones en las
que las lenguas de mayor uso son el español y el inglés. No obstante, desde una perspecti-
va global, nuestra pretensión es que los capítulos aquí publicados lleguen a una gran parte
de los investigadores que emplean alguna de estas dos lenguas en su proceso investigativo
y de docencia.
El libro presenta diversos casos de estudio donde la relación de las Humanidades Di-
gitales con la Tecnología del Lenguaje y su aplicación en corpus lingüísticos es evidente.
Como se anticipó anteriormente, las Humanidades Digitales pueden aportar en la creación
y análisis de corpus lingüísticos gracias a la utilización de nuevas tecnologías y herramien-
tas que permiten una mayor eciencia y precisión en el Procesamiento del Lenguaje Na-
tural. Por otro lado, el estudio de corpus puede ayudar a descubrir patrones y tendencias
en los datos lingüísticos que serían difíciles de detectar mediante métodos tradicionales,
lo cual benecia a las Humanidades Digitales. Las nuevas tecnologías y herramientas di-
gitales permiten hoy en día complementarse, mediante mayor eciencia y precisión en el
tratamiento y comprensión de los lenguajes humano. Desde este instante, se puede vislum-

Digital Humanities, Corpus and Language Technology
brar que el futuro de estas disciplinas es altamente prometedor, pues han empezado a
desempeñar un papel importante en las investigaciones y los estudios, y se espera que siga
creciendo. A medida que se avanza y surgen nuevos desarrollos en la era actual, las tecno-
logías del lenguaje se tornan más sosticadas, por lo cual habrá nuevas oportunidades, pero
también nuevos desafíos en estos campos.
Actualmente, es común que los trabajos relacionados con estas temáticas se centren en
campos como la literatura, la historia, la lingüística, la sociología, etc. Sin embargo, se es-
pera que, en el futuro, las Humanidades Digitales y el análisis de corpus lingüísticos puedan
ampliar sus aplicaciones en disciplinas aún más diversas, tales como la antropología digital,
la arqueología computacional, los estudios culturales o la música. Lo cual va a permitir
abordar e investigar una amplia gama de fenómenos humanos desde un enfoque digital.
Esto rápidamente se evidencia en el reciente avance de las inteligencias articiales y el
aprendizaje automático, con lo que se espera que el Procesamiento del Lenguaje Natural y
el análisis de corpus se vuelvan aún más precisos. Esto abrirá nuevas posibilidades para los
estudios lingüísticos, lológicos y demás, permitiendo que los investigadores realicen aná-
lisis a más profundidad, con detección de patrones más sutiles. De igual manera, se espera
que el acceso a corpus de textos y datos sea cada vez más fácil, pues con el incremento de
las bibliotecas digitales, los repositorios de datos y las herramientas de recolección y alma-
cenamiento de información, los investigadores tendrán acceso a una cantidad cada vez
mayor de recursos digitales para analizar, lo cual ampliará enormemente las posibilidades
de investigación.
En resumen, el futuro de las Humanidades Digitales, el estudio de Corpus y la Tecno-
logía del lenguaje, todo puesto en relación, demuestra una inevitable expansión de su
aplicación en diversas disciplinas, por lo que el avance de las técnicas de procesamiento del
lenguaje natural y el acceso será cada vez mayor. Estos avances prometen un futuro emo-
cionante dentro de estas disciplinas, otorgándoles un papel principal en las investigaciones
venideras, sobre todo, en cuanto al estudio de las Humanidades en el entorno digital. Las
posibilidades y aplicaciones de estas disciplinas apenas se empiezan a visualizar, pero habrá
más por llegar y explorar. Una revolución que ahora tiene puesto el foco en el “despertar”
de las IA, pero que en el futuro puede tratarse de algo que no veníamos venir.
El presente libro se encuentra subdividido, por lo tanto, en tres grandes partes, la pri-
mera dedicada al tema de las humanidades digitales y la utilización de las nuevas tecnolo-
gías para diferentes aspectos de las ciencias humanas y sociales. En la segunda parte, se
abordan trabajos de investigación que tienen que ver con la compilación, caracterización
o construcción de corpus lingüísticos. Finalmente, la tercera propende por explorar pro-

Introducción
yectos que tienen como punto de apoyo el análisis de corpus y el procesamiento del len-
guaje natural. Todos los capítulos aquí presentados, han sido rigurosamente evaluados por
pares académicos, expertos en alguno de los campos de conocimiento aquí mencionados.
Pasaremos, a continuación, a presentar cada una de las partes y sus respectivos capítulos.
En la primera parte de la presente obra podemos encontrar cuatro capítulos, los cuales
versan sobre temas acerca de las humanidades digitales tales como: las artes visuales, las
bibliotecas en línea, las bases de datos relacionales para el estudio del griego y el latín clá-
sicos, y el empleo de Python en el análisis epistolario.
El capítulo I ha sido coescrito por los profesores John Roberto y Brian Davis, y lleva
por título “Entender el Arte Outsider en el contexto de las Humanidades Digitales. En este
capítulo se presenta el proyecto de Arte Outsider, el cual tiene como objetivo presentar a
un grupo de artistas muy innovadores que son los denominados “outsiders”, los cuales
normalmente se encuentran marginados a nivel estético y social debido a su condición
psiquiátrica, también de ser personas sin hogar, reclusos carcelarios, personas con disca-
pacidad, migrantes y minorías étnicas. Es así como surge este proyecto que tiene como
nalidad proponer un descubrimiento automático de los límites semánticos del arte out-
sider en el contexto de las humanidades digitales. Metodológicamente, esta propuesta se
fundamenta en tres tareas: a) la recopilación de un corpus de arte outsider; b) generar un
gran conjunto de datos de imágenes digitales sobre este tipo de arte; y c) construir la pri-
mera ontología de este arte.
El capítulo II versa sobre “La Biblioteca Virtual de la Filología Española (BVFE) y su
acervo hispanoamericano, y ha sido coescrito por los profesores Jaime Peña Arce y María
Ángeles García Aranda. En este trabajo parte de un doble objetivo, por un lado, dar a co-
nocer la Biblioteca de la Filología Española, la cual se constituye como un portal que reco-
ge una gran cantidad de obras lingüísticas relacionadas con el español, a las que se puede
acceder de forma libre y gratuita. En segundo lugar, los autores buscan indagar en el com-
ponente hispanoamericano de su acervo, con el propósito de recapacitar sobre todo aque-
llo que se ha hecho y lo que aún queda por hacerse.
En el capítulo III, “De dos bases de datos relacionales a una base de datos XML. El
proyecto COMREGLA, coescrito por un grupo de investigadores adscritos a centros de
educación superior de España: Eveling Garzón Fontalvo, Berta González Saavedra, José
Ignacio Hidalgo González, Iván López Martín, Alberto Pardal Padín, Guillermo Salas Ji-
ménez y Cristina Tur. En este capítulo los autores presentan una serie de modicaciones y
adaptaciones efectuadas sobre dos bases relacionales del proyecto REGLA (REcción y com-
plementación en Griego Antiguo y Latín) cuyo énfasis se encuentra en las predicaciones

Digital Humanities, Corpus and Language Technology
verbales. Resulta importante destacar que la nalidad de los cambios introducidos se en-
marcan en el proyecto COMREGLA conduce a que la información contenida dentro de la
base de datos sea compatible con otras herramientas de tratamiento automático del len-
guaje y que provea análisis que vayan más allá de las predicaciones nucleares y básicas, es
decir, hacia las de textos completos. Con el n de permitir los respectivos análisis, los in-
vestigadores han creado un nuevo estándar de anotación que permite reejar la riqueza de
la información morfológica, sintáctica, semántica y léxica; todo ello permite dar cuenta de
la propia recursividad del lenguaje y enriquecer el análisis con etiquetas para componentes
lingüísticos no antes estudiados.
En el capítulo IV, el profesor Santiago Alejandro Ortiz Hernández propone el trabajo
denominado “Análisis del epistolario del coronel Anselmo Pineda con Python: Una mirada
al proyecto coleccionista y al territorio desde las redes sociales y el aprendizaje automático”.
En dicho capítulo se analiza el coleccionismo del coronel Anselmo Pineda durante el siglo
XIX en Colombia, a partir de su voluminoso epistolario conservado en la Biblioteca Na-
cional de Colombia. Para tal n, el autor propone una metodología mixta que combina la
tradicional lectura cercana y una lectura distante efectuada a partir de la máquina gracias
a técnicas propias de la ciencia de datos y los sistemas de información geográca imple-
mentados gracias al lenguaje Python. Esta manera de proceder busca dos grandes objetivos:
a) poder descubrir el método de recopilación de documentos del coronel al examinar la
composición de su red de colaboradores reconstruida mediante su correspondencia per-
sonal, todo ello basado en las humanidades digitales y la historia digital; y b) explorar el
alcance espacial de esa red de colaboradores, lo que debería posibilitar la evaluación de la
dimensión espacial en la conformación de la biblioteca Pineda al interior del proyecto ci-
vilizatorio de la naciente república en Nueva Granada.
La segunda parte tiene que ver con la lingüística de corpus, en este sentido se recibieron
seis capítulos, en los cuales se abordan temas tan importantes como: los corpus de atlas
lingüísticos, el estudio de corpus multimodales aplicados a la lengua oral brasileña, el es-
tudio de lenguas indígenas mexicanas, la detección de mentiras y la evaluación de la cre-
dibilidad a partir de corpus especialmente diseñados para tal n, corpus lingüísticos que
permiten el estudio del alemán coloquial, y un corpus de aprendices de inglés como lengua
extranjera.
El capítulo V, que lleva por título “Desarrollo de un corpus de atlas lingüísticos, es una
propuesta de la profesora Carolina Julià Luna. En este capítulo, su autora presenta algunas
características y funcionalidades de este tipo de herramientas informáticas, en la que se
almacenan datos provenientes de diversos atlas lingüísticos regionales del español europeo.

Introducción
Todo ello, tiene como nalidad que se pueda conservar el patrimonio lingüístico, que
puedan servir como fuente de divulgación de la variación y la riqueza en el lenguaje y, -
nalmente, que ayuden a complementar los datos procedentes de corpus textuales y de obras
lexicográcas que ayuden a ampliar las investigaciones sobre el cambio lingüístico y la
historia de la lengua española.
En el capítulo VI se aborda “La propuesta del C-ORAL-BRASIL para el tratamiento de
datos multimodales en corpus: el proyecto piloto del corpus BGEST, un trabajo propuesto
por las Profesoras Camila Barros y Heliana Mello. Según las autoras, en este capítulo se
discuten cuestiones metodológicas asociadas a la recopilación y al tratamiento de datos
multimodales, especialmente a aquellos ligados al papel preponderante de la acción. El
objetivo principal del mismo es el de conectar la organización de la estructura de la infor-
mación, a partir de la unión de la Teoría de la lengua en Acto y el concepto de empaque-
tado espacio-motor. Al nal, las autoras nos mostrarán el papel crucial que adquiere la
prosodia en las categorías informacionales de la L-AcT y su impacto en la interpretación
de los gestos.
El capítulo VII, coescrito por Antonio Reyes Pérez y Antonio García Zúñiga, lleva por
título “Las tecnologías del lenguaje y las lenguas indígenas mexicanas: constitución de un
corpus paralelo amuzgo-español. En esta propuesta se describen las particularidades de la
construcción del primer corpus paralelo amuzgo-español, el cual representa una fuente de
datos reales para la investigación cientíca en el campo del lenguaje, particularmente, así
como en lo que respecta al desarrollo de recursos y de herramientas para lenguas escasa-
mente representadas y en peligro de desaparición.
El capítulo VIII tiene que ver con las “Bases metodológicas: la construcción de un corpus
para la detección de mentiras y la evaluación de la credibilidad, y es obra de Pedro Eduardo
Hernández Fuentes. En este capítulo es posible acceder a los acercamientos metaanalíticos
que muestran que la información verbal es un indicador conable que permite identicar
mentiras o evaluar la credibilidad de un testimonio. Para ello, el autor muestra un trabajo
fundamentado en un corpus lingüístico que ha sido desarrollado gracias a una perspectiva
transdisciplinaria entre lingüística y psicología.
En el capítulo IX, “Türkisch für Anfänger: propuesta de un corpus del alemán coloquial
actual, ejemplicado a partir de las fórmulas rutinarias de saludo, Karen Baquero Castro
construye un corpus especíco de alemán a partir de más de   líneas de diálogo de la
serie de televisión alemana Türkisch für Anfänger. El objetivo de este corpus es optimizar
el proceso y el acompañamiento en la enseñanza y aprendizaje del alemán como lengua
extranjera. Se centra entonces, para ejemplicar su utilidad y uso, en las fórmulas de tra-

Digital Humanities, Corpus and Language Technology
tamiento allí presentes, más precisamente en las fórmulas de saludo. Estas son analizadas
por la autora desde una perspectiva didáctica y apelando al análisis de corpus lingüísticos
que tengan en cuenta el contexto para favorecer la enseñanza-aprendizaje por medio de
textos auténticos.
Tenemos, por último, dentro de estos trabajos sobre construcción de corpus, el capí-
tulo X CLEC - Corpus Colombiano de Aprendices de Inglés: primer corpus de producción
escrita de aprendices de inglés en Colombia disponible en línea, en el cual se aborda el estu-
dio de la profesora M. Victoria Pardo y el profesor Antonio Tamayo, ambos colombianos,
sobre la constitución de un corpus llamado CLEC. Este consistiría en el primer corpus
sobre aprendientes de inglés, el cual se basa en textos escritos producidos por los mismos
aprendientes, provenientes de Colombia, y accesible por medio de la web del grupo de
investigación TNT de la Universidad de Antioquia. Es un corpus de más de   pa-
labras que se encuentra totalmente etiquetado para clasicar los tipos de errores que co-
meten los aprendientes, así como también el nivel del estudiante. El capítulo muestra los
criterios que se utilizaron para la recolección de CLEC, respetando las pautas de la lingüís-
tica de corpus y de corpus de aprendientes. Es así como en este corpus se pueden consultar
los errores de los aprendientes y estudiar este fenómeno tanto profesores e investigadores,
que pueden aportar textos nuevos, como interesados en aprender y estudiar el idioma inglés
como lengua extranjera.
La tercera y última parte aborda también trabajos en el campo de la lingüística de cor-
pus, pero desde una perspectiva más relacionada con el análisis y sus métodos, en el que a
menudo se valen de la lingüística computacional y el procesamiento del lenguaje natural
(PLN), como también del análisis estadístico. Esta sección se encuentra constituida por
cinco capítulos.
De esta manera, el capítulo XI, titulado “La pronunciación de los grupos de consonantes
en hispanohablantes basándose en el corpus oral leído checo, y escrito por los investigadores
checos Kateřina Pugachova y Jitka Veroňková, presenta un estudio que tiene como objeti-
vo determinar qué grupos de consonantes del checo son difíciles de pronunciar para los
hablantes de español y cuáles son los cambios de sonido más frecuentes debido a las dife-
rencias en la estructura silábica entre estos dos idiomas. Se seleccionó un conjunto de 
grupos de consonantes en posiciones iniciales, medias y nales de palabras. Se incluyeron
 palabras que contenían los grupos de consonantes objetivo en un texto coherente escri-
to en checo (de  palabras). El estudio proporciona información útil para mejorar la
enseñanza del checo a los hablantes nativos de español.

Introducción
Continuando con los análisis en corpus especícos, en el capítulo XII, “Relacionando
los análisis cualitativo y cuantitativo. Una propuesta de modelo estadístico predictivo para
completar la descripción compleja de los verbos cognitivos, M. Amparo Soler Bonafont (Es-
paña) nos presenta una propuesta de modelo estadístico predictivo para completar la des-
cripción compleja de los verbos cognitivos, especícamente las formas performativas. El
modelo diseñado permite reconocer con un elevado grado de explicatividad ante qué sig-
nicados y funciones pragmáticas de unidades polisémicas y polifuncionales como “creo”
nos encontramos. Además, el modelo es replicable en otros textos y géneros en los que
pueden aparecer unidades epistémicas similares.
En el capítulo XIII, “Uso de redes Bayesianas para el análisis de corpus de problemas
locales relacionados con los Objetivos de Desarrollo Sostenible, Caro Piñeres y Moreno Gar-
cía, de la Universidad de Córdoba (Colombia), presentan un estudio de análisis de senti-
miento basado en redes bayesianas en un corpus relacionado con resolución de problemas
sociales. Este ejemplica el uso de redes bayesianas para el análisis de datos, modelado y
apoyo a la toma de decisiones en varios dominios. Se discute la necesidad de técnicas y
herramientas que construyan automáticamente redes bayesianas a partir de textos masivos
o datos bibliográcos, especialmente en relación con los Objetivos de Desarrollo Sosteni-
ble (ODS) liderados por las Naciones Unidas. El documento también aborda la recopila-
ción y análisis de información textual para construir redes bayesianas, así como las limi-
taciones y desafíos asociados con esta técnica. El objetivo es describir el proceso de
recopilación, organización, etiquetado y validación de un corpus de más de   descrip-
ciones de problemas relacionados con el cumplimiento de los ODS en tres regiones de
Colombia. El resultado principal del estudio fue la creación de un gran corpus digital de
descripciones de problemas relacionados con el cumplimiento de los ODS en estas tres
regiones. Además, se evaluó el potencial del corpus mediante la aplicación de un algoritmo
de red bayesiana, que produjo una alta tasa de respuestas correctas.
El capítulo XIV nos da la bienvenida al estudio sobre la correlación entre la metáfora
orientacional    /    y la polaridad positiva/negativa en verbos
del español. Este estudio, titulado “Correlación entre la metáfora orientacional  
 /    y polaridad positiva/negativa en verbos del español: un estudio con
estadística de corpus” y realizado por los colegas de la Ponticia Universidad Católica de
Valparaíso (Chile), busca comprobar la relación entre la orientación vertical y la polaridad
en las metáforas orientacionales del español. Se seleccionaron verbos del español con
signicado ‘subir’/ ‘bajar’ y se midió su asociación en las concordancias del corpus con
unidades léxicas con signicado ‘positivo’/‘negativo, etiquetadas mediante un lexicón de

Digital Humanities, Corpus and Language Technology
polaridad. Los resultados del estudio indican que existe una relación entre la orientación
vertical y la polaridad positiva o negativa en contextos reales de uso de las unidades de
análisis. Esto permite comprobar empíricamente y mediante métodos de estadística de
corpus la metáfora orientacional en un nivel lingüístico. Con ello se puede armar, con un
grado elevado de certeza, que los verbos que presenten un sentido de ‘subir’ tenderán a
formar parte de frases en las que se expresará un sentido ‘positivo, y los verbos con sentido
‘bajar’ tenderán a estar incluidos en frases con sentido ‘negativo.
Por último, un estudio diferente e innovador en el ámbito del tratamiento del lenguaje
es el trabajo de José Luis Pemberty, acompañado y asesorado por J. Molina Mejía, editor
de este volumen. Este capítulo XV, “UnderRL Tagger: un soware libre para etiquetar POS
en Under-Resourced Languages, se presenta un soware libre que permite anotar morfo-
lógicamente (POS) lenguas de pocos recursos (Under-Resourced Languages). Con este
modelo se puede realizar de manera manual el proceso, pero, además entrenar el algoritmo
para paulatinamente ir automatizándolo. El formato de salida utiliza las etiquetas EAGLES
en XML, con la intención de que sea posible el tratamiento de grandes datos. De este modo,
se les aportaría un valioso recurso informático a lenguas de pocos hablantes nativos o
lenguas poco estudiadas.
Part I
Digital Humanities

C I
Understanding Outsider Art in the
context of Digital Humanities
Entender el Arte Outsider en el
contexto de las Humanidades
Digitales
John Roberto & Brian Davis
Dublin City University – Ireland
Abstract: This chapter introduces the Outsider Art Project. “Outsiders” are highly

-
grants and ethnic minorities. Because of the need to characterize outsider art on a
formal basis, this project is aimed at the automatic discovery of the semantic bound-
aries of outsider art in the context of digital humanities. From the methodological

corpus of outsider art, generating a large dataset of digital images about outsider art

Resumen: Este capítulo presenta el Proyecto de Arte Outsider. Los “outsiders” son
artistas muy innovadores que han sido marginados estética y socialmente debido a
su condición de pacientes psiquiátricos, personas sin hogar, reclusos, personas con
discapacidad, migrantes y minorías étnicas. Debido a la necesidad de caracterizar el
arte outsider de manera formal, este proyecto tiene como objetivo el descubrimien-
to automático de los límites semánticos del arte Outsider en el contexto de las hu-
manidades digitales. Desde el punto de vista metodológico, el Proyecto de Arte Out-
sider se organiza en torno a tres tareas: recopilar un corpus sobre arte outsider,
generar un gran conjunto de datos de imágenes digitales sobre arte outsider y con-
struir la primera ontología del arte outsider.
Understanding Outsider Art in the context of Digital Humanities

Digital Humanities, Corpus and Language Technology
1. Introduction
e world of art and culture can be divided into mainstream art and outsider art. Outsider
artists are highly creative people who have been marginalized because they have broken,
in some way, whether intentionally or not, rightly or wrongly, with the cultural conven-
tions, rules and codes established by a community. Hence, we are referring to people with
some form of physical, intellectual, or psychiatric disability, members of minority groups
and social mists involved in any artistic activity. Outsider artists oen employ obsessive
and repetitive patterns to represent disturbing themes such as sex and violence through
the use of unconventional materials.
Outsider art is a concept that cannot be dened in absolute terms. e word was coined
by Roger Cardinal in  as an English equivalent for the term ‘art brut’, which was creat-
ed around  by the French artist Jean Philippe Arthur Dubuet. Dubuet stated that
Art Brut was free from all social and cultural constraints because outsider artists are unfa-
miliar with the academic dogmas in which mainstream artists have been schooled. Accord-
ing to Professor Colin Rhodes, “as a category construction, ‘art brut’ was meant to highlight
a creative tributary that was not so much dierent in kind from mainstream art, but rath-
er in its lack of self-censorship or interest in following art world fashions” (C. Rhodes,
personal communication, December , ). roughout its history, the term outsider
art has been associated with very closed terms that focused on a specic dimension of the
notion. For example, the term ‘naïve art’ emphasizes the lack of formal training of some
artists, ‘neuve invention’ is used to refer to subversive and inventive artists, and ‘self-taught
art’ is a term which tries to avoid “the stigmas that some feel are attached to the Outsider
Art denition” (Raw Vision magazine). Oen, such denitions may end up in overlaps or
even fall into circular reasoning: “Art Brut means ‘Raw Art’” (Raw Vision magazine) and
“Outsider art is used to describe art that has a naïve quality” (the Tate website’s glossary).
In general, outsider art has always been the “other art”. For many in of the mainstream
art community, outsider art is considered an “anti-intellectual”, “anti-professional” and
“anti-academic” genre. Even, it is seen as “unsightly rubbish” by some art purists (Hernán-
dez, ). A signicant part of the artistic mainstream despises outsider art, partly because
its creators are seen to exist outside established culture and society, and partly because they
are artists with a disability or untrained artists. A prototypical example of an outsider
artist is Rodó. Rodó is a Latin American artist diagnosed with paranoid schizoaective
1 
2 
3 

Understanding Outsider Art in the context of Digital Humanities
disorder. He emigrated to Barcelona (Spain) in the late s, where he did not have an
easy life: he slept on the streets and begged for money. When Rodó was a child, he enjoyed
sculpting in clay and painting in oils. Nowadays, Rodó divides his time between his job as
a cleaner and painting with watercolours. However, the truth is that despite his talent, Rodó
has little hope of achieving fame.
From the analytical point of view, understanding outsider art is a considerable chal-
lenge, due to the large number of prejudices and misunderstandings surrounding the con-
ceptualization of this artistic style. Although marginalization is a common trait of the ar-
tistic and cultural worlds, the marginalization of outsiders is the rule. For example, abstract
expressionism was a mainstream movement dened by the machismo of its most repre-
sentative gures, Jackson Pollock and Willem de Kooning. e New York School – which
represented the abstract expressionists in America – rejected the painter Robert Rauschen-
berg for being gay and neglected the work of the American artist Lee Krasner for being a
woman. Hans Hofmann once said, with regard to a painting by Krasner: “so good you
would not know that it was done by a woman.” erefore, if gender inequality is predicta-
ble in mainstream art (Miller, ), then female outsider artists are discriminated against
both because they are women and because they are outsiders. Indeed, there also seems to
be a tendency towards the structural exclusion of women from the “canon” of outsider art.
In a show organized by the Hayward Gallery featuring the most prolic outsiders of the
last several decades, . were male and only . were female. However, what is particu-
larly poignant for outsider artists is that some of them would not even consider themselves
to be artists. An example is Barry Woo, who said the following when he was called an
artist: “I thought I was just a ‘schizophrenic’!”.
In this chapter we present the Outsider Art Project, an innovative research project that
applies digital technologies to the objective conceptualization of the artistic practices that
lie outside the mainstream art world. Analysing outsider art by computational means is
important for the characterization of a hermetic part of the world of creativity and, by
extension, of society. From a scientic point of view, outsider art is an entry point for un-
derstanding a number of complex and interdisciplinary issues such as the psychological
relationship between art and disability (Pettinari, ), how cultural (sociological) prod-
ucts are legitimated as art (Alexander & Bowler, ) and the philosophical role of artistic
artefacts in the reproduction of power and domination in our society (Sana et al., ),

case of outsider artists, anonymity protects them from social rejection.

Digital Humanities, Corpus and Language Technology
among others. is project will provide a better understanding of an art oen produced by
people who are socially and culturally marginalized by assigning semantic meaning to huge
amounts of textual and visual data.
is chapter is organized in ve sections, in addition to this introduction. Section 
discusses outsider art as a concept and describes its relationship to mainstream art. Section
deals with two main problems aecting the state of the art of scientic production in out-
sider art. Section  presents the methodological framework that we consider necessary to
understand outsider art. Sections  and  briey introduce the key resources with which
we work: the corpus, ontology and dataset of images. Finally, Section , presents our con-
clusions and summarizes the most salient points made in this chapter.
2. Outsider Art, a Bargaining Chip for Contemporary Art
Outsider art must be considered an extremely complex phenomenon in which dierent
“levels of reality” are present simultaneously. ere have been many attempts to dene
outsider art across the disciplines, though most of them have limited themselves to pre-
senting personal views and concerns about the concept without providing empirical evi-
dence or having a formal basis. For example, the New York Times journalist Roberta Smith
() attempted to dene the concept as “a somewhat vague, catchall term for self-taught
artists of any kind”. e critic, curator and writer Lyle Rexer (), in an attempt to char-
acterize the confusing terminology around the term, denes outsider art as art “created
under the conditions of a massively altered state of consciousness, product of an unquiet
mind”. Ramón Almela (), Ph.D. in Art, talks of “art created outside of conventional
circumstances”. David Davies () proposed a theoretical characterization of the artistic
status of outsider art on the basis of broader considerations regarding the philosophy of
art. Jerry Saltz () argues that outsider art does not exist at all, except as a discrimina-
tory boundary preventing untrained artists from taking their rightful places in the canon.
Linda Rainaldi () later examined American and European perspectives on outsider art,
focusing on biases, ideologies, and social factors, concluding that “I was no closer to artic-
ulating one comprehensive denition of outsider art”. Rebecca Homan, director of the
Outsider Art Fair, has her own, more general criteria: “I utilize the term ‘outsider art’ as an
umbrella for a lot of dierent categories” (Acosta, ).
e point here is that outsider art is culturally marginalized by mainstream art. us,
while mainstream artistic styles (e.g., cubism, realism, baroque or abstract) are usually
described on the basis of artistic criteria such as the use of the colour, shapes, space or

Understanding Outsider Art in the context of Digital Humanities
techniques, outsider styles are most frequently described on the basis of negative non-ar-
tistic criteria such as the mental condition or the lack of training of the artist. In the cases
in which aesthetic criteria were used, they tend to lead to a negative assessment of the works
of art. Paradoxically, in spite of this, “outsiders” are considered to be highly innovative
artists and the visibility of outsider art has increased dramatically in recent years. Even
more paradoxical is the fact that mainstream artists have found inspiration in the work of
their marginalized peers.
As a result, there is an unhealthy relationship between mainstream art and other forms
of art. Experienced artists, such as Paul Klee, Wassily Kandinsky, Pablo Picasso, Jean Dubuf-
fet, Max Ernst and André Breton, sought “inspiration” in the art of children, the art of
“primitive” societies, the art of madness, mass culture and even in totally unintentional art
such as that produced by animals. A well-documented story in this sense is that of the
British zoologist Desmond Morris, who sold paintings by a chimpanzee named Congo to
Salvador Dali, Pablo Picasso and Joan Miro. We also all know that Andy Warhol became a
huge inuence on popular culture by placing ordinary everyday items at the heart of his
work. He said, “I don’t think art should be only for the select few, I think it should be for
the mass of the American people.” With this in mind, Warhol turned art into a mass-pro-
duced commodity and the artist into a brand name. Max Ernst, who abandoned his stud-
ies in psychiatry at the University of Bonn for painting, was profoundly interested in the
“art of the insane” as a way to access primal emotion. Ernst was probably responsible for
bringing ar t brut into surrealism. Paul Klee wrote that “in our own time worlds have opened
up which not everybody can see into, although they too are part of nature. Perhaps it’s
really true that only children, madmen and savages see into them” (MacGregor J., ).
Joan Miró also turned to “extra-cultural art” for inspiration, including children’s art and
primitive and folk-art. Linda Ferrell () states that “Miró has not only made use of a
child’s color scheme, but he has added the child’s painting technique to the shapes and
motifs he has chosen and to his use of space and line.” Ferrell also argues that Jean Dubuf-
fet’s art shows a major inuence from the art of children. Specically, he used elements
from the artwork of children in the dawning realism stage, which marks the transition
between art as purely symbolic to art as a creative outlet. In the same vein, Heather Malin
() from Stanford University states that Wassily Kandinsky “gave special privilege to the
lack of purpose in children’s art making” and, in an article published by Sharla Ackles from
Colorado State University, she stated that:

Digital Humanities, Corpus and Language Technology
Most of the artists who have been inuenced by the art of the primitive have included the
art of children as an inuence. One of the artists who used children’s art as his main source
of inspiration was Paul Klee. He had great respect and enthusiasm for the work of children
(Ackles, ).
e case of outsider art is paradigmatic in this regard because there are those who believe
that outsider art has been used, reproduced and nally scrapped by mainstream art: “the
mainstream appropriates artifacts as art but then insists that they occupy a marginal or
degraded position” (Alexander & Bowler, ). As a result, there are mainstream artists who
draw “inspiration” from outsider artists. For example, in Figure we can see the similarities
and coincidences between an illustration by the Spanish illustrator Ricardo Cavolo (Fig-
urea) and a serigraphy by the outsider artist Antonio Roseno de Lima (Figureb). erefore,
the demarcation line between both artistic styles, outsider and insider, in terms of their
mutual inuence can be dicult to dene. Consider, for example, the case of the self-taught
artist Jean-Michel Basquiat, who has been directly classied by some art historians as an
outsider because of his use of found materials and the obsessive and repetitive use of symbols
in his work. Others, however, nd this idea disturbing because Basquiat’s work sells for mil-
lions. On the other hand, Jean Dubuet, who was greatly inspired by the work of the outsid-
er painter Adolf Wöli, completely embraced this style. Along the same lines, but regarding
the neural mechanisms regulating face and body perception in the work of the mainstream
artist Francis Bacon, researchers on neuroaesthetics at University College London stated that
“he [Bacon] subverted the normal neural representation of faces and bodies” (Zeki and Ishi-
zu, ), leading to produce a “visual shock” in the spectator (see Figurec). We can observe
a similar eect in the portraits of the outsider artist Jean-Marc Renault (see Figured) who
created “a dozen portraits of war victims who carry their physical deformation forever”
(Chernetska, ).
Apart from mainstream art, it is very surprising – or perhaps not – the extent to which
outsider art shares some common visual traits with the art of children. Figureshows how
both an outsider artist and a four-year old boy represent a human gure. Aside from the
dierences related to age, for instance the fact that the child has not introduced a baseline
to organize objects in space, both subjects share a common vision of some parts of the body
such as the feet, knees, waist (belt buckle), chest (right pocket), hands in pockets or arms
that are drawn close to the body and big eyes. Typically, the drawings of children and out-
siders are self-portraits and may be a realistic portrayal or an idealized image. In the case
of children, it is known that egocentric thinking plays a crucial role in the self-dening
process of four-year old boys and girls. In the case of outsiders, psychologists state that a

Understanding Outsider Art in the context of Digital Humanities
“preoperational features such as egocentric thinking and perception-bound reasoning have
been implicated in the association between schizotypy and creativity” (Winston et al.,
).
Figure 2. 
year old boy (Marginarte, 2019).
Figure 1. (a) Ricardo Cavolo’s illustration (Cavolo, 2021). (b) Bebado, serigraphy by the outsider artist
Antonio Roseno de Lima (Collection de l ’Art Brut, undated). (c) Francis Bacon, Self-Portrait
1969). (d) Jean-Marc Renault, Por trait no. 9 (Renault, 2018).
a cb d

Digital Humanities, Corpus and Language Technology
3. State-of-the-art in Outsider Art
Until now, outsider art has been analysed in the light of theoretical but not computation-
al models. According to the Scopus database, while  of the papers in computer science
dealing with artistic styles are about mainstream art (e.g., pop, conceptual, abstract and
street art), only  of papers are about outsider art. us, it is not uncommon to nd
papers on mainstream art describing a mathematical algorithm to produce abstract paint-
ings (Spann, ), on applying optical techniques with the aim of identifying similarities
and dierences between the th century painting Madonna della Cesta by Rubens and a
Piero Fevere tapestry (Dal Fovo, et al., ), on detecting the presence of grati art on
building facades using Deep Learning models (Novack et al., ), or on generating pop
art-like images from photographic images using binomial distribution methods (Hiraoka,
), among many others. However, this does not occur with outsider art, where we can
refer to only two works in computer science: Roberto & Davis () and Roberto et al.
(). We call this problem the computational gap.
On the other hand, although there are no studies in this regard, there are reasons to
think that less than  of the documents on outsider art are written in the rst person. is
is particularly strange considering that outsider artists are prone to expressing their feelings
in writing. In contrast to outsider art, it is not uncommon to nd papers on mainstream
art written by artists in the rst person. First-hand experience in ne art is a self-reexive
qualitative research method which foregrounds the artist’s subjectivity. By probing the
“artist’s intent” it is possible to improve dierent tasks such as the conservation of works
of art: “it seems that the conservation eld is opening up towards the use of writing in rst
person in art research” (Quabeck, ). e value of rst-person texts for ne art experts
is based on the generation of reliable knowledge by co-constructing (with the artists) in-
stead of reconstructing the experience of the artist. Unfortunately, the co-construction of
knowledge based on artists’ rst-hand experience is not frequent in the research on out-
sider art, probably because researchers do not consider the artists a reliable source of in-
formation. We call this problem the data imbalance problem.
It is therefore necessary to develop methodologies for describing outsider art based on
objective and formal knowledge, such as those provided by processes like digitization,
computation and the quantication of linguistic and graphic data. Natural Language Pro-
4 
conceptualization of disinterestedness (Ardery, 1997).

Understanding Outsider Art in the context of Digital Humanities
cessing and Machine Learning techniques play a signicant role in this task. But rst, it is
necessary to dene framework that support both approaches.
4. Methodological Framework for Understanding Outsider Art
e Outsider Art Project is being conducted within the framework of the digital humani-
ties. However, there are two behaviours which, according to the critics, should be avoided
in digital humanities projects. First, thinking that digital humanities is just “about intro-
ducing digital technologies where there were none before” (Brennan, ) and, secondly,
believing that it is possible to “reveal the secrets of complex social and cultural processes
through algorithmic computation. erefore, we are considering digital humanities as a
methodological framework in order to place outsider artists at the centre of the research
and to promote the development of digital infrastructures for the computational process-
ing of outsider art. Other aims, dierent to those already proposed, should be evaluated
on the basis of social and cultural criteria by attending to the voices of multiple stakehold-
ers and considering the complexity of the subject matter. e latter leads us to talk about
the transdisciplinary and multimodal nature of the Outsider Art Project.
According to dierent researchers such as Kemman (), “one of the dening char-
acteristics of digital humanities is its emphasis on interdisciplinary collaboration” between
disciplinary peers (research teams, faculties, laboratories and institutions). But describing
digital humanities as interdisciplinary practices places limitations on our research. at is
because of the possibility of collaborative work between scholars or “disciplinary peers”
ruling out the voice of underprivileged and marginalized groups, including outsider artists
(see “data imbalance problem” at Section ). As Martin and Runyon () recognise:
e digital humanities represent, for many researchers, the potential for extending their
research in terms of audience, scope, methods, and opportunity for interdisciplinary col-
laboration. Ideally, this potential should also extend access to cultural engagement and
preservation for marginalized groups.
In order to overcome the limitations associated with interdisciplinary research, we consid-
ered it more appropriate to adopt a transdisciplinary approach. Adopting a transdiscipli-
nary approach can inuence scientic agendas and change the dynamics of research by
promoting the participation of disadvantaged actors. Indeed, it is clear that social actors
other than researchers play a crucial role in transdisciplinary research. Transdisciplinary
research occurs when academics and non-academics contribute their dierent expertise
to understanding a problem holistically by developing a common intellectual framework

Digital Humanities, Corpus and Language Technology
that goes beyond particular perspectives. Seeking the collaboration of researchers and
non-academic actors in order to develop a common denition of a problem is a way to deal
with the complexity of real-world problems such as those referring to cultural marginali-
zation. erefore, in contrast to those who emphasise the interdisciplinary nature of the
digital humanities, we prefer to state that the digital humanities is a transdisciplinary eld.
is assertion is supported by bibliometric analyses such as those obtained by Yang et al.
() and Isemonger (). At the same time, one ought not to forget that in order to
resolve real world or complex problems, transdisciplinarity places the emphasis on human-
ities: “transdisciplinarity integrates the natural, social and health sciences in a humanities
context, and transcends their traditional boundaries” (Choi, ). A transdisciplinary
view of outsider art will enable us to make both societal and scientic advances by looking
at a problem from many angles and by involving both academics and marginalized artists.
In addition to the need to establish a transdisciplinary framework for the project, we
are aware of the fact that understanding outsider art depends on analysing both textual and
pictorial information. It is therefore necessary to have a multimodal model of semantics
that makes it possible to link textual information with its real-world counterpart, (digital)
cultural objects, and, as we shall see below, with emotional information too. is is not a
new approach, there are a number of voices arguing in favour of “visual digital humanities”:
Since there are several overlaps in epistemic cultures of visually oriented and digitally
supported research in art and architectural history studies, museology, and archaeology,
as well as cultural heritage, we introduce ‘visual digital humanities’ as novel ‘umbrella’ term
to cover research approaches in the digital humanities that are dependent on both consum-
ing and producing pictorial, rather than textual, information to answer their humanities
research questions (Münster and Terras, ).
e multimodality of digital cultural information arises from external and internal factors
from which outsider art is not exempt. First, this is due to the development of new Infor-
mation and Communications Technologies (ICTs) for creating and linking textual and
graphic information. ere are many tools for creating digital exhibitions that allow experts
to manage digital assets and create robust narratives and layouts for display online. For
example, Contentdm and OmekaS are publishing platforms for institutions interested in
connecting digital cultural heritage collections with other resources online. Digital tech-
nologies for cultural heritage have demonstrated their value by oering a virtual space in
which to build ideas collectively. Currently, dierent museums around the world are using
a number of digital technologies that allow the users to add digital content to cultural

Understanding Outsider Art in the context of Digital Humanities
items. is is the case of the GIFT Box, a set of apps that allow visitors to add new digital
content to a physical exhibit and ArchAIDE, a soware that automatically identies
archaeological ceramic fragments pieces thereby allowing experts to enter textual descrip-
tions about them. Obviously, this enormous amount of cultural data (texts, images and
audio) needs to be interpreted and contextualized in order to be useful.
e metaphorical meaning of cultural assets is the second reason to explain the multi-
modal digital humanities. is metaphorical meaning emerges from the symbolic nature
of feelings and emotions for both creators and viewers. On the one hand, cultural artefacts
are made by creators to be beautiful but also to express an important idea or feeling while,
on the other hand, viewers use their own experiences, views, and preferences to “under-
stand” cultural artefacts. As a result, heritage materials tend to be embedded in narratives
and analogies that can be interpreted by expert curators and interested lay persons. at
motivates us to think that the semantic enrichment of outsider art collections must be based
on models that integrate visual and emotional information, in addition to linguistic infor-
mation. Empirical work on semantic processing has shown that integrating both forms of
information together with linguistic information plays an important role in understanding
semantic data. Rotaru and Vigliocco () found that including visual and emotional
information performs better to capture aective information than purely linguistic models
based on distributional models of semantics, such as Latent Semantic Analysis (Landauer
& Dumais, ). ey are even more specic: “we found that including visual information
is particularly benecial to more concrete concepts, whereas including emotional infor-
mation is particularly benecial to more abstract concepts” (p.). Similar results have been
shared by De Deyne et al. () and Ponari et al. (), among others. erefore, we as-
sume that in order to understand outsider art it is necessary to combine linguistic infor-
mation derived from objective text corpora (e.g., scientic papers), visual information
derived from image collections (e.g., the textual descriptions that typically accompany
objects in digital collections), and emotional information derived from rst-person texts
by outsider artists.
In this regard, it is important to emphasise that cultural artefacts are oen enriched
with and through linguistic information. Moreover, the way in which cultural heritage
artefacts are represented and communicated has a signicant impact on the way in which
those artefacts are interpreted. A semiotic approach to the museum phenomenon consid-
5 https://gifting.digital/
6 

Digital Humanities, Corpus and Language Technology
ers museum objects as performing a social function, always enhanced by textual descrip-
tions that contribute to the process of sign production and of sign interpretation. For ex-
ample, museum catalogues are uniquely valuable sources because they encourage visitors
to recover their freedom of decoding, while at the same time they function as a marketing
tool that encourages people to come and buy cultural goods and may even confer addition-
al value to a specic piece. Such publications must be capable of capturing the complexity
of an exhibit in a written text. Additionally, cultural heritage artefacts need to be digitised
and labelled with metadata standards in order to be shared across dierent environments
and domains. In other words, metadata standards enable intra-collection searches and also
support cross-boundary access to collections. is provides an opportunity for users to
interconnect the cultural heritage objects to contextual information and vice-versa.
From our point of view, addressing the social, aesthetic and linguistic issues surround-
ing outsider art requires an analysis of both texts and images by computational methods.
at is because, in the world of the arts, visual and textual languages are two sides of the
same coin. erefore, in our project we are applying Natural Language Processing to the
interpretation of texts on outsider art while applying Machine Learning to the analysis of
paintings by outsider artists.
5. Analysing Natural Language to Understand Outsider Art
is project draws on Natural Language Processing and Computational Linguistics to
understand how society perceives outsider art or, more specically, how outsider art is
conceptualised in scientic and popular writing. According to the Stanford Encyclopedia
of PhilosophyComputational Linguistics (CL) is the scientic and engineering discipline
concerned with understanding written and spoken language from a computational per-
spective, and building artefacts that usefully process and produce language, either in bulk
or in a dialogue setting.” Similarly, Natural Language Processing (NLP) is broadly dened
as the automatic manipulation of natural language by soware. Natural Language Process-
ing and Computational Linguistics are helping us to understand outsider art by automat-
ically capturing/enriching data with metadata and by transforming textual content into a
computer-reliable format. In the Outsider Art Project, the rst of these tasks has been
tackled through the compilation of the outsider art corpus and the second task is current-
ly being carried out through the development and implementation of the outsider art
ontology.
7 https://plato.stanford.edu/entries/computational-linguistics/

Understanding Outsider Art in the context of Digital Humanities
5.1. The Outsider Art Corpus
Collecting textual data about outsider art is the rst step toward understanding this
domain. anks to the explosion in the volume of machine-readable text and advances in
available computing power, text corpora have become essential components of new devel-
opments in computational linguistics from  until the present. Corpus linguistics pro-
vides a wealth of experience in dealing with language problems and also contribute to the
understanding of specic domains. In both cases, the kind of data plays an important role
in achieving research goals. In the case of the analysis of outsider art, we found it useful to
make a distinction between primary and secondary data.
In general, raw text is classied as primary data, while annotations of these primary
texts are considered secondary data. However, considering that “the term ‘secondary’ sug-
gests that the data provide indirect access to the research domain” (Østergaard & Torst,
), we have adopted a broader vision of data types. So, primary data refers to those data
that are collected directly from the source, in our case, rst-person texts by outsider artists.
In contrast, secondary data involve an existing document, which had previously been used
by another researcher for a dierent research question. Secondary data oen involve the
interpretation of cultural artefacts and are distant from the time and place of the original
artefact. An example of primary data with which we work is the illustrated novel entitled
e History of My Life, the autobiographical narrative of the outsider artist Henry Darger.
An example of secondary data is the book Henry Darger, in the realms of the possibly real,
a biography of Darger by Jim Elledge.
For this project, we decided to compile a large text corpus of secondary data for two
main reasons: the lack of primary data and the diculties of anonymizing it. Although
there is a long tradition in cultural heritage of capturing primary data, this type of data is
scarce in the eld of outsider art (see Section ). erefore, while there are many books,
catalogues, magazines, webpages and articles on outsider art written by experts, there are
not many artists’ accounts of their own experiences captured through interviews or any
other primary data collection method. Besides the problem of this lack of primary data,
personal information on outsider artists should also be removed from primary data in
order to reduce the risk of unnecessary information exposure to third parties. Encryption,
pseudonymization and anonymization are methods for removing sensitive information
from documents and are also known as de-identication methods. In Kacane (), an-
onymization is performed by the interviewees themselves who were asked about their
habits in attending museums. Automatic de-identication methods, in turn, are typically
limited to a few common named entity types (e.g., a persons name, hometown and work-

Digital Humanities, Corpus and Language Technology
place) and “human supervision will still be needed for it to completely guarantee the an-
onymization of the messages” (Helbrink & Åkesson, ). However, the de-identication
of ne-grained entities, such as the titles of artworks and nicknames, is of great importance
for outsider artists. erefore, it is necessary to seek ways to adjust sensitive personal data
in such a way that it is no longer possible to identify the originating outsider artist before
working with primary data. We assume that the ne-grained de-identication of personal
information for research purposes involving marginalized groups is a pending task and
this has a direct impact on corpus goals.
We compiled the outsider art corpus with the goal of describing how society under-
stands outsider art by identifying the patterns of language use in the target textual domain.
Specically, we are interested in discovering how outsider art is conceptualised in writings
about art. erefore, the question that the outsider art corpus must be capable of respond-
ing to is: what are the terms/concepts and linguistic structures that characterise texts on
outsider art? e outsider art corpus will be used as a silver standard for machine learning
because it is (semi)automatically generated. Our aim is to use this corpus to train machine
learning algorithms that are able to capture the main essentials of the outsider art knowl-
edge domain: concepts and hierarchies.
e outsider art corpus currently contains , words extracted from  docu-
ments that have been collected by hand in order to ensure quality and relevance. e
corpus includes English texts that talk about outsider art, art brut, folk art, naïve art and
self-taught art. We include three main text types or genres: artist bios, scientic articles
(e.g., books and papers) and op-ed articles (e.g., art criticism and art press releases). e
texts in this corpus had been obtained from web pages and documents in PDF format.
Additionally, there is a set of texts coming from printed books consisting of excerpts of text
under copyright law. Every text in the corpus is stored within a separate XML le (in
UTF- text encoding). Two main types of XML annotations were added to the outsider art
corpus: meta-information about the document (e.g., author, genre, if the text is an excerpt
from a major work, theme/style, type of source and url) and information about the struc-
ture of the document (e.g., paragraphs, sentences, titles and subtitles).
In addition to the foregoing, a subset of , random sentences has been manually
annotated with domain-specic terms belonging to three dierent semantic categories as
shown in Table : (a) very typical outsider art terms, (b) terms that bear a relationship with
8 
9 
10 Outsider art, art brut, folk art, naïve art, self-taught art and autism.

Understanding Outsider Art in the context of Digital Humanities
the life and creative work of outsider artists, and (c) terms that include a wide range of
specic entities not directly connected with outsider artists. We performed this task with
CATMA open-source soware, which allowed us to dene our own set of tag categories.
Each annotation collection in CATMA is represented as one TEI XML le and terms can
be retrieved by using a character oset (the position of the rst letter and the last letter of
the selected term). is subset of random sentences will be used as a gold standard domain
model in order to establish a system for detecting outsider art terms automatically.
Table 1. 
a. Yet, for outsider artistsself-taught , amateurish and reclusive , the usual rules don’t
apply.
b. Born in 1891, Marino AuritiItalian-American self-taught artist .
c. Roger Cardinal
Finally, it is important to note that bias is an additional problem aecting secondary data
related to outsider art. In our experience, language and gender are the most important
factors inuencing the process of the interpretation of outsider art. ere is an overrep-
resentation of English-speaking articles and European and North American regions in the
literature on the subject. is is not only because English is the dominant language (lan-
guage-based bias) but also because most featured artists were born in the United States or
Europe (geography-based bias). In the same way, gender is one of the most prevalent bias-
es in this domain since the featured artists are mostly male. Gender imbalance in the art
world (see Section ) has been documented by Bocart et al.,  and Cameron et al., ,
among many other researchers. erefore, factors causing bias have been controlled for
where possible by applying existing methods such as those described by Wang et al. ()
and Sun et al. ().
5.2. The Outsider Art Ontology
Capturing and codifying knowledge related to outsider art is the second step towards under-
standing this domain. erefore, an important task of the Outsider Art Project concerns
encoding knowledge about outsider art in a machine-readable language or computational
ontology. In computer science, an ontology is a linguistic/cognitive based representation of
the concepts, relations, attributes and hierarchies that are present in a given domain of
11 https://catma.de/

Digital Humanities, Corpus and Language Technology
knowledge. For example, in the expression “Adolf Wöli was born in Bern” the term “Adolf
Wöli” is an instance of the category “outsider artist” and is linked to the word “Bern” (cap-
ital of Switzerland) by the relation “was born in. An ontology is lled with thousands of these
relations, which makes it possible to draw complex inferences about the domain.
Ontologies for cultural heritage are interdisciplinary artefacts since they describe objec-
tive manifestations of the human mind, including customs, practices, places, objects, artistic
expressions and values. ere are a number of projects in Europe working to reduce the
digital gap between the humanities and technology through the creation of ontologies and
new metadata models for representing knowledge related to cultural heritage, including Eu-
ropeana and POSTDATA (González-Blanco et al., ). Europeana is an authoritative re-
pository of more than  million cultural and scientic heritage objects represented in the
Europeana Data Model (EDM), a metadata framework for the interoperability and stand-
ardisation of cultural data. e EDM metadata standard contributes to the creation of new
knowledge by incorporating semantic information from external resources located in dier-
ent countries across Europe. e POSTDATA (Poetry Standardization and Linked Open
Data) project has as its main objective to provide a means to publish European poetry (EP)
data as Linked Open Data (LOD) through the creation of a digital semantic web-based plat-
form for poetry analysis and edition. Although there are several repertoires and databases
that have the “poem” as object of study, they cannot communicate because they are not se-
mantically interoperable. erefore, POSTDATA applies a reverse engineering process by
which the project team analyses the logical models of dierent databases in order to create a
common conceptual model for all the existing ones.
To the best of our knowledge, there has been no attempt to formalize knowledge about
outsider art via a computational ontology or any other tool for terminological standardi-
zation. erefore, we are constructing the ontology of outsider art by assigning meaning
to the large amount of relevant but scattered textual data stored in electronic form. Con-
cretely, we are applying Natural Language Processing and Machine Learning techniques to
the development of a machine-processable ontology in a semi-automatic fashion. It is
important to point out that, when categorising aesthetic objects, the rule is to integrate
several external resources. ere are several examples of ontology integration in the cul-
tural heritage eld, including the Conservation Reasoning ontology (Moraitou et al., )
and the Heritage Building ontology (Tibaut et al., ).
12 The Europeana Data Model for Cultural Heritage.
13 https://postdata.linhd.uned.es/

Understanding Outsider Art in the context of Digital Humanities
However, due to the heterogeneity of the concepts potentially associated with the out-
sider art domain, we decided to build the ontology from scratch. Indeed, the outsider art
ontology must deal with both the artistic/cultural and social issues associated with inequal-
ity, mental disorders, physical disabilities, racial and ethnic origins and geographical/geo-
political settings, among others. For example, as can be seen in Figure, Henry Joseph
Darger is characterized by a set of artistic and non-artistic properties that depict him as an
outsider artist (novelist, painter and draughtsman). Some of the artistic properties are “has
exhibited in: collection de l’art brut, “creator of: the story of the vivian girls, “use of mate-
rials: recovered paper” and “deal theme sex: nudity. Some non-artistic properties associat-
ed with Darger are “worked as: janitor, “enrolled in: mission of our lady of mercy, “suer
mental condition: tourette syndrome, “born place: chicago” and “featured by: john macgre-
gor. As can be seen in Figure , the central class in the ontology is the outsider artist,
represented by the “Creator” category. is is one of the major dierences with respect to
other existing cultural heritage ontologies in which the collection or the artifact/object
occupies a prominent position.
In a basic sense, the main goal of the outsider art ontology is to contribute to the transfer
of knowledge between dierent sectors and disciplines by standardizing the terminology
associated with this artistic phenomenon. Additionally, this resource will be used to pre-
serve and disseminate outsider art collections and to develop high-level soware tools (e.g.,
systems that recommend outsider art assets to tourists).
6. Analysing Images to Understand Outsider Art
Digital images play an essential role in cultural heritage. Encoding the image features of
paintings for classifying art styles automatically is a typical task in the eld of the compu-
tational analysis of visual aesthetics. A few datasets of ne-art images are commonly used
to train automatic image classiers but none of them are about outsider art. For example,
Painting- (Khan et al., ) is a dataset consisting of digital paintings from  dierent
painters including Picasso, Rubens and Kandinsky; ArtK (Mao et al., ) is a large-
scale dataset containing over , artworks annotated with detailed artist labels; the
Sculptures k Dataset of images (Arandjelović & Zisserman, ) consists of , sculp-
tures by Henry Moore and Auguste Rodin collected from Flickr; the Museum of Modern
14 
15 https://deepart.ust.hk/ART500K/art500k.html.

Digital Humanities, Corpus and Language Technology
Art (MoMA) dataset contains , records with basic metadata about all the artists who
have work in the MoMA collection, although images must be requested separately via
email; SemArt is a collection with , digital paintings in which each image is associ-
16 https://github.com/MuseumofModernArt/collection.
17 http://noagarciad.com/SemArt/.
Figure 3. A fragment of the outsider art ontology.

Understanding Outsider Art in the context of Digital Humanities
ated to a textual artistic comment; ErgSap is a visual art gallery application that contains
almost , images of art work grouped by artist; the WikiArt dataset contains over
, images of art work labeled across  varied art styles collected from WikiArt.org.
As with primary data, there is an important lack of datasets on outsider art painting
which would allow for research to be carried out on visual aesthetics based on machine
learning approaches. To resolve this problem, we are preparing a large dataset of outsider
art paintings. A rst version of this dataset with , images was used in Roberto et al.
() to establish an initial approach to the automatic classication of digital images re-
lated to outsider art. is limited version of the outsider art dataset merged , images
labelled as Naïve Art from WikiArt, a category that is considered to be very close to the
outsider art style (Van Heddeghem, , p.) and , outsider art images collected from
dierent sources. In the referenced paper, we addressed the question of whether it is pos-
sible to classify dierent artistic styles by using Deep Learning methods. Preliminary results
suggested that there are no signicant dierences between ten artistic styles, including
outsider art. Additionally, we concluded that outsider art can be computationally modelled
by objective means but it is necessary to dispose of a larger dataset in order to provide
stronger and more robust assessments. For this reason, we are currently generating a large
dataset with , images related to outsider art, folk art, naïve art and art brut. Gener-
ating a new dataset involves routine tasks such as collecting digital images via crawling and
scanning, transforming images into digital format (if necessary), editing images and re-
moving de-duplicates and noising images. ese images are taken from social networks,
non-governmental organization, museums, galleries, books and magazines, among other
sources.
7. Conclusion
is chapter describes the main goals, the development status and the methodological
details of the Outsider Art Project, which is being carried out at the ADAPT Centre of
Dublin City University. We propose a transdisciplinary and multimodal framework for
identifying and classifying the main concepts in the outsider art domain. We claim that, in
order to properly understand this domain, it is necessary to analyse heterogeneous data
including text and images, and to incorporate the voices of multiple stakeholder groups at
dierent stages of the project. However, due to a lack of data for undertaking a computa-
18 
19 

Digital Humanities, Corpus and Language Technology
tional analysis of the domain, our eorts have mainly been aimed at collecting a corpus of
texts about outsider art and a large dataset of digital images of outsider artworks. Addi-
tionally, we are developing the rst ontology of outsider art to standardize the terminology
of the domain in order to enable semantic interoperability between heterogeneous meta-
data and to examine the relationship between social exclusion and cultural artefacts. In
general, the Outsider Art Project posits outsider art as an object of study of digital humanities
by entailing the existence of a research niche merging art, technology and society.
References
Ackles, S. (). e inuence of primitive art on early modern European painters. Colorado State
University.
Acosta, A. (). A semantic analysis of the meaning of the word outsider art. ArtsLife. https://artslife.
com////a-semantic-analysis-of-the-meaning-of-the-word-outsider-art/
Alexander, V. D., & Bowler, A. E. (). Contestation in aesthetic elds: Legitimation and legitimacy
struggles in outsider art. Poetics, , -. ISSN -X.
Almela, R. (). Outsider… deconstructing art from the outside. Epistemology of marginal art as
an expressive visual practice. Criticarte. http://www.criticarte.com/Page/le/art/outsider_
decons_ingles.pdf.
Arandjelović, R., & Zisserman, A. (). Smooth object retrieval using a bag of boundaries.
International Conference on Computer Vision, -.
Ardery, J. (). ‘Loser wins’: outsider art and the salvaging of disinterestedness. Poetics, (), -
.
Bocart, F., Gertsberg, M. & Pownall, R. A. J. (August , ). Glass Ceilings in the Art Market
Available at SSRN: https://ssrn.com/abstract= or http://dx.doi.org/./ssrn..
Brennan, T. (). e Digital-Humanities Bust. Chronicle of Higher Education, (). http://www.
chronicle.com/article/e-Digital-Humanities-Bust/.
Cameron, L., Goetzmann, W. & Nozari, M. (). Art and Gender: Market Bias or Selection Bias?
Available at SSRN: https://ssrn.com/abstract= or http://dx.doi.org/./ssrn..
Chernetska, A. (, August ). Behind the mask. Raw Vision Magazine, (), -.
Choi, B.C. & Pak, A.W. (). Multidisciplinarity, interdisciplinarity and transdisciplinarity in
health research, services, education and policy: . Denitions, objectives, and evidence of
eectiveness. Clin Invest Med. (): -. PMID: .
Dal Fovo, A., Striová, J., Pampaloni, E., Fedele, A., Morita, M.M., Amaya, D., Grazzi, F., Cimó, M.,
Cirrincione, C., & Fontana, R. (). Rubens’ painting as inspiration of a later tapestry: Non-
invasive analyses provide insight into artworks’ history. Microchemical Journal, . .
Davies, D. (). On the Very Idea of ‘outsider art’. e British Journal of Aesthetics, .
De Deyne, S., Navarro, D., Collell, G., & Perfors, A. (). Visual and aective grounding in language
and mind. OSF.
Ferrell, L.L. (). e inuence of children’s art on Joan Miró and Jean Dubuet. [Master thesis].
Mary Washington College of the University of Virginia.
González-Blanco, E., Ros, S., Ruíz, P. Díez, M. L., Bermúdez, H. et al. (). Poetry and Digital
Humanities making interoperability possible in a divided world of digital poetry: POSTDATA

Understanding Outsider Art in the context of Digital Humanities
project. EADH : Data in Digital Humanities, European Association for Digital Humanities,
Dec , Galway, Ireland.
Heather, M. (). Making Meaningful: Intention in Children’s Art Making. International Journal
of Art & Design Education, (), -.
Helbrink, J. & Åkesson, S. (). Data Anonymization using Machine Learning and Natural Language
Processing. [Master esis]. Department of Computer Science. Lund University.
Hernández, J. F. ( ). Local Art, Global Issues: Tales of Survival and Demise Among Contemporary
Art Environments. In L. Del Giudice (Ed.),Sabato Rodia’s Towers in Watts: Art, Migrations,
Development(pp. –). Fordham University Press. https://doi.org/./j.cttccjcv..
Hiraoka T. (). Generation of pop art-like images using binomial distribution. ICIC Express
Letters, (), -.
Isemonger, I. (). Digital Humanities and Transdisciplinary Practice: Towards a Rigorous
Conversation. Transdisciplinary Journal of Engineering & Science, , -.
Kacane, I. (). Heritage sites as means of bringing cultural awareness: intergenerational attitudes
towards visiting museums. Proceedings of INTED Conference th-th March . (pp. -
). Daugavpils University (LATVIA).
Kemman, M. (). Boundary Practices of Digital Humanities Collaborations. In W. Dillen, et al.
(Eds.), Integrating Digital Humanitites (pp. -). DH Benelux Journal.
Khan, F., & Beigpour, S, Weijer, J. & Felsberg, M. (). Painting-: A large scale database for
computational painting categorization. Machine Vision and Applications, , -.
Landauer, T. K., & Dumais, S. T. (). A solution to Platos problem: e latent semantic analysis
theory of acquisition, induction, and representation of knowledge. Psychological Review, (),
–.
MacGregor J. (). e discovery of the art of the insane. Princeton: Princeton University Press.
Mao, M. & Cheung, M. & She, J. (). DeepArt: Learning Joint Representations of Visual Arts.
MM’: Proceedings of the th ACM international conference on Multimedia (pp. –).
https://doi.org/./..
Martin, J., & Runyon, C. (). Digital humanities, digital hegemony: exploring funding practices
and unequal access in the digital humanities. SIGCAS Comput. Soc. (), -.
Miller, D. (). Gender and the Artist Archetype: Understanding Gender Inequality in Artistic
Careers. Sociology Compass, (), -.
Moraitou, T., Aliprantis, J., & Caridakis, G. (). Semantic Preventive Conservation of Cultural
Heritage Collections. SWCH@ ESWC.
Münster, S. & Terras, M. (). e visual side of digital humanities: a survey on topics, researchers,
and epistemic cultures. Digital Scholarship in the Humanities, (), -.
Novack, T., Vorbeck, L., Lorei, H., & Zipf, A. (). Towards Detecting Building Facades with Grati
Artwork Based on Street View Images. ISPRS International Journal of Geo-Information, (), .
http://dx.doi.org/./ijgi.
Østergaard, S. & Torst, P. (). Research styles: data and perspectives in the human sciences. In C.
Emmeche, D. Pedersen, & F. Stjernfelt (Eds.), Mapping frontier research in the humanities.
Bloomsbury Academic.
Pettinari, G. (). e ‘Art and Madness’ debate in Italy and the life story of Antonio Tolomei.
Epidemiology and Psychiatric Sciences, (), -. doi:./S.
Ponari, M., Norbury, C. F., & Vigliocco, G. (). Acquisition of abstract concepts is inuenced by
emotional valence. Developmental Science, (), e.

Digital Humanities, Corpus and Language Technology
Quabeck, N. (). Reframing the Notion of “e Artist’s Intent:” A Study of Caring for omas
Hirschhorn’s Intensif-Station (), Journal of the American Institute for Conservation, DOI:
./...
Rainaldi, L. (). outsider art: forty years out (T). University of British Columbia. https://open.
library.ubc.ca/collections/ubctheses//items/..
Rexer, L. (). How to Look at outsider art. Harry N. Abrams, Inc. ISBN : .
Roberto, J. & Davis, B. (). Towards the Ontologization of the outsider art Domain: Position Paper.
th Joint ACL - ISO Workshop on Interoperable Semantic Annotation at LREC .
Roberto, J., Ortego, D. & Davis, B. (). Toward the Automatic Retrieval and Annotation of outsider
art images: A Preliminary Statement. Proceedings of the st International Workshop on Articial
Intelligence for Historical Image Enrichment and Access (AIHI-). European Language
Resources Association (ELRA), pp. -.
Rotaru, A. S., & Vigliocco, G. (). Constructing Semantic Models From Words, Images, and
Emojis. Cognitive science, (), e. https://doi.org/./cogs..
Sana, A., Gaynullina, L., & Cherepanova, E. (). A work of art in the space of network culture:
creativity as bricolage. Creativity Studies, (), -. https://doi.org/./cs...
Saltz, J. (, February ). Jerry Saltz on the outsider art Fair — and Why ere’s No Such ing As
‘Outsider’ Art. Vulture. https://www.vulture.com///jerry-saltz-on-the-outsider-art-fair.html.
Smith, R. (). e outsider art Fair’ e Puck Building Lafayette and Houston Streets SoHo
rough Sunday. e New York Times. https://www.nytimes.com////arts/art-in-
review-.html
Spann, R. (). An algorithm for abstract images. Journal of Mathematics and the Arts, (-),
-. doi:./...
Sun, T., Gaut, A., Tang, S., Huang, Y., ElSherief, M., Zhao, J., Mirza, D., Belding, E., Chang, K., & Yang
Wang, W. (). Mitigating Gender Bias in Natural Language Processing: Literature Review.
Proceedings of the th Annual Meeting of the Association for Computational Linguistics. ACL,
Florence, Italy.
Tibaut, A., Kaučič, B., Dvornik, P., Tiano, P., & Martins, J. () Ontologizing the Heritage Building
Domain. In: M. Ioannides, J. Martins, R. Žarnić, & V. Lim (Eds.), Advances in Digital Cultural
Heritage. Lecture Notes in Computer Science, vol  (pp. -). Springer, Cham.
Van Heddeghem, R. (). Outsider art, In or Outside the World of Art? A study of the framing of the
paradoxical position of outsider art. [Master thesis]. Erasmus School of History, Culture and
Communication, Erasmus University Rotterdam.
Wang A., Narayanan A. & Russakovsky O. () REVISE: A Tool for Measuring and Mitigating Bias
in Visual Datasets. In A. Vedaldi, H. Bischof, T. Brox, & J.M. Frahm. (Eds.) Computer Vision –
ECCV . ECCV . Lecture Notes in Computer Science, vol . Springer, Cham.
Winston, C. N., Tarkas, N. J., & Maher, H. (). Eccentric or egocentric? Preoperational features
in schizotypic and creative adults. Psychology of Aesthetics, Creativity, and the Arts, , -.
Yang, M., Wang, M., Wang, H., Yang, G., & Liu, H. (). Exploring the Transdisciplinary Nature
of Digital Humanities. Proceedings of the ACM/IEEE Joint Conference on Digital Libraries in .
Zeki S, Ishizu T. (). e “Visual Shock” of Francis Bacon: an essay in neuroesthetics. Fronters in
Human Neuroscience, ().

C II
La Biblioteca Virtual de la Filología
Española (BVFE) y su acervo
hispanoamericano1
e Biblioteca Virtual de la
Filología Española (BVFE) and its
Hispanic American heritage
Jaime Peña Arce & M.ª Ángeles García Aranda
Universidad Complutense de Madrid – España
A Manuel Alvar Ezquerra
Resumen: El objetivo de este capítulo es doble. Por un lado, se da a conocer la Bi-
blioteca Virtual de la Filología Española (BVFE), un portal que recoge una gran cantidad
de obras lingüísticas relacionadas con el español, a las que proporciona un acceso
libre y gratuito. Por otro, se indaga en el componente hispanoamericano de su acer-
vo, con el propósito de recapacitar sobre lo que ya se ha hecho y sobre lo que queda
por hacer.
Abstract:
Biblioteca Virtual de la Filología EspañolaBVFE), a portal that gathers numerous



1 Este trabajo se enmarca en el Proyecto de Investigación “Biblioteca Virtual de la Filología Española. Fase III:
FFI2017-82437-P),

La Biblioteca Virtual de la Filología Española (BVFE) y su acervo hispanoamericano

Digital Humanities, Corpus and Language Technology
1. Introducción
Las páginas siguientes están dedicadas a mostrar la riqueza y utilidad de un recurso en línea a
través de parte de sus materiales. Por un lado, nos sirven para presentar la Biblioteca Virtual de
la Filología Española (a partir de ahora, BVFE), un portal que atesora un sinfín de títulos —dic-
cionarios, gramáticas, diálogos, ortografías y otros textos de contenido lingüístico— relaciona-
dos con la lengua castellana, muy reconocido ya entre la comunidad investigadora lológica a
ambos lados del Atlántico. El  Congreso Internacional de Lingüística Computacional y de
Corpus (CILCC ) y Workshop en Procesamiento Automatizado de Textos y Corpus (WoPA
TeC ), celebrado en la ciudad colombiana de Medellín entre el  y el  de octubre del
, nos dio la oportunidad de dar a conocer nuestra herramienta y sus recursos —aunque
fuera de forma virtual, debido a las actuales condiciones de pandemia— a un amplio público,
implicado en el estudio y en la descripción de la lengua de Cervantes, que aborda su trabajo
desde las más variadas perspectivas que ofrece en la actualidad el panorama investigador.
Por otro lado, los miembros de este equipo de trabajo consideramos que dicho encuen-
tro, organizado y amparado por la Universidad de Antioquia (en colaboración con la neer-
landesa Rijksuniversiteit Groningen), podía ser un buen pretexto para examinar el corpus
de obras y autores hispanoamericanos incluido dentro de la BVFE, un componente funda-
mental de nuestra herramienta. La construcción de este acervo es siempre una prioridad
para nosotros, no en vano, el propio nombre de nuestro portal es un homenaje a una de
las recopilaciones que más ha ayudado a los investigadores de Historiografía lingüística en
el pasado, a saber, la Biblioteca histórica de la lología castellana, del Conde de la Viñaza
( []), autor que también prestó una particular atención a la realidad lingüística del
Nuevo Mundo en su Bibliografía española de lenguas indígenas de América (). Con
estos antecedentes, el examen que contienen estas páginas resultaba más que obligado.
La metodología que hemos empleado para la elaboración de este trabajo, gracias a las
variadas opciones de búsqueda que ofrece nuestro sitio web (http://www.bvfe.es), es bas-
tante sencilla. A partir de los parámetros autor, lugar de impresión, biblioteca en la que se
conservan los ejemplares físicos e idioma, mostraremos la importancia cuantitativa y cua-
litativa de la presencia hispanoamericana en la BVFE. Tanto el lugar de impresión como la
biblioteca que atesora el ejemplar físico debían estar radicados en algún punto del conti-
nente hispanoamericano; los idiomas, además de los trasplantados desde Europa (español,
2 Los criterios seguidos para aceptar títulos dentro de nuestro portal son los siguientes: por un lado, se
incluye toda obra de contenido lingüístico de cualquier autor español o natural de un país hispanohablante,
con independencia del idioma que describa o estudie; por otro lado, se recoge todo texto que trate sobre la
lengua española, al margen de la nacionalidad de su autor.

La Biblioteca Virtual de la Filología Española (BVFE) y su acervo hispanoamericano
latín…), tenían ser los propios de las comunidades indígenas locales para ser tenidos en
cuenta. Respecto a los autores, debían ser nacidos en algún rincón de los antiguos Virrei-
natos españoles y actuales estados soberanos o haber realizado en aquellas tierras la mayor
parte de su actividad cientíca; esta última ponderación resultó imprescindible por la fuer-
te corriente migratoria que, con origen en la Península y destino a aquellas latitudes, ha
existido en diferentes momentos de la historia.
La estructura de estas páginas está en consonancia con el doble propósito del que ha-
blábamos más arriba. En primer lugar, vamos a realizar una presentación general de la
BVFE, atendiendo a sus orígenes y trayectoria, para nalizar con la presentación de sus
actuales datos de impacto. En segundo término, nos centraremos en el análisis de su com-
ponente hispanoamericano a partir de los parámetros ya señalados: lugar de impresión,
biblioteca, idioma y autoría. Finalmente, se incluyen unas conclusiones que pretenden
relacionar ambos bloques, con el objetivo de mostrar una perspectiva del acervo hispano-
americano de la BVFE lo más completa y contextualizada que sea posible y reexionar
sobre el camino a seguir en el futuro. El capítulo se cierra con el desarrollo de las referencias
bibliográcas traídas a colación a lo largo de esta investigación.
2. La Biblioteca Virtual de la Filología Española (BVFE)
2.1. Orígenes
El origen de la BVFE hay que buscarlo en la idea que el profesor Manuel Alvar Ezquerra (-
), de inolvidable memoria y uno de los investigadores más importantes que ha tenido la
lengua española en fechas recientes, tuvo durante el segundo lustro del presente siglo. Su
propósito inicial fue construir un catálogo que incluyera todos los repertorios lexicográcos
del español y, simultáneamente, crear una biblioteca virtual que ordenara los materiales dis-
ponibles en la red y garantizara su acceso de forma libre, gratuita y con las garantías de calidad
de quien dedicó su vida al estudio de esta disciplina y de gran parte de sus títulos más impor-
tantes. Esa primera pretensión pronto se amplió y terminó dando cabida a cualquier obra de
contenido lingüístico relacionada con nuestro idioma. Así, tras varios años de esfuerzos, y
3 El trabajo que, a este respecto, se había realizado hasta aquel momento era bastante modesto. Además de
obras de carácter más general (Esparza-Niederehe 1995, 1999 y 2005), solo existían una serie de aproxi-

académico italiano (Fabri 1979 y 2002; San Vicente 1995).
4 Si se quiere saber más sobre la historia de la BVFE, consúltese: Alvar Ezquerra y Miró Domínguez (2013),
Calero Hernández, Fernández de Gobeo y Peña Arce (2018), Cazorla Vivas y García Aranda (2018) y García
Aranda y Peña Arce (2019).

Digital Humanities, Corpus and Language Technology
gracias al trabajo de los miembros del equipo y los colaboradores —junto a las ayudas públicas
captadas—, la BVFE se abrió al público como parte de la biblioteca de la Universidad Com-
plutense de Madrid (en adelante, BUCM), https://webs.ucm.es/BUCM/nebrija/, en el año
. Desde entonces, la BVFE nos ha facilitado la investigación, pues los interesados en estas
cuestiones tenemos acceso a numerosas obras sin tener que acudir a bibliotecas, sin tener que
localizar ejemplares, sin tener que solicitar reproducciones y sin la necesidad de comparar
catálogos, bibliografías y demás fuentes para comprobar si la información dada es able.
2.2. Desarrollo
El desarrollo, el crecimiento y la mejora que imponía la BVFE obligó a su cambio de ubi-
cación, de manera que, desde el año , nuestros materiales pueden consultarse en http://
www.bvfe.es, página web que mantiene, desarrolla y edita la empresa especializada Stílogo.
Basta una comparativa cuantitativa para comprobar el trabajo llevado a cabo en este
sentido en la BVFE:
Tabla 1. Comparativa del n.º de registros entre la BUCM y la BVFE.
BUCM (2010-2014) www.bvfe.es (2014-2020)
 
3641 gramáticas y tratados gramaticales.
626 ortografías y prosodias.
430 diálogos.
Total: 9335 registros
El camino hasta llegar a la situación actual de la BVFE no ha sido fácil. Así, por ejemplo,
los continuos cambios en las direcciones electrónicas de las obras digitalizadas obligan a
una revisión permanente de los enlaces; el crecimiento exponencial de los libros digitali-
zados también supone, por las necesidades de actualización, un reto importante; los erro-
res en las informaciones bibliográcas de los catálogos y las bibliotecas exigen una inves-
tigación concienzuda y la dicultad, por no decir la imposibilidad, de elaborar una lista
completa y able de todas las obras lingüísticas del pasado nos obliga a replantearnos de
forma constante nuestros objetivos y nuestra metodología de trabajo. A todos estos retos
5 
BVFEFFI2011-24107), “Biblioteca Virtual de la Filología Española. Fase II. Consolidación, mejora y am-
FFI2014-53851-P) y “Biblioteca Virtual
de la Filología Española. Fase III
resultados” (FFI2017-82437-P).

y dicultades tratamos de buscar solución en nuestro quehacer cotidiano, en aras de la
creación de un repositorio lo más completo que sea posible.
La BVFE facilita el acceso a obras lingüísticas seleccionadas a partir de una serie de
criterios (en español, sobre el español, compuestas en otras lenguas por autores españoles,
bilingües con el español, multilingües con el español) y que son integradas en un servidor
diseñado para esta biblioteca virtual (autor, título, datos de edición/impresión, enlace, len-
guas, notas, parte de otra obra…). La forma de trabajar es sencilla: se buscan las obras a
partir de una serie de palabras clave en los catálogos de bibliotecas y repositorios para
obtener los ejemplares de las obras lingüísticas digitalizados en ellos y se cargan en una
base de datos especícamente diseñada para ello, donde se ponen todos esos datos, y un
comentario o aclaración que puedan ser útiles al usuario. Cuando se han comprobado
todas las informaciones (que son correctas, que no hay duplicaciones, etc.), los registros se
depositan en el servidor. El usuario puede recuperar los datos de la BVFE a partir de una
serie de búsquedas que realiza en la web a partir de una serie de parámetros:
En primer lugar, una búsqueda alfabética, seleccionando la letra inicial de la obra o tipo
de texto que se desea localizar (gramática, tratado gramatical, ortografía, prosodia, no-
menclatura, diccionario).
En segundo lugar, una búsqueda sencilla en el buscador de la página principal, intro-
duciendo el término de búsqueda.
Y en tercer lugar, una búsqueda avanzada, en donde se pude ltrar por obra, fecha de pu-
blicación, impresor, lugar de impresión, lenguas de publicación, periodo cronológico, etc.
Y los resultados que arrojan estas búsquedas pueden, a su vez, ordenarse a partir de varios
criterios, a saber: título ascendente/descendente, recientemente modicado, autor ascen-
dente/descendente, fecha ascendente/descendente, impresor ascendente/descendente,
lugar de impresión ascendente/descendente y biblioteca ascendente/descendente. Una vez
nalizada la búsqueda y la ordenación, solo hay que pinchar en el título de la obra para
acceder a los datos completos del registro (título, autor, ciudad y fecha de impresión, pági-
nas que ocupa, procedencia del ejemplar digitalizado, signatura) y al ejemplar o a la cha
biobibliográca del autor, de las que se habla en el párrafo siguiente.
La BVFE se sirve de discos de alta gama NVMe que mejoran considerablemente el
rendimiento y la eciencia de las conexiones gracias a la rapidez de lectura y al aumento
de ancho de banda, lo que se aprecia en una navegación ligera y dinámica. Alexa, la apli-
cación sobre tráco web, la sitúa en el ranking mundial (formado por más de  millones
de páginas web) en el puesto   .
La Biblioteca Virtual de la Filología Española (BVFE) y su acervo hispanoamericano

Digital Humanities, Corpus and Language Technology
Para que la BVFE funcione correctamente son necesarios ) un mantenimiento conti-
nuo del soware, ) actualizaciones periódicas, ) controlar las defensas de los ataques de
robots y mecanismos que desean acceder de forma ilícita a ella, ) mejoras constantes de
la interfaz (por ejemplo, con su traducción al inglés) y del motor de ltrado (parámetros
incluyentes y excluyentes en las búsquedas avanzadas; ltros de ordenación “ascendente/
descendente” de los resultados obtenidos en las búsquedas para todos los criterios utiliza-
dos…), auditorías de seguridad y optimización para evitar ralentizaciones y bloqueos.
Por otro lado, y desde la segunda fase o consolidación de la BVFE, esto es, desde nales
del , el corpus acopiado se ha enriquecido con la inclusión de las chas biobibliográ-
cas de los autores cuyas obras recogemos (actualmente, ). Estas chas se estructuran
así: .º) los datos biográcos del autor y una breve reseña de su producción, .º) la descrip-
ción de su obra lingüística, tanto de la incluida en la BVFE como de la que no se encuentra,
.º) las principales referencias bibliográcas y .º) la rma del autor. En la actualidad,
contamos con  chas biobibliográcas, número que crece cada día gracias al trabajo de
nuestros miembros y colaboradores. A continuación, se incluye un ejemplo del trabajo
descrito en este párrafo:
Figura 1. 

Figura 2. 
2.3. Datos actuales
En la BVFE pueden consultarse registros digitalizados de la mayoría de las bibliotecas y
repositorios españoles, europeos y extranjeros. Se han escrutado los catálogos de más de
 instituciones. Dentro de nuestra colección priman los títulos atesorados en diferentes
bibliotecas —físicas o virtuales— de España: ya pertenezcan a la administración general
del estado (la Biblioteca Nacional de España, la Biblioteca Virtual del Patrimonio Bibliográ-
co, Hispana, la Universidad Nacional de Educación a Distancia, la Real Academia Espa-
ñola o las bibliotecas públicas estatales de las diferentes capitales provinciales), ya a las
diferentes comunidades autónomas (Biblioteca de Catalunya, Biblioteca Valenciana, Biblio-
teca Virtual de Andalucía, Biblioteca Virtual de Castilla y León…) o a sus universidades
(Complutense de Madrid, Salamanca, Zaragoza, Sevilla, Granada, Barcelona, Valencia,
Santiago de Compostela…), ya a colecciones privadas (Fundación Sancho el Sabio, en
Vitoria, o Fundación Sierra Pambley, en León) o municipales (Biblioteca Histórica Muni-
cipal, en Madrid).
También contamos con las aportaciones de las bibliotecas nacionales más importantes
de Europa (la Bibliothèque Nationale de France, la British Library, Bayerische Staatsbiblio-
thek de Múnich, la Österreichische Nationalbibliothek de Viena, la Národní Knihovna České
Republiky de Praga o las bibliotecas nacionales italianas de Florencia, Roma y Nápoles) y
del mundo (Library of Congress, en Washington, la Biblioteca Nacional de Colombia, la
Biblioteca Nacional de Chile…). Asimismo, hemos incorporado los registros pertinentes
de las principales bibliotecas universitarias de Europa (Oxford University, Cambridge Uni-
versity, Universiteitsbibliotheek Gent, Université de Toulouse, Università degli Studi di Roma
La Biblioteca Virtual de la Filología Española (BVFE) y su acervo hispanoamericano

Digital Humanities, Corpus and Language Technology
“La Sapienza…), de los Estados Unidos (Harvard University, University of Michigan, Uni-
versity of California, e John Carter Brown Library, Brown University, Columbia Universi-
ty…), Canadá (University of Toronto), Hispanoamérica (Universidad Autónoma de Nuevo
León, Universidad Nacional Autónoma de México…) o Australia (La Trobe University).
Igualmente, recogemos las referencias depositadas en los más importantes repositorios
virtuales, como Google books o Archive. En denitiva, estamos en condiciones de presumir
de nuestro completo acervo, que recoge obras custodiadas por instituciones que van desde
las más modestas, como el Instituto de Enseñanza Secundaria Alfonso X el Sabio, en Mur-
cia, hasta las de primer nivel, como la New York Public Library.
Más interesante es, si cabe, el balance que arroja la comparativa, en cuanto a número
de visitantes, de los últimos años. Cifras que evidencian el interés y la conanza de los
usuarios por la BVFE:
Tabla 2. Datos de impacto de la BVFE.
Año 2018 2019 2020
N.º total de visitas 126 872 210 548 397 681
Visitantes diarios distintos 69 004 81 255 197 025
Páginas vistas 1 043 598 7 815 384 8 388 692
España lidera la lista de países con mayor número de páginas vistas en estos años, seguida
por los Estados Unidos, México, Francia, Alemania, Ecuador, Colombia, Argentina, Italia,
Perú y Panamá. Cantidades que se convierten en un reto para seguir trabajando por la
mejora y el crecimiento constantes de la BVFE. En cuanto a la posición de la BVFE en los
resultados de búsquedas de Google Search, suele ocupar los primeros puestos al indagar
sobre diccionarios de metáforas, palabras en rifeño, diccionario mallorquín-castellano, dic-
cionario menorquín, diccionario de andalucismos, vocabulario quirúrgico, gramática analí-
tica o diálogos españoles o al tratar de averiguar los datos biográcos de Ambrosio Calepi-
no, Vicente Salvá, Esteban Pichardo, Carlos Felipe Beltrán, Pedro Marbán o Francisco de
Paula Mellado.
De todo ello, tanto de los nuevos registros como de las biografías de los autores y de las
novedades en la web, damos puntual cuenta cada nal de mes con un boletín de novedades
al que cualquiera puede suscribirse desde la página de la BVFE.
6 En los primeros meses de 2021, fecha en la que se escribe este trabajo, el número de visitas a páginas de la
BVFE asciende a 38 011.

3. El componente hispanoamericano de la BVFE
En los siguientes epígrafes vamos a descomponer el acervo hispanoamericano contenido
en nuestro portal. Tal como anunciamos al inicio del capítulo, el orden en el que se va a
llevar a cabo el estudio es este: lugar de impresión, biblioteca, idioma y autoría.
3.1. Lugares de impresión
Más de  ejemplares de los incluidos en la BVFE han sido impresos en imprentas his-
panoamericanas (un .  del total). La llegada de la imprenta a los virreinatos de la
Nueva España y del Perú en época temprana (después llegaría a la Nueva Granada y al Río
de la Plata) y su desarrollo posterior en todo el continente explican esta cifra.
Tabla 3. Registros de la BVFE impresos en Hispanoamérica.
Totales En Hispanoamérica
9335 1083 (11.60 %)
Los primeros textos impresos en estos talleres se deben a la labor de descripción realizada
por los misioneros sobre las lenguas amerindias. El Vocabulario en la lengua castellana y
mexicana de Alonso de Molina y el Arte de la lengua de Michuacán de Maturino Gilberti
en el taller de Juan Pablos ( y ); el Arte en lengua zapoteca de Juan de Córdova, el
Arte en lengua mixteca de Antonio de los Reyes y el Vocabulario en lengua misteca de
Francisco de Alvarado en la imprenta de Pedro Balli (, ), o el Vocabulario manual
de las lenguas castellana y mexicana de Pedro de Arenas en la imprenta de Henrico Martí-
nez () son buena muestra de la actividad en México. Por otro lado, el Arte y vocabulario
en la lengua general del Perú llamada quichua de Alonso de Bárcena en el taller de Antonio
Ricardo (), el Arte y gramática general de la lengua que corre en todo el reyno de Chile
de Luis de Valdivia y la Gramática y arte nueua de la lengua general de todo el Perú de Diego
González Holguín en la imprenta de Francisco del Canto ( y ) ilustran las produc-
ciones textuales limeñas.
Pero en estos primeros siglos no solo se publicaron obras misioneras, también hubo
tiempo, dinero y dedicación para, entre otros, los Discursos de la antigüedad de la lengua
cántabra vascongada de Balthasar Echave (México, Henrico Martínez, ) o para la Or-
tografía castellana de Mateo Alemán (México, Jerónimo Balli, ).
Ahora bien, el siglo que más resultados de impresiones hispanoamericanas proporcio-
na es el . Durante esta centuria se publicaron en México, Chile, Perú, Argentina y Co-
lombia numerosas obras lingüísticas que testimonian la riqueza y el interés del periodo
La Biblioteca Virtual de la Filología Española (BVFE) y su acervo hispanoamericano

Digital Humanities, Corpus and Language Technology
para la Historia de la lingüística, pues entre ellas se pueden encontrar aportaciones a dife-
rentes disciplinas lingüísticas (semántica, sociolingüística, dialectología, gramática, lexi-
cografía, ortografía, traducción, enseñanza de la lengua o lingüística misionera) desde otras
tantas perspectivas, metodologías y corrientes teóricas (tradicional, normativa, racionalis-
ta, general, lógica, historicista, didáctica…), lo que resulta una innegable contribución para
la historia de la lengua española. Sirvan como muestra las que se citan a continuación:
Diálogos (Diálogos de Juan Luis Vives, traducidos en lengua castellana por el doctor Cris-
tóbal Coret y Peris, México, ).
Ortografías y ortologías (De la ortografía México, ; Ortografía española acomodada
a la pronunciación megicana México, ; Principios de la ortología y métrica de la len-
gua castellana, Santiago de Chile, ; Acentuaciones viciosas, Santiago de Chile, ;
Neógrafos kontemporáneos, Santiago de Chile, ; Ortografía fonética, Santiago de
Chile, ; Ortografía castellana americana, Buenos Aires, ; Enseñanza de la lectu-
ra y la logografía. Instrucciones para los maestros, Buenos Aires, ).
Silabarios (Silabario de idioma mexicano México, ; Silabario de idioma mexicano,
México, ).
Repertorios lexicográcos (Nuevo vocabulario losóco-democrático, México, ; Dic-
cionario de sinónimos castellanos México, ; Manual de voces equívocas sacadas del
Diccionario de la lengua castellana México, ; Vocabulario del idioma comanche, Mé-
xico, ; Diccionario etimológico de la lengua castellana (ensayo), México, ; Dic-
cionario de dudas ortográcas formado con arreglo al último de la Real Academia, Méxi-
co, ; Diccionario de mejicanismos, México, ; Diccionario para el pueblo,
republicano, democrático, moral, político y losóco, Lima, ; Neologismos y america-
nismos, Lima, ; Diccionario hispano chileno, Santiago de Chile, ; Diccionario de
chilenismos, Santiago de Chile, ; Diccionario lológico-comparado de la lengua cas-
tellana, Buenos Aires, ; El lenguaje gauchesco, Buenos Aires, ; Minucias lexico-
grácas. Tata, tambo, poncho, chiripá, etc., Buenos Aires, ; La religión en el idioma.
Ensayo paremiológico, Buenos Aires, ).
Gramáticas (Elementos de gramática castellana para el uso de las escuelas México, ;
Arte del idioma othomí, México, ; Compendio de gramática de la lengua española,
según se habla en Méjico México, ; Epítome de la gramática de la lengua castellana,
México, ; Gramática de la lengua castellana, compuesta por la Real Academia Espa-
ñola, México, ; Estudios gramaticales sobre el “náhuatl”, México, ; Compendio
de la gramática castellana para el uso de las escuelas de primeras letras del Perú, Lima,
; Gramática de la lengua castellana, Lima, ; Gramática latina, Santiago de Chile,

; Gramática de la lengua chilena, Santiago de Chile, ; Gramática de la lengua
castellana destinada al uso de los americanos, Santiago de Chile, ; Borrones grama-
ticales, Santiago de Chile, ; Gramera berria, Buenos Aires, ; Arte de la lengua
lule y toconoté, Buenos Aires, ).
Métodos de enseñanza de segundas lenguas (Novísima gramática francesa, México, ;
La clave del francés, México, ; El maestro de inglés, Lima, ; Lecciones de gramá-
tica francesa, Santiago de Chile, ).
En Colombia, país en el que se funda en  la Imprenta Nacional en los talleres de los
afamados Echavarría Hermanos, se imprimieron, entre otros muchos, unos Elementos de
la gramática castellana y ortografía (), la Gramática y ortografía de la lengua castellana
para uso de los niños en las escuelas de primeras letras del Departamento del Cauca (),
La ortografía jada en la Nueva Granada. Método perfeccionado de enseñanza para las
primeras letras (), Nuevo epítome de gramática castellana (), Observaciones curiosas
sobre lengua castellana (), Prontuario de ortografía de la lengua castellana (), Salvá
reformado (), Diccionario ortográco (), Apuntaciones críticas sobre el lenguaje
bogotano (-), Gramática de la lengua latina para el uso de los que hablan castellano
(), Análisis ideolójica de los tiempos de la conjugación castellana (), Gramática de
la lengua castellana destinada al uso de los americanos () o Ensayo de gramática hispa-
no-goahiva ().
Las razones expuestas explican que el país hispanoamericano que más textos suminis-
tra a la BVFE sea México, seguido de Chile, Perú, Argentina, Colombia y Costa Rica:
7 Antes de esa fecha existían los talleres de Antonio Espinosa, de Salazar, de José A. Cuella, N. Gómez, de Fran-
cisco Torres Amaya, Arnulfo Guarín, Foción Mantilla, la Imprenta de El Día, la Imprenta del Neogranadino,
Imprenta del Tradicionalista, entre otros.
8 Por ciudades, la distribución es la siguiente: Aguascalientes 1, Bogotá 71, Buenos Aires 92, Caracas 19, Cart-
agena de Indias 3, Chiapas 8, Concepción (Chile) 4, Córdoba (Argentina) 2, Cuenca (Ecuador) 1, Cuernavaca
(México) 7, Cuzco 8, Guadalajara 13, Guanajuato 3, Guatemala 2, Habana/La Habana 28, Iquitos 1, La Paz
2, La Plata 8, La Victoria (Venezuela) 2, León (México) 1, Lima/Ciudad de los Reyes/Los Reyes 126, Matanzas
6, Medellín 3, México/Méjico/México D. F. 383, Mérida de Yucatán 26, Monterrey 2, Montevideo 9, Morelia
11, Oaxaca 6, Panamá 3, Ponce (Puerto Rico) 3, Puebla/Puebla de los Ángeles 23, Quito 3, Puerto Rico/San
Juan de Puerto Rico 5, San Cristóbal de las Casas (México) 3, San José de Costa Rica 28, San Juan de los Lagos
(México) 2, Santa Fe del Río (México) 1, Santiago/Santiago de Chile 124, Santiago de Cuba 1, Salta 1, Sucre/
Chuquisaca 5, Tegucigalpa 4, Toluca (México) 1, Valdivia 2, Valparaíso 12, Veracruz 1, Zacatecas 2.
La Biblioteca Virtual de la Filología Española (BVFE) y su acervo hispanoamericano

Digital Humanities, Corpus and Language Technology
Tabla 4. Registros hispanoamericanos de la BVFE por países y ciudades (en %).
País y ciudad Porcentajes %
México
Ciudad de México
45 %
35 %
Chile
Santiago de Chile
13 %
11.5 %
Perú
Lima
12.5 %
11.5 %
Argentina
Buenos Aires
8.7 %
8.4 %
Colombia
Bogotá
6.8 %
6.5 %
Costa Rica 2.3 %
3.2. Bibliotecas
En cuanto a las bibliotecas en que se localizan los ejemplares de la BVFE hay que destacar
la Biblioteca Nacional de Colombia (https://bibliotecanacional.gov.co/es-co). Fundada en
 con una colección de los padres jesuitas expulsados de España, hoy constituye el fondo
nacional hispanoamericano más importante para nuestro portal. Su página web, cómoda
y sencilla; sus múltiples servicios para atender a todos los usuarios, y sus varias colecciones
temáticas (corográca, botánica, fondos especiales, bibliotecas digitales de autor, fondos
grácos, prensa del siglo  y hemeroteca digital) la convierten en un recurso útil y com-
pleto. Tras él se encuentran los fondos nacional y general de México (que están albergados
en la Universidad Nacional Autónoma de México, https://www.bidi.unam.mx/), la Univer-
sidad Autónoma de Nuevo León, https://www.dgb.uanl.mx/?mod=bdigital, y la Biblioteca
Nacional de Chile (https://www.bibliotecanacional.gob.cl/). Muy por detrás se encuentran
los fondos de Costa Rica (http://www.sinabi.go.cr/bibliotecas/biblioteca_nacional.aspx),
Argentina (https://www.bn.gov.ar), Perú (https://www.bnp.gob.pe) y Guatemala (http://
mcd.gob.gt/biblioteca-nacional/).
Tabla 5. Registros de la BVFE en bibliotecas de Hispanoamérica.
Totales En bibliotecas hispanoamericanas
9335 539 (5.77 %)
9 Los ejemplares digitalizados en bibliotecas hispanoamericanas son algunos más, pero todavía no están


En la actualidad, y esperamos que sea una realidad que se subsane lo antes posible, la can-
tidad de digitalizaciones de obras procedentes de bibliotecas de este hemisferio es notable-
mente inferior al de otros territorios, como Europa o América del Norte. Por este motivo,
las cifras ofrecidas en este epígrafe son más un motivo de reexión que algo realmente
orientativo. Sea como fuere, los datos desglosados por bibliotecas son los que siguen:
Tabla 6. Registros de la BVFE en bibliotecas de Hispanoamérica (desglose).
Biblioteca y número de ejemplares
Biblioteca Nacional de Colombia 192
Universidad Nacional Autónoma de México 118
Universidad Autónoma de Nuevo León 103
Biblioteca Nacional de Chile 60
Biblioteca Nacional Miguel Obregón Lizano, Costa Rica 19
Biblioteca Pública del Estado “Juan José Arreola”, Guadalajara 15
Biblioteca Nacional Mariano Moreno de la República Argentina 10
Biblioteca Nacional de Maestros, Buenos Aires 7
Biblioteca Nacional del Perú 4
Biblioteca Palafoxiana, Puebla 4
Universidad de Chile 4
El Colegio de México 1
Universidad Francisco Marroquín, Guatemala 1
Universidad Nacional de Colombia 1
3.3. Lenguas amerindias
Una de las mayores riquezas de la BVFE es el número y variedad de lenguas que atesora.
De las más de  lenguas que están presentes en la BVFE,  se hablan o se han hablado
en territorio hispanoamericano, y con ellas se han compuesto  obras, esto es, un
. del total de registros.
Tabla 7. Registros de la BVFE de lenguas amerindias.
Totales En bibliotecas hispanoamericanas
9335 1007 (10.78 %)
10 Los ejemplares digitalizados en bibliotecas hispanoamericanas son algunos más, pero todavía no están
BVFE , pues están a falta de un estudio detallado de sus contenidos.
La Biblioteca Virtual de la Filología Española (BVFE) y su acervo hispanoamericano

Digital Humanities, Corpus and Language Technology
Destacan, en este sentido, los textos compuestos en náhuatl (), quechua (), mapuche
(), otomí (), maya (), tarasco (), michoacano (), cachi (), purépecha (),
cachiquel (), guaraní (), quiché (), zapoteco (), cahíta () y cabécar (), que en
su mayoría se utilizaron para componer textos correspondientes a la Lingüística misione-
ra. En la BVFE no solo contamos con trabajos descriptivos sobre las lenguas amerindias
mayoritarias, también atesoramos diccionarios y gramáticas sobre idiomas muy minorita-
rios, como, por ejemplo, el cuna (Vocabulario castellano-cuna, de A. L. Pinart, publicado
en ), la lengua propia de un pueblo que habita entre Panamá y Colombia, o el ixil (Arte
y vocabulario de la lengua ixil, anónimo, post ), empleada en el noroeste del altiplano
guatemalteco y perteneciente al tronco mayense.
3.4. Autores y época
El último parámetro manejado para describir el componente hispanoamericano en la
BVFE es el de autores o chas biobibliográcas. En este apartado se ha incluido a) autores
cuyas sus obras traten sobre lenguas amerindias; b) autores, con independencia de su lugar
de nacimiento, cuyas obras fueran imprimidas en ese continente, y c) autores nacidos en
América, con independencia de la temática de sus obras. La BVFE cuenta con un total de
 autores, de los que  cuenta actualmente con una cha biobibliográca; de ellos, 
cumplen los criterios antes mencionados (un   sobre el total de autores ya estudiados).
Tabla 8. Autores hispanoamericanos en la BVFE .
Registros totales (autores) Registros con cha Fichas de autores hispanoame-
ricanos
1917 911 202
11 Alfabéticamente, las lenguas que han aportado registros a las BVFE son: achagua 2, aimara 18, allentiac 12,
arasairi 1, atacameño 5, ayook 1, baure 3, biceita/viceyta 2, boruca 1, bribri 1, cabécar 20, cachi 28, cachiquel
26, cahíta 21, campa 3, caviñeno 2, chaima 3, chanabal 3, chiapaneca 3, chibcha 19, chilote 1, chinanteco
1, chinchaisuyo 1, chiquito 5, chirripó 1, chol 6, choltí 5, coa 3, comanche 1, cora 3, cumanagoto 4, cuna 1,
eudeve 1, guahibo 5, guaraní 26, guatuso 1, guaymíe 1, hegue 1, huasteco 14, ixil 1, kunza 1, lean 1, lenguas
de México 23, lule 18, machiguenga 1, mam 12, mame 5, mapuche 57, matlatzinca 4, maya 35, mazahua 1,
mazateco 1, michoacano 28, mixe 2, mixteco 10, mochica 1, mojo 19, morocosi 1, muisca 16, mulía 1, mutsun
7, nahua 135, névome 3, ópata 1, orosí 1, otomí 57, páez 2, pame 1, paria 2, pima 3, pocoman 8, pocomchí
4, popoluca 1, purépecha 27, quechua 79, quekchí 1, quiché 24, rusien (Canadá) 1, sáliba 1, setevo 1, siona
1, sipibo 1, subinha 1, tacana 2, talamanca 1, tarahumara 6, tarasco 33, tatché 2, telamé 2, tepehuán 1,
tepeguano 1, térraba 2, timucua 1, toba 2, totonacalpa 1, totonaco 1, tucurrique 1, tupí 17, tzeltal 7, tzendal
7, tzotzil 4, tzutuhil 2, yaqui 1, yook 1, yunga 5, yupa 1, zapoteco 24, zend 9, zoque 8, zutunil 4.

En cuanto a la época en que estos autores desarrollaron su actividad, los datos reejan,
como era de esperar, un continuo crecimiento a medida que pasa el tiempo. De los ocho
autores del siglo  se pasa a los  del siglo .
Tabla 9. Autores y siglos.
Siglos Número de autores
Siglo xvi 8
Siglos xvi-xvii 10
Siglo xvii 19
Siglos xvii-xviii 4
Siglos xviii 21
Siglos xviii-xix 7
Siglo xix 72
Siglos xix-xx 47
Siglo xx 14
En las primeras centurias destaca la presencia de misioneros de diferentes órdenes religiosas,
mientras que en las últimas los protagonistas son prestigiosos lingüistas internacionales que
desarrollaron su labor docente e investigadora o publicaron sus textos en sus países natales.
12 -
mente: Abeille, Luciano. xix-xx; Ágreda, Antonio de. xviii; Agüero, Cristóbal de, O. P. xvii; Aguilera Patiño, Luisita, xx;
Alvarado, Francisco de, O. P. xvi-xvii; Amunátegui Aldunate, Miguel Luis. xix; Anchorena, José Dionisio. xix; Arenas,
Pedro de. xvii; Arias de la Vega, Eusebio. xix; Armentia, fr. Nicolás. xix; Arroyo, Santiago. xviii-xix; Aza, José Pío, O.
P. xix-xx; Baralt, Luis A. xix-xx; Bárcena, Alonso de, S. I. xvi; Basalenque, Diego, O. S. A. xvii; Bayo, Ciro. xix-xx; Bello,
Andrés. xix; Belmar, Francisco. xix-xx; Beltrán de Santa Rosa María, Pedro, O. F. M. xviii; Bertonio, Ludovico, S. I.
xvi xvii; Botello Movellán, José Ceferino. xviii xix; Caballero, Darío Julio. xix; Cáceres, José María. xix; Caro,
Miguel Antonio. xix; Carochi, Horacio, S. I. xvii; Carricaburu, Alfredo. xix; Chimalpopocatl Galicia, Faustino. xix-xx;
Chomé, Ignace, S. I. xviii; Ciudad Real, Antonio de, O. F. M. xvi-xvii; Company Company, Concepción. xx; Conto,
César. xix; Córdova, Juan de, O. P. xvi;xix; Dávila Garibi, José Ignacio Paulino. xx; Espinosa,
Juan. xix; Febrés, Andrés, S. I. xviiixix; Flores, Ildefonso José, O. F. M. xviii; Franco, José
Félix. xix; Frías, Heriberto. xix; Fuentes, Ventura y Victor E. François. xix-xx; Galván, Mariano. xix; Gárate Arriola,
Justo. xx; García del Río, Juan. xix; Gilberti, Maturino, O. F. M. xvi; Gómez de la Maza, Manuel. xix-xx; González del
Valle, Manuel. xix; González Holguín, Diego, S. I. xvi-xvii; Guerra, Juan, O. F. M. xvii; Gutiérrez, Rafael. xix; Henríquez
Ureña, Pedro. xx; Herranz y Quirós, Diego Narciso. xviii-xix; Huerta, Alonso de. xvi-xvii; Lemos Ramírez, Gustavo.
xviii-xix; León, Nicolás. xix-xx; Limardo, Ricardo Ovidio. xix; López Yepes, Joaquín, O. F. M. xix; Lugo, Bernardo de,
O. P. xvii; Machoni de Cerdeña, Antonio, S. I. xvii-xviii; Magdalena, Agustín de la, O. F. M. xviii; Marroquín, José
Manuel. xix; Matto de Turner, Clorinda. xix; Membreño, Alberto. xix-xx; Meneses y Gómez, Sabas. xix; Mesías,
José Mercedes. xix; Mossi, Miguel Ángel. xix; Navarro, Manuel, O. F. M. xix-xx; Neve y Molina, Luis de, O. F. M. xviii;
Obelar, Raimundo D. xix-xx; Oroz, Rodolfo. xx; Pareja, Francisco, O. F. M. xvi-xviixix-xx; Pichardo
y Tapia, Esteban. xix; Pinart, Alphonse Louis. xix; Pinilla, Norberto. xx; Ponce de León, Néstor. xix; Quesada,
Ernesto. xix-xx; Rabanales O., Ambrosio. xx; Restrepo, Félix, S. I. xx; Reyes, Antonio de los, O. P. xvi; Reyes, Rincón,
Antonio del, S. I. xvi; Rivera, Gregorio. xviii-xix; Rivodó, Baldomero. xix; Rojas, Arístides. xix; Rojo Mejía y Ocón, Juan.
xvii; Rosales, Carlos Joseph, O. F. M. xviii; Ruz, Joaquín, O. F. M. xviii-xix; San Buenaventura, Gabriel de, O. F. M. xvii;
Sarmiento, Domingo Faustino. xix; Suárez, José Bernardo. xix-xx; Suárez, José Bernardo. xix; Tangol, Nicasio. xx;
Tellechea, Miguel, O. F. M. xviii-xix; Thiel, Bernardo Augusto, C. M. xix; Torres Rubio, Diego de, S. I. xvi-xvii; Torresa-
no, fr. Estevan. xviii; Uribe Uribe, Rafael. xix-xx; Uricoechea, Ezequiel. xix; Valdivia, Luis de, S. I. xvi-xvii; Velarde, Fer-
nando. xix; Vetancurt, Agustín de, O. F. M. xvii; Vico, Domingo de, O. P. xvi; Vicuña Cifuentes, Julio. xix-xx; Villarreal,
La Biblioteca Virtual de la Filología Española (BVFE) y su acervo hispanoamericano

Digital Humanities, Corpus and Language Technology
Entre los primeros, ante la imposibilidad de nombrarlos a todos, queremos citar a Arenas,
Ciudad Real, Córdova, Flores, Gilberti, González Holguín, Neve y Molina, Rosales o Vico;
entre los segundos, a Bello, Cuervo, Caro, García del Río, Gómez de la Cortina, Marroquín,
Obelar, Rojas, Sarmiento o a Lenz, quien cuenta con treinta registros en la BVFE actualizados
los pasados meses (La oración y sus partes, estudios sobre el español de Chile, reexiones
sobre fonética y ortografía, ¿Para qué estudiamos gramática? o el papiamento).
4. Conclusiones
La BVFE es un proyecto consolidado, al que avalan sus once años de trayectoria, y líder en
su ámbito, como atestiguan los datos sobre el número total de visitas o sobre las páginas
visitadas. Su aportación a la sociedad del conocimiento fue reconocida el pasado mes de
septiembre con la concesión del primer premio de la V Edición de los Premios de Trans-
ferencia de Tecnología y de Conocimiento de la Universidad Complutense de Madrid
(). Resulta justo decir que esta herramienta, nacida y desarrollada en España, no
podría entenderse sin el componente hispanoamericano, al igual que le sucede al idioma
que compartimos. Para corroborar esta armación, solo hace falta traer a colación unos
cuantos datos que ya han sido apuntados más arriba:
En primer lugar, según el lugar de impresión de las obras, ese componente hispano-
americano alcanza al .  de nuestros registros. Dentro de los territorios de la América
hispana destaca, respecto a la cuestión que nos ocupa, la zona septentrional de Mesoamé-
rica, ocupada en el pasado por el Virreinato de la Nueva España y, desde comienzos del
siglo , por los Estados Unidos Mexicanos. Y en el seno del país azteca, brillan con luz
propia las prensas de la Ciudad de México, antaño capital del más importante virreinato
del Nuevo Mundo y hoy del país con el mayor número de hispanohablantes del orbe. A
continuación, y justo por encima del otro gran reino de las Indias españolas, el del Perú
con capital en Lima, ocupan un lugar destacado las prensas chilenas —y, en particular, las
santiaguinas—; realidad que se justica por el proceso de digitalización de documentos
llevado a cabo por las instituciones culturales de ese país del cono de Sudamérica.
En segundo lugar, si hablamos del porcentaje de registros cuyo ejemplar físico corres-
pondiente se custodia en una biblioteca de ese continente, el porcentaje asciende al . .
En este sentido y junto a la última alusión del párrafo anterior, cabe destacar en trabajo de
la Biblioteca Nacional de Colombia y el de dos de las principales instituciones mexicanas
Federico. xix-xx; Vingut, Francisco Javier. xix; Vivero, Luis Fernando. xix; Ybarra, Alejandro. xix-xx; Zambrano Bonilla,
José. xviii.

de educación superior, la Universidad Nacional Autónoma de México y la Universidad
Nacional Autónoma de Nuevo León.
En tercer lugar, un   de nuestros diccionarios, gramáticas u ortografías profundizan
en el estudio y la descripción de alguna lengua amerindia. Y, como ha quedado dicho, no
solo de las más extendidas, sino también de algunas de las más desconocidas. El quehacer
de los lingüistas misioneros fue especialmente fructífero en las áreas de los grandes virrei-
natos históricos: Nueva España —náhuatl (), otomí (), maya (), tarasco () o mi-
choacano— y Perú —quechua ()—. El papel algo sobredimensionado de las lenguas
amerindias chilenas —mapuche ()— se debe a la ya mencionada (y muy completa) di-
gitalización de las obras custodiadas en la Biblioteca Nacional de Chile.
En cuarto lugar y para terminar, del total de autores ya estudiados y que poseen su cha
biobibliográca, un   proceden de esta región del planeta. Temporalmente hablando, y
tal como ocurre con el conjunto de registros de nuestro portal (García y Peña, , -
), una mayoría de ellos pueden radicarse en el siglo  y durante el primer tercio del
. En este sentido, ese porcentaje se debe, fundamentalmente, a los trabajos realizados
por alguno de los miembros del equipo de investigación, como Jaime Peña Arce y Leticia
González Corrales, o por alguno de nuestros colaboradores, como Darío Rojas, Susana
Serra Sepúlveda, Érika Moreno o Viviana Ávila.
En denitiva, la Biblioteca Virtual de la Filología Española pretende dar soporte a cual-
quier investigador, con independencia del lado del Atlántico en el que viva, y acercarle
aquellos materiales que, geográcamente, le queden más alejados. El objetivo nal es seguir
trabajando juntos por el estudio y el cuidado de la lengua española y de todos aquellos
autores que han ayudado a engrandecerla.
Referencias
Alvar Ezquerra, M. ().Biblioteca Virtual de la Filología Española (BVFE): directorio bibliográco
de gramáticas, diccionarios, obras de ortografía, ortología, prosodia, métrica, diálogos e historia
de la lengua. [Consulta: //]. https://www.bvfe.es/es/.
Alvar Ezquerra, M. y Miró Domínguez, A. (). Antecedentes y primeros pasos de la Biblioteca
Virtual de la Filología Española. En P. Spinato, P. Bruschi, & J. J. Martínez (Eds.), Cuando quiero
hallar las voces, encuentro los afectos. Studi di Iberistica oerti a Giuseppe Bellini (pp. -).
Consiglio Nazionale delle Ricerche.
Cazorla Vivas, M.ª C. y García Aranda, M.ª Á. (). Herramientas en red: la Biblioteca Virtual de
la Filología Española. E-Scripta Romanica, , -.
Calero, E., Fernández, N. y Peña, J. (). La Biblioteca Virtual de la Filología Española (BVFE) y la
digitalización de obras complutenses del siglo. En A. Menéndez de la Cuesta González (Ed.),
Encuentros digitales: escrituras, colecciones, aprendizajes en español. Encontros digitais: escritas,
La Biblioteca Virtual de la Filología Española (BVFE) y su acervo hispanoamericano

Digital Humanities, Corpus and Language Technology
colecçoes, aprendizagem em portugués (pp.-). Universidad Complutense de Madrid y
Fundación BBVA.
Esparza Torres, M. Á. y Niederehe, H.-J. (). Bibliografía cronológica de la lingüística, la gramática
y la lexicografía del español (BICRES). Desde los comienzos hasta el año . John Benjamins.
Esparza Torres, M. Á. y Niederehe, H.-J. (). Bibliografía cronológica de la lingüística, la gramática
y la lexicografía del español (BICRES II). Desde el año  hasta el año . John Benjamins.
Esparza Torres, M. Á. y Niederehe, H.-J. (). Bibliografía cronológica de la lingüística, la gramática
y la lexicografía del español (BICRES III). Desde el año  hasta el año . John Benjamins.
Fabbri, M. (). A Bibliography of Hispanic Dictionaries. Catalan, Galician, Spanish, Spanish in Latin
America and the Philippines. Appendix: A Bibliography of Basque Dictionaries. Galeati.
Fabbri, M. (). A Bibliography of Hispanic Dictionaries. Catalan, Galician, Spanish, Spanish in
Latin America and the Philippines. Supplement I. Panozzo Editore.
García Aranda, M.ª Á. y Peña Arce, J. (). La Biblioteca Virtual de la Filología E spañola: de Antonio
de Nebrija a Antonio de Nebrija. En J. M.ª Santos Rovira (Ed.), Raíces y horizontes del español.
Perspectivas dialectales, históricas y sociolingüísticas (pp.-). Axac.
San Vicente, F. (). Bibliografía de la lexicografía española del siglo . Piovan editore.
Viñaza, Conde de la, (). Bibliografía española de lenguas indígenas de América. Sucesores de
Rivadeneyra.
Viñaza, Conde de la, (). Biblioteca histórica de la lología castellana. Imprenta y Fundición de
Manuel Tello.

De dos bases de datos relacionales a una base de datos XML. El proyecto
COMREGLA
C III
De dos bases de datos relacionales
a una base de datos XML. El
proyecto COMREGLA
From two relational databases to
an XML one. Project COMREGLA
Eveling Garzón Fontalvo a, Berta González Saavedra b, José Ignacio Hidalgo González c, Iván
López Martín b, Alberto Pardal Padín a, Guillermo Salas Jiménez b & Cristina Tur a
Universidad de Salamanca (a), Universidad Complutense de Madrid (b), IES Sant Marçal (c) –
España
Resumen:         
adaptaciones que hemos hecho a dos bases relacionales del proyecto REGLA (REc-
ción y complementación en Griego Antiguo y Latín) cuyo foco se encuentra en el

proyecto COMREGLA
otras herramientas de tratamiento automático del lenguaje y que el análisis no sea
solo de predicaciones nucleares y básicas, sino de textos completos. Para ello, se ha
-
ción morfológica, sintáctica, semántica y léxica de las bases de datos originales, dar
cuenta de la propia recursividad del lenguaje (en términos de posibles relaciones de
estructuras) y enriquecer el análisis con etiquetas para componentes que no se es-
tudiaban antes (complementación no obligatoria de la predicación expandida).
Abstract: -
bases belonging to REGLA (Rección y complementación en Griego antiguo y Latín,
Spanish acronym for Government and complementation in Ancient Greek and Latin), a
research project centred on the study of verbal predications. This transformation,
   COMREGLA, seeks to make the information


Digital Humanities, Corpus and Language Technology

-

-

  
the expanded predication.
1. Introducción
El proyecto COMREGLA tiene como objetivo hacer accesibles y compatibles con otros
recursos digitales dos bases de datos relacionales que se concibieron para estudiar las
estructuras predicativas de los verbos más frecuentes del griego antiguo y el latín. A raíz
de la aparición de corpus anotados para estas dos lenguas a partir de los años  y del
nacimiento del proyecto Linking Latin (Passarotti et al., ), se ha hecho evidente la
necesidad de abrir estas bases de datos y convertirlas en recursos accesibles y compatibles
con otras herramientas disponibles de tratamiento automático del lenguaje.
Esta transformación ha supuesto una serie de dicultades que están directamente re-
lacionadas no solo con el tipo de información almacenada en las bases de datos originales,
sino también con la naturaleza de la información recogida en los otros recursos con los
que se pretende hacer compatible nuestra herramienta.
En esta contribución, en primer lugar, presentaremos los datos contenidos en el recur-
so de partida (es decir, en las bases de datos relacionales) y explicaremos algunas de las
dicultades que entraña su adaptación para, acto seguido, describir cómo otros recursos
existentes abordan estas cuestiones (§ ). A continuación, especicaremos el marco teóri-
co en el que se encuadra nuestro proyecto (§ ), así como los aspectos metodológicos de la
transformación de las bases de datos relacionales (§ ). Por último, profundizaremos en la
descripción de algunos problemas relativos al análisis de las formas nominales del verbo y
en las soluciones dadas a estos (§ ). Para nalizar, plantearemos unas conclusiones (§ ).
1 Financiado gracias a una  de la Fundación
BBVA (convocatoria 2018).

De dos bases de datos relacionales a una base de datos XML. El proyecto COMREGLA
2. Cuestiones preliminares. Presentación de los recursos de
partida
COMREGLA ha supuesto toda una renovación de nuestros recursos que ha desembocado
en la creación de una nueva base de datos. A continuación, describiremos nuestro proyec-
to de partida, REGLA, y otros proyectos similares que han servido de base teórico-técnica
para el desarrollo de esta nueva herramienta.
2.1. Nuestro proyecto: REGLA
El grupo de investigación Rección y Complementación en Griego antiguo y Latín
(REGLA), que es el inicio del actual proyecto COMREGLA, fue creado en  por un
grupo de investigadores de cuatro universidades españolas: U. Autónoma de Madrid, U.
Complutense de Madrid, U. de Alcalá de Henares y la U. de Santiago de Compostela, al
que se fueron incorporando otras como la U. de Salamanca y la U. de Oviedo.
En los últimos años, el equipo ha estado trabajando en el desarrollo de dos bases de
datos relacionales, REGLA-Griego y REGLA-Latín, que tienen como objetivo último ob-
tener un repertorio lo más completo posible de los marcos predicativos (MP), esto es, los
esquemas de complementación obligatoria de los verbos más frecuentes en griego antiguo
y latín. Así pues, estas bases de datos han sido diseñadas para recoger, organizar y recupe-
rar las apariciones de cada verbo en un corpus seleccionado, con su correspondiente aná-
lisis sintáctico, semántico y léxico.
A pesar de sus diversas transformaciones (cambio en la nomenclatura de los distintos
proyectos nanciados y en la conguración del equipo de trabajo), el objetivo del grupo
ha sido siempre el estudio de la estructura oracional del griego antiguo y el latín y, en par-
ticular, de los aspectos relacionados con la sintaxis y semántica de los constituyentes que
la integran.
Para ilustrar el tipo de análisis que recogen estas bases de datos, podemos observar la
sección superior de una de las chas del verbo appellonombrar, denominar’ en latín:
2 En orden cronológico los proyectos concedidos son: Corpus y base de datos sobre la complementación. Un
estudio lingüístico sobre el griego y el latín (CAM 06/0013/1999); Sintaxis y semántica de la complementación II
(BFF2001-0135-C04); Corpus de rección y complementación en griego y latín (HUM2005-06622-C04); Corpus de
rección y complementación en griego y latín II (FFI2009-13402-C04); Problemas de complementación en griego
y latín (FFI2013-47357-C4); Interacción del léxico y la sintaxis en griego y latín (FFI2017-83310-C3). Como ante-
cedentes de estos proyectos se pueden mencionar Las funciones nominales en Griego y en Latín: Tucídides y
Cicerón (PS91-0014); Las unidades funcionales en la oración en griego y en latín (PB94-0197); Sintaxis, semántica y
pragmática de la complementación (PB97-0005-C04), que desarrollaron las bases teóricas. En la actualidad, el
proyecto vincula a más de una quincena de investigadores (entre profesores y alumnos de postgrado).

Digital Humanities, Corpus and Language Technology
Figura 1. REGLA.
Aquí tenemos parte del texto recogido en la cha de la Figura .
Ejemplo (1).
radix, quam Graeci  uocant, uulgus
raíznom.sg rel.ac.sg griegosnom.pl.ac.sg llaman vulgonom.sg
autem nostra consuetudine laserpitium appellat
part nuestraabl.sg tradiciónabl.sg laserpicioac.sg denomina
“la raíz que los griegos llaman ; el vulgo, en cambio, según nuestra tradición, la denomina laserpicio” (Colum.
6.17.8)
En concreto, en esta cha se analiza la predicación uulgus autem nostra consuetudine laser-
pitium appellat, traducida como “el vulgo, en cambio, según nuestra tradición, la denomi-
na laserpicio”, y se recoge la estructura argumental del verbo appello. Así pues, los elemen-
tos destacados en verde, esto es, uulgus y laserpitium, se identican con los elementos
obligatorios –y, nótese bien, explícitos– de la predicación de este verbo. En la cha se
recoge también la formalización del análisis del verbo en este pasaje en la casilla MP, donde
se nos indica que en esta construcción appello cuenta en realidad con los siguientes cons-
tituyentes obligatorios (dos explícitos y uno elíptico contextual): un Argumento 
Actor-Agente tipicado como /+humano/ (uulgus); un Argumento  Afectado /+concreto/
(elíptico contextual) y un Argumento  Afectado con la caracterización léxica /+palabras/
(laserpitium).
A pesar de que los datos consignados en estas bases de datos son de bastante calidad,
puesto que los análisis han sido llevados a cabo por miembros del equipo de investigación
con formación en lingüística y en griego y latín, esta forma de organizar y almacenar los
datos ha resultado no ser del todo efectiva, ya que plantea, sobre todo, dos dicultades:

De dos bases de datos relacionales a una base de datos XML. El proyecto COMREGLA
i Incapacidad de dar cuenta del carácter recursivo del lenguaje. Cuando un constituyen-
te de la oración forma, a su vez, una estructura predicativa propia (por ejemplo, otra
oración), no se puede abordar el análisis de manera conjunta, sino que cada elemento
predicativo ha de analizarse en una cha diferente. En el ejemplo (), el análisis de la
oración de relativo (quam Graeci σίλφιον uocant ‘que los griegos llaman silo’) no se
puede poner en relación con el de la oración principal en la que se integra.
ii Limitación del análisis a constituyentes centrales de la predicación. Por esta razón, un
sintagma como nostra consuetudinesegún nuestra tradición’ (ejemplo ), que funciona
como un disjunto (esto es, un elemento que trasciende el ámbito de la predicación),
queda fuera del ámbito de análisis en REGLA.
Identicar estas dos cuestiones problemáticas y darles una solución satisfactoria ha sido
clave para cumplir con una parte crucial del proyecto COMREGLA, como es el hacer
compatible los datos disponibles en REGLA con otras herramientas y recursos dedicados
a las lenguas que nos ocupan.
2.2. Otros proyectos
De cara a resolver los tres problemas descritos, uno de los primeros pasos ha sido compro-
bar de qué manera se abordaban en otros treebanks con anotación semántica y sintáctica,
especialmente los dedicados a las lenguas clásicas, como PROIEL (Haug & Jøhndal, ),
el Index omisticus Treebank (ITTB; Passarotti, ) y el Ancient Greek and Latin
Dependency Treebank (AGLDT; Bamman & Crane, ).
La primera de las tres herramientas se sirve del etiquetado morfológico de Universal
Dependencies para el análisis sintáctico de textos con el objetivo de presentar de forma
arbórea las distintas dependencias de un predicado; este sistema es aplicado a un pequeño
corpus de obras latinas y griegas, entre otras lenguas.
El ITTB, por su parte, surge de uno de los proyectos pioneros en lingüística computa-
cional, el Index omisticus. Su objetivo inicial era la anotación morfológica de las obras
de Tomás de Aquino. Con todo, desde hace algunos años se ha ampliado el corpus con
autores clásicos latinos, se ha comenzado a anotar también información sintáctica y se-
mántica y se ha añadido un léxico de valencias basándose en el marco teórico desarrollado
por el Prague Dependency Treebank, aunque con ciertas adaptaciones.

Digital Humanities, Corpus and Language Technology
Por último, el AGLDT, de la Universidad de Leipzig, ofrece una recopilación de textos
griegos y latinos de distintos géneros y épocas usando también el etiquetado de dependen-
cias sintácticas del Prague Dependency Treebank.
Los treebanks citados ofrecen el análisis de obras completas, por lo que se han tenido
que enfrentar a los problemas que planteábamos en el punto anterior: el análisis de estruc-
turas complejas de subordinación y coordinación con sus propias funciones y la anotación
de complementos no centrales. El análisis de estructuras complejas está resuelto por estos
treebanks; sin embargo, no permiten un análisis tan pormenorizado como el que se ofrece
en REGLA, que contempla más categorías y depura mucho más los datos. La transforma-
ción directa al formato de uno de estos treebanks habría supuesto, por lo tanto, una pérdi-
da de información de la base de datos de partida, razón por la que no se ha llevado a cabo.
Con todo, sí resultó útil la observación y el conocimiento de los treebanks mencionados
para comprobar cómo se anotaban los constituyentes no centrales de la predicación, que,
en general, reciben etiquetas distintas para marcar su relación sintáctica y semántica menos
estrecha con la predicación.
3. Marco teórico
Para explicar por qué el análisis preexistente en las bases de datos relacionales de REGLA
es más preciso y no puede ser transformado directamente al formato usado por otros
treebanks es necesario mencionar que nuestras bases de datos tienen como principal fun-
damento teórico la Gramática Funcional de S. Dik (). Este modelo se ha aplicado con
notable éxito al estudio tanto del latín como del griego. Cabe destacar en esta línea el tra-
bajo de Pinkster para el latín (; ) y los desarrollados por los miembros de REGLA
tanto para el latín como para el griego (p. ej., Baños et al., ; Torrego et al., ; Baños,
; Jiménez López, ).
En concreto, es fundamental tener en cuenta el concepto de predicación y de MP (Dik,
, p.ss; de la Villa, ) para comprender el desarrollo de la base de datos REGLA.
El primero hace referencia a una estructura sintáctico-semántica formada por un verbo y
los elementos que de él dependen, tanto si son obligatorios como si no. El segundo es el
3 Cabe mencionar además la existencia de algunos léxicos de valencias, herramientas que recogen bien la
estructura sintáctica de los verbos, como el  para las obras homéricas (que anota
según los parámetros teóricos sintácticos del ) o el IT-VaLex para la obra de
Tomás de Aquino, bien su estructura semántica, como el Latin Vallex (desarrollado a partir de la anotación
semántica del Index Thomisticus Treebank).
4 Algo similar ocurre con los léxicos de valencias de acceso abierto que, a pesar de la valiosa información que
comparten, no aportan una tan detallada y completa como la que contiene REGLA.

De dos bases de datos relacionales a una base de datos XML. El proyecto COMREGLA
esquema de complementación obligatoria de un verbo. Este estudio de los MP es, en últi-
ma instancia, el responsable de que el interés de la base de datos previa se haya centrado
sobre la complementación obligatoria y haya dejado de lado el análisis exhaustivo de todos
los elementos de la predicación y la oración.
Esta perspectiva funcionalista se ha enriquecido a lo largo de los años con aportaciones
de otros marcos teóricos anes como la Gramática Cognitiva (Langacker, ) o la Gra-
mática de las Construcciones (Goldberg, ), así como con otras teorías funcionalistas
posteriores a las de Dik, como la Gramática del Papel y la Referencia (Van Valin & LaPolla,
) y la Gramática Funcional del Discurso (Hengeveld & Mackenzie, ). Todas estas
perspectivas comparten una visión de la lengua en la que priman la función comunicativa
del lenguaje y el uso en contexto por encima de cuestiones puramente formales.
4. Aspectos metodológicos
Con el n de hacer compatibles las bases de datos REGLA-Griego y REGLA-Latín con
otras herramientas de procesamiento del lenguaje natural, era necesario hacer una migra-
ción de las dos bases de datos relacionales a una base de datos XML, COMREGLA, lo que
supone un cambio estructural de gran calado, puesto que las formas de almacenamiento
de la información son muy diferentes.
En un primer momento, tomamos como modelo un standard XML ya existente para
el análisis sintáctico y semántico necesario en la creación de treebanks, el Prague Markup
Language (PML), un sistema de marcado desarrollado para el Prague Dependency Treebank
y que ya ha sido aplicado al latín en el ITTB, entre otros recursos (cf. §.).
A grandes rasgos, el PML es un marcaje stand-o que se articula en cuatro capas o
niveles de análisis: tokens o nivel words, morfología o nivel morfológico, análisis sintáctico
o nivel analítico y análisis semántico-pragmático o nivel tectogramatical. No obstante, tal
y como hemos mencionado (§ .), no resultó ser del todo compatible con el tipo de infor-
mación que se almacena en nuestras bases de datos relacionales. En efecto, si bien hasta el
nivel morfológico el PML se adecúa correctamente al tipo de información de REGLA, en
el nivel sintáctico y semántico, sigue preceptos teóricos diferentes a los que sustentan nues-
tro proyecto. Por otra parte, PML resulta insuciente para reejar determinada informa-
ción sintáctica y semántica que se tiene en cuenta en REGLA (como es el caso de las ca-
5 Por ejemplo, el PML distingue entre argumentos y adjuntos obligatorios, mientras que en COMREGLA los


Digital Humanities, Corpus and Language Technology
racterísticas semánticas de las predicaciones en su conjunto, cuando son componentes de
una principal).
Así las cosas, decidimos que los elementos de la base de datos COMREGLA estarían
anotados mediante un sistema propio de etiquetas XML que se ajustara lo más posible a
los campos de las bases de datos relacionales de REGLA. Este sistema de etiquetas se basa
en buena medida en el PML, pero también en otros sistemas de gramática de dependencias,
como PROIEL.
Las bases de datos de REGLA contienen cuatro tipos de información lingüística: mor-
fológica, sintáctica, semántica y léxica. Esta información se ha redistribuido, como se ob-
serva en la tabla , en dos niveles stand-o: , en el que se recoge la forma y el lema
de cada palabra del texto, así como su información morfológica, y , que es de
mayor complejidad, en el que se explicitan los rasgos léxicos de las unidades lingüísticas,
las relaciones sintácticas y semánticas que se establecen entre ellas y las jerarquías de es-
tructuras sintácticas en las que se insertan.
Tabla 1. Distribución de la información lingüística en los nuevos niveles.
WORDS CLAUSES
Morfología Forma y lema
Características
morfológicas
-
Sintaxis - Palabras (words) < Predicaciones (clauses) < Oraciones (sentences)
Relaciones sintácticas (dependencias, funciones sintácticas, etc.)
entre las palabras de una oración,
entre las predicaciones que conforman una oración
Semántica - Características semánticas
de las relaciones (funciones semánticas, tipos de subordinación,
etc.),
de las predicaciones (polaridad, diátesis, fuerza ilocutiva, control,
aspecto léxico, etc.)
Léxico - Rasgos léxicos
Los aspectos sintácticos que se recogen en la capa  parten de la división del texto
en unidades. Todo texto se compone de palabras y otros tokens como la puntuación, núme-
ros, etc., que constituyen la forma más básica (). Las unidades básicas comprendidas
entre puntuación fuerte forman oraciones (). Entre ambas unidades se sitúa la
unidad lingüística que para nosotros es central: las predicaciones (), que es, como
se dijo en § , la unidad de análisis fundamental de las bases de datos relacionales de

De dos bases de datos relacionales a una base de datos XML. El proyecto COMREGLA
REGLA. Una vez determinadas las unidades sintácticas, establecemos las relaciones entre
estas unidades, tanto de las palabras entre sí, como de las predicaciones u oraciones.
Asimismo, las relaciones entre las unidades sintácticas tienen una dimensión semánti-
ca, para lo que se consignan, por ejemplo, las funciones semánticas, que denen el tipo de
relación entre el verbo y sus elementos (Agente, Paciente, Beneciario, etc.) o los tipos de
subordinación (completiva, condicional, concesiva, etc.). Además, las propias predicacio-
nes tienen ciertas características semánticas que les son propias, como pueden ser la pola-
ridad, la diátesis, la fuerza ilocutiva o el aspecto léxico. Por último, se anota la información
sobre el léxico de los elementos que funcionan como participantes en la oración.
Como se ha ilustrado anteriormente, en las bases de datos relacionales se analizan
fragmentos sueltos sin conexión entre ellos, elegidos solamente con el n de analizar los
MP de ciertos verbos. En la nueva base de datos, en cambio, las oraciones se encontrarán
en su contexto, ya que se analizan textos completos. Comparemos el análisis del ejemplo
() en REGLA (Figura ) con la forma que presenta el mismo ejemplo en la base de datos
COMREGLA. En la capa , como se ha mencionado ya, aparece la información
morfológica de cada palabra. Así, como se puede observar en la tabla , de la palabra radix
‘raíz’, por ejemplo, se recogerá el tipo de palabra (sustantivo), la declinación (ª declina-
ción), el caso, el número y el género. Para el verbo uocant ‘llaman, se incluirán datos como
la conjugación, el tiempo, el modo, la voz, la persona y el número.
Tabla 2. Análisis del ejemplo (1) en COMREGLA.
radix quam Graeci σίλφιον uocant uulgus autem nostra consue-
tudine
laserpi-
tium
appellat
Sust.
3ª decl.
Nom.
Sg.
Fem.
Pron.
Acus.
Sg.
Fem.
Sust.
2ª decl.
Nom.
Pl.
Masc.
Sust.
2ª decl.
Acus.
Sg.
Fem.
Verbo
1ª conj.
Pres.
Ind.
Act.
3 pers.
Pl.
Sust.
2ª decl.
Nom.
Sg.
Neutr.
Indecl. Det.
Abl.
Sg.
Fem.
Sust.
3ª decl.
Abl.
Sg.
Fem.
Sust.
2ª dec.
Acus.
Sg.
Neutr.
Verbo
1ª conj.
Pres.
Ind.
Act.
3 pers.
Sg.
En la capa , por su parte, se muestran las relaciones entre las palabras dentro de
las predicaciones y entre las predicaciones entre sí. Dado que, como se ha visto antes, el
verbo es generalmente el núcleo de la predicación, en nuestro ejemplo, hay dos predica-
ciones, una cuyo núcleo es uocant ‘llaman’ y otra cuyo núcleo es appellat ‘denomina. Los
demás elementos de la predicación se relacionan con ellos tanto sintáctica como semánti-
camente. De este modo, por ejemplo, Graeci ‘los griegos’ es el sujeto (función sintáctica)

Digital Humanities, Corpus and Language Technology
Agente (función semántica) de uocant ‘llaman, y uulgus ‘el pueblo’ cumple las mismas
funciones (sujeto Agente) respecto a appellat denomina’.
Así mismo, los elementos de una predicación pueden remitir secundariamente a otros
componentes. Por ejemplo, los nombres σίλφιον y laserpitium, que es como cada uno de
los pueblos llama a la raíz en cuestión, cumplen una doble función: sintácticamente son
complementos del objeto obligatorios de los verbos llamar y denominar (“a la raíz la llaman
laserpicio”), semánticamente hacen referencia a radix ‘la raíz’. Esta doble relación está mar-
cada mediante una línea discontinua.
Por otro lado, las predicaciones en su conjunto también cuentan con sus propias carac-
terísticas sintácticas (si se trata de una oración principal o subordinada; si es esto último,
de qué tipo es y qué función sintáctica cumple) y semánticas (si es un evento controlado,
su polaridad y diátesis).
Además de todo esto, se reejan las características léxicas de los distintos elementos,
sean palabras o predicaciones completas.
En la siguiente ilustración se muestra un modelo de representación gráca del análisis
en COMREGLA.
Figura 2. Modelo de representación de la capa clause s para el ejemplo (1).

De dos bases de datos relacionales a una base de datos XML. El proyecto COMREGLA
5. El problema de las formas nominales del verbo en latín y en
griego antiguo
Una vez presentada la estructura general de la nueva base de datos XML, ahora profundi-
zaremos en la descripción de algunos problemas relativos al análisis de las formas nomi-
nales del verbo –elementos altamente productivos en las lenguas estudiadas (§ .)– y en
las soluciones que se ofrecen desde el nuevo modelo COMREGLA (§ .).
5.1. Descripción de los problemas
Las llamadas “formas nominales del verbo” tienen unas peculiaridades morfológicas que
las hacen participar de una doble naturaleza nominal y verbal, pero la razón por la cual las
hemos escogido para profundizar en los problemas que nos han surgido es que en el plano
sintáctico y semántico se caracterizan, sobre todo, porque no suelen formar una oración
independiente: no suelen constituir un mensaje completo, puesto que no tienen autonomía
sintáctica ni comunicativa. Tienen, pues, un carácter subordinado: están insertas en una
oración y, a la vez, tienen su propio MP.
A través de los ejemplos que se analizan a continuación se ilustra la gran variedad de
construcciones sintácticas a las que dan lugar estas formas nominales y se recoge de ma-
nera esquemática la información presente en las bases relacionales de REGLA.
Para comenzar, en el ejemplo () tenemos una construcción de innitivo no concerta-
do, donde el verbo en innitivo (facere) se inserta en el MP del verbo principal (uolo), al
tiempo que tiene su propia complementación: un sujeto (te) y un objeto (hoc). El innitivo
participa, en este sentido, en dos predicaciones al mismo tiempo.
6 Estas no son las únicas construcciones que forman oraciones subordinadas en griego y en latín, pues
tenemos oraciones introducidas por conjunciones subordinantes, así como por pronombres relativos. Sin
embargo, la elección de las formas nominales del verbo para este artículo es que son mucho más frecuentes
y productivas en ambas lenguas.
7 En los modelos de representación de los ejemplos se han empleado las siguientes abreviaturas:
ARG-SBJ: argumento-sujeto
ARG-OBJ: argumento-objeto
CN: complemento del nombre
Coord: coordinación
Disj: disjunto
elip: elemento elíptico
MP: marco predicativo
Prep: preposición
*: elemento sin correspondencia en el nivel words

Digital Humanities, Corpus and Language Technology
Ejemplo (2).
nunc ego te facere hoc uolo
adv pron.ac.sg pron.ac.sg inf.pres.act pron.ac.sg querer1sg.pste.ind.act
“ahora yo quiero que tú hagas eso” (Plaut. Bacch. 93)
Figura 3. Modelo de representación del ejemplo (2).
Otra construcción típica de estas formas en las lenguas clásicas es la del participio sustan-
tivado, ilustrado en (). En ejemplos como este, a la participación de la forma nominal del
verbo en dos predicaciones a la vez se añade el problema del marcaje del léxico. En efecto,
debido a la sustantivación de ο οκοντε ‘los que viven’ nos encontramos con una dico-
tomía a la hora de establecer el léxico del participio: ¿es /+humano/ porque está sustanti-
vado o es /+evento/ porque expresa un estado?
Ejemplo (3).
 ο οκοντες
permanecer
3pl.aor.ind.act
part adv art.nom.pl prep art.
ac.sg
marac.sg habitarpart.
pres.nom.pl

prep Solos
dat.pl
“Y se quedaron también los que viven junto al mar, en Solos” (X. An. 1.2.24).

De dos bases de datos relacionales a una base de datos XML. El proyecto COMREGLA
Figura 4. Modelo de representación del ejemplo (3).
El ejemplo () representa otra de las estructuras habituales a las que dan lugar estas formas:
el participio atributivo. En este caso, el participio είνα ‘que permanece’ funciona como
un modicador de στρατ ‘ejército. Sin embargo, en su análisis se pierde información
sobre su complementación, dado que se le asigna un sujeto elíptico contextual, a pesar de
que tal sujeto sea el sustantivo στρατ.
Ejemplo (4).
  μείνας  
conj conj art.nom.sg permanecerpart.
nom.sg
adv prep Greciagen.
sg
lugardat.
pl.
  
ejércitonom.
sg
conseguir3sg.
fut.ind.act
regresogen.
sg
salvaciónac.sg
“pero ni siquiera el ejército que permanece ahora en territorio griego conseguirá la salvación del regreso” (A. Pers.
796-797).

Digital Humanities, Corpus and Language Technology
Figura 5. Modelo de representación de ejemplo (4).
En resumen, por la naturaleza de las lenguas clásicas, las formas no personales del verbo
son uno de los escollos más frecuentes y que mejor ilustran este proceso de transformación
de un sistema a otro, ya que obligan a condensar información que, hasta el momento,
aparecía en dos (o más) chas y a establecer cuál es la relación entre las predicaciones, sea
esta de carácter obligatorio, tal como hemos visto en los ejemplos () y (), o no, como en
el ejemplo ().
Por otra parte, vemos cómo hay otros elementos que están dentro de la predicación o
que unen una oración con la anterior en el texto (en el ejemplo , λλ’ y οδ’ cumplirían
esta función) o que enlazan predicaciones y que quedarían sin etiqueta (al igual que la
predicación segunda en ) y tampoco aparecerían recogidos de ninguna manera.
5.2. Soluciones adoptadas en COMREGLA
El nivel  del marcaje en XML de COMREGLA ofrece las herramientas necesarias
para afrontar los problemas planteados por las formas no personales del verbo. Veamos
cada uno de los ejemplos y comprobemos cuáles son las soluciones que proponemos en
COMREGLA.
Figura : respecto a la integración de subordinadas en sus respectivas predicaciones
principales, problema que se ilustró en el ejemplo (), la nueva base de datos permite es-
tablecer la naturaleza morfológica y sintáctico-semántica del objeto de la predicación re-
gida, a diferencia de REGLA; recordemos que en estas solo se recogía la información
morfológica (un innitivo) sin que se pudiese establecer la relación entre ambas predica-
ciones. Para relacionarlas, como se observa en la gura , la base de datos COMREGLA

De dos bases de datos relacionales a una base de datos XML. El proyecto COMREGLA
se sirve de un elemento en la oración principal que no remite a ninguna realidad textual y
que recoge la información de la predicación subordinada (*).
Figura 6. Solución de análisis en COMREGLA para el ejemplo (2).
Figura : el segundo de los problemas que plantean las formas nominales de los verbos y
que se ha ejemplicado en () es la necesidad de recoger la información léxica de las pre-
dicaciones subordinadas cuando están sustantivadas. A este respecto, como se ilustra en la
gura (), la base de datos COMREGLA es capaz de almacenar esta información, añadién-
dosela al elemento (*). Así, en la oración principal, el elemento que remite a la predicación
 en su conjunto presenta el rasgo /+humano/ y la predicación en sí conserva su carácter
de evento. Además, permite etiquetar elementos que no pertenecen a la predicación
nuclear, como δ y κα.
Figura 7. Solución de análisis en COMREGLA para el ejemplo (3).

Digital Humanities, Corpus and Language Technology
Figura : en el análisis de la base de datos REGLA, no es posible establecer una relación entre
el participio atributivo (είνα) y el sustantivo al que complementa (στρατ). Por el contrario,
la nueva base de datos, como se ve, permite relacionar ambos términos en dos sentidos: por
un lado, mediante un elemento en la oración principal que no remite a ninguna palabra y que
recoge la información de la predicación subordinada en su conjunto se marca la función de la
predicación subordinada como complemento del nombre στρατ. Por el otro, en la predica-
ción subordinada se considera un sujeto elíptico cuya información es coincidente con la de
στρατ. Además, como ya sucedía en la gura , los elementos que no pertenecen estricta-
mente al ámbito de la predicación, sino al nominal (como los artículos) y al oracional (partí-
culas discursivas y algunos adverbios), reciben sus etiquetas correspondientes.
Figura 8. Solución de análisis en COMREGLA para el ejemplo (4).
A través de los anteriores ejemplos hemos podido mostrar cómo el nuevo análisis propues-
to por COMREGLA permite solucionar los problemas principales que plantean las bases
de datos relacionales REGLA: la relación entre predicaciones y el etiquetado de elementos
que no pertenecen a la estructura obligatoria de la predicación.
De esta manera, la información recogida en COMREGLA mantiene el análisis rena-
do de las bases de datos predecesoras solventando sus carencias y consiguiendo, al mismo
tiempo, ser compatible con otras herramientas de PLN.
6. Conclusiones
Como se ha podido comprobar, la nueva base de datos XML hereda de las antiguas bases
de datos relacionales la capacidad de almacenar y gestionar un profundo análisis sintácti-
co-semántico que puede ser de enorme ayuda en la labor de investigación lingüística del
griego antiguo y el latín, pero también supone algunas novedades respecto a sus predece-
soras.

De dos bases de datos relacionales a una base de datos XML. El proyecto COMREGLA
Como se recordará, las bases de datos relacionales de las que parte este trabajo se nutren
de fragmentos no conectados entre sí, de los que solo podían analizarse el verbo y su com-
plementación obligatoria. Frente a esto, la base de datos COMREGLA permite tanto eti-
quetar textos completos, estableciendo para ello las relaciones pertinentes entre distintas
predicaciones, como analizar todos sus componentes, sean obligatorios o no.
Asimismo, posibilita unas búsquedas mucho más precisas y completas, al haber mucha
más información analizada que poder recuperar: estructuras complejas como las formas
nominales del verbo, adjetivos con función atributiva, construcciones no pertenecientes a
la predicación, entre otras, sin perder la precisión que se había ganado con la anotación
detallada de las estructuras predicativas.
Por otro lado, el hecho de emplear la misma tecnología que otros recursos similares,
como, por ejemplo, LiLa, permite la compatibilidad con ellos y, aunque esté de momento
centrado en el latín y el griego antiguo, es un modelo de etiquetado que podría aplicarse a
otras lenguas.
Referencias
Bamman, D. & Crane, G. (). e Ancient Greek and Latin Dependency Treebank. In C. Sporleder,
A. van Den Bosch & K. Zervanou (Eds.), Language Technology for Cultural Heritage, ser.
Foundations of Human Language Processing and Technology (pp. -). Springer.
Baños, J.M. (coord.) (). Sintaxis del latín clásico. Liceus E-Excellence.
Baños, J.M., Cabrillana, C., Torrego, M.E. y de la Villa, J. (). Praedicativa: complementación en
griego y latín. Universidade de Santiago de Compostela.
Dik, S. C. (). e eory of Functional Grammar (K. Hengeveld (ed.); nd, rev. ed., Issues -).
Mouton de Gruyter.
Goldberg, A.E. (). Constructions: a Construction Grammar approach to argument structure. e
University of Chicago Press.
Hajič, J., Bejček, E., Bémová, A., Buráňová, E., Hajičová, E., Havelka, J., Homola, P., Kárník, J.,
Kettnerová, V., Klyueva, N., Kolářová, V., Kučová, L., Lopatková, M., Mikulová, M., Mírovský,
J., Nedoluzhko, A., Pajas, P., Panevová, J., Poláková, L., … Žabokrtský, Z. (). Prague
Dependency Treebank .. Prague: Institute of Formal and Applied Linguistics, LINDAT/CLARIN,
Charles University, LINDAT/CLARIN PID. (http://hdl.handle.net//-).
Haug D.T.T. & Jøhndal, M.L. (). Creating a Parallel Treebank of the Old Indo-European Bible
Translations. In C. Sporleder & K. Ribarov (Eds.), Proceedings of the Second Workshop on
Language Technology for Cultural Heritage Data (LaTeCH ) (pp. -). Marrakech.
Hengeveld, K. & Mackenzie, J.L. (). Functional discourse grammar: a typologically-based theory
of language structure. Oxford University Press.
Jiménez López, M. D. (Coord. Ed.) (). Sintaxis del griego antiguo.  vols. CSIC.
Langacker, R.W. (). Cognitive Grammar: an Introduction. Oxford University Press.
Passarotti M. (). eory and Practice of Corpus Annotation in the Index omisticus Treebank.
Lexis, , -.

Digital Humanities, Corpus and Language Technology
Passarotti M., Cecchini F.M., Litta E., Franzini G., Mambrini F. & Ruolo P. (). LiLa: Linking
Latin – A Knowledge Base of Linguistic Resources and NLP Tools. In T. Declerck, & J. P. McCrae
(Eds.), Proceedings of the Poster Session of the nd Conference on Language, Data and Knowledge
(LDK-PS ). University of Leipzig. DOI: ./zenodo.
Pinkster, H. (). e Oxford Latin Syntax. Volume : e Simple Clause. Oxford University Press.
Pinkster, H. (). e Oxford Latin Syntax. Volume II: e Complex Sentence and Discourse. Oxford
University Press.
Torrego, M.E., Baños, J.M., Cabrillana, C. y Méndez Dosuna, J.V. (). Praedicativa II: esquemas
de complementación verbal en griego antiguo y en latín. Prensas de la Universidad de Zaragoza.
Van Valin, R. D. & LaPolla, R. J. (). Syntax: Structure, Meaning, and Function. Cambridge
University Press.
Vendler, Z. (). Verbs and times. In Z. Vendler (Ed.), Linguistics in philosophy (pp. -). Cornell
University Press.
Villa, J. de la. (). Límites y alternancias en los marcos predicativos. In J. M. Baños, C. Cabrillana,
M. E. Torrego, y J. de la Villa (Eds.), Praedicativa. Complementación en griego y latín (pp. -).
Universidad de Santiago de Compostela.

C IV
Análisis del epistolario del coronel
Anselmo Pineda con Python: una
mirada al proyecto coleccionista y
al territorio desde las redes
sociales y el aprendizaje
automático
Analysis of Colonel Anselmo
Pinedas epistolary with Python: a
glance to the collecting project from
the study of the territory and social
networks
Santiago Alejandro Ortiz Hernández
Red Humanidades Digitales – Colombia
Resumen: Este artículo analiza el coleccionismo del coronel Anselmo Pineda, quien
fue el mayor coleccionista de documentos públicos del siglo XIX colombiano, a partir
de su voluminoso epistolario conservado en la Biblioteca Nacional de Colombia. Se
usa una metodología mixta que combina la tradicional lectura cercana y la lectura
distante realizada por la máquina e implementada a través de técnicas propias de la
-
thon. De manera que, a través de esa doble lectura, se propone alcanzar dos obje-
tivos: I) plantear una aproximación basada en humanidades digitales e historia dig-
ital que permita descubrir el método de recopilación de documentos del coronel al
examinar la composición de su red de colaboradores reconstruida exclusivamente
mediante su correspondencia personal, y II) explorar el alcance espacial de esa red

Digital Humanities, Corpus and Language Technology
de colaboradores de forma tal, que posibilite la evaluación de la dimensión espacial
en la conformación de la biblioteca Pineda en el marco del proyecto civilizatorio de
la naciente república en Nueva Granada.
Abstract-
jor documental collector of Colombian XIX century, taking as source his rich and
abundant personal correspondence preserved at the National Library of Colombia.
The previous through a mixed methodology that blend the traditional close reading
of the letters and distant reading performed by the machine and implemented
trough data science and GIS




and II

under the civilizatory project at the emergent republic of Nueva Granada.
1. Introducción
Con base en la abundante correspondencia personal del coronel Anselmo Pineda dispersa
en varios archivos colombianos públicos y privados, en las pocas biografías juiciosas del
coronel y en una investigación del autor del presente texto que contó con la nanciación
del Ministerio de Cultura de Colombia a través del programa de estímulos para la investi-
gación en Humanidades Digitales, se reconstruyó tanto la trayectoria del militar, político
e ilustrado, así como su estrategia coleccionista. En ese sentido, la trayectoria del coronel
estuvo desde muy temprano marcada por la guerra y por un indiscutible patriotismo que
se expresaba no solo en sus actos de lealtad a los ideales republicanos del siglo XIX, sino
en sus consistentes esfuerzos por construir un monumento a la república, que en forma de
colección documental, cumpliera el propósito de servir como archivo para el doble propó-
sito de la conservación de la memoria y la identidad nacional, así como fuente de autoridad
y legitimidad estatal desde un punto de vista jurídico y político.
Tras el proceso de independencia, la naciente república neogranadina resultó con un
vacío simbólico y documental que requirió de la agencia de una extensa red de ilustrados,
libreros, amigos, familiares y, en menor medida, autoridades estatales que colaboraron en

Análisis del epistolario del coronel Anselmo Pineda con Python: una mirada al proyecto coleccionista y al territorio
desde las redes sociales y el aprendizaje automático
la consecución de un gran proyecto coleccionista materializado en dispersas colecciones
privadas de diversa índole. Algunas de estas colecciones no solo fueron pensadas por sus
propietarios en términos de su coherencia y orden interno, también fueron pensadas para
enlazarse con otras y formar una sólida base documental que solventara la urgencia fun-
dacional de un archivo de la historia y la ley de la república. Es el caso de la colección Pi-
neda, la más grande del siglo, diseñada por su autor-coleccionista para eslabonarse con las
colecciones de menor volumen que paralelamente organizaban el general Joaquín Acosta
y Manuel Ancizar, y dotar así a la Biblioteca Nacional de un gran repositorio conocido
como la Biblioteca de Obras Nacionales que desde la geografía, la historia, los soportes de
documentos ociales y la literatura legal y política, hiciera las veces de punto de partida
para la historia del progreso, la formación nacional y la consolidación estatal. De manera
que hubo un proyecto coleccionista consciente y colectivo que buscó hacer de algunas de
las colecciones privadas un recurso indispensable para el Estado.
Este proyecto coleccionista fue consustancial al proyecto de colonización interna y a
los esfuerzos civilizatorios de las élites criollas, en la medida de que los más importantes
coleccionistas, como Anselmo Pineda, tuvieron la doble función de adelantar la coloniza-
ción interna y exploración de los territorios, así como la de congurar una representación
y narrativa nacional a través de la recolección, clasicación y disposición del universo
documental condensado en esas colecciones privadas. Dicho esto, en la colección Pineda,
a la luz de su biografía, se maniesta la yuxtaposición del proyecto de colonización interna
del territorio con el proyecto coleccionista de la élite ilustrada de la República de Nueva
Granada, que tras la independencia comprendía a Ecuador, Venezuela, Panamá y Colom-
bia, y pasó a llamarse la Gran Colombia.
Así emerge el carácter indudablemente político del coleccionismo, pues este no solo fue una
práctica ilustrada con los nes ya mencionados, tampoco fue solo una manía compulsiva de
algunos, sino que fue un instrumento político de promoción y defensa de una determinada
visión nacionalista a la medida de su autor y de su red social. Es decir, el coleccionista, especial-
mente Anselmo Pineda, que recopila, ordena y cataloga su colección, también termina por
manufacturar una poderosa arma de guerra oponible a otros proyectos nacionales en compe-
tencia y a la que debe defender mediante el debate público en periódicos, tertulias informales
y discursos en el senado de la república, en búsqueda de suciente legitimidad para elevar su
colección privada al estatus de archivo de Estado, tal y como lo demostrará este artículo.
Siendo así, es vital señalarle al lector que el interés de este artículo versa más sobre el co-
leccionismo de Anselmo Pineda que sobre su colección propiamente, no obstante, la propues-
ta de investigación que se mostrará apunta a relacionar la colección con sus condiciones de

Digital Humanities, Corpus and Language Technology
posibilidad mediante el abundante epistolario que el coronel premeditadamente decidió con-
servar para su estudio histórico. Las Humanidades Digitales y las Geohumanidades Digitales
ofrecen una especial forma de análisis apropiada para el estudio de un especial y voluminoso
corpus de epístolas compuesto por  documentos personales que serán procesados con
diversos algoritmos diseñados por el investigador e implementados en el lenguaje de progra-
mación Python. Se explicará en detalle el proceso en el apartado sobre la metodología.
2. Antecedentes
Sobre el coronel Anselmo Pineda se han escritos contadas investigaciones con diferentes
niveles de profundidad historiográca, por un lado, existen las biografías apologéticas
mayormente publicadas a comienzos y hasta mitad del siglo XX, cuya característica es que
dan al lector una imagen de Pineda coherente con los valores cívicos y republicanos. Entre
estas encontramos La Biografía de Anselmo Pineda (León Gómez, ), y Coronel Anselmo
Pineda (Giraldo, ). Por otro lado, existen las biografías con una narrativa histórica más
rigurosa entre las que están Anselmo Pineda (Moreno de Ángel, ); e Struggle for
Power in Post-Independence Colombia and Venezuela (Brown, ), y dos tesis de pregra-
do: La Biblioteca de Obras Nacionales Formada por el Coronel Anselmo Pineda Como un
Aporte a la Formación de la Nación Colombiana, (Pardo, ) y nalmente la tesis Vida y
Obra del Coronel Anselmo Pineda. Un Estudio del Coleccionismo y las Redes Sociales en
Nueva Granada Durante el Siglo XIX (Ortiz, ).
Cabe resaltar que solo los últimos dos trabajos académicos emplean como fuentes pri-
marias la correspondencia del coronel Pineda, pero únicamente el último trabajo compren-
de todo el epistolario encontrado hasta el momento en los repositorios de la Biblioteca Na-
cional de Colombia. El presente artículo introduce también la correspondencia del coronel,
conservada en otros archivos colombianos como el Archivo Central del Cauca, Tomas Ci-
priano de Mosquera; el Archivo de la Universidad EAFIT; el Archivo Histórico Cipriano
Rodríguez Santamaría - Universidad de la Sabana; el Archivo Histórico Universidad Nacio-
nal de Colombia y, de la sección de Libros Raros y Manuscritos, el Archivo Julio Arboleda de
la Biblioteca Luis Ángel Arango. Por último, es necesario destacar que este artículo hace
parte de los resultados de varios años de investigación y trabajo de archivo que, en adición,
en  recibió una beca de investigación del Ministerio de Cultura de Colombia. Con todo,
la investigación aún se encuentra inacabada dadas las varias aristas y niveles de profundidad
para el análisis del objeto de estudio y procesamiento de las numerosas fuentes.

3. Breve biografía del coronel
Anselmo Pineda nació en abril de , en El Santuario, Antioquia, para entonces perte-
neciente a la jurisdicción de Marinilla, motivo por el cual ha existido confusión sobre su
lugar de origen. Con  años, el joven Pineda fue remitido por su padre a estudiar juris-
prudencia en el Colegio Mayor Seminario de San Bartolomé en Bogotá, pero como varios
de sus contemporáneos abandona la academia en busca de un ocio que le permitiera
iniciar una carrera en el Estado. Es así como por intermedio de su coterráneo y para el
momento Secretario del Interior, José Manuel Restrepo, obtiene el cargo de ayudante archi-
vero de la Secretaría del Interior para una año después ser promovido a ocial escribiente
de la Secretaria de Hacienda. Ambos cargos son determinantes en la trayectoria del joven
Pineda, pues al entrar en contacto con las desordenadas reservas documentales de la
naciente república, termina por motivarse a iniciar el coleccionismo documental, dice
Pineda en : “adquirí el hábito importante del arreglo de papeles de un archivo, ya desde
entonces el convencimiento íntimo, por el desorden en que se hallaba aquel y por el ímpro-
bo trabajo que costaba dar con algún antecedente” (RM , , folios -)
Sin embargo, su carrera en los archivos estatales se vería brevemente interrumpida por
un evento que obligaría a su escape rumbo a Antioquia en compañía de su entrañable amigo
Mariano Ospina Rodríguez, quien se vio envuelto en la llamada conspiración septembrina
de , en contra de Simón Bolívar. En , Pineda es nombrado por Manuel Antonio Ja-
ramillo en el cargo de ocial archivero de la Secretaría de Gobierno de la provincia antioque-
ña, pero duraría poco en el cargo debido a su incorporación a las huestes del general José
María Córdova conocidas como el Ejercito de la Libertad y que tenían como propósito en-
frentarse al gobierno central de Bolívar (Pineda, , págs. Pág. -). El conicto regional
escaló hasta convocar a los dos ejércitos en el campo de batalla de El Santuario en .
El resultado de la contienda dejó diezmado y acorralado al Ejército de la libertad, al
general Córdova muerto por ejecución sumaria (Brown, , cap. ) y a nuestro persona-
je con graves heridas de bala que, de no ser por la ayuda del hermano menor del general
Córdova, Salvador Córdova, hubiese tenido el mismo destino. Varios meses después de su
recuperación y tras el indulto otorgado por Daniel O’Leary a los excombatientes en ,
Pineda fue nombrado interventor de la Tesorería de Antioquia (Pineda, , pág. ), no
obstante, las secuelas del conicto de El Santuario estaban lejos de acabar y las relaciones
de varios implicados en la contienda apenas comenzarían. Solo un año más tarde, en ,
Pineda fue puesto en la cárcel acusado de conspirador e inepto en su cargo, pero tras fu-
garse se incorpora a las tropas de Salvador Córdova, esta vez para una nueva campaña
militar en contra del gobierno central de Rafael Urdaneta (Pineda, , págs. -).
Análisis del epistolario del coronel Anselmo Pineda con Python: una mirada al proyecto coleccionista y al territorio
desde las redes sociales y el aprendizaje automático

Digital Humanities, Corpus and Language Technology
Una vez depuesto el presidente, inicia la persecución y exilio de los bolivarianos radicales
(Brown, , cap. ), dando lugar a una reconguración de las redes de poder regionales en la
que Pineda se beneciaría. Con el patronazgo de José María Obando, ministro de guerra, Pine-
da fue restablecido en su puesto en la Tesorería de Antioquia y, en , incorporado al ejército
regular del gobierno central en donde le fueron reconocidos los rangos alcanzados en el Ejerci-
to de la Libertad. Anselmo Pineda no solo se vio beneciado en lo que respecta a su carrera
militar, también comenzó a establecer importantes relaciones personales con la élite payanesa
al contraer matrimonio con la viuda del prohombre de la independencia Pedro Acevedo Tejada.
Esta nueva relación no solo le daría mejor estatus al antioqueño, también le daría los medios
sociales para cimentar relaciones de cooperación con coleccionistas ilustrados del Cauca.
Pineda dedicó los siguientes  años al intercambio coleccionista con amigos como Anto-
nio María Gutiérrez, quien le siguiere tener buenas relaciones con los correistas y “con este
método para que lleves al cabo tus Colecciones” (RM , , folio -) y Tomás Ci-
priano de Mosquera, con quien compartía la ación botánica y naturalista (Carpeta , Pieza
, folio ; RM , , folio ), además se concentró en la fundación de sociedades
de instrucción, colegios e instituciones para la educación de niñas (RM  folio ; RM 
pág. ; RM , folio ). Sin embargo, la reconguración de las redes de poder del go-
bierno central, sumada a un ambiente político volátil y una tendencia a las armas devino en
un nuevo conicto bélico conocido como la Guerra de los Supremos. En este conicto José
María Obando, aprovechando la insurrección promovida por el cura Francisco Villota en
Pasto por el cierre de ocho conventos, se levanta en armas en contra del presidente José Ig-
nacio Márquez, por lo que fueron enviados el general Pedro Alcántara Herrán y el capitán
Anselmo Pineda, que para entonces se ocupaba del arreglo del archivo general del ejército
granadino (carpeta , Pieza , folio ), a pacicar la provincia del Cauca. En esta cam-
paña la función de Pineda consistió en administrar las nanzas del ejército por lo que fue
ascendido a tesorero de guerra (Carpeta , Pieza , folio ), y aunque no poseía cono-
cimientos contables hizo una formidable labor en la organización y control de los recursos
de campaña (Carpeta , Pieza , folio ), pero inconforme con las dicultades en su
labor (Carpeta , Pieza , folio ; Carpeta , Pieza , folio ) solicitó un reempla-
zo y también ser colocado en primera línea de combate (Carpeta , Pieza , folio ). Una
vez en el campo de batalla tuvo un destacado desempeño en la batalla de Chuaguabamba por
lo que fue ascendido a sargento mayor.
1 Los principales colaboradores en Popayán fueron la familia Arroyo y Caicedo, pero también contó con el
apoyo de los Arboleda y Mosquera.

Al levantamiento fueron sumándose caudillos de todas las provincias en oposición al gobier-
no central, incluyendo a Salvador Córdova en Antioquia (RM  Folio ; RM , folio ; RM
, folio ), motivo por el cual Pineda fue enviado por Márquez a solicitar apoyo al presidente
de Ecuador, José María Flóres, así como también ordenó a Tomás Cipriano de Mosquera a unir-
se a Pedro Alcántara Herrán en el sur. Tras la victoria, Pineda y Mosquera fueron enviados a
Antioquia para enfrentar a Córdova (Carpeta , pieza , folio ), quien al ser derrotado fue
ejecutado por Mosquera, por su parte Pineda fue remitido de vuelta al Cauca con la misión de
perseguir remanentes de guerrillas opositoras (Carpeta , Pieza , folio ; Carpeta ,
Pieza , folio ). El n de esta guerra no solo cierra un ciclo de tensiones presentes desde la
guerra de El Santuario, también marca el momento en que Pineda constituye nuevas lealtades e
inicia una carrera política, coleccionista y militar en ascenso (Ortiz, , pág. ).
En el siglo XIX la esfera política, militar e intelectual suelen sobreponerse de modo que re-
sulta imposible encasillar una gura de la época en alguna de esas categorías separadamente,
por tal motivo, al mismo tiempo que Pineda mejora su posición social y asciende en el ejército
también se va perlando como un político de inuencia. Es así como para dar por terminada la
Guerra de los Supremos es comisionado a negociar una salida pacíca con el supremo de Pana-
má, Tomás Herrera, lo que consigue con éxito y es nombrado coronel de infantería por el pre-
sidente interino y pariente Domingo Caicedo, quien además habría facilitado el matrimonio de
su sobrina María Josefa Valencia con Anselmo Pineda varios años atrás después de combatir
hombro a hombro al gobierno del bolivariano Rafael Urdaneta. La carrera política de Pineda
cobra forma con su elección como representante de Antioquia en , pero es nombrado go-
bernador de Panamá poco tiempo después por el presidente Pedro Alcántara Herrán, motivo
por el cual debe abandonar su curul en la Cámara de Representantes hasta su retorno en .
En Panamá, Pineda puso en marcha proyectos de educación popular a través de escuelas-taller
para el fortalecimiento del comercio de exportación; también mediante publicaciones periódicas
como la Cartilla Popular, la que gozó del apoyo de la élite intelectual y política local y extranjera,
es el caso del militar, intelectual y coleccionista Joaquín Acosta, quien al respecto comenta:
acabo de recibir el N.  de la Cartilla Popular [...]. Diríjase pues usted en mi nombre a Mr
Hormes Secretario de la Sociedad de Educación del Liceo de Nueva York que él le procu-
rará libros elementales escogidos por las escuelas por precios ínmos y solo calculados para
reembolsar una pequeña parte de los gastos de impresión y papel-- Hoy no tengo lugar de
buscar el cuaderno que me pide, pero seguiré por el otro correo. He leído su carta al Sr
Ordoñez en presencia de varios señores interesados en sus proyectos. Yo por mi parte nada
puedo sino suscribirme a la Cartilla más como no he visto sino el N. ignoro el precio de
la suscripción para remitirle (Acosta, RM , folio ).
Análisis del epistolario del coronel Anselmo Pineda con Python: una mirada al proyecto coleccionista y al territorio
desde las redes sociales y el aprendizaje automático

Digital Humanities, Corpus and Language Technology
Estos proyectos consistieron también en la fundación de la Sociedad Filantrópica de Pana-
má que contó con el respaldo de otras sociedades lantrópicas granadinas y de inuyentes
amigos como el cura Antonio María Gutiérrez, quien le advirtió a Pineda sobre el rol
político y la poderosa inuencia de las sociedades, dice Gutiérrez:
El primero entraremos en los trabajos de Chagres, y ya te he dicho que no nos acompañas
porque las lantrópicas, tienen ya y tendrán la parte inuyente en las elecciones i como
que he oído con disgusto que por allá trabajan bajo tus auspicios, por el B.M.O. [para
referirse a Mosquera] hace para presidente pobre patria si tendrás en tus ultimas convul-
siones un Maximiliano que te arranque las entrañas (RM , folio ).
Cabe señalar que el coronel Pineda no era un novato en este tipo de proyectos, dado que
ya contaba con experiencia en la fundación de sociedades y a él le eran reportados con
frecuencia los avances de sociedades lantrópicas en Antioquia en las que participó como
fundador en años anteriores.
Expuesto así, es evidente la inseparabilidad anotada entre el ejercicio político, militar e
intelectual de Pineda que se materializó en su Biblioteca de Obras Nacionales. En consecuen-
cia, el coleccionismo respondía a intereses especícos de un nicho social ubicado en un de-
terminado espectro político, pero también a un particular y singular proyecto civilizatorio
que, en el caso especíco de Pineda, consistía en desarrollar las bases para el progreso nacio-
nal que fundamentalmente buscaban educar a las masas en actividades prácticas para el
comercio, la construcción de infraestructura y la exploración de las zonas de frontera inex-
ploradas y alejadas del poder institucional del Estado como Panamá, Túquerres y Caquetá.
En este sentido, Anselmo Pineda a pesar de ser uno de los padres fundadores del partido
conservador, no tuvo como prioridad la enseñanza moral y si la educación práctica sin dis-
tinción de género, lo cual expresa el talante intelectual del coleccionista y su postura política
2  “No
creo demás indicar a U que en la actualidad tengo la dicha de pertenecer a la respetable y grande sociedad de
instrucción primaria de esta capital, y también correspondo a su consejo administrativo que dignamente preside el
muy ilustre señor Arzobispo y distinguido ciudadano José Manuel Mosquera, y yo desearía que la de esa provincia
se pusiera en comunicación con la de esta capital y se estableciera entre todas las asociaciones de esta clase una
marcha igual, acorde, constante y sostenida en la propagación de las escuelas de la enseñanza general”. (RM 441,
folio 105)
3 
Antioquía, dice: 
que se han presentado cuales son la supresión de billares, la corrección de niños, una contribución para alumb-

que dispone se nombre un cabildo parroquial” (RM 446, folio 109)

difícil de encasillar, muy semejante a la gura de Simón Rodríguez, a quien conoció durante
su insospechado paso por Caquetá cuando Pineda fungía como prefecto.
De conformidad con esos presupuestos identicados en la visión de progreso de Pine-
da, durante su gobernación en Panamá, este convenció al presidente Herrán de la conve-
niencia de la construcción del canal en alianza tripartita de Nueva Granada, Francia e
Inglaterra (Carpeta , Pieza , folio ; Carpeta , Pieza , folio ), pero tras
el fracaso del proyecto este renunció al cargo y con su nombramiento como prefecto de
Caquetá y luego como gobernador de Túquerres, emplea de nuevo esos instrumentos de
colonización interna practicados en Panamá, esto es: construcción de infraestructura (Car-
peta , Pieza , folio ), control del contrabando (Carpeta , Pieza , folio ),
convocatoria de colonos con exención de impuestos y adjudicación de tierras baldías (Pi-
neda, Pieza , , folios -), puesta en marcha de escuelas-taller sin distinción de
género para el artesanado (RM , Pieza ) y exploración de la geografía selvática. En
este momento, Pineda conoce al maestro de Simón Bolívar, el célebre Simón Rodríguez
(), con quien tuvo la oportunidad de desarrollar un proyecto civilizatorio único basa-
do en la colonización del territorio efectuado por ciudadanos con habilidades manuales
-agrícolas y artesanales – capaces de auto sustentarse y contribuir al desarrollo de la nación.
En particular, se propusieron, en primer lugar, enseñar en las escuelas-taller varias técnicas
de carpintería, agricultura y construcción, así como aritmética, civismo republicano, gra-
mática y retórica, y en segundo lugar, moral y catecismo, tal y como lo propuso Rodríguez,
pues se trataba de una educación a la medida de la realidad americana.
4 La colaboración entre Rodríguez y Pineda al respecto del proyecto educativo y de la exploración de la
geografía fronteriza, le cuenta el maestro a Pineda: “No escribiré a usted largo, porque se me olvidó el día del
correo, y la persona que lleva ésta a Pasto la está esperando para ponerse en talones. La casualidad ha traído
aquí un médico naturalista suizo, que anda explorando, y me ha hecho el favor de dar algunos remedios a

Cumbal. No hay más noticias del País, y en las de Santa Fe corre que el General Mosquera es Presidente de la

haciendo confesión general. Los angloamericanos se han tragado a México como un pastelito. Yo estoy bueno. El
 (Rodríguez,
Extracto sucinto de mi obra, 1954, pág. 376). Y sobre los fondos solicitados por Pineda para la manutención
de Rodríguez, Escribe Emeterio Gómez: “Para el establecimiento del señor Rodríguez se ha adelantado cuanto
ha sido posible” (RM 446, folio 192)
5 Son varias las correspondencias entre Pineda y el presidente Mosquera sobre la llegada del educador y
“solo he regresado
p[ar]a despachar la correspondencia, y asegurarle un alojamiento cómodo al ilustrado patriota Simón Rodríguez
Bolívar ¡Ah! no le hablaré nada de esta respetable sujeto, porque recuerdo,
que lo hice con vivo interés en el año pasado y V[uestra] E[xcelencia] no me contestó nada, enteram[en]te nada, le
he pagado parte de su su viaje y en el proccimo d[iciem]bre, después que me deje bien establecido aquí la escuela
normal seguirá conmigo a Bogotá voy a llevar a V[uestra] E[xcelencia] esta reliquia cuyo merito sobresaliente se
conocerá tratándolo y viéndolo [Inserto: ocupado] en la grandiosa obra de dar luz al entend[imien]to embrutesido;
desde q[u]e he tratado y conocido al s[eño]r Rod[rígue]z hasta he renunciado a la pación de vicitar la Europa, y
el tiempo q[u]e había de consagrar en esto pienso ocuparlo recibiendo lecciones de este Rusó [!]. No crea q[u]e
Análisis del epistolario del coronel Anselmo Pineda con Python: una mirada al proyecto coleccionista y al territorio
desde las redes sociales y el aprendizaje automático

Digital Humanities, Corpus and Language Technology
Si bien Pineda desarrolló un proyecto colonialista singular durante su ejercicio en car-
gos públicos en zonas de frontera, este no fue el único en emprender la colonización inter-
na al explorar y documentar personalmente vastas selvas y ríos inexplorados, atraer nuevos
pobladores y utilizar las sociedades lantrópicas para su educación a la luz de la ideología
del progreso decimonónico, es el caso de su cercano amigo y dedicado colonizador interno
Elías González con quien intercambia numerosas comunicaciones respecto a planes de
fundación de poblaciones en Tolima y Huila, y también sobre las actividades de las socie-
dades lantrópicas en la comunidad (RM , Folio ; RM , Folio ), comenta
González sobre el trabajo de Pineda: “complacido al ver que mi más querido amigo es quien
marcha a la vanguardia en la noble e interesante empresa de ilustrar y de moralizar las
masas populares de su patria” (RM , Folio ).
Pineda también se apoyó constantemente en misioneros jesuitas como José Layner, quien
emprendía viajes a través de las selvas del sur de Colombia para evangelizar indígenas, y
cuyos reportes le servían a Pineda para conocer e incorporar a su colección diarios de viaje
sobre la geografía todavía indocumentada (RM , Folio ), lo que le mereció, según el
propio Anselmo Pineda ante el congreso, el reconocimiento de autoridades en la materia
como el geógrafo y militar Agustín Codazzi, quienes reconocen la valiosa información apor-
tada por esos documentos, dice el coronel Pineda sobre carta de Codazzi: “en que manies-
ta que la “colección Pineda” suministra conocimientos nuevos i mui importantes sobre la
jeograa de territorios que nadie ha recorrido ni descrito tales son los Andaquies i Caqueta.
No solo la agencia colonialista del coronel Pineda expandió sus alcances coleccionistas,
también lo hizo para coleccionistas de raros artículos de historia natural como su colaborador,
antes enemigo en el campo de batalla de El Santuario, Daniel OLeary quien le solicita a Pi-
neda: “Si en aquel distrito nuevo para la civilización encuentra V. algunos objetos de Historia
natural que llamen la atención, suplico a V. los compre para mí, avisando de su clase y valor.
Algunas muestras de fósiles y minerales serán muy apreciadas” (Moreno de Ángel, , p.)
A su regreso a Bogotá en , el coronel Pineda ocupa su curul en la Camara de Re-
presentantes, y allí se opone a la expulsión de los jesuitas por considerarlos indispensables
le ecsajero, mi g[ene]ral, estoy encantado con el s[eño]r Rod[rígue]z y V[uestra] E[xcelencia], V[uestra] E[xcelencia]

que mis atenciones se han dirijido a otros varios medios de adelantar estos pueblos moralisar y formar constum-
 (Carpeta 41, Pieza 140, folio 21998)
6 Por la correspondencia de González con Pineda se puede establecer la cercanía del primero con el misione-
ro jesuíta José Layner con el cual efectivamente colaboró en Antioquia en tareas civilizatorias. (RM 444, Folio
201); Además, González a su llegada a Neiva en 1842, le comenta a Pineda: “

como una legua de camino hecho”. (RM 446, Folio 100)
7 Memorial dirigido al congreso. No hay registro de la carta de Codazzi dirigida a Pineda. (RM 640, Pieza. 58)

para la causa civilizatoria. Durante los siguientes años se dedicó a asuntos personales, al
intercambio de documentos, arreglo de la colección y al debate público mediante publica-
ciones sobre la importancia de la colección Pineda para la república (RM , Pieza ).
Gestión que procuró la legitimidad de la colección documental entre la élite intelectual y
política con artículos de autoría propia o de terceros para convencer de la conveniencia de
su compra por parte del congreso colombiano. Resulta imprescindible señalar que esta fue
una ardua tarea con encendidos debates sobre la relevancia de la colección, al respecto
Pineda señala en comunicación al congreso:
[…] En cuanto a la importancia de la colección, apelo al testimonio de los que la han visto,
la comisión nombrada por el cuerpo legislativo; y los que ni a estos, ni a los otros quieran
creer, suspendan su juicio hasta la próxima reunión imparcial del congreso en que los señores
Maldonado, Miranda y Paz habrán acabado su trabajo, a ellos me reero al público impar-
cial, a los amigos que tan generosamente me han franqueado algunos documentos; y para
decirlo de una vez, a los tres encargados de negocios de Francia i a la Gran Bretaña i al señor
Bucconi encargado de la numeración Romana, que han hecho más aprecio de mi penoso
trabajo que el recién venido que en un virulento articulo ha opacado mi colección basando
su artículo sobre supuestos falsos unos, y equivocados otros (RM , Pieza )
Este esfuerzo por llamar la atención hacia la colección documental y persuadir a la opinión
pública de su relevancia, respondió también a otras circunstancias personales que obliga-
ron a Pineda a publicar los catálogos y a buscar, incluso en Estados vecinos o europeos, el
apoyo que con tanta dicultad obtendría en Colombia. Esa contradicción entre ofrecer
la colección al público o conservarla para sí, dado que a los ojos del coleccionista todavía
permanecía inacabada, pone de maniesto el nivel afectivo del coleccionismo y el coste
personal de llevar a cabo esta empresa, por lo que el coleccionista maniesta:
8 
a la Constitución liberal de 1853: “Las diarias i multiplicadas ocupaciones de mi colección me habian impedido
-

. (RM 622.
Pieza. 126)
9 
importante empresa que Ud ha acometido de formar la colección estadística e histórica de los documentos cele-
bres e importantes que se han publicado en la Nueva Granada desde una época remota Con mucho gusto haré
” (RM 444, folio 244). Son varias las cartas que
demuestran el respaldo de amigos en tertulias informales y publicaciones periódicas a la colección (RM 439,
folio 81; RM 445, folio 365; RM 445, folio 367; RM 437, folio 33)
10 Fueron varias las comunicaciones que demuestran pretendidas negociaciones con el gobierno británico,
por intermedio del representante de la legación británica en Bogotá, Daniel O’Leary, para la adquisición de
la colección Pineda, (Miscelánea 1440, Pieza 8. Biblioteca Luis Ángel Arango). Así como la respuesta negativa
del gobierno venezolano a la propuesta del coronel para venderles la colección. (RM 444, folio 245)
Análisis del epistolario del coronel Anselmo Pineda con Python: una mirada al proyecto coleccionista y al territorio
desde las redes sociales y el aprendizaje automático

Digital Humanities, Corpus and Language Technology
Jamás había pensado desprenderme de la copiosa colección de documentos ociales que
poseo y de que voy a hablar, adquiridos a costa de mil privaciones desde . Pero repen-
tinamente sin casi sentirlo me encuentro al presente con enfermedades de cuidado, adqui-
ridas en el servicio, que me están inhabilitando para ocuparme en una vida activa, y esta
circunstancia fatal, agregada al deber de dar educación á  hijos me han determinado con
harto pesimismo a publicar los índices de una parte de los documentos que tengo en mi
poder y solicitar la aquiescencia de los hombres ilustrados de las  republicas en que se
dividió la antigua Colombia para generalizar dichos documentos. Estoy persuadido que
contando con las luces y la experiencia de los que tengan un mediano conocimiento de los
consabidos documentos a la vez que se les puede dar el carácter de utilidad, que es lo que
más me ha determinado a hacer la publicación podré desprenderme de ellos con un me-
diano provecho (RM , Pieza )
Finalmente, se realizó la entrega de  volúmenes y con esta la solicitud de baja del ejér-
cito por parte del coronel Pineda, pero unos meses más tarde es apresado por sospechas
de su participación en la insurrección conservadora instigada por Pastor y Mariano Ospi-
na Rodríguez. Una vez puesto en libertad, Pineda es nombrado custodio y curador de la
Biblioteca Nacional por el vicepresidente de turno José de Obaldía.
Llegados a este punto, fueron dos los eventos trascendentales en la vida del coronel, por
una parte, logra que su colección sea reconocida y aceptada ocialmente y, por otra parte,
termina su matrimonio con la payanesa María Josefa Valencia, lo cual afecta poderosa-
mente sus relaciones con ilustrados de Popayán, pero también abre nuevas posibilidades
de relación con la élite costeña después de que contrajo matrimonio con Ana María Danies
Kennedy a nales de la década del .
En lo que resta de los años , Anselmo Pineda se reincorpora al ejército para llevar a
cabo el golpe de estado, en el que participaron mancomunadamente liberales y conservado-
res, en contra del presidente José María Melo y sus políticas económicas favorables hacia el
artesanado (RM , folios -). Pineda además contrae matrimonio por segunda vez e
invierte buena parte de la contraprestación concedida por su colección en la producción de
quina y caucho en el Huila y en continuar con su colección para una posterior entrega. Los
esfuerzos coleccionistas de Pineda durante este último periodo se sirvieron del cargo que
desempeñó en Magdalena como intendente de hacienda nombrado por el presidente Maria-
no Ospina Rodríguez, quien además le encargó al coronel civilizar, pacicar e insertar en los
circuitos económicos a la Guajira (RM , Folio ). Este cargo le permitió a Pineda expan-
dir su poder político, fortalecer la sociedad de fomento a la industria que fundó (RM ,
folios , ) y tener acceso privilegiado tanto a oportunidades de negocio con comercian-
tes extranjeros para su negocio de quinas (RM , folios , ), como oportunidades de

negocio con agentes locales para su parentela (RM , Folio ), así como también conec-
tarse a fuentes documentales inéditas (RM , folios , , , ).
Años después es encargado en el arreglo de los archivos de la Tesorería General del
Estado (RM , Pieza ). Al respecto recibe la siguiente comunicación que no solo
demuestra el reconocimiento social alcanzado por Pineda en materia de organización y
catalogación de archivos documentales, sino que también, en tanto que experto como
ningún otro en materia de archivo, obtiene la conanza pública para ser encargado de
tareas sensibles para el Estado, al respecto Pineda recibe la siguiente carta:
[..] en honor de la verdad debo decir a usted que a lo que se queria dar el nombre de ar-
chivo en la tesoreria jeneral, es un cuarto donde estaban amontonados en una confusion
incomplicable, libros, legajos, documentos de deuda pública de la mayor importancia como
se ha visto despues, restos de [ilegible], y en n objetos de todas clases tan cubiertos de
polvo tan revueltos que costaba trabajo creer que aquello hubiera podido ser algun tiempo
el archivo de una de las ocinas mas importantes de la Republica. Fui testigo muchas veces,
que necesitando el gobierno ó algun particular un dato, por importante que fuera, habia
que renunciar a encontrarlo si se inferia que pudiera estar en el archivo, pues ni siquiera
se pensaba en este, y decir, tal documento debe estar en el archivo, era lo mismo que decir,
no existia. [...] Cuando sali de la tesoreria, ese cáos de papeles tomaba ya forma y usted
habia clasicado muchos documentos importantes. Pero lo que no quiero dejar de consig-
nar aqui es el importantisimo servicio que usted ha hecho a la nación desenterrando del
polvo documentos de gran valor, tales como esqueletos rmados de vales de manumición,
cupones de renta sobre el tesoro y muchos otros de un valor considerable que si hubieran
caido en manos menos dignas, como desgraciadamente ha sucedido ya, habrían causado
grandes perjuicios a nuestra hacienda [...] Me consta, así mismo, que cuando por falta de
fondos en la tesoreria jeneral ó por cualquier otro motivo, no se pagavan sus ayudantes
usted les daba adelantado de su bolsillo (RM , Pieza ).
Es importante cerrar esta condensada biografía del coronel Anselmo Pineda, haciendo hin-
capié en un aspecto clave de su estrategia coleccionista, consistente en el uso de su prestigio
personal y la legitimidad de su colección, para solicitar formalmente a las administraciones
regionales la remisión de cuanto documento fuera impreso por estos gobiernos. De manera
que ya no dependía de intermediarios que reunieran y le enviaran documentos, pues ya
gozaba de una relación directa con los gobiernos locales que destinaban algunos recursos
para alimentar su colección como si se tratase de un depósito legal, dice Pineda:
11 Anselmo Pineda, por su larga experiencia en archivos públicos y actividad coleccionista, expresa la urgencia
de profesionalizar al archivista: “Este ramo merece tanta más profesión cuanto es mayor el deseo nacional que
se advierte ya en algunos hombres ilustrados; deseo que en todos los países civilizados de la tierra ha llamado su
atención” (RM 630, Folios 24-27).
Análisis del epistolario del coronel Anselmo Pineda con Python: una mirada al proyecto coleccionista y al territorio
desde las redes sociales y el aprendizaje automático

Digital Humanities, Corpus and Language Technology
Desde  y aun desde mucho antes que me propuse compaginar y arreglar la nueva
Colección adicional que debo enlazar con la otra, dirigi circulares y comunicaciones o-
ciales a los ciudadanos presidentes de los estados sobre este asunto y lo relacionado con los
impresos que se acompañan. Pero se me ha cobrado ultimamente por el ocio que original
acompaño con la cubierta, y de seguro seguiran cobrandome por todas las notas ociales
y documentos importantes que para evitar su estrabio vengan con cubierta. Ultimamente
han aparecido entre memorias, mensajes, proclamas del Libertador y del General Santan-
der como mil otras piezas importantes de que no tan solamente no tenia noticia, sino que
en publicaciones de  habia asegurado y repetido despues no existian. […]. Por estas
razones y otras que omito por ser cansado; en atencion al absoluto abandono que he hecho
de mis negocios particulares desde hace tanto tiempo; por el desesperante anhelo de com-
plementar este aservo publico en pro de mi patria (RM , Pieza ).
De la misma manera y no menos importante, el coronel le solicita a la ocina de correos
que no se le cobre el envío de documentos pues se trata de un asunto de importancia ocial
por las siguientes razones:
Primero: Poco más poco menos desde cuando han notado ustedes que con mucha mas
frecuencia que antes los funcionarios de los Estados y aun los Presidentes de dichos Estados
me remiten, memorias, codigos de leyes y toda una a una las publicaciones ociales que se
hacen en las Capitales. Segundo: Si han notado ustedes que viniendo comunicaciones
ociales con alguna frecuencia relativos a la segunda Colección de Obras Nacionales que
hubiera ya compajinado si tuviera piezas que tengo que contestarle ocialmente y si a
pesar de palpar que es sobre asuntos ociales me han cargado el porte de los impresos que
se remiten al Estado soberano del Ystmo (RM , pieza ).
Finalmente, Anselmo Pineda entrega una segunda parte de su biblioteca en  y se reti-
ra a su casa en Fusagasugá, Cundinamarca. Muere en  dejando las huellas de una vida
de guerra, entrega a la república y a la actividad intelectual marcada por un pleno conven-
cimiento patriótico cristalizado en su colección.
4. Metodología
En ese apartado se detallará la metodología empleada para analizar el epistolario del coro-
nel Pineda ofreciendo una nueva perspectiva para leer y procesar un corpus documental
voluminoso. Son varios los componentes que hacen parte del proceso y varias las relacio-
nes entre estos, pues los distintos enfoques para el tratamiento de datos son capaces de
generar nueva información que resulta provechosa para otros procesos de cómputo. Es el
caso del modelo nal de aprendizaje automático que emplea atributos generados en cada

uno de los procesos de exploración, georreferenciación, indicadores relacionales e indica-
dores de minería de textos aplicados al corpus.
Antes de explicar cada proceso, vale la pena comentar el procedimiento de captura de
datos que se realizó de las  cartas que hasta ahora componen el epistolario Pineda. Este
proceso básicamente consolida en una base de datos la información de cada carta, tal como:
remitente; destinatario; lugar y fecha de elaboración; descripción del contenido; transcrip-
ción de al menos  cartas y una columna con un código binario que servirá para iden-
ticar la relación de la carta con el coleccionismo y también como etiqueta de evaluación
cuando se clasiquen los colaboradores coleccionistas.
Una vez consolidada la base de datos, se exploró la distribución de los datos mediante
estadísticas descriptivas básicas como frecuencia de remitentes y destinatarios, frecuencia
de contactos epistolares relacionados y no relacionados con el coleccionismo, frecuencia
de términos y su visualización sobre un eje temporal. Más tarde se llevó a cabo la explora-
ción de las redes sociales del coronel mediante la generación de grácos de red divisibles
en duraciones temporales, pero que para el presente artículo se optó por un grafo de la red
completa, aun así, se pueden distinguir interacciones interesantes. El análisis de interac-
ciones permite también producir algunos indicadores de centralidad e intermediación
útiles para identicar los nodos más importantes en la topología de la red, y además útiles
para el modelo de aprendizaje automático posterior.
Simultáneamente, se procedió a georreferenciar mediante el geoetiquetado automático
de la toponimia del lugar de elaboración de cada documento para producir mapas de dis-
tribución espacial del epistolario. Cada mapa comprende la ubicación de los lugares de
producción de las cartas dentro de duraciones especícas de tiempo dadas por aquellos
momentos de cambios abruptos en términos relacionales, identicables en el paso anterior
y sustentados en la biografía de nuestro personaje. Por último, queda una de las fases más
importantes y complejas en este estudio, conocido como Procesamiento de Lenguaje Na-
tural (NLP), que busca producir nuevos atributos derivados de la minería de texto, además
de servir para el reconocimiento de entidades (NER) como nombres de personas, lugares
u organizaciones y para el cómputo de temas principales dentro de una colección docu-
mental. Cada uno de estos procesos permite el desarrollo de diferentes herramientas se-
cundarias como un sistema de recomendación documental, basado en el cálculo de la se-
mejanza (cosine similarity) de vectores numéricos que representan cada documento en
tanto que conjunto de palabras vectorizadas según su identidad numérica, y además una
interface con los temas principales basada en una colección de diccionarios conformados
a partir de conjuntos de tres palabras, trigramas, y en un modelo de bolsa de palabras.
Análisis del epistolario del coronel Anselmo Pineda con Python: una mirada al proyecto coleccionista y al territorio
desde las redes sociales y el aprendizaje automático

Digital Humanities, Corpus and Language Technology
Figura 1. Esquema de la metodología sobre el levantamiento de datos en archivo.
Finalmente, todos los atributos numéricos generados en todas las fases descritas, además
de algunos atributos cualitativos originales como la fecha de escritura de la carta, fueron
el insumo para el algoritmo de aprendizaje automático que implementa el modelo Bosque
Aleatorio (Random Forest) para clasicar cada registro con base en su probabilidad de
pertenecer a un grupo u otro: colaborador y no colaborador. La clasicación usa una bús-
queda informada de hiperparámetros para encontrar valores óptimos de clasicación, esta
búsqueda se compone de una primera búsqueda aleatoria de hiperparámetros y luego de
una búsqueda ordenada con los mejores hiperparámetros de la búsqueda aleatoria. Para
evaluar la efectividad del algoritmo se usaron las etiquetas binarias insertadas por el equi-
po de investigación en la base de datos inicial y se computó una matriz de confusión que
muestre los errores y aciertos del proceso de clasicación automático.

Las librerías empleadas para el análisis son: I) Pandas para la gestión de la base de datos;
II) Seaborn y Matplotlib para las visualizaciones; III) Networkx y Holoviews para generar
las redes de individuos; IV) Geopy y Folium para la georreferenciación y visualización web;
V) NLTK, Gensim, Polyglot, pyLDAvis y Spacy para el procesamiento de lenguaje natural;
VI) Scipy y Scikit-learn para implementar el modelo de aprendizaje automático.
5. Análisis del epistolario con Python
Las técnicas antes descritas permiten
diseccionar con sumo detalle el corpus
epistolar, de manera que, dada la exten-
sión de un análisis que considere toda
la vida de Pineda, en esta sección solo
nos concentramos en la época más
activa del coronel y relacionada con su
coleccionismo, que como ya vimos en
el apartado biográco, tiende a coinci-
dir con el apogeo de su carrera militar
y política.
En este sentido, conforme Pineda
ganó mayor protagonismo como gura
política y militar, mayor fue su capaci-
dad de convocatoria para solicitar y
recibir documentos para la colección,
en especial durante los años que
precedieron a la primera entrega. Es
decir, a medida que la carrera política
del coronel iba en ascenso, también lo
hacía el número de cartas y, por ende,
el número de contribuciones que las acompañaban, no obstante, el signicativo esfuerzo
del coleccionista no solo radicó en solicitar documentos, sino en persuadir de la impor-
tancia de la colección en tanto que archivo de Estado (RM , pieza ).
Figura 2. Número de epístolas y menciones al colec-
cionismo por remitente en 1848-1849.
Análisis del epistolario del coronel Anselmo Pineda con Python: una mirada al proyecto coleccionista y al territorio
desde las redes sociales y el aprendizaje automático

Digital Humanities, Corpus and Language Technology
Figura 3. Actividad epistolar de Pineda, por número, y menciones al coleccionismo, por año.
Las grácas anteriores, dedicadas a la actividad epistolar y coleccionista, muestran la ten-
dencia de que, a mayor número de contactos epistolares, mayor la cantidad de contribu-
ciones a la biblioteca Pineda. Por una parte, en la primera gráca de barras aparece Josefa
Acevedo de Gómez encabezando la lista, seguida de José María Duque Pineda, primo del
coronel; Juan Nepomuceno Duque, primo; y otros corresponsales entre familiares y amigos
de los cuales sobresalen Joaquín Acosta, Manuel María Quijano, Andrés Arroyo, Domingo
Caicedo, Daniel O’Leary y Manuel María Paz. Cabe hacer la salvedad de que si bien duran-
te el periodo entre -, se da la mayor actividad coleccionista, antes existieron cola-
boradores muy importantes como la del cura dominico Antonio María Gutiérrez quien,
hasta meses previos a su muerte en , aportó  epístolas de un total de  cartas que
en el epistolario versan sobre el envío de documentos para la biblioteca Pineda.
Por otra parte, el segundo gráco muestra la actividad epistolar durante toda la vida
del coronel Pineda y las menciones al coleccionismo rastreadas con palabras clave como
manuscrito, colección, gaceta, biblioteca, cuaderno, cartilla popular, libro, compilación o
memorias, entre otros términos recurrentes en cartas que acusan envío adjunto de docu-
mentos. Esta gráca también permite evaluar la asociación entre número de contactos y
número de contribuciones, pero además posibilita la identicación del auge simultáneo de
12 Con toda certeza, Antonio María Gutiérrez fue uno de los amigos más cercanos de Anselmo Pineda. El sac-
erdote fue abogado, teólogo, orador, profesor y senador, pero además fue quien, a su regreso de Jamaica
posterior al exilio a causa de su inclinación realista previa a la independencia, reclutó al joven Pineda para

en la fundación de la masonería en Nueva Granada junto a Francisco de Paula Santander entre 1820-1825 y
RM 446, folios 85-86).

actividad epistolar y coleccionista entre - previo a un abrupto descenso en  y
a la primera entrega en .
El estudio de redes sociales aplicado a un corpus de correspondencia personal tiene
como principal utilidad la visualización de las interacciones entre sujetos y la representa-
ción de su relevancia relacional a través de códigos visuales de color y tamaño. Semejante
a un mapa geográco, un mapa relacional permite ubicar nodos y trazar los caminos o
vínculos que los interconectan, así como calcular el grado de centralidad o intermediación
de cada uno de los individuos en consideración a los vínculos que posea.
En primer lugar, la centralidad, representada por color, es el coeciente del número de
contactos que un nodo particular tiene en la red, es decir, se basa en el hecho de que nodos
importantes o populares tienen mayor número de contactos epistolares. En segundo lugar,
la intermediación, representada por tamaño, mide el número de veces en que un nodo
especíco está presente en el camino más corto entre otros dos nodos en la red, es decir,
los nodos con mayor grado de intermediación tienen un rol signicativo en la comunica-
ción y ujo de información. No menos importante es la conguración topológica de la red,
pues resulta determinante en el acceso de los nodos a recursos e información que, al estar
ubicados de manera desigual y asimétrica en la estructura social, poseen grados asimétri-
cos de inserción y posibilidades de acceso a recursos sociales. La red que se presenta en la
gura , es de tipo egocentrado, dado que el nodo central (ego) aglomera entorno a sí a la
mayoría de los vínculos existentes en la red que abarca toda la duración comprendida
entre la primera hasta la última carta del epistolario.
Esta red comprende el rango de - y ofrece gran cantidad de información visual,
en ella se prerió destacar con etiquetas los nodos de mayor centralidad. Se observa al ego
principal, el coronel Anselmo Pineda, seguido por el general Joaquín Acosta, ambos com-
partían el proyecto coleccionista privado con propósito público, tal y como se describió en
el apartado biográco, pero también se muestran otros personajes relevantes en la historia
del siglo XIX como Tomás Cipriano de Mosquera quien, como se comentó, fue un amigo
coleccionista de Pineda en su faceta naturalista y botánica (RM , Folio , -), se
encuentran también Antonio María Gutiérrez, Domingo Caicedo, Pedro Alcántara Herrán
y además se muestran otros nodos importantes en esta estructura social reconstruida des-
de el epistolario, por ejemplo, se observa la importancia relacional de la segunda esposa de
Pineda, Ana María Danies Kennedy, quien fue para el coronel la vía de acceso a la élite
costeña y la posibilidad de emprender los proyectos del gobierno central para la inserción
de las zonas de frontera al circuito económico. Danies también posee el mayor indicador
de intermediación observable en la gráca de barras incluida, seguida por la primera es-
Análisis del epistolario del coronel Anselmo Pineda con Python: una mirada al proyecto coleccionista y al territorio
desde las redes sociales y el aprendizaje automático

Digital Humanities, Corpus and Language Technology
posa de Pineda, María Josefa Valencia, quien fue a su vez la vía de acceso a la élite payane-
sa décadas antes. Estos altos índices de intermediación, con los que cuentan ambas esposas,
conrman la hipótesis sobre la importancia de los vínculos matrimoniales para conectar
al coronel Pineda con las élites a las que pertenecieron cada una de estas mujeres, y que
terminaron por impulsar tanto la carrera política y militar, como el proyecto coleccionista
del coronel Pineda.
Figura 4. Red social de Anselmo Pineda: Red epistolar-coleccionistas 1806-1880.
La anterior gura, que representa la red epistolar centrada en Pineda, se expande y aclara
en el siguiente indicador de intermediación de la gura :

Figura 5. Complemento a la red epistolar a través de sus indicadores de intermediación.
Otro matiz interesante al que se puede acceder mediante esta aproximación en HD es el
carácter espacial del epistolario que, a través del lugar de elaboración de las cartas georre-
ferenciadas, permite estudiar la distribución espacial de las redes epistolares y el espacio
de circulación de documentos puesto que, como ya se explicó, la correspondencia funcio-
naba como mecanismo para el tráco de impresos y manuscritos. En este sentido, un mapa
del epistolario hace posible dimensionar el alcance de las colaboraciones coleccionistas que
Pineda sostenía con los viajeros a Europa y con proveedores locales.
Al respecto, en respuesta a las solicitudes del coleccionista, un remitente desconocido
le cuenta a Pineda desde París:
No he olvidado las encarecidas recomendaciones de ud para solicitar las obras i escritos de
todo género relativos a la historia de nuestra patria desde su descubrimiento hasta hoy [...]
Aquí no es posible conseguir ninguno de los manuscritos u obras inéditas que especialmen-
Análisis del epistolario del coronel Anselmo Pineda con Python: una mirada al proyecto coleccionista y al territorio
desde las redes sociales y el aprendizaje automático

Digital Humanities, Corpus and Language Technology
te me recomendó Ud, como la relación del mando del Virci, Montalvo, la de Quesada, i los
demás documentos especiales antiguos i modernos de que Ud me halla en sus instrucciones.
Esperaba hallar todo esto en el tiempo durante mi viaje a España, para tener copias au-
ténticas de las interesantes piezas que Ud desea para su bella colección, i de todos los demás
documentos que pudiera descubrir; […] Respecto de las obras de Mútis, Cáldas, Lozano.
D’Eluyar i demas hombres ilustrados de nuestro pais que Emile trajo, de Bogotá a Madrid,
procuraré descubrir su paradero, i formar, si es posible, copias de las menos voluminosas i
más interesantes, pues de los escritos sobre botánica e historia natural no será esto fácil
porque entiendo que [mutilado] descubrir su paradero (RM , folio ).
Figura 6. Mapa del alcance espacial en el epistolario de Pineda por países.
En el mismo sentido, el coleccionista comenta que:
Se han mandado sacar copias de documentos sumamente interesantes que deben existir
en los archivos de Simancas; y otros de Europa; se han solicitado de las provincias docu-
mentos que pongan en claro, acontecimientos pasados que el tiempo i la indolencia han
sepultado en el olvido; como son los pormenores de la guerra de Pasto desde  hasta la
época presente, y otros muchos que son de suma importancia (RM , folio ).
Una vez señalada la potencia de explotar la dimensión espacial del corpus, podemos foca-
lizar la atención en el procesamiento de otro atributo de las cartas, a saber, su descripción
y transcripción. Como se describió en la metodología, el objetivo es descubrir los temas
principales en el corpus y discriminar todas aquellas entidades útiles para acceder a otra
dimensión del epistolario, todavía en proceso, en lo relativo a personas o lugares referidos

en el contenido de cada carta. Las siguientes grácas muestran, por un lado, la proporción
de entidades reconocidas.
Figura 7. Proporción de entidades nombradas en el corpus.
Por otro lado, se incluye una gráca del resultado del modelado de temas que muestra los
términos más importantes extraídos mediante un popular algoritmo denominado Latent
Dirichlet allocation (LDA), que permite la organización y entendimiento, desde la lectura
distante, de los temas subrepticios, pero signicativos en una gran colección de textos
(Jänicke, ). Empero, merece la pena decir que el modelado de temas no garantiza
necesariamente que los términos sean fácilmente interpretables por el ser humano, sin
embargo, existen métricas para determinar el grado de coherencia, en este caso, un indi-
cador intrínseco basado en que la ocurrencia de un término sobresaliente debe ser prece-
dida por otro término sobresaliente, en otras palabras, que la probabilidad de un término
sobresaliente debe ser más alta en un documento si este ya contiene un término sobresa-
liente, esto es el cálculo de la probabilidad condicional de ocurrencia de un término siem-
pre que ya exista otro término importante en el documento.
Análisis del epistolario del coronel Anselmo Pineda con Python: una mirada al proyecto coleccionista y al territorio
desde las redes sociales y el aprendizaje automático

Digital Humanities, Corpus and Language Technology
Figura 8. 
La siguiente gráca muestra el índice de coherencia Umass para todas las iteraciones del
modelo, dando como resultado que la mejor coherencia esta alrededor de - temas por
su cercanía al , coherencia perfecta.

Figura 9. 
La lista de términos más sobresalientes incluye palabras como colección, documentos,
impresos, gobierno, favor, publicación, gobernador, escritos, patria, viaje y pueblo, además
de otros menos claros como trabajo y administración.
Hasta ahora se han mencionado  tipos de procesamiento de lenguaje natural para
tratar el archivo epistolar de Anselmo Pineda, pero para el siguiente paso que consiste en
introducir todas las entradas de la base de datos en un algoritmo de aprendizaje automá-
tico, es necesario darle una identidad numérica para hacerlo procesable. Existen varias
maneras de surtir esa transformación, en esta investigación se usará la estadística TF-IDF
para convertir cada palabra en el valor probabilístico dado por la frecuencia de un término
en un solo texto dividida por el número de textos en el que aparece ese término, de mane-
ra que las palabras más frecuentes en un idioma y menos signicativas, palabras vacías,
son ltradas. Adicionalmente, se transforman los demás atributos cualitativos como nom-
bres y lugares a su identidad numérica mediante one hot encoding, que busca codicar
todas las categorías en una matriz binaria de ceros y unos.
Al modelo de aprendizaje automático supervisado Random Forest, elegido por obtener
mejores resultados con este corpus que otros algoritmos, se le pasa como insumo la nueva
base datos transformada desde la original con las coordenadas geográcas, fechas, conte-
nidos de las cartas, nombres y demás datos para que tome como base de conocimiento el
 de la muestra y realice la predicción sobre el  restante usando validación cruzada
para evitar fuga de datos y, en consecuencia, sobreajuste del modelo. Por otra parte, se
aplicó un modelo de aprendizaje no supervisado para identicar las agrupaciones geográ-
cas presentes en el epistolario, de acuerdo con el valor de las distorsiones calculadas entre
las distancias de los elementos de una agrupación a su centroide respectivo.
Análisis del epistolario del coronel Anselmo Pineda con Python: una mirada al proyecto coleccionista y al territorio
desde las redes sociales y el aprendizaje automático

Digital Humanities, Corpus and Language Technology
Los siguientes mapas muestran el resultado de aplicar aprendizaje no supervisado,
junto a la gráca de distorsiones para determinar el número óptimo de agrupaciones, y el
resultado del aprendizaje supervisado.
Figura 10. 
Tras un examen más detallado del mapa de agrupaciones geográcas se puede determinar
que estas coinciden, a grandes rangos, con cada ensanche o expansión de las redes sociales
epistolares de Pineda al considerar el rango temporal de cada agrupación. Dicho esto, se
calcula que la proporción de cartas en cada agrupación espacial es la siguiente: región sur
occidente contiene el  de corresponsales en un rango temporal entre -, coin-
cidente con su primer matrimonio; la región norte contiene el  de corresponsales en
un rango temporal entre -, aproximadamente coincide con su segundo matrimo-
nio; la región centro contiene el . comprendido en un rango temporal entre -,
que responde a las redes de parentesco y patronazgo tras la reconguración de las redes de
poder; la región centro occidente conserva el . entre -, coincidente con la
mudanza de Pineda a la capital. Lo anterior solo corrobora la hipótesis de que a medida
que Pineda expande sus horizontes relacionales, a través del matrimonio y las relaciones
políticas, también expande su inuencia en el territorio.
En cuanto a la evaluación del modelo predictivo, resulta muy útil el computo de una
matriz de confusión para determinar que tantos aciertos o desaciertos tuvo el algoritmo.
Este paso, a juicio del investigador, sirve más para probar qué tan útiles son los datos uti-
lizados para la predicción, que para probar la utilidad del algoritmo. Los resultados son los
siguientes:

Tabla 1. Matriz de confusión.
Valores reales
Negativo Positivo
Predicción Negativo Verdadero Negativo (608) Falsos negativos (0)
Positivo Falsos positivos (36) Verdadero Positivo (95)
De la muestra destinada a la predicción (), el algoritmo alcanzó una precisión de .,
una sensibilidad de . y una exactitud de .. Esto quiere decir que el modelo tiene
una excelente capacidad de predicción de positivos (precisión), así mismo una alta tenden-
cia a producir falsos positivos (sensibilidad) y, nalmente, una buena capacidad de produ-
cir predicciones correctas (exactitud). Estos valores, al lado de la matriz de confusión
permiten evaluar el comportamiento del modelo que, para este caso, se consideró menos
riesgoso un falso positivo a un falso negativo, dados los costos temporales de vericación
para los falsos negativos. En consecuencia, podríamos concluir que el modelo es aceptable
al ponderar falsos positivos, falsos negativos y total de aciertos.
6. Conclusión
Como se evidenció en este artículo, las diversas y potentes metodologías de las humanida-
des digitales tienen la capacidad de colocar al investigador en una posición privilegiada al
momento de enfrentarse a un complejo y voluminoso corpus documental que, en este caso,
permanecía inexplorado, tanto como la gura histórica a la que perteneció y quien sin
duda se descubre como un personaje clave para el estudio de la vida política e intelectual
del siglo XIX. El archivo epistolar de Anselmo Pineda es el laboratorio perfecto para apli-
car metodologías experimentales que sean capaces de asumir la retadora tarea de hacer
historia, a la vez que un aporte metodológico poco convencional en el campo de las HD
aplicado a la investigación social del siglo XXI en Colombia y a la historia digital. Aún son
muchas las posibilidades abiertas para el estudio del epistolario con metodologías distintas
a las presentadas o con metodologías semejantes, pero aplicadas a otros epistolarios del
siglo XIX, en un esfuerzo por comprender las dinámicas sociales de uno de los periodos
más interesantes en la historia americana.
Si bien la combinación de las diversas técnicas de análisis de datos expuestas resulta
muy potente en el caso estudiado, cada una de ellas constituye un campo especializado que
valdría la pena explorar y poner a prueba con otros archivos documentales semejantes y
epistolarios del mismo periodo. En este sentido, una de las técnicas con mayor alcance es
el análisis de redes, pues al incorporar no solo un epistolario, sino varios epistolarios de los
Análisis del epistolario del coronel Anselmo Pineda con Python: una mirada al proyecto coleccionista y al territorio
desde las redes sociales y el aprendizaje automático

Digital Humanities, Corpus and Language Technology
ilustrados de mediados de siglo, sería factible producir un mapa de topología relacional
para la élite intelectual y política del momento y abrir la puerta a un estudio sin preceden-
tes que en diferentes escalas pueda incorporar las demás técnicas de análisis digital y deri-
var en enfoques que podrían enmarcarse, bien sea, en la historia de la ciencia para el estu-
dio del tráco y difusión de saberes, textos y artículos cientícos; en la historia cultural y
política con el análisis de tendencias de agrupación y comportamientos sociales acorde al
partido político, la parentela o lugar de nacimiento; o en la geografía histórica con la com-
prensión y visualización de la estructura social de este grupo ilustrado con un énfasis en
su distribución espacial, entre otros posibles ángulos e intereses de estudio de la historia
de Colombia.
Referencias
Benjamin, W. (). El coleccionista. Libro de los Pasajes. Akal.
Bourdieu, P. (). Poder, derecho y clases sociales. Desclée.
Brown, M. (). e Struggle for Power in Post- independence Colombia and Venezuela. Macmillan.
Castillo Gómez, A. (). Del tratado a la práctica. La escritura epistolar en los siglos XVI y XVII.
En C. Sánchez, y C. Castillo (Coords.), Actas del VI Congreso Internacional de Historia de la
Cultura Escrita, Vol. , La correspondencia en la historia. Modelos y prácticas de escritura epístola
(pp. -). Calambur.
Cerarols, R. y García, A. L. (). Geohumanidades. El papel de la cultura creativa en la intersección
entre la geografía y las humanidades. Treballs de la Societat Catalana de Geograa, , -.
Derrida, J. () Mal de Archivo. Una impresión freudiana. Trotta.
González Stephan, B. (). Coleccionar y exhibir: la construcción de patrimonios culturales.
Revista de Literatura, (), -.
Gutiérrez Lorenzo, M.P. (). Prácticas y modelos epistolares de un archivo decimonónico: la
correspondencia del Hospicio Cabañas. En C. Sánchez. y C. Castillo (Coords.), Actas del VI
Congreso Internacional de Historia de la Cultura Escrita, Vol. , La correspondencia en la historia.
Modelos y prácticas de escritura epístola (pp. -). Calambur.
Hernández de Alba, G. y Carrasquilla Botero, J. (). Historia de la Biblioteca Nacional. Instituto
Caro y Cuervo.
Imízcoz, J. M. y Arroyo, L. (). Redes Sociales y Correspondencia Epistolar. Del Análisis Cualitativo
de las Relaciones Personales a la Reconstrucción de Redes Egocentradas. Redes. Revista Hispana
para el Análisis de Redes Sociales, (), -.
Jänicke, S., Franzini, G., Cheema, M. F. & Scheuermann, G. (). On close and distant reading in
digital humanities: A survey and future challenges. Procedimientos de EuroVis. (pp. -). STAR
– State of e Art Report. http://dx.doi.org/./eurovisstar.
König, H-J. (). El Camino Hacia la Nación: nacionalismo en el proceso de formación del Estado y
de la Nación de la Nueva Granada,  a . Editorial Banco de la República.
Moreno de Ángel, P. (). Anselmo Pineda. Colección Academia Antioqueña de Historia. Editorial
Vieco.
Moretti, F. (). Graphs, maps, trees: abstract models for a literary history. Ve r s o.

Ortiz, S. A. (). Vida y Obra del Coronel Anselmo Pineda. Un Estudio del Coleccionismo y de la
Redes Sociales en Nueva Granada Durante el Siglo XIX. [Tesis de grado]. Pontica Universidad
Javeriana.
Pineda, A. (). Prospecto. En J. M. Bermúdez (Ed.), La Cartilla Popular: periódico moral, industrial
y noticioso.-. Panamá
Rodríguez, S. (). Extracto sucinto de mi obra sobre la educación republicana. Sociedades
americanas. Biblioteca de Ayacucho, , -.
Silva, R. (). Los Ilustrados de Nueva Granada, -. Genealogía de una comunidad de
interpretación. Fondo Editorial Universidad EAFIT.
Wolf, E. (). Relaciones de Parentesco, de Amistad y de Patronazgo en las Sociedades Complejas.
Clásicos y Contemporáneos en Antropología. Alianza.
Fuentes primarias
Correspondencia de Anselmo Pineda. Fondo Tomas Cipriano de Mosquera del Archivo Central del
Cauca.
Correspondencia de Anselmo Pineda. Fondo Mariano Ospina Rodríguez del Archivo histórico de la
Universidad EAFIT.
Correspondencia de Anselmo Pineda. Archivo Histórico Cipriano Rodríguez Santamaría de la
Universidad de la Sabana.
Correspondencia de Anselmo Pineda. Fondo Manuel Ancizar Basterra en el Archivo Histórico
Universidad Nacional de Colombia.
Correspondencia de Anselmo Pineda. Archivo Julio Arboleda de la sección de Libros Raros y
Manuscritos en la Biblioteca Luis Ángel Arango.
Pineda, A. Manifestación comprobada que José Anselmo Pineda ocial primero interventor de la
tesorería departamental de Antioquia hace al público, de la injusta persecusión suscitada contra
él en los días de la tiranía por el tesorero José Prieto. Medellín: Impreso por Manuel Antonio
Balcázar, .
Pineda, A. Disposiciones del prefecto Anselmo Pineda para el aprovechamiento de Caquetá. Fondo
Pineda Pieza , Folios -
Tomo  en Raros y Manuscritos de la Biblioteca Nacional de Colombia.
Tomo  en Raros y Manuscritos de la Biblioteca Nacional de Colombia.
Tomo  en Raros y Manuscritos de la Biblioteca Nacional de Colombia.
Tomo  en Raros y Manuscritos de la Biblioteca Nacional de Colombia.
Tomo  en Raros y Manuscritos de la Biblioteca Nacional de Colombia.
Tomo  en Raros y Manuscritos de la Biblioteca Nacional de Colombia.
Tomo  en Raros y Manuscritos de la Biblioteca Nacional de Colombia.
Tomo  en Raros y Manuscritos de la Biblioteca Nacional de Colombia.
Tomo  en Raros y Manuscritos de la Biblioteca Nacional de Colombia.
Tomo  en Raros y Manuscritos de la Biblioteca Nacional de Colombia.
Tomo  en Raros y Manuscritos de la Biblioteca Nacional de Colombia.
Análisis del epistolario del coronel Anselmo Pineda con Python: una mirada al proyecto coleccionista y al territorio
desde las redes sociales y el aprendizaje automático
Part II
Corpus construction

C V
Desarrollo de un corpus de atlas
lingüísticos1
Development of a corpus of
linguistic atlases
Carolina Julià Luna
Universidad Nacional de Educación a Distancia (UNED) – España
Resumen: El objetivo del presente capítulo es la presentación de algunas caracterís-
ticas y funcionalidades del Corpus de los atlas lingüísticos (COR PAT), una herramienta
informática en la que se almacenan datos procedentes de los atlas lingüísticos re-

contienen; de servir como fuente de divulgación de la variación y la riqueza lingüís-
tica; y de complementar los datos procedentes de corpus textuales y obras lexico-
     
historia de la lengua española.
Abstract: The aim of this chapter is to present some characteristics and functional-
ities of the Corpus of Linguistic Atlases (COR PAT). This computer tool collects data from



research on linguistic change and the Spanish language history.
1 El presente texto fue escrito a mediados de 2021, por lo que los datos que constan él (referencias al corpus
y número de mapas y de registros que contiene) pertenecen a ese año. A lo largo de 2022 el corpus ha
aumentado el número de registros y desde el 1 de diciembre de 2022, CORPAT se desarrolla en el marco
del proyecto “CORPAT-PEPLEs: corpus digital para la preservación y el estudio del patrimonio lingüístico del
español” (TEDMCIN/AEI/10.13039/501100011033 y por la Unión Europea
“NextGenerationEU”/PRTR.

Digital Humanities, Corpus and Language Technology
1. Introducción
Desde hace más de una década, en España se está trabajando en la digitalización del atlas
lingüístico nacional (el Atlas Lingüístico de la Península Ibérica o ALPI, García Mouton
, ; Sousa, ); sin embargo, buena parte de los materiales de la geolingüística
regional no pueden consultarse todavía hoy en formato electrónico. El volumen de infor-
mación recogido en estos atlas regionales impresos entre  y , y de acceso muy
limitado (no se encuentran en cualquier biblioteca), es excepcional: casi  mapas que
se corresponden con más de  puntos de encuesta, lo que supone miles de formas lin-
güísticas que aportan datos fonético-fonológicos, léxico-semánticos, morfosintácticos y
etnolingüísticos de las variedades dialectales de España.
Actualmente, el hecho de que buena parte de los atlas regionales del español dirigidos
por Manuel Alvar solo puedan consultarse físicamente en algunas bibliotecas universita-
rias, y a veces de forma incompleta (pues no siempre disponen de todos los volúmenes),
diculta sus posibilidades de estudio y explotación tanto a investigadores como a cualquie-
ra que esté interesado en conocer, por ejemplo, la historia lingüística de su pueblo natal o
de otros lugares de España. Además, la forma en la que presentan los datos supone otra
barrera para los interesados no expertos, ya que la información se recoge, en muchos de
los mapas, en alfabeto fonético. Y, para mayor complejidad, en el alfabeto de la Revista de
Filología Española (ARFE), un sistema de transcripción empleado en el ámbito hispánico
que creó Tomás Navarro Tomás cuando se fundó la revista con el objetivo de servir para
“los artículos que hubieran de requerirlo y para los estudios de dialectología, fonética y
geografía lingüística que el Centro había emprendido” (Navarro Tomás, , p.).
Con el n de cubrir esta parte de la geolingüística europea, se ha ideado y diseñado
CORPAT (Corpus de los atlas lingüísticos). Se trata de un corpus en el que se pretende or-
ganizar y categorizar conjuntamente parte de la información de los atlas lingüísticos regio-
nales (ALEA, ALEANR, ALEICan, ALECant, ALCyL, ALeCMan, ADiM, CaLiEx) en una
2 ALCyLAtlas Lingüístico de Castilla y León. Valladolid: Junta de Castilla y León/Consejería
de Educación, 3 vols.; ALEA
CSIC, 6 vols.;
ALEANRAt-
Madrid /Zaragoza: La Muralla / Institución Fernando
el Católico de la Excma. Diputación provincial de Zaragoza / CSIC, 12 vols.; ALECant = Manuel Alvar con la
colaboración de Carlos Alvar, José A. Mayoral, M.ª Pilar Nuño, M.ª del Carmen Caballero y Julia B. Corral
. Madrid: Arco/Libros, 2 vols. [Etnografía y láminas de Elena
Alvar]; ALEICan
Gran Canaria: Publicaciones del Excmo. Cabildo Insular, 3 vols.
3 Quiero hacer constar mi agradecimiento a los autores del ALeCMan, la Dr.ª Pilar García Mouton y el Dr. Fran-
cisco Moreno Fernández; del iM, la Dr.ª Pilar García Mouton y la Dr.ª Isabel Molina Martos; y de CaLiEx, el
Dr. José González Salgado, por su apoyo en el inicio del desarrollo esta herramienta.

Desarrollo de un corpus de atlas lingüísticos
base de datos espacial consultable en línea. Antes de presentar la herramienta (epígrafes
-), se describe brevemente la historia de la relación que la geolingüística ha mantenido
con la tecnología (epígrafe ) y algunos de los resultados obtenidos de su aplicación.
2. La tecnología en la geografía lingüística
La geografía lingüística nace en Europa a nales del siglo XIX con el objetivo de represen-
tar la variación lingüística en mapas y dejar de lado la descripción intuitiva y fortuita de
las áreas dialectales que se había realizado hasta la segunda mitad de esa centuria (Cham-
bers y Trudgill, , p.). A principios del siglo XX, con la publicación del Altas Linguis-
tique de la France (ALF), se consolida como método de investigación dialectal basado en
la compilación de datos procedentes de testimonios orales. Desde entonces, el atlas lingüís-
tico se convierte en una obra fundamental en el ámbito de los estudios variacionistas que
irá perfeccionándose y modicándose con el paso del tiempo.
La historia de la renovación del método y de su producto principal, el atlas lingüístico,
reeja cambios de diverso tipo; desde las innovaciones vinculadas con la organización de
los datos (p. ej. el paso de la organización alfabética del ALF a la onomasiológica del AIS)
hasta modicaciones relacionadas con el foco de interés lingüístico (p. ej. el surgimiento
de atlas sintácticos como el SCOSYA o el DynaSAND, que atienden una parte de la gra-
mática poco representada en los primeros atlas) y con el tipo de informante (p. ej. la am-
pliación de las encuestas a hablantes urbanos, más jóvenes y que incluyan tanto a hombres
como a mujeres), entre otras (Julià, ). Además de estas variaciones, asociadas a la
evolución de la propia metodología y de las teorías lingüísticas, uno de los aspectos que ha
supuesto un cambio mayor es la aplicación de los ordenadores a su creación, diseño y ex-
plotación. La aplicación de la tecnología a la geografía lingüística es sumamente importan-
4 La 23.ª ed. del 
atlas lingüístico “Conjunto de mapas en que se presentan datos lingüísticos procedentes de encuestas” (s. v.
atlas). Para más información sobre el concepto ‘atlas lingüístico’, véase Coseriu (1977).
5 Tradicionalmente, los cuestionarios tenían como objetivo recoger información procedente de hablantes
(generalmente hombres) que conocieran el medio rural, sus tradiciones y sus costumbres; a este informante
tipo, según Chambers y Trudgill (1994, p.57), se le denomina mediante el acrónimo NORM (nonmobile, older,
rural, males). Sin embargo, “en las últimas décadas, las antiguas formas de vida y las tareas asociadas con
ellas se han transformado hasta casi desaparecer” (García Mouton y Molina 2009, p.180) y también lo han
hecho los informantes que son objeto de interés en la geografía lingüística. El ALeCMan, por ejemplo, incluye
novedades respecto a sus antecesores (el ALEA, el ALEANR o el ALEICan) como, por ejemplo, la incorporación
de dos informantes sistemáticamente por localidad, “un hombre y una mujer entre los que se reparten el
contenido de un cuestionario muy extenso. Se hicieron sistemáticamente dos entrevistas por punto: una
con un hombre y otra con una mujer” (Molina, 2018, p.4). Para una visión global de la representación del
papel de la mujer como informante en la geografía lingüística de la península ibérica, véase García Mouton
(1999a).

Digital Humanities, Corpus and Language Technology
te para los estudios dialectales, para la investigación lingüística (Nerbonne et al., ) e
incluso para la historia de las humanidades digitales (Sousa, ).
Los primeros testimonios de la aplicación de los ordenadores al estudio geolingüístico
se pueden fechar en la década de los sesenta (Ziamandanis, , p.). En , Roger
Shuy, en el capítulo titulado “An Automatic Retrieval Program for the Linguistic Atlas of
the United States and Canada, explica cómo ideó un programa informático de tarjetas
perforadas —como hizo Busa en el proceso de lematización de la obra de Santo Tomás de
Aquino en el Index omisticus— para trabajar en la automatización de los datos con el
objetivo de que fueran más accesibles. Para demostrar la viabilidad de su idea, se centró en
 informaciones gramaticales de una región de Estados Unidos (e Linguistic Atlas of
New England) con el n de trazar relaciones sociolingüísticas signicativas. Los resultados
de este primer acercamiento a la automatización de los atlas lingüísticos son, en opinión
del autor, una demostración del potencial de los datos después de haber sido procesados
electrónicamente:
is program, of course, is only suggestive of what can be done with the Atlas materials
once the data are submitted to automation. ese materials will be more accessibleand
reproducible than ever before. More signicant, the dialectologist will be able to broaden
his investigation of the sociological implications of American speech through improved
handling of data. As indicated previously, one of the benets of our program is in the area
of distributions by occupation, sex, age, and type. (Shuy, ).
A la propuesta de Shuy () empiezan a suceder otros estudios. Por un lado, investiga-
ciones en las que con la incorporación de los ordenadores al análisis de los datos se pre-
tendía extraer el máximo rendimiento a la información lingüística desde el punto de vista
de la variación y de la delimitación de las áreas dialectales (Gordon, , p.). Entre ellas
se sitúan, por ejemplo, los estudios en dialectometría. Por otro lado, los primeros trabajos
que emplean la informática para crear atlas se sitúan en la década de los setenta. Así, en la
6 Las tarjetas perforadas constituyen el primer medio de almacenamiento digital de información empleado
para introducir y guardar datos en ordenadores. Este método fue muy empleado en la década de los setenta
del siglo XX.
7 No se cita la página porque se ha consultado la edición electrónica del trabajo y en ella no constan las páginas.
8 dialectometría 
instrumental, que se apoya en la geografía lingüística y recurre a procedimientos objetivos —estadísticos
y taxométricos—, para establecer relaciones de semejanza o diferenciación dialectales, en un intento de
sintetizar los contenidos de un atlas lingüístico”. Aunque en los primeros trabajos dialectométricos de Jean
Séguy (1973) se prescindiera de la automatización, y los cálculos se hicieran manualmente (García Mouton,

disciplina.

Desarrollo de un corpus de atlas lingüísticos
geolingüística estadounidense, Wood ( apud Ziamandanis, , p.) propone, en la
línea de Shuy (), el uso de computadoras y tarjetas perforadas para editar atlas lingüís-
ticos. Y es en la década de los setenta cuando se sitúa el inicio de la informatización de los
atlas (Hoch y Hayes, , p.) que ofrecerá los primeros resultados en los años ochenta
y noventa para la geografía lingüística europea: “e three projects which stand out as
pioneers are Computer Developed Linguistic Atlas of England (Viereck y Ramisch, -
), Atlas Linguarum Europae (Alinei et al., ) and Kleiner Deutscher Sprachatlas
(Veith et al., -)” (Sousa, , p.).
En las siguientes décadas, el acelerado progreso en el ámbito de la comunicación y la
expansión del uso de la tecnología generó cambios en los estudios geolingüísticos y dialec-
tales. Entre esos cambios, destacan las mejoras en los escáneres de imágenes, la prolifera-
ción de programas de bases de datos espaciales (BDE) y el surgimiento de numerosas
aplicaciones y programas para crear mapas (Google My Maps, Gabmap, Diatech, Open-
StreetMap, ArcMap, Carto, Mapbox o QGIS). El empleo de estas herramientas ha permi-
tido, por ejemplo, digitalizar los primeros atlas lingüísticos y recogerlos en la web (a modo
de facsímil) con el n de preservarlos y ponerlos a disposición de cualquiera que quiera
consultarlos. Entre otros, pueden mencionarse los proyectos de digitalización del Sprachat-
las des Deutschen Reichs (DSA) de Georg Wenker, que actualmente se puede consultar en
RegionalSprache.de (Herrgen  y Limper, Phei y Williams : ); el Atlas Lin-
guistique de la France (ALF), disponible en CartoDialect (Davoine et al., ); y el Sprach
und Sachatlas Italiens und der Südschweiz (AIS) de Karl Jaberg y Jakob Jud, accesible en
NavigAIS (Tisato, ). Algunos de ellos, además, incluyen la posibilidad de consultar
bases de datos en las que la información está organizada y clasicada por categorías (formas
y campos semánticos, por ejemplo).
En España es también en la década de los setenta cuando se empieza a pensar en la
automatización de la geografía lingüística regional (Alvar, ; Alvar y Verdejo, 
[]; Alvar y Nuño, ) y a partir de los ochenta se plantea el análisis automatizado de
los datos (Enríquez, ). El proyecto del ALES (Atlas Lingüístico de Santander) —al que
hoy se conoce como Atlas Lingüístico y Etnográco de Cantabria (ALECant)— es la prime-
9 Sobre el Atlas Linguarum Europae (ALE
pueden leerse algunos de los primeros planteamientos en Putschke (1969 y 1972) a los que se van sucedien-
do otros trabajos y propuestas.
10 Esta referencia aparece citada en Alvar y Nuño (1981, p.359, nota 1). En la primera nota al pie se explica que
es una publicación que deriva de una comunicación que Manuel Alvar había presentado en febrero de 1974
en el Simposio Ordenadores y Lingüística que organizó la Universidad Complutense. Según se indica en
Alvar y Nuño (1981, p.359), el contenido del texto presenta resultados de los primeros contactos que Manuel
Alvar mantuvo con W. Putschke para el Atlas Linguarum Europae (ALE).

Digital Humanities, Corpus and Language Technology
ra muestra de aplicación de la tecnología a los atlas españoles. En el artículo de Alvar y
Verdejo (), titulado “Automatización de atlas lingüísticos”, se presentan las bases de los
primeros pasos de la geolingüística española en el proceso de creación de atlas automati-
zados. Los autores toman como modelo el atlas de Andalucía (ALEA) para explicar la
complejidad que supone el proceso manual de elaboración de cada uno de los mapas:
Cada cuaderno de formas es la base para que un cartógrafo dibuje un mapa por cada
binomio —concepto, región— representando en él los testimonios —provincia, localidad,
respuesta— pertenecientes al mencionado binomio. Más tarde se lleva a cabo la impresión.
(Alvar y Verdejo, , p.)
En palabras de los propios autores, se trata de un “complejo proceso manual” repleto de
dicultades que “puede simplicarse en mucho con un proceso de automatización” (Alvar
y Verdejo, , p.-). Era evidente que la automatización del proceso se veía, princi-
palmente, como una vía para reducir el tiempo dedicado a dibujar los mapas y para mitigar
los errores que pudieran introducirse en el proceso de cartograado manual de la infor-
mación lingüística. Así, los autores describen con detalle en el artículo cuál tendría que ser
el método de automatización que debería seguir un atlas; y, en la conclusión, explican que
esta es la metodología que han empezado a aplicar para la publicación de los materiales del
ALECant, cuya recopilación de datos terminó en julio de . Sin embargo, el proceso de
automatización descrito por Alvar y Verdejo (), que luego se complementa con el
artículo de Alvar y Nuño (), fue más costoso de lo que parecía inicialmente. Tales
fueron las dicultades del proyecto —asociadas a su proceso de informatización (como
puede leerse en el epígrafe titulado “Lamento inicial” que precede a la nota preliminar del
ALECant, , p.)— que el atlas no se publicó hasta casi veinte años más tarde. Después
del atlas de Cantabria, se publican otros atlas de forma automatizada como el ALCyL y el
ALeCMan. El primero, según Alvar, sigue los criterios del ALECant (ALCyL, Prólogo: );
el segundo, en cuya informatización empezó a trabajarse desde  en la Universidad de
Alcalá de Henares, sigue un camino distinto: para su elaboración se creó un programa
informático especíco denominado Atlante que tenía por objetivo la automatización de las
“labores que conducen a la confección de un atlas lingüístico, así como el aprovechamien-
to de toda la información lingüística que contiene una obra de estas características” (More-
no et al., , p.). Este atlas, que puede consultarse en internet actualmente, seguía la
línea de trabajo iniciada en otros proyectos europeos y americanos en los que la informá-
tica permitía automatizar el proceso de cartograado y gestionar las bases de datos espa-
ciales.

Desarrollo de un corpus de atlas lingüísticos
Posteriormente, en la segunda década el siglo XXI, se inician los trabajos de edición di-
gital del Atlas Lingüístico de la Península Ibérica (ALPI) parcialmente consultable en la red
en la actualidad (García Mouton, ). Paralelamente a estos trabajos de digitalización de
atlas tradicionales se ha consolidado el diseño y la producción digital de atlas, lo que ha ge-
nerado que nos encontremos ante una nueva generación de contenidos geolingüísticos más
sostenibles y accesibles que ya no se publican en papel; es el caso, por ejemplo, del Atlas
Dialectal de Madrid (ADiM), que sigue la línea iniciada por el ALeCMan. Por otra parte,
además de estos proyectos, cabe señalar que el empleo del mapa como medio de representa-
ción de datos lingüísticos se ha expandido más allá de la publicación de los atlas. Son diver-
sos los trabajos en los que se (geo)localizan valiosas informaciones lingüísticas en mapas y
que permiten realizar interesantes estudios de variación desde el eje diatópico (COSER).
En este proceso de digitalización e informatización de los atlas, la geografía regional
del español (nos referimos a los atlas que dirigió Manuel Alvar desde la segunda mitad del
siglo XX) cuenta con pocas iniciativas y, por el momento, son pocos los proyectos que
trabajan en esta línea. Uno de ellos es el Atlas Lingüístico y Etnográco de la provincia de
Zaragoza (ALPEZ) cuyos datos proceden del ALEANR (Atlas Lingüístico y Etnográco de
Aragón, Navarra y La Rioja). Se trata de un atlas digital que recoge los materiales del cuar-
to volumen de este atlas. Se puede consultar en línea y ofrece los datos organizados e in-
terpretados desde diferentes perspectivas, lo que permite realizar consultas de distinto tipo:
Este Atlas digital ofrece nuevas posibilidades de búsqueda (visual e interactiva), estudios
con grácos-estadísticos, multi-task, un mapa interactivo (actualizable), respuestas en
transcripción ortográca, un mapa-leyenda en colores que remite al del ALEANR y una
base de datos informatizada. (Tranquilli, , p.)
El acercamiento a los datos que ofrece este reciente recurso constituye una muestra de las
posibilidades que brinda la aplicación de la tecnología a los datos de los atlas regionales.
Asimismo, son interesantes otras investigaciones también recientes en las que se explotan
los datos de los atlas regionales mediante la tecnología. En el proyecto VitaLex (desarro-
llado en la Universidad de Granada), que se centra en el análisis de la zona de la Alpujarra
(Andalucía), el objetivo principal es analizar las respuestas léxicas de  puntos de encues-
ta del ALEA y contrastarlas con datos actuales obtenidos de nuevas entrevistas. Los resul-
tados de este estudio permitirán ver los cambios que se han producido en cincuenta años
11 Sobre el español de América se inician también múltiples e interesantes proyectos de digitalización e
informatización de atlas lingüísticos en la misma época; por ejemplo, sobre el Atlas Lingüístico de Puerto Rico
- ALPR o el  - ALEC Digital, entre otros.

Digital Humanities, Corpus and Language Technology
en esta zona (Fernández Morell en prensa). En los capítulos  y  de Fradejas (),
titulados “Mapas con R. Un poco de geografía lingüística, se muestra también algunos de
los resultados de la aplicación de la tecnología a los datos que atesoran los mapas de la
geografía lingüística regional. Es en este marco, en el de aprovechar las posibilidades que
ofrecen las bases de datos espaciales y los sistemas de información geográca (SIG), entre
otros, en el que nace la idea de crear COR PAT (Corpus de los atlas lingüísticos), una base
de datos cuyos objetivos, contribuciones y características se describen a continuación.
3. Objetivos y contribución
CORPAT se concibe como una herramienta digital que pretende, por un lado, preservar el
patrimonio histórico-lingüístico y cultural de la lengua española y, por otro lado, aproxi-
mar la investigación de la variación lingüística a la sociedad. Para la consecución de estos
objetivos, se parte de las posibilidades que ofrecen las nuevas tecnologías para la divulga-
ción y la gestión de datos geolocalizados en el marco de las humanidades digitales. Median-
te el traspaso de las formas de las cartas lingüísticas a bases de datos espaciales en trans-
cripción ortográca se favorece su difusión, además de permitir que los materiales
permanezcan almacenados con el n último de contribuir a su preservación y divulgación.
La creación y el diseño del corpus se justica tanto desde la perspectiva histórica como
actual para la geografía lingüística española y europea. El lento y desafortunado desarrollo
de la geografía lingüística en España (Heap, ; García Mouton, ) impidió la publica-
ción completa del Atlas Lingüístico de la Península Ibérica (ALPI). Para suplir este vacío,
fueron publicándose sucesivamente, desde la década de los sesenta del siglo XX, un conjun-
to de atlas regionales que abarcan diferentes zonas: Andalucía (ALEA), Aragón, Navarra y
La Rioja (ALEANR), las Islas Canarias (ALEICan), Cantabria (ALECant) y Castilla y León
(ALCyL). Posteriormente, esta saga de atlas lingüísticos se ha completado con otros como el
de Castilla-La Mancha (ALeCMan) y el de Madrid (ADiM) en formato digital y consultables
en línea. A estos hay que añadir los atlas de las zonas bilingües que han ido publicándose de
forma paralela a los del español, pero que abarcan solo el estudio de la lengua coocial y que,
en algunos casos, se encuentran en Internet (Galicia: ALGa, País Vasco: EEHHA y Cataluña,
Valencia y Baleares: ALDC), y también los trabajos de González Salgado sobre el extremeño
(Cartografía lingüística de Extremadura) que completan la cartografía por regiones. Así pues,
a pesar de contar con datos geolingüísticos sobre el español europeo de una gran parte del
territorio, lo cierto es que estos materiales no se han explotado ni estudiado de forma exhaus-
tiva y contrastada y las comunidades lingüísticas de las que proceden frecuentemente ignoran
su existencia. La cuantía de datos que incluyen y la gran cantidad de tiempo invertido en su

Desarrollo de un corpus de atlas lingüísticos
elaboración es uno de los principales motivos que ha generado que la última fase del método
de la geografía lingüística —en la que se procede a su estudio— se haya desarrollado parcial-
mente (Del Barrio, ; Fernández Morell, en prensa).
Así pues, la contribución principal de CORPAT es la preservación del patrimonio lin-
güístico español; esto es, el almacenamiento y la gestión de los datos que actualmente se
hallan distribuidos en bibliotecas y centros de investigación y que corren el riesgo de des-
aparecer por el formato en el que se conservan. Los mapas de los atlas son multidimensio-
nales y permiten estudiar aspectos diversos desde perspectivas distintas, como la variación
fonético-fonológica (Llorente, ), la caracterización y la delimitación de los campos
semánticos (Salvador, ), los procedimientos de formación de palabras (Uritani y Be-
rrueta, ), los procesos de creación léxica (Fuster, ), la historia de la lengua y la
etimología (Prat, ; García Mouton, , ; Fernández-Ordóñez, ); el cambio
lingüístico (Molina ; Del Barrio ), etc.. Así, contar con un recurso informático
que permita consultarlos de forma rápida y sistematizada aportará información muy va-
liosa para la investigación en lengua española desde múltiples perspectivas. Por ejemplo,
se podrán estudiar los procesos de creación léxica más frecuentes en la lengua popular o
contrastar la extensión y la vitalidad de los fenómenos fonético-fonológicos en la época en
la que se recogieron los datos. Además, esto podría tomarse como punto de partida para
entrevistar de nuevo los territorios y estudiar el cambio lingüístico en los últimos setenta
años, de forma similar a lo que se está haciendo, por ejemplo, para otras lenguas como el
inglés (http://tweetolectology.com/) o, a pequeña escala, con una parte del territorio anda-
luz (proyecto Vitalex). Los datos no serán solo útiles individualmente, también servirán
como complemento a otros grandes bancos de datos digitales como son los corpus textua-
les, los diccionarios electrónicos y otros atlas lingüísticos digitales (en especial, el ALPI).
Asimismo, la divulgación digital de la información contenida en las cartas lingüísticas
también contribuirá, por un lado, a educar en empatía lingüística (Ibarretxe-Antuñano,
), un aspecto con escasa presencia en el proceso de enseñanza-aprendizaje de lenguas;
y, por otro, a conservar y a dar a conocer la memoria histórica de las comunidades lingüís-
ticas de España. Por ejemplo, las localidades que fueron encuestadas a mediados del siglo
XX podrán tener acceso a los datos sobre las herramientas y las técnicas de cultivo emplea-
das por sus antepasados, las creencias o las costumbres sobre juegos, tradiciones y estas
populares, entre otros aspectos de carácter etnolingüístico. Conocer su pasado a través de
los atlas lingüísticos, les permitirá entender su presente. A continuación, se describe bre-
vemente la estructura y el contenido del corpus en el inicio de su conguración.

Digital Humanities, Corpus and Language Technology
4. Estructura y contenido del corpus en la fase preliminar
El corpus, que se halla en una etapa preliminar (desarrollo en fase de pruebas en la que se
han incorporado los datos de  mapas relativos a  conceptos, lo que supone, por el momen-
to, más de  registros), se recopila en una base de datos MySQL .. Se trata de una base
de datos relacional en código abierto compuesta por tablas (algunas formadas con catálogos
y otras abiertas) en las que se relaciona la información lingüística con la geográca. En la
interfaz de introducción de datos, en la que se trabaja en línea —lo que permite que diferen-
tes personas introduzcan datos a la vez— se pueden modicar, eliminar y crear registros de
cada una de las tablas. Para cada una de las respuestas recogidas (formas) en un mapa se crea
un registro en la base de datos que se categoriza y completa según los siguientes parámetros
(que constituyen campos en la base de datos): concepto, punto de encuesta, lengua, informa-
ción morfológica, información semántica, información sintáctica, información fonética,
información etnolingüística, tipo de respuesta, otras informaciones. A continuación, se des-
criben algunas de las funcionalidades básicas del corpus que atañen a una parte de la infor-
mación que se incorpora en la base de datos para cada uno de los registros. Se trata de la parte
que más se ha desarrollado hasta la actualidad (mayo de ) y que se reere principalmen-
te a las búsquedas de información léxico-semántica y geográca.
El corpus se ha diseñado, igual que otras herramientas lingüísticas creadas mediante ta-
blas relacionales (cfr. por ejemplo, la versión electrónica del Diccionario Crítico Etimológico
Castellano e Hispánico - DECH, versión en CD ROM ), para que puedan realizarse bús-
quedas simples (por un solo criterio) o búsquedas múltiples (que combinan distintas opcio-
nes y permiten ltrar la información para obtener resultados más concretos). Al acceder a la
interfaz, se llega a la consulta principal, que se divide en tres campos (gura ):
Figura 1. Interfaz de consulta principal de CORPAT.
En la búsqueda por  se recoge en transcripción ortográca la palabra o secuencia
de palabras que se corresponde con la respuesta de un punto de encuesta del atlas. Por
ejemplo, si se introduce la palabra jamón en la caja de consulta, el desplegable ofrece la lista
ordenada alfabéticamente de los diez registros que contienen esta cadena de caracteres,

Desarrollo de un corpus de atlas lingüísticos
bien sean palabras simples, derivadas o sintagmas que la contengan (el jamón, hueso del
jamón, jamón, jamoncete, jamoncillo). El usuario puede elegir la forma que le interese del
desplegable o verlas todas. Si se eligen todos los registros, se obtiene información sobre los
conceptos, los atlas, los mapas y los puntos de encuesta en los que aparecen estas formas.
La búsqueda arroja  registros relativos a los conceptos ‘hueso de la cadera’ y ‘pulpejo
(gura ):
Figura 2. Resultados de la búsqueda por forma en CORPAT.
Los resultados obtenidos en esta búsqueda constituyen el reejo de la necesidad de poder
ver los datos de los atlas organizados de este modo para examinar qué relaciones lingüís-
tico-conceptuales se establecen entre los diferentes conceptos y ámbitos semánticos que
forman parte de los atlas (como las partes del cuerpo y los alimentos).
En la búsqueda por  se incluye el nombre identicativo del mapa que consti-
tuye la realidad que es objeto de investigación. Es el que suele aparecer en los índices de los
atlas y habitualmente se ubica en la parte superior izquierda de las cartas geolingüísticas
(véase la gura ). Esta posibilidad de búsqueda está vinculada al orden onomasiológico en
el que los atlas se conciben. Se parte, por tanto, del concepto (realidad) para llegar al lexema.
El nombre del concepto se ha vinculado previamente a un subcampo semántico que, a su vez,

Digital Humanities, Corpus and Language Technology
se relaciona con un campo semántico. Esta clasicación conceptual deriva de la organización
de los índices de los atlas lingüísticos. Así, por ejemplo, en el campo semántico Agricultura
(que en el ALEA ocupa del mapa  al mapa ), se incluyen quince subcampos semánticos
(aparejo para las bestias de carga, arado, carbonero, carro, el campo y sus cultivos, el corcho
y su elaboración, molinos de harina y panicación, olivo y oleicultura, vid y vinicación, etc.)
en cada uno de los cuales se clasican los conceptos cartograados. La jerarquía puede es-
quematizarse del siguiente modo con los mapas del ALEA referidos al subcampo semántico
de la vid y la vinicación que se recoge en la gura :
Figura 3. Ejemplo de jerarquía onomasiológica del corpus.
El corpus incorpora tanto los conceptos cartograados como aquellos que no tienen mapa
propio porque se consideró que presentaban poca variación para representarla en un
mapa. En la mayor parte de los atlas, los conceptos no cartograados suelen aparecer en
otros mapas y señalados en el índice con un asterisco. El ALCyL es el único que incluye las
respuestas a conceptos no cartograados en una lista —titulada “Preguntas no cartogra-
adas” (pp. -)— en lugar de incorporarlas en otros mapas. Véase, a modo de ejem-
plo, la información que sobre el concepto ‘articulación’ incluye el mapa  del ALEICan
en el que las respuestas que aparecen cartograadas son las del concepto ‘hueso de la
cadera’ (gura ):

Desarrollo de un corpus de atlas lingüísticos
Figura 4. ALEICan, mapa 494).
Esto es importante por cuanto amplía considerablemente el número de registros incorpo-
rados en el corpus. El ALEA, por ejemplo, en su primer volumen, incluye  conceptos no
cartograados en el interior de los mapas, lo que supone un incremento de un   más
de registros para este volumen.
Aunque los atlas lingüísticos regionales del español siguen una metodología homogé-
nea —motivo por el cual sus datos pueden ser contrastados y analizados como una uni-
dad—, existen pequeñas divergencias que han implicado un trabajo de unicación previo
para sistematizar la búsqueda en este campo de la base de datos. Por ejemplo, algunos
conceptos no se etiquetan con el mismo nombre, aunque se reeren a la misma realidad.
Así sucede en el caso del concepto ‘incisivo’ que aparece identicado como ‘incisivos su-
periores centrales’ en el ALEA (mapa *), ‘incisivos’ en el ALECant (mapa ), ‘(dien-
te) incisivo’ en el ALEANR (mapa ) y ‘dientes delanteros’ en el ALeCMan (mapa ).
En la búsqueda por   el usuario puede seleccionar de una lista cerra-
da el ámbito de signicación sobre el que desea realizar la consulta. Como se ha detallado
anteriormente en la descripción de la búsqueda por , los campos semánticos que
aparecen en el corpus vienen determinados por las áreas de interés de los cuestionarios que
aparecen organizados onomasiológicamente en los atlas: agricultura, animales domésticos,
animales silvestres, apicultura, creencias populares y supersticiones, de la cuna a la sepul-
tura, el cuerpo humano, el mar, el tiempo, etc. De igual modo que en el caso de la búsque-

Digital Humanities, Corpus and Language Technology
da por concepto, la información de este apartado requiere de una unicación previa. Así,
por ejemplo, mientras que el ALEA, el ALEANR y el ALEICan coinciden en dividir el
campo semántico relativo a los vegetales en diversos apartados (plantas silvestres, ores,
arbustos, hortalizas, árboles frutales, el bosque, etc.), el ALECant recoge la información
bajo el epígrafe “Vegetales” sin establecer ninguna división. Por ello, los conceptos del
ALECant que coinciden con los de los otros atlas, se han clasicado según estos. El con-
cepto ‘musgo’ puede servir de ejemplo: aparece en el ALEA, el ALEANR y el ALEICan en
el apartado “Plantas silvestres, ores y arbustos, por ello, en CORPAT , los registros del
ALECant para este mapa se categorizan bajo este subcampo semántico que, por el momen-
to, no se visualiza en la interfaz de consulta.
A las tres búsquedas principales que se han descrito (por ,  y 
) se añaden otras opciones vinculadas a la fuente de obtención de datos. Se
puede buscar por , por   , por   , por  
  y por . Es posible, además, combinar estas búsquedas con las tres
principales; así, el usuario puede obtener todas las formas que el corpus contiene, por
ejemplo, para la provincia de Huelva en el campo semántico del cuerpo humano o todos
los registros de una localidad (gura ):
Figura 5. Interfaz de consulta secundaria de COR PAT.
En el campo    se incluye el código que recibe el enclave geográco en
cada uno de los mapas según la metodología seguida por Alvar desde el ALEA:
cada lugar está representado por una sigla (que representa el nombre de la provincia, según
la abreviatura ocial del Ministerio de Obras Públicas) y un número de tres cifras […]
cada provincia está dividida idealmente en seis casillas de las cuales las que registras cen-

Desarrollo de un corpus de atlas lingüísticos
tenas impares corresponden al oeste y las pares al este. Dentro de ellas, la localización
(norte, centro, sur) se hace por orden creciente:  (noroeste),  (centro-oeste),  (sudoeste);
 (nordeste),  (centro-este) y  (sudoeste)). (ALEA, Nota preliminar: )
El corpus, por tanto, mantiene la codicación original de los atlas regionales. El punto de
encuesta se recoge previamente en una tabla en la que se asocian con información sobre el
atlas al que pertenece, el nombre de la localidad, la provincia y las coordenadas (la longitud
y la latitud) que permiten la geolocalización. Cada registro se localiza en el mapa al pinchar
en el nombre de la localidad (gura ):
Figura 6. Localidad y punto de encuesta en CO RPAT.
Además de permitir la consulta de formas por puntos de encuesta (gura ), existe también
la posibilidad de ver todos los puntos de encuesta, bien por atlas, bien en conjunto (gura ):
Figura 7. Consulta de formas por puntos de encuesta.

Digital Humanities, Corpus and Language Technology
Figura 8. Puntos de encuesta de los atlas en CORPAT.
Igual que en algunos de los campos anteriores, se han tenido que ajustar y unicar algunas
informaciones relativas a la codicación que generaban algunos problemas en el proceso
de geolocalización. Por un lado, se han actualizado los nombres de algunas poblaciones
bien por cambios ortográcos bien porque en la búsqueda actual del nombre aparecía
información que no se halla en el atlas (tabla ); se trata de un problema al que otros inves-
tigadores han hecho alusión con anterioridad (Pato, , p.-).
Tabla 1. Algunos ejemplos los cambios de nombres de localidades.
Atlas Punto de encuesta Nombre en el atlas Nombre en CORPAT
ALEANR Na 103 Arcos Los Arcos
Na 303 Salinas Salinas de Ibargoiti
Lo 303 Tovía Tobía
Vi 600 La Guardia Laguardia
ALEA J 102 Isabela La Isabela
J 600 Pozo-Alcón Pozo Alcón
ALEICan L P 1 Garafía Villa de Garafía
ALECant S 202 Mortera de Piélagos Mortera
ALCyL Bu 602 Pinilla Pinilla de los Moros
ALeCMan GU 310 Abádanes Abánades
Además de esta falta de coincidencia parcial con el nombre actual, en el ALCyL se han
encontrado dos puntos de encuesta que tienen el mismo nombre: So  y So  se ree-
ren a Torrevicente, aunque actualmente no se han podido identicar dos localidades con
el mismo nombre. Siguiendo la ubicación del mapa del atlas, se ha identicado Torrevi-

Desarrollo de un corpus de atlas lingüísticos
cente en So . Además de estos casos, también se han tenido que modicar algunos de
los códigos de los puntos de encuesta porque coincidían en más de un atlas y ello genera-
ba un conicto al etiquetar la localidad. Esto ha sucedido en los puntos de encuesta del
ALEANR situados en Soria (So , So  y So ) y Burgos (Bu ), ya que el código
empleado coincidía con el del ALCyL. Como se trata solo de cuatro casos, se han modi-
cado ligeramente los nombres añadiendo una tercera letra a la abreviatura del nombre de
la provincia. Así, los cuatro puntos del ALEANR mencionados se hallan en CORPAT eti-
quetados como Bur , Sor , Sor  y Sor , por lo que no existe posibilidad de
confusión con los puntos del ALCyL. En el caso de los nombres de puntos de Cuenca y
Guadalajara del ALeCMan que coinciden con algunos del ALEANR, no existe posibilidad
de confusión porque en el atlas de Castilla-La Mancha las letras del código aparecen en
mayúscula (CU , CU ; CU  y CU ) y en el ALEANR en minúscula (Cu ,
Cu ; Gu , Gu ).
5. Conclusión
El corpus, sobre el que se han descrito brevemente algunas de las funcionalidades (princi-
palmente relativas al vocabulario dialectal) y características que presenta en esta primera
etapa de su desarrollo (muy preliminar), se ha diseñado como herramienta complementa-
ria a los corpus textuales y obras lexicográcas del español. No pretende, en ningún caso,
sustituir ni al atlas ni a los mapas que lo conforman, pues constituyen documentos genui-
nos de un valor incalculable, sino que persigue la protección del patrimonio histórico,
cultural y artístico. Consideramos, de acuerdo con Sousa (), que tanto los atlas como
su contenido forman parte de los bienes materiales e inmateriales de la historia de la lengua
española y que es necesario invertir tiempo en preservarlos antes de que se pierdan y el
fruto de tanto esfuerzo económico y cientíco acabe olvidándose.
Referencias
Alvar, M. (). Ordenadores y geograa lingüística: el proyecto del Atlas plurilingüe de Europa
(ALE). Revista de la Universidad Complutense, , -.
Alvar, M. y Nuño, M.ª P. (). Un ejemplo de atlas lingüístico automatizado: el ALES. Lingüística
Española Actual, (), -.
Alvar, M. y Verdejo, M. (). Automatización de atlas lingüísticos. Revista de Dialectología y
Tradiciones Populares, , -.
Aurrekoetxea, G. (). Sobre el valor de la dialectometría en la delimitación de las distancias
lingüísticas. GLOSEMA. Revista Asturiana de Llingüística, , -.

Digital Humanities, Corpus and Language Technology
Bonilla, J. E. y Bernal Chávez, J. A. (): Modelamiento de una base de datos espacial para el Atlas
Lingüístico-Etnográco de Colombia. Revista Signos. Estudios de Lingüística, (), -.
http://www.revistasignos.cl/index.php/signos/article/view//
Chambers, J. K. & Trudgill, P. (). La dialectología. Visor Libros.
Coseriu, E. (). El hombre y su lenguaje. Estudios de teoría y metodología lingüística. Gredos.
Davoine, P.-A., Ga lly, S., Garat, P., Chauvin, C., Copi, O., & Cavalière, C. (, August): New approach
to explore and to study cartographical heritage in dialectology: application to the Linguistic
Atlas of France. th International Cartographic Conference (ICC ), Rio de Janeiro, Brazil.
https://icaci.org/files/documents/ICC_proceedings/ICC/papers//fullpaper/T-
_.pdf
Del Barrio de la Rosa, F. (). Espacio variacional y cambio lingüístico en español. Visor.
Enríquez, E. (). Análisis automático de la información fónica contenida en los Atlas lingüísticos.
Lingüística española actual, (), -.
Fernández Morell, M.ª L. (). Los nombres de animales y vegetales como patrimonio lingüístico
alpujarreño a partir de los datos del proyecto VitaLex. Proyecto Vitalex. http://www.
proyectovitalex.es/pdf/articulos/--publicaciones.pdf
Fernández-Ordóñez, I. (). La lengua de Castilla y la formación del español. Discurso leído el día
 de febrero de  en su recepción pública. Real Academia.
Fuster, M.ª T. (). Voces de creación metafórica sobre el maíz y el trigo en el Atlas Lingüístico y
Etnográco de Aragón, Navarra y Rioja. Estudios de Lingüística de la Universidad de Alicante
(ELUA), , -.
Fradejas, J. A. (). Cuentapalabras. Estilometría y análisis de texto con R para lólogos. Universidad
de Valladolid. http://www.aic.uva.es/cuentapalabras/
García Mouton, P. (a). Cómo hablan las mujeres. Arco/Libros.
García Mouton, P. (b). Dialectometría. En J. M. Blecua, G. Clavería, C. Sánchez y J. Torruella
(Eds.), Filología e informática. Nuevas tecnologías en los estudios lológicos (pp. -). Editorial
Milenio.
García Mouton, P. (). El procesamiento informático de los materiales del Atlas de la Península
Ibérica de Tomás Navarro Tomás. En G. Aurrekoetxea y J. L. Ormaetxea (Eds.), Tools for lingui stic
variation (pp. -). Universidad del País Vasco/Euskal Herriko Unibertsitatea.
García Mouton, P. (). Corominas tenía razón: jamila no jámila. En M. Quirós (Ed.), Etimología
e historia en el léxico del español. Estudios ofrecidos a José Antonio Pascual (Magister bonus et
sapiens) (pp. -). Iberoamericana/Vervuert.
García Mouton, P. (). El Atlas Lingüístico de la Península Ibérica (ALPI) en línea. Geolingüística
a la carta. Estudis romànics, , -.
García Mouton, P. y Molina Martos, I. (). Trabajos sociodialectales en la comunidad de Madrid.
Revista de Filología Española, (), -.
Heap, D. (). Segunda noticia histórica del ALPI. Revista de Filología Española, (/): -.
Herrgen, J. (). e digital wenker atlas (www.diwa.info): An online research tool for modern
dialectology. Dialectologia: Revista electrònica, I (Special Issue), -.
Hoch, S. C. & Hayes, J. J. (). Geolinguistics: e Incorporation of Geographic Information
Systems and Science. e Geographical Bulletin, (), -.
Ibarretxe-Antuñano, I. (). Empatía lingüística. Archiletras / Revista de Lengua y Letras, .
Julià Luna, C. (). Reseña a Alberto Manuel Arias García y Mercedes de la Torre García ():
Ictionimia andaluza. Nombres vernáculos de especies pesqueras del “Mar de Andalucía. Madrid:
CSIC. Dialectologia et Geolinguistica, , -.

Desarrollo de un corpus de atlas lingüísticos
Lance, D. M. & Slemons, S. V. (). e use of the computer in plotting the geographical distribution
of dialect items. Computers and the Humanities, , -.
Limper, J., Phei, J. & Williams, A. (). REDE SprachGIS: A Geographic Information System for
Linguists. In S. Brunn & R. Kehrein (Eds.), Handbook of the Changing World Language Map (pp.
–). Springer. https://doi.org/./----_-
Llorente, A. (). Fonética y fonología andaluzas. Revista de Filología Española, (/), -.
Molina, I. (). Innovación y difusión del cambio lingüístico en Madrid. Revista de Filología
Española, (), -.
Molina, I. (). Atlas lingüísticos castellanos: el ALeCMan y el ADiM. In Coloquio Geolin güística
Peninsular: investigaciones en curso (pp. -). Instituto de Lengua, Literatura y Antro pología,
CSIC, Madrid,  de septiembre de .
Moreno, F., Moreno, J. E. y García de las Heras, A. (). Cartograado automático y bases de datos.
Boletín de Filología de la Universidad de Chile, (), -.
Navarro Tomás, T. (). Noticia histórica del Atlas Lingüístico de la Península Ibérica. En Capítulos
de Geografía Lingüística de la Península Ibérica (pp. -). Instituto Caro y Cuervo.
Nerbonne, J., Heeringa, W., Prokić, J. & Wieling, M. (). Dialectology for computational linguists.
In M. Zampieri & P. Nakov (Eds.),Similar Languages, Varieties and Dialects. A Computational
Perspective (pp. -). CUP.
Pato, E. (). La sustitución de cantara / cantase por cantaría y cantaba. Universidad Autónoma
de Madrid. http://www.corpusrural.es/publicaciones//_sustitucion.pdf
Putschke, W. (). Über ein Computerprogramm zur Herstellung von Sprachkarten, Germanistische
Linguistik, , -.
Putschke, W. (). Planung einer Projektdurchführung: Automatische Kartierung des ATLAS
LINGUARUM EUROPAE, Germanistische Linguistik, , -.
Prat Sabater, M. (). Reejo espacial del cambio léxico: los atlas lingüísticos y el DCECH. Actes
del VII Congrés de Lingüística General (Barcelona, - de abril de ), -.
Salvador, G. (). Estudio del campo semántico “Arar” en Andalucía, Archivum: Revista de la
Facultad de Filología, , -.
Shuy, R . (). An Automatic Retrieval Program for the Linguistic Atlas of the United States and Canada.
In P. L. Garvin (Ed.), Computation in Linguistics: A Case Book (pp. -). Indiana University Press.
https://publish.iupress.indiana.edu/read/c-e-a-b-addbcf/section/
e-c-c-a-dddafdtoc_
Sousa, X. (). From eld notebooks to automatic mapping: the Atlas Lingüístico Galego database.
Dialectologia et Geolingüistica, (), -.
Sousa, X. (). Humanidades digitales y geografía lingüística: la edición digital delAtlas Lingüíst ico
de la Península Ibérica.En A. Gallego & F. Roca (Eds.),Dialectología digital. Anexo deVerba
(pp.-). Universidad de Santiago de Compostela.
Tisato, G. (). Acquisizione Digitale dell’Intero AIS. Documento digital. https://www.aisv.it/
aisv/abstracts/.pdf
Tranquilli, R. (). Atlas Lingüístico y Etnográco de la provincia de Zaragoza [Presentación].
Institución Fernando el Católico. https://ifc.dpz.es/index/alepz/Atlas_linguistico/Atlas_digital_
provincia_de_Zaragoza/ALEPZ_DIGITAL
Uritani, N. y Berrueta de Uritani, B. (). Los diminutivos en los atlas lingüísticos españoles.
Lingüística Española Actual, (), -.
Wood, G. (). Dialectology by computer. International Conference on Computational Linguistics
COLING : Preprint (), -. University Edwardsville.

Digital Humanities, Corpus and Language Technology
Wood, G. (). Why Not a Computer as Editor? In L. H. Burghardt (Ed.), Dialectology: Problems
and Perspectives (pp. -). University of Tennessee.
Ziamandanis, C. M. (). Dialectología y ordenadores. En M. Alvar (Dir.), Manual de dialectología.
El español de España (pp. -). Ariel.
Fuentes primarias
ADiM = García Mouton, P. y Molina Martos, I. (): Atlas Dialectal de Madrid. CSIC. http://adim.
cchs.csic.es/es
AIS = Jaberg, K. & Jud, J. (-): Sprach-und Sachatlas Italiens und der Südschweiz. Zongen:
Gedruck mit Unterstützung der Gesellscha für Wissenschaliche Forschung an der Universität
Zurich und privater Freunde des Werkes von der Verlagsanstalt Ringier & Co.,  vols.
ALEA = Alvar, M. con la colaboración de Llorente, A. y Salvador, G. (-).Atlas lingüístico y
etnográco de Andalucía.Universidad de Granada/CSIC,  vols.
ALEANR = Alvar, M. con la colaboración de Llorente, A., Buesa, T. & Alvar, E. (-).Atlas
lingüístico y etnográco de Aragón, Navarra y Rioja. La Muralla / Institución Fernando el Católico
de la Excma. Diputación provincial de Zaragoza / CSIC,  vols.
ALECant = Alvar, M. con la colaboración de Alvar, Mayoral, J. A., Nuño, M.ª P., Caballero, M.ª del
C. y Corral, J. B. ().Atlas lingüístico y etnográco de Cantabria. Arco/Libros,  vols. [Etnografía
y láminas de Elena Alvar].
ALEC = Instituto Caro y Cuervo (). Atlas Lingüístico-Etnográco de Colombia. http://alec.
caroycuervo.gov.co
ALeCMan = García Mouton, P. y Moreno Fernández, F. (). Atlas lingüístico y etnográco de
Castilla-La Mancha. Universidad de Alcalá de Henares. https://www.linguas.net/alecman/
ALEICan = Alvar, M. (-). Atlas lingüístico y etnográco de las Islas Canarias. Publicaciones
del Excmo. Cabildo Insular,  vols.
ALF = Gilliéron, J. & Edmont, E. (-). Atlas Linguistique de la France. Honoré Champion, 
vols.
ALPI = García Mouton, P. (coord.), Fernández-Ordóñez, I., Heap, D., Perea, M.ª P., Saramago, J. y
Sousa, X. (). ALPI-CSIC, edición digital de Navarro Tomás, T. (dir.):Atlas Lingüístico de la
Península Ibérica. CSIC. http://www.alpi.csic.es/
ALPR = Navarro Tomás, T. (): Atlas Lingüístico de Puerto Rico. In El español en Puerto Rico:
Contribución a la geografía lingüística hispanoamericana. Río Piedras. https://portfolio.
umontreal.ca/view/view.php?id=
CaLiEx = González Salgado, J. A. (-).Cartografía Lingüística de Extremadura.
COSER = Fernández Ordóñez, I. (dir.) (-). Corpus Oral y Sonoro del Español Rural. www.
corpusrural.es
DECH = Coromines, J. y Pascual, J. A. (-). Diccionario Crítico Etimológico Castellano e
Hispánico. Gredos. Edición digital en CD-ROM ().
DLE = Real Academia Española (). Diccionario de la lengua española. Espasa Calpe. https://dle.
rae.es/
DSA = Wenker, G. (). Sprachatlas von Nord-und Mitteldeutschland.Auf Grund von systematisch
mit Hilfe der Volksschullehrer gesammeltem Material aus circa  Orten. Straßburg.
DynaSAND = Barbiers, S. et al. (). Dynamische Syntactische Atlas van de Nederlandse
Dialecten(DynaSAND). Meertens Instituut. http://www.meertens.knaw.nl/sand/.
SCOSYA = Smith, J., Adger, D., Aitken, B., Heycock, C., Jamieson, E. & oms, G. (). e Scots
Syntax Atlas. University of Glasgow. https://scotssyntaxatlas.ac.uk.

C VI
The C-ORAL-BRASIL proposal for
the treatment of multimodal
corpora data: the BGEST corpus
pilot project
La propuesta del C-ORAL-BRASIL
para el tratamiento de datos
multimodales en corpus: el
proyecto piloto del corpus BGEST
Camila Barros & Heliana Mello
Federal University of Minas Gerais – Brazil
Abstract: Due to major technological advances, multimodal data treatment and

interplay of the sound signal and its corresponding gestuality in multimodal sponta-


      
information structure organization, as it is treated through the Language into Act


of this methodological proposal stems from the crucial role prosody plays in the

The BGESTORAL-BRASIL research initiative, is pre-
sented as the basis of the discussion carried.
e C-ORAL-BRAIL proposal for the treatment of multimodal corpora
data: the BGET corpus pilot project

Digital Humanities, Corpus and Language Technology
Resumen: Debido a los principales avances tecnológicos, la recopilación y el tratam-
iento de datos multimodales es una posibilidad animadora para brindar nuevas per-
spectivas sobre la interacción de la señal sonora con la gestualidad en datos multi-
modales producidos espontáneamente de cómo se acoplan el habla y los gestos.
Este capítulo discute cuestiones metodológicas asociados con la recopilación y el
tratamiento de datos multimodales, especialmente con respecto al papel crucial de
la acción. El objetivo principal fue conectar la organización de la estructura de la in-



sucede del papel crucial que la prosodia desempeña en las categorías informacion-
ales de la L-AcT y su impacto en la interpretación de los gestos. El corpus BGEST, un
estudio piloto dentro del grupo de investigación C-ORAL-BRASIL, es presentado como
base para la discusión realizada.
1. Introduction
Technological advances have enabled researchers to study speech beyond its transcription.
is has shown how much information is lost in the direct conversion of spoken texts to
their written counterpart. Transcriptions can oen be misleading and fail to provide a
myriad of nuances that are crucial to the understanding of how speech is produced (Mello,
). Recently, the same conclusion could be drawn regarding multimodal data (Allwood,
). Considering that most daily human interactions happen in face-to-face contexts,
what is lost if the study of these events is limited to their audio recordings?
e study of multimodal data may pose even bigger challenges than those found in
speech data study when it comes to corpora compilation and treatment, because the process
might demand even more planning and manual treatment. e use of high-quality equip-
ment, such as wireless microphones, discreet cameras and powerful soware is only part
of the issue. Most of the work involved refers to pre-planning, in which the type of inter-
action, size, format, technical specications, and usability of the corpus are established.
ese decisions aect directly the corpus and the kind of analysis that may be developed.
Moreover, the theoretical path that led to the methodological decisions must be clear to
enable a coherent analysis later on. e BGEST corpus will serve as a case-study, present-
ing methodological decisions designed to enable gesture-prosody interface studies, joining

The C-ORAL-BRAIL proposal for the treatment of multimodal corpora data: the BGET corpus pilot project
the eorts made by both the study of speech and gesture in face-to-face interactions. ese
issues will be tackled in the next sections.
2. Background
e current state of the art of multimodal corpora resembles more closely an analytic
heuristic for gesture studies than a set of guidelines towards the systematic collection of
machine-readable linguistic data (Duncan, ). Most publications rely on ad hoc data
collections that provide material for analysis but are not comparable to other data sets. Part
of the problem is due to unclear legislation that fails to provide clear rules about how to
guarantee participant anonymity while still making the data widely available. e other
major problem is the amount of time required to collect, treat, and annotate the data.
While spoken corpora are growing in terms of length and automation, multimodal
corpora fail to meet the criteria of variability, size and comparability that are common to
spoken corpora. On multimodal corpora variability, Mello () points out that the issues
inherent to video recordings outnumber the available technical solutions. Alongside the
additional costs, it is hard to predict how people will behave when video-recorded. A room
lled with video cameras, as in a movie shooting, besides demanding enormous resources
would impairs the intended spontaneity, even when the person is not camera-shy. e data
treatment required also poses a constraint to multimodal data, regarding the time em-
ployed to select, edit, transcribe, and annotate the overwhelming amount of information
that comes up in a recorded situation. When Loehr (, ) gave his rst steps in this
direction, he pointed out that annotation could take up to one hour per second of data:
thus, only ten minutes of data could take h to be ready to be analysed.
erefore, the corpus pre-planning phase should be guided initially by what can be
feasibly accomplished (Mello, ). is means that, given the current possibilities of data
compilation, it is better to have simple and well-structured data than to have many unre-
liable excerpts that cannot be directly compared. In comparison to spoken corpora, the
size must be shrunken, to enable careful annotation and internal variability, given the
previously mentioned compilation issues. A case study of the BGEST corpus, a multimod-
al corpus pilot project, stemming heavily from the C-ORAL spoken corpora family is
presented in the following sections. Many practical considerations had to be made, as the
following paragraphs show.
e protocol conducted in the BGEST corpus was intended mostly to allow studies on
the interplay of gesture and prosody according to the Language into Act eory (Cresti, ;
Moneglia & Raso, ), resulting in a multimodal corpus comparable to the monologue

Digital Humanities, Corpus and Language Technology
section of the C-ORAL spoken corpora family. e Language into Act eory is a cor-
pus-based theory about informational patterning in speech. e theory establishes that pros-
ody is a necessary interface between the linguistic content and illocutions (speech acts) con-
veyed through speech (Cresti & Moneglia, ; Moneglia, ; Cavalcante, ). is
means that speech is conducted by the actions performed in interaction, such as a question,
assertion, among many others, technically referred to as illocutions. e prosody carries (most
of) the illocutionary force. In terms of analysis, the basic is unit are utterances, perceived as
pragmatically and prosodically autonomous units, which convey the illocution. An utterance
can be internally divided in tonal units. e unit which carrying the illocution is called Com-
mentary and appears without internal divisions in the utterance. In case the utterance has
internal divisions, other units frame the illocution complementing it with textual informa-
tional or with discourse markers, regulating interaction (Moneglia & Raso, ).
e intention behind the use of L-AcT as a theoretical background to compile a mul-
timodal corpus was grounded on the actional basis that underlies both prosody and gesture
(Wagner, et al., ). In prosody, action is portrayed through an illocution, a highly con-
ventionalized form that conveys a speech act (Cresti, ; Cresti & Moneglia, ). In
gesture, action comes as a representation that is not entirely conventionalized, but it is
packed as spatio-motoric information complementary to speech (Kita & Özyürek, ).
As such, the research question that guided our research proposes a deep look into how
action may frame multimodal information.
Cantalini () dealt with this question, analysing excerpts of recited and spontaneous
speech by three Italian actors. e author analysed up to ten minutes of data in both typol-
ogies and concluded that the internal divisions in gesture are temporally compatible to
prosodic breaks, both terminal and non-terminal. Her research also showed that gestures
align to speech at the lexical, informational and illocutionary levels. ese ndings may be
seen as evidence that the informational patterning has a role in the organization of speech
and gesture.
e BGEST corpus architecture was drawn from the C-ORAL corpora family, a mul-
ti-language corpora compilation project covering all major Romance languages (Cresti &
Moneglia, ), including Brazilian Portuguese (Raso & Mello, ), Angolan Portuguese
(Rocha, et al., ) in addition to English (Cavalcante & Ramos, ). e major dier-
ence between the C-ORAL corpora to other spoken corpora initiatives is the variability of
situations portrayed, pre-planned to accurately encompass diaphasic variation. Diastratic
variation resulted from the variation of recording situations and the diatopy was restricted
to a metropolitan regional variety.

The C-ORAL-BRAIL proposal for the treatment of multimodal corpora data: the BGET corpus pilot project
e C-ORAL family documents both formal and informal spontaneous registers, be-
sides telephone conversations, television discourse, conferences, political debates, and
teaching. Informal texts are normally not shorter than , words (around ten-minute
recordings) and never longer than , words. is constraint warrants textual autonomy,
but it does not overtly represent idiosyncratic characteristics (Mello, ). e two regis-
ters branch into public and private/family contexts. e division between public and pri-
vate/family contexts takes into account the role the participants exercise in the interaction.
Within the C-ORAL family, cultural dierences moulded these denitions. Here, we only
consider the C-ORAL-BRASIL.
Regarding the architecture above, some considerations must be made to make a mul-
timodal corpus feasible. e rst concern is the time required for data treatment, which
will inevitably reduce the text’s size. In gesture study tradition, texts are considerably small:
Loehr () analysed  seconds (summing up  gestures) in four dyatic interactions.
Other authors worked with smaller time stretches: Condon and Ogston () analysed
ve seconds of psychiatric consultations, Kendon () worked on  seconds of data
collected at a pub, and McClave () analysed  gestures extracted from hours of lmed
conversations. McNeill () worked with  gestures in six dierent languages in elic-
ited monologues. Cantalini () analysed around  minutes of spontaneous speech and
seven minutes of recited speech, which were used as a model for our research.
In an attempt to select texts that were not overtly long but still held their autonomy, it
was decided that they should be no shorter than two minutes and no longer than three
minutes. is provided around  words and  gestures per text. Regarding the type of
register and its branches it was settled that a private/family informal context was more
adequate to create a friendly environment that could compensate for the recording equip-
ment embarrassment eect.
e C-ORAL family corpora have as a primary goal to be as representative as possible of
the diaphasic variation in spontaneous speech. is motivation is based on the fact that the
linguistic structure of a communicative event drastically changes from one situation to an-
other, regulated by the ongoing activities. Monologues, interactions in which one speaker
holds the oor to explain or tell a story, follow a semantic trajectory in which the main ac-
tionality is the speaking process itself. Dialogues and conversations have at least two partic-
ipants that “perform co-dependent speech actions” (Mello, , p.). While monologues
are more informative, with a richer elaboration of its content, dialogues and conversations
are less informative but richer with respect to their illocutions. e C-ORAL family is divid-
ed in one third monologic and two thirds dialogical (dialogues and conversation) texts. e

Digital Humanities, Corpus and Language Technology
justication for such division is grounded on the necessity to replicate what is found in au-
thentic interactions and represent dierent degrees of interactivity, especially regarding dif-
ferent levels of actionality. In the BGEST corpus, adjustments had to be made to encompass
the specicity of gesture capture, as gestures become more elaborate as the linguistic content
complexies. us, the BGEST corpus compilation was restricted to monologues, as their
illocutionary monotony would be compensated by a richer gestural production.
Restricting the text typology to private/family monologues, the diaphasic variation was
compromised. A greater diaphasic variation would require a whole set of cameras around
one environment that allowed participants to move around freely, as the lapel-microphones
do. For the moment, the amount and kind of data that monologues provided suce for the
analysis of the relation between gesture and prosody in this textual type.
e BGEST corpus followed the C-ORAL-BRASIL I guidelines (Raso & Mello, )
regarding the diatopic variety, capturing speakers aged  to , living in the metropolitan
area of Belo Horizonte for at least two years,  of them originally are from that city. Ten
participants are recorded in the almost , words comprising the BGEST corpus. Six of
them are female and four are male, each one responsible for roughly  of the words
uttered. All the participants were either enrolled in an undergraduate course or held college
degrees. To avoid code-blending phenomena (Casey & Emmorey, ; Emmorey et al.,
), in which uent sign language speakers gesture with signs while using an oral lan-
guage, the participants who were uent in Brazilian Sign Language were excluded (one
participant). e dominant hand was controlled to guarantee that there was no side bias
(eight were right-handed and two were le-handed). An analysis conducted aer the data
collection concluded that the gesture position and the dominant hand do not hold any
correlation (χ² = .(), p < .).
3. Data collection and treatment
3.1. Recordings
Aer the architecture was settled, recordings took place. e main concerns in this task
were acoustic quality, video recording and gesture production. e participants provided
their consent to the data collection beforehand, as well as their legal consent to image usage
rights. ere are still no clear guidelines in Brazilian legislation regarding how image can
be distributed, which leads to the videos being only available to the research group mem-
bers involved in the project. Participants’ identities are not revealed, and they are only
referred to by a codied sequence of letters.

The C-ORAL-BRAIL proposal for the treatment of multimodal corpora data: the BGET corpus pilot project
For the BGEST corpus, the participants were recruited using the main researchers
personal network. e researcher would refer to the project without mentioning the spe-
cic interest in gestures, asking for an appointment at the participant’s earliest convenience
and, if given permission, beginning the recording. A comfortable situation was crucial to
assure adequate data collection, especially considering that the recordings took place dur-
ing the ’s coronavirus pandemic.
e recording should enable high quality audio and video, in a way that allows phonet-
ic studies and gesture analysis. e rst constraint is easy to be overcome using high qual-
ity equipment, such as wireless lapel microphone system (Sennheiser EKG) preferably
accompanied by a dedicated recording device (TASCAM DR-MKII). is equipment
has a friendly and non-invasive size that favours the recording session as it is easily forgot-
ten by participants. e video recordings posed problems of a dierent nature: the image
resolution for analysis does not need to be extremely high (e.g., p is sucient when the
facial expression is not relevant, according to ELAN’s guidelines), but it should encompass
dierent angles of the participant. is enables the participant to freely move while talking,
not being constrained to a specic frame. Two or more cameras also give a three-dimen-
sional sense to the footage, allowing ne-grained perception of gestures. e cameras
should capture the participant’s upper limbs to the extent of wide-open arms and should
be placed as out of sight as possible. A simple, yet successful way to accomplish this is to
place the researcher in between two cameras. By doing so, the participant tends to look
more directly at the researcher than at the cameras. is also prevents the embarrassment
that a recording session may cause to participants, because they usually forget about the
equipment in a few minutes and carry the interaction naturally.
e distance in which the participants should be placed depends on the kind of lenses
used. In the BGEST corpus, two kinds of lenses were used: mm (Panasonic HC-XM)
and mm (GoPro Hero ). mm lenses are more common, accessible and distort less the
image. Because the camera must be placed on a tripod at least . m from the participant,
it draws some attention and has an inherent risk of something extraneous occurring in
between the lenses and the participant (someone walking by, for instance). mm lenses
have a smaller focal distance with a resulting broader angle of view, which causes a bigger
distortion. Even so, the smaller design and higher stability (it does not require a tripod),
makes it easier to be placed out of sight. Because it can be placed closer to the speaker, it
diminishes the risk of something coming in between the lenses and the participant.

Digital Humanities, Corpus and Language Technology
Following Mellos () guidelines, some experience is required to nd the equipment
nest tune and recording of more time than what is intended to be transcribed should be
done. is is important due to three main reasons (Mello, , p.):
a to allow for the possibility of choosing the best acoustic quality excerpt;
b to allow for the possibility of choosing the most interesting and actional excerpts;
c to allow for the possibility of choosing more than one excerpt from the same recording
session.
e recording sessions were up to one hour long. is was more than enough for the par-
ticipants to get acquainted with the situation, speak freely and (hopefully) move their
hands. Excerpts up to three minutes long were collected from each recording, in which the
participant was holding the oor for at least  seconds (Loehr, ). Each excerpt was
then analysed concerning the informational units used and how comfortable the partici-
pant seemed. Out of fourteen recording sessions, one was excluded because the participant
was uent in Brazilian Sign Language (to avoid code-blending), three were excluded
because the participants did not feel comfortable during the session or requested to be
excluded. One was partially censored upon the participant’s request. In the ten remaining
recordings, three to ve excerpts were analysed to meet the  second criteria. Out of each
recording session, only one excerpt up to three minutes long was chosen.
e acoustic quality of the audios was measured by the script provided by Ferrari, Mello
and Vieira (), also used on C-ORAL-BRASIL II (Raso et al., in preparation). e crite-
ria used for the analysis are f, formants (F and F) and signal-noise ratio. e method
employed combines a series of Praat (Boersma & Weenink, ) measurements to a human
evaluator’s appraisal, which is crucial to double check all parameters. For audios from one to
ve minutes, ve excerpts of two seconds long were analysed. Each parameter received a score
and weighted average values with arbitrary weights were calculated. e tags are from A (best
quality) to C (worst quality). e audios in the BGEST corpus received dierent tags: ve
were classied as (A), four were (AB) and one was classied as (B).
In the best-case scenario, all the recordings should be of (A) quality, to enable good pro-
sodic analysis, as recorded by at least two cameras. However, because the recordings were
carried during the coronavirus pandemic, attempting new recording sessions was not feasible.
3.2. Transcription, speech segmentation and informational tagging
e main points that must be taken into consideration in a transcription are the previous
training of the team involved and decisions about which transcription criteria should be

The C-ORAL-BRAIL proposal for the treatment of multimodal corpora data: the BGET corpus pilot project
adopted. e C-ORAL-BRASIL transcription guidelines were followed and are summa-
rized in the following paragraphs (cf. Mello, ; Mello et al., ). e overall architec-
ture follows the CHAT guidelines (MacWhinney, ) used in the CHILDES project.
is means that each speaker turn is represented on one line, started by a “*” followed a
three-letter capitalized acronym for the participant. Each turn is delimited either by a
non-terminal break “/” or by a terminal break “//”. In the BGEST corpus, as in the C-ORAL
family, terminal breaks signal pragmatic- and prosodically autonomous utterances, accord-
ing to L-AcT (Cresti, ; Moneglia & Raso, ). Interruptions are delimited by a “+”
and cancelled words are marked by the following convention: a “&” precedes the interrupt-
ed word and “[/n]” indicates how many words have been retracted. Other linguistic phe-
nomena are represented by a symbolic convention: “hhh” indicates paralinguistic sounds
such as laughter and coughs; “&he” indicates hesitation or taking time (regardless of the
vowel enunciated); “<>” angular parentheses signal an overlap; “yyyy” indicates an incom-
prehensible sequence; and “xxx” indicates an incomprehensible word.
Example 1. Main criteria used in targeting – bgest_010[2-4]: 1
*CLA 
hhh I am not going to remember // <but> +
*CAM 
<but> you was on / [the] prosecution or on +
*CLA 

In the example above (), the speaker CLA laughs at the beginning of an utterance and
produces an interrupted utterance, marked by “+”. In [], CLA stutters “j” at the beginning
of the second utterance, abandoning the word. is is marked by “&j” with [/] indicating
that the previous word has been cancelled.
Orthographic conventions aim to guarantee readability, reliability and ease in the following
computational treatment. Non-orthographic criteria tried to capture on-going phenomena of
grammaticalization and lexicalization in Brazilian Portuguese, such as the apheresis of the verb
ser (to be), as in tá (>está), tar (> estar), tamos (> estamos) forms. Phenomena, such as pro-
duction and agreement errors are noted in the metadata that accompanies the transcription.
Acronyms and abbreviations can be transcribed in two ways: only in capitaled words if uttered
as a single word (e.g., SUS), or, when they are uttered as a sequence of letters, as syllables formed
by a single letter (e.g., uefeemegêUFMG/Federal University of Minas Gerais).
1 The icons indicate an associated audio or video that can be accessed in <>.

Digital Humanities, Corpus and Language Technology
Example 2. Transcription incorporating orthographic and non-orthographic conventions: apheresis and cliticization –
bgest_007[19]:
*CAR 

In the example () above, other conventions are presented. In [], the apheretic forms tava
(>estava), as well as the cliticization of the subject pronouns cê (>você) and e’ (>ele) are
portrayed. e revision of the transcripts took place in two stages. e rst, shortly aer
transcription, was performed by experienced reviewers from the C-ORAL-BRAZIL group.
e second happened during the informational annotation also conducted by experient
annotators from the C-ORAL-BRAZIL group.
e segmentation of recorded stretches of speech followed L-AcT in its assumption that
utterances make up the basic pragmatic unit of study. Here, it will be argued that the prag-
matic denition used by the Language into Act eory is compatible with gesture studies
for two reasons: it is grounded on the same actional principles that are believed to regulate
and organize speech, and it is easily implemented. Furthermore, it will be argued that the
segmentation of gesture and speech cannot be conducted separately.
As briey said in section (), the BGEST corpus is grounded on the L-AcT analytical
categories. is theory holds as the basic unit of analysis the utterance, as it can be prosodi-
cally and pragmatically interpreted and conveys a speech-act. When an utterance only carries
a single information unit, it necessarily corresponds to a Comment unit, i.e., the informa-
tional unit that conveys the illocution an utterance is simple if it only conveys one information
unit and it is complex when it portrays two or more units. e informational units that frame
the illocutionary one (Comment), can be either textual or dialogic units. Textual units make
up the linguistic content in the utterance and can be: Topic, Appendix of Comment or Topic,
Locutive Introducer and Parenthetical. Dialogic units can be roughly referred to as units that
regulate the interaction (Raso, ; Raso & Vieira, ). eir specications will not be
explored in this paper (Moneglia & Raso, ). In some cases, the isomorphism of one illo-
cution per utterance is not held, in which case there are textual units named Stanzas. is
happens oen in monologues, in which the textual content is divided in Bounded Commen-
taries, which indicate a sign of prosodic continuity, or in Multiple Commentaries, which form
a prosodic pattern. Utterances can accommodate scanned units, which take place when the
speaker must divide her/his uttering of speech for reasons other than to convey an informa-
tion unit, e.g., breathing (Moneglia & Raso, ).
is approach diers from others focused on the syntactic or interactional segmenta-
tion of speech, based on complete predications or speech turns. By doing so, L-AcT is able

The C-ORAL-BRAIL proposal for the treatment of multimodal corpora data: the BGET corpus pilot project
to describe more accurately verbless units and large dierences in turn divisions caused by
dierent text typologies (Cavalcante, ). Concerning gestures, this approach also diers
from “apex-guided” approaches, such as Loehr () that looked for the rhythm align-
ment of the apex of gestures and pitch accents following the ToBI model (Pierrehumbert,
). e L-AcT approach towards gestures is tightly bound to the coordination of pro-
sodic breaks and the manual patterns that are associated with informational units. is has
the practical benet of being more easily implemented than approaches that adopt ges-
ture-speech dissociated criteria.
Another layer of annotation that was implemented in the BGEST corpus is the infor-
mational one.
3.3. Gesture annotation
Gesture annotation followed the denitions proposed by Kendon (, ) organized
in a hierarchy by Kita, van Gijn, and van der Hulst (), and systematized by Bressem,
Ladewig, and Müller (). e gestural annotation was performed in the ELAN soware
(Wittenburg et al., ) a multimodal, free and open-source data, annotation tool. e
annotation adopted in the BGEST corpus is simplied in relation to the protocol provided
by Bressem, Ladewig, and Müller (), thus, it provides only crucial information about
movement, direction, hand shape and spatial position.
e gesture is basically dened by its expressive phase, an energy peak that constitutes
the semantic part of it. e stroke may be preceded by a preparation phase and followed
by a retraction phase. e linear structure of (preparation), stroke (and retraction) is called
a gesture phrase. ey can be either isolated or compounded by sequences of phrases that
are delimited by a rest position (when the hands and arms are relaxed). A sequence of
gesture phrases is called a gesture unit. As an example of this rst explanation, an excerpt
of the bgest_ le is shown. It is synchronized to the utterance “aí minha mãe conheceu
meu pai lá //” (en. and then my mom met my dad there //).
2 

Digital Humanities, Corpus and Language Technology
Figure 1. Gesture excursion (bgest_0 01, GU: 106, GP: 214).
e participant (JUL) initially has her hands on her lap in a rest position. en, JUL rais-
es her right hand in a at form handshape towards the center. In the third frame, the
retraction of the gesture is depicted. As there is only one movement peak, the gesture is a
single phrase and unit.
It may happen that the stroke is composed of a series of repetitive movements, dened
by Kita, van Gijn and van der Hulst () as a repetitive phase, included in the attack label.
When the stroke has a static peak of movement (McNeill, ), the stroke label is used
and the hold marked in the movement tier. Figure  shows an excerpt from bgest_,
synchronous to the utterance “a ideia é tipo você quebrar isso em [/] em / compreensão /
né / &he / discussão / e reprodução / basicamente / né //” (en. the idea is basically that you
break it in [/] in / comprehension / right / &he / discussion / and reproduction / basically /
right //).
Figure 2. Gesture excursion of a unit compound by three gesture phrases (bgest_003, GU: 103).
Each frame illustrates a dierent stroke with no rest position in between. is is a gesture
unit compounded by three phrases.

The C-ORAL-BRAIL proposal for the treatment of multimodal corpora data: the BGET corpus pilot project
At the level of ne-grained detailing, the annotation simplies the protocols adopted.
First, gesture types as indicated by McNeill’s () were not included. is decision was
made, because this specic annotation would require an extra validation step that would
not be feasible in the time available for the research. Another dierence is that the anno-
tation was done with sound support, as “(…) if the goal is to annotate the co-speech gesture
then the removal of the information relating to speech, with respect to which the gesture
nds relevance, does not seem justied as it eliminates perceptually relevant information
for its identication.” (Cantalini & Moneglia, , p.). is decision is supported by
Loehr () and Cantalini ().
As for the three levels of annotation for gestures predicted by Bressem, Ladewig, and
Müller (), only some of the features were annotated. e annotation stage includes the
three levels listed, all mandatory:
 Determining units: gestural unit and gesture phrase;
 Annotation of form: hand shape, orientation, spatial position, movement type, direc-
tion of movement, movement quality;
 Motivation of form: mode of representation, action, motor pattern and image schema.
Only the bold items were noted, taking into account that i) this step was simplied so that
the annotation was informative, but not excessive; ii) the motivation of form was not ini-
tially considered as relevant and, therefore, not considered in this annotation. Each of the
annotated parameters is briey explained below.
Handshape is annotated according to its form during the stroke. e ngers used were
not annotated, for the hand shape was already informative enough for our purposes. e
parameters are st, at hand, single ngers, and combination of ngers.
Figure 3. 
Orientation refers to the orientation of the palm in relation to the body, using McNeill’s
denition (, p.). e features refer to the sagittal axis (considering a line perpen-

Digital Humanities, Corpus and Language Technology
dicular to the body), which dene if the gesture is towards center or away from center.
When the gesture moves in relation to the torso, it can be towards body or away from body.
e diagonal orientation of the hand was not noted.
Figure 4. Orientation of movement (Bressem, 2013, p.1088).
ere are six types of movement annotated in the corpus: straight, arched, circle, spiral,
zigzag, and S-line.
Figure 5. Movement types (Bressem, 2013, p.1088).
e spatial reference of the gesture is taken from McNeill (, p.) and sets the param-
eters as center-center, center, periphery, and extreme periphery. ey are arranged on a
le-right and up-bottom axis, as shown below (Figure ).
3 


The C-ORAL-BRAIL proposal for the treatment of multimodal corpora data: the BGET corpus pilot project
Figure 6. Gesture position (McNeill, 1992, p.89).
3.4. Usability
A multimodal, aligned corpus provides easy and ready access to sound, text and image of the
excerpt under scrutiny, allowing fruitful exploitation of it. For BGEST, the text-to-sound
alignment was done using Praat (Boersma & Weenink, ) and imported into ELAN (Wit-
tenburg et al., ), where gesture and speech annotation were coupled. Both soware were
chosen because they are free, open source and the tiers can be imported from one to the other.
e annotation is hierarchically divided in tiers separated in speech and gesture. e
speech tiers are annotated for terminal and no terminal breaks. e gesture tiers are annotat-
ed for gesture units, phrases, and phases. e phases are subdivided in orientation, movement,
handshape, and position. is enables the user not only to watch the video and follow the
transcription but also to export the alignment of the data in a data frame format, to be easily
comparable. Ready access to the audio and video allows one to see how crucial the gesture and
prosody interplay is to speech segmentation. is can be seen in the following example:
Example 3. Dierent segmentation possibilities based only on the transcription:
*GUI 
 
te-ei as manhas que tens sabe
  
right Judeo-Christian [ancestry] for a long time &he it is like this tell me who do you walk with and I will
tell you and I will tell who you are you know

Digital Humanities, Corpus and Language Technology
e possible segmentations to this excerpt, without access to the corresponding audio,
would be (almost exclusively) guided by a syntactic paradigm. Below are some possibilities
for such a segmentation:
a [e isso não só na cultura grega como a gente sabe que na cultura hebraica foi também a
questão da procedência né judaico-cristã por muito tempo] [&he] [é tipo isso me diga
com quem andas dir-te-ei as manhas que tens sabe]
b [[e isso não só na cultura grega] [como a gente sabe que na cultura hebraica foi também
a questão da procedência né judaico-cristã por muito tempo]] [[&he] é tipo isso me diga
com quem andas dir-te-ei as manhas que tens sabe]]
c [[e isso não só na cultura grega] [como a gente sabe que na cultura hebraica foi também]
[a questão da procedência [né judaico-cristã] por muito tempo]] [&he é tipo isso me
diga com quem andas dir-te-ei as manhas que tens sabe]
d [[e isso não só na cultura grega] [como a gente sabe que na cultura hebraica foi também
a questão da procedência né judaico-cristã por muito tempo]] [[&he] é tipo isso] [me
diga com quem andas] [dir-te-ei as manhas que tens sabe]
In (a), we would have a complex clause followed by an assertion, without internal divisions.
In (b), the rst clause could be internally divided in two. In (c), the clause could be even
more divided, with an insertion as “né judaico-cristã” (right Judeo-Christian [ancestry]).
e last possibility envisioned without access to audio would be an internal division of the
second clause.
Listening to the audio, the ambiguity concerning the syntactic organization of the ut-
terance are restricted to two main possibilities, which would allow a corresponding accu-
rate informational tagging.
e [[e isso] [não só na cultura grega] [como a gente sabe que na cultura hebraica] [foi
também] [a questão da procedência] [né judaico-cristã] [por muito tempo] [&he] [é
tipo isso]] [[me diga com quem andas] [dir-te-ei as manhas que tens] [sabe]]
f [[e isso] [não só na cultura grega] [como a gente sabe que na cultura hebraica] [foi
também] [a questão da procedência] [né judaico-cristã] [por muito tempo]] [[&he] [é
tipo isso] [me diga com quem andas] [dir-te-ei as manhas que tens] [sabe]]
Both possibilities sound plausible because they reect the possible prosodic patterns. e
doubt regards the placement of the terminal break that can follow por muito tempo or é
tipo isso. e prosodic pattern supports both interpretations due to a sign of continuity in
por muito tempo, weak enough to be a non-terminal break, but strong enough to not be

The C-ORAL-BRAIL proposal for the treatment of multimodal corpora data: the BGET corpus pilot project
dismissed. e ambiguity is resolved by the video, which shows two gesture units aligned
to each one of the utterances conveyed in the turn, thus leading to the segmentation in
example .
Example 4. Final segmentation with audio and video (bgest_002[3-4]):
*GUI            
    
com quem andas / dir-te-ei as manhas que tens / sabe //
Translation:     

me who do you walk with / and I will tell you and I will tell who you are / you know //
Figure 7.  
In the rst utterance, an iterated gesture with the right hand shaped in a combination of
ngers moving in circles is made (frame ). e second frame is synchronous to “por muito
tempo” and is a straight movement. e third frame indicates how the participant used the
rest position as a shiing device, implying it to indicate the termination of the last utter-
ance. Another kind of pattern appears in “me diga com quem andas / dir-te-ei as manhas
que tens / sabe //” with the right hand using the bench as support for a rhythmic gesture.
Without ready access to aligned transcription, audio and video, this discussion would
not be possible, leading to misinterpretation of the data. Neither would it be possible to go
through the audio, make measurements, and associate it with the gesture pattern.
is discussion indicates that despite the technological milestones that spoken corpo-
ra have reached, another stretch must be taken to include multimodal information in the
analysis of human interaction. Despite the myriad of information in multimodal data, the
gestures and facial expressions that appear in the data are of the utmost importance to
accurately describe and understand ongoing communication processes.

Digital Humanities, Corpus and Language Technology
4. Conclusion
e BGEST pilot project showed that the current state of art and technological devices at
hand are not ideal but are sucient to provide the means necessary for robust multimod-
al data compilation projects. It is crucial to understand the decisions that have to be made
along the process and, by doing so, what is le behind, what is feasible and goals to be
pursued in the future.
A set of those decisions was demonstrated in this paper, having action as its founda-
tional point. e examples were drawn from the BGEST corpus to support the argument
that the possibilities available for multimodal data compilation currently allow the devel-
opment of multimodal corpora.
References
Allwood, J. (). Multimodal corpora. In A. Lüdeling & M. Kytö (Eds.), Corpus linguistics: An
international handbook (pp. -). de Gruyter.
Boersma, P., & Weenink, D. (). Praat: Doing phonetics by computer (..) [Computer soware].
http://www.praat.org/
Bressem, J. (). . A linguistic perspective on the notation of form features in gestures. In C.
Müller, A. Cienki, E. Fricke, S. Ladewig, D. McNeill, & S. Tessendorf (Eds.), Handbücher zur
Sprach- und Kommunikationswissenscha / Handbooks of Linguistics and Communication
Science (HSK) / (pp. -). de Gruyter. https://doi.org/./.
Bressem, J., Ladewig, S., & Müller, C. (). . Linguistic Annotation System for Gestures. In C.
Müller, A. Cienki, E. Fricke, S. Ladewig, D. McNeill, & S. Tessendorf (Eds.), Handbücher zur
Sprach- und Kommunikationswissenscha / Handbooks of Linguistics and Communication
Science (HSK) / (pp. -). de Gruyter. https://doi.org/./.
Cantalini, G. (). La gestualità co-verbale nel parlato spontaneo e nel recitato. Università degli studi
Rom a Tre .
Cantalini, G., & Moneglia, M. (). e annotation of gesture and gesture/prosody synchronization
in multimodal speech corpora. Journal of Speech Sciences, , -.
Casey, S., & Emmorey, K. (). Co-speech gesture in bimodal bilinguals. Language and Cognitive
Processes, (), -. https://doi.org/./
Cavalcante, F. A. (). e topic unit in spontaneous American English [Doctoral Dissertation].
Universidade Federal de Minas Gerais.
Cavalcante, F. A., & Ramos, A. C. (). e American English spontaneous speech minicorpus.
CHIMERA. Romance Corpora and Linguistic Studies, (), -.
Condon, W. S., & Ogston, W. D. (). Sound lm analysis of normal and pathological behavior
patterns. e Journal of Nervous and Mental Disease, (), -. https://doi.
org/./--
Cresti, E. (). Corpus del italiano parlato. Accademia della Crusca.
Cresti, E., & Moneglia, M. (Eds.). (). C-ORAL-ROM: Integrated reference corpora for spoken
Romance languages. J. Benjamins.

The C-ORAL-BRAIL proposal for the treatment of multimodal corpora data: the BGET corpus pilot project
Cresti, E., & Moneglia, M. (). Informational Patterning eory and the corpus-based Description
of Spoken Language: e compositionality Issue in the Topic-Comment Pattern. In M. Moneglia
& A. Panunzi (Eds.), Bootstrapping information from corpora in a cross-linguistic perspective (pp.
-). Firenze University Press.
Duncan, S. (). . Transcribing gesture with speech. In C. Müller, A. Cienki, E. Fricke, S. Ladewig,
D. McNeill, & S. Tessendorf (Eds.), Handbücher zur Sprach- und Kommunikationswissenscha
/ Handbooks of Linguistics and Communication Science (HSK) / (pp. -). de Gruyter.
https://doi.org/./.
Emmorey, K., B orinstein, H., ompson, R., & Gollan, T. (). Bimodal bilingualism. Bilingualism:
Language and Cognition, (), -. https://doi.org/./S
Ferrari, L., Mello, H., & Vieira, M. (). Reexões sobre a classicação da qualidade acústica de
dados de corpora orais. Anais do Congresso Brasileiro de Prosódia, , -.
Kendon, A. (). Some relationships between body motion and speech: An analysis of an example.
In A. Siegman & B. Pope (Eds.), Studies in dyadic communication (pp. -). Pergamon Press.
Kendon, A. (). Gesture: Visible Action as Utterance. Cambridge University Press. https://doi.
org/./CBO
Kita, S., & Özyürek, A. (). What does cross-linguistic variation in semantic variation. Journal of
Memory and Language, (), -.
Kita, S., van Gijn, I., & van der Hulst, H. (). Movement phases in signs and co-speech gestures, and
their transcription by human coders. In I. Wachsmuth & M. Fröhlich (Eds.), Gesture and Sign
Language in Human-Computer Interaction (pp. –). Springer. https://doi.org/./BFb
Loehr, D. (). Intonation and Gesture [Doctoral dissertation, University of Georgetown].
University of Georgetown.
Loehr, D. (). . Gesture and prosody. In C. Müller, A. Cienki, E. Fricke, S. Ladewig, D. McNeill,
& J. Bressem (Eds.), Handbücher zur Sprach- und Kommunikationswissenscha / Handbooks of
Linguistics and Communication Science (HSK) / (pp. -). de Gruyter. https://doi.
org/./.
MacWhinney, B. (). e CHILDES Project: Tools for Analyzing Talk (rd Edition). Lawrence
Erlbaum Associates. https://talkbank.org/manuals/CHAT.pdf
McClave, E. (). Gestural beats: e rhyt hm hyp othesis. Journal of Psycholingui stic Research, (),
-. https://doi.org/./BF
McNeill, D. (). Hand and mind: What gestures reveal about thought. University of Chicago Press.
McNeill, D. (). Gesture and thought. University of Chicago Press.
Mello, H. (). Methodological issues for spontaneous speech corpora compilation: e case of
C-ORAL-BRASIL. In T. Raso & H. Mello (Eds.), Studies in Corpus Linguistics (pp. -). John
Benjamins Publishing Company. https://doi.org/./scl..mel
Mello, H., Raso, T., Mittmann, M., Vale, H., & Côrtes, P. (). Transcrição e segmentação prosódica
do corpus C-ORAL-BRASIL: critérios de implementação e validação. In T. Raso & H. Mello,
C-ORAL-BRASIL I: Corpus de referência do português brasileiro falado informal (pp. –).
Editora UFMG.
Moneglia, M., & Raso, T. (). Appendix: Notes on the Language into Act eory. In T. Raso & H.
Mello (Eds.), Studies in Corpus Linguistics (pp. -). John Benjamins Publishing Company.
https://doi.org/./scl..mon
Pierrehumbert, J. B. (). e phonology and phonetics of English intonation [Doctoral dissertation,
Massachusetts Institute of Technology, Dept. of Linguistics and Philosophy]. MIT repository.

Digital Humanities, Corpus and Language Technology
Raso, T. (). Prosodic constraints for discourse markers. In T. Raso & H. Mello (Eds.), Studies in
Corpus Linguistics (Vol. , pp. –). John Benjamins Publishing Company. https://doi.
org/./scl..ras
Raso, T., & Vieira, M. A. (). A description of Dialogic Units/Discourse Markers in spontaneous
speech corpora based on phonetic parameters. CHIMERA: Revista De Corpus De Lenguas
Romances Y Estudios Lingüísticos, (), –. https://revistas.uam.es/chimera/article/
view/.
Raso, T., & Mello, H. (Eds.). (). C-ORAL-BRASIL I: Corpus de referência do português brasileiro
falado informal. Editora UFMG.
Raso, T., Mello, H., & Ferrari, L. (In preparation). C-ORAL-BRASIL: corpus de referência do português
brasileiro falado. II.
Rocha, B., Mello, H., & Raso, T. (). Para a compilação do C-ORAL-ANGOLA. Filologia e Linguística
Portuguesa,  (Especial): -. https://doi.org/./issn.-.viEspecialp-
Wagner, P., Malisz, Z., & Kopp, S. (). Gesture and speech in interaction: An overview. Speech
Communication, , -. https://doi.org/./j.specom....
Wittenburg, P., Brugman, H., Russel, A., Klassmann, A., & Sloetjes, H. (). ELAN: a Professional
Framework for Multimodality Research. Proceedings of LREC , –. https://archive.
mpi.nl/tla/elan

C VII
Las tecnologías del lenguaje y las
lenguas indígenas mexicanas:
constitución de un corpus paralelo
amuzgo-español
Human language technology and
the indigenous languages in
Mexico: the Amuzgo-Spanish
parallel corpus
Antonio Reyes Péreza & H. Antonio García Zúñigab
Universidad Autónoma de Querétaro (a), Instituto Nacional de Antropología e Historia (b) – México
Resumen: En este artículo se describen las particularidades de la construcción del
primer corpus paralelo amuzgo-español, el cual representa una fuente de datos
reales para la investigación lingüística, particularmente, así como para el desarrollo
de recursos y herramientas para lenguas escasamente representadas e, incluso, en
peligro de extinción. Los procesos llevados a cabo durante la constitución del corpus
se detallan de acuerdo con las siguientes fases: i) obtención de datos en la lengua
mediante entrevistas realizadas en trabajo de campo, ii) transcripción de las entre-
vistas; iii) procesamiento de la señal sonora en PRAAT para realizar análisis espec-
-
tica de traducciones a partir de la correspondencia lingüística entre lenguas.
Finalmente, se muestra el resultado de la implementación del corpus en una plata-

Abstract-
        

Digital Humanities, Corpus and Language Technology
collected from colloquial speech in Amuzgo (glossed and translated into Spanish) for


  -

iv) glossing and translating data into Spanish; v) semiautomatic alignment of trans-
lations. Finally, an open access tool is presented because of the corpus release.
1. Introducción
El lenguaje verbal es la vía más natural para que los seres humanos pueden manifestarse e
interactuar entre sí. Las Tecnologías del Lenguaje Humano (TLH) buscan, desde una pers-
pectiva que agrupa el conocimiento y las metodologías desarrolladas en diferentes campos y
disciplinas, hacer que una computadora pueda analizar, interpretar, comprender y producir
información que la faculte para la comunicación e interacción con cualquier ser humano a
través del uso del lenguaje. Para lograrlo, además de un conjunto vasto de técnicas, métodos
y algoritmos, es necesario que existan recursos que representen en un nivel micro el fenóme-
no lingüístico que sucede a nivel macro. En este sentido, una de las formas más comunes para
representar el lenguaje verbal, sea en su vertiente oral o escrita, es la constitución de corpus
lingüísticos. Con este tipo de recursos, todo sistema computacional podría tener estructura-
do el conocimiento lingüístico y así tener la posibilidad de determinar la estructura y signi-
cado de casi cualquier expresión lingüística (Manning y Shütze, ), desde la fonética y
la fonología hasta el discurso, pasando por la morfología, la sintaxis y la semántica.
En este escenario de creación de recursos que sirvan como fuente de conocimiento, no
solo para nes lingüísticos, antropológicos o sociales, sino incluso para cuestiones relacio-
nadas con el desarrollo de tecnologías que permitan el tratamiento computacional del
lenguaje, el trabajo realizado desde la segunda mitad del siglo pasado se ha centrado en un
conjunto no muy amplio de lenguas, en donde el inglés es la lengua más representada; por
citar un par de recursos muy conocidos, el Corpus Brown o el BNC. En este sentido, el
español también ha sido una lengua que goza de una representación interesante en térmi-
nos de corpus disponibles, baste mencionar tres de los más representativos: el Corpus de
Referencia del Español Actual (CREA), el Corpus Diacrónico del Español (CORDE) y el
Corpus del Español del Siglo XXI (CORPES). Asimismo, ha habido esfuerzos por repre-
sentar algunas otras lenguas, muchas de ellas con una descripción lingüística muy com-
pleta, como es el caso del italiano, el árabe y el alemán, entre otras (Quastho et al., ),

Las tecnologías del lenguaje y las lenguas indígenas mexicanas: constitución de un corpus paralelo amuzgo-español
así como lenguas escasamente representadas, minoritarias o, incluso, en peligro de extin-
ción (Prinsloo, ; Vinogradov, ; Midrigan et al., ). No obstante, hay muchas
lenguas que en la actualidad carecen de representatividad, y no solo en términos de recur-
sos, sino, en muchos casos, en términos de existencia de datos mínimos necesarios para
realizar una descripción lingüística. Tal es el caso de varias lenguas indígenas mexicanas.
En México, además del español, coexisten más de  lenguas indígenas, con sus respec-
tivas variantes, las cuales son, en algunos casos, ininteligibles entre sí. Esta enorme diversidad
se describe en el Catálogo de las lenguas indígenas nacionales: variantes lingüísticas de México
con sus autodenominaciones y referencias geoestadísticas (INALI, ) en términos de fa-
milias lingüísticas,  agrupaciones y  variantes. De las  agrupaciones identicadas, las
más representativas en términos de hablantes son el náhuatl, el maya, el mixteco y el zapote-
co. La primera con más de un millón de hablantes, la segunda con alrededor de ,
hablantes, mientras que las dos últimas con poco más de , hablantes cada una (INEGI,
). Del resto de lenguas, algunas no llegan a los , hablantes, mientras que algunas
otras están en vías de desaparición. Esta gran variedad de lenguas es, a todas luces, reejo de
una riqueza cultural y social, así como de una cosmovisión e identidad. No obstante, es evi-
dente que desde la perspectiva de las TLH hay una insuciencia de recursos, herramientas
e, incluso, materiales lingüísticos para la gran mayoría de estas lenguas. Algunas de ellas, de
forma sorprendente, a pesar de que han sido bien estudiadas y descritas.
Dado el contexto presentado, en este artículo se describe un trabajo interinstitucional
(Universidad Autónoma de Baja California e Instituto Nacional de Antropología e Histo-
ria) relacionado con una lengua que, no obstante su estado de descripción y cantidad de
hablantes, muestra ya un vínculo incipiente con las TLH: el amuzgo.
El amuzgo o jnon nda se habla en algunas localidades de tres municipios de dos en-
tidades federativas del sureste de México: Oaxaca y Guerrero. Cuenta con alrededor de
, hablantes (INEGI, ). A pesar de que existen trabajos descriptivos importantes
y notables (Buck,  y ), la lengua no ha sido documentada ni descrita de forma
exhaustiva. En términos gramaticales, el amuzgo se caracteriza por contar con un reper-
torio extenso de clases léxicas, lo que se maniesta en una alta complejidad verbal (Smith
y Tapia, ; Apóstol, ), un conjunto amplio de pronombres personales (Buck, ;
Palancar y Feist, ), así como en el empleo de tonos fonológicos para la marcación de
distintos signicados morfológicos, tales como la posesión (Hernández et al., ; García
et al., en prensa).
1 Algunos de los casos más extremos serían el ayapaneco, el oluteco, el tuzanteco, el 

Digital Humanities, Corpus and Language Technology
La constitución del corpus paralelo, que es el objetivo de este trabajo, se sustenta en la
obtención de muestras reales de habla en amuzgo mediante entrevistas realizadas en cam-
po con hablantes nativos de la lengua. Al respecto, es importante destacar que la creación
de este recurso, además de ser un aporte para aumentar la atención a las lenguas escasa-
mente representadas e, incluso, en peligro de extinción, permitirá el desarrollo de nuevos
recursos que pueden aprovechar el conocimiento explícito e implícito de los materiales que
integran el corpus. Por ejemplo, desde el ámbito de la traducción automática, para mejorar
los procesos de alineación entre segmentos del texto origen y el texto meta o, por otro lado,
para desarrollar sistemas de extracción de información sustentados en las características
intrínsecas de la lengua.
A continuación se presenta la organización de los contenidos tratados en el artículo: en
la Sección  se presentará el estado del arte de los trabajos de TLH relacionados con las lenguas
indígenas mexicana. En la Sección  se detallarán algunas características lingüísticas repre-
sentativas de la lengua amuzga. La Sección  describirá el proceso para la obtención de los
datos orales, así como el procesamiento espectrográco y textual de los mismos. En la Sección
 se explicará el proceso de glosado y de traducción al español, así como el trabajo de alinea-
ción de las traducciones y la liberación de una primera versión del corpus en una plataforma
web. Finalmente, en la Sección  se presentarán las conclusiones, centrando la atención en
algunos resultados alcanzados, así como resaltando las líneas de trabajo futuro.
2. El tratamiento tecnológico de las lenguas indígenas mexicanas
De acuerdo con los datos presentados en el documento Análisis del Sector de las Tecnolo-
gías del Lenguaje en México (, p.), la existencia de recursos en lenguas indígenas de
América Latina es casi inexistente. Una de las principales causas, señalan, es la mínima
presencia de datos, en el plano escrito, tanto en medios tradicionales, tales como textos
impresos, así como en medios electrónicos, sean estos contenidos web o de redes sociales.
A lo anterior, se puede añadir el hecho que se mencionó en la sección previa: hay varias
lenguas indígenas que no cuentan con la descripción lingüística suciente, ya sea porque
no han sido atendidas en un sentido académico, o bien, porque su gramática es difícil o la
consecución de datos es altamente complicada y, en ocasiones, riesgosa.
2 Al respecto hay que puntualizar que esta situación representa, además de una desventaja académica, una de
las consecuencias inmediatas de lo que se conoce como brecha tecnológica o digital. Como se sabe, este es un

por un lado, la marginación de las comunidades indígenas de México y otras latitudes del mundo y, por otro,
la incapacidad para emplear, adquirir y generar recursos tecnológicos que, en un contexto generalizado de
inequidad e injusticia, termina por excluir a estas comunidades (cf. Acosta & Aguilar, 2020; Arévalo, 2015).

Las tecnologías del lenguaje y las lenguas indígenas mexicanas: constitución de un corpus paralelo amuzgo-español
A pesar de esta situación poco alentadora, en Mager, Gutiérrez, Sierra y Meza (),
se listan algunos recursos digitales en estas lenguas. Entre ellos, destacan un par de corpus
paralelos, así como herramientas para análisis morfológico para algunas lenguas de las
familias otamangue y uto-azteca. De manera más especíca, en tareas relacionadas con la
constitución y explotación de corpus, se pueden citar los trabajos de Gutiérrez () y
Gutiérrez, Sierra y Hernández () en los que presentan el trabajo realizado con un
corpus paralelo náhuatl-español.
Por otra parte, en un artículo de , Mager, Barrón y Meza describen un acercamien-
to a la traducción estadística automática entre dos lenguas que en términos tipológicos son
muy diferentes: el wixarika y el español. Los autores detallan una aproximación basada en
la descomposición morfológica para mejorar los procesos de alineamiento con las traduc-
ciones al español y paliar la ausencia de datos en wixarika (Mager et al., , p.-). En
otra línea de trabajo, en el proyecto Digging Early Colonial History han utilizado técnicas
y herramientas de PLN y aprendizaje automático para realizar tareas de anotación con
documentos históricos, mayoritariamente en español, pero en los cuales también aparecen
datos en lenguas como el náhuatl, el mixteco y el maya.
En trabajos más relacionados con la oralidad se puede citar la investigación publicada
por Castellanos et al. (, p.), en la que se detallan los resultados de una aproximación
para evaluar la pronunciación de aprendices de lenguas indígenas, particularmente del
mixe, aplicando técnicas de modelado y reconocimiento de voz. Asimismo, el trabajo de-
sarrollado por Cruz y Waring () acerca del uso de redes neuronales para el reconoci-
miento automático de voz en chatino o el de Adams et al. (), también para el chatino,
en el que se focaliza la importancia y complejidad del proceso de transcripción y anotación
de los datos orales, al igual que el tratamiento adecuado de la información tonal de esta
lengua. Esto último es de suma importancia, puesto que el tono, como se verá más adelan-
te en este trabajo, constituye un elemento de la lengua amuzga esencial para marcar (dotar
de sentido) elementos gramaticales especícos, lo cual dista mucho de lo que ocurre en
lenguas como el náhuatl, el wixarika o el mixe.
3 
4 En efecto, la morfología y la sintaxis de estos dos tipos de lenguas, las tonales (el chatino), por un lado, y

casos es un ejemplo de lenguas no concatenativas (sus morfemas no están necesariamente representados
por segmentos discretos, ya que el tono, o alguna derivación fonológica de este rasgo, es un recurso para la
marcación; es decir, el tono no se ubica de forma exclusiva en un nivel léxico, sino que puede llegar a uno
de contenido gramatical), en tanto que el segundo se trata de una lengua concatenativa discreta, esto es,
siempre con morfemas segmentables.

Digital Humanities, Corpus and Language Technology
Por último, desde una perspectiva más relacionada con la industria, se puede subrayar
el trabajo realizado por algunas pequeñas empresas, así como grandes compañías como
Google y Microso, que en conjunto con instituciones gubernamentales o académicas, han
generado algunos recursos en lenguas indígenas mexicanas del tipo de repositorios de
información, traductores o apps para su aprendizaje (cf. ASTLM, :-).
3. Características lingüísticas del amuzgo
En esta sección se caracteriza la familia lingüística a la que pertenece el amuzgo con el
propósito de facilitar la presentación de los rasgos lingüísticos esenciales de dicha lengua.
Se verá que el término otomangue remite a un conjunto de sistemas complejos y diversi-
cados.
3.1. Familia otomangue
La familia otomangue en su conjunto siempre ha sido objeto de interés debido, principal-
mente, a sus características lingüísticas, muy distintas a las de otras lenguas habladas en
territorio mexicano, así como a la diversidad que existe en su interior. Pese a concentrarse
en un espacio geográco denido (la hipótesis que sustenta el origen y la integración de la
familia considera al subtiaba y al mangue, hoy en día extintos, los cuales se hablaron en
Nicaragua, lo cual rompería esta idea de continuum), cada una de las lenguas que compo-
nen la familia cuenta con un buen número de variantes, situación que obliga a pensar si se
trata de una familia de lenguas o, más bien, de una macrofamilia de familias; esto es, algu-
nas variantes, incluso, podrían llegar a considerarse lenguas diferenciadas de las otras
variantes que componen a una agrupación, para emplear la terminología del Instituto
Nacional de Lenguas Indígenas. Este es el caso de la llamada subfamilia amuzgo-mixteca-
na (Campbell, ), a la cual pertenece el amuzgo.
3.1.1.
Subfamilia amuzgo-mixtecana
El conjunto de lenguas amuzgo-mixtecanas pertenecen al otomangue del este (Campbell,
: ). En esta división también se encuentran el popoloca, el mazateco, el ixcateco, el
chocho, el zapoteco y el chatino. Como se ha dicho, la variedad interna en estas lenguas es
amplia. En el caso concreto del amuzgo se ha señalado que, en términos históricos, han
existido tres variantes: Xochistlahuaca, San Pedro Amuzgos e Ipalapa (habría otra, Tlacoa-
chistlahuaca, sobre la que no se conoce mucho). En la actualidad, se considera que solo en
dos de estos municipios existen hablantes: Xochistlahuaca (Guerrero) y San Pedro Amuz-
gos (Oaxaca). Estas demarcaciones territoriales y administrativas conforman por sí mis-

Las tecnologías del lenguaje y las lenguas indígenas mexicanas: constitución de un corpus paralelo amuzgo-español
mas dos variantes plenamente diferenciadas en casi todos los planos lingüísticos. No obs-
tante, el INALI () identica cuatro variedades (amuzgo alto del este, amuzgo bajo del
este, amuzgo del norte y amuzgo del sur). Por su parte, el resto de las lenguas amuzgo-mix-
tecanas tienen los siguientes números de variantes: mixteco (), tacuate (, la cual, en
términos lingüísticos, parece haberse separado del mixteco), cuicateco () y triqui ().
3.2. El amuzgo
Las características gramaticales del amuzgo se agrupan en torno de los niveles de análisis
lingüísticos tradicionales. De esta manera, en un sentido elemental, se reconocen aspectos
fonético-fonológicos, morfológicos y sintácticos. Sin embargo, el amuzgo al ser una lengua
en la que el tono (frecuencia acústica que se produce al interior de unidades fonológicas
como la sílaba), además de las distinciones semánticas que produce en el léxico, (véase
ejemplo ), interactúa con la morfología (ejemplo ) y la sintaxis (ejemplos  y ).
. a. su ‘l l ano’
b. su ‘copal’
. a. ba su casa (de él/ella)’
b. ba’ tu casa’
. a. kitsian ‘tigre’
b. kitsianan el tigre’
. a. ts’anjni ‘persona malvada
b. ts’anjnii ‘la persona malvada
Como se puede ver en los ejemplos anteriores, un cambio en el tono (de medio a alto en
a y b, así como de bajo a súper alto en a y b) comporta un cambio importante en el
signicado de la palabra. En los ejemplos de  y  lo que se muestra es la forma en la que
se construye el sentido denido de una frase nominal, el cual también está asociado a un
fenómeno tonal. Obsérvese que en b y b, ejemplos en los que las frases nominales se
encuentran denidas, la última sílaba es una copia de la precedente. No obstante, en b el
5 Otro tipo de caracterizaciones de la lengua, como las de corte sociolingüístico, se delinean en varios sen-
tidos. En las primeras secciones de este trabajo se incorporaron algunos de los datos más destacados en
términos poblacionales. Al respecto se entiende que la descripción que se hace de una lengua en términos
de las necesidades de las TLH debe ser lo más amplia posible o, por lo menos, tiene que estar apegada a los

donde la creación de recursos tenga que ver con lo judicial, sin duda, la pragmática, por un lado, y la enton-
ación, por el otro, serían sumamente relevantes.
6 Los superíndices indican el tipo de tono: 1 bajo, 2 medio, 3 alto, 4 súper alto y 5 extra alto. Con estas posibili-
dades, se pueden formar ciertas combinaciones.

Digital Humanities, Corpus and Language Technology
tono alto se mantiene en la sílaba que resulta de dicha copia, mientras que en b, esto no
sucede. La explicación de esta circunstancia es que cuando el tono de la última sílaba de
una palabra es medio, el llamado artículo denido no puede tener un tono medio, por lo
que tiene que cambiar a uno bajo.
En concreto, el sistema fonológico del amuzgo se compone por  consonantes (entre
las que se cuentan dos prenasales, tres que son producto del contacto con el español, la /p/,
la /l/ y la /r/, así como una con baja frecuencia de uso, la /m/). Asimismo, existen  vocales,
algunas de la cuales muestran oposiciones entre abiertas y cerradas, fundamentalmente en
las medias (/e/, /o/), en tanto que otras tienen contrastes entre orales y nasales (de nueva
cuenta, las medias, así como la baja, o sea, la /a/, y la anterior abierta, /ε/). Por otra parte,
los tonos de la lengua son, en total, siete; cinco considerados de nivel (los explicados en
nota : bajo, medio, alto, súper alto y extra alto) y  de contorno (medio-bajo, medio-alto).
En cuanto a otros aspectos centrales de la lengua, esta es de marcación en el núcleo
(salvo en las terceras personas), las relaciones sintácticas se dan por yuxtaposición, o sea,
no se morfologizan y, como menciona Hernández (), el predicado no lleva de manera
sistemática ajos para una referencia cruzada con el sujeto. Según Smith y Tapia (), el
amuzgo presenta un orden de constituyentes Verbo-Sujeto-Objeto en las construcciones
transitivas, mientras que para las intransitivas se mantiene el verbo en posición inicial. De
igual manera, en palabras de estos autores, hay un sistema escindido en las intransitivas,
de forma tal que la codicación es distinta entre las intransitivas agentivas, las intransitivas
pacientivas y las intransitivas estativas.
El sistema de personas gramaticales se organiza en tres (primera, segunda y tercera)
con sus distinciones respectivas entre singular y plural. En la tercera persona de plural se
hace una diferencia entre inclusión del escucha y la exclusión de este. La complejidad
morfológica ha obligado a proponer un peso fuerte de las clases léxicas.
4. Diseño del corpus: fase monolingüe en amuzgo
A continuación se describen las fases de trabajo para la construcción del corpus. En par-
ticular, las relativas a la obtención y procesamiento de los datos en amuzgo. Al respecto, es
necesario remarcar que se trata de material recopilado en un ambiente natural, esto es, se
planeó, registró y estructuró en campo. En consecuencia, el corpus se puede caracterizar
como representativo de un habla natural, diverso y actual, en correspondencia con los
7 La complejidad fonológica de la lengua es amplia, por cuestiones de espacio no puede ser abordada aquí.
Para mayores detalles, consúltese Hernández (2019).

Las tecnologías del lenguaje y las lenguas indígenas mexicanas: constitución de un corpus paralelo amuzgo-español
grupos etarios que conforman la muestra. Estas características, sin duda, son las que, en
determinado momento, resaltarán cuando la información se traduzca en aplicaciones rela-
cionadas con las necesidades propias de la comunidad de habla, como aquellas relaciona-
das con la atención en servicios de salud y justicia.
4.1. Obtención de datos orales
Aunque en este trabajo se presenta una parte del corpus conformado, su totalidad engloba
la participación de un grupo de personas adultas, jóvenes e infantes, tanto hombres como
mujeres en cada subconjunto. En este sentido, hasta el momento se ha trabajado con dos
personas en cada franja etaria (la cual no coincide necesariamente con la del sistema urba-
no debido a la forma de vida comunitaria en la que, desde la infancia, se adquieren respon-
sabilidades familiares).
Asimismo, en relación con la información de corte social con la cual, tradicionalmen-
te, se organiza e identica un corpus, se consideraron las circunstancias de vida de cada
participante con el propósito de observar su conocimiento, control y dominio de la lengua.
Por ejemplo, se aplicó un pequeño y sencillo instrumento en el que se captó información
referente a la frecuencia y los contextos de uso de la lengua. Esto contribuyó a catalogar a
quienes colaboraron en la investigación en atención al bilingüismo o monolingüismo mos-
trados, o bien, a su actitud frente a la lengua (hablantes pasivos, por ejemplo). En las
condiciones actuales del mundo, cada vez se hace más necesario abrir un espacio para
hablar de la migración. En un estudio que parte de la conguración sistemática de un
corpus, el estatus migratorio de las personas es relevante porque da una ilustración más
precisa de su comportamiento lingüístico. En efecto, un(a) migrante reacciona, después de
su experiencia como tal, de forma muy diversa a una interacción comunicativa. Al respec-
to, los extremos a considerar serían: desiste de hablar su lengua o se torna un(a) purista de
ella. En el punto medio quedaría la facultad de introducir préstamos lingüísticos con ma-
yor o menor resistencia. Lo anterior, no hay duda de ello, incide en el tipo de información
que se recolecta y obliga a imaginar nuevas formas de documentación o, en todo caso, a la
aceptación de la nueva realidad.
Debido a lo que se comenta (el panorama es mucho más complejo y amplio de que lo que
aquí se presenta), a cada una de las personas que colaboró en la investigación se le solicitó
una anécdota o historia de vida, propia o ajena, al igual que una narración tradicional; sola-
mente en algunos casos se incluyeron diálogos y entrevistas. De esta manera, se procuró
estructurar un corpus real, espontáneo, natural, diverso, con información suciente, repre-
sentativo y cuidado, en el que las diferentes fases de la vida cotidiana y formas de interacción

Digital Humanities, Corpus and Language Technology
(con estructuras lingüísticas comunes y variadas) se encontraran representadas. Al nal, se
logró conformar un material cercano a las ocho horas de duración. En este trabajo se ejem-
plica con la información concerniente a una narración (La esposa del zorro) en la que se
relata el intento de rescate de la esposa del zorro, que emprenden, por separado, un tigre, una
vaca y un conejo. Resulta llamativo que, en la cultura amuzga, se observe una divergencia de
aquello que se ha mostrado en la tradición literaria conocida como occidental. En este caso
no se trata de un animal astuto, inteligente, tramposo, malo, cizañero o sagaz, sino, más bien,
de un ser pasivo que sufre y no actúa, no muestra ni coraje ni ánimo, lo que lo lleva a caer
pronto en la desesperación. Por tal razón, el tigre, la vaca y el conejo, en diferentes oportuni-
dades, le ofrecen su ayuda al mirar la impotencia con la que vive.
Todo el material que se obtuvo se registró en audios, los cuales posteriormente fueron
utilizados para guiar el proceso de transcripción, así como el de análisis acústico en herra-
mientas tales como Praat y ELAN. Los resultados del tratamiento de la señal sonora ser-
virán como base para desarrollar una línea de trabajo futuro que contempla el diseño y
construcción de un corpus oral en amuzgo, así como de herramientas que permitan sacar
provecho al material ahí registrado.
4.2. Procesamiento de la señal acústica
Tal como se describió en la Sección ., las características fonológicas del amuzgo son muy
complejas, de ahí que el tratamiento de la señal acústica se convierta en un elemento relevan-
te para el estudio de la lengua. En este sentido, aunque el objetivo del trabajo es crear un
corpus paralelo de tipo textual, no se descarta que los datos recogidos para la construcción del
corpus se utilicen para sentar las bases de un nuevo corpus de tipo oral a nivel monolingüe.
Ahora bien, independiente a esta línea de trabajo futuro, para la construcción del cor-
pus paralelo amuzgo-español fue necesario procesar la señal acústica con el n de tener un
componente que sirviera de guía para el proceso posterior de transcripción. Para ello, se
hizo uso de herramientas auxiliares para el análisis del habla que garantizaran la delidad
de los datos. En principio, se utilizó Praat para estar en posibilidades de realizar análisis de
habla, etiquetado y segmentación, síntesis y manipulación de habla, así como cuestiones
relacionadas con representaciones grácas y de experimentación. Hay que reconocer que,
en general, esta herramienta no soporta de forma eciente cadenas de habla largas. Por
esto se utilizó, fundamentalmente, para analizar entradas léxicas en las que existiera algu-
na duda respecto al tono de la palabra fonológica. En la Figura  se presenta un ejemplo de
una cadena en la que se contrastan palabras con la misma conformación silábica, pero con
contrastes tonales.

Las tecnologías del lenguaje y las lenguas indígenas mexicanas: constitución de un corpus paralelo amuzgo-español
Figura 1. Diferenciación tonal del espectro acústico en amuzgo.
En contraparte, con ELAN se tuvo la posibilidad de analizar cadenas de habla más exten-
sas; esto facilitará la incorporación de información multimodal a ese futuro corpus oral
con el que se incrementarán las posibilidades de estudio de estos datos. Finalmente, como
resultado del procesamiento acústico, se generó información relativa a la duración, el tiem-
po de emisión, el acento, así como a los formantes (pico de la intensidad o concentración
de energía de una frecuencia) con los que, entre otras cuestiones, se distinguen las vocales.
4.3. Transcripción
El procedimiento especíco de esta etapa se dio de la forma en la que se describe a conti-
nuación. En primer lugar, en lo que corresponde con la transcripción, se distinguieron los
segmentos. A partir de este momento se planicó un cotejo entre lo hecho en las notas de
campo y los espectrogramas que arroja Praat. En segundo lugar, se puntualizó en el regis-
tro de rasgos fonológicos especícos, tales como apertura vocálica, nasalidad y laringeali-
zación. En tercer lugar, como se muestra en el ejemplo , se hizo un primer acercamiento
a los tonos de la lengua. Debido a que esta es una característica fundamental en amuzgo,
se debía tener cuidado en una anotación precisa. Por tanto, se anticipaban y aceptaban
modicaciones.

Digital Humanities, Corpus and Language Technology
. . Twe’nkwixue m’ankwiti’tyondye ts’ati’,
. ts’ianjndë, tyua ju’ sku’ ti’ k’a ti’ jndë,
. Mo’ twe’ nkwixue t-ja ti’,
. tëkitsa ti’ ts’ian,
. n o’ ya tje ti’ tyua’je,
. t’aa‘nna sku’ ti’ k’o n,
. No’ma’kje t at s’o n  ti’ n g’e non tsannji,
. të‘yon jon sku’ ti’, xue’ jon sku’ ti’. Nojo,
. ‘nni ‘nna ntsa’ ti’. Makjo ti’,
. t ’eo  ti’,
. ndo huxjen‘nein tje kwikitsian,
. tso kitsianan’:
. ndo u’ tyondyere, ndu matyo’,
. ‘ajoje. Mat ’e o man g ’e
. hutsan nji tjejon b’a no’ tsiana tja jon
. të‘yon jon sku’.
Para preparar las siguientes fases, cada uno de los textos resultantes se segmentó en cláusulas,
las cuales se marcaron con número arábigos (en el ejemplo de arriba, la numeración aludida
va del  al ). Esta es una manera ecaz de organizar los textos y facilitar el análisis de glosado
y traducción.
5. Construcción del corpus: fase paralela amuzgo-español
En esta sección se describen los procesos para la obtención de los datos en español con el
propósito de conformar la estructura en paralelo amuzgo-español.
5.1. Glosado y traducción
Una vez que se realizaron los procesos previos, se tomó la decisión de trabajar con las
transcripciones con el n de expandir las posibilidades del corpus. Para ello, se realizó un
proceso de glosado y de traducción de los datos. Las etapas relacionadas con la generación
de glosas se esquematizan a continuación:
i Limpieza de las transcripciones para preparar el trabajo de glosado.
ii Empleo del sistema ortográco más consistente (Tapia, ) y contraste con el pro-
puesto por Hernández ().

Las tecnologías del lenguaje y las lenguas indígenas mexicanas: constitución de un corpus paralelo amuzgo-español
iii Vericación de rasgos fonológicos relacionados con el acento para distinguir entre pa-
labra fonológica (incluye los clíticos) y entrada léxica.
iv Marcación de los clíticos.
v Segmentación de los distintos tipos de frase: verbal, nominal, adverbial, etc.
vi Realización de la glosa de cada cláusula de acuerdo con las reglas de glosado de Leipzig
(Comrie et al., ).
El glosado, como se sabe, incluye tanto la segmentación como la identicación de la cate-
goría gramatical (no funcional) de las unidades reconocidas. La última fase del análisis
previo a la formalización de los datos en amuzgo fue la traducción de estos al español. Esta
traducción se realizó en tres pasos. Primero, una interpretación general del texto en la
lengua origen. Segundo, una alineación manual de las categorías gramaticales identicadas
con sus respectivos signicados (en este proceso se privilegió una traducción literal, man-
teniendo incluso el orden que se presentó en las oraciones en la lengua origen). Tercero,
formalización de la traducción considerando el sentido oracional, la correspondencia entre
categorías y la información producida mediante el proceso de glosado.
Este proceso de traducción fue realizado por un traductor humano, hablante nativo de
amuzgo y español, con formación profesional en lingüística amerindia. Dadas estas carac-
terísticas, se aseguró que la traducción fuera lo más el posible, tanto en términos de co-
rrespondencia lingüística como de función comunicativa, para poder realizar los procesos
automatizados de alineación de segmentos. En la Figura  se ejemplica el resultado del
proceso general de traducción. En ella se observan algunos segmentos transcritos en la
lengua origen (línea ) con sus respectivas segmentaciones y glosas (líneas  y ), así como
una primera traducción basada en el tercer paso de la traducción (línea ).

Digital Humanities, Corpus and Language Technology
Figura 2. Ejemplo de segmentos transcritos en amuzgo con sus respec tivas glosas y traducción al español.
5.2. Alineación automática de segmentos
La siguiente fase de construcción consistió en realizar un proceso automático para alinear
los textos transcritos en amuzgo con sus correspondientes traducciones al español. Esta
fase es de suma importancia para poder concretar todo corpus que tenga como caracterís-
tica el ser paralelo. Para realizar este proceso se utilizó la herramienta de alineación que
está implementada en el programa de Traducción Asistida por Computadora (TAC), Ome-
gaT. Se decidió utilizar esta herramienta dado que el proceso de alineación se hace con base
en el algoritmo de Gale-Church (), el cual ha sido utilizado en varios trabajos de lin-
güística computacional. Este algoritmo es independiente de la lengua, es decir, no es nece-
saria una gramática, en este caso del amuzgo, ni tampoco grandes volúmenes de datos para
poder emparejar los segmentos. Pondera, en contraparte, la longitud de los segmentos para
realizar la alineación con base en el supuesto de que las construcciones largas en la lengua
origen deben corresponderse con construcciones de longitud similar en la lengua meta.

Las tecnologías del lenguaje y las lenguas indígenas mexicanas: constitución de un corpus paralelo amuzgo-español
La alineación se hizo considerando los dos métodos de comparación de segmentos
implementados en la herramienta: el método parsewise y el método heapwise. El primero
privilegia el paralelismo sintáctico entre lenguas a partir de la alineación unitaria de seg-
mentos, en tanto que el segundo privilegia una alineación global de los textos. Ambos
métodos arrojaron resultados diferentes, cuya calidad fue evaluada con base en la infor-
mación de las glosas y la traducción literal. En las guras  y  se ejemplican los resultados
del proceso de alineación para un mismo fragmento. En la gura  se destaca el método
heapwise, mientras que en la , el parsewise.
Figura 3. Alineación mediante el método heapwise.

Digital Humanities, Corpus and Language Technology
Figura 4. Alineación mediante el método parsewise.
5.3. Depuración manual y realineación de segmentos
Como se puede apreciar en las guras anteriores, el resultado de alineación diere bastan-
te en los segmentos emparejados. Esta variación está en función del método de compara-
ción. Así, cuando se hizo la alineación usando heapwise, los segmentos alineados no
correspondían en buena medida con la información de la traducción. En cambio, cuando
se hizo el proceso con el método parsewise, el resultado mejoró, por lo que se decidió
utilizar este método para alinear los textos.
Cabe mencionar que, a pesar de la mejora que se observó con parsewise, la alineación
de los segmentos aún distaba de ser totalmente paralela. Por tal motivo, se decidió hacer
una depuración manual en la que se realinearon varios segmentos que no se correspondían.

Las tecnologías del lenguaje y las lenguas indígenas mexicanas: constitución de un corpus paralelo amuzgo-español
Este proceso, si bien fue extenuante, en todo momento estuvo supeditado a la información
que se obtuvo del proceso de glosado y de traducción. Ello, de alguna manera, garantiza
que los segmentos emparejados exhiben de forma adecuada una correspondencia lingüís-
tica y comunicativa entre los datos en amuzgo y sus traducciones al español. Para nalizar
esta sección, en la Figura  se evidencia el resultado de alineación después de realizar la
depuración y su consecuente realineación.
Figura 5. Resultado de segmentos emparejados después de la depuración y la realineación.
5.4. Implementación y liberación del corpus
Una vez que se concluyó el proceso total de alineación, se buscó cómo implementar el
material generado en un recurso que permitiera la consulta de los datos de una manera
eciente. Para ello, se utilizó la plataforma web GECO, la cual permite hacer una imple-
mentación de los datos en una interfaz sencilla para el usuario. Además de ello, ofrece
algunas herramientas para explotar el contenido de los corpus, por ejemplo, la búsqueda
de concordancias. Para ilustrar el resultado de la implementación en esta plataforma, en la
Figura  se muestra una captura de pantalla del corpus en la que se focaliza la búsqueda
de la palabra sku en amuzgo (base semántico-léxica de “esposa”) y los contextos en los
cuales aparece en ambas lenguas.
8 

Digital Humanities, Corpus and Language Technology
Figura 6. Concordancias amuzgo-español de la palabra sku (esposa) en el corpus.
Si bien en este momento la implementación del corpus aún no ha concluido, es importan-
te destacar que el resultado de todo este conjunto de procesos es una primera versión que
permite explotar, aunque sea de forma mínima, los datos paralelos del corpus. Es cierto
que hay información pendiente de procesar e, incluso, de implementar (por ejemplo, en
esta versión preliminar no se aportan estadísticas acerca de la relación types/tokens del
mismo debido a que es poco representativo hablar en estos términos dadas las caracterís-
ticas morfológicas del amuzgo); no obstante, es importante recalcar que el corpus cuenta
al momento con poco más de una hora de grabaciones procesadas conforme a las etapas
descritas previamente. En este sentido, el corpus se está constituyendo con información
que rebasa el espectro oral de los datos, es decir, se está incorporando información muy
valiosa en las glosas y en las traducciones, la cual, una vez liberada la versión nal del
corpus, permitirá complementar y expandir la utilidad de este para estudiar y generar
nuevo conocimiento, así como herramientas y recursos para esta lengua.

Las tecnologías del lenguaje y las lenguas indígenas mexicanas: constitución de un corpus paralelo amuzgo-español
6. Conclusiones
En este artículo se ha descrito un trabajo para constituir un corpus paralelo amuzgo-espa-
ñol. Se ha enfatizado la problemática que implica la creación de recursos en lenguas indí-
genas. En especíco, para lenguas cuya ausencia de datos diculta, incluso, su descripción
lingüística. De igual manera, se ha resaltado el trabajo realizado para la obtención de mues-
tras reales de la lengua mediante trabajo de campo. Los datos aquí presentados correspon-
den a una primera fase de grabaciones, las cuales han sido procesadas considerando dife-
rentes niveles que permitan generar un corpus de calidad: transcripción, procesamiento
de la señal acústica y transcripción fonética; asimismo, se ha trabajado con las transcrip-
ciones para realizar el proceso de glosado y de traducción al español. Esta información,
además de ser relevante para nes lingüísticos, puede ser provechosa para modelar siste-
mas sustentados en las características propias de la lengua. Cabe mencionar, por otra parte,
que se espera que en próximas fases se presenten más transcripciones de las grabaciones,
así como que el número de entrevistas aumente en el corto y mediano plazo, logrando así
un corpus más amplio.
Ahora bien, los resultados que se han obtenido a la fecha permiten hacer una proyección
de la utilidad del corpus por demás interesante. A saber, más de una hora de grabación de
muestras reales de habla en amuzgo, es decir, a diferencia de algunos corpus que parten de
documentos que reejan muy poco el habla coloquial o son traducciones de documentos
ociales o religiosos, este corpus representará un habla lo más natural posible, tal como se
da en la comunidad. Asimismo, este tipo de contenido permitirá, en el ámbito de las TLH,
contar con un recurso con el cual se pueda experimentar, por ejemplo, con modelos de
reconocimiento de voz, tomando en cuenta las características tonales de la lengua, así como
con herramientas de traducción automática que consideren los rasgos tipológicos del
amuzgo para segmentar las oraciones y alinearlas correctamente con los segmentos de la
lengua de llegada. Aunado a lo anterior, es indudable que este tipo de recursos puede co-
adyuvar a los diferentes esfuerzos que desde diversos ámbitos intentan disminuir la brecha
tecnológica entre comunidades y que, de forma ideal, como señala Crystal (), pueden
aportar para evitar la potencial desaparición (o muerte) de lenguas.
Para concluir, se destaca una serie de líneas de trabajo que permitirán formalizar el
trabajo realizado hasta ahora. La primera y más obvia es la consecución de nuevas muestras
orales que permitan expandir la cantidad de datos que integrarán el corpus. Una segunda
línea es la exploración de herramientas que permitan procesar la señal acústica de manera
más rápida, de forma que el proceso de transcripción se vuelva, en cierto punto, más in-
mediato. Finalmente, se contempla una línea de trabajo más social en la que el corpus, en

Digital Humanities, Corpus and Language Technology
tanto herramienta que reeja una forma de conceptualizar y verbalizar el mundo, permita
poner de maniesto las necesidades y oportunidades sociales de las comunidades indíge-
nas, por ejemplo, en escenarios de interpretación social, médica o jurídica.
Referencias
Acosta, O., & Aguilar, C. (). A Critical Review of the Current State of Natural Language Processing
in Mexico and Chile. In F. Pinarbaşi & M. Taşkiran (Eds.), Natural Language Processing for Global
and Local Business (pp. -). IGI Global.
Adams, O., Cohn, T., Neubig, G., Cruz, H., Bird, S. & Michaud, A. (). Evaluating phonemic
transcription of low-resource tonal languages for language documentation. In N. Calzolari, K.
Choukri, C. Cieri, T. De clerck, S. Goggi, K. Hasida, H. Isahara, B. Maegaard, J. Mariani, H. Mazo,
A. Moreno, J. Odijk, S. Piperidis, & T. Tokunaga (Eds), Proceedings of the th International
Conference on Lang uage Resources and Evaluation (pp. -) European Language Resources
Association (ELRA).
Apóstol, J. (). Clases exivas verbales en el amuzgo de Xochistlahuaca (Guerrero) [Tesis de
Maestría, Centro de Investigaciones y Estudios Superiores en Antropología Social].
Arévalo, J. (). El problema de la brecha tecnológica: un asunto de cultura. Revista Sinapsis, (),
-.
ASTLM. (). Análisis del sector de las Tecnologías del lenguaje en México. Plan del impulso de las
tecnologías del lenguaje. Gobierno de España.
Buck, M. (). Gramática del amuzgo de San Pedro Amuzgos. Instituto Lingüístico de Verano.
Buck, M. (). Gramática del amuzgo de Xochistlahuaca. Instituto Lingüístico de Verano.
Campbell, L. (). American Indian languages: the historical linguistics of Native America. Oxford
University Press.
Castellanos, A., Estrada, E. y Domínguez, W. (). Implementación de algoritmos de procesamiento
de lenguaje natural para la evaluación de la pronunciación efectiva en el aprendizaje de lenguas
indígenas. Revista Electrónica de Investigación e Innovación Educativa-REIIE, (), -.
Comrie, B., Haspelmath, M., Bickel, B. & Max Planck Institute for Evolutional Anthropology. ().
e Leipzig Glossing Rules: Conventions for Interlinear Morpheme-by-morphene Glosses. Max
Planck Institute for Evolutionary Anthropology.
Crystal, D. (). Language death. Cambridge University Press.
Cruz, H. & Waring, J. (). Deploying Technology to Save Endangered Languages. arXiv.
Gale, W. & Church, K. (). A Program for Aligning Sentences in Bilingual Corpora. Computational
Linguistics, (), -.
García, H., Hernández, N. y Mora, A. (en dictamen). Posesión y otras relaciones semánticas en
Amuzgo de San Pedro Amuzgos (otomangue). En Z. Estrada y M. Peregrina (Eds.), Dependencias
simétricas y asimétricas: Dominios semánticos y motivaciones. Universidad de Sonora.
Gutiérrez, X. (). Bilingual lexicon extraction for a distant language pair using a small parallel
corpus. En D. Inkpen, S. Muresan, S. Lahiri, K. Mazidi, & A. Zhila (Eds.), Proceedings of the 
Conference of the North American Chapter of the Association for Computational Linguistics:
Student Research Workshop (pp. -). Association for Computational Linguistics.
Gutiérrez, X., Sierra, G., & Hernández, I. (). Axolotl: a Web Accessible Parallel Corpus for
Spanish-Nahuatl. En N. Calzolari, K. Choukri, T. Declerck, S. Goggi, M. Grobelnik, B. Maegaard,

Las tecnologías del lenguaje y las lenguas indígenas mexicanas: constitución de un corpus paralelo amuzgo-español
J. Mariani, H. Mazo, A. Moreno, J. Odijk, & S. Piperidis (Eds.), Proceedings of the Tenth
International Conference on Language Resources and Evaluation (pp. -). European
Language Resources Association.
Hernández, N., Mora, A. y García, H. (). Estructura de la frase nominal posesiva en amuzgo
(otomangue). UniverSOS. Revista de Lenguas Indígenas y Universos Culturales, , -.
Hernández, N. (). El sistema tonal en el amuzgo de San Pedro Amuzgos: Interacción entre el tono
de la base nominal y los clíticos [Tesis de Maestría en Lingüística Indoamericana, Centro de
Investigaciones y Estudios Superiores en Antropología Social].
INALI, (). Catálogo de las lenguas indígenas nacionales: variantes lingüísticas de México con
sus autodenominaciones y referencias geoestadísticas. En Diario Ocial de la Federación,  de
enero de .
INEGI. (). Encuesta intercensal . Lenguas indígenas y hablantes de  años y más. http://
cuentame.inegi.org.mx/hipertexto/todas_lenguas.htm.
Mager, M., Barrón, C. y Meza, I. (). Traductor estadístico wixarika-español usando descomposición
morfológica. COMTEL, , -.
Mager, M., Gutiérrez, X., Sierra, G., & Meza, I. (). Challenges of language technologies for the
Americas indigenous languages. In E. Bender, L. Derczynski, & P. Isabelle (Eds.), Proceedings of
the th International Conference on Computational Linguistics (pp. -). Association for
Computational Linguistics.
Manning. C. & H. Schütze. (). Foundations of statistical natural language processing. MIT Press.
Midrigan, L., Boyd, V., Victoria, L., Sánchez, D., Malancea, D., Midrigan, D., & Corina, D. ().
Resources in Underrepresented Languages: Building a Representative Romanian Corpus. In
Proceedings of the th Language Resources and Evaluation Conference, European Language
Resources Association: -.
Palancar, E. y Feist, T. (). Agreeing with subjects in number: e rare Split of Amuzgo verbal
inection. Linguistic Typology, (), -.
Prinsloo, D. (). Corpus-based Lexicography for Lesser-resourced Languages - Maximizing the
Limited Corpus. Lexikos, (), -.
Quastho, U., Richter, M. & Biemann, C. (). Corpus portal for search in monolingual corpora.
In N. Calzolari, K. Choukri, A. Gangemi, B. Maegaard, J. Mariani, J. Odijk, & D. Tapias (Eds.),
Proceedings of the h International Conference on Language Resources and Evaluation (pp.
–). ELRA.
Smith, T. y Tapia, F. (). Amuzgo como lengua activa. En P. Levy (Ed.), Del cora al maya yucateco.
Estudios lingüísticos sobre algunas lenguas indígenas mexicanas (pp. -). Universidad
Nacional Autónoma de México.
Tapia, F. (). Diccionario amuzgo-español. El amuzgo de San Pedro Amuzgos. CIESAS.
Vinogradov, I. (). Linguistic corpora of understudied languages: do they make sense? Káñina,
(), -.

C VIII
Methodological bases: the
construction of a corpus for the
detection of deception and
credibility assessment1
Bases metodológicas: la
construcción de un corpus para la
detección de mentiras y la
evaluación de la credibilidad
Pedro Eduardo Hernández Fuentes
Universidad Nacional Autónoma de México –México
Abstract: Meta-analytic approaches reveal that, to identify lies or evaluate the cred-
ibility of a testimony, it is more reliable to perform a discursive or verbal material

      
make imperative the need to focus on the construction of a linguistic corpus that
-
nitive psychology. Therefore, the methodological proposal for the construction of a
-


Resumen: Los acercamientos metaanalíticos revelan que la información verbal es
-
1 Translation from Spanish language by Leon Jacob Ortega Islas.

Digital Humanities, Corpus and Language Technology
timonio. De aquí que actualmente se han desarrollado diversas investigaciones para
  
necesidad de enfocarse en la construcción de un corpus lingüístico que posibilite el
estudio del tema sin relegar las aportaciones realizadas desde la psicología (cogniti-
va). Por ello, en este texto, se desarrollará la propuesta metodológica para la cons-
trucción de un corpus en el tema. Ésta es el resultado de un trabajo transdisciplina-

cognitivas con el método de doble ciego.
1. Introduction
e study of detection of deception and credibility assessment has been of interest to many
specialists and has been approached from dierent disciplines. Although scientic tools
have been provided for its study, there is still a widespread false belief that there are key
determinants, universal body signals or physiological indicators that are irrefutable proof
that an individual is lying. Systematic review to analyze research results quantitatively
(meta-analysis) reveals that most of the indicators that researchers typically examine in
detection of deception are not related to deception at all (Vrij et al., ).
Meta-analytic research also reveal that verbal information is a more reliable indicator
to identify deception or assess the credibility of a testimony (DePaulo et al., ; Vrij,
). Hence, research from forensic linguistics, sociolinguistics, psycholinguistics and
mostly, cognitive psychology have currently been developed to make scientic contribu-
tions in this regard. ese eorts make the need to focus on the construction of a linguis-
tic corpus that allows the study of detection of deception and credibility assessment im-
perative.
erefore, this chapter will develop the methodological proposal that allows the crea-
tion of a linguistic corpus to identify some characteristic features of the evaluation of
truthfulness and lie detection in discourse. is project is the result of an inter- and trans-
disciplinary work between linguistics and psychology. e project proposal developed at
the Language and Cognition Laboratory of the Cognitive Sciences Research Center
(UAEM) will be presented, emphasizing the methodology followed for the construction
of the sample; an in-depth explanation of the method and general description for the con-
struction of the corpus is presented: type of study, type of participants, data collection
procedure and ethical considerations We believe that, before making evaluations on truth-
fulness or falsehood in discourse, it would be necessary to explore theoretically and meth-

Methodological bases: the construction of a corpus for the detection of deception and credibility assessment
odologically the construction of the discursive corpus in order to begin to explore the still
little-known map of deception and truthfulness. Beginning to establish methodological
rigor in the construction of this type of samples is not an easy task, although it is necessary
for the future experimental or quasi-experimental approach to a subject for which there
are many questions and few answers.
We also aspire to introduce to the academic context a subject that has been little ad-
dressed in the scientic eld, since there have not been enough studies that consider lin-
guistic theory to address this phenomenon: most of the research has been conducted from
the perspective of cognitive psychology. ere is also a deciency in the little research
conducted on the Spanish language; although some recent proposals consider this language
as a eld of study there are still few eorts (Hwang et al., ; Vrij et al., ).
In short, although research has emphasized the preponderance of the analysis of verbal
content in contrast to that of nonverbal behavior, there is a gap in this regard and not
enough value has been given to the construction of the corpus so that, in the future, the
main linguistic indicators that dierentiate between a discourse that intends to deceive
another and one that does not can be studied. is project will contribute to ll this gap.
2. Detection of Deception and Credibility Assessment
e subject of this paper has a long tradition within the scientic and non-scientic eld.
e approaches to this subject have been made mainly from philosophy and psychology,
although there are also contributions from anthropology, behavioral economics, sociology,
and linguistics, to mention a few examples. Possibly, the rst major contribution that these
works have given is the denition of the terms lie and deception, which have been used as
synonyms, and are understood as an attempt to generate in someone else, from verbal or
nonverbal means, a belief that the communicator assumes as false (Vrij, ; Masip, )
(§.). Other contributions concern the answer to questions such as: why do we lie or what
are the reasons for lying? (Vrij, , ), what are the characteristics of a good liar?
(Vrij, ), what skills do people have to lie? (Salekin et al., ), how oen do we lie?
(Feldman et al., ), what are the basics of lie detection? (Vrij, ), and why are we
bad lie detectors? (Vrij et al., ).
e phenomenon acquired greater visibility from its association with the study of non-
verbal behavior, whose most considered channels have been facial expression, physiology,
paralanguage and oculesics. Although the study of nonverbal behavior also includes other
channels, namely gestures, postures, orientation and movement, proxemics, haptics, and
appearance (López et al., ), these have been less regarded and studied. Within the study

Digital Humanities, Corpus and Language Technology
of facial expression, one of the greatest proponents has been Paul Ekman, who has argued
in various publications (Ekman, , ; Ekman and Friesen, , ; Ekman and
O’Sullivan, ) that facial expressions of emotions are universal and have a biological,
evolutionary, and adaptive origin, as Darwin (/) stated. Although Darwin’s
(/) and, therefore, Ekmans proposals were initially questioned, his ndings have
now been supported by more than a hundred research studies and dierent specialists; for
example, Reissland et al. () conducted a study on facial development based on -D
ultrasound visualization of fetal facial movements.
ese investigations have led to state that one of the most reliable ways to detect decep-
tion is the study of microexpressions, which are rapid facial movements lasting less than
one-h of a second, which are important because they convey important information
about what a subject is truly feeling or experiencing emotionally and is trying to hide
(Ekman, ). Based on this, it has been suggested the idea that observable microexpres-
sions on the face are more reliable indications of deception than other channels. is,
moreover, is supported by the Filtering Hypothesis, which argues that, when a person lies,
he or she experiences emotions that he or she tries to hide because they could reveal the
truth; however, these are leaked through the subject’s face for a brief moment (Ekman and
Friesen, ).
However, the analysis of microexpressions as indicators of deception is still under dis-
cussion, since deception can generate positive or negative emotions, or even these may not
be present and, therefore, the analysis of them is not the best way to determine when a
person is hiding the truth (Burgoon, ; Vrij et al., ). In addition, it remains to delve
into the relevance or not of other indicators of nonverbal behavior that have been less
studied, such as those that DePaulo et al. () registered: the movements of arms, hands,
ngers, ngers, legs and feet and the use of illustrators. erefore, Vrij et al. () reviewed
which is the most successful way for detection of deception when a subject tries to detect
it without the help of technology: nonverbal behavioral analysis or discursive analysis,
concluding that a promising way was discursive analysis.
Following the above, Vrij () presented a literature review on the keys in detection
of deception and pointed out that the projects that study the dierences at the discursive
level are the ones that are currently predominant, as there is scientic evidence on their
level of reliability. is is also conrmed by the meta-analytical study of DePaulo et al.
(), in which, from the review of the importance of  behaviors (verbal and nonver-
bal), it was concluded that the analysis of the verbal in contrast to the nonverbal is more
relevant. So, is detection of deception a problem of linguistics?

Methodological bases: the construction of a corpus for the detection of deception and credibility assessment
2.1 Is detection of deception a problem of linguistics?
e fact that the subject has been widely approached from psychology does not imply that
it is not a problem of linguistics. From this area, some research has been carried out,
although it is not very abundant, since the study of detection of deception as a linguistic
phenomenon has been relegated; hence there is a need to oer more specic contributions
from this discipline that give a linguistic description of the phenomenon. It is likely that
the limited existence of linguistic studies of lying is the result of the methodological di-
culties involved in the design of experiments and the analysis of the information obtained
(Infante, ). e still low number of contributions made from this area regarding the
subject and some peripheral subjects could be listed more and more frequently; however,
increasing interest in the construction of a corpus other than English – the language in
which the experiments and samples have been mostly designed – may allow us to generate
a more assertive approach to the matter.
Among the linguistic contributions, those developed from forensic linguistics stand
out, for example, Picornell () has studied the detection of deception in written witness
statements and has proposed ways to look for signs of deception from the narrative char-
acteristics of the witnesses. e author has criticized that one of the shortcomings that
exist in several of the research studies is that they are conducted with university students
because they are the closest participants, although they do not reect the reality. For this
reason, in the present study, the two variables to be controlled are not related to education-
al level, but to age and sex (§.). Also noteworthy are the contributions of Fitzpatrick
(), who attempted to test the accuracy of some linguistic cues linked to deception.
From a more technological perspective, a number of tools have been developed, for
example, the Linguistic Inquiry and Word Count (Pennebaker et al., ), used to auto-
mate in a simple way the lexical analysis of deceptive text; the Voice Stress Analyzer (NITV
Federal Services, ), whose hypothesis is that vocal stress indicators reveal deception;
and the CSC Deceptive Speech (), a corpus developed to distinguish deceptive speech
from non-deceptive speech based on machine learning techniques on features extracted
from the corpus. ese endeavors, which aim to identify and quantify linguistic indicators
of deception, have generated several computational programs from dierent research are-
as and laboratories in the last een years with the direct or indirect purpose of achieving
a better identication of lies: Agent Analyzer, General Architecture for Text Engineering
(GATE), iSkim or CueCal, Coh-Metrix, Automated Deception Analysis Machine (ADAM)
(Hauch et al., ).

Digital Humanities, Corpus and Language Technology
3. Methodological proposal
e creation of this corpus responds to the interest and the need to create resources that
generate research related to truthfulness and deception in discourse, since, as stated in the
introduction, most of the current research indicates that the analysis of verbal content can
provide more clues in the detection of deception and the evaluation of credibility. us,
beginning to defragment and study how Spanish speakers lie in quasi-experimental con-
ditions is a timely, though limited, approach for resource generation and future research
purposes in this eld.
e idea that there is no single totally reliable signal for deception detection is the most
useful one because of the very diculties of lie detection. In this sense, the set of several
verbal and non-verbal indicators is the most accurate way to deal with this phenomenon;
although the focus of this work is, in principle, linguistic, by obtaining recorded audiovis-
ual material (§.), other types of approaches will be possible in the future. It should also
be noted that, as mentioned, most of the research reviewed seeks to nd patterns that help
to determine whether there are indicators of deception, leaving aside the evaluation of
truthfulness in discourse. is is also intended to be controlled in the present research.
us, the creation of this sample seeks to create a database with a general criterion
specic to the Laboratory of Language and Cognition that: ) favors projects related to the
topic; ) speeds up the necessary methodological processes of a research related to the
topic; ) allows the approach of inter- and transdisciplinary research from the same mate-
rial whose methodological decisions have a justication; ) allows nding characteristic
patterns of truthful and fallacious discourse of a specic society and with a particular
topic. In principle, the scope of the set of texts is limited to the collaborators of the Labo-
ratory, i.e., only members will be able to consult it, since there is no platform on which it
can be disseminated. Nevertheless, in the future, a greater transcendence is intended.
e rst phase of this research involved the design of the interview and the selection
of the participants (§. and §.); the second phase involved sending more specic infor-
mation through the informed consent form (§. and Appendix . CI); the third phase
involved conducting the cognitive interview divided into two sections (Appendix . GE):
implementation of the double-blind method and conducting the interview; nally, the
fourth phase involved the transcription and basic labeling that will allow for future analy-
ses (Appendix . CT).
Upon completion, y-four narratives of experience were obtained from twenty-seven
people who had some experience of the September , , earthquake that occurred in
Mexico; each participant provided one truthful narrative (twenty-seven total) and one

Methodological bases: the construction of a corpus for the detection of deception and credibility assessment
fallacious narrative (twenty-seven total). e testimonies were divided into three dierent
groups (Table ) to be able to perform comparative analyses.
3.1 Cognitive interviewing as a method for eliciting deceptive discourse
e lack of evidence that proves the usefulness of non-verbal parameters in lie detection
and credibility assessment has generated the development of research that bets on the use
of cognitive strategies. is has led to remarkable dierences between those who express
(verbally) a truth or a lie (Vrij, ) and, therefore, has prompted the design of experi-
ments that assess these distinctions: telling a story backwards rather than in chronological
order (Vrij et al., ; Vrij et al., ), looking at the direction of gaze (Vrij et al., ),
asking unexpected questions of the participant (Lancaster et al., ), asking the subject
to perform a secondary task (drawing, for example) during the interview (Lancaster et al.,
), and providing a greater number of possible details in a story (Leal et al., ).
roughout all of these approaches, the role of the interviewer is critical. For example,
one could highlight the dierence between the cognitive interview model and the Reid tech-
nique model of interviewing and interrogation, which is still used despite its proven ineec-
tiveness. So, it is important for the interviewer to take an active role and ask questions that
generate distinctive reactions between the person who is lying and the person who is telling
the truth (Masip and Herrero, ). is should be supported by protocols based on solid
theoretical models, cognitively based, and supported by research, such as the Activation-De-
cision-Construction Model (ADCM) proposed by Walczyk and those previously discussed.
It is important to consider the limitations noted about the cognitive models currently
developed, since specifying the reasons why lying is cognitively more complex is not the same
as elaborating or contrasting models that specify the cognitive processes responsible for the
distinctions between lying and telling the truth that clarify answers to questions such as what
cognitive processes are activated when a person lies? (Blandón-Gitlin et al., ).
As part of the development of research studies that focus on the use of cognitive strat-
egies, we can nd the cognitive interview, designed by Geiselman et al. () and Fisher
and Geiselman () with the purpose of obtaining quality information from the inter-
viewee; in addition to developing an alternative interview method to the existing ones,
focused on the mental processes of the witnesses instead of the events that occurred (Fish-
er and Geiselman, ). In its rst version, channeled toward criminal investigation, the
proposal contained four basic techniques: ) context reinstatement, ) telling everything,
) change of perspective, and ) change of order. In the second version of the interview
(Fisher and Geiselman, ), called the enhanced cognitive interview, social and commu-

Digital Humanities, Corpus and Language Technology
nicative factors were included, which were intended to improve the social interaction be-
tween the interviewer and the interviewee, improve the interviewee’s memory and other
cognitive processes, and achieve eective communication:
Table 1.  
No. Technique Description Improved
psychological
process
1 Rapport It aims to create a good emotional climate and develop


Social interaction
2 Active partici-
pation of the

-


Social interaction
3 Report every-
thing


he/she considers them important or not.
Memory and com-
munication
4 Reset the context 
original experience.
Memory
5 Describe in detail 
It can sometimes be initiated from a model statement
(Leal, Vrij, Warmelink, Vernham, & Fisher, 2015).
Communication
6 Close your eyes 


Cognition
7 No interruptions 

Social interaction
and cognition
8 Do not guess It is made clear to the respondent that it is okay to say “I

Cognition
9 Open questions It calls for mainly open-ended questions; closed-ended

Social interaction
and cognition
10 Multiple recovery 
search through his or her memory more than once.
Memory
11 Varied recovery It is intended to encourage the participant to search

Memory
12 Questions com-


-
dent’s current accessibility.
Memory
13 Avoid suggesting
questions
 Memory
14 Compatible
output code


Communication

Methodological bases: the construction of a corpus for the detection of deception and credibility assessment
Over the years, modications have been made to the cognitive interview and a consensus
has been reached on its eectiveness in contrast to other types of interviews such as struc-
tured interviews (Köhnken et al., ). It has also been successful in increasing the amount
of correct information recalled by the interviewee (Fisher et al., ), it has proven to be
eective in dierent contexts and in both criminal and non-criminal investigations (Fish-
er and Geiselman, ). Likewise, it has been widely used in the eld of lie detection.
erefore, in this paper, we used this type of interview to obtain the required information.
3.2. Type of study
e type of study of this research is non-probabilistic quasi-experimental in which a corpus
was obtained by convenience from the manipulation of two variables of interest: age and sex.
For this, in each interview, a pre-post evaluation was conducted from which the baseline of
the participants will be obtained according to the evaluation between the narration of the
true story (experience of the earthquake of September , , in Mexico) and the false
version of the same story; both were conducted randomly, that is, in some cases it was decid-
ed that the interviewee rst lied and then told the truth and vice versa to observe whether
this has an eect on the discourse. It should be added that this work does not aim to evaluate
the memory or recollection of the participants, but rather their intention to lie or tell the
truth; this justies the decision to use an event that occurred well in advance (see denition
of lying, §). Likewise, the participants were intended to be their own control.
e scientic method used to prevent the results of future research from being inu-
enced by observer bias was the so-called double-blind method: in the collection of the
corpus, the participants were unaware of the research topic (Appendix . D) while the in-
terviewer and analyst are still unaware of the type of discourse they formulated rst, true
or false, as the information was determined by an instructor outside the interviewer.
3.3 Participants and interview
A non-probabilistic convenience sampling was carried out. To this end,  volunteers
(Table ) were invited to participate using a poster published on social networks, with the
following requirements or inclusion criteria: internet access, time availability of approxi-
mately one hour, being of one of the requested ages, agreeing to sign an informed consent
form (Appendix . CI) with the request to videotape their participation for strictly aca-
demic purposes, to have a camera and audio in the device to be connected and to have the
video call program to conduct the meeting via this means. e exclusion criteria, in addi-
tion to non-compliance with any of the above, were neurological problems or language

Digital Humanities, Corpus and Language Technology
pathology. Since these were self-declarations, the reliability of this information could not
be controlled. Based on these requirements, men and women were selected from each of
the three groups shown in Table . It should be noted that the initial intention was to obtain
 volunteers, but only the number indicated was achieved and it was necessary to exclude
some of the participants. In the future, we intend to complete the number of participants
in order to have a fully gender-balanced sample.
Table 2. Participants.
Group Age Sex No. of participants
120-25  10
235-40  10
350-55  7
e project manager determined the eligibility of the participants according to the inclu-
sion and exclusion criteria indicated, based on the answers provided by the volunteer.
None of the three groups included vulnerable participants.
A virtual Zoom session was organized for each of the volunteers to conduct the inter-
view. e rst face-to-face (virtual) approach was by a person other than the interviewer,
known as the “instructor”, to give the participant the instructions developed in the inter-
view guide, the instructor’s guide (Appendix . GE). Once his/her participation was com-
pleted, the instructor informed the interviewer that he/she had nished so that he/she
could enter the session via Zoom and continue with the meeting as detailed in the guide.
e two participant narrations (one true and one false) were both recorded on two
dierent recordings. Each was labeled as follows: CMCvA. is label is comprised of
basic information to systematize the use of the material, consisting of: ) the letters CMC
refers to the name of the corpus “Corpus mentiras y credibilidad”; ) the sequence of four
numbers corresponds to the number of the video and changes according to the number of
testimony; ) the letter v corresponds to the clarication that it is a video; ) the capital
letter corresponds to the letter assigned to each one of the participants.
Once the material was obtained, a Word transcription was made with the correspond-
ing criteria (Appendix . CT). ese les were labeled CMCtA, which is the same as
the previous label, but with a change in the lowercase letter, which implies that it is a tran-
scription. e transcription process involved two participants: the transcriber and the re-
viewer.

Methodological bases: the construction of a corpus for the detection of deception and credibility assessment
3.4 Data collection procedure
e participation of the volunteers was videotaped with the Zoom program. e instructor
and the interviewer used the interview guide to help them (Appendix . GE). e cognitive
interview proposals (§.) were considered in the elaboration of these materials; they were
also reviewed and commented on by three experts.
As for the transcription criteria (Appendix . CT), great attention was paid to ensure
that the use of marks was the minimum necessary to achieve the purposes of this project,
while remaining rigorous. us, most of the elements linked to phonetic-phonological
characteristics were omitted. Likewise, the participants were given the “Informed Consent”
(Appendix . CI). All the forms are attached as annexes.
3.5 Ethical considerations
Regarding ethical considerations, this research had minimal risk for the participants, since
only documentary research techniques were used (cognitive interview) in which sensitive
aspects of behavior were not addressed. e research protocol was sent to the Centro de
Investigación Transdisciplinar en Psicología, Universidad Autónoma de Morelos, on Sep-
tember , , and was approved on November , .
3.6 Current track and future projections
As mentioned at the beginning, this work is mainly of a methodological nature, as it is con-
sidered that, since this is a subject that has been little addressed in linguistic and corpus
studies, the rst approach to follow is to make a proposal that allows us to obtain the truthful
and fallacious discourse. In spite of this, some of the results obtained have to do with the type
of words present in the total narration, the number of total words, the lexical variety, the
approximate duration of the narration and the number of words per minute (Tables  and ).
Table 3. Group 1. Women aged 20 to 25 years.
Type Token Lexical
variety
Approximate
duration
Words per
minute
CMC0004-B 448 1826 4.07 11 166
CMC0007-D 303 1032 3.40 9 114.66
CMC0009-E 393 1452 3.69 8 181.50
CMC0014-G 715 3803 5.31 22 172.86
CMC0017-I 479 1947 4.06 11 177

Digital Humanities, Corpus and Language Technology
Table 4. Group 2. Women aged 20 to 25 years.
Type Token Lexical
variety
Approximate du-
ration
Words per
minute
CMC0003-B 385 1526 3.96 10 152.60
CMC0008-D 533 2515 4.71 19 132.36
CMC0010-E 387 1255 3.24 7 179.28
CMC0013-G 525 2393 4.55 14 170.92
CMC0018-I 466 2072 4.44 10 207.20
e above tables show that we started from a general approach to proceed to a particular
one in which potential linguistic indexes are codied to establish their quality. Some of
them are part of the psychological, criminological and, to a lesser extent, linguistic litera-
ture that have been constantly mentioned and are currently considered as warning ags:
full pauses, negation, adverbs, verb tenses, pronouns, number of syllables, number of sen-
tences, number of big words, number of syllables per word, number of short sentences,
number of long sentences, average number of words per sentence, conjunctions, simple
sentences and adjectives (Burgoon et al., ; Fitzpatrick and Bachenko, ; Picornell,
; Villar and Castillo, ). Currently, the coding of lled pauses, pronouns, adverbs,
reported memory, in addition to those previously mentioned, is part of the tasks of the
coordinator of this research and the rst results are expected to be available in March .
4. Conclusions and discussion
Although research has emphasized the preponderance of the analysis of verbal content in
contrast to that of nonverbal behavior, there is a lack of studies that delve into the consid-
erations of linguistic theory and that focus, as a rst step, on the construction of a corpus
that allows the study of the main linguistic indicators that distinguish between a discourse
that intends to deceive and one that does not.
It is necessary to consider that detection of deception is complex, so it could be easy to
fall into the Othello error, a concept coined by Ekman () to refer to the errors in which
the evaluator may fall if he/she does not consider that a person who is telling the truth may
“appear” to be a liar when only one level of analysis is considered. In this sense, it is easy
for biases such as gaze direction or the dierent comfortable certainties mentioned in this
work to induce error. Hence, this paper seeks to reduce this type of errors through a prom-
ising approach, which is a verbal and cognitive one in which the analysts bias (with the
double-blind method) is reduced.

Methodological bases: the construction of a corpus for the detection of deception and credibility assessment
Regarding detection of deception and truthfulness assessment, it is clear that there are
currently dierent research studies that question the analysis of microexpressions or para-
linguistics as viable channels of analysis. Although this paper does not go into this issue in
depth, it is considered that the study of these channels can always provide valuable infor-
mation if they are considered as part of a whole. is implies aiming at a constellation of
evidence in which the analysis of linguistic behavior is as important as the analysis of
non-linguistic behavior: an isolated analysis of non-verbal behavior would be just as dan-
gerous as concentrating exclusively on a strictly linguistic analysis. For methodological
reasons, however, in this work greater weight has been given to the construction of the
corpus from a more linguistic angle, without disregarding the other channels. Hence the
audiovisual recording of the participants who took part in this project.
In sum, this work makes dierent contributions. First, it establishes methodological
rigor in the construction of a corpus for the identication of linguistic strategies linked to
lies and truthfulness. is implied the careful selection of participants, the elaboration of
instruments such as the interview guide with a solid theoretical basis, and the submission
of the project itself to an ethics committee.
Moreover, by obtaining two types of discourse (one truthful and one false), it is intend-
ed that soon it will be possible to study both dierences in the same subject, that is, to know
the linguistic baseline of the participant when he/she tells the truth in order to recognize
the relevant and signicant dierences when the same subject lies. It should be considered
that, in the future, specialists in “detection of deception” should focus on assessing truth-
fulness in discourse rather than on identifying lies. is project thus emphasizes both
fallacious and truthful discourse.
Finally, an advantage of the project is the transdisciplinary ethos that it aims to have so
that, over time, more collaborative work with dierent disciplines can be carried out to
understand a phenomenon that is present in our daily interactions.
Appendix
Below is a summary of each of the appendices attached to the research in Spanish.
1. D. Diusion
is appendix corresponds to the poster used for the search of volunteers. It indicates the
requirements, includes contact information and general information about the research.
e poster was circulated by the Language and Cognition Laboratory of the Center for
Research in Cognitive Sciences (UAEM).

Digital Humanities, Corpus and Language Technology
2. CI. Informed Consent Form
is appendix contains the informed consent form. is appendix includes the consent of
the volunteers to participate in the collection of interviews as part of the Language and
Cognition Laboratory project. It species the risks, type of research technique, rights,
benets, and general structure of the interview.
3. GE. Interview Guide
is appendix is divided into two sections: Instructor’s Guide and Interviewer’s Guide. In
the rst section, the general instructions to be given by the instructor to the interviewer
are detailed, that is, to welcome him/her and the instruction to lie or tell the truth in each
of the narratives according to the order decided by the instructor himself/herself. In the
second section, more specic information about the project is mentioned, the instruction
given by the instructor is reinforced without discovering the double-blind, a model
description of the type of narrative expected is made, the participant’s acceptance is asked
again, and the interviewee’s narrative begins with the completion of the question in which
the narrative of the experience of the earthquake of September , , is requested.
4. CT. Transcription Conventions
is section details the transcription conventions used. e criteria used in terms of spell-
ing and punctuation, phonic and lexical labeling, labeling of discursive dynamics, and
format criteria are mentioned.
References
Burgoon, J. K. (). Microexpressions Are Not the Best Way to Catch a Liar. Frontiers in Psychology,
, -.
Blandón-Gitlin, I., López, R. M., Masip, J. y Fenn, E. (). Cognición, emoción y mentira:
implicaciones para detectar el engaño. Anuario de Psicología Jurídica, (), -.
Columbia University, SRI International, and University of Colorado Boulder. (). CSC Deceptive
Speech LDCS. Recurso electrónico. Linguistic Data Consortium. https://doi.org/./
q-a
Darwin, C. (/). La expresión de las emociones. Laetoli.
DePaulo, B., Lindsay, J., Malone, B., Muhlenbruck, L., Charlton, K., & Cooper, H. (). Cues to
Deception. Psychological Bulletin, (), -.
Ekman, P. & Friesen, W. V. (). Nonverbal leakage and clues to deception. Psychiatry, , -.
Ekman, P. & Friesen, W. V. (). Detecting deception from the body or face. Journal of Personality
and Social Psychology, (), -.

Methodological bases: the construction of a corpus for the detection of deception and credibility assessment
Ekman, P., & O’Sullivan M. (). Facial expression: methods, means, and moues. In R. S. Feldman,
& B. Rimé, (Eds.), Fundamentals of Nonverbal Behavior (pp. -). Cambridge University
Press.
Ekman, P. (). Cómo detectar mentiras. Una guía para utilizar en el trabajo, la política y la pareja.
Paidós.
Ekman, P. (). El rostro de las emociones. Qué nos revelas las expresiones faciales. RBA.
Feldman, R. S., Forrest, J. A., & Happ, B. R. (). Self-presentation and verbal deception: Do self-
presenters lie more? Basic and Applied Social Psychology, (), -.
Fisher, R. P., & Geiselman, R. E. (). Memory-enhancing Techniques for Investigative Interviewing:
e Cognitive Interview. Charles C. omas.
Fisher, R. P., & Geiselman, R. E. (). Expanding the Cognitive Interview to Non-Criminal
Investigations. In J. Dickinson, N. Schreiber Compo, R. Carol, B. L. Schwartz, & M. McCauley
(Eds.), Evidence-based Investigative Interviewing Applying Cognitive Principles (pp. -).
Routledge, Taylor & Francis Group.
Fisher, R. P., Milne, R., y Bull, R. (). Interviewing cooperative witnesses. Current Directions in
Psychological Science, , -.
Fitzpatrick, E. & Bachenko, J. (). Building a forensic corpus to test language-based indicators of
deception. In: S. T. Gries, S. Wul & M. Davies (Eds.), Corpus-linguistic applications. Current
studies, new directions (pp. -). Rodopi.
Geiselman, R. E., Fisher, R. P., Firstenberg, I., Hutton, L., Sullivan, S. J., Avetissian, I. V., & Prosk, A.
L. (). Enhancement of eyewitness memory: An empirical evaluation of the cognitive
interview. Journal of Police and Science Administration, , -.
Hauch, V., Sporer, S. L., Michael, S. W. & Meissner, C. A. (). Does training improve detection of
deception? A meta-analysis. Communication Research, (), -.
Hwang, H. C., Matsumoto, D. & Sandoval, V. (). Linguistic Cues of Deception Across Multiple
Language Groups in a Mock Crime Context. Journal of Investigative Psychology and Oender
Proling, , -.
Infante Arriagada, P. (). La mentira como fenómeno lingüístico: algunos aspectos centrales para
su descripción. LL Journal, (), -.
Köhnken, G., Milne, R. Memon, A., & Bull, R. (). A meta-analysis on the eects of the Cognitive
Interview. Psychology, Crime, & Law, , -.
Lancaster, G. L., Vrij, A., Hope, L. & Waller, B. (). Sorting the liars from the truthtellers: e
benets of asking unanticipated questions on lie detection. Applied Cognitive Psychology, ,
-.
Leal, S., Vrij, A., Warmelink, L., Vernham, Z., & Fisher, R. P. (). You cannot hide your telephone
lies: Providing a model statement as an aid to detect deception in insurance telephone ca lls. Legal
and Criminological Psychology, (), -.
López Pérez, R. M., F. Gordillo León y M. Gau Olivares (coords.). (). Comportamiento no verbal.
Más allá de la comunicación y el lenguaje. Pirámide.
Masip, J., Garrido, E. y Herrero, C. (). La detección de la mentira mediante la medida de la
tensión en la voz: una revisión crítica. Estudios de Psicología, (I), -.
Masip, J., y Herrero, C. (). Nuevas aproximaciones en detección de mentiras I. Antecedentes y
marco teórico. Papeles del Psicólogo, (), -.
NITV Federal Services (). Voice Stress Analyzer. https://www.cvsa.com/.
Pennebaker, J. W., Francis, M. E. & Booth, R. J. (). Linguistic Inquiry and Word Count. Lawerence
Erlbaum Associates.

Digital Humanities, Corpus and Language Technology
Picornell, I. (). Analysing Deception in Written Witness Statements. Linguistic Evidence in
Security, Law and Intelligence, (), -.
Reissland, N., Francis, B., Mason, J. & Lincoln, K. (). Do Facial Expressions Develop before Birth?
PlosOne, (), -.
Salekin, R. T., Kubak, F. A. & Lee, Z. (). Deception in children and adolescents. In R. Rogers, &
S. D. Bender (Eds.), Clinical assessment of malingering and deception (p. -). e Guilford
Press.
Villar, G., & Castillo, P. (). e Presence of ‘Um’ as a Marker of Truthfulness in the Speech of TV
Personalities. Psychiatry, psychology, and law: an interdisciplinary journal of the Australian and
New Zealand Association of Psychiatry, Psychology and Law, (), -.
Vrij, A. (). Detecting the liars. Psychologist, , -.
Vrij, A. (). Wiley series in the psychology of crime, policing and law. Detecting lies and deceit: Pitfalls
and opportunities (ª ed.). John Wiley & Sons Ltd.
Vrij, A. (). Deception and truth detection when analyzing nonverbal and verbal cues. Applied
Cognitive Psychology, (), -.
Vrij, A., Fisher, R. P., Mann, S., Deeb, H., Jo, E., Castro Campos, C., & Hamzeh, S. (). e Ecacy
of Using Countermeasures in a Model Statement Interview. e European Journal of Psychology
Applied to Legal Context, (), -.
Vrij, A., Granhag, P. A., & Porter, S. (). Pitfalls and Opportunities in Nonverbal and Verbal Lie
Detection. Psychological Science in the Public Interest, (), -.
Vrij, A., Leal, S., Mann, S. A. y Fisher, R. P. (). Imposing cognitive load to elicit cues to deceit:
Inducing the reverse order technique naturally. Psychology, Crime & Law, , -.
Vrij, A., Mann, S. A., Leal, S. & Fisher, R . P. (). “Look into my eyes”: Can an instruction to maintain
eye contact facilitate lie detection? Psychology, Crime & Law, , -.

Türkisch für Anfänger: propuesta de un corpus del alemán coloquial actual,
ejemplicado a partir de las fórmulas rutinarias de saludo
C IX
Türkisch für Anfänger: propuesta de
un corpus del alemán coloquial

fórmulas rutinarias de saludo
Türkisch für Anfänger: proposal of
a corpus of modern colloquial
German, exemplied from routine
phrases for greetings
Karen Lorena Baquero Castro
Universidad de Salamanca – España; Universidad Ean – Colombia
Resumen: En el contexto de la enseñanza del alemán como lengua extranjera, apren-
dices y docentes se enfrentan al vacío de una didáctica que optimice el proceso y los
resultados de aprendizaje de unidades fraseológicas. En un sentido amplio de la
fraseología, se encuentran las fórmulas rutinarias, expresiones cuya polifuncionali-
dad y complejidad pragmática evidencian la necesidad de crear materiales auténti-
cos basados en el análisis de corpus lingüísticos que apelen al contexto. Para ello,
presento en este artículo la metodología de creación de una base de datos compues-
Türkisch für Anfänger, el análisis de
un subgrupo de fórmulas de saludo presentes en la misma y la correspondiente
implicación didáctica para el aprendizaje de dichas unidades basadas en el alemán
actual cotidiano.
1 Serie de televisión alemana de comedia dramática, producida en los años 2006 a 2008.

Digital Humanities, Corpus and Language Technology
Abstract: In the context of teaching German as a foreign language, learners and
teachers encounter a lack of didactics that optimizes the process and results of a
learner in phraseological units. In a broad sense of the phraseology, there are con-
-
-
           

German television series Türkisch für Anfänger
subgroup of greeting routines available in the corresponding didactic proposal to
learn such phrasemes based on quotidian German language used today.
1. Introducción
Igor Sosa Mayor (, p.) expone que los fraseólogos incluyeron el estudio de las fór-
mulas rutinarias cuando investigaban y establecían las características de otras unidades
como los fraseolexemas. A pesar de haber sido incorporadas por Burger desde  en la
investigación fraseológica del alemán, bajo la denominación de “pragmatische Phraseme”,
los investigadores aún no han llegado a un consenso sobre las características que las de-
nen. Paradójicamente, sí existe claridad suciente para la consideración de sus múltiples
funciones en la comunicación oral y escrita: estructuración de discursos, adecuada inte-
racción situacional, descarga de tiempo y estrés, así como el fortalecimiento del contacto
social a través de la precisión lingüística.
Dada su relevancia, en esta investigación consideramos necesario crear una fuente
lingüística auténtica del alemán actual que permita entre otras, indagar sobre sus diferen-
tes usos y a partir de ello desarrollar estrategias didácticas para su aprendizaje. Partimos
de la creación de un corpus compuesto por las líneas de diálogo de la serie de televisión
alemana rkisch für Anfänger. Nos proponemos revisar qué tipo de datos recopilados
2 
3 A lo largo de la literatura se encuentran diferentes términos para referirse a dichas unidades: Pragmatische
Idiome (Burger, 1973), Routineformeln (Coulmas, 1981; Burger, 1998; Stein, 1985; Gläser, 1986; Lüger, 1999;
Sosa Mayor, 2006), Kommunikative Formeln (Fleischer, 1982), kommunikative Phraseologismen (Burger,
1998), Kommunikative Routineformeln (Hyvärinen, 2003).
4 Esta investigación hace parte del proyecto doctoral que desarrollo en la Universidad de Salamanca en el
área de lenguas modernas y que tiene como enfoque la creación de un corpus lingüístico que permita la
sistematización de datos sobre las fórmulas rutinarias del alemán coloquial actual.
5 Nos basamos en la propuesta de Lüger (2009, p.15), para quien la autenticidad es aquello que es “real”,


pueden ser usados para que los aprendices desarrollen su sentido lingüístico y sean capa-
ces de comunicarse usando fórmulas actuales y propias de los contextos coloquiales del
alemán.
1.1 Propiedades de las fórmulas rutinarias
Estas unidades, “[…] deben poseer las características comunes a todas ellas, la jación y
en ocasiones la idiomaticidad, […] pero además pueden presentar algún tipo de indepen-
dencia como enunciados fraseológicos que son” (Alvarado, , p.). Dentro de estas
propiedades se distingue la importancia de la jación formal y psicolingüística, “referida
a la convencionalización en la comunidad lingüística, es decir, a la estabilidad en su pro-
ducción y a su frecuencia de uso” (Alvarado, , p.). Como advierte la autora, dichos
rasgos pueden ocurrir de manera gradual.
En las fórmulas rutinarias, la independencia es una característica primordial. Alvarado
(, p.) distingue: la independencia entonativa, distribucional, semántica, sintáctica
y textual. En la primera de estas, la entonativa, se tiene en cuenta que estas unidades “son
actos de habla que presentan fuerza ilocutiva exclamativa de sorpresa, admiración, recha-
zo, susto, etc., por lo que tienen un esquema entonativo propio […] (Alvarado, , p.).
La independencia distribucional, como describe la autora, se reere a la libertad que tiene
el hablante de usar dichas unidades cuantas veces lo requiera (Alvarado, , p.), “por
lo tanto está estrechamente ligada con el concepto de dependencia situacional, ya que un
gran número de fórmulas depende siempre de la situación que se esté produciendo” (Al-
varado, , p.). La independencia semántica tiene que ver con que “el valor de la
fórmula está jado por el contexto habitual en el que se produce y signica por sí misma
y no necesita de otros elementos” (Alvarado, , p.). La última de estas, la indepen-
dencia textual, es aquella que el corpus permite ver con mayor claridad, “si la fórmula se
puede dar tantas veces en el discurso como se quiera es porque no depende del contexto
lingüístico, sino del situacional” (Alvarado, , p.).
Según Winzer-Kiontke (, p.), las fórmulas rutinarias se denen a partir de su fre-
cuencia, coherencia fonológica, uso y grado de independencia. Si bien se puede hablar de un
relativo consenso alrededor de la mayoría de las propiedades denitorias de las fórmulas
rutinarias, hay una, sobre la cual se generan discrepancias, a saber, la polilexicalidad. Alva-
rado () no la postula como una característica necesaria. Para Winzer-Kiontke (,
6 
apropiado lingüísticamente.
Türkisch für Anfänger
rutinarias de saludo

Digital Humanities, Corpus and Language Technology
p.), estas unidades tienden a ser polilexicales, pero se incluyen las que no lo son, es decir,
aquellas monolexicales. Por monolexicales, comprendemos aquellas fórmulas cuyo límite
mínimo es la palabra. Como propone Sosa (, p.), es justamente este aspecto el más
problemático en la clasicación de las fórmulas rutinarias ya que si se aplica de manera ca-
tegórica el criterio de polilexicalidad, se deben excluir unidades del campo de las fórmulas
rutinarias que, según el autor y nuestro estudio, deben ser tenidas en cuenta. Añade Sosa
(, p.) que incluso se tienen en cuenta aquellas fórmulas que por su frecuencia de uso
dejan de ser polilexicales y se convierten en molexicales debido a procesos lingüísticos de
elisión. Así, la monolexicalidad debe encontrarse dentro de las propiedades denitorias de
dichas unidades. Para ilustrar la relevancia de fórmulas rutinarias monolexicales, dentro del
corpus de nuestra investigación se ha encontrado un número total de  fórmulas de saludo,
en las que se incluyen fórmulas como hallo!, Tag! , Morgen, o hey.
2. Clasicación de fórmulas rutinarias
En la literatura de la fraseología, se encuentran diferentes propuestas clasicatorias. Win-
zer-Kiontke () retoma en su sistema de clasicación los aportes de Coulmas (),
Pilz (), Gläser (), Zenderowska-Korpus () y Sosa Mayor (). Tipos de
fórmulas que aparecen en cada una de estas publicaciones como las de saludo, despedida,
pésame, agradecimiento, disculpas y deseos, se tienen en cuenta de manera directa en su
clasicación. Según esta propuesta, la autora recopila los  tipos de fórmulas en sentido
estricto que se muestran en la siguiente tabla (Winzer-Kiontke, , p.):
Tabla 1. Categorías de fórmulas rutinarias según Winzer-Kiontke (2016).
Base de datos-categorías
1. Fórmula de rechazo
2. Fórmula de despedida
3. Fórmula de ocasión
4. Fórmula de tratamiento
5. Fórmula de exhortación
6. Fórmula de compasión
7. Fórmula de bienvenida
8. Fórmula de pésame
9. Fórmula de apaciguamiento
10. Fórmula de aseveración
11. Fórmula de agradecimiento
12. Fórmula de restricción
13. Fórmula emotiva
14. Fórmula de disculpas
15. Fórmula de información
16. Fórmula de advertencia
17. Fórmula de aliento
18. Fórmula de asombro
19. Fórmula de respuesta
20. Fórmula de alimento y
bebida
21. Fórmula de saludo
22. Fórmula institucional
23. Fórmula de comentario
24. Fórmula de contacto
25. Fórmula de estornudo
26. Fórmula de reprimenda y
grosería
27. Fórmula de lenguaje escrito
28. Fórmula de sorpresa
29. Fórmula de presentación
30. F órmula de advertencia (En
sentido amplio: Fórmula de
prohibición)
31. Fórmula de recibimiento
32. Fórmula de deseo
33. Fórmula de consentimiento

Türkisch für Anfänger
rutinarias de saludo
Al igual que esta propuesta, se han planteado un sinnúmero de clasicaciones, que, en su
mayoría, como la de Winzer-Kiontke (, p.), apelan a la teoría de los actos de habla.
Dentro de las más completas también se incluye la de Alvarado (, p.), consideran-
do que es otra clasicación precisa para este grupo de unidades fraseológicas, aunque
pensada para las fórmulas rutinarias del español, y que permite de entrada incluir las
fórmulas rutinarias discursivas.
En la propuesta de Alvarado, el hablante es el punto de partida “que codica sus emo-
ciones en la fórmula rutinaria” (, p.). Tiene en cuenta dos modalidades: “la moda-
lidad lógica, que se relaciona con la verdad de lo que se dice, y la modalidad subjetiva, que
muestra la valoración del hablante” (Alvarado, , p.). En el grupo de fórmulas ruti-
narias lógicas se distinguen las epistémicas, que “se vinculan con el ámbito de la posibilidad
de que un enunciado sea cierto” (Alvarado, , p.) y las deónticas, que “expresan la
obligatoriedad de que se cumpla lo que el hablante dice […]” (Alvarado, , p.), allí
se incluyen las fórmulas declarativas, interrogativas, imperativas y exclamativas. En cuan-
to a las fórmulas rutinarias subjetivas, la autora plantea dos categorías, las afectivas, que
expresan la emoción del hablante y las evaluativas, “que codican la modalidad subjetiva,
puesto que maniestan la actitud del hablante frente al dictum, y evalúan dicho enunciado
en términos valorativos” (Alvarado, , p.). En un último grupo, se encuentran las
fórmulas rutinarias discursivas, cuya función consiste en darle orden al discurso a partir
de tres distinciones: apertura, transición y cierre (Alvarado, , p.).
Consideramos la propuesta de clasicación de Winzer-Kiontke () como la más
adecuada para los nes propuestos en nuestro trabajo. Teniendo en cuenta el carácter del
corpus, nos inclinamos por una clasicación pragmática basada en el uso de las unidades
fraseológicas según su contexto o situación. Consideramos que el aporte de este corpus
consiste justamente en la explotación de las unidades allí identicadas y clasicadas. Dicha
clasicación permite que las reexiones didácticas que de allí surjan sean más operativas
y de este modo más sencillas de comprender para un aprendiz de la lengua.
3. El corpus
En el campo de la lingüística moderna, el uso de corpus se ha dado de manera extendida.
De acuerdo con Villayandre, fue el uso de los computadores para “reunir, organizar, y
procesar esos datos el que ha dotado de modernidad a esta tarea, hasta el punto de propi-
ciar el despegue de una forma de hacer lingüística, la llamada ‘lingüística de corpus’ (,
p.).

Digital Humanities, Corpus and Language Technology
El concepto de corpus previo al desarrollo de los computadores se denía a partir de la re-
copilación de textos con el n de analizar fenómenos de lenguas muertas y tenía como objeto
indagar sobre la adquisición del lenguaje a temprana edad, precisar reglas de ortografía, hacer
listas de vocabulario, comparar lenguas y crear gramáticas (Villayandre , p.). Aunque
durante el siglo XIX se vive en esta disciplina un acelerado desarrollo, es solo a partir del siglo
XX cuando esta se convierte en metodología con la lingüística americana estructuralista.
Con la postura de Chomsky que cuestionaba la metodología del empirismo, la disci-
plina pierde auge y desarrollo. La postura del autor se centraba esencialmente en tres pun-
tos: carencia del uso de la intuición a la que debe recurrir el lingüista, el carácter incom-
pleto de los datos que contienen los corpus y la metodología dispendiosa que implica el
análisis de datos (Villayandre, , p.). Sin embargo, dichas críticas se superaron a
partir de argumentos sobre la gramaticalidad de los elementos del corpus, los datos cuan-
titativos y su representatividad y el uso de computadores. Así, el mayor desarrollo de la
lingüística de corpus se aprecia desde la década de  (Villayandre, , p.).
Algunos de los corpus más representativos creados en dicha década son: el ‘Bank of
English’ el CREA (Corpus de Referencia del Español Actual) y CORDE (Corpus Diacrónico
del español). En dichos corpus se debe cumplir con características primordiales como tener
un formato digitalizado, criterios que permitan la selección de información bien sea lingüís-
tica o extralingüística, representatividad estadística y tamaño por lo general nito (Villayan-
dre, , p.). Nuestro corpus, al conformarse a partir de las líneas de dialogo de la serie
alemana mencionada previamente, se dene como corpus del alemán oral actual. En la crea-
ción de este, se llevó a cabo el proceso de transcripción de  capítulos que constituyen las
temporadas de la serie. Para el alemán existe un gran número de corpus, sin embargo,
estos no están recopilados propiamente para un uso didáctico, como lo expone Wallner
(). Así, el tamaño de nuestro corpus permite un manejo adecuado de información enri-
quecida para el desarrollo de materiales didácticos de aprendices del alemán coloquial actual.
7 -
scripciones, usando como fuente de apoyo los subtítulos descriptivos, junto con el uso de programas como
oTranscribe y Amberscript. Las líneas de dialogo fueron revisadas durante y después de la transcripción. El
corpus tuvo un proceso de revisión extenso a cargo de un ingeniero de bases de datos y una doctoranda

base de datos para el uso del material lingüístico, el corpus pasará por una tercera revisión de un hablante
lingüista y nativo del alemán.
8 Dentro de los corpus del alemán escrito se cuentan, entre otros: das Deutsche Referenzkorpus - DeReKo (In-
DWDS (Berlin-Branden-
burgischen Akademie der Wissenschaften, s.f.), das Projekt deutscher Wortschatz (Automatische Sprachver-

s. f.). Para el alemán oral existe el Datenbank gesprochenes Deutsch - DGD2 (Deppermann & Schmidt, 2014)


En el contexto de esta investigación, entendemos por corpus el conjunto de textos
orales que han sido digitalizados a partir de la recopilación y estructuración de las líneas
de diálogo de la serie alemana rkisch für Anfänger. Como describe Jens (, p.),
desde mediados de los noventa, diferentes cómicos como Mundstuhl, Kaya Yanar Spaß-
Duo Erkan y Stefan potenciaron el lugar de los llamados etno-formatos en la radio y con
estos, los diferentes estilos de la lengua. En este contexto, surge la etno-comedia Türkisch
für Anfänger. Entre los años  y , ya se habían creado tres temporadas de esta serie
que llamaba la atención sobre la relación de la familia turco-alemana Schneider-Öz-Türk,
conformada por una madre alemana de Berlín-Neukölln y un padre turco, ambos con sus
dos hijos de tradición turco y alemana, respectivamente. A través del humor en la sobre-
actuación de los clichés de ambas culturas, se logran plasmar aspectos de la actualidad
alemana como la inmigración, la interculturalidad y la búsqueda de identidad de los inmi-
grantes. En este proceso, la lengua usada comienza a proponer reexiones de índole social,
como advierte Jens () sobre uno de los personajes de la serie:
con su elección lingüística, de la prosodia, como también de su lenguaje corporal y su ropa,
remite Cem a ambientes sociales característicos en los que se desenvuelve. En esta forma
extrema estilizada de hablar unica elementos de la cultura Hip-Hop, como de anglicismos
adaptados (…) con elementos típicos juveniles (p.).
Justamente esta riqueza semántica, física y visual es la que nos interesa para proponer la
construcción de un corpus lingüístico de este idioma que contenga variedades diatópicas,
diafásicas y diastráticas del alemán oral actual y que den cuenta de las diferentes estrategias
sintácticas, fonológicas, gestuales, corporales y lexicales que dan lugar a lo que la autora
denomina la “realización de una categoría identitaria” (Jens, , p.).
Consideramos que justamente es este proceso de construcción de identidad el que
experimentan los aprendices de lengua y, por tanto, la nalidad de este corpus consiste en
conducir a los aprendices a la lengua auténtica, entendida esta como aquella que es cerca-
na a la lengua en uso, y a un proceso de identicación con su propia construcción de
identidad que se da en la lengua meta.
Es importante aclarar que no desconocemos que la lengua usada en una serie de tele-
visión corresponde a lo que diversos autores han denominado “la oralidad ngida” (con-
cepto introducido por Goetsch (, p.) para describir la oralidad de textos literarios
y que se reere a la “ilusión de autenticidad” que existe en lo escrito que ha sido creado
para lo oral, como lo es un guion de televisión), de modo que el corpus que creamos a
partir de una lengua con estas características se permea de ellas.
Türkisch für Anfänger
rutinarias de saludo

Digital Humanities, Corpus and Language Technology
Consideramos, por tanto, que este tipo de oralidad creada “puede contribuir a crear la
ilusión de verosimilitud, ayudar a situar la acción en una determinada época y región, con-
trastar el lenguaje de los personajes según la pertenencia a cierta clase social o según la edu-
cación, y cotejar la incorporación de elementos procedentes de la tradición y el saber orales
(Goetsch, , p.). A pesar del reconocimiento de dicha ilusión consideramos que este
corpus representa un material cercano a lo auténtico y real en el uso oral del alemán actual.
Para la comprensión de los resultados cuantitativos, en términos de usos de las fórmu-
las rutinarias de acuerdo con el interlocutor, proponemos el siguiente cuadro descriptivo
de personajes:
Tabla 2. Personajes de la serie Türkisch für Anfänger.
Personaje Actor/Actriz Rol Descripción
Lena Schneider (per-
sonaje principal)
 Hija de Doris y Markus;
hermana de Nils; herma-
nastra de Yagmur y Cem
Es una adolescente de 16 años,
estudiante de Secundaria de
origen alemán.
Doris Schneider Anna Stieblich Madre de Lena y Nils;
hija de Hermi, hermana
de Diana; madrastra de
Yagmur de Cem; esposa
de Metin

origen alemán.
Metin Öztürk Adnan Maral Padre de Cem y Yagmur;
padrastro de Nils y Lena;
esposo de Doris
Es un adulto comisario de origen
turco.
Cem Öztürk Elyas M’Barek Hijo de Metin; hermano
de Yagmur; hermanastro
de Lena y Nils; Ex novio
de Ching y Ulla
Es un joven estudiante que al
terminar sin éxito el examen de
secundaria estudia para formarse
como policía. Su origen es turco.
Yagmur Öztürk Pegah Ferydoni Hermana de Cem, hija de
Metin; hermanastra de
Nils y Lena
Joven estudiante de secundaria
de origen turco. Posteriormente
se dedica a la traducción de
textos turcos al alemán y trabaja
para el Parlamento Alemán. Su
origen es turco.
Costa Papavassilou Arnel Taci Mejor amigo de Cem;
prometido de Yagmur
Joven estudiante de secundaria
que al terminar la secundaria
crea su propio negocio de moda.
Su origen es griego.
4. Análisis cuantitativo del corpus
Con el n de analizar el uso de las fórmulas rutinarias en el contexto de saludo, es impor-
tante tener en cuenta la representación que cada personaje tiene en la serie en términos de

su participación como interlocutor, esto es, en términos del tiempo de intervención. A
continuación, se observa que en consecuencia con el rol que asume Lena, la protagonista,
es quien más participa; asimismo, Doris, su hermanastro Cem y su padrastro Metin.
Figura 1. Líneas de diálogo por personaje.
Dentro de las fórmulas rutinarias de saludo informales encontradas en el corpus, la más uti-
lizada es hey. De las  ocurrencias de esta fórmula rutinaria,  tienen la función de saludo,
las demás  se utilizan en contextos en los que los interlocutores llaman la atención y se
categorizan como fórmula rutinaria de contacto. La segunda más usada es hallo! y le sigue hi!
De estas, las más frecuentes en los textos de aprendizaje suelen ser hallo! y hi!; esporádicamen-
te se incluye hey, contrario a lo que muestra el corpus. Este fenómeno también se presenta en
las fórmulas Guten Morgen y Morgen, la segunda de estas es más usada en el corpus y no
necesariamente en los libros de enseñanza como Studio d (), Berliner Platz neu () o
incluso más recientes como Linie  (). Se explica esto teniendo en cuenta que la mayoría
de los manuales se suelen regir por la norma escrita y no por la norma hablada.
Figura 2. neas de diálogo que usan fórmulas rutinarias de saludo o recibimiento.
Türkisch für Anfänger
rutinarias de saludo

Digital Humanities, Corpus and Language Technology
La fórmula rutinaria más frecuente, hey, es usada incluso por personajes que tienen pocas
intervenciones. En cuanto a fórmulas de recibimiento explícitas, únicamente se identican
dos a lo largo de todo el corpus: Wir begrüßen euch y Begrüße deine Füße! Se destaca que
esta fórmula es mayoritariamente usada por interlocutores jóvenes, resaltados en negrilla
en la siguiente gráca. Precisamente, Doris, siendo un personaje principal y que tiene en
el corpus una participación comparable a la de Lena, no hace uso de la fórmula hey. Por
tanto, habría que tener en cuenta esta variable relativa a la edad.
Figura 3. Uso de la fórmula rutinaria hey, por personaje.
Contrario a esta particularidad, la fórmula rutinaria hallo es usada tanto por jóvenes como
adultos, como se observa a continuación:
Figura 4. Uso de la fórmula rutinaria hallo!, por personaje.

Si bien la fórmula rutinaria hi tiene un uso algo frecuente, es usada solo una vez por el
personaje Doris (madre) y no es usada por Metin (padre), dos de los personajes de mayor
edad en la serie.
Figura 5. Uso de la fórmula rutinaria hi!, por personaje.
Teniendo en cuenta los personajes de mayor participación, se puede inferir que los perso-
najes más jóvenes tienden a utilizar en igual medida tanto hallo como hi y en menor pro-
porción usan hey. Por otra parte, vemos que los personajes adultos utilizan más hallo y no
hi ni hey.
Figura 6. Uso comparativo de las fórmulas rutinarias de saludo hallo, hi y hey, por personaje.
Morgen aparece como una fórmula destacada dentro de las unidades fraseológicas de salu-
do ( veces), incluso con más del doble de las ocurrencias de guten Morgen ( veces). En
ambas se observa una frecuencia de uso independiente de la edad del interlocutor.
Türkisch für Anfänger
rutinarias de saludo

Digital Humanities, Corpus and Language Technology
Figura 7. Uso de la fórmula rutinaria Morgen, por personaje.
Figura 8. Uso de la fórmula rutinaria guten Morgen!, por personaje.
La gráca a continuación nos muestra la posibilidad de usar la mayoría de fórmulas ruti-
narias de saludo agregando un nombre a su estructura, como por ejemplo, hey Kathi,
Morgen Cem, hallo Metin, hi Axel, Wie geht’s Yagmur?, grüß Gott Cem! A excepción de
guten Abend, Mahlzeit! y Moin, en todas las demás fórmulas aparece un nombre dentro de
su estructura, al menos una vez.

Figura 9. Fórmulas rutinarias de saludo que se usan en combinación con un nombre.
5. Reexiones didácticas
Con los hallazgos descritos, es consecuente plantear ejercicios didácticos en los que el
profesor de lengua entregue a sus aprendices un input de fórmulas rutinarias que los sen-
sibilice frente a la posibilidad de crear conversaciones que consten únicamente de dichas
unidades, como lo muestra el siguiente ejemplo de nuestro corpus: Hallo, hier ist die Doris.
Macht euch ‘nen ganz schönen Abend und kommt auf keinen Fall vor vier nach Hause, ist
das klar? A su vez, la fuente lingüística de los aprendices puede proponerse a manera de
ejercicio en el que se deban ordenar las líneas del diálogo y que de este modo el aprendiz
se enfrente a la toma de decisiones frente a los espacios del diálogo más adecuados en el
uso de las fórmulas rutinarias. Con ello, notará el aprendiz que para algunas de estas uni-
dades la dependencia del contexto será más o menos rigurosa.
Además, en concordancia con los resultados de los datos cuantitativos, podemos plan-
tear didácticas de aquellas unidades que hayan sido recurrentes en su uso como la fórmu-
la hey, hallo o hi, pero a la vez sobre aquellas no tan representativas como grüß Gott, de las
que se obtenga información que pueda ser revisada a la par de aquello propuesto en los
manuales de enseñanza. Así, algunas de las actividades lingüísticas pueden partir de la
asignación de tareas por parte del profesor que permitan la exploración del uso de fórmu-
las rutinarias con particularidades de tipo regional. Allí por ejemplo el aprendiz puede
indagar, desde un punto de vista analítico y a través de la observación del contexto, qué
interlocutor hace uso de la fórmula grüß Gott, sus características como hablante y las
9 grüß Gott es utilizado únicamente por Ulla, quien se caracteriza por ser muy religiosa. Algunas situaciones en
las que usa la fórmula son: en el saludo del buzón de su teléfono (”Grüß Gott hier spricht Ulla!”), al saludar en
persona (”Grüß Gott Mr. Rimp.”) y al presentarse (”Grüß Gott ich bin Ulla”). Se puede tener en cuenta que esta
Türkisch für Anfänger
rutinarias de saludo

Digital Humanities, Corpus and Language Technology
condiciones de uso de esta unidad frente a los contextos. El docente, por su parte, puede
integrar en el aula guías didácticas que aprovechen el potencial de todo lo que un medio
visual ofrece: imagen, sonido, texto. La imagen podrá ser revisada en términos de la ges-
tualidad que conlleva el gesto de una fórmula; el sonido permitirá reexionar sobre la fo-
nética o entonación y el texto se convertirá en una fuente para el desarrollo de ejercicios
de tipo lingüístico o cultural. Estos ejercicios permitirán que el aprendiz se acerque a lo
que Lavid (, p.) denomina el conocimiento pragmático que implica el saber del
contexto lingüístico-discursivo, así como del extra-lingüístico.
Dentro de nuestras propuestas también sugerimos abordar el corpus desde la perspec-
tiva de la fraseodidáctica contrastiva. En esta, los aprendices recurren a sus conocimientos
de lengua materna y de su mundo conocido con el n de crear traducciones en la forma
de subtitulación o doblajes de la serie de la que cuentan con un texto recopilado en la
forma de corpus y que puede ser llevado a la comprensión de los signicados de las fór-
mulas rutinarias en el contexto auténtico y real de su uso. Así, la reexión desde la lengua
materna les permitirá hacer deducciones sobre fenómenos que caractericen dichas unida-
des como su gestualidad o entonación y con ello fortalecer las competencias comunicativas
orales de la lengua en fase de aprendizaje, en este caso, del alemán.
6. Conclusiones
Este análisis de tipo cuantitativo nos permitió clasicar los datos observados y describir
aspectos de la lengua que a continuación pueden ser tenidos en cuenta en la reexión
didáctica. Hemos detectado, a partir de resultados representativos, que hey, incluso aunque
no sea una fórmula usualmente incluida en los textos de enseñanza, sí cuenta con un uso
extendido por parte de interlocutores jóvenes. Por otro lado, al comparar otras fórmulas
de saludo, para los adultos de la serie fue más frecuente el uso de hallo. Notamos también
que otras fórmulas pueden ser utilizadas en la comunicación oral en combinación con un
nombre propio o un pronombre. Algunos casos muestran también el uso de dos fórmulas
rutinarias como Hallo Metin, schön dich zu sehn; Vorzimmer Dr. Schneider, guten Tag, was
kann ich für Sie tun?; Hi Cem! Na, was geht so; Hi Kathi! Tschuldige, dass ich mich jetzt erst
melde....
Ahora bien, recurriendo a los datos, a su clasicación, a su análisis y uso, proponemos
algunas reexiones didácticas que permitirán además la recepción y producción de dis-
fórmula tiene una marca regional del sur de Alemania y de Austria.
10 Dentro del corpus se encontró un total de 52 fórmulas de saludo combinadas con otra fórmula.

cursos que articulen un lenguaje cercano a lo auténtico del alemán como lengua extranje-
ra. Partimos de la hipótesis según la cual “en una palabra, los análisis cuantitativos permi-
ten explorar y llevar a cabo descubrimientos sobre los patrones de uso de la lengua de
forma rigurosa y able, ya que permiten comprobar empíricamente las hipótesis sobre el
uso de la lengua” (Lavid, , p.).
El carácter representativo del alemán coloquial actual que muestra el corpus descrito
al inicio del artículo, así como su fácil manipulación, permitirá que este sea explotado
tanto por aprendices como por profesores de la lengua alemana, facilitando la creación de
aplicaciones didácticas. Al respecto, de acuerdo con la propuesta de Lavid (, p.), si
bien la ventaja en el uso de corpus se basa en la posibilidad de indagar los signicados de
determinados términos de acuerdo con su aparición y distribución, son también relevan-
tes en el análisis los términos que no estén representados de manera signicativa. Las
fórmulas rutinarias son complejas por su componente social y contextual y deben ser
puestas en conocimiento del aprendiz desde el principio del proceso de aprendizaje. Tal es
el caso del subgrupo de fórmulas rutinarias de saludo, para las que hemos concluido que,
aunque ciertos hablantes adultos no utilizan, es común en el contexto del alemán de los
jóvenes. Ejemplos de ellos son hey o hi, dos fórmulas que se descuidan en los manuales y
por ende muchas veces en el aula de la enseñanza del alemán como lengua extranjera.
Referencias
Alvarado, M. (). Las fórmulas rutinarias en español actual [Tesis doctoral, Universidad de
Alicante]. Repositorio Institucional de la Universidad de Alicante. http://rua.ua.es/dspace/
handle//
Automatische Sprachverarbeitungam Institut für Informatik der Universität Leipzig. ( de enero de
). Deutscher Wor tschatz / Leipzig Corpora Collection, . http://wortschatz.uni-leipzig.de/de
Berlin-Brandenburgischen Akademie der Wissenschaen. ( de diciembre). DWDS –Digitales
Wörterbuch der deutschen Sprache. https://www.dwds.de
Burger, H. (). Idiomatik des Deutschen (Germanistische Arbeitshee). Niemeyer.
Burger, H. (). Phraseologie. Eine Einführung am Beispiel des Deutschen. Erich Schmidt Verlag.
Coulmas, F. (). Routine im Gespräch: zur pragmatischen Fundierung der Idiomatik. Athenaion.
Deppermann, A. & Schmidt, T. (). Gesprächsdatenbanken als methodisches Instrument der
Interaktionalen Linguistik: Eine exemplarische Untersuchung auf Basis des Korpus FOLK in
11 Con el corpus creado, se está desarrollando una herramienta que posibilita una consulta rápida por conteni-
do, permitiendo la depuración de este y observación de estadísticas. Inicialmente, la herramienta que se ha
usado para realizar estas tareas es Mongo DB

una forma más intuitiva. Dicha funcionalidad permitirá observar el contexto de uso de las fórmulas rutinari-
as dentro del corpus.
Türkisch für Anfänger
rutinarias de saludo

Digital Humanities, Corpus and Language Technology
der Datenbank für Gesprochenes Deutsch (DGD). Mitteilungen des Deutschen
Germanistenverbandes, , -. https://doi.org/./mdge....
Fleischer, W. (). Phraseologie der deutschen Gegenwartssprache. VEB Biblio- graphisches Institut.
Gläser, R. (). Phraseologie der englischen Sprache. Niemeyer.
Goetsch, P. (). Fingierte Mündlichkeit in der Erzählkunst entwickelter Schrikulturen. Poetica,
(), -.
Herder-Institut- Universität Leipzig. ( de febrero de ). Gesprochene Wissenschassprache.
https://gewiss.uni-leipzig.de
Hyvärinen, I. (). Kommunikative Routineformeln im nnischen DaF-Unterricht. Info DaF:
Informationen Deutsch als Fremdsprache, (), -. https://www.academia.edu//Ein_
Terrain_des_Fremdsprachenunterrichts_Deutsch_Interkulturelle_Kompetenz_in_der_
Tourismusausbildung
Hyvärinen, I. (). Beiträge zur pragmatischen Phraseologie. Peter Lang.
Institut für Deutsche Sprache, Ausbau und Pege der Korpora geschriebener Gegenwartssprache.
( de enero de ). http://www.ids-mannheim.de/kl/projekte/korpora
Jens, M. (). Mehrsprachigkeit: exibles Repertoire statt Dezit. Die deutsche Ethno-Comedy
Türkisch für Anfänger. Sprachreport: Informationen und Meinungen zur deutschen Sprache, (),
-.
Lemnitzer, L. & Zinsmeister, H. (). Korpuslinguistik: Eine Einführung. Narr Francke Attempto.
Lüger, H. (). Satzwertige Phraseologismen: Eine Pragmalingustische Untersuchung. Präsens
Verlag.
Lüger, H. (). Authentische Mündlichkeit im fremdsprachlichen Unterricht?, Beiträge zur
Fremdsprachenvermittlung. Sonderhe, (), -.
Merriam-Webster. (). Merriam-Webster Dictionary. https://www.merriam-webster.com/
dictionary/sprachgefühl
Pilz, K. (). Phraseologie: Redensartenforschung. Metzler.
Sosa, I. (). Routineformeln im Spanischen und im Deutschen. Eine pragmalinguistische Analyse.
Präsens Verlag.
Stein, S. (). Formelhae Sprache. Untersuchungen zu ihren prag-matischen und kognitiven
Funktionen im gegenwärtigen Deutsch. Lang.
Team Korpus Südtirol. ( de febrero de ). Korpus Südtirol. http://www.korpus-suedtirol.it/
Villayandre, M. (). Lingüística con corpus (I). Estudios Humanísticos. Filología, (), -.
https://doi.org/./ehf.vi.
Wal lner, F. (). Lehren und lernen mit Korpora im DaF-Unterricht. Magazin Sprache vom Goethe-
Institut München.
Winzer-Kiontke, B. (). “Gäbe es das Lehrwerk, würden wir es Ihnen empfehlen.” Routineformeln
als Lehr-/Lerngegenstand. IUDICIUM Verlag.
Zenderowska-Korpus, G. (), Sprachliche Schematismen des Deutschen und ihre Vermittlung im
Unterricht DaF. Peter Lang.

C X
CLEC - Colombian Learner English


online in Colombia
CLEC - Corpus Colombiano de
Aprendices de Inglés: primer
corpus de producción escrita de
aprendices de inglés en Colombia
disponible en línea
María Victoria Pardo Rodrígueza & Antonio Jesús Tamayo Herrerab
Universidad de Antioquia (a) –Colombia; Instituto Politécnico Nacional (b) – México
Abstract: This article aims to introduce CLEC


     

-
-

context that can be easily revised and expanded through the system administrator.


Resumen     CLEC
(Colombian Learner English Corpus) a la comunidad investigadora. Esta aplicación

Digital Humanities, Corpus and Language Technology
fue creada para buscar información dentro de un corpus de aprendices etiquetado
        
recolectado y etiquetado el corpus, fue necesario crear una herramienta que hiciera
búsquedas sistemáticas de información dentro de los datos etiquetados. La compi-
lación del corpus de aprendices siguió las pautas de la Lingüística de Corpus Com-

-
car etiquetas de error dentro de un contexto que se puede revisar y expandir fácil-
mente a través del administrador del sistema. Este corpus está disponible en línea y
está abierto a cualquier investigador que quiera consultarlo o que quiera aportar
nuevos datos para aumentar el corpus.
1. Introduction
Learner corpora (LC) emerged in the late s (Granger et al., ) as a valid scientic
way to analyze learners’ output and has the same characteristics attributed to other corpo-
ra with the dierence that the source of data is the output of language learners. Dened as
electronic collections of natural or almost natural data produced by foreign or second-lan-
guage students (L) and gathered according to explicit design criteria” by Granger (,
p.) and Gilquin (, p.). LC has gained signicance in the analysis of students’ produc-
tion. Regarding the authenticity of the data produced in a classroom, it is important to
remember that the environment is not completely natural because the activities to obtain
that input involve some kind of “articiality” (Granger, , p.). Also, special attention
must be paid to the criteria to build the corpus. e learner corpus’ metadata, such as
students’ characteristics and the task they develop, are important factors for data collection.
e growth of LC in the late s was in part to its potential to investigate authentic
output from students. is methodology gives researchers access to outstanding amounts
of data samples to do searches for collocations, patterns, and statistics. In the eld of re-
search on second and foreign language acquisition and teaching, learner corpora give ac-
cess to learners’ errors when they have been previously tagged, facilitating the analysis of
such errors.
Error Analysis (EA) appeared in the early s, and Corder () was the rst author
to propose the idea that second language learners generated an autonomous linguistic
system that he called “transitional competence. e author argued that learners gradually
modify their native language rules towards target language rules, probably using a univer-


sal grammar or what he called a “built-in syllabus. Later, Selinker () called the built-in
syllabus interlanguage, and this is the term that has prevailed in time. It refers to the version
of language produced by a learner. e analysis of the interlanguage of learners can be
performed through the analysis of errors. Error analysis is “the investigation of the language
of second language learners” (Corder, , p.). ese analyses can be done using elec-
tronic learner corpora to obtain statistics and patterns and analyze what learners lack or
need in their learning process. A learner corpus can be very useful when it has error labels
to facilitate extensive studies.
Although the usefulness of a corpus of learners’ language with error labeling is unde-
niable, it does not, on itself, facilitate extensive studies that could be carried out on it. For
that reason, taking advantage of the fact that this corpus has a marking of errors in a set of
texts, a collection of documents was generated and later uploaded into a database. Aer
having the corpus collected in electronic format, there was a need for a tool that allowed
researchers access to the corpus and provided the possibility of making queries with dif-
ferent lters.
e present paper starts with a brief description of the previous related work in learn-
er corpora. en, it describes the theoretical framework that supports this work along with
the process followed during the compilation of the present corpus and the error tagging
process. Aerwards, it narrates how the CLEC app was designed and how it works to
obtain its best performance. is project was developed with the research group Transla-
tion and New Technologies (TNT) of the School of Languages at Universidad de Antioquia
and makes part of the products of a doctoral thesis.
2. Previous work
ere are numerous corpora of English learners that contain samples of learners who have
Spanish as their mother tongue, UC Louvain, (). Some of them are the Written Corpus
of Learner English (WRICLE) Mendikoetxea et al., (); the Santiago University Learn-
er of English Corpus (SULEC) Santiago University, (): the Gachon Learner Corpus
(GACHON) Carlstrom and Price, (); the NOn-native Spanish corpus of English
(NOSE) Díaz-Negrillo, (); the International Corpus of Learner English (ICLE) Grang-
er, (). e ICLE and the NOSE can be highlighted as corpora of English language with
samples of learners who have Spanish as their mother tongue. e ICLE is considered a
pioneer in the eld of learner language corpus. It has a relatively large collection (approx-
1 CLEC can be accessed via this URL: https://grupotnt.udea.edu.co/clec

Digital Humanities, Corpus and Language Technology
imately . million words) of learners’ written output from  dierent mother tongues,
including Spanish. A CD containing the collection of texts must be purchased along with
a desktop soware to carry out searches and analysis on them to have access to this corpus.
On the other hand, the NOSE (e NOn-native Spanish Corpus of English) has a collec-
tion of approximately  argumentative and descriptive texts from students at the Uni-
versity of Granada and University of Jaen. It has labeling of errors under the EARS system
Diaz-Negrillo, (). Apparently, this corpus had a web interface for its consultation
allowing ltering by subject, text type, and parameters of the student’s prole, but it is
currently not accessible. Most of these corpora lack error labeling, and none of them cur-
rently has an accessible interface for researchers or the public to allow searches on them.
e corpus of the present analysis has a collection of documents labeled with error tags.
It lets researchers, students, and teachers carry out searches systematically and with the
possibility of ltering errors on dierent categories and types. Also, with this app, it is
possible to obtain examples of these errors and their corrections. For the case of errors that
represent more than one error category, a new functionality was developed to change error
tags when necessary. is development results from a long process of trial and error, plus
tests to achieve an app that allows adding, modifying, or eliminating errors or documents.
ese functionalities are carried out with a corpus management system that is powerful,
versatile, and friendly. Initially, the development of this app was carried out in a technol-
ogy called Django, which makes use of the Python language, but it was determined that
the app should allow not only to consult but also to comply with all the initials of the CRUD
concept (James, ) (Create, Read, Update, Delete). erefore, to carry out this scalabil-
ity process, an architecture and a technology analysis exercise were developed to enable
the web application to perform these functions.
3. Corpus collection process
ere are several options to collect a learner corpus. It can be collected as part of an aca-
demic activity in which all students participate, e.g., as an exam with its corresponding
permission for data use. Another option is to ask students to volunteer their work if they
are willing to participate. In this second option, attention must be paid not to introduce a
bias considering that the most successful students would be more willing to participate
than those with a low performance, which would compromise the balance and represent-
ativeness of the data.
Regardless of how a corpus is collected, texts in a learner corpus do not occur strictly
in a natural way because they are produced in a classroom context and are the result of


activities designed to improve the learners’ skills in the target language. In the present re-
search, the output collected results from elicitation techniques that searched for the most
natural output from students. e output resulted from questions that elicited students’
information or opinions from current situations that aect their daily lives. Participating
students were able to choose their own words to express their opinions in their composi-
tions. e present research was based on the analysis of a written corpus from a cross-sec-
tional study.
A written corpus can start with handwritten or typed texts. In the case of handwritten
texts, the researcher must make sure the transcription is accurate; therefore, in typing, it is
essential to trace the texts for any involuntary addition or loss of data. When all texts are
collected, they should be coded, indicating a reference and information that make them
traceable. Attention must be paid to quotations that do not belong to the learners’ produc-
tion. Guilquin (, p.) recommends to “remove quotations (which do not represent the
learner’s own use of language and may therefore have to be excluded from the analysis of
the corpus).” In the present work, quotations were not removed to keep the entire context
from errors. In some cases, removing quotations would mean losing fundamental parts of
the text indispensable to understand the context. On the contrary, they were kept, but close
attention was paid to not analyze those parts. On the other hand, in the case of direct
computerized versions of learners’ texts, they can be kept in les as TXT texts to make sure
they can be uploaded in the most appropriate soware to conduct the tagging process.
e principles of learner corpora guided the collection of the present corpus (Pardo,
). ese are some of the guidelines that should be taken into account when designing
a corpus of learners, according to Granger, (), see Table .
Tabla 1. Guidelines for designing a learner corpus (Granger, 2002, p.9).
Learner Task settings
Learning context
Mother tongue
Other foreign languages learned
Level of performance of English as a Foreign Lan-
guage (EFL)
(The researcher could add other information that
consider relevant)
Time limit
Use of reference tools
Type of test
Audience / speaker
(The researcher could add other information that
consider relevant)
Aer having the institution’s permission to carry out the research, several stages were
needed to accomplish the collection process. Students did a placement test consisting of
an online test supplied by Oxford University Press (Oxford University Press, ) and

Digital Humanities, Corpus and Language Technology
available at www.oxfordenglishtesting.com. Aer a brief registration and the introduction
of a password, the student starts a one-hour test of about  questions that the system
sorts out with dierent degrees of diculty to determine the student’s language level. is
test type guarantees that students are classied according to their performance following
the Common European Framework of Reference for Languages (Europe, ).
In Table  it can be observed how the population of the present study was distributed.
Participating students in this study were registered in dierent semesters from several BA
programs oered by the university: Architecture, Basic Sciences, Health Sciences, Law,
Politic Sciences, International Aairs, Business School, Humanities and Social Sciences,
Engineering, Education Studies, and Mathematics. All participants share the same mother
tongue: Spanish and their average age is .
Table 2. CEFR (Pardo, 2019).
Intro-
ductory
Level
Level
U. Norte Levels 1 2 3 4 5 6 7 8
CEFR A1 A2 A2 B1 B1 B1 B2 B2 B2
Number of Students 110 496 439 409 325 356 377 335 286
Pre-
Intermediate
Interme-
diate
Inter mediate
II
Upper-
Intermediate
Aer the les were collected, they were processed in dierent ways because they were
submitted in dierent formats. For instance, and because their nal work was handwritten,
for level B the process started with the scanning followed by the texts’ typing. External
assistants did the typing of texts in their nal year of their BA in languages at Universidad
de Antioquia. ey were given clear instructions regarding neither adding nor subtracting
any words from the original handwritten compositions. Aer all texts were transcribed,
they were thoroughly checked for mistakes and to make sure they were exactly as the
original. Next, they were converted into TXT texts to do error annotation. Students from
level B directly did the digital version; therefore, those texts were immediately converted
into TXT format for the error tagger. e handwritten les were in total , and the pro-
cess of typing lasted approximately seven months. Aer all the previous preparation, all
les were ready to start annotation.


3.1. Error annotation process
As any other kind of corpora, learner corpora start as raw texts of electronic versions or
transcribed texts from spoken learner output. Van Rooy (, p.) mentions three advan-
tages of using learner corpora to do research in language teaching: size, variability, and
automation. Size refers to the amount of data that can be processed (computerized corpus
allows analyses of great amounts of data). Var i a b i l i t y refers to the possibility of having
more individuals and more text types to include in a corpus. is advantage is also linked
to the possibility of having a computerized corpus. Finally, automation refers to some
automatic aspects of data analyses possible thanks to information technologies (IT).
Corpus annotation is “the practice of adding interpretative, linguistic information to
an electronic corpus of spoken and/or written language data” (Wynne, , p.). e
added information comes in the form of tags, which can be dened as single entities add-
ed to one part or parts of the speech. Tags are unique and can identify features of the
analyzed learner corpus. ere are dierent types of annotation, and they require dierent
tags depending on the goal of the researcher. For instance, descriptive linguistic uses Part
of Speech (POS) tags to obtain grammatical annotation in a corpus. Another example is
semantic annotation that requires assigning each word a semantic eld used to do rened
searches and classications according to the research purpose. For error analysis, the an-
notation process is done to identify errors according to various categories and types.
To annotate errors, it is necessary to interpret learners’ choices and decide in what
category the error best ts. is entails the construction of one or several target hypotheses
that the researcher must test. It is impossible not to interpret data. Only through interpre-
tation, the researcher will nd ways to unhide possible hypothesis to do an essential anal-
ysis. Assigning a tag to an error means that it was the researcher’s interpretation, and that
interpretation is publicly available for the reader. For that reason, when an error-tag is
assigned, there could be other interpretations, but the most important is to keep uniform-
ity in the way the tags are used. “e usefulness of error annotated corpora depends on the
consistency on the annotation” (Ludeling & Hirschmann, , p.). Once the present
learner corpus was annotated, it was easier to identify and extract data to analyse because
the data was organized and ready to be used with soware that permits further analyses.
For the present work, the learner corpus was tagged with a standardized error taxono-
my that permitted the search and counting of errors analyzing within their context. e
soware used to extract error tags was WordSmith (Scott, ) and LancsBox. (Brezina
et al., ). WordSmith was used to obtaining the total statistics of errors, the dispersion,

Digital Humanities, Corpus and Language Technology
and patterns that most aect the learner’s production. LancsBox was used to obtain a more
detailed prole of each error type and the corresponding graphics.
Regarding the annotation types in error analysis, there are two dierent types of anno-
tation: emendation and categorization (Rosen et al., ). In the rst case, the researcher
establishes one or more target hypotheses and does the correction according to the author’s
intention. On the other hand, the categorization is done following a previous established
list of errors, because error annotation relies on error taxonomies and their categories for
error classication. In the present work, aer choosing a target hypothesis the researcher
did an error categorization, adding predened tags according to the Manual of Error Tag-
ging from Louvain University version . (Dagneaux et al., ). e corpus contained in
the CLEC is a digital collection of  written les from English as a Foreign Language
(EFL) university students registered in dierent careers. Aer the corpus was collected, the
les were labeled. When an error was detected, the label was placed just before the error,
and the correction followed the error between two-dollar signs:  correction  as the man-
ual indicates:
Example:
   GADJN     
refers to the pluralization of an adjective (ADJN) in English).
e errors labeled and corrected in the CLEC are classied in the following eight categories
that grouped a total of  error types. Please refer to appendix  of the present article to see
the error types in detail.
Form (F): groups the words used that do not exist in English and other errors of a formal
type.
Grammar (G): groups the errors that violate the general rules of English grammar.
Lexical-grammar (X): errors where the morphosyntactic properties of a word are vio-
lated.
Lexis (L): errors related to the semantic properties of words or sentences.
Words (W): redundant words, missing words, or wrong word order.
Punctuation (Q): errors related to punctuation marks.
Style (S): incomplete sentences and unclear sentences.
Infelicities (Z): registration problems (related to the eld, the mode and the tenor of the
speech) and issues of political correctness.


e next step aer doing the error labeling was the extraction and alignment of the corpus.
is process was carried out using an extraction soware that searched for the labels and
grouped them according to each error type. Tags were extracted within a context that
granted proper analysis. e corpus’s alignment was done using WordSmith, Scott, ()
and LancsBox soware, Brezina et al. (), which permitted the identication of lan-
guage patterns obtaining statistics of the data with their respective graphs. Aer this pro-
cess, the analysis of the ndings took place.
3.2. Corpus metadata summary
e following are the main features of the corpus.
Medium: written production
Students belong to dierent university majors
e EFL courses are  hours with an intensity of  hours per week for  weeks
Native language of learners: Spanish
Target language: English
Genre of texts: there is a combination of genres between opinion paragraphs on dier-
ent topics for level B and argumentative essays for level B
Tokens per text: at level B a maximum of , at level B up to 
Type: local corpus that seeks to identify needs and failures of learners
Data compilation: it is a synchronous corpus with data collected in the second semester
of 
e incidence analysis was done by calculating the percentage of errors per  tokens
to guarantee the proportionality of the analysis
Corpus characteristics , tokens, , types and , lemmas
4. Methodology in the designing of the web application CLEC
Aer having the corpus collected and labeled with error tags, it was necessary to develop
an application that systematically allowed the search of errors with the possibility to lter
them according to dierent categories and types. It was also required that the app could
allow changes in the error tags when they overlap among error categories. erefore, a web
application was developed with a frontend and a backend layer. Aer several tests, the
functions of adding, modifying, or eliminating unnecessary data in the corpus were
dened to be implemented. e development was possible thanks to a new technology
where the frontend and backend responsibilities could be separated, and they were not

Digital Humanities, Corpus and Language Technology
codependent. e alternative was a backend developed in Node.js (Dahl, ) together
with Express.js (a web application framework for Node.js) for its construction as a REST
API (Fielding, ) and a frontend in a JavaScript-based technology in which the options
were React (Walke, ). It was decided to develop these technologies as they have excel-
lent documentation and constant updates. Likewise, it was considered that the Node.js and
React technologies have better support and a much broader community to guarantee a
better response to the problems that arise throughout the development.
During the process, it was decided to use the persistence layer MongoDB (Merriman
et al., ) database management system (DBMS), which is document oriented because
it is consistent with the data of the corpus in the present study. is DBMS allows ecient
access when making inquiries. e structure shown in Figure , allows to store the contexts
aer being processed. In this structure, it can be observed how the data is organized by
level, name of le, context, error type, and its correction.
Figure 1. Document structure in MongoDB.
Aer dening the technologies to use, the development of the backend started by devel-
oping the methods for the search of errors. e additional services were dened and devel-
oped to enable the functions to create, read, modify, and delete contexts and create, read,
and delete errors.
In this case, the method for modifying errors was le out as this meant an unnecessar-
ily large load for processing due to the data’s nature. Instead, it was decided to leave this
functionality implicit as a combination of elimination and addition of errors. e database
of contexts was populated with the help of preprocessing Python scripts that allowed struc-
turing the data in the way it was previously dened. e new method of creating contexts
included all this preprocessing that was required for new contexts.
In Figure , it is shown the architecture of the system described above.


Figure 2. CLEC System Architecture.
As may be observed in Figure , the proposed system has two roles: administrator and user.
e administrator can modify the application’s data, whereas the user can only use the
application. e most important use cases for both administrator and users are shown
below in gure  and , respectively.
Figure 3. The administrator’s use cases.

Digital Humanities, Corpus and Language Technology
Figure 4. Use cases available for all users.
Each of the use cases depicted above will be illustrated below.
ere were two ways to obtain the text contexts, one that displayed all the texts for a
general view of dierent errors within their contexts, and one that obtained a specic text
for a detailed view of each error within its context. Let us see the general view of dierent
errors in Figure .


Figure 5. et al., 2018)
In Figure , for every sentence, it can be observed at the right side of the menu a button
link that redirects the search to see each error’s whole context. Clicking that button implies
seeing the text’s whole context that contains the error mentioned at the le side of the
sentence. When you hit the button “go to context,” you will see what is shown in Figure ,
the same error within the full context, and the correction in green.

Digital Humanities, Corpus and Language Technology
Figure 6. et al., 2018).
Considering the nature of the data and these functionalities, the possibility of modifying
contexts only to the parts of each text that did not contain errors was added. is was done
in case the researcher wants to focus only on the text with errors. ere were two methods
to achieve this goal, one that creates lists of both context parts that contained and did not
contain errors, and a second method that receives similar lists with the modications
made.
Similarly, the services corresponding to creating, reading, and eliminating errors were
developed. All of them included verications so that the rest of the errors did not enter
conict for their positions and/or for their content. For this part of the process, the service
to modify errors was le out because it resulted in multiple cases in which some verica-
tions of the data required excessive processing. is was replaced by a new possibility to
modify errors by eliminating a previous error and adding a new one. It was an easier
function, both for the development process and for the end-user.
Down, on the right side of Figure ,  buttons allow changes in the corpus: add error,
modify context, remove context, and refresh context.


Figure 7.  
ese new functionalities are a plus in case there is need for a more detailed work in the
corpus or to focus on specic parts of the texts.
A view of the search lters can be viewed in Figure . ese lters were grouped by
level: the corpus was divided into  levels of English A, A, B, B. ey were arranged in
an element of type selected:
Basic (A)
Pre-intermediate (A)
Intermediate (B)
Advanced (B)

Digital Humanities, Corpus and Language Technology
Figure 8. 
In Figure , it can be noticed how the error types explained in the corpus collection section
of this article were arranged as an element of type select.
Figure 9. et al., 2018).
In Figure , it may be noted how a condition was created so that check boxes with the
corresponding class error types would be displayed when the selection was changed. In all
this process, it can be noted how the systems graphic design was created, selecting the
university’s institutional colors (dark and light green).


Figure 10. Check boxes to choose error types to analyze in the Grammar categor y.
In this case, Figure  shows error types from the grammar category, but if the category
changes, the error types will correspond to the chosen category.
In Figure , it is possible to observe errors within the context of one sentence. e
errors are in red and in front of the whole text with the corrections in green.
Figure 11. 
e same errors can be viewed in the whole context when hitting the button “go to con-
text.” In Figure , we may note the view of the whole context for one of the errors.

Digital Humanities, Corpus and Language Technology
Figure 12. 
It is necessary to clarify that the view of errors in Figure  shows all the dierent errors
the student made in his composition, for that reason, there are several categories and types
of errors.
All the previous functionalities were oriented for the use of all users, including unau-
thenticated ones. For authenticated users (administrator role), additional components
were made available for the other functionalities, including a button, in the context view,
for each error that would allow the possibility to eliminate them if necessary. Let us see the
detail in Figure .
Figure 13.  et al., 2018).
Besides, a set of buttons were included at the bottom of the whole contexts, and the buttons
are: Add, Modify, Remove and Refresh. By displaying a pop-up window, the user selects


the context section on which he/she wants to introduce a modication. e same process
is followed for each case. ere is another button to remove the context and the last button
to refresh the context with the changes made. Let us see Figure .
Figure 14. et al., 2018)
5. Results
From the previous process, the result was a web responsive application that completely
performs searches and does analysis on the tagged corpus of errors. is app contains a
learner corpus of English as a Foreign Language (EFL) learners that has the potential of
being easily revised and expanded through the role of the system administrator. is new
functionality will be very useful to enrich the system that can be used by linguists, teachers,
and students who may consider it to do research. is corpus is available in the given URL

Digital Humanities, Corpus and Language Technology
and is open to any researcher if you want to consult it or if you want to contribute with
learner corpora.
e development of the backend as a REST API allowed the tests to be carried out
independently of the frontend, allowing future developers to use this API for new versions
or refactoring of the frontend.
Regarding the front end, it was also possible to deliver a design that is very aesthetic
and friendly. is will allow that existing method and those that would be open to the
public were simplied and more understandable for use.
Finally, the web application was deployed on the Translation and New Technologies
(TNT) research groups of Universidad de Antioquia server. e Colombian Learner Eng-
lish Corpus (CLEC) is available online at: https://grupotnt.udea.edu.co/clec.
5.1. Graphical view of errors
e ndings of errors in the corpus were grouped by category and type. Figure  shows a
view of errors by category.
Figure 15. Incidence of errors by category (Pardo, 2019).
It is clear in gure  that the category of errors with most frequency in the corpus was
Grammar. A more detailed view of errors is displayed by type in Figure .
2 


Figure 16. Incidence of errors by t ype (Pardo, 2019).
In this case, the frequency by type can give us an idea of the frequency of each type of error.
All this information can be easily retrieved for its analysis using the CLEC app.
6. Conclusions
is work presented the CLEC app, the rst corpus of written production of Colombian
students learning English as a Foreign Language available online for the research communi-
ty. CLEC works with a modern technology that oers agile maintenance options and allows
a user interface design that is friendly and allows a satisfying interaction with the app.
Similarly, it was possible to achieve the construction of a complete, friendly, and safe
administration system to manage the data of the treated corpus allowing its scalability and
maintenance to create, read, edit, and eliminate contexts. ese functions give the appli-
cation an invaluable utility for didactic and research matters.
ere were several advantages brought with the technologies used in this project. Using
React, future development teams will be able to take over the project and add new func-
tionalities.
Despite the complexity of the structure in which the contexts and errors were handled,
it was possible to reduce the complexity of the entire process for the end-user through the
correct planning of the development and the views. Now it is an interface that allows the
use of its features in a practical way.

Digital Humanities, Corpus and Language Technology
Finally, this work gives the academic community an invaluable free access web appli-
cation, which facilitates the teaching-learning process of English as a foreign language
through an ecient and friendly error analysis.
Acknowledgements
anks to Universidad del Norte for allowing the collection of the data.
We would like to acknowledge Manuel Gómez and Nicolás Henao for their participa-
tion in the design of the CLEC app.
e research reported here was supported by a COLCIENCIAS scholarship.


Appendix
1. Error categories and types according to the manual of Louvain University
FM Form, Morphology
FS Form, Spelling
FSR Form, Spelling, Regional
GDD Grammar, Determiner, Demonstrative
GDO Grammar, Determiner, POssessive
GDI Grammar, Determiner, Indenite
GDT Grammar, Determiner, OTher
GA Grammar, Articles
GADJCS Grammar, Adjectives, Comparative / Superlative
GADJN Grammar, Adjectives, Number
GADJO Grammar, Adjectives, Order
GADVO Grammar, Adjerbs, Order
GNC Grammar, Nouns, Case
GNN Grammar, Nouns, Number
GPD Grammar, Pronouns, Demonstrative
GPP Grammar, Pronoun, Personal
GPO Grammar, Pronoun, POssessive
GPI Grammar, Pronoun, Indenite
GPF Grammar, Pronoun, ReFlexive/Reciprocal
GPR Grammar, Pronoun, Relative/ Interrogative
GPU Grammar, Pronoun, Unclear reference
GVAUX Grammar, Verbs, Auxiliaries
GVM Grammar, Verbs, Morphology
GVN Grammar, Verbs, Number
GVNF Grammar, Verbs, Non-Finite / Finite
GVT Grammar, Verbs, Tense
GVV Grammar, Verbs, Voice
GWC Grammar, Word Class

Digital Humanities, Corpus and Language Technology
LCC Lexis, Conjunctions, Coordinating
LCLC Lexis, Connectors, Logical, Complex
LCLS Lexis, Connectors, Logical, Single
LCS Lexis, Conjunctions, Subordinating
LP Lexical Phrase
LPF Lexical Phrase, False friends
LS Lexical Single
LSF Lexical Single, False friends
QC Punctuation, Confusion
QL Punctuation, Lexical
QM Punctuation, Missing
QR Punctuation, Redundant
SI Sentence, Incomplete
SU Sentence, Unclear
WM Word Missing
WO Word Order
WRS Word Redundant Single
WRM Word Redudant Multiple
XADJCO LeXico-Grammar, Adjectives, Complementation
XADJPR LeXico-Grammar, Adjectives, Dependent Preposition
XCONJCO LeXico-Grammar, Conjunctions, Complementation
XNCO LeXico-Grammar, Nouns, Complementation
XNPR LeXico-Grammar, Nouns, Dependent Preposition
XNUC LeXico-Grammar, Nouns, Uncountable / Countable
XPRCO LeXico-Grammar, PRepositions, Complementation
XVCO LeXico-Grammar, Verbs, Complementation
XVPR LeXico-Grammar, Verbs, Dependent Preposition
Z Infelicities


References
Brezina, V., McEnery, T., & Wattam, S. (). Collocations in context: A new perspective on
collocation networks. International Journal of Corpus Linguistics, (), -. https://doi.
org/./ijcl...bre
Carlstrom, B., & Price, N. (). e Gachon Learner Corpus. Retrieved from https://app.box.com/s/
erqwdvfqzekztlmkc
Corder, S. (). e signicance of learner’s errors. IRAL - International Review of Applied Linguistics
in Language Teaching, (-), -. https://doi.org/./iral...-.
Corder, S. (). Error Analysis and Interlanguage. Oxford University Press.
Dagneaux, E., Denness, S., Granger, S., Meunier, F., Ne, J., & ewissen, J. (). Error Tagging
Manual Version .. Centre for English Corpus Linguistics, Université Catholique de Louvain.
Dahl, R. (). NODE.JS. Open JS Foundation. https://nodejs.org/es/docs/
Diaz-Negrillo, A. (). EARS: a User’s Manual. Lincom Academic Reference.
Díaz-Negrillo, A. (). Learner corpora: the case of the NOSE corpus. Journal of Systemics,
Cybernetics and Informatics, (), -. https://www.iiisci.org/journal/pdv/sci/pdfs/HEBAV.
pdf
Europe, C. of. (). e Common European Framework of Reference for Languages: Learning,
teaching, assessment. Common European Framework. https://doi.org/./elt/cci
Fielding, R. (). Architectural Styles and the Design of Network-based Soware Architectures
[Doctoral dissertation, University of California, Irvine]. Donald Bren School of Information
and Computer Sciences. https://www.ics.uci.edu/~elding/pubs/dissertation/elding_
dissertation.pdf
Gilquin, G. (). From design to collection of learner corpora. In S. Granger, G. Gilquin, & F.
Meunier (Eds.), e Cambridge handbook of learner corpus research (pp. -). Cambridge
University Press.
Granger, S, Gilquin, G, & Meunier, F. (Eds.). (). e Cambridge Handbook of Learner Corpus
Research. Cambridge University Press. https://doi.org/./CBO
Granger, S. (). A Bird’s-eye view of learner corpus research. In S. Granger, J. Hung, & S. Petch-
Tyson (Eds.), Computer Learner Corpora, Second Language Acquisition and Foreign Language
Teaching (pp. -). John Benjamins Publishing Company.
Granger, S. (). e International Corpus of Learner English : A New Resource for Foreign
Language Learning and Teaching and Second Language Acquisition Research. TESOL Quarterly,
(), -.
James, M. (). Managing the database environment. Savant Research.
Ludeling, A., & Hirschmann, H. (). Error annotation systems. In S. Granger, G. Gilquin, & F.
Meunier (Eds.), e Cambridge handbook of learner corpus research (pp. -). Cambridge
University Press.
McEnery, A., & Hardie, A. (). Corpus Linguistics: Method, theory and practice. Cambridge
University Press.
Mendikoetxea, A., O’Donnell, M., & Rollinson, P. (). WriCLE: A learner corpus for Second
Language Acquisition Research . . http://ucrel.lancs.ac.uk/publications/cl/_FullPaper.
doc
Merriman, D., Horowit, E., & Ryan, K. (). MongoDB Documentation. https://docs.mongodb.
com/
Pardo, M. (). Error Analysis in a Written Corpus of Spanish Speakers EFL Learners. A Corpus-
based Study. Universidad de Antioquia.

Digital Humanities, Corpus and Language Technology
Pardo, M., Quiroz, G., Tamayo, A., Henao, N., Ortega, M., & . (). CLEC Colombian Learner
English Corpus. https://grupotnt.udea.edu.co/clec/corpu
Rosen, A., Jirka, H., Stindlová, B., Feldman, A., & Svatava, S. (). Evaluating and automating the
annotation of a learner corpus. Language Resources and Evaluation, (), -. https://doi.
org/./s---
Scott, M. (). Wor d S mith. Lexically. http://lexically.net/wordsmith/research/
Selinker, L. (). Interlanguage. International Review of Applied Linguistics in Language Teaching,
(–), -.
UC Louvain. (). Centre for English Corpus Linguistics. Learner Corpora Around the World.
https://uclouvain.be/en/research-institutes/ilc/cecl/learner-corpora-around-the-world.html
University, T. S. (). e Santiago University Learner of English Corpus (SULEC). https://sulec.
cesga.es/
Van Rooy, B. (). Annotating learner corpora. In S. Granger, G. Gilquin, & F. Meunier (Eds.), e
Cambridge handbook of learner corpus research (pp. ). Cambridge University Press.
Wal ke, J. (). React. Una biblioteca de JavaScript para construir interfaces de usuar io. React. https://
es.reactjs.org/
Wynne, M. (Ed.) (). Developing linguistic corpora: a guide to good practice. Oxbow Books.
Part III
Corpus analysis and
Natural Language
Processing

C XI
Pronunciation of consonant
clusters in Spanish speakers based
on the Czech read speech corpora
La pronunciación de los grupos de
consonantes en hispanohablantes
basándose en el corpus oral leído
checo
Kateřina Pugachova & Jitka Veroňková
Faculty of Arts, Charles University – Czech Republic
Abstract:-



   
-
-
-
         
-

Resumen: El propósito de este estudio fue determinar qué grupo de consonantes

de sonido que son más frecuentes, debido a la diferencia en la estructura de las sí-
-


Digital Humanities, Corpus and Language Technology
los grupos de consonantes estudiados se incluyeron en un texto coherente escrito
-

de consonantes se han pronunciado incorrectamente. El número de grupos de con-
sonantes pronunciados correctamente varió mucho entre los tipos de agrupaciones
e incluso dentro de las propias agrupaciones. La sustitución, elisión y prótesis repre-

dominante, afectó a todos los tipos de grupos de consonantes estudiados.
1. Introduction
In recent years, the Czech Republic has been hosted to an increasing number of Latin
American and Spanish people who usually work or carry out their studies at universities.
Smaller Spanish-speaking groups regularly take part in summer Czech language schools
for foreigners or attend preparatory courses aimed at potential international students at
Czech universities.
However, there are a limited number of textbooks for Spanish speakers on the market.
Available materials are oen a translated version or an older edition. Regarding the Czech
language of Spanish speakers, rather informal observations of teachers are available, but
systematic data-based research has not been carried out.
Our experiment aims to contribute to the research of sound aspects of Czech in Span-
ish speakers. It focuses on one of the dicult areas, i.e., the pronunciation of consonant
clusters. Perception analysis is based on recordings of Czech read speech in speakers with
Spanish as a rst language.
e diculties of Spanish learners with the pronunciation of consonant clusters or
consonants in the positions restricted in Spanish have been mainly evidenced by studies
on the acquisition of English. Based on the review of literature, Moore and Marzano ()
presented a list of possible errors of Spanish students learning English, including conso-
nants and their clusters. Based on Helman (), some of these are possible adaptations
of unfamiliar English consonant endings, the simplifying of a consonant cluster by deleting
a consonant, substituting to create an ending permissible in Spanish or a change leading
to a vowel ending. According to Magen (), initial schwa inserted by Spanish speakers
in English syllable onsets formed by fricative + stop clusters and deleting of nal /s/ be-
longed among factors listeners were sensitive to when they rated the extent of foreign ac-
cent. e application of Spanish phonological and orthographic rules on English is recog-

Pronunciation of consonant clusters in Spanish speakers based on the Czech read speech corpora
nized from spelling in written texts as well. (Fashola et al., ; Sun-Alperin and Wang,
; Hevia-Tuero et al., )
e diculties L learners may encounter are not only due to the inuence of the L
features on the target language. Piske () provides an overview of factors that may aect
the acquisition of L including pronunciation, e.g., the length of stay in the target country
and the use of language, gender or existing or lacking formal instructions; the existence of
the so-called critical period is widely discussed (comp. also Singleton, ; Rothman,
). Individual dierences among learners might be caused, for example, by the cognitive
and learning styles, language aptitude, motivation and personality (Ellis, , pp. -;
Hummel, , pp. -). Regarding our speakers, we were mainly interested in circum-
stances related to staying in the Czech Republic, studying Czech and using Czech in daily
communication; however, our research is not focused on examining the inuence of any
certain factor.
2. Theoretical framework
Sound characteristics distinguishing Czech and Spanish include syllabic structure and
consonant clusters. e primary dierence lies in the number of consonants within a sin-
gle syllable, their frequency, and phoneme combinatory aspects including constraints in
specied positions. In Czech, for example, some sonorants (mainly /l/ and /r/) may form
a syllabic nucleus, unlike in Spanish.
Czech and Spanish syllables tend to be open. In both languages, the predominant syl-
lable type is the CV type, which occurs in . in Czech (Těšiteloet al., , p.)
and in . in Spanish (Guerra, , as cited in Quilis, , p.). However, a signicant
dierence is the number of consonants within one syllable. In Spanish, onset and coda are
usually formed by one, rarely two consonants, and thus the CCCV syllable type, for in-
stance, containing three consonants in onset, is not present in Spanish, unlike in Czech in
which it has a frequency of occurrence of . (Těšitelová et al., , p.). CCVCC is
the longest Spanish syllable type – occurrence of . (Guerra, , as cited in Quilis,
, p.), the same syllable type in Czech occurs with the higher frequency of .
(Těšitelová et al., , p.). Based on the analysed texts, the longest Czech syllable type
is CCCVCC (ibid; Kučera & Monroe, , p.) with frequency of . (Těšitelová et
al., , p.); however, it is possible to nd samples even for types with longer consonant
sequences (Bičan, , p.) and the number of consonants in the onset may increase by
including a non-syllable preposition.

Digital Humanities, Corpus and Language Technology
In Czech, there are no such restrictions for one-segment or multi-segment onset and
coda, as in Spanish. (Ludvíková & Kraus, ; Kučera & Monroe, ; Bičan, ) In the
Spanish CC-onset in the initial word position there can be only combinations of obstruent
and sonorant, namely  clusters /pr, br, fr, tr, dr, kr, gr, pl, bl, , kl, gl/ (Saporta & Olson,
, p.; Quilis, , p.; Ríos Mestre, , section ....) and /tl/ in words of
Náhuatl origin (Quilis, , p.; RAE, , p.-). e loanwords containing initial
/s/ followed by another consonant are adapted by a prothetic vowel, e.g., escena (RAE, ,
p.). In loanwoards, e.g., from Latin or Greek, other consonant groups such as cn-, gn-,
mn-, pt- and ps- may occur in the initial position of the word. However, in Spanish, the
groups remain preserved only in written form, the pronunciation is simplied (the rst
consonant is elided). Simplied forms appear even in written form as parallel variants, e.g.,
gnomo – nomo, psíquico – síquico, ptolemaico – tolemaico (RAE, , p.-; RAE, ).
For the Spanish coda -C at the end of a word, studies present a limited set of phonemes
as well. It is the loanwords that are the source of new codas including -CC in the word nal
position, otherwise unusual in Spanish (Saporta & Olson, , p.), e.g., golf or vals
(RAE, , p.). However, there is a tendency towards simplication in pronunciation
too. Parallel variants may occur, e.g., cinc/zinc is pronounced both with a full coda or
without a nal consonant, or only simplied pronunciation is used, e.g., robots with elision
of /t/. (RAE, , p.-).
e sequence of consonants may be increased by the contact of a coda and an onset in
the medial position of a word. In Spanish, changes occur in those cases as well. For exam-
ple, in the combination bs + consonant, /b/ is usually weakened or skipped. According to
RAE (, p.-), nowadays it is possible to omit b not only in pronunciation but even
in writing and the simplied spelling is primary; comp. e.g., oscuro – obscuro, sustantivo
– substantivo, sustituir – substituir (RAE, ). e cause is mainly the syllable boundary.
Unlike in Czech, where the position of the syllable boundary may vary to some extent
(Palková, ; Šturm, ), in Spanish there are precise rules governing this process; the
main rule is the permission or restriction of a xed combination of sounds within a sylla-
ble. (Quilis, , pp. -; Ríos Mestre, , section ...) For example, the  clusters
dened for the initial position of a word (see above) cannot be split within a word (Quilis
& Fernández, , p.).

Pronunciation of consonant clusters in Spanish speakers based on the Czech read speech corpora
3. Methodological framework
3.1. Target consonant cluster set
In the rst step, we determined a set of target consonant clusters. Since the aim was not to
test the pronunciation of individual segments, but consonant groups as a whole, the con-
dition was determined that consonants absent in the Spanish language would not be
included in the consonant cluster set used for this research. Otherwise, any potential dif-
culties of speakers might be primarily related to the pronunciation of that segment, not
to the combination of the given cluster as a whole. For example, clusters with a specic
Czech vibrant fricative /r
/ or with a laryngeal consonant [ɦ] (in Czech, unlike most lan-
guages, voiced), none of which have equivalent in Spanish, were not tested.
e starting point was a set of consonant clusters occurring in Spanish. Based on Qui-
lis (), RAE (), and Čermák (), those consonant clusters were selected, whose
pronunciation may dier between Czech and Spanish or those that may present diculties
for L Czech speakers with Spanish as L because of position restriction etc. Due to a large
number of such clusters, another selection procedure followed. e set was limited to
two-component clusters with an initial consonant [s], with an initial consonant [p], name-
ly [pt], [ps], [pn], and the cluster [gn]. ree-component clusters [pst] and [psk] were also
included. ose clusters were then systematically supplemented based on Czech language,
e.g., by combinations containing voiced/voiceless counterparts.
In the S + consonant type, we tested all two-member combinations existing in Czech,
the rst member of which is the consonant [s] (with the exception of less common or
problematic combinations such as [sf] or [stʃ]). ose items were [s] + voiceless stops [p],
[t], [c], [k], fricative [v], nasals [m], [n], [ɲ] and oral sonorants [l], [r], [j].
Due to the use of the nasal palatal [ɲ] in conjunction with [s], we decided to test the
combination of the nasal [ɲ] with other initial consonants already used, i.e., the cluster [pɲ]
and [gɲ] were added.
Due to the fact that in Czech the voicing opposition plays an important role, four more
clusters [bn], [bɲ], and [kn], [kɲ] were added as voiced and unvoiced equivalents to the
existing clusters [pn], [pɲ], and [gn], [gɲ]. In these nasal clusters, the voicing property of
obstruents should be preserved.
Altogether,  clusters divided in  types were included in the experiment (see Table ).

Digital Humanities, Corpus and Language Technology
Table 1. Set of consonant cluster types.
2-consonant
clusters

[ps]
[pt]
obstruent bilabials [p], [b] and velars [k], [ɡɲ]

3-consonant
clusters
[pst]
[psk]
Note: In the following text, capital letters, i.e. [ps] PS are used, and palatals [ɲ] and [c] are
written as Ň and Ť.
3.2. Target words set
A set of words containing the observed consonant clusters was created. For each consonant
cluster, the position in the word selected for the test was established: initial – I, medial – M
and nal – F. e purpose of the experiment and the ideal number of tested units were
taken into account.
In the S+cons type, we focused on the initial position, because that is where Spanish native
speakers use a prothetic vowel, which is a signicant dierence compared to Czech. e orig-
inally determined nasal clusters PN and GN were tested in I and M positions. e groups with
voicing counterparts and palatal [ɲ] were tested only in M position. For other types PS, PT
and PST, PSK, an attempt to nd a representative for all three positions was made.
e Index Database (Databáze heslářů) was used for searching suitable words. It con-
tains over , entries from  Czech written sources with items from both older
dictionaries and new vocabulary occurring in newspapers or magazines. In the process of
creating the word sets, it was found that we could not always ll a dened I / M / F position.
e PST, for example, appeared only in positions M and F. For some clusters, although
lexemes were available, their occurrence was either restricted to scientic terminology, or
very limited in general frequency. For that reason, the GŇ cluster was eventually excluded
from the test. Regarding the type and position,  subgroups were dened.
To ensure that any errors would be a matter of personal pronunciation and not a case of
ignorance of orthoepic rules, in S+cons, only words in which the graphic form and pronun-
ciation of the target cluster did not dier due to voicing assimilation, as in the word zkoušky
[skouʃkɪ] (En. exams, Sp. exámenes), were tested eventually. e need to perform voicing
assimilation occurs in our set in less frequent groups: a) in all ve representatives of PST, in

Pronunciation of consonant clusters in Spanish speakers based on the Czech read speech corpora
graphic form of bst, e.g., obstarávat (En. to procure, Sp. procurar), b) once in PT in the M
position (drobty (En. crumbs, Sp. pizcas) vs. poptávka (En. demand, Sp. demanda).
Table 2. 
CC IMF
ɲB

nominative case.
CC IMF N Example Pronunciation In English In Spanish
SP I 2 spekulace [spɛkulatsɛ]speculation especulación
ST I 2 studentka [studɛntka] student (fem.) la estudiante
 I 2 st [scɛʒi:] hardly apenas
SK I 2 skupina [skupɪna] group grupo
SV I 2 svobodu [svobodu]  
SM I 2 smutná [smutna:] sad (fem.) triste (fem.)
SN I 2 snad [snat] perhaps quizas
 I 2 atek [sɲatɛk] marriage matrimonio
SL I 2 slunce [sluntsɛ]sun sol
SR I 2 srazila [srazɪla] (she) crashed chocó (fem.)
SJ I 2 sjezdu [sjɛzdu]  
PS I 6 psala [psala]  escribió (fem.)
psychologie [psɪxologɪjɛ]psychology psicología
PS M 7 napsaly [napsalɪ] escribieron (fem.)
kaps [kapsɪtʃkɪ]pockets bolsillos
PS F 2 kolaps [kolaps] collapse colapso
PSK M 3 Lipska[lɪpska]  
PST M 4 substanci [supstantsɪ] 
F 1 bst [za:pst] to freeze tener frío
PT I 3 ptát [pta:t] to ask preguntar
M 3 koncepty[kontsɛptɪ]concepts conceptos
F 3 recept [rɛtsɛpt]recipe receta
PN I 3 pnula [pnula]  se enroscó (fem.)
M 3 oslepne[oslɛpnɛ] se quedará ciego
 M 3 trapně[trapɲɛ]embarrassingly embazarosamente
BN M 2 drobné[drobnɛ:] change (n.) cambio (sust.)
 M 2 bezchybně[besxɪbɲɛ] sin falta
GN I 1 gnómon [gno:mon] gnomon gnomon
M 3 ignorovat [ɪgnorovat] to ignore ignorar
KN M 2 knou [pjɛknou]  
 M 2 barokní[barokɲi:] baroque barocco

Digital Humanities, Corpus and Language Technology
A list of words containing the selected clusters in dened positions was created. We
assumed that a coherent text would be a better disguise for the target phenomenon and
that a story would be easier to read than, say, single sentences without wider context. In
order to examine as many items as possible while avoiding excessive text length, the fol-
lowing numbers of words were used: a) two words for each S+cons cluster, b) regarding
PS, six clusters in I and  in M (and two in F) to obtain more items for comparison, c) for
remaining clusters, an average of – words per cluster and position. e set of words
examined also depended on the number of suitable candidates. In cases where the number
of words of a certain type of cluster was insucient in any of the I, M, F positions, we tried
to increase the representation of the cluster in another position, e.g., the PST cluster was
represented only by one word in F, but x in M. Where possible, a loanword was used for
the given cluster and the position. Each word contained just one target consonant cluster,
with the exception of two words – skeptiku (En. sceptics, gen., Sp. escépticos, gen.), skepse
(En. scepticism, Sp. escepticismo) containing two examined consonant clusters. Table 
presents the set of dened clusters according to their position and the samples of target
words. A total of  dierent words (containing  target consonant clusters) were selected:
  words in I,   words in M and   in F. e most numerous were disyllabic (.)
and trisyllabic words (.), then -syllabic (, .). Monosyllables were represented
by seven words and - and -syllabic items were attested in three cases altogether. A text
– story ( words long) was created. In order to prevent the spread of a consonant cluster
across a word boundary, the I-cluster was preceded by a vowel, and a vowel followed the
F-cluster, or it was assumed that a pause would be realized.
3.3. Speakers
e group of participants consisted of  speakers with Spanish as L who were either from
the rst author’s circle of acquaintances or responded to requests on social media, through
which the community of foreigners living in Prague was addressed. Women showed sig-
nicantly less interest, which resulted in groups not being balanced by sex:  males and
females were eventually available for the experiment. ere were  Latin Americans from
six dierent countries and  Spanish, each coming from dierent cities in Spain. e length
of stay of speakers in the Czech Republic (CR) ranged from . years to . years, for most
speakers it was a continuous stay. Five speakers completed a one-year preparatory course
in Czech, then they studied in the CR at technical universities. One speaker stated the
study of Czech lasted . years. For other speakers, the study of Czech was shorter – from
two weeks to six months, with the characteristic that those studies took place several years

Pronunciation of consonant clusters in Spanish speakers based on the Czech read speech corpora
ago, and in two cases it was self-study; the speaker declaring two-week study had lived in
the CR for . year. Speakers also diered in the degree of use of Czech or the intensity of
contact with the Czech environment – some speakers used Czech at work or in commu-
nication with their family or friends, while others did not use Czech in their daily life at
all. With some exceptions, however, all indicated English as their primary language for
communication. ere was one more speaker, who might be considered bilingual. His
father was from Peru and his mother was Czech. is speaker had a Czech and Spanish
high school diploma and at the time of recording he was currently studying at a Czech
university. According to his words, however, he started speaking Czech at a preschool age
and he had not always felt condent in Czech in some respects. roughout his life, he had
been alternating between both Czech-dominated and Spanish-dominated environments.
All speakers interested in participating were recorded including the bilingual one as his
speech showed similar features to the rest of the speakers (see Table ).
Table 3. Information about speakers.
CR

Speaker F/M Country L1 Stay in CR
(in years)
Study Czech
(+University study)
Primary language
used in daily life
S1 F Paraguay es, pt 8.5  es, cz
S2 F Honduras es 9.5  en
S3 M Bolivia es 8.5  en, cz
S4 M Peru es 8.5  en
S5 M Colombia es 8.5  en
S6 M Peru es 2 10 m. en
S7 M Spain es 7 6 m. en
S8 M Spain es 3 6 m. en
S9 M Honduras es 2.5 3 m. en
S10 M Spain es 1.5 3 m. en
S11 F Colombia es 4.5 1 m. en
S12 M Ecuador es 2.5  en
S13 M Peru/CR es, cz cz, es
3.4. Recording procedure
Reading of the Czech story by the  Spanish speakers were recorded individually in a
sound-treated and sound-proofed room (AKG C  B-BC microphone, sample rate
kHz, -bit depth). eir main task was to read the text. In a short introductory dia-
logue, relevant information regarding speakers’ personal data and exposure to Czech lan-

Digital Humanities, Corpus and Language Technology
guage was gathered. e form of a dialogue was preferred to a questionnaire in order to
capture the circumstances of each individual speaker.
Before recording, each speaker had been given time to get accustomed to the text. All,
but one speaker, were ready in less than  minutes. Only  speakers asked for a translation
of some less frequent words. No speaker asked for guidance in pronunciation. During the
recording, one of the authors was present in a soundproof room to reduce stress of speak-
ers due to the unknown environment. Before reading the actual text, speakers introduced
themselves shortly. is was done in order to ensure that the speaker started reading the
text in their standard voice and got accustomed to being recorded. Based on an informal
discussion following the recording, none of the speakers were able to identify the topic of
the experiment.
3.5. Perception analysis
Perception analysis supported by acoustic representation was performed using Praat so-
ware (Boersma & Weenink, ). Target words were transcribed, and the following pro-
cedure was executed:
 Presence or absence of intonation juncture between the target word and adjacent words
was examined.
 e uency of the target word as a whole was assessed on the -point scale:  meant
uent pronunciation with – signalling degrees of dysuency. Only words with  rating
were processed further.
 Intelligibility of words thus determined was assessed (-point scale).
 Further analysis concerned the target consonant clusters was performed in multiple steps.
a It was determined whether the cluster was pronounced correctly or incorrectly. During
the analysis, cases emerged in which the decision-making was uncertain. Since this
group was not large, we opted for the following solution: based on repeated listening,
a consonant cluster with little inaccuracy was rated as correct, while clusters with
greater inaccuracy were rated as incorrect.
b is rough categorization disregarded the fact that some pronunciation variants were
less intelligible than others; therefore, we proceeded to the subsequent evaluation of
that aspect (-point scale).
In case of incorrect realization,
c the type of sound changed and d) aected segments were determined.

Pronunciation of consonant clusters in Spanish speakers based on the Czech read speech corpora
e following sound changes were studied: substitution, elision, prothesis, epenthesis,
metathesis, lengthening of the consonant, weakening. Based on the analysis, another type
was added, namely splitting, i.e., the splitting of a word cluster into two parts. In some
consonant clusters, multiple sound changes co-occurred. In cases where sound changes
aected dierent segments, these changes were accounted for separately, e.g. [barokɲi:] 
[baro(k)ni:] as weakening of [k] and substitution [ɲ]  [n]. Another typical example was
the addition of a prothetic sound to a cluster and aecting a consonant simultaneously. e
category of accumulation was newly introduced for cases where a consonant was aected
by several sound changes [prokopskɛ:ɦo]  [prokops:(ʃ)skɛɦo], or when it was not possible
to clearly determine the type of sound change, e.g. [sɲatɛk]  [stǝk].
In the following analysis we use the data obtained in step  and present the results of
phase a, c and partially d.
4. Data analysis
4.1. Correctness rate: overview
e resulting set of  target clusters was analyzed ( words x  speakers): . of target
words were aected by slips of tongue, dysuency (see step  above) or repetition and those
items were excluded from further analysis, . of consonant clusters were pronounced
correctly, . of them incorrectly.
Concerning the position within a word, the I, M, F positions did not dier in the num-
ber of excluded cases, ranging from . to .. e correctness rate in M and F was
similar (M: ., F:.), in I it was a little bit lower (.).
In the following sections . and ., the results presented have already all the above-men-
tioned exclusions.
4.2. Correctness rate: consonant clusters
In this part, the results regarding consonant clusters are presented. Fig.  shows the number
of correct variants of each cluster type (for types see section .). Each type achieved at least
 of correct realizations. e S+cons and O+nas types narrowly crossed this line. e
greatest correctness rate was indicated in the PS and PSK types (about ). e PT and
PST types were situated roughly in the middle of the range.
Nevertheless, these summarizing results may disguise dierences within cluster types
according to their phonetic composition or within the same consonant cluster according

Digital Humanities, Corpus and Language Technology
to the positions I / M / F. Fig.  provides the comparison of correctness rate for consonant
clusters in which dierent positions in the word were tested.
For the PS and PT types, all three positions were tested. e PS type achieved a very high
correctness rate in M and F (slightly above ); the correctness rate was lower in I, but still
very high (almost ). For PT, the correctness rate diered for all positions, decreasing in
the direction I – M – F, the dierence between I and F is about  (I: ., F: .).
In the other three consonant cluster types, only two positions were tested. e biggest
dierence between the positions was seen in the PN type, where the realization in M was
very successful (.). On the contrary, in I, incorrect realizations prevailed (the number
of correct variants was only .). In another type with nasal GN, the M position was as
successful as in PN (.). In I, the correctness rate was slightly lower compared to M,
however, unlike in PN, the correctness rate of M in GN was still relatively high (.).
e three-segment cluster PST, similarly to PT, indicated a lower correctness rate in F
compared to M. For PT, the dierence between these positions was about ; for PST, it
was even about  (M: ., F: .). e number of correct realizations of PSK, which
was tested only in M, was similar to PST in this position (.).
Figure 1. Correctness rate of consonant cluster types (in %).
Figure 2. 

Pronunciation of consonant clusters in Spanish speakers based on the Czech read speech corpora
Figure 3. 
Figure 4. 
Fig.  shows all two-segment clusters belonging to the S+cons type which was tested in the
I position. e correctness rate of pronunciation was very high for clusters ST and SP
(between  and ). In the next band (between  and ) there were SN and SK
clusters. e limit of  was exceeded by three more clusters of the S+cons type – SŤ, SL
and SM. e S+cons clusters can therefore be divided into two groups. ere were seven
clusters with the correctness rate of over , representing four tested combinations of
two obstruents (SP, ST, SŤ, SK), two combinations with nasals SN and SM and a combina-
tion with lateral SL. e remaining four clusters did not reach even  of correct variants
– these were the remaining combinations with sonorants SR, SŇ, SJ and the cluster SV with
fricative [v].
Fig.  compares the correctness rate of O+nas clusters in the M position, i.e., the com-
binations with palatal [ɲ] (occurred only in this position in our set) and the combinations
with alveolar [n] (tested in the I and M positions, see above). As we have already shown in
the previous explanation, the correctness rate of pronunciation was very high for clusters
PN and GN in the M position (between  and ). Unlike them, the correctness rate

Digital Humanities, Corpus and Language Technology
of BN cluster was very low () and the rate of KN is situated roughly in the middle of
the range ().
e PŇ type was the only combination with a nasal palatal in which the number of
correct realizations exceeded , for KŇ the number of correct realizations was around
half of the cases, for BŇ it did not even reach  (GŇ was not eventually included in the
set, see section .). For all pairs of clusters N / Ň, the number of correct realizations was
higher for the cluster with alveolar [n] than for the cluster with palatal [ɲ]; the highest
dierence was in the pair PN – PŇ (). e same observation was made for clusters SN
– SŇ () belonging to S+cons type.
4.3. Sound changes
4.3.1.
Sound changes: overview
In this section, we provide an overview of sound changes that occurred in the set of incor-
rect pronunciation (step c, see .).
Table 4. 
Type of sound
changes
Frequency
(in %)
Example, correct
pronunciation
Example, real
pronunciation
In English In Spanish
substitution 44.3 [ɪgnorovat] [ɪxnorovat] to ignore ignorar
[progno:zu] [prokno:zu]  
[slɛtʃnu] [ʃlɛtʃnu]  
elision 22.0 [supstantsɪ] † [sustantsɪ] 
[psɪsko] [sɪsko] dog perro
prothesis 20.2 [statʃɪlo] [ɛstatʃɪlo]  
[srovnala] [ɛsrovnala]  
 2.8 [krɛpsɪlonɛm] [krɛ(p)sɪlonɛm]  
epenthesis 2.1 [pnɛumatɪka] [psnɛumatɪka] tyre neumático
lengthening 1.7 [psɛm] [ps::ɛm]  
metathesis 0.7 [sjɛzdu] [sɛjʒdu]  
accumulation 3.5 [prokopskɛ:ɦo] [prokops:(ʃ)skɛɦo]  Prokop (adj.)
splitting 2.8 [popta:fka] [pop tavka] demand demanda
Within the whole set, a multiple occurrence of incorrect realisations within the consonant
group occurred in  cases. ere was a co-occurrence of two changes, with the exception

Pronunciation of consonant clusters in Spanish speakers based on the Czech read speech corpora
of one case with three changes. e total number of sound changes was thus  higher than
the number of incorrect implementations.
Among the types of changes, substitution was the most frequently represented (.).
e second most numerous were elision (.), and prothesis (.); their frequency
was therefore about half that of substitution. e frequency of other types (weakening,
epenthesis, lengthening, metathesis, and accumulation and splitting into two stress groups)
did not reach  (see Table  for more details); their total share in the number of sound
changes was ..
4.3.2.
Sound changes in types of consonant clusters
In this section, the distribution of sound changes in consonant cluster types is presented.
Based on previous ndings, three most common types of changes, i.e., substitution, elision
and prothesis, have been distinguished; the remaining changes are included in the group
o t h e r s ”.
Fig.  shows two types of values for each type of consonant clusters. e rst value
represents the number of incorrect variants. Other values indicate the distribut ion of sound
changes for a given cluster type.
It is obvious that the types of clusters diered in the types and the amount of sound
changes they evoked. e most visible nding was that prothesis occurred only in S+cons.
For this type, prothesis covered the entire half of all sound changes (.). Another rela-
tively common sound change in this type was substitution. However, the distribution of
sound changes varied among single clusters of this type (see below).
Substitution was the most common sound change for O+nas, where it applied to ⅔ of
all sound changes (.). One-h of the sound changes in this type was elision. How-
ever, almost all the instances of elision appeared only in the I position of PN, which also
contained a lot of incorrect realizations overall (the position I of GN was rather successful).
In M, nearly all incorrect realizations were the matter of substitutions, regardless of the
number of incorrect forms, or whether the cluster contained N or Ň.
Elision covered more than half of the sound changes for PS and PT (., .).
However, in the case of PS it was elision in I, and in the case of PT the cluster in F was
simplied. PS and PT types, compared to other cluster types, had relatively more sound
changes included in the group “others” (for PS about ). ese changes occurred main-
ly in M.

Digital Humanities, Corpus and Language Technology
e gure does not include the types PST and PSK, for which there were only  and 
sound changes respectively; in both cases, it was mainly a substitution, in M of PST elision
as well.
Figure 5. -

Fig.  shows the number of incorrect realizations and the distribution of sound changes in
consonant clusters of the S+cons type (the absolute values of). In two of the four least
successful clusters SŇ and SV, there was a considerable number of substitutions; prothesis
reached about half of the cases there. On the other hand, in the four most successful clus-
ters, which were three obstruent clusters SP, ST, SK and SN, substitution did not occur at
all (except for one occurrence in SN). For the remaining clusters, the number of instances
of prothesis and substitution were either comparable or the number of substitutions was
lower. Elision occurred only individually; changes included in the “others” were also lim-
ited and occurred in the least successful clusters with a sonorant.
Figure 6.  

Pronunciation of consonant clusters in Spanish speakers based on the Czech read speech corpora
4.4 Success rate and sound changes in individual speakers
Concerning individual speakers (see Table a), the number of correct forms ranged from
. to ., while the number of incorrect forms ranged from . to .. Speak-
ers also diered in the number of excluded cases that ranged from . to .. e
number of excluded items did not correlate with the number of correct realizations (r=.,
using Spearman’s coecient).
Table b indicates the number of incorrect realizations for each speaker and the distri-
bution of sound changes. In the speech of speakers with fewer than  incorrect items (⅓
of all target clusters), it was substitution that prevailed, except S, who tended to elision.
Table 5. a) Number of correct and incorrect realizations and excluded clusters regarding speakers (in %).
b) Number of incorrect realizations and number and type of sound changes regarding speakers. Corr /
 
a) b)
Speaker Corr Incorr Ex Incorr S El POthers Total
S1 80.0 12.0 8.0 9 6 1 0 2 9
S2 73.3 13.3 13.3 10 7 2 1 1 11
S3 77.3 13.3 9.3 10 5 3 2 0 10
S4 57.3 41.3 1.3 31 8 11 12 1 32
S5 53.3 34.7 12.0 26 19 3 0 7 29
S6 69.3 25.3 5.3 19 10 4 1 4 19
S7 62.7 33.3 4.0 25 16 7 1 2 26
S8 53.3 41.3 5.3 31 17 4 8 6 35
S9 69.3 20.0 10.7 15 8 4 1 4 17
S10 84.0 14.7 1.3 11 6 2 0 4 12
S11 50.7 40.0 9.3 30 11 8 14 1 34
S12 44.0 53.3 2.7 40 13 8 18 4 43
S13 78.7 13.3 8.0 10 1 6 0 3 10
Sum 267 127 63 58 39 287
%44.3 22.0 20.2 13.6 100
A more detailed analysis was applied to speakers with at least  incorrect variants. ese
were six out of  analysed speakers (marked in grey in the Table a). e ratio between
correct, incorrect and excluded cases in these speakers is clearly shown in Fig. . In one of
these speakers, the number of incorrect realizations prevailed over the correct ones (S
. of incorrect variants). ere were speakers with both the low number of excluded
items (S .) and the higher number of excluded items (S .). e distribution of
sound changes was to a large extent variable (see Fig. ). Speaker S and S manifested

Digital Humanities, Corpus and Language Technology
the largest number of prothesis (more than ). Unlike them, S had no prothesis, but
dominated in the number of substitutions (.); similar number of substitutions and
almost no instance of prothesis were observed by S. Speaker S applied elision to a larger
extent than most of the others (.). Speaker S had a noticeably higher number of
others” types of sound changes compared to most other speakers (.). Possible inu-
ence of the factors we obtained (duration of stay in the Czech Republic, studying of Czech,
etc.) on the correctness rate are discussed in the next section .
Figure 7. Number of correct (Corr) and incorrect (Incorr) realizations and excluded (Ex) items (in %) regar-
ding six mostly unsuccessful speakers.
Figure 8.  

5. Discussion
Pronunciation of dened consonant clusters was proved to present diculties for Spanish
speakers, including the advanced ones. On average, ⅔ of realizations were correct, ⅓ con-
tained errors, slips of tongue or dysuency. It seems that the initial position was slightly

Pronunciation of consonant clusters in Spanish speakers based on the Czech read speech corpora
more dicult, however compared to M and F positions, the dierence was not so remark-
able. Nevertheless, we need to bear in mind that the clusters were not tested in a balanced
way in I, M, F.
e correctness rate among the cluster types and within the types varied considerably.
ere was a tendency for clusters containing only obstruents to be more successful. is
was evidenced by the number of correct realizations of both disyllabic clusters PS and PT,
clusters of /s/ + stop – SP, ST, SŤ, SK, as well as three-syllable clusters PST and PSK. Even
the least successful obstruent clusters achieved a correctness rate of over  (with the
exception of the SV cluster, see below). Numerical values also indicated the tendency:
clusters consisting only of obstruents had a correctness rate of ., clusters with nasals
(O+nas and relevant clusters of S+cons type – SM, SN and SŇ) . and clusters contain-
ing oral sonorants SJ, SL, SR achieved the lowest correctness rate of ..
e SV cluster, indicating the lowest correctness rate of all the clusters tested – only
., was not included in the calculations above. In Spanish, [v] can be heard for example
in the word afgano as the voiced variant of /f/ (RAE, , p.). In Czech, it functions as
phoneme /v/, and phonetically, it is classied as a fricative, however, due to historical de-
velopment, it behaves like a sonorant in certain positions. For example, it does not cause
voicing assimilation of the previous unvoiced obstruent. So, in the SV cluster, [s] remains
voiceless in Czech. Both analysed words containing SV, sváteční and svobodu, achieved the
high number of incorrect forms (/). Substitution, namely sonorization [s]  [z], was
very frequent (/). Prothesis was also relatively common (/), with one speaker com-
bining both of these sound changes within a word. e incorrect realization of the SV words
was caused by the application of the incorrect orthoepic rule and the sound change typical
of the S+cons clusters following the structure of the Spanish syllable.
It was indicated that correctness rate may be inuenced by the position of the cluster
in the word. In I, M and F, two clusters PS and PT were tested. e correctness rate of PS
was very high in all positions, in M and F of about , in I slightly lower. In PT, the ten-
dency was reversed and the dierence between I and F was more evident: the I position
was the most successful – , F the least successful – . Elision, namely that of [p],
obviously prevailed among the incorrect realizations of PT and PS.
In the PT type, three words were tested in F. Two words manuskript and pološept con-
tained a greater number of incorrect realizations (/). is may be because these are
trisyllabic words, less frequent, and the Spanish equivalent of manuscrito no longer con-
tains the consonant cluster pt. e word recept, on the contrary, was relatively successful
(incorrectness /). It is a quite common disyllabic word; in Spanish, in addition to the

Digital Humanities, Corpus and Language Technology
word receta, there is also recepta, which might encourage the preservation of the consonant
cluster in pronunciation. is parallel could also be seen in tested PS words in F biceps and
kolaps with a large number of correct realizations. Both words are loanwords and in Span-
ish spelling bíceps, colapso they have retained the consonant cluster.
For PS, a potential dierence may be found between the pronunciation of native and
loanwords in I. For the latter, the tendency towards elision seems stronger. In the words
psychologie and pseudogotický, where it is possible to omit p in Spanish equivalents in
writing as well, / incorrect realizations occurred. For native vocabulary, e.g., psi, psala,
there were only / incorrect realizations. However, the word length might have aected
pronunciation as well.
In I of PN, with a considerable number of incorrect realizations (/), this dierence
was not detected. e speakers pronounced both loanwords pneumatika, pneumatiky,
whose Spanish counterpart is spelled only without p neumático, and the native word
pnula incorrectly. PN was also another example of a cluster with a signicant dierence
between positions – unlike in I, the speakers were more successful in M (only / incorrect
forms). In addition, substitution applied mostly in M, opposite to I where elision prevailed
in both PS and PT.
An interesting tendency was noted regarding nasals – for the respective pairs PN – PŇ,
BN – BŇ and KN – KŇ tested in M, the cluster containing an alveolar was always more
successful than the one with a palatal. is applied not only to stop + nasal clusters, but
also to SN – SŇ, for which the dierence within the pair was most considerable. However,
a more detailed word-level analysis will be required to account for possible factors. For
instance, in the words snubní and barokní, substitutions [ɲ]  [n] was applied frequently.
e impact of spelling on pronunciation cannot be excluded as a factor: In these words,
the grapheme n is the part of the digram , which is pronounced as [ɲi:], not [ni:].
Regarding sound changes, substitution, elision and prothesis represented almost 
of them. Substitution, which aected all analysed clusters, was the most frequent. is may
have been caused by the fact that the category of substitution is very extensive and may
include dierent types of processes (voicing assimilation, articulatory assimilation both in
place and manner, etc.). InBN/BŇ, KN/KŇ and GN in M, substitution was obviously the
dominant sound change, as it occurred at least in ¾ of realizations. Examination of the
substitution types may help explain the low correctness rate of clusters containing /b/. In
accordance with Spanish rules, Spanish L speakers oen weakened the closure and pro-
nounced the sound as an approximant or a fricative. e occurrence of substitution was
also signicant for PN in M (see above) and S+cons (about ⅓ of sound changes). In the

Pronunciation of consonant clusters in Spanish speakers based on the Czech read speech corpora
latter, the type of substitution may contribute to explaining the lower correctness of some
clusters as well. For example, [s] followed by a sonorant was quite oen assimilated to [z],
similar as in SV (see above).
Elision appeared in both disyllabic and trisyllabic clusters, beginning with [p]; it was this
consonant that was mostly elided. See the discussion on PS, PT and PN above. Unlike most
of the other sound changes, prothesis was present only in S+cons, and it accounted for more
than half of all changes in this type. is may be due to the /s/ + consonant group being wide-
ly spread in Spanish but not appearing as an onset at the beginning of a word. In this position,
it is standardly divided into two syllables adding a vowel prior to the /s/ + consonant group.
e range of correctness rate in terms of speakers was relatively wide, which was not
so surprising, given the composition of the speakers group and the interview data. Based
on the correctness rate, the speakers were divided into two groups. Although the research
did not focus on the possible inuence of extralinguistic factors, we wondered if there were
some common features within the groups. e obtained data did not allow for greater
generalization; however, some ndings may be presented.
Of the  speakers, only four regularly used Czech on a daily basis (S, S, S, S) with
two of them working in Czech environment (S, S); a total of three mentioned Czech as
one of the two languages they speak mostly (S, S, S). All four speakers belonged to the
group with higher correctness rates. However, as the example of the S speaker showed,
active use, supported here by partial school attendance in Czech, was not a guarantee of
mastering pronunciation at the highest level. Although this speaker mentioned Czech be-
sides Spanish as his mother tongue, he did not deviate from other speakers with low fre-
quency of incorrect forms.
ree speakers from a more successful group shared the experience of a one-year Czech
preparatory course and subsequent study at a university in Czech (S, S, S). However,
even studying in Czech is not in itself a guarantee of a correct pronunciation, unless sup-
ported by other factors. Namely, speakers S and S also went through the same type of
course and university, but practically didn’t use Czech aerwards and, based on the anal-
yses, they belonged to a less successful group. e same may be said about the period of
stay in the Czech Republic – out of the whole group of respondents, all ve named above
stayed in the Czech Republic the longest (if S is omitted), around  years, but the correct-
ness rate was dierent.
Speaker S is a very interesting case. He made a comparable number of errors as re-
spondents who had graduated from a Czech university and used Czech regularly. Howev-
er, S moved to the Czech Republic only a year and a half before recording and had only

Digital Humanities, Corpus and Language Technology
three months of self-study. He mentioned that he loves literature, writes stories himself,
and although he did not have particularly intense contacts with the Czech environment,
he tried to listen to Czech as much as possible on the street and in the media.
us, it seems that the active use of Czech or an active approach and probably motiva-
tion are likely to be benecial. Speakers in the less successful group mentioned English as
the language of communication, some barely associated with Czechs and did not use Czech.
When they did use it, it was a less frequent use in the city, listening to TV / radio or in
meetings with Czech extended family.
6. Conclusion and perspectives
e presented experiment brought useful ndings that can be followed up. Within the
already analysed material, it would be useful to compare in more detail the realization and
sound changes of individual words. Due to the length of the recordings, the already carried
out analysis of  units could be expanded up to double in the framework of the current set
of consonant clusters; however, because of unintentional occurrences, the balance of all clus-
ters and positions is not guaranteed. Undoubtedly, it will be useful to expand the set of
analysed consonant clusters, both in terms of segment combinations and their number. It will
be appropriate to verify the identied tendencies on a larger number of respondents and to
obtain a more balanced group of males and females. e analysis was performed on the read
text, which posed both advantages (controlled occurrence of target clusters, by speakers no
need to formulate themselves) and disadvantages (potential inuence of the graphic form on
pronunciation, more dicult vocabulary), so it will be appropriate to expand the research
material with recordings of spontaneous speech. e rating of intelligibility processed by
authors was for information only; perception tests focusing on the impact on a native speak-
er in terms of foreign accent, intelligibility and comprehensibility would also be benecial.
Recordings of Czech native speakers started to be gathered to compare native and non-native
speech. In addition, it would be useful to analyse the production of consonant clusters in
speakers of other Ls, which could not only enhance our theoretical knowledge, but also be
benecial for improving methods in teaching pronunciation of Czech as L.
Acknowledgements
is research was supported by the Czech Science Foundation Project No. -S “Pho-
netic properties of Czech in non-native and native speakers’ communication.
We would like to thank anonymous reviewers for their constructive comments and
recommendations.

Pronunciation of consonant clusters in Spanish speakers based on the Czech read speech corpora
Appendix
1. A sample of a Czech text that was read and recorded (the target clusters are
indicated)
Sára, původem Švédka, začala spolu s rodiči žít v Praze krátce po sametové revoluci. Stěho-
vat se nejdřív nechtěla. Svoje priority si nicméně postupně srovnala a později nelitovala.
Odjakživa ji lákala psychologie, po maturitě proto skládala přijímací zkoušky na Filozo-
ckou fakultu, bohužel neúspěšně. Nepochybně byla zklamaná, ale nerezignovala. Další
rok se na vytoužené studium dostala. Byla nadšená, že si konečně plní své sny a jako stu-
dentka poprvé v životě pocítila opravdovou svobodu.
Diplomovou práci psala na téma psychologie skeptiků na území Evropské unie. V
průběhu studia ji totiž zaujaly spekulace, které se týkaly vnímání skepse a její různé kon-
cepty. Včera složila státnice. Byla nesmírně šťastná a ačkoli byla abstinentka [pst], měla
sraz s kamarády a šla slavit. Ti se jí smáli, když okolo hopsala a radovala se jako malá
holka. Ignorovat ji nemohla ani skupina lidí stojících opodál. Blonďatá „Sněhurka” s
modrýma očima, štíhlé sportovní postavy snadno přitahovala pozornost. Měla na sobě
velice pěknou barokní [kɲ] sukni skořicové barvy a jemnou stylovou blůzu. Dokonalý
sváteční vzhled doplňovala bílá magnólie, která se Sáře pnula ve vlasech.
Kolem se šouralo nějaké psisko s ježatými chlupy. Tohoto psa, u něhož lékařka vyslo-
vila prognózu, že brzo oslepne, a který stěží [sc] slyšel na jedno ucho, k sobě zavolala starší,
smutná paní. Dávala si v kavárně pozdní snídani [sɲ] – popíjela svou oblíbenou vídeňskou
kávu s čerstvým meruňkovým koláčkem a četla další román Milana Kundery. Jakmile
zahlédla Sáru, začala ji pozorovat a bezchybně [bɲ] odhalovat všechny drobné detaily její
trochu extravagantní sukně. Například, že svrchní látka byla zhotovena z dvojvlákna, a
spodní, která pomáhala sukni napnout a udržet její tvar, byla jistě bavlna s krajkovou
ozdobou dole a krepsilonem. Sukně byla tak dlouhá a splývavá, že v ní člověka snad ani
nemohlo zábst [pst].
2. English translation of the Czech text sample
Sarah, originally from Sweden, started living with her parents in Prague shortly aer the
Velvet Revolution. At rst, she didn’t want to move, however, she gradually put her prior-
ities straight and later did not regret it. She has always been attracted to psychology, so aer
graduating from high school she attended the entrance exams to the Faculty of Arts, but
unfortunately was not accepted. No doubt she was disappointed, but she did not give up.

Digital Humanities, Corpus and Language Technology
e next year she got into the university. She was excited that she was nally fullling her
dreams and, as a student, for the rst time in her life she felt real freedom.
She wrote her diploma thesis on the topic of psychology of skeptics in the European
Union. During her studies, she became interested in speculations concerning the percep-
tion of skepticism and its various concepts. Yesterday she passed the state exam. She was
extremely happy and although she didn’t drink, she met her friends and went to celebrate.
ey laughed at her as she jumped around and rejoiced like a little girl. Even a group of
people standing nearby could not ignore her. A blond “Snow White” with blue eyes and
slender athletic gure would easily attract attention. She was wearing a very nice baroque
cinnamon color skirt and a delicate stylish blouse. e perfect festive look was comple-
mented by a white magnolia, which decorated Sarah’s hair.
An older, sad-looking lady called a rough-looking dog that was running around to come
close to her. It could barely hear in one ear and a doctor warned that it would go blind soon
too. e lady was having a brunch in the café; she was sipping her favorite Viennese coee
with a fresh apricot pie and reading another novel by Milan Kundera. As soon as she spot-
ted Sarah, she began to observe her, precisely revealing all the small details of her somewhat
extravagant skirt. For example, the top fabric was made of double ber, and the bottom
fabric, which helped tighten the skirt and maintain its shape, was certainly cotton and crepe
with a lace ornament at the bottom. e skirt was so long and owing that you denitely
wouldn’t feel cold in it.
3. Spanish translation of the Czech text sample
Sarah, nacida en Suecia, comenzó a vivir con sus padres en Praga poco después de la Rev-
olución de Terciopelo. Al principio no quería mudarse, sin embargo, gradualmente puso
sus prioridades en orden y no se arrepintió. Siempre le atraía la psicología, por lo que
después de realizar el bachillerato asistió a los exámenes de ingreso a la facultad, pero
lamentablemente no fue aceptada. Sin duda, estaba decepcionada pero no renunció y al
año siguiente ingresó a la universidad. Estaba emocionada de que nalmente estaba cum-
pliendo sus sueños y, como estudiante, por primera vez en su vida sintió verdadera liber-
tad.
Escribió su trabajo n de grado sobre el tema de “La psicología de los escépticos dento
la Unión Europea. Durante sus estudios, se interesó por las variantes de la percepción del
escepticismo y sus diversos conceptos. Ayer aprobó el examen estatal y estaba extremada-
mente feliz. Aunque no bebía alcohol se fue a celebrar con sus amigos. Se rieron de ella
mientras saltaba y se regocijaba como una niña, incluso un grupo de personas que estaban

Pronunciation of consonant clusters in Spanish speakers based on the Czech read speech corpora
cerca no podían ignorarla. Una rubia “Blancanieves” con ojos azules y una gura atlética
esbelta fácilmente llamaba la atención. Llevaba una falda estilo barroco muy bonita de color
canela y una blusa elegante y delicada. El look festivo perfecto se complementó con mag-
nolia blanca, que decoraba el cabello de Sarah.
Una señora mayor y con aspecto triste llamó al perro con pelo de punta que se movía
de un lado a otro para que se acercara a ella. El perro apenas oía por un oído y el veteri-
nario advirtió que pronto tambien se quedará ciego. La señora estaba tomando un brunch
en el café, bebía su café vienés favorito con una tarta de albaricoque recién hecho y leía otra
novela de Milan Kundera. Tan pronto como vió a Sarah, comenzó a mirarla, observando
con precisión todos los pequeños detalles de su falda tan extravagante. Notó que la tela
superior estaba hecha de doble bra y la tela inferior, que tensaba la falda y mantenía su
forma, era de algodón y crepé con un adorno de encaje en la parte inferior. La falda era tan
larga y uida que una seguramente no tendría frío con ella puesta.
References
Bičan, A. (). Phonotactics of Czech. Peter Lang Verlag. https://doi.org/./----
Boersma, P., & Weenink, D. (). Praat: Doing phonetics by computer [Computer program]. Version
... http://www.praat.org.
Čermák, P. (). Fonetika a fonologie současné španělštiny. Karolinum.
Ellis, R. (). Understanding second language acquisition (nd Ed.). Oxford University Press.
Fashola, O. S., Drum, P. A., Mayer, R.E., & Kang, S. J. (). A Cognitive theory of orthographic
transitioning: Predictable errors in how Spanish-speaking children spell English words.
American Educational Research Journal, (), -. https://doi.org/./.
Helman, L. A. (). Building on the sound system of Spanish: Insights from t he alphabetic spellings
of English-language learners. e Reading Teacher, (), -. http://www.jstor.org/
stable/.
Hevia-Tuero, C., Incera, S. & Suárez-Coalla, P. (). Does English orthography inuence bilingual
Spanish readers? e eect of grapheme crosslinguistic congruency and complexity on letter
detection. Cognitive Development, , . https://doi.org/./j.cogdev...
Hummel, K. M. (). Introducing s econd language acqui sition: Perspectives and practices. John Wiley
& Sons.
Kučera, H. & Monroe, G. K. (). A comparative quantitative phonology of Russian, Czech and
German. Elsevier.
Ludvíková, M. & Kraus, J. (). Kvantitativní vlastnosti soustavy českých fonémů. Slovo a slovesnost,
(), -.
Magen, H. (). e perception of foreign-accented speech. Journal of Phonetics, (), -.
https://doi.org/./jpho...
Moore, F. B., & Marzano, R. J. (). Common errors of Spanish speakers learning English. Research
in the Teaching of English, (), -. http://www.jstor.org/stable/.

Digital Humanities, Corpus and Language Technology
Palková, Z. (). Fonetika a fonologie češtiny – s obecným úvodem do problematiky oboru (nd ed.).
Karolinum.
Piske, T., MacKay, I. R. A., & Flege, J. E. (). Factors aecting degree of foreign accent in an L: a
review. Journal of Phonetics, , -. https://doi.org/./jpho...
Quilis, A. (). Tratado de fonología y fonética españolas. Gredos (Biblioteca románica hispánica
III, ).
Quilis, A., & Fernández, J. (). Curso de fonética y fonología españolas para estudiantes
angloamericanos (th ed.). C. S. I. C.
RAE. (). Nueva gramática de la lengua española. Fonética y fonología. Espasa Libros.
RAE. (). DLE (Diccionario de la lengua española). https://dle.rae.es.
Ríos Mestre, A. (). La transcripción fonética automática del diccionario electrónico de formas
simples exivas del español: estudio fonológico en el léxico. Estudios de Lingüística del Español,
. ISSN: -. http://elies.rediris.es/elies/
Rothman, J. (). Why all counter-evidence to the critical period hypothesis in second language
acquisition is not equal or problematic. Language and Linguistics Compass (), -.
https://doi.org/./j.-X...x.
Saporta, S., & Olson, D. (). Classication of Intervocalic Clusters. Language, (), -.
https://doi.org/./.
Singleton, D. (). e Critical Period Hypothesis: A coat of many colours. International Review
of Applied Linguistics in Language Teaching, (), -. https://doi.org/./
iral.....
Sun-Alperin, M. Kendra & Min Wang (). Spanish-speaking childrens spelling errors with
English vowel sounds that are represented by dierent graphemes in English and Spanish words.
Contemporary Educational Psychology, (), -
Šturm, P. (). Experimental evidence on the syllabication of two-consonant clusters in Czech.
Journal of Phonetics, , -. https://doi.org/./j.wocn....
Těšitelová, M., Confortiová, H., Králík, J., Ludvíková, M., Nebeská, I., & Uhlířová, L. ().
Kvantitativní charakteristiky současné češtiny. Studie a práce lingvistické, sv. . Academia.

C XII
Relacionando los análisis
cualitativo y cuantitativo. Una
propuesta de modelo estadístico
predictivo para completar la
descripción compleja de los verbos
cognitivos1 2
Relating qualitative and
quantitative analysis. A predictive
statistical model proposal to
complete the complex description
of cognitive verbs
M. Amparo Soler Bonafont
Universidad Complutense de Madrid – España
Resumen: El objetivo del presente capítulo es realizar una propuesta de descripción
de los usos semántico-pragmáticos de unas formas verbales complejas como son las
formas performativas de los verbos cognitivos, concretamente, de su forma paradig-
mática creo, en la interacción oral. Para ello se lleva a cabo una aproximación cogni-
tiva con base en una propuesta estadística predictiva, creada a partir de un sistema
de regresiones multinomiales (con la herramienta STATA). Se persigue que el mode-
lo diseñado permita reconocer con un elevado grado de explicatividad ante qué
1 Este capítulo profundiza en algunos de los resultados parciales que son fruto de la tesis doctoral de la auto-
ra (Soler, 2019), así como de la ampliación que de ellos se realiza en Soler (2021b).
2 La investigación se enmarca en el proyecto Los procesos de gestión de la imagen y la descortesía: perspectivas
históricas, lingüísticas y discursivas, concretamente, en la subdivisión de análisis de procesos discursivos (ref.
PID2019-107668GB-100, Ministerio de Ciencia e Innovación, Gobierno de España).

Digital Humanities, Corpus and Language Technology
        
como creo nos encontramos, una vez sistematizadas las principales circunstancias
de aparición cualitativas que las rodean. El estudio de formas se da en un corpus
compilado de conversaciones coloquiales y de discursos de debate parlamentario.
Como resultado, se obtiene un modelo de análisis predictivo replicable en otros
textos y géneros en los que pueden aparecer unidades epistémicas similares.
Abstract: The goal of this chapter is to bring a description proposal for the semantic
and pragmatic uses of some complex verbal forms like the performative forms of
creo, in oral interaction. For this purpose, it is carried out a
-
al regressions system (through STATA tool). It is intended that the designed model al-

in so polysemic and polyfunctional units as creo  
once the main circumstances of its qualitative appearances are systematized. The
study of forms is done in a compiled corpus of colloquial conversations and parliamen-


1. Introducción
1.1. Dicultades descriptivas en el grupo de las formas performativas de los verbos
cognitivos
La explicación funcional del uso semántico-pragmático de algunas unidades epistémicas
en los textos resulta aún hoy, y tras siglos de disquisiciones, compleja. Tal es el caso, reve-
ladamente frecuente en la oralidad, de algunas formas verbales de primera persona del
singular del presente de indicativo: creo, pienso…, también conocidas como formas per-
formativas de los verbos cognitivos o de opinión (Fetzer y Johansson, ; Fetzer, ;
González Ruiz, ; Soler, ). Estas formas verbales son subjetivas y, en algunas oca-
siones, pueden manifestarse de manera integrada (creo que + verbo) o parentética (uso de
creo con movilidad posicional), desde el punto de vista morfosintáctico. No obstante, estas
características que las identican no son tan llamativas como otros de sus rasgos denito-
rios, los cuales dicultan su reconocimiento: estos son su polisemia y su polifuncionalidad
anunciadas (Hartwell et al., ; Jansegers, ; Soler, ).

Relacionando los análisis cualitativo y cuantitativo. Una propuesta de modelo estadístico predictivo para completar la
descripción compleja de los verbos cognitivos
Los diferentes signicados y funciones que pueden manifestar unidades como creo, la
forma paradigmática de este conjunto por tratarse de la más compleja y la más polisémica
y polifuncional de su clase (Soler, ), han sido estudiadas en diferentes géneros (tanto
en español como en otras lenguas), entre los que destacan los de interacción oral, especial-
mente, la conversación y el debate parlamentario. Así bien, incluso en este tipo de géneros,
creo y formas verbales semejantes a esta maniestan desde funciones atenuantes hasta
intensicadoras (Cutting, ; Fuentes Rodríguez, , ; De Hoop et al., ), a la
vez que despliegan una gran variedad de valores semánticos, desde la creencia hasta el
juicio (Soler, , ). Distinguir la multiplicidad de sus posibilidades semántico-prag-
máticas no es tarea sencilla para el lingüista, que se encuentra, desde hace más de un siglo
con un escollo adicional en estos verbos: la limitación de las herramientas lingüísticas
tradicionales para el estudio de fenómenos complejos como el citado. Los pragmatistas se
preguntan cómo denir los signicados y signicados en uso de unidades subjetivas como
las que son objeto de este trabajo, para los que no son sucientemente explicativas las
pruebas veritativo-condicionales ni las de la pragmática clásica. Por estos motivos, son cada
vez más numerosos los estudios que realizan una aproximación cognitiva a estas formas,
gracias a su concepción de la semántica y de la pragmática como un mero continuum
(Achard, ; Buceta, ; Jansegers, ; Jansegers y Gries, ; Boas y Ziem, ), lo
que ayuda a superar algunos obstáculos denitorios.
No obstante, y de acuerdo con diferentes estudios pragmáticos y sociolingüísticos re-
cientes (Díaz-Campos y Gradoville, ; González et al., ), la explicación cualitativa
cognitiva queda incompleta si no se realiza un análisis riguroso de corpus, de tipo cuanti-
tativo (Roldán ; Abdulrahim, ; Milin et al., ). Dicha incompletud se observa
en la falta de diseños metodológicos cuantitativos capaces de dar una respuesta procedi-
mental adecuada a la hora de operar ante estos casos, así como en la falta de homogeneidad
ante la descripción tanto de unos valores semánticos cerrados de creo, como de las funcio-
nes concretas que puede desarrollar.
1.2. Planteamiento de este trabajo
El objetivo de esta investigación, una vez enunciadas algunas de las fallas metodológicas en
el estudio de fenómenos lingüísticos semántica y pragmáticamente complejos, es tratar de
llevar a cabo una descripción sistemática del funcionamiento de las formas performativas de
verbos cognitivos como creo en la interacción oral. Para ello, este trabajo combina el análisis
cualitativo de corte cognitivo y el análisis cuantitativo, en lo que se propone como una pro-
puesta predictiva de reconocimiento de valores de creo. Se expone un modelo diseñado

Digital Humanities, Corpus and Language Technology
mediante distintas regresiones multinomiales de variables cualitativas de análisis (elaboradas
con una base cognitiva), las cuales se realizan a través de herramientas como STATA. Con
este modelo se consigue reconocer con un elevado grado de explicatividad ante qué signi-
cados y funciones pragmáticas de la unidad objeto de estudio podemos encontrarnos, una
vez sistematizadas las principales circunstancias de aparición que las rodean.
Las formas analizadas como tokens se han extraído de un corpus constituido por dos gé-
neros discursivos de tipo interactivo, en el español de España, de los últimos  años: conver-
saciones coloquiales (de los corpus disponibles COGILA, COJEM, Val.Es.Co.  y Val.Es.Co.
.) y discursos de debate parlamentario (pertenecientes al archivo del Congreso de los Dipu-
tados del Gobierno de España y de Les Corts Valencianes y accesible en línea). Sobre los datos
obtenidos, se han aplicado las bases de la estadística descriptiva y predictiva, como también
se ha realizado en otros trabajos de corte lingüístico previos (Abbhul y Mackey , James et
al., ). En denitiva, se obtiene un diseño predictivo propio, el cual es replicable en otro
tipo de textos y géneros textuales susceptibles de contener unidades epistémicas de funciona-
miento similar al de las formas performativas de los verbos cognitivos.
2. Acercamiento teórico a creo y otras formas performativas de
los verbos cognitivos
Una de las grandes preocupaciones de los lósofos del lenguaje desde el siglo XIX (desde Frege
o Russell, hasta Kripke o Richard), y que ha perdurado en la lingüística aún hasta nuestros
días, es la de la descripción de aquellas unidades subjetivas cuyo valor de signicado no puede
ser sucientemente explicado desde la semántica, pero para las que la pragmática tampoco
puede ofrecer una solución aislada. Tenemos un claro ejemplo en las formas performativas,
esto es, aquellos verbos en primera persona del singular del presente de indicativo, y que son
de carácter cognitivos. Son casos como considero, creo, opino, pienso, supongo…, con los que
no solo se hace evidente el origo, la presencia del hablante en la escena en que se produce lo
dicho, sino que se observa que el signicado del referente viene enriquecido con aspectos
intencionales que le superpone el hablante gracias a una doble posibilidad de lectura: propo-
sicional y también extraproposicional. Esta naturaleza hace ver, pues, que unidades como las
comentadas se encuentran en el límite mismo entre la semántica y la pragmática.
Disquisiciones aparte, en este trabajo abordamos la problemática concreta que ofrece
una forma verbal paradigmática: creo, por ser considerada esta la más compleja del con-
junto de las formas performativas de los verbos cognitivos. Con su estudio pueden verse
resumidas cuestiones que atañen al resto de unidades de primera persona del singular de

estos verbos, que funcionan de modo semejante, y cuyas dicultades denitorias (si no
todas, sí muchas de ellas) pueden verse subsumidas en las que aquí planteamos para creo.
2.1. Polisemia de creo
Creo es considerada una forma verbal con un valor altamente subjetivizador de lo dicho
(Soler, ). Es la forma performativa del verbo creer, el cual se caracteriza por ser poli-
sémico, si bien esta polisemia no había sido aclarada hasta los últimos años. El reciente
interés investigador por esta polisemia ha cristalizado en el reconocimiento de una alta
complejidad cifrada en el conjunto de varios aspectos: su polimorsmo construccional
(creer en, creer que, no creer…) (Buceta, ; Soler, ), la multiplicidad de contextos de
aparición (conversación coloquial, entrevistas políticas, debates, etc.) (Fetzer, ; Fetzer
& Johansson, ; González Ruiz, ; Soler, ), la frecuencia de un fuerte componen-
te argumentativo en su cotexto próximo (Fuentes Rodríguez, , ), y la diferente
variedad funcional, incluso complementaria (desde la atenuación a la intensicación,
pasando por la neutralidad), que puede manifestar (González Ruiz, ; Soler, ).
De todo ello se desprende que creo, la forma más peculiar de su paradigma morfológi-
co, supone un escollo para la investigación, que si bien ha observado las causas de su
complejidad, no había conseguido dar hasta la fecha con una descripción consistente de
sus usos. Y es que la bibliografía se ha tratado de acercar repetidamente a sus signicados,
los cuales uctuaban entre dos y seis valores, sin que pudiera haber acuerdo, sino solo un
resumen tradicional de los valores primordialmente en dos: el epistémico o débil y el de
opinión o fuerte (Fetzer, ; Fetzer & Johansson, ; González Ruiz, ). Estos dos
signicados polares se resumen en los siguientes ejemplos:
B: pero ¿qué es/¿que ya lo has dejado oo?
A: creo que ya lo he dejado un poco por imposible (valor epistémico o débil)
B: yo creo que tienes que insistir (valor de opinión o fuerte)
Puede observarse que el valor débil de creo presenta a modo de duda y no de una convicción
lo dicho por A, y expresa que el hablante puede no disponer de pruebas para manifestar lo
dicho con mayor grado de seguridad. Por su lado, el valor de opinión se corresponde con la
expresión de un juicio personal, independientemente de las pruebas de las que se disponga
sobre lo aseverado. En ambos casos está presente la subjetividad, pero esta pone su foco en
diferentes aspectos (bien en las pruebas de las que se dispone sobre ello, bien en la conanza
de que lo dicho sea de tal o cual modo), incluso con el uso de una misma construcción formal.
Relacionando los análisis cualitativo y cuantitativo. Una propuesta de modelo estadístico predictivo para completar la
descripción compleja de los verbos cognitivos

Digital Humanities, Corpus and Language Technology
La distinción básica revisada puede resultar viable en un primer momento, pero no lo es
si nos encontramos ante casos como los que siguen: creo que tu papi va a jugar con el barqui-
to más que tú (en que además del grado de seguridad, también podríamos hablar de opinión);
hospital de la Vega Baja, hospital –creo recordar– de Elda… (en que tenemos construcciones
de doble acusativo, muy características, en las que tampoco es fácil discernir ante qué valor
nos encontramos); eso es lo que creo (en que una nueva construcción encapsulada en función
de atributo parece estar acercándose más al valor de certeza que al de duda o al de opinión),
etc. Con ello, vemos que la polisemia debe abordarse desde un criterio efectivo, que ordene
los semas de cada valor de manera rigurosa para poder reconocer límites entre ellos, que
supere la diversidad de descripciones bibliográcas y que, de acuerdo con lo visto, evidencie
los puntos de conexión con las diferentes construcciones formales del verbo. Asimismo, y
como persigue este capítulo, se espera que la categorización obtenida se acompañe de un
criterio de reconocimiento sencillo y viable para el analista.
2.2. Polifuncionalidad de creo
La polifuncionalidad, no solo de creo, sino también de otras unidades de su mismo conjunto
de formas performativas, subjetivas y cognitivas, viene de la mano de su reconocida polisemia.
Como hemos avanzado, en usos como los de creo se han reconocido tradicionalmente funcio-
nes de atenuación (creo que ya lo he dejado un poco por imposible, Val.Es.Co. ), neutralidad
(hospital de la Vega Baja, hospital –creo recordar de Elda, Les Corts Valencianes), e incluso
intensicación (A: es que los mayores además a mí seguro que se me comen (RISAS)/ tienes
que tener un SEXTO= // B: NO yo creo que exige más, Valesco ., C. , -).
Diversos estudios monográcos previos que han versado sobre el objeto de estudio de
este capítulo se han preguntado si existe una correlación entre los signicados reconocidos
y las funciones pragmáticas de creo. La bibliografía ha llegado a establecer una correlación
casi directa entre el valor débil y la atenuación, por un lado, y el valor de opinión, y la in-
tensicación (Fuentes Rodríguez, ; González Ruiz, ), por otro ladoo. Estas corre-
laciones establecidas de forma automática y asumidas por la comunidad cientíca llevan,
no obstante, a arrastrar varios errores conceptuales básicos. Así, por ejemplo, cabe destacar
que los estudios de corpus realizados hasta la fecha no aportan una amplitud suciente de
datos basados en corpus de lengua real ni cotejan las observaciones con pruebas objetivas
y replicables a partir de las que puedan ofrecerse resultados concluyentes, con lo cuales
pudiera conrmarse dicha automaticidad de relaciones semántico-pragmáticas de creo.
Asimismo, en los estudios se observa una ausencia de criterio para la detección de otros
posibles signicados, o funciones, distintos a los básicos, ya comentados. Prueba de ello es

que la neutralidad suele quedar fuera de los análisis, pese a que algunos investigadores han
llegado a reconocer esta función en casos aislados, o incluso que la atención a las diferen-
tes manifestaciones formales de creo y sus repercusiones a nivel semántico y pragmático
suelen estar ausentes en las investigaciones. Serán estos aspectos los que tratará de solven-
tar este capítulo con la propuesta de un modelo de análisis concreto, que se presenta como
replicable también para otros análisis de unidades doxásticas complejas.
3. Exploración de un análisis cognitivo experimental
La búsqueda de metodologías de análisis, si no alternativas, sí complementarias a las expli-
caciones cualitativas de la semántica tradicional, ha llevado a la comunidad cientíca a explo-
rar enfoques integradores, como es el caso de la lingüística cognitiva. Abdulrahim ;
Fetzer y Johansson ; Jansegers ; Jansegers y Gries ; Milin et al., ; o Roldán
 son algunos de los casos de análisis semántico-pragmáticos de tipo cognitivo combina-
dos con estadística. Este marco teórico entiende la semántica y la pragmática como un con-
tinuo, lo cual ha facilitado la comprensión de formas como creo desde este paradigma, como
prueban dichos estudios. Gracias a este enfoque, la observación cualitativa del analista no se
ve anulada, sino que es, además de reconocida, apoyada en datos reales y comprobables. Se
trata, por tanto, del motivo por el que el enfoque cognitivo está tomando cada vez más auge
en los últimos años. Asimismo, el acercamiento estadístico predictivo y experimental tam-
bién se ha visto incrementado recientemente en distintos trabajos lingüísticos, cognitivos, e
incluso funcionales y sociolingüísticos (Boas & Ziem, ; Díaz-Campos & Gradoville,
), en los cuales, como planteamos en este trabajo, un sistema de análisis cuantitativo
riguroso completa adecuada y necesariamente la aproximación cualitativa.
4. Metodología del estudio
De acuerdo con lo expuesto, la hipótesis de partida que planteamos es que debe de existir la
posibilidad de realizar un cálculo aproximado de los valores semánticos y pragmáticos que
maniestan formas performativas como creo, si el inventario de categorías (signicados y
funciones) que se les reconoce es cerrado. Por esta razón, la pregunta de investigación a la
3 creo, así como los de otras palabras
polisémicas, pueden concebirse como continuos y ordenables a partir de la ganancia o pérdida de algunos semas.


por consiguiente, pueden ser estudiados de una manera más sistemática que si el investigador se enfrentara a
toda la polisemia de elaboraciones y extensiones semánticas en su conjunto que puede generar una palabra.
Relacionando los análisis cualitativo y cuantitativo. Una propuesta de modelo estadístico predictivo para completar la
descripción compleja de los verbos cognitivos

Digital Humanities, Corpus and Language Technology
que se pretende responder es qué método, complementario al análisis cualitativo, puede
permitir una descripción más amplia y certera de los usos de unidades complejas como creo.
Este capítulo se propone, por consiguiente, aplicar un análisis de creo, como forma
paradigmática del conjunto de unidades performativas complejas de los verbos cognitivos,
desde el paradigma del cognitivismo, el cual ha resultado ecaz para la descripción de otras
formas lingüísticas (adverbiales y verbales) de funcionamiento semejante a la que es obje-
to de estudio (Abdulrahim, ; Fetzer y Johansson, ; Jansegers, ; Jansegers y
Gries, ; Milin et al., ; Roldán, ), y probar su operatividad. Asimismo, se quie-
re determinar qué parámetros afectan en el proceso de detección de la semántica y la
pragmática de la forma verbal para establecer un protocolo jerárquico de las características
observables y que, a partir de estas, pueda certicarse un alto grado de reconocimiento del
signicado y de la función pragmática de creo.
Con este n, planteamos una metodología de análisis de corpus. Se compila un con-
junto de textos disponibles de interacción oral de diferentes géneros discursivos: conver-
sación coloquial y debate parlamentario. Son estos dos los formatos en los que más se ha
estudiado hasta la fecha el comportamiento de los verbos cognitivos, tanto en el caso del
español como en otras lenguas. Asimismo, se trata de géneros que suponen puntos opues-
tos de un continuo tanto de formalidad como de otros rasgos como dialogicidad, grado
de planicación y determinación en el reparto de los turnos de los participantes, lo que
permite obtener un espectro ancho de circunstancias de la oralidad adecuadas para rea-
lizar un estudio general de tendencias de uso de creo lo más amplio posible. La compi-
lación la conforman textos de conversaciones coloquiales de los corpus COGILA, CO
JEM, Val.Es.Co.  y Val.Es.Co. .; y sesiones de debate parlamentario del Congreso
de los Diputados (del Gobierno de España) y de Les Corts Valencianes (del gobierno
autonómico de la Comunitat Valenciana), en una proporción equitativa. En el caso de
los corpus conversacionales, se analizan en su totalidad el COGILA (  palabras);
el COJEM (  palabras); Val.Es.Co.  (  palabras); y Val.Es.Co. . (
 palabras). De los corpus parlamentarios se obtiene, de manera aleatoria, una mues-
tra de una cantidad similar de palabras, repartida esta entre las dos fuentes: Congreso de
los Diputados,   palabras; Les Corts Valencianes,  . La siguiente tabla resume
esta base de la muestra:

Tabla 1. Datos de la muestra, base para el análisis.
Género N. º palabras N. º casos creo
conversación coloquial 355 760 427
debate parlamentario 351 888 303
TOTAL 707 648 730
Como se observa en esta Tabla  ilustrativa, de los corpus se extraen manualmente los ejem-
plos de creo (bien con buscadores de los archivos de PDF manejados para el caso de los
debates parlamentarios, bien a través de la escucha de las conversaciones coloquiales graba-
das). Estos suponen un total de  casos, los cuales se analizan desde el punto de vista
cualitativo, mediante la observación de  variables de análisis determinadas en análisis
previos (Soler, ), bajo un criterio de aproximación cognitiva, sobre todo, aquellos que
realizan una aproximación semántica y funcional a creo. Se trata de las siguientes variables:
I. Parámetros formales
MORFOSINTÁCTICOS
1. Construcción de creo,
2. Integración parenticidad de creo en la cláusula,
3. Sujetosintácticode creo,
4. Pronominalización del objetodirectode creo,
5. Pronominalización del objetoindirectode creo,
6. Negación de creo,
7. Posición sintáctica de creo,
8. Negación del verboregidopor creo,
9. Persona y númerodel verboregidopor creo,
10. Tiempoverbal del verboregidopor creo,
11. Modoverbal del verboregidopor creo;
DE COAPARICIÓN
12. Coaparición creo
13. Coaparición creo-
güísticas relevantes en el reconocimientode su
semántica/pragmática, norepetidas,
14. Coaparición creo-
güísticas relevantes en el reconocimientode su
semántica/pragmática, repetidas en el cotexto;
II. Parámetros semánticos
ARGUMENTATIVOS
15. Tipode argumentoen el que se sitúa creo,
16. Polifonía de creo;
DE SIGNIFICADO
17. Naturaleza factual del predicadode creo,
18. Compartición de las pruebas odatos para ava-
lan lodichocon creo,
19. Gradode subjetividad,
20. Tipode intervención en la que aparece creo,
21. Gradode convencimientodel hablante sobre
loexpresado,
22. Valor semánticobásicomanifestadopor creo;
III Parámetros discursivo-funcionales
PRAGMÁTICOS
23. Tipos de actos de habla de creo,
24. Posición discursiva de creo,
25. Gradode asertividad,
26. Funciones pragmáticas;
SOCIOPRAGMÁTICOS
27. Actividades de imagen;
PARALINGÜÍSTICOS
28. Otros aspectos relevantes;
IV. Parámetros textuales
29. Tipología textual de la secuencia de creo ,
30. Género discursivo.
Relacionando los análisis cualitativo y cuantitativo. Una propuesta de modelo estadístico predictivo para completar la
descripción compleja de los verbos cognitivos

Digital Humanities, Corpus and Language Technology
Realizado el análisis cualitativo con la observación de los aspectos cifrados en las variables
previas sobre el total de los  casos obtenidos, pasamos a realizar el análisis cuantitativo
principal que este trabajo presenta. Este consiste en la aplicación de una estadística explo-
ratoria (mediante tablas de contingencia comunes) que permite discriminar algunos datos
básicos (ej. la determinación de algunos resultados semánticos, a partir de algunos aspec-
tos formales de las manifestaciones del verbo). Tras ello, se propone un modelo de análisis
de estadística descriptivo-predictiva basado en un protocolo de tres pasos: . regresiones
logísticas, . obtención de valores de verosimilitud de cruces de las variables en la deter-
minación del grado de explicación sobre la semántica y sobre la pragmática de creo, y .
cálculo de errores. Todos estos cálculos se realizan en una programación experimental de
  iteraciones, mediante el programa STATA. Ahora bien, para poder aplicar las prue-
bas estadísticas, se crea un corpus ampliado en el que se aumentan los datos hasta llegar a
un mínimo de  casos por cada variante de las contenidas por variable aplicada (ya que se
trata del número mínimo de casos para que los que las pruebas estadísticas pueden arro-
jare resultados signicativos). Estos ejemplos se obtienen de los corpus COLAm y CORPES
XXI, para el caso de la conversación coloquial, y de otras sesiones no consultadas de las
mismas fuentes parlamentarias, para el caso del debate. La Tabla  resume los datos de creo
extraídos del corpus ampliado (un total de  casos), sobre los que se aplica el protocolo
de análisis, frente a los del corpus base ( ejemplos).
Tabla 2. Datos de los corpus base y ampliado
Corpus base Corpus ampliado
Ocurrencias de creo 730 865
Las regresiones logísticas que planteamos para este análisis son de tipo multinomial. Las
regresiones son un cálculo predictor sobre la incidencia de una variable dependiente (Y)
sobre una independiente (X). El valor de la regresión (Y ≈ β + βX) permite obtener un
coeciente que cifra la estimación de los valores, el cual se denomina R. Ahora bien, cabe
destacar que esta prueba estadística presupone linealidad entre las variables. Dado que esta
no se da entre aspectos cualitativos de análisis lingüísticos como el que presentamos y, por
consiguiente, el cálculo obtenido en el primer paso no es exacto, en un segundo paso o ins-
tancia calculamos complementariamente un número de verosimilitud de la relación entre las
variables cotejadas. Lo hacemos a partir del modelo de McFadden, el cual permite obtener,
frente a la estimación de valor de R, un valor probabilístico de pseudo-R. Este valor permi-
tirá ordenar jerárquicamente las variables preestablecidas de mayor a menor grado de expli-

cación sobre el valor semántico de creo, por un lado, y sobre el valor pragmático, por otro.
Finalmente, como este cálculo no es exacto y se realiza sobre   repeticiones del experi-
mento, se calculan posibles errores a partir de la creación de dos variables: la máxima proba-
bilidad de acierto del resultado y la mínima probabilidad de esta. Estas también se entrecru-
zan con las previas para obtener las diferencias y el margen de error.
En lo que sigue, se verán los resultados obtenidos de la aplicación de este modelo de
análisis. Asimismo, se comprobará su viabilidad como metodología replicable.
5. Análisis y discusión de los resultados
El análisis efectuado sobre la semántica y la pragmática de creo ha ofrecido resultados en
diferentes planos. En lo que sigue, presentamos los obtenidos en cada fase del estudio, y
un resumen del modelo metodológico aplicado, el cual puede considerarse también como
un resultado de la investigación.
5.1. Fases del análisis
El primer resultado que ofrece el acercamiento cognitivo a los usos discursivos de creo ha
permitido reconocer cinco valores semánticos básicos: creencia, certeza, conjetura, predicción
y juicio, de acuerdo con lo apuntado en estudios previos (Soler, ; ). Estos valores se
ordenan en un continuo de subjetividad, según el grado de implicación del hablante en la
escena que proyecta. Nuestro estudio estadístico descriptivo del corpus base, así como del
corpus ampliado, permite ver que la construcción formal de creo determina en el   de
los casos alguno de estos cinco valores. Véanse lastablas de contingencia  y :
4 creo excede los objetivos de este capítulo (véase, para ello, Soler
2021), describimos mínimamente los semas básicos de cada uno de ellos para aclarar su lectura. El valor
de creencia describe la adhesión completa del hablante a lo dicho, con independencia de las pruebas que
se tengan para ello (ej. creo en dios). El valor de certeza describe verdades que son absolutas únicamente
para el propio hablante, el cual también las presenta como independientes de su comprobación (ej. me lo
creo). El valor de conjetura hace referencia a un cálculo realizado por el hablante cuando este dispone de
algunas pruebas sobre lo dicho (ej. creo que fue ayer). La predicción, como la conjetura, se basa en algunas
pruebas, pero se proyecta sobre hechos futuros (ej. creo que viene mañana). Por último, el juicio
una opinión personal, basada en la comprobación de lo dicho, que ahora no es factual, sino que se basa en
la única escala de valores que son los personales del hablante (ej. creo que eso no está bien).
Relacionando los análisis cualitativo y cuantitativo. Una propuesta de modelo estadístico predictivo para completar la
descripción compleja de los verbos cognitivos

Digital Humanities, Corpus and Language Technology
Tabla 3. Cruce de datos obtenidos entre la construcción y el valor semántico de creo , con prevalencia
del valor semántico (Soler, 2019).
Variable formal (1): Construcción
24. SIGNIFICADO creencia certeza conoci-
miento
posibili-
dad
juicio intr. im-
preciso
no creo en 100 % 0 % 0 % 0 % 0 % 0 %
(no) me (lo) creo (X) 0 % 38,46% 0 % 0 % 0 % 0 %
ya lo creo (X) 0 % 38,46% 0 % 0 % 0 % 0 %
(no) lo creo 0 % 21,15% 0 % 7,89% 0 % 0 %
creo 0 % 0 % 11,67% 0 % 4,79% 0 %
no creo 0 % 0 % 0 % 17,54% 0 % 0 %
creo que 0 % 0 % 59,17% 34,21% 75,80% 100 %
no/tampoco creo que 0 % 0 % 0,00% 35,09% 0,23% 0 %
sí/también creo que 0 % 0 % 1,25% 0 % 3,88% 0 %
creo que no/Æ o verbo 0 % 0 % 7,92% 5,26% 4,57% 0 %
 0 % 1,92% 9,58% 0 % 2,74% 0 %
PVO del ODCC 0 % 0 % 0 % 0 % 4,57% 0 %
 0 % 0 % 8,33% 0 % 0 % 0 %
 0 % 0 % 2,08% 0 % 3,42% 0 %
Tabla 4. Cruce de datos obtenidos entre la construcción y el valor semántico de creo , con prevalencia de
la construcción (Soler, 2019).
(1) CONSTRUCCIÓN
24. SIGNIFICADO creencia certeza conoci-
miento
posibili-
dad
juicio intr. im-
preciso
(no) creo en 100 % 0,00% 0 % 0 % 0 % 0 %
(no) me (lo) creo (X) 0 % 100 % 0 % 0 % 0 % 0 %
ya lo creo (X) 0 % 100 % 0 % 0 % 0 % 0 %
(no) lo creo 0 % 55 % 0 % 45 % 0 % 0 %
creo 0 % 0 % 57,14% 0 % 42,86% 0 %
no creo 0 % 0 % 0 % 100 % 0 % 0 %
creo que 0 % 0 % 27,63% 7,59% 64,59% 0,19%
no/tampoco creo que 0 % 0 % 0 % 97,56% 2,44% 0 %
sí/también creo que 0 % 0 % 15 % 0 % 85 % 0 %
creo que no/Æ o verbo 0 % 0 % 42,22% 13,33% 44,44% 0 %
 0 % 2,78% 63,89% 0 % 33,33% 0 %
PVO del ODCC 0 % 0 % 0 % 0 % 100 % 0 %
 0 % 0 % 100 % 0 % 0 % 0 %
 0 % 0 % 25 % 0 % 75 % 0 %

Como puede observarse, tanto el valor de creencia ((no) creo en) como el de certeza ((no)
me (lo) creo (X) o ya lo creo (X)) vienen determinados en el   de los casos por una
construcción concreta de creo. Asimismo, en la totalidad de los casos analizados en los que
aparece una construcción concreta de creo, el valor semántico reconocido es el mismo, si
bien esta relación no se da ahora siempre en el sentido inverso. Se trata de creo + innitivo,
que conlleva el valor de conjetura; y no creo, que expresa predicción; y X + creo + PVO del
OD/ pron. + creo + CC, asociada al juicio. De ello se desprende que la aproximación cog-
nitiva es ecaz, y que la estadística descriptiva ofrece una prueba patente de ello, pues
certica la viabilidad de las pruebas para discernir algunas de las relaciones de variables
determinantes en el reconocimiento, en este caso, del valor semántico de creo. No obstan-
te, no es determinante para el reconocimiento de su pragmática, ni explica todos los valo-
res semánticos que ha distinguido el enfoque cognitivo aplicado. Por consiguiente, en una
segunda fase del estudio, se aplica la estadística predictiva al corpus ampliado, con el n
de alcanzar resultados más concretos.
Implementamos la metodología diseñada a partir de sucesivas pruebas de regresiones
logísticas previas al corpus base ampliado. El método de ensayo y error nos permite obte-
ner un protocolo de actuación ordenado y aplicado, nalmente, para   iteraciones,
mediante STATA. Este experimento lo realizamos dos veces ya que, al no tratarse de un
cálculo exacto (porque las variables cotejadas son cualitativas) las pruebas son de realiza-
ción extensa y apenas puede llegarse a un valor de verosimilitud, y no a un   de exac-
titud, aunque sí lo más cerca posible de este porcentaje. Así, en una primera instancia, se
aplica una regresión logística multinomial tomando como variable dependiente la relativa
al valor semántico de creo, lo cual se lleva a cabo para   iteraciones o repeticiones. Tras
ello, se repite el proceso, esta vez partiendo de la variable de la función pragmática como
dependiente, con el mismo número de repeticiones. En el siguiente apartado aportamos
los resultados obtenidos en ambas repeticiones del protocolo diseñado, siguiendo los pasos
concretos y ordenados del diseño.
5.2. Resumen del diseño de un modelo predictivo de los valores de creo en tres fases
En el modelo diseñado para el análisis predictivo de los valores de signicado de creo, en
primer lugar, y de sus funciones pragmáticas, en segundo lugar, determinamos para
comenzar () la capacidad explicativa de las variables cotejadas. Obtenemos una tabla como
la que sigue con los valores de R de McFadden por cada uno de los cruces de variables:
Relacionando los análisis cualitativo y cuantitativo. Una propuesta de modelo estadístico predictivo para completar la
descripción compleja de los verbos cognitivos

Digital Humanities, Corpus and Language Technology
Tabla 5. R2creo
(Soler, 2019).
Modelos de regresión multinomial Log Likelihood pseudo-R2
de McFadden
(1.ª INSTANCIA)
SIGNIFICADO (sin variables) -753.04064
SIGNIFICADO - CONSTRUCCIÓN -570.74281 0,242082326
SIGNIFICADO - INTEGRACIÓN -744,02822 (el modelo converge) 0,011968039
SIGNIFICADO - OD -718,37835 (el modelo converge) 0,046029773
SIGNIFICADO - OI -751,82063 (el modelo converge) 0,001620112
SIGNIFICADO - NEGACIÓN V. -647,25325 (el modelo converge) 0,14048032
SIGNIFICADO - NEGACIÓN V. SUB. -751,94636 (el modelo converge) 0,001453149
SIGNIFICADO - PERS. Y NÚM. V. SUB. -683,25781 (el modelo converge) 0,09266808
SIGNIFICADO - TIEMPO V. SUB. -639,50454 (el modelo converge) 0,150770216
SIGNIFICADO - MODO V. SUB. -639,71697 (el modelo converge) 0,15048812
SIGNIFICADO - SUJETO -730,20534 (el modelo converge) 0,030324127
SIGNIFICADO - POSICIÓN SINT. -704,22015 (el modelo converge) 0,064831149
SIGNIFICADO - REPETICIONES -706,214 (el modelo converge) 0,062183417
SIGNIFICADO - MMDD -727,2134 (el modelo converge) 0,034297272
SIGNIFICADO - OTROS ELEMENTOS -642,77243 (el modelo converge) 0,146430623
SIGNIFICADO - GÉNERO -667,35646 (el modelo converge) 0,113784271
SIGNIFICADO - TIP. TEXTUAL -598,01081 (el modelo converge) 0,205871797
Seguidamente, a partir de estos datos, se calcula () la jerarquía de las variables en el
aumento paulatino de explicación que proporcionan sobre el signicado de creo. En la
ordenación de esta jerarquía, nos jamos en el valor de verosimilitud proporcionado por
R de McFadden, si bien también se tienen en cuenta cuestiones cualitativas de aplicación
de las variables al análisis. Así, por ejemplo, se observa cualitativamente que las caracterís-
ticas de tipo formal son más rápidamente reconocibles por parte del analista (las cuales
subimos en la escala de jerarquía), y que otras de tipo semántico presentan una detección
más compleja (razón por la que, en algunos casos, las relegamos a puestos inferiores de la
jerarquía de aplicación). Así mostramos los resultados de la segunda instancia en dos
tablas. Primeramente, observamos que en la Tabla  aparecen todos los resultados de vero-
similitud obtenidos. Seguidamente, en la Tabla  reordenamos los parámetros de análisis
de mayor a menor grado de explicación sobre el valor semántico del verbo y añadimos el
porcentaje de error que este pueda estar generando.

Tabla 6. R2creo (Soler, 2019).
Variables jerarquizadas Pseudo-R2
de McFadden porcentual
(2.ª instancia)
1TIPOLOGÍA TEXTUAL 25,44 %
2CONSTRUCCIÓN 24,21 %
3TIEMPO VERBO SUBORDINADO 16,43 %
4OTROS ELEMENTOS 15,58 %
5GÉNERO 12,43 %
6PERSONA Y NÚMERO VERBO SUB. 6,44 %
7POSICIÓN SINTÁCTICA 6,42 %
8SUJETO 5,36 %
9NEGACIÓN CREO 2,94 %
Tabla 7. R2
de creo (Soler, 2019).
Variables ordenadas Error común estándar
CONSTRUCCIÓN 43,82 %
SUJETO 32,80 %
NEGACIÓN CREO 44,45 %
TIEMPO VERBO SUBORDINADO 30,11 %
PERSONA Y NÚMERO VERBO SUB. 32,80 %
POSICIÓN SINTÁCTICA 45,70 %
OTROS ELEMENTOS 27,82 %
TIPOLOGÍA TEXTUAL 20,70 %
GÉNERO 31,72 %
En la tabla  vemos cómo, en el último paso de nuestro protocolo (3) se obtiene un error
ajustado de los cálculos realizados. Este permite ver que no ha habido desfases entre la
extracción de los valores de verosimilitud de las tablas previas y los de la probabilidad total
de que se reconozcan los datos de cada variable. Dado que, en este caso, para la semántica
de creo, todos los valores obtenidos son menores al   y no presentan diferencias rele-
vantes respecto a los datos de verosimilitud de las regresiones llevadas a cabo, no se plantea
una nueva reorganización en la jerarquía de aplicación de las variables, respecto a la ya
propuesta.
Para el caso de la determinación de las funciones pragmáticas de creo, que se han esta-
blecido en las tres categorías reconocidas por la bibliografía previa (a saber, atenuación,
neutralidad e intensicación), dado que el análisis cualitativo cognitivo aplicado las reco-
Relacionando los análisis cualitativo y cuantitativo. Una propuesta de modelo estadístico predictivo para completar la
descripción compleja de los verbos cognitivos

Digital Humanities, Corpus and Language Technology
noce, efectivamente, en los mismos términos, se repite el experimento de tres fases dise-
ñado, pero ahora, sobre la base del signicado, ya reconocido gracias a la aplicación de las
fases de análisis explicadas. Véase la tabla nal obtenida:
Tabla 8. R2 de McFadden reordenados por jerarquía de aplicación, en la determinación de la función
pragmática de creo (Soler, 2019).
Regresión multinomial Log Likelihood Pseudo-R2
de McFadden (1.ª instancia)
FUNCIÓN-SDO -1227,0094 21,37 %
FUNCIÓN-SDO-INTERSUBJLOC. -1117,7345 8,91%
FUNCIÓN-SDO-POSIC. SINT.-1.125 8,34%
FUNCIÓN-SDO-GEN. -1132,3951 7,71%
FUNCIÓN-SDO-IMAGEN -1.134 7,62%
FUNCIÓN-SDO-POLIF. -1142,6586 6,87%
FUNCIÓN-SDO-ASERTIVIDAD -1.144 6,78%
FUNCIÓN-SDO-OTROSELS. -1147,1233 6,51%
FUNCIÓN-SDO-TXT. -1148,9373 6,36%
FUNCIÓN-SDO-CONVENC. -1164,7245 5,08%
En este segundo experimento, se parte de que el signicado de creo ya ha sido establecido
con la primera aplicación del protocolo. De este modo, se reduce el número de variables
en el cálculo de la función pragmática. En la obtención de errores, se estima que estos, de
nuevo, no alteran los datos de verosimilitud de R de McFadden y, por consiguiente, el
orden y jerarquía de aplicación de las variables para la determinación de la función prag-
mática de creo se mantiene como muestra, más arriba, la Tabla .
El análisis demuestra, pues, que del total de variables cognitivamente descritas para el
posible análisis semántico-pragmático de creo, solo algunas de ellas son ecaces con más
de un   de explicación y hasta más de un  , mientras que otras, pueden descartarse,
al menos, en un estudio genérico para detectar lo más automáticamente posible ante qué
tipo de creo nos encontramos.
6. Conclusiones
El análisis de este capítulo conrma que es posible diseñar un modelo de análisis cuanti-
tativo que, siempre como complemento del análisis cualitativo de fenómenos lingüísticos
como el del funcionamiento de las formas performativas de los verbos cognitivos, permite
determinar más del   de sus valores semánticos, así como entre el  y el   de sus
funciones pragmáticas (si sumamos el valor de verosimilitud de la aplicación de las varia-

bles jerarquizadas en el protocolo). Asimismo, el modelo planteado para el caso de creo es
replicable en otro tipo de textos y géneros discursivos. En contraposición con las carencias
metodológicas de la bibliografía previa, el modelo de análisis creado mejora y perfecciona
la aplicación de pruebas estadísticas que han resultado insucientes en otros estudios. Este
hecho conrma la hipótesis de partida de este trabajo, ya que es posible completar el aná-
lisis cualitativo de creo con el acercamiento cuantitativo riguroso no solo descriptivo, sino
también predictivo. Este modelo de análisis puede describirse a partir de tres fases: ()
determinación de la capacidad explicativa de las variables seleccionadas con criterios cog-
nitivos, () jerarquización de las variables para la descripción semántica y pragmática de
creo (o la forma verbal considerada), y () cálculo de errores cometidos en el proceso, las
cuales dan respuesta a la pregunta de investigación del trabajo, la cual se cuestionaba si era
posible llegar a una sistematización de análisis para el reconocimiento semántico-funcional
de unidades lingüísticas complejas como la que nos atañe.
En conclusión, cabe decir que este capítulo ha pretendido ofrecer un paradigma de
estudio que es compatible con los ya conocidos, pero que viene a completar los puntos que
no habían sido solventados hasta ahora por la investigación lingüística más tradicional.
Queda para el futuro próximo replicar este patrón propuesto y perlar el modelo de aná-
lisis y las fases de su consecución, así como también cotejar los resultados especícos que
pueda dar su aplicación a otros formatos textuales y fenómenos lingüísticos.
Referencias
Abbhul, R. & Mackey, M. (). Experimental research design. In R. Abbuhl, S. Gass & M. Mackey,
Research Methods in Linguistics (pp. -). Cambridge University Press.
Abdulrahim, D. (). Annotating corpus data for a quantitative, constructional analysis of motion
verbs in Modern Standard Arabic. In N. Habash, & S. Vogel (Eds.), Proceedings of the EMNLP
 Workshop on Arabic Natural Language Processing (ANLP) (pp. -). Association for
Computational Linguistics.
Achard, M. (). Representation of cognitive structures. Cognitive Linguistics, (), -.
Boas, H. & Ziem, A. (). Constructing a constructicon for German. Empirical, theoretical, and
methodological issues. In B. Lyngfelt, L. Borin, K. Ohara, & T. Timponi (Eds.), Constructicography:
Constructicon development across languages (pp. -). John Benjamins. https://doi.
org/./cal..boa.
Buceta, O. (). Construcciones del verbo ‘creer’. Factótum, , -.
Cutting, J. (Ed.). (). Vague Language Explored. Palgrave MacMillan.
De Hoop, H., Foolen, A., Mulder, G. & Van Mulken, V. (). I think and I believe: Evidential
expressions in Dutch. In A. Foolen, H. de Hoop & G. Mulder (Eds.), Evidence for Evidentiality
(pp. -). John Benjamins. https://doi.org/./hcp..hoo.
Relacionando los análisis cualitativo y cuantitativo. Una propuesta de modelo estadístico predictivo para completar la
descripción compleja de los verbos cognitivos

Digital Humanities, Corpus and Language Technology
Díaz-Campos, M. & Gradoville, M. (). An Analysis of Frequency as a Factor Contributing to the
Diusion of Variable Phenomena: Evidence from Spanish Data. In L. Ortiz (Ed.), Selected
Proceedings of the th Hispanic Linguistics Symposium, (pp. -). Cascadilla Proceedings
Project.
Fetzer, A. (). I think, I mean and I believe in political discourse. Collocates, functions and
distribution. Functions of Language, (), -.
Fetzer, A. & Johansson, M. (). Cognitive verbs in context. A contrastive analysis of English and
French argumentative discourse. International Journal of Corpus Linguistics, (), -.
Fuentes Rodríguez, C. (). La aserción parlamentaria: de la modalidad al metadiscurso. Oralia,
, -.
Fuentes Rodríguez, C. (). Atenuación e intensicación estratégicas. In C. Fuentes Rodríguez
(Ed.), Estrategias argumentativas y discurso político (pp. -). Arco/Libros.
González Ruiz, R. (). Los verbos de opinión entre los verbos parentéticos y los verbos de rección
débil: aspectos sintácticos y semántico-pragmáticos. Círculo de Lingüística Aplicada a la
Comunicación, , -.
González, J., Boeck, P. & Tuerlinchx, F. (). Linear mixed modelling for data from a double mixed
factorial design with covariates: a casestudy on semantic categorization response times. Journal
of the Royal Statistical Society: Series C (Applied Statistics), (), -.
Hartwell, L. M., Esperança-rodier, E. & Tutin, A. (). I think we need…: Verbal expressions of
opinion in conference presentations in English and in French. Romance Corpora and Linguistic
Studies, (), -.
James, G., Witten, D., Hastie, T. & Tibshirani, R. (). An Introduction to Statistical Learning: With
Applications in R. Springer.
Jansegers, M. (). Hacia un enfoque múltiple de la polisemia. Un estudio empírico del verbo
multimodal “sentir” desde una perspectiva sincrónica y diacrónica. Mouton de Gruyter.
Jansegers, M. & Gries, S. (). Towards a dynamic behavioral prole: a diachronic study of
polysemous ‘sentir’ in Spanish. Corpus Linguistics and Linguistic eory, (), -.
Milin, P., Divjak, D., Dimitrijević, S. & Baayen, R. H. (). Towards cognitively plausible data
science in language research. Cognitive Linguistics, (), -.
Roldán, A. (). Applications of cognitive linguistics (CI) to languages for specic purposes (LSP).
In M. L. Carrió (Coord.), Perspectivas interdisciplinares de la lingüística aplicada, Vol.  (pp.
-). Universitat de València.
Soler, M. A. (). Algunos apuntes bibliográcos en torno a los verbos de opinión. In C. J. Álvarez
López & M. R. Martínez Navarro (Coords.), En busca de nuevos horizontes. Algunas líneas
actuales en los estudios hispánicos (pp. -). Ediçoes Húmus,
Soler, M. A. (). Semántica y pragmática de los verbos doxásticos en la interacción oral en español.
Un estudio monográco sobre la forma verbal creo [Tesis doctoral. Universitat de València].
RODERIC. https://roderic.uv.es/handle//
Soler, M. A. (a). Análisis cognitivo de la semántica de creo en el español occidental hablado. En
L. E. Aguilera, E. de los Santos, M. E. Flores & J. Haidar (Eds.), Enfoques alternativos en los
estudios del discurso (pp. -). Universidad Autónoma de Nuevo León.
Soler, M. A. (b). Semántica de creo. Análisis cognitivo de la polisemia de una forma verbal doxástica
en la interacción oral en español. Peter Lang.

C XIII

analysis of corpus of local
problems related to the
Sustainable Development Goals
Uso de redes Bayesianas para el
análisis de corpus de problemas
locales relacionados con los
Objetivos de Desarrollo Sostenible
Manuel Caro Piñeres & Ernesto Llerena García
Universidad de Córdoba – Colombia
Abstract:-
ling, and decision support in various domains. Currently, there is a need for tech-
  
literature data. Collecting people’s perception of the problems they face in their dai-
ly lives generates a great deal of textual information. Textual descriptions increase


Resumen: Las redes bayesianas son un formalismo ampliamente utilizado para el
análisis de datos, el modelado y el apoyo a la toma de decisiones en varios dominios.
Actualmente, existe la necesidad de técnicas y herramientas que construyan au-

La recopilación de la percepción de las personas sobre los problemas que enfrentan
en su vida diaria genera una gran cantidad de información textual. Las descripciones
textuales aumentan a medida que se realizan nuevas recopilaciones de datos. Debi-

Digital Humanities, Corpus and Language Technology
do a las diferencias léxicas entre las diferentes regiones de un país, es necesario
actualizar constantemente los nuevos datos modelados.
1. Introduction
e  Sustainable Development Goals (SDGs) are a plan of the United Nations to achieve
a better and more sustainable future for people and the planet by . In these goals there
are aspects related to poverty, hunger, good health and well-being, quality education, clean
water, clean energy among others. With just under ten years le to achieve the Sustainable
Development Goals, world leaders at the SDG Summit in September  called for a
Decade of Actionand delivery for sustainable development, and pledged to mobilize
nancing, enhance national implementation and strengthen institutions to achieve the
Goals by the target date of , leaving no one behind. us, it was necessary to use reli-
able technology for understanding people’s needs all around the world, and during this
decade achieve the Sustainable Development Goals (SDGs) lead by the United Nations.
In that way, Bayesian network was used for collecting data through a soware created by
EduTLan group which helps to gather and analyze all the information needed to reach
these goals. Bayesian networks are used for modelling knowledge in computational biolo-
gy and bioinformatics, learning, medicine, biomonitoring, document classication, infor-
mation retrieval, semantic search, image processing, data fusion, decision support systems,
engineering, games and law. For decision-making at the governance level, it is necessary
to know how non-compliance with the SDGs aects the well-being of the population.
However, the SDGs are little known by the general population, so it is necessary to have
techniques that can relate people’s speech in relation to the language of the SDGs. To full
this purpose, it is necessary to collect many descriptions of problems related to the SDGs
in the communities.
e main goal of this study is to describe the process of collecting, organizing, tagging
and validating a corpus of more than , descriptions of problems related to compliance
of the SDGs in three regions in Colombia. e main result of this study was a large digital
corpus of descriptions of problems related to compliance of the SDGs in three regions in
Colombia. e potential of the corpus was veried by evaluating the results of a Bayesian
network algorithm. In the evaluation, the standard processing of the text by the algorithm
produces a high rate of correct answers.
e rest of the paper is organized as follows. Section  describes the theoretical frame-
work that supports this research. Section  summarizes the methodological framework


based on Design Science Research (DSR) used to design the machine learning approach
based on Bayesian networks for the analysis of corpus of local problems related to the
Sustainable Development Goals. In Section  the results are describes. Finally, the conclu-
sions are presented.
2. Theoretical framework
For this research work, theoretical elements on structural semantics and digital lexicogra-
phy were used. Lexicon organization of the corpus from selected words were done based
on the structural semantics proposed for the semantic elds as well as the other levels of
the linguistic structure that have a structural nature and functioning. For this reason, this
position was welcomed on this research, and it is applied for the collection of information.
According to this structural organization, the entire lexicon must be organized into seman-
tic elds. A semantic eld, in linguistics, is one that makes up a group of words that share
one or more features in their meaning. is semantic eld is organized through hypernyms
and hyponyms (In this investigation the term holonym is related to hypernym and the
word meronym is related to hyponym. eoretically, the dierence between hyper-
nyms-hyponyms and hollonyms-meronys is that the former has conceptual inclusion and
the latter have material inclusion -i.e., part of-). A hypernym is a general term that can be
used to refer to the reality named by a more specic term.
For this research, each eld is equivalent to the following development objectives, which
functioned as hypernyms: no poverty, zero hunger, good health and well-being, quality
education, gender equality, clean water and sanitation, aordable and clean energy, indus-
try, innovation and infrastructure, reduced inequalities, sustainable cities and communi-
ties, responsible consumption and production, climate action, life below water, life on land,
peace, justice and strong institutions, partnerships for the goals. Each one of these referential
elds presents, in turn, relations of hyponymy. e hyponyms are words that have all the
semantic features, or semes, of a more general one – its hypernym – but that in its denition
adds other semantic characteristics that dierentiate it from others. e hyponyms of each
hyperonym were determined, so when the words that the interviewee was saying were
extracted from the recordings, they were distributed according to each hypernym and the
default hyponyms for each one. For example, the hypernym no poverty has the following
hyponyms: displaced women, social security, extreme poverty, poverty line, multidimension-
al poverty, multidimensional poverty index. For a more related relation.
is form to extract semantic relations of related words was based primarily from the
digital lexicography; the basic approaches of semantic organization were led by the way

Digital Humanities, Corpus and Language Technology
Wordnet was elaborated. WordNet is an electronic lexical reference system, developed in
the form of a lexical database, created by the psycholinguist George A. Miller which is in
line with psycholinguistic theories regarding the organization of lexical information in the
mind of the speaker (Baars, ). WordNet is a project that was supported from the be-
ginning by various US government and private institutions: e Department of Naval
Research, the James S. McDonnell Foundation and Princeton University. Apart from being
an example of government and public cooperation, it is also a project whose results have
been made public and can be freely distributed for academic purposes. WordNet is avail-
able to any user who wishes to consult its resources through the internet and the system
can be used in online mode (See http://wordnet.princeton.edu/). e primary objectives
of WordNet, and that e following are fundamental bases in the elaboration of this so-
ware: a) e validation of psycholinguistic theories on lexical organization; b) Its foresee-
able use in various applications that require access to lexical information e basic dier-
ence between this and other projects for the implementation of computational lexicons is
that it is the only relatively large-scale project in which the organization of the Lexis in
semantic elds can handle information for the purpose of gathering semantic approaches.
In fact, the main motivation for its realization has been the idea of testing, through its direct
implementation in a digital computer, psycholinguistic and lexicological theories regarding
the structure of the mental lexicon. Following a model of semantic networks for organizing
the mental lexicon, the group of researchers that made up WordNet set out in  to cre-
ate a tool that would allow moving through the structure of a dictionary conceptually and
not just alphabetically. e dierences from a traditional dictionary are obvious: WordNet
divides the lexicon into ve categories: nouns, verbs, adjectives, adverbs, and functional
elements. However, Wordnet presents a considerable amount of redundant information
that would not appear in a traditional dictionary, in those cases where a word belongs to
more than one category.
On the other hand, this type of organization greatly facilitates the analysis of the se-
mantic organization dierences that exist between these ve syntactic categories, and it is
also important to note that, by not having to force the dierent categories into the same
representational scheme, it is possible to search the most suitable way for each one of them
separately. WordNet is an attempt to reect the lexical memory model based on semantic
networks proposed by Collins and Quillian () in a lexicographic model of lexical or-
ganization. One of the rst examples of a semantic memory network model is the TLC
(Teachable Language Comprehender) (Collins & Quilliam, ). According to this mod-
el, each node is a word that represents a concept (such as “bird”). With each node, a series


of properties is stored (such as “can y” or “has wings”), as well as directions (for example,
links) to other related nodes (for example, “dove”). A node is directly linked to those oth-
ers that are a subclass or a superclass (for example, “bird” would be related to both the
“pigeon” subclass and the “animal” superclass). us, the TLC model assumes a hierarchi-
cal representation of knowledge, in which high-level nodes representing broad categories
are connected (either directly or indirectlyrough the nodes of lower classes) to a
multitude of elements belonging to those categories. e nodes that represent concrete
examples of these supracategories would be at a lower level, only connected to the imme-
diately higher categories. Also, properties are stored at the highest level of categorization
to which they can be applied. For example, “is yellow” could be stored with “canary”; “Has
wings” could be stored with “bird” (one level up); and “can move” could be stored with
“animal” (another level up).
Nodes can also store the negation of the properties of their superordinate nodes (for
example, “can’t y” could be stored with “penguin”). is provides an economy of rep-
resentations, in which properties are only stored at the level of categorization for which
they are essential, that is, at the point where they become critical characteristics. According
to the TLC, processing is a form of activation propagation, that is, when a node is activat-
ed, the activation spreads to other nodes through the links that join them. In that case, the
response time to the question “Is the pigeon a bird?” it depends on the distance that me-
diates between the nodes “dove” and “bird” (for example, the number of intermediate nodes
that may exist).
3. Methodological framework
is section describes the Design Science Research Methodology (DSRM) (Hevner et al.,
) used in the present study to address the use of Bayesian networks in the analysis of
corpus of local problems related to the Sustainable Development Goals (SDGs).
is study adopted the DSRM due to it seeks to enhance human knowledge with the
creation of innovative artifacts and the generation of design knowledge (DK) via innovative
solutions to real-world problems. e DSRM approach, followed in this study, has been
used before in the development of knowledge-based systems and Natural Language Pro-
cessing (NLP) Systems. As an example, we could refer to the work of Pereira, Ferreira, &
Lopes () in knowledge representation and NLP case study in innovation processes
(O’Riain, Curry & Buitelaar, ). is study includes the following ve steps for the de-
velopment of a soware artifact according to DSRM.

Digital Humanities, Corpus and Language Technology
Step . Problem identication and motivation. In this stage the objectives for a solution
are described. Resources required for this activity include the state of the problem and the
importance of its solution.
Step . Objectives for a solution. Infer the objectives of a solution from the problem
denition and knowledge of what is possible and feasible. Resources required for this in-
clude knowledge of the state of problems and current solutions.
Step . Design and development. Create the artifact. Such artifacts are potentially con-
structing, models, methods, or instantiations (each dened broadly) (Hevner et al., )
or “new properties of technical, social, and/or informational resources (Jarvinen, )”.
Step . Demonstration. Demonstrate the use of the artifact to solve one or more instanc-
es of the problem. is could involve its use in experimentation, simulation, case study,
proof, or other appropriate activity.
Step . Evaluation. Observe and measure how well the artifact supports a solution to
the problem. is activity involves comparing the objectives of a solution to actual observed
results from use of the artifact in the demonstration. It requires knowledge of relevant
metrics and analysis techniques.
4. Results
is section describes the results obtained from the follow-up of each of the steps of the
DSR methodology.
4.1. Problem identication and motivation
In this step the problem formulation for the proposed research approach is stated. e
problem is described in the form of functional requirements (Eekels & Roozenburg, ;
Baskerville, et al., ). Listed below are some of the functional requirements that are
necessary to address the development of a system for translating community problem
descriptions into language of the SDGs.
Collect many descriptions of problems related to the SDGs that aect the communities
of dierent regions of Colombia.
Relate the documents of the corpus with the language of the SDGs, considering the
lexicon of regionalisms.
Provide graphical reports about the problems that each population describes.
Develop a model that translates natural language into the language of the SDGs.
Develop an App that allows the collection, storage and translation of the problems ex-
pressed by the communities.


4.2. Dene the objectives for a solution
Create a corpus with the descriptions of the problems and actions that are carried out in
the communities, which have some relationship with the SDGs. Design a system that
translates the problem descriptions of dierent communities into the language of the
SDGs. e system must allow:
Log in through an account.
Record an interview by voice and convert it to text.
Enter the data related to the interviewed user.
Record the priority topics for the interviewed user.
Record by voice the three main problems in your community and the system converts
it to text.
Record by voice the three actions that have been taken
implemented in your community for each of the three problems and the system converts
it to text.
e system, through Articial Intelligence, reports on the SDGs related to each problem
of the interviewee.
e system, through Articial Intelligence, reports on the goals of each SDG related to
each problem of the interviewee.
e system reports the percentage that relates each SDG to the problem reported by the
interviewee.
e system incorporates new vocabulary related to the SDGs using machine learning.
4.3. Design and development
e classication method used in this study is Naïve Bayes Classier, to classify online
testimonial data from leading e-traveling sites. e current Naïve Bayes Classier method
has been developed to calculate the probabilistic size of each word and provide an assess-
ment for each class. One of them is the Multinomial Naïve Bayes model developed by
Schütze et al., (). is method estimates the conditional probability of a token that has
a class, as the relative frequency of the word t in the document belonging to the class c. In
NBC, the probability of a document d (e.g., problem description) being in class c, P(c|d),
is computed as shown in this equation formula:
( | ) ( ) ( | )
=1
()

Digital Humanities, Corpus and Language Technology
e Naïve Bayes Multinomial Method takes into account the number of occurrences of the
word t in class c training documents, as well as several existing events.
( | ) =
()
e data collection processing mechanism for training and prediction to be used by the
ECHO application has the following phases:
Figure 1. Input data processing and training protocol.
Phase I: Preparation of the initial data matrix (Pre-processing). is matrix can be
created as follows:
 From the cleaning of the matrix extracted from the events carried out or a particular
subset of them.
Phase II: Creation of the training dataset. is Dataset can be created in the following way:
 From experts tagging directed speeches captured by ECHO (SDG translation App).
 From the review of the application output of an Event


e Training Dataset has two columns, as shown in Figure .
Figure 2. 
e theoretical foundation of the system has its origin in the idea of the “vocabulary
matrix” (Miller et al.,) (vocabulary matrix). Miller uses the term lexical form (word
form) to refer to the physical expression that is written or pronounced and meaning.
Also, by using this methodology of “nodes” words from interviews were linked to words
related and their goals ( goals in total) as we can see on Table .
Table 1. SDG
SDGS Related words
Goal 1 No poverty -
nal poverty, multidimensional poverty index.
Goal 2 Zero hunger Agricultural product, agricultural production, agricultural productivity, environ-
ment, agricultural sector, safe food.
Goal 3 Good health

Health centers, environmental sanitation, public health, family planning, repro-

Goal 4 Quality edu-
cation
Educational infrastructure, early childhood, vocational training, preschool
education, university education, higher education, secondary education, drinking
-

enrollment, high school fees, illiterate, illiterate, quality learning, good learning,
good school, good teacher, good education, good teaching, good school.

Digital Humanities, Corpus and Language Technology
SDGS Related words
Goal 5 Gender equality Reproductive health, sexual health, physical violence, sexual violence, psycho-



sanitation
-


clean energy



-


Goal 9 industry, inno-
vation and infrastruc-
ture
-
nection.
Goal 10 Reduced
inequalities
Sexual harassment, human rights.
Goal 11 Sustainable
cities and communities
Private sector, urban area, public roads, housing project, sports venues, sustai-

Goal 12 Responsible
consumption and
production
-
terial consumption, responsible consumption, sustainable consumption.
Goal 13 Climate action 




Goal 15 Life on land 
in planning, terrestrial ecosystems.
Goal 16 Peace, justice
and strong institutions

-

Goal 17 Partnerships
for the goals
Economic development, internet, internet of things.
1. Algorithm_1. Training document by multinomial naïve bayes
2. Input: Document D, Class C
3. Output: Vocabulary V, Prior Knowledge, Likelihood condprob
4. a) Extract vocabulary V from document D
5. b) Calculate the number of N documents D
6. c) For every
7. Calculate Nc as number of D documents that have class c
8. Calculate prior [c] = Nc / N
9. Combine all text in document D that has class c into textc
10. for every t V
11. Calculate Tct as the number of tokens appearing from textc which has class c
12. for every t V
13. Calculate Likelihood condprob [t] [c]= formulae (2)


e Naïve Bayes Classier performance can be improved by using corpus data that has
been created and developed in the previous stage. e use of corpus aims to give more
weight to the parameters of the probability value, for each token listed in the corpus. e
corpus used is the corpus that deals with the topic of hotel parameters, namely comfort,
cleanliness, location of the hotel, food, and friendly service.
Corpus value weights are obtained from probabilistic values. e occurrence of the
term t on the existing topic, the goal is to normalize the weight. In this study using the
proportionality of token numbers for each class c, positive classes p + = . (for inclusion
into a class) and negative p- = . (for not inclusion into a class) in the data sequence. So
that condprob can be calculated by a formula such as,
[ ] =log( [ ][ ] × (1 + (×
′∈ )))
′∈
()
To get a score for each class [c] can use the following formulae.
[ ][ ] = × (1 + ( × ))
()
With the knowledge base generated, the algorithm can make inferences and reasoning
based on the input from the new interviews to generate predictions regarding the SDGs
and targets that are related to the inputs.
Figure 3. 

Digital Humanities, Corpus and Language Technology
Figure 4. II.
For prediction, the algorithm deployed into the ECHO App captures the information using
Speech Recognition. e testing phase based on the results of training data can be used
Algorithm_.
1. Algorithm_2. Testing document by multinomial naïve bayes
2. Input: Class C, Vocabulary V, Prior Knowledge, Likelihood condprob, Test document d
3. Output: arg [ ]
4. Extract token W from test document d based on Vocabulary v b).
5. For each
Calculate score [c] = log [ ]
For every t W
Calculate score [c] + =
log [ ][ ]
6. Count
arg [ ]
e backend of the application and the main algorithm were developed using the frame-
work Nodejs in JavaScript. e front-end was developed with the Vue.js framework, while
semantic and procedural memory data were stored in MongoDB. Below is an example of
the prediction output for the algorithm in the ECHO App.


Figure 5. 
Figure 6. Prediction of the algorithm.
4.4. Demonstration
e descriptions were collected verbally for three years and contain regionalisms related
to the SDGs from the Caribbean region, Antioquia and Bogotá. e tool was tested in the
cities of Cartagena and Medellín, where the application processed ,  and 
descriptions of community problems. To facilitate the gathering of testimonies through the
ECHO tool, a -day information gathering session was held within the framework of the

Digital Humanities, Corpus and Language Technology
project “Testing ECHO amplifying the citizen’s voices for the SDG’s. More than  univer-
sity students participated in the sessions, who were volunteers to collect the problems of
the communities and were trained in the use of the ECHO tool. Cell phones with Android
operating system, microphone and internet connection were used to collect information.
Figure 7. 
4.5. Evaluation
e corpora were taken through oral interviews with people (men and women) from
diverse social levels (mainly , ,  social levels). e interviewer recorded the interview
with a cell phone and instantly or when a WIFI connection was able, all the information
was gathered and analyzed. us, the system shows how people think about their necessi-
ties related to the United Nations’s goals. is information will be used to promote pros-
perity while protecting the planet. Initially, the algorithm presented a level of precision of
 in the translation of the corpus into the language of the SDGs.
Precision refers to the proportion of concepts that is accurately detected relative to all
the concept elements that are represented in the corpus (Brewster et al., ). e numer-
ator of Eqs. () describe that knowledge that is accurately detected and corresponds to the
intersection of the relevant entities and the retrieved entities.
=|{ }{ }|
|{ }|
()


e erroneous results were analyzed by a team of OSDGsDS experts, linguists, and data
engineers to determine the causes of the failures. In this process it was found that region-
alisms were the main cause, in this sense the application training was rened with a corpus
that contained the regionalisms expressed in the problem descriptions. us, on the last
day of testing in both cities, a precision of . was obtained.
5. Conclusion
e main result of this study is a large digital corpus of descriptions of problems related to
compliance of the SDGs in three regions in Colombia. e potential of the corpus was
veried by evaluating the results of a Bayesian network algorithm. In the evaluation, the
standard processing of the text by the algorithm produces a high rate of correct answers.
e use of semantic methodology for the organization of information in semantic elds
was very ecient. Semantic eld was organized through hyperonyms and hyponyms which
allow to organize all the information in key words related for each goal. e system took
every word in discourse and classify it according to a specic sustainable development
goal. Starting from oral discourse, organizing it and taking it to quantitative data, it veries
that words can be used to be able to analyze a discourse with practical uses. is type of
methodology allows quantifying large amounts of oral information that are extracted from
interviews to nd out what people think about a specic topic, for this research, about the
sustainable development goals.
References
Baars, B. (). Interview with George Miller. In B. Baars (Ed.), e cognitive revolution in psychology
(pp. -). Guildford Press.
Baskerville, R., Baiyere, A., Gregor, S., Hevner, A., & Rossi, M. (). Design science research
contributions: nding a balance between artifact and theory. Journal of the Association for
Information Systems, (), -. https://dx.doi.org/./jais.
Brewster, C., Alani, H., Dasmahapatra, S., & Wilks, Y. (). Data driven ontology evaluation. In
M. T. Lino, M. F. Xavier, F. Ferreira, R. Costa, R. Silva (Eds.), Proceedings of the th International
Conference on Lang uage Resources and Evaluation, LREC  (pp. -). European Language
Resources Association (ELRA). https://aclanthology.org/volumes/L-/
Collins, A. & Quilian, R. (). Retrieval time from semantic memory. Journal of verbal learning
and verbal behavior (), -.
Devi, S., Priya, M.V., Akhila, P., & Vasundhara, N. (). Analysis and prediction of student placement
for improving the education standards. International Journal of Engineering & Technology, (.),
-. https://doi.org/./ijet.vi..
Eekels, J., & Roozenburg, N. F. (). A methodological comparison of the structures of scientic
research and engineering design: their similarities and dierences. Design studies, (), -.

Digital Humanities, Corpus and Language Technology
Hevner, A. R. (). A three-cycle view of design science research. Scandinavian journal of
information systems,(), .
Järvinen, P. (). Action research is similar to design science.Quality & Quantity,(), -.
Kutela, B., and Teng, H. (). Prediction of drivers and pedestrians’ behaviours at signalized mid-
block Danish oset crosswalks using Bayesian networks. Journal of Safety Research , -.
https://doi.org/./j.jsr...
Miller, G. A., Beckwith, R., Fellbaum, C., Gross, D., Miller, K., & Tengi, R. (). Five papers on
WordNet (TM).International Journal of Lexicography,(), -.
Naciones Unidas (). Informe de los objetivos de desarrollo sostenible. Naciones Unidas.
O’Riain, S., Curry, E., & Buitelaar, P. (). Engaging Practitioners within Design Science Research:
A Natural Language Processing Case Study. In M. Helfert, & B. Donnellan (Eds.),Design Science:
Perspectives from Europe. EDSS . Communications in Computer and Information Science, vol
(pp. -). Springer, Cham. https://doi.org/./----_
Pereira, A. R., Ferreira, J. J. P., & Lopes, A. (). A knowledge representation of the beginning of
the innovation process: e Front End of Innovation Integrative Ontology (FEIO).Data &
Knowledge Engineering,, . https://doi.org/./j.datak..
Sandri, M.; Berchialla, P.; Baldi, I.; Gregori, D.; & De Blasi, R., A. (). Dynamic Bayesian Networks
to predict sequences of organ failures in patients admitted to ICU. Journal of biomedical
informatics, , -.
Schütze, H., Manning, C. D., & R aghavan, P. ().Introduction to information retrieval. Cambridge
University Press.

Correlación entre la metáfora orientacional    /  
 y polaridad positiva/negativa en verbos del español: un estudio con
estadística de corpus
C XIV
Correlación entre la metáfora
orientacional bueno es arriba / malo es
abajo y polaridad positiva/negativa
en verbos del español: un estudio
con estadística de corpus1
Correlation between the
orientational metaphor    /
   and positive/negative
polarity in Spanish verbs: a study
with corpus statistics
Benjamín López Hidalgo, Irene Renau & Rogelio Nazar
Ponticia Universidad Católica de Valparaíso –Chile
Resumen: La metáfora conceptual se ha estudiado ampliamente mediante lingüís-
tica de corpus, pero es necesario seguir proponiendo métodos estadísticos que per-
   
Además, la metáfora orientacional en particular ha sido poco abordada en la inves-
tigación sobre metáfora conceptual. Esta investigación tiene como objetivo compro-
bar la relación entre la orientación vertical (arriba/abajo) y la polaridad (positiva/negativa,
respectivamente) que existe en las metáforas orientacionales del tipo bueno es arriba
/ malo es abajo-
cado ‘subir’ / ‘bajar’ y se midió su asociación en las concordancias del corpus con

1 Agradecemos al Proyecto Fondecyt Regular n.º 1231594 (ANID, gobierno de Chile).

Digital Humanities, Corpus and Language Technology

de los casos analizados.
Abstract: Conceptual metaphors have been extensively studied by means of corpus

-

-
tical orientation (up/down) and polarity (positive/negative, respectively) that exists in ori-
entational metaphors of the type good is up / bad is down found in corpora. Ten Spanish

-
beled by means of a polarity lexicon. The results indicate that such an association

1. Introducción
La metáfora orientacional (Lako & Johnson, , ; Lako, ; Langacker, ;
Kövecses, , ; Soriano, ) es un tipo de metáfora que organiza un sistema con-
ceptual en términos de una orientación espacial. Tal es el caso de los conceptos ,
, ... y , , ..., que son considerados de forma univer-
sal como positivos y negativos, respectivamente. En estos casos, la metáfora orientacional
, , ...   / , , ...   funciona
como un dispositivo conceptual que permite organizar, expresar, comprender y reforzar
cognitivamente estos conceptos abstractos. Por ejemplo, en expresiones como “Mi moral
está por los suelos” se hace explícita la relación entre ‘estar pesimista’ y la posición ‘abajo’ a
través de la locución verbal por los suelos; al contrario, en “Mi moral está por las nubes” se
muestra una relación entre ‘arriba’ y ‘optimista. Esta relación entre la orientación espacial
/ y la consideración de algo como / se ha evidenciado
empíricamente sobre todo a partir de la psicología experimental y también de algunos
estudios de corpus (véase el apartado ). Sin embargo, la evidencia es escasa y, en particu-
lar, faltan propuestas que permitan observar este fenómeno cognitivo a través de expresio-
nes en el discurso, de forma cuantitativamente signicativa y con métodos que permitan
replicar los estudios en distintos tipos de textos y lenguas.

Correlación entre la metáfora orientacional bueno es arriba / malo es abajo y polaridad positiva/negativa en verbos del
español: un estudio con estadística de corpus
En vista de lo anterior, esta investigación se propuso comprobar si la metáfora orienta-
cional    /    puede evidenciarse empíricamente a través del
análisis estadístico de corpus. Para ello, se seleccionaron verbos del español que, en su
acepción prototípica, tuvieran el signicado de ‘subir’ o ‘bajar’, y se analizó su coocurrencia
con unidades léxicas con sentido de ‘bueno’ o ‘malo’, respectivamente. Se etiquetaron estas
unidades como  o  mediante un lexicón de polaridad, que tiene ya previamen-
te etiquetadas las unidades léxicas como ‘positivas’ o ‘negativas’.
La hipótesis que se planteó es que los verbos con signicado ‘subir’ (como ascender,
elevar, levantar, etc.) coocurren más a menudo con unidades léxicas (sustantivos, adjetivos,
verbos y adverbios, locuciones incluidas) con signicado ‘bueno’ (ej., maravilloso, alegrar,
felizmente, bondad, en las nubes), y los verbos con signicado ‘bajar’ (como caer, descender,
tumbar, etc.) coocurren más a menudo con unidades con signicado ‘malo’ (ej., horrible,
entristecer, desgraciadamente, maldad, a duras penas, etc.). El trabajo, como ya se indicó,
tiene interés al proponer un método puramente estadístico y, por tanto, fácil de aplicar a
otras lenguas y a distintos corpus, y la única herramienta externa utilizada (el lexicón de
polaridad) es muy común en muchos idiomas debido a su uso extendido en el área de la
minería de opinión (Alm et al., ; Baccianella et al., ). Desde un punto de vista más
amplio, este trabajo es un aporte a los estudios de metáfora en corpus, y en particular, a la
evidencia empírica sobre la teoría de la metáfora conceptual en el discurso.
2. Antecedentes y marco teórico
La teoría de la metáfora conceptual (Lako & Johnson, , ; Lako, ; Langacker,
; Kövecses, , ; Soriano, ) postula que la metáfora es un mecanismo cog-
nitivo utilizado por el ser humano para comprender el mundo o expresar su concepción
de la realidad; una metáfora conceptual toma como dominio de origen una realidad cono-
cida y generalmente concreta y material, y la utiliza para categorizar el dominio de destino,
correspondiente a una realidad más desconocida y abstracta. Las metáforas conceptuales
pueden expresarse mediante dibujo, fotografía, danza, música, etc., pero es muy común su
uso en expresiones lingüísticas, no solo en literatura, sino en cualquier discurso de la vida
cotidiana. Así, a través de expresiones como dejamos la vida en la cancha, el equipo atacó
con fuerza, salimos derrotados en la nal del campeonato, etc., el  (dominio de des-
tino) es caracterizado como una  (dominio de origen) a través de la metáfora
conceptual     .
El tipo de metáfora mencionado se denomina estructural porque organiza el conoci-
miento del dominio meta mediante la estructura conceptual importada del dominio fuen-

Digital Humanities, Corpus and Language Technology
te. Las metáforas ontológicas, por su lado, sirven para caracterizar elementos abstractos
(como eventos, emociones, experiencias, ideas, etc.) mediante entidades materiales. Por
ejemplo,      es una metáfora ontológica que permite comprender
la mente como un artefacto complejo; esta metáfora se observa en múltiples expresiones
lingüísticas, como mi cerebro está un poco oxidado hoy, tengo el disco duro demasiado lleno
de distracciones, etc.
La metáfora orientacional, que centra nuestra investigación, fue denida por Lako &
Johnson (, ) como “another kind of metaphorical concept, one that does not struc-
ture one concept in terms of another but instead organizes a whole system of concepts with
respect to one another”. En otras palabras, da coherencia a un conjunto de conceptos, de-
bido a que estos comparten el mismo dominio de origen (Langacker, ). Lako y John-
son (, ) las llamaron metáforas orientacionales “since most of them have to do with
spatial orientation: up-down, in-out, front-back, on-o, deep-shallow, central-peripheral”.
Por ejemplo, los conceptos  /  /  /  se unican bajo el concepto
, mientras que  /  /  /    se unican en
: estas dos estructuras conceptuales, a su vez, se unican bajo una de las metáforas
orientacionales más universales:    /   .
Existe una línea ya extensa de trabajos que han abordado la teoría de la metáfora con-
ceptual, sobre todo la metáfora estructural, desde el análisis de corpus (Charteris-Black,
; Semino et al., ; Deignan, ; Semino et al., ; Potts & Semino, ; Liu
& Mo, ). Este enfoque ha permitido comprobar cómo las metáforas, empleadas en
discursos de diversos tipos (prensa, textos especializados, escritura académica, etc.) con-
tribuyen a congurar y transmitir determinados marcos cognitivos y culturales. En el caso
de la metáfora orientacional en concreto, las evidencias parten más bien de los estudios
experimentales, con algunos pocos estudios de corpus. El enlace entre orientación espacial
 /  y la connotación  / , respectivamente, se ha evidencia-
do en el área de la psicología experimental (Meier & Robinson, , ; Crawford et
al., ; Cassanto & Dijkstra, ; Santana & De Vega, ). En estos trabajos se con-
rma empíricamente que el recuerdo de experiencias positivas facilita el realizar activida-
des motrices ascendentes, pero entorpece la actividad motriz cuando es descendente (Ca-
sasanto & Dijkstra, ). Asimismo, se compueba que colocar tarjetas de vocabulario en
ubicaciones particulares después de estudiarlas ayudan a los estudiantes a aprender las
deniciones de palabras con valencia emocional positiva (colocación arriba) o negativa
(colocación abajo) (Casasanto & De Bruin, ). Según estos estudios, pues, existe una
correlación positiva entre el concepto  y , y  y .

Las metáforas orientacionales de diversos tipos se han estudiado también en el discur-
so económico, político y del marketing. Por ejemplo, Fernández Rodríguez () compa-
ra corpus de textos de economía en español y en francés y estudia las expresiones metafó-
ricas orientacionales. En sus datos, el  de estas metáforas corresponden a la orientación
 /  (ej., “la inación china baja, “la caída de los precios de los alimentos, cf.
Fernández Rodríguez, , p.), y en otros casos a la orientación  / , -
 / , etc. Estas metáforas, como indican Graupe y Steestun (), sirven para
facilitar la comprensión de conceptos abstractos de la economía mediante conceptos más
intuitivos y cercanos, como ocurre con las metáforas conceptuales en general (Lako &
Johnson, ). En determinados textos, no obstante, pueden dicultar también el pensa-
miento crítico en tanto que proponen marcos conceptuales que no se discuten: por ejemplo,
el mercado visto como un  que se conceptualiza con la oposición  /
(cf. Graupe & Steenstun, ). Luque () también encuentra la metáfora orien-
tacional de tipo    /    en un corpus de discursos políticos
euroescépticos (por ejemplo, “esta Unión Europea ha caído en una serie de errores de los
que será difícil recuperarse”, Luque, , p.). Feng Dezheng (), desde una perspec-
tiva multimodal, analiza el sistema de orientaciones espaciales en el marketing, en especí-
co en anuncios publicitarios de automóviles, donde identica metáforas orientacionales
como  /     /   , entre otras del mismo tipo.
Finalmente, el uso de metáforas orientacionales se ha analizado también en la literatura.
Así pues, Zhao, Han y Zhao () realizaron un análisis de corpus de las metáforas con-
ceptuales en Pavilion of Women, de Pearl S. Buck, y en su estudio hallan que las metáforas
orientacionales son las menos frecuentes, aunque de ellas, la más frecuente es    /
   (por ejemplo, “She let her heart down”, cf. Zhao, Han & Zhao, , p.).
Las mencionadas aportaciones contribuyen al desarrollo de la propuesta seminal de
Lako y Johnson (), aunque, como se ha podido comprobar, las investigaciones son
escasas. Además de ello, las propuestas de corpus que han estudiado este tipo de metáfora
han empleado en ocasiones soware de gestión de corpus, como AntConc o Wordsmith,
pero el análisis en sí ha sido manual y restringido a corpus de pequeñas dimensiones. Ello,
como se indicó en la introducción, motiva la presente propuesta, que plantea un método
de explotación de grandes cantidades de datos, lo que supone un nuevo avance hacia el
estudio de este tipo de metáfora conceptual en el discurso.
Correlación entre la metáfora orientacional bueno es arriba / malo es abajo y polaridad positiva/negativa en verbos del
español: un estudio con estadística de corpus

Digital Humanities, Corpus and Language Technology
3. Marco metodólogico
3.1. Materiales
Para llevar a cabo esta investigación, se utilizó un listado de verbos con signicado ‘arriba’
y ‘abajo, un corpus de trabajo y un lexicón de polaridad que permitiese etiquetar como
‘positivas’ o ‘negativas’ las unidades léxicas (sustantivos, adjetivos, verbos y adverbios,
incluidas expresiones pluriverbales) que coocurrieran con los verbos. Naturalmente, en
algunos casos los adverbios de negación pueden modicar la polaridad positiva o negativa
de las palabras, pero ello representa una variable aleatoria y, como tal, no puede afectar los
resultados.
En cuanto al listado de verbos empleado, se seleccionaron unidades que prototípica-
mente tuvieran signicado ‘arriba’ y ‘abajo’. Para ello, se buscaron verbos denidos, en su
primera acepción, mediante los hiperónimos subir o bajar en dos diccionarios electrónicos
(Battaner, ; RAE, ). Para el primer diccionario, se utilizó la búsqueda compleja
del CD-ROM, y para el segundo se empleó la búsqueda avanzada de la plataforma Encla-
veRAE. Del listado que se obtuvo, se seleccionaron los  de cada uno más frecuentes,
menos ambiguos y comunes a las distintas variedades del castellano: ascender, elevar, esca-
lar, levantar y trepar como hipónimos de subir, y agachar, caer, derribar, descender y tumbar
en el caso de bajar.
Como corpus de trabajo, se utilizó el EsTenTen (Kilgarri & Renau ), en concreto,
la versión Spanish Web  (esTenTen, Eu + Am), que consta de, aproximadamente,
. millones de palabras, divididas entre el español peninsular y el español de Latino-
américa.
Finalmente, se utilizó el lexicón de polaridad de Martínez () para etiquetar los
adjetivos, verbos, sustantivos y locuciones con carga positiva o negativa que coocurrieron
con los verbos seleccionados. Un lexicón de polaridad es un conjunto de unidades léxicas
que presentan una carga subjetiva que dirige hacia lo negativo o lo positivo, como aburrir-
se (–), admirable (+), etc. (Fauconnier, ; Giannakidou, ). Los lexicones de polaridad
se utilizan en minería de opinión para, por ejemplo, el análisis de la expresión del texto a
la voz (Alm et al., ), la búsqueda de contenido emocional en foros o noticias (Lloyd et
al., ; Balog et al., ) o el análisis de debates políticos y las respuestas a las pregun-
tas (Yu & Hatzivassiloglou, ). Actualmente, el análisis de sentimiento ha tenido un
gran desarrollo (Bosco et al., ; Cambria et al., ; Mäntylä et al., ; Nassif et al.,
) y sus herramientas, recursos y métodos se han ido ampliando más allá de la minería
de opinión; la presente investigación es un ejemplo de ello.

El lexicón de polaridad utilizado en esta investigación cuenta con aproximadamente
. unidades léxicas, cada una en una línea del chero seguidas de [N] en caso de ser
negativa o de [P] en caso de ser positiva (véase un fragmento en la tabla  a modo de ejem-
plo), mientras que las unidades neutras (del tipo mesa, estar, ahí, etc.) se encuentran au-
sentes del lexicón. Algunos de los  verbos seleccionados estaban recogidos en el lexicón
de polaridad empleado, por lo que, naturalmente, fueron deshabilitados del listado para
que no alteraran el análisis del algoritmo.
Tabla 1. Fragmento del lexicón de polaridad utilizado. P = positivo; N = negativo.
Afable P
Afectado N
Afectar N
Afecto P
Afectuoso P
3.2. Métodos
En primer lugar, se preparó la muestra y se creó la herramienta de medición, que consistió
en un script desarrollado en el lenguaje de programación Perl. Este script registra la fre-
cuencia de coocurrencia en el corpus entre los verbos y las unidades del vocabulario de
polaridad. En segundo lugar, se establecieron los criterios de análisis que nos permitieron
controlar mejor las variables. En tercer lugar, se aplicaron pruebas preliminares en otros
grupos de verbos que sirvieron para probar la validez del método, con el objetivo de, en la
última etapa, aplicarlo una vez validado por dichas pruebas.
Para preparar la muestra s e extrajo, con la herramienta virtual Jaguar (Nazar et al., ;
http://www.tecling.com/jaguar), una muestra aleatoria de . concordancias por cada
uno de los  verbos (ascender, elevar, escalar, levantar, trepar, agachar, caer, derribar, des-
cender y tumbar), cada una con una ventana de contexto de máximo  palabras a la iz-
quierda y  palabras a la derecha (el total de la muestra, pues, fue de . concordancias).
El corpus EsTenTen tiene etiquetado morfosintáctico con TreeTagger (Schmid, ), que
durante décadas se consideró el sistema más avanzado para ello, tanto en castellano como
en otras lenguas, lo que permitió obtener las concordancias con las unidades léxicas lema-
tizadas. Esto facilitó el cruce con las unidades del lexicón de polaridad, que se encuentran
también lematizadas. Como último paso de preparación de este material, cada muestra de
. concordancias de cada verbo se trasladó a un archivo distinto.
Correlación entre la metáfora orientacional bueno es arriba / malo es abajo y polaridad positiva/negativa en verbos del
español: un estudio con estadística de corpus

Digital Humanities, Corpus and Language Technology
Con el objetivo de medir la polaridad de las unidades léxicas que coocurren con algu-
no de los  verbos en cuestión, el script en lenguaje Perl que desarrollamos permite buscar,
evaluar, agrupar y contar las unidades léxicas del lexicón en nuestra muestra. Este código,
en concreto, se separa en tres acciones que se describen a continuación:
 Lectura e instrumentalización del lexicón de polaridad. Se asignó un valor a cada unidad
léxica del lexicón de polaridad para luego reconocer y contabilizar dichas unidades en
las concordancias. El objetivo fue hacer que tanto las unidades léxicas negativas como
las positivas del lexicón sumaran  por cada vez que aparecieran en una concordancia
(a menos que la unidad léxica tuviese  o menos letras: esto se hizo para evitar ruido de
adverbios de negación, entre otros problemas).
 Clasicación de concordancias. Luego, se realizó un conteo de las unidades léxicas posi-
tivas y de las negativas que se encontraron en cada concordancia. Como output, se
obtuvo la polaridad de cada concordancia. Si la concordancia presentaba más casos de
unidades léxicas positivas que negativas, la concordancia se clasicó como positiva, y
viceversa. Si se contaba el mismo número de unidades léxicas positivas que negativas,
la concordancia se clasicó como neutra. Por último, si no había unidades léxicas del
lexicón de polaridad en la concordancia, esta también se clasicó como neutra.
 Clasicación de verbos. Finalmente, se sumó el resultado de la clasicación anterior a
nivel de concordancias por cada verbo, con el n de determinar la tendencia del verbo
hacia ‘positivo’ o ‘negativo. La mayor cantidad de concordancias etiquetadas como po-
sitivas por cada verbo daba como resultado que el verbo se clasicaba como ‘positivo, y
viceversa.
4. Análisis de datos
4.1. Criterios de análisis
Una vez conformados los materiales y establecidos los métodos se tomó la decisión de jar
un umbral de comportamiento neutro de los verbos. En concreto, se postuló que si un
verbo poseía un  o más del total de concordancias que no resultaran ni positivas ni
negativas, ese verbo se consideraría neutro, ya sea por una igualdad entre los resultados
locales (+) y (−) en el verbo en cuestión o porque fueron más las concordancias en las que
el algoritmo no encontró unidades léxicas del lexicón de polaridad, debido a la extensión
de este último. Con esto se controló que la cantidad de concordancias con polaridad fuera
signicativa respecto con el total de concordancias por cada verbo. Para determinar la

signicación estadística de los resultados se empleó el nivel alfa de ., tal como es habi-
tual en ciencias sociales.
4.2. Pruebas preliminares
Antes de analizar el grupo de verbos que eran objeto de estudio, se realizaron pruebas con
dos grupos de verbos para evaluar la efectividad del método. La prueba  se realizó para
medir la conabilidad del instrumento, y consistió en aplicar el algoritmo a  verbos con
sentido positivo y  verbos con sentido negativo, en ambos casos no vinculados a las metá-
foras orientacionales que son objeto de estudio y con sentidos positivo o negativo muy
evidentes: agradecer, bendecir, felicitar, festejar, sonreír, destruir, empeorar, entristecer,
lamentar, llorar. La prueba  consistió en observar el resultado del algoritmo con  verbos
a los que no se podría asociar a priori un sentido positivo ni negativo, es decir, verbos
considerados neutros: pensar, decir, estar, dibujar, escribir, tomar, traducir, consistir, leer,
vestir. Ambas pruebas fueron realizadas con el mismo corpus empleado para los verbos en
estudio. Los resultados de estas dos pruebas preliminares se muestran en la tabla .
Tabla 2. Resultados de las pruebas preliminares.
Prueba 1
Verbos Total + Total – % concor-
dancias con
polaridad del
verbo
Polaridad
resultante
+/–
Valor p
agradecer 3260 366 73 < 2.2e-16
bendecir 3143 449 72 < 2.2e-16
felicitar 3194 366 71 < 2.2e-16
festejar 2545 685 65 < 2.2e-16
sonreír 2504 1045 71 < 2.2e-16
destruir 1339 1998 67 < 2.2e-16
empeorar 1242 2131 67 < 2.2e-16
entristecer 963 1278 66 = 2.85e-11
lamentar 1357 1916 65 < 2.2e-16
llorar 1569 1909 70 = 8.156e-09
Prueba 2
Correlación entre la metáfora orientacional bueno es arriba / malo es abajo y polaridad positiva/negativa en verbos del
español: un estudio con estadística de corpus

Digital Humanities, Corpus and Language Technology
Verbos Total + Total – % concor-
dancias con
polaridad del
verbo
Polaridad
resultante
+/–
Valor p
pensar 1873 1336 64 +< 2.2e-16
decir 1904 1215 62 +< 2.2e-16
estar 1987 1233 64 +< 2.2e-16
dibujar 2096 969 61 +< 2.2e-16
escribir 1958 1013 59 +< 2.2e-16
tomar 1865 1211 62 +< 2.2e-16
traducir 2177 1064 65 +< 2.2e-16
consistir 2126 921 61 +< 2.2e-16
leer 2006 982 60 +< 2.2e-16
vestir 1985 1034 60 +< 2.2e-16
La tabla  indica que, con respecto a la prueba , ninguno de los  verbos superó el umbral
de comportamiento neutro que se estableció ( o más), lo que implica que la cantidad
de concordancias evaluadas como positivas o como negativas es signicativa en conside-
ración al total de concordancias por cada verbo. En segundo lugar, se observa que el algo-
ritmo reconoció en el grupo de verbos de la prueba  los  verbos de polaridad positiva
como positivos y los  verbos de polaridad negativa como negativos, tal como se esperaba.
Por otra parte, se puede observar que ningún verbo presenta un valor p mayor a ., por
tanto, ninguno de estos resultados puede atribuirse al azar, lo que demuestra que hay una
dependencia estadística entre estos  verbos y la polaridad que obtuvieron como resulta-
do.
En el caso del grupo de verbos de la prueba , los  verbos presentaron polaridad
positiva (+), lo que constituye un hallazgo imprevisto. Igual que en la prueba , en este caso
el valor p también fue siempre menor a ., lo que signica que la probabilidad de que
estos resultados hayan sido producto del azar es remota (.). Este resultado indica
probablemente que ciertos verbos, aunque no tengan una polaridad aparente, generalmen-
te presentan una tendencia hacia la polaridad positiva (+); por ejemplo, se identican ac-
tividades como pensar, leer o escribir como positivas en la mayoría de los casos. La profun-
dización en el estudio de este hallazgo, que no se encuentra entre los objetivos de la
investigación, se deja para trabajo futuro.
5. Resultados y discusión
Como ya se mencionó en el apartado ., se analizaron  verbos con orientación arriba
(ascender, elevar, escalar, levantar y trepar) y  verbos con orientación abajo (agachar, caer,

derribar, descender y tumbar), que sirvieron para reejar el binomio orientacional  /
. Para analizar su relación con aquellas unidades léxicas que reejan los conceptos
 /  se aplicó el método descrito en el apartado , una vez ya realizadas las eva-
luaciones que permitieron asegurar la conabilidad (prueba ) y exiblidad (prueba ) del
instrumento de medición. Los resultados del estudio se presentan en la tabla .
Tabla 3. Resultados del análisis del grupo de verbos en estudio.
Verbos Total + Total – % concor-
dancias
con pola-
ridad del
verbo
Dif. total +
y total –
Polaridad
resultante
+/–
Chi cua-
drado
Valor p
ascender 1688 1078 55 610 1.345.264 < 2.2e-16
elevar 2055 1131 64 924 2.679.774 < 2.2e-16
escalar 1803 1474 66 329 330.305 = 9.072e-09
levantar 1665 1472 63 193 118.741 = 0.0005692
trepar 1811 1044 57 767 2.060.557 < 2.2e-16
agachar 1508 1670 64 162 8.258 = 0.004057
caer 1304 1890 64 586 1.075.128 < 2.2e-16
derribar 1425 1846 65 421 541.856 = 1.824e-13
descender 1410 1459 57 49 0.8369 = 0.3603
tumbar 1535 1620 63 85 2.29 = 0.1302
En la tabla  se muestra, en primer lugar, que ninguno de los  verbos superó el umbral
de comportamiento neutro que se estableció ( o más). El mayor porcentaje analizado
se presenta en el verbo escalar con  y el menor porcentaje analizado se presenta en el
verbo ascender con ), por lo que, como se explicó anteriormente, la polaridad fue esta-
dísticamente signicativa en consideración al total de concordancias por cada verbo. En
segundo lugar, los resultados arrojaron que los verbos de orientación  se vinculan
con el sentido positivo, mientras que los verbos de orientación  se vinculan con el
sentido negativo. La probabilidad de que este resultado fuera por azar es de . y, por
tanto, prácticamente nula.
Para comprobar en cuántos casos existe o no dependencia estadística entre las dos
variables, se aplicó el test del chi cuadrado, que arrojó que descender (.) y tumbar
Correlación entre la metáfora orientacional bueno es arriba / malo es abajo y polaridad positiva/negativa en verbos del
español: un estudio con estadística de corpus

Digital Humanities, Corpus and Language Technology
(.) presentan un valor p mayor a . y, por tanto, los resultados no son estadística-
mente signicativos. Los otros  verbos presentan, sin embargo, un valor menor al alfa
., lo que muestra que hay una dependencia estadística entre estos verbos y el sentido
positivo o negativo que se obtuvo como resultado de la aplicación del método. Es decir, en
cuanto a la formulación de nuestra hipótesis, en el  de los casos esta se conrmó.
Estos resultados, en consideración con lo estipulado en los criterios de análisis, permi-
ten comprobar que existe una relación entre la variable orientación vertical y la variable
polaridad positiva o negativa en contextos reales de uso de las unidades de análisis. Ello
permite comprobar empíricamente y mediante métodos de estadística de corpus la metá-
fora orientacional /   y /   en un nivel lingüísti-
co. Con ello se puede armar con un grado elevado de certeza que los verbos que presen-
ten un sentido de ‘subir’ tenderán a formar parte de frases en las que se expresará un
sentido ‘positivo, y los verbos con sentido ‘bajar’ tenderán a estar incluidos en frases con
sentido ‘negativo. Así, por ejemplo, véase la concordancia  de agachar:
agachaba la mirada con tristeza...
En este contexto se observa una polaridad negativa que es reconocida por el script al detec-
tar una unidad negativa presente en el lexicón de polaridad utilizado (tristeza) y ninguna
positiva; el resto de unidades (ver, nalmente, tiempo y mirada) son neutras. Un caso
opuesto se muestra en la concordancia  de elevar:
...cambios estructurales han permitido avanzar  estabilidad, elevar la  de la
economía...
En este contexto, el script reconoció cuatro unidades positivas (permitir, avanzar, estabili-
dad y eciencia) y ninguna negativa (pues el resto son neutras: cambio, estructural, signi-
cativamente, economía). (Se recuerda que tanto agachar como elevar, igual que el resto de
verbos en estudio, se excluyeron del lexicón para no interferir en los resultados y, por tanto,
no fueron contabilizados como positivos ni negativos).
Finalmente, el siguiente ejemplo (concordancia  de agachar) muestra que las catego-
rías  y  pueden ser controvertidas, lo que mueve a considerar que sería
difícil obtener un  de precisión con este método, como es habitual en semántica:
...ahora nos faltaagachar la cabeza de una vez y reconocererrores 

En este caso, el algoritmo identica las unidades faltar y error como unidades negativas y
reconocer como positiva y, por tanto, adjudica un resultado de polaridad negativa a esta
concordancia. Si bien la expresión agachar la cabeza es claramente negativa, podría consi-
derarse que reconocer nuestros errores, y especialmente el conjunto del contexto, es una
secuencia positiva. Esto ocurre también con adjetivos como gran(de) (+) o poco (–), que
pueden generar secuencias de polaridad contraria a la del adjetivo aislado: gran pena (–),
pocas críticas (+). Estos casos, si bien producen cierto porcentaje de error, se compensan
con la gran cantidad de datos analizados (. concordancias por cada verbo), lo que
reduce el impacto de este tipo de secuencias en la muestra.
Además, cabe destacar que los resultados arrojaron una mayor circulación de unidades
léxicas positivas a nivel general de los verbos analizados, con independencia de la polaridad
con la que fueron evaluados. Este fue un resultado sorprendente, sobre todo por la dife-
rencia reejada en el total de concordancias analizadas como positivas y en el total de
concordancias analizadas como negativas ( + frente a  total) de los verbos anali-
zados (prueba , prueba  y grupo en estudio). Además, la prueba  dio como resultado la
polaridad positiva en  de  verbos sin una polaridad aparente, lo que es otra prueba de
esta tendencia. Asimismo, la mayor diferencia entre total + y total – se dio en los verbos
evaluados como positivos, lo que habla de que, por lo general, tienen una polaridad más
marcada que los negativos (véase la gura  para ampliar el panorama de los datos).
En último lugar, el total de concordancias con polaridad en el total de verbos fue de
., es decir, un promedio de , del total analizado (. concordancias) (véase
la gura ). Este resultado, si bien es estadísticamente suciente, puede mejorar conforme
se emplee un lexicón de polaridad más amplio o se amplíe el utilizado, y el instrumento de
medición se vaya complejizando.
Correlación entre la metáfora orientacional bueno es arriba / malo es abajo y polaridad positiva/negativa en verbos del
español: un estudio con estadística de corpus

Digital Humanities, Corpus and Language Technology
Figura 1. 
grupo de verbos en estudio).
6. Conclusión y perspectivas
Esta investigación se situó en la problemática de la metáfora conceptual y su estudio desde
el análisis de corpus. En concreto, su enfoque radica en el análisis estadístico de un tipo de
metáfora orientacional y su materialización lingüística en contextos reales de uso. Para
observar el binomio / se buscaron verbos que presentaran en su denición
el verbo subir o bajar, mientras que para observar los dominios  y  se empleó
el recurso del lexicón de polaridad con el n de observar el comportamiento discursivo de
estos dominios conceptuales que física, cultural y socialmente son entendidos a nivel gene-
ral como positivos y negativos, respectivamente.
A partir de los resultados mostrados en el apartado anterior, se puede conrmar que la
relación entre verbo con orientación ya sea  o  y la polaridad ‘positiva’ y ‘ne-
gativa, respectivamente, se maniesta a nivel lingüístico y es coherente con los postulados
de la metáfora orientacional (Lako & Johnson , b; Lako, ). Es decir, un
verbo con signicado ‘arriba’ tiende a aparecer combinado con unidades léxicas son sen-
tido positivo, y un verbo con signicado ‘abajo’ tiende a aparecer combinado con unidades
léxicas con sentido negativo.

Como trabajo futuro, el algoritmo confeccionado se puede aplicar empleando otros
lexicones que permitan analizar el uso de otras expresiones metafóricas, como puede ser,
por ejemplo, el caso de un lexicón de términos bélicos que aporte en el análisis de la me-
táfora estructural      en su dimensión lingüística. Para ello, se
podrían, eventualmente, extraer expresiones de foros o situaciones comunicativas en las
que personas debatan con respecto a un tema y hacer la búsqueda de las unidades del le-
xicón de términos bélicos en estas expresiones de situaciones comunicativas de debate o
discusión. Este es uno de los tantos ejemplos en los que el algoritmo puede contribuir en
los estudios de las metáforas conceptuales con métodos de estadística de corpus. Asimismo,
el léxico trabajado en cuanto a verbos con polaridad / se puede ampliar me-
diante otras técnicas, como por ejemplo utilizando algoritmos de aprendizaje automático.
Alternativamente, también se podría intentar la expansión del lexicón de polaridad utili-
zando los mismos métodos de esta investigación. Por ejemplo,  de  los verbos estudiados
tienen una dependencia estadística con la polaridad asignada, lo que implica que se pueden
agregar al lexicón de polaridad escalar y trepar como unidades léxicas positivas y agachar
como una unidad léxica negativa, entre otros verbos que actualmente no se encuentran en
dicho recurso.
Referencias
Alm, C., Roth, D. & Sproat, R. (). Emotions from text: machine learning for text-based emotion
prediction. En R. Mooney, C. Brew, L.-F. Chien & K. Kirchho (Eds.), Proceedings of the
Conference on Human Language Technology and Empirical Methods in Natural Language
Processing (pp. -). Association for Computational Linguistics.
Baccianella, S., Esuli, A., & Sebastiani, F. (). Sentiwordnet .: an enhanced lexical resource for
sentiment analysis and opinion mining. En N. Calzolari, K. Choukri, B. Maegaard, J. Mariani,
J. Odijk, S. Piperidis, M. Rosner & D. Tapias (Eds.), Proceedings of the Seventh International
Conference on Language Resources and Evaluation (LREC’), (pp. -). European
Language Resources Association.
Balog, K., Mishne, G. & De Rijke, M. (). Why are they excited? Identifying and explaining spikes
in blog mood levels. En D. McCarthy & S. Wintner (Eds.), th Conference of the European
Chapter of the Association for Computational Linguistics. Proceedings of the conference (pp. -
). Association for Computational Linguistics.
Battaner, P. (). Diccionario de uso del español de América y España. Spes. Versión CD- ROM.
Bosco, D., Patti, V. & Bolioli, A. (). Developing corpora for sentiment analysis and opinion
mining: a survey and the Senti-TUT case study. IEEE Intelligent Systems, (), -.
Cambria, E., Gelbukh, A., Poria, S. & Kwok, K. (). Sentic API: a common-sense based API for
concept-level sentiment analysis. En M. Rowe, M. Stankovic & A.-S. Dadzie (Eds.), Proceedings
of the the th Workshop on Making Sense of Microposts (pp. -).
Casasanto, D. & Dijkstra, K. (). Motor action and emotional memory. Cognition, (), -.
Correlación entre la metáfora orientacional bueno es arriba / malo es abajo y polaridad positiva/negativa en verbos del
español: un estudio con estadística de corpus

Digital Humanities, Corpus and Language Technology
Casasanto, D. & De Bruin, A. (). Metaphors we learn by: directed motor action improves word
learning. Cognition, , -.
Charteris-Black, J. (). Metaphor and vocabulary teaching in ESP economics. English for Specic
Purposes, (), -.
Crawford, E., Margolies, S., Drake, J. & Murphy, M. (). Aect biases memory of location:
evidence for the spatial representation of aect. Cognition and Emotion, (), -.
Deignan, A. (). Corpus linguistics and metaphor. En R. Gibbs (Ed.), e Cambridge handbook
of metaphor and thought (pp. -). Cambridge University Press.
Dezheng, F. (). Visual space and ideology. A critical cognitive analysis of spatial orientations in
advertising. En K. O’Halloran & B. Smith (Eds.), Multimodal studies. Exploring issues and
domains (pp. -). Routledge.
Fauconnier, G. (). Polarity and the scale principle. Chicago Linguistic Society, , -.
Fernández Rodríguez, Á. (). La metáfora orientacional en traducción económica (fr-es-fr).
Çédille. Revista de Estudios Franceses, , -.
Giannakidou, A. (). e meaning of free choice. Linguistics and Philosophy, (), -.
Gibbs Jr, R. W., Gibbs, R. W., & Gibbs, J. (). e poetics of mind: gurative thought, language, and
understanding. Cambridge University Press.
Graupe, S. & Steestun, T. (). ‘ e market deals out prots and losses’ – How standard economic
textbooks promote uncritical thinking in metaphors. Journal of Social Science Education, (,
-.
Hatzivassiloglou, V. & Wiebe, J. M. (). Eects of adjective orientation and gradability on sentence
subjectivity. En M. Kay (Ed.), COLING ‘: Proceedings of the th Conference on Computational
Linguistics, (pp. -). Association for Computational Linguistics.
Kilgarri, A. & Renau, I. (). EsTenTen, a vast web corpus of Peninsular and American Spanish.
Procedia-Social and Behavioral Sciences, , -.
Kövecses, Z. (). Metaphor. A practical introduction. Oxford University Press.
Kövecses, Z. (). Conceptual metaphor theory: some criticisms and alternative proposals. Annual
Review of Cognitive Linguistics,, -.
Lako, G. & Johnson, M. (). Metaphors we live by. University of Chicago Press.
Lako, G. (). e contemporary theory of metaphor. En A. Ortony (Ed.), Metaphor and thought
(.a ed.) (pp. -). Cambridge University Press.
Lako, G. & Johnson, M. (). Philosophy in the esh. e embodied mind and its challenge to western
thought. Basic Books.
Liu, D. & Mo, Q. (). Conceptual metaphors and image schemas: a corpus analysis of the
development of the on track/o track idiom pair. Journal of English Linguistics, (), -.
Lloyd, D. K. & Skiena, S. (). Lydia: a system for large-scale news analysis. En M. Consens & G.
Navarro (Eds.), String Processing and Information Retrieval. th International Conference, SPIRE
 (pp. -). Springer.
Luque, F. (). La metáfora conceptual en el discurso político euroescéptico (francés-español).
Logos: Revista de Lingüística, Filosofía y Literatura, (), -.
Mäntylä, M. V., Graziotin, D. & Kuutila, M. (). e evolution of sentiment analysis: a review of
research topics, venues, and top cited papers. Computer Science Review, , -.
Martínez, R. (). La incidencia de las interacciones verbales en la conguración de la red social
twitter: un análisis desde la polaridad, la novedad y el prestigio [Tesis doctoral]. Ponticia
Universidad Católica de Valparaíso.

Meier, B. & Robinson, M. (). Why the sunny side is up: associations between aect and vertical
position. Psychological Science, (), -.
Meier, B. & Robinson, M. (). Does “feeling down” mean seeing down? Depressive symptoms
and vertical selective attention. Journal of Research in Personality, (), -.
Nassif, A., Elnagar, A., Shahin, I. & Henno, S. (). Deep learning for Arabic subjective sentiment
analysis: challenges and research opp ortunities. Applied So C omputing Journal, , , -.
Nazar, R., Vivaldi, J. & Cabré, M. T. (). A suite to compile and analyze an LSP corpus. En N.
Calzolari, K. Choukri, B. Maegaard, J. Mariani, J. Odijk, S. Piperidis & D. Tapias (Eds.), Proceedings
of the Sixth International Conference on Language Resources and Evaluation (LREC’), (pp.
-). European Language Resources Association.
Potts, A. & Semino, E. (). Cancer as a metaphor. Metaphor and Symbol, (), -.
Real Academia Española. (). Diccionario de la lengua española (.a ed.). Espasa.
Santana, E. & De Vega, M. (). Metaphors are embodied, and so are their literal counterparts.
Frontiers in Psychology, , -.
Semino, E., Demjén, Z. & Demmen, J. (). An integrated approach to metaphor and framing in
cognition, discourse, and practice, with an application to metaphors for cancer. Applied
Linguistics, (), -.
Semino, E., Heywood, J. & Short, M. (). Methodological problems in the analysis of metaphors
in a corpus of conversations about cancer. Journal of Pragmatics, (), -.
Schmid, H. (). Probabilistic part-of-speech tagging using decision trees. Proceedings of
International Conference on New Methods in Language Processing.
Soriano, C. (). La metáfora conceptual. En I. Ibarretxe-Antuñano & J. Valenzuela (Coords.),
Lingüística cognitiva (pp. -). Anthropos.
Yu, H. & Hatzivassiloglou, V. (). Towards answering opinion questions: separating facts from
opinions and identifying the polarity of opinion sentences. En Proceedings of the  Conference
on Empirical Methods in Natural Language Processing (pp. -). Ass ociation for Computational
Linguistics.
Zhao, X., Han, Y., & Zhao, X. (). A corpus-based study of metaphor in Pavilion of women. Chinese
Semiotic Studies, (), -.
Correlación entre la metáfora orientacional bueno es arriba / malo es abajo y polaridad positiva/negativa en verbos del
español: un estudio con estadística de corpus

UnderRL Tagger: a free soware for Under-Resourced Languages POS tagging
C XV
UnderRL Tagger1
for Under-Resourced Languages
POS tagging
UnderRL Tagger: un soware libre
para etiquetar POS en Under-
Resourced Languages
José Luis Pemberty Tamayo & Jorge Mauricio Molina Mejía
Universidad de Antioquia – Colombia
Abstract:POS
tagging in a multiplicity of languages that do not have automatic taggers. The pro-
     
-
ally automated thanks to a system that makes it possible to recall and reuse tags, as
XML format
EAGLES system.
Resumen:
el etiquetado de POS en una multiplicidad de lenguas que no cuentan con etiqueta-
dores automáticos. El programa busca facilitar el trabajo con corpus en estas lenguas
a través de la lingüística computacional. Su funcionamiento permite que el proceso
manual de etiquetado se convierta poco a poco en automático gracias a un sistema
que permite recordar y reutilizar las etiquetas, de la misma manera en que permite
manejar grandes cantidades de textos y generar archivos de salida en formato XML
con etiquetas basadas en el sistema EAGLES.
1 UnderRLPOS
-
search team Corpus Ex Machina (Facultad de Comunicaciones y Filología, Universidad de Antioquia). The computer
program has been patented in 2020 by J. L. Pemberty Tamayo, J. M. Molina Mejía and M. I. Marín Morales (2020).

Digital Humanities, Corpus and Language Technology
1. Introduction
One of the most notorious aspects in the research and study of current Linguistics is the use
of textual corpora for various purposes, for example: grammatical analysis (Parodi, ;
Biber & Finegan, ; Jones & Waller, ), anaphora resolution (Mitkov, ; Poesio,
Stuckardt & Versley, ; Grajales Ramírez & Molina Mejía, ), statistical analysis by
means of corpora (Beaudouin, ; Brezina, ; Wallis, ), etc. On the other hand, it is
possible to observe the way in which a strong relationship has been established with Com-
putational Linguistics (Mitkov, ; Wilks, ; Molina Mejía, ), precisely for the
processing, handling, and interpretation of required amounts of data (Zeroual & Lakhouaja,
). Within this scenario, written texts play a prominent role, since they lend themselves
to computational processes more easily than other forms of language use (Baquero Velásquez,
; Parodi, ). Such ease has made it possible to standardize dierent levels of annota-
tion or tagging, which are ways of enriching the information in the text, making the linguis-
tic notions underlying their use patent (McEnery & Hardie, ). An example of this is the
POS (Part-of-Speech) level, the simplest and most necessary as a rst step in the annotation
of texts with linguistic information (Parodi, ; Straka & Straková, ).
e aforementioned process acquires importance when considering the purposes pur-
sued by Corpus Linguistics, because it permits computers to process information to which
they would not otherwise have access. In this sense, soware products have also been built
that, based on dierent systems of rules or articial intelligence, can automatically perform,
with a high degree of success, common forms of tagging in dierent languages, generally
the most widely spoken ones such as Spanish, English, French, German, among others
(Molina Mejía, ).
Automation in the case of corpus tagging is of great importance, since the manual work
that would be required to annotate a robust corpus of texts is quite expensive in time, eort
and human resources, not to say that it can oen seem impossible. is situation places
languages that do not have the computerized means to be processed eciently, at a disad-
vantage; since the need for manual work limits the information that can be taken for an
investigation, as well as it can dissuade potential scholars from dedicating themselves to
taking them as an object of work. is group is known as Under-Resourced Languages
(henceforth URLa) (Krauwer, ).
Considering all of the above, this chapter presents “UnderRL Tagger” (Pemberty Ta-
mayo, Molina Mejía & Marín Morales, ), a soware that aims to help researchers in
the process of tagging textual corpora in URLa, based on a system that permits to recall
the tags associated with certain words and automating their annotation as much as possi-


ble (Pemberty Tamayo, ). It should be noted that the aim of the work is not to achieve
fully automatic tagging, but to assist the manual process, as will be seen in the following
pages. is program is the result of work done at the level of conception and elaboration
of semi-automatic POS tagging systems for Under-Resourced Languages (Pemberty Ta-
mayo, ; Pemberty Tamayo & Molina Mejía, ; Pemberty Tamayo et al., ).
2. State of the Art
As mentioned in the previous section, a clear antecedent of the works whose subject is
corpus annotation are the computer platforms and computational tools that currently
fulll the task of automatically tagging large amounts of texts in dierent languages. Some
well-known free access tools are TreeTagger (Schmid, ) and TagAnt (Anthony, ),
which could help with the tagging of some dierent languages at the Part of Speech -POS-
level (Weisser, ).
Other prominent names are FreeLing (Padró, Collado, Reese, Lloberes & Castellón,
) and Stanford Parser (Schuster & Manning, ), which allow annotation at dier-
ent levels of analysis such as parsing (generation of syntactic trees from dependency gram-
mar and immediate constituents, alternatively), recognition of coreferential chains (anaph-
ora and cataphora), elaboration of semantic graphs, analysis of named entities, etc.
Regarding FreeLing, it is important to note that this program uses the EAGLES system as
a standard for the annotation of the dierent human languages.
e EAGLES are a series of conventions adopted by dierent groups in the work with
corpora; they were proposed by the “Expert Advisory Group on Language Engineering
Standards” (Leech & Wilson, ) and consist of a series of regulations in the use of certain
codes for the dierent possible values in the tagging of POS notions. Bearing this in mind,
the work presented here also embraces this standardization, its existence being an impor-
tant antecedent in the denition of the algorithms described later in this chapter.
Within the framework of the creation of a computer system destined to under-re-
sourced languages and minority languages, it is important to start from a standardized
morphosyntactic tagging system. In this way, both researchers and specialists in this type
2 POS and lemma information. More information can be found at

3 POS-

4 
link: http://nlp.lsi.upc.edu/freeling/node/1
5 
lex-parser.shtml

Digital Humanities, Corpus and Language Technology
of language will be able to understand each other. Starting from this premise, it was decid-
ed to aim to have the tags proposed by the EAGLES project. is should permit the program
to be used by specialists in minority and under-resourced languages in dierent geograph-
ical and linguistic contexts, and the data obtained from research in dierent languages to
be shared globally. It is also worth mentioning dierent academic works that focus on the
computational treatment of URLa; ese works are based on approaches as varied as the
annotating of specic languages, such as Arabic and Vietnamese (El-Haj, Kruschwitz &
Fox, ; Le & Besacier, ); speech recognition (Besacier, Barnard, Karpov & Schultz,
) or corpus collection by obtaining texts from the web (Scannell, ). ese works
share with “UnderRL Tagger” their concern for this group of languages, but they also have
the dierence that they do not properly deal with automated assistance in manual corpus
tagging and their approaches are, in most cases, monolingual.
Unlike these studies, two remarkable computer programs have also been found, since,
although they do not mention the concept of URLa in their documentation, they mark
more notable antecedents in relation to the objective of this work. ese are “FieldWorks
Language Explorer” (Moe, ) and “Field Linguist’s ToolBox” (Buseman & Buseman,
), both designed to manage corpora in dierent languages, mainly with the intention
of processing them at the lexicographic level and in order to nally produce a dictionary
of the languages worked by each of them (Rogers, ).
However, these soware programs, given the breadth of their eld of application, could
hinder the simplest task of obtaining an annotated corpus in each language, in addition to
the fact that they also lack a standardization in the eld of Corpus Linguistics such as those
mentioned in EAGLES. In this sense, they are established as antecedents of this work, but
their functionalities are not the same as those of “UnderRL Tagger” (Pember ty Tamayo, ).
3. Theoretical Framework
3.1. Computational Linguistics and Natural Language Processing
Computational Linguistics is usually dened as a discipline whose purpose is the construc-
tion of computer systems that process linguistic structures and simulate human linguistic
capabilities (Moreno Sandoval, , pp. -). is discipline is framed within Applied
Linguistics (Moreno Sandoval, ; Tordera Yllescas, , Molina Mejía, ) and, fol-
lowing the opinion of several authors (Sáiz Noeda, ; Tordera Yllescas, ), it will be
considered in this chapter as a synonym of NLP (Natural Language Processing).


Although many authors agree on this general denition, there are dierent ways of
delimiting the scope of Computational Linguistics. From practical approaches that include
all types of computer language processing (Mitkov, , p.), to more theoretical points
of view, which focus on how the simulation of linguistic capacity helps to understand
linguistic behaviour of natural languages (Tordera Yllescas, ). Considering, in addition,
the use or creation of computational models or tools that allow the computational process-
ing of natural languages, which should permit, a fortiori, that the language itself can serve
as an input for scientic research and/or formulation of programs that can be applied in
life, in society in general, thanks to the analysis of linguistic corpora in context (Molina
Mejía, ).
In this dierence of opinions, intermediate approaches have been found, such as that
of Moreno Sandoval (), who proposes the following applications: a) systems that try
to emulate the human capacity to process natural languages; b) programs to aid writing
and textual composition; and c) computer-assisted teaching and linguistic task support
systems (pp. -). is last group includes tools for managing and annotating linguistic
corpora, i.e., the work presented here. is list of applications can be extended with more
current functionalities, following Nerbonne () and Molina Mejía (): a) speech
recognition; b) speech synthesis; c) data mining; d) automatic completion systems in
smartphones; e) management of academic documents and databases; f) conversational
systems; g) automatic topic detection; h) automatic summarization; i) automatic document
classication, among others.
It is also common to nd that C omputational Linguistics is understood from its division
into theoretical and applied. eoretical Computational Linguistics deals with the con-
struction of linguistic abstractions that encompass both computer and natural language
phenomena, as well as the construction of algorithms that help model and test these ab-
stractions (Nerbonne, , p.). Applied Computational Linguistics is dedicated to the
construction of computer tools to manipulate language for dierent purposes (Nerbonne,
). e delimitation of these applications, as mentioned above, varies depending on the
authors, however some may be mentioned: a) automatic translation; b) information re-
trieval; c) human-machine interfaces; d) text analysis tools; e) lexicographic databases; f)
spelling, syntax, and style checkers; and g) educational programs for language teaching
(Moreno Sandoval, , pp. -).

Digital Humanities, Corpus and Language Technology
3.2. Corpus Linguistics
Corpus Linguistics is dened as a “methodology for languages and language research,
which allows empirical investigations to be carried out in authentic contexts” (Parodi,
, p.). Considering the empirical and authentic character indicated by this denition,
this methodology can be related to the functionalist model of linguistics, which seeks to
understand linguistic phenomena in real situations. is model is opposed to the genera-
tivist model, which is dedicated to theorizing about phenomena through linguistic intui-
tion (Baquero Velásquez, , p.; McEnery & Hardie, ).
s tasks that t within Corpus Linguistics, we can include the collection, processing and
analysis of large amounts of data representative of the use of the language or languages that
are assumed as object of study (Baquero Velásquez, ; Bernal Chávez & Hincapié More-
no, ; McEnery & Hardie, ). ere is, moreover, a marked interdisciplinarity in this
methodology, as it works both for the investigation of phenomena at any level of the lan-
guage and to help in meeting the objectives of dierent elds of Applied Linguistics (Par-
odi, , p.).
Given that authenticity, representativeness and interdisciplinarity have been such im-
portant aspects in working with corpora; the relationship that can be established between
Computational Linguistics and Corpus Linguistics becomes evident, since the former has
provided the necessary mechanisms for handling large amounts of data information and
its processing by various means (Baquero Velásquez, ; Bernal Chávez & Hincapié
Moreno, ; Parodi, ) and, on the other hand, the need for corpora that possess a
high level of quality and variety in discourses and textual typologies (Molina Mejía, ).
is relationship is even taken for granted nowadays, through authors who go so far as
to dene a corpus as a series of texts that can be processed by computers (McEnery &
Hardie, , p.). However, this relationship has not always been present, and in previous
times, such as the mid-twentieth century (Bernal Chávez & Hincapié Moreno, , p.)
and even the nineteenth century (Baquero Velásquez, ), it has been necessary to carry
out work with corpora manually. is implied enormous complications, since the more the
amount of data with which one works grows, the greater sums of time, money, eort, and
human capital are necessary, making some tasks unfeasible (Mitkov, , p.).
e help of computational means has therefore come to reduce the resources required
in these jobs and also the risk of human errors and loss of information. However, not all
languages have the appropriate tools to make use of these technologies, which places them
at a considerable disadvantage, insofar as it is not possible to carry out work of the same


magnitude with them as with languages that are more accessible to computer processing
(Baquero Velásquez, , p.).
3.2.1. What is a corpus?
e term corpus has already been used in the previous sections and, before continuing, it
is necessary to dedicate a few paragraphs to clarify its denition. We will start from the
proposal of Bernal Chávez and Hincapié Moreno (), for whom a corpus is a set of
digital texts that are collected and systemized following linguistic criteria. Note in this
denition the importance of computational means with respect to the need for texts to be
digital; in addition to this, it is also fundamental the fact that the collection and systemat-
ic organization of the corpus is done with respect to these linguistic criteria; this is the
main characteristic that distinguishes a corpus from any other collection of texts.
For its part, Parodi () proposes a more specic list of characteristics that can guide
us in understanding what a perfect corpus is:
 Collection of texts in natural environments.
 Explicitly of the dening features shared by the constituent texts.
 Final plain digital type format (*.txt) for each text or document.
 Size, preferably large.
 Respect for ecological principles.
 Semi-automatic computational tagging or annotation of a morphosyntactic or other
nature for each text.
 Availability through computational means.
 Access to complete visualization of the texts that compose it in plain format.
 Search for principles of proportionality or representativeness (possibly statistical).
 Livelihood or initial provenance specied.
 Identication of an organization around themes, types of texts, registers, genres, etc.
 Record of quantitative data that allows the comparison and possible normalization of
gures (p.).
 And to comply with all these elements at the same time, but that the importance of each
one can vary depending on the specic objectives of each collection of texts (p.).
In these characteristics, the need for computational processing is also evident, as well as
the need to make explicit the features shared by the texts; this may or may not be part of a
tagging or annotation, which is also part of the above list. With this in mind, an important
part of corpus work is usually the enrichment of textual information with other types of

Digital Humanities, Corpus and Language Technology
information that provides clarity about the underlying linguistic notions. is process is
known as tagging, and it will be the object to be dealt with in the next section.
3.3. Corpus Annotation
e construction of a corpus is a process that goes through dierent phases, which include
its design, data capture, storage system planning and text processing (Bernal Chávez &
Hincapié Moreno, , p.). Within this last step is a process called annotation.
A clearer denition of corpus annotation can be found in the work of McEnery and
Hardie (): “[…] is largely the process of providing —in a systematic and accessible
form— those analyses which a linguist would, in all likelihood, carry out anyway on what-
ever data they worked with” (p.). It is very important to take into account, from this
denition, the fact that the data included in the tagging are those that a linguist could ex-
tract from the collected texts, that is, the linguistic information that is implicit within the
use of language and that it must be made visible in a systematic way so that it can be rec-
ognized and processed by computer programs.
To achieve this systematic way of describing the information, specialized languages are
used in tagging, which help to assign dierent types of values to each of the elements of
the text, depending on what is to be said about them. Some of these languages are XML
(Extensible Markup Language), HTML (HyperText Markup Language) and GML (Gener-
alized Markup Language), as Bernal Chávez and Hincapié Moreno (, p.) explain.
JSON (JavaScript Object Notation) language and some standardized formats such as TEI
(Text Encoding Initiative) are also used very frequently, according to Molina Mejía ().
us, the result of a tagging process is usually a text in a format dierent from the original,
in which part of its implicit information is made visible.
e information that could be included in corpus annotation can be as wide as the
elements that play a role in communication are dierent and as varied as the objectives that
each researcher has when planning the construction of the corpus. In this sense, there is
great freedom in choosing what will be explicit in the tags of a corpus. However, in current
work it is possible to note that some forms of tagging have become standardized.
Two common types of annotations are the syntactic parsing, which focuses on analysis
of the functions that each word fulls in the syntax of the sentence (Parodi, , p.) and
the POS (Part-of-Speech) tagging, also known, following Mitkov (), as morphological
or lexical annotation. Although the term part-of-speech refers to something specic, this
type of tagging usually presents, in addition to this data, information on gender, number,
case, tense, mood, aspect and person (p.).


ere are dierent approaches to perform this task. For McEnery and Hardie (,
p.), a corpus can be tagged manually, automatically or an automatic process followed by
a manual review. e application of these methods may vary in their margin of error and
in the time and eort to be devoted to tagging, but as will be seen below, their choice de-
pends on how easy it is for a researcher to access automatic tagging methods in a given
language.
3.4. Under-Resourced Languages
Considering the aforementioned concepts, the importance of having properly compiled
and annotated corpora is evident, as well as the availability of tools for automatic language
processing in the studies that can be carried out in a given language (Pemberty Tamayo,
). us arises the concept of Under-Resourced Languages, which can be dened as
the set of languages that do not have the computer resources for their automatic process-
ing, as well as the lexicographic and corpus inputs that would serve as the basis for the
construction of these tools (Krauwer, ).
A denition can also be found in a series of criteria proposed in the works of Krauwer
() and Berment (), which propose the tools that a language must have in order to
be considered as having a basic level of access to computational linguistics technologies.
Languages that lack several of these elements are thus considered to be Under-Resourced
Languages:
a Lack of a single writing system or a stable spelling.
b Limited presence on the web.
c Lack of experts in Linguistics.
d Lack of electronic resources for speech and language processing.
e Lack of monolingual corpus.
f Lack of electronic bilingual dictionaries.
g Lack of transcribed oral corpus.
h Lack of pronunciation dictionaries and vocabularies.
As Maxwell & Hughes (, p.) mention, the availability of such tools in a language,
coupled with other extralinguistic factors, can greatly inuence a researcher’s decision to
work with it. is means that the lack of tools makes research in some languages less fre-
quent and, therefore, the creation of the same tools could be slow and dicult. e avail-
ability of these elements, at the same time, makes dierent applications of information and
communication technologies, such as machine translation or digital dictionaries, available

Digital Humanities, Corpus and Language Technology
to speakers of the language. at is why lling the gap in terms of tools for computational
processing in these languages is not only an academic interest, but also benets the com-
munities in which the language is spoken (Pemberty Tamayo, ).
Based on all the topics explored in this section, the need for tools for corpus tagging in
Under-Resourced Languages is evident. e UnderRL Tagger tool (Pemberty Tamayo et
al., ) proposes, through Computational Linguistics, a system that allows manual tag-
ging of large amounts of texts in dierent languages, with the help of the computer, which
provides the facility to speed up the process by a signicant proportion. is process can
also produce content that can be reused to annotate other corpora in the same language
and serve as a basis for the creation of applications that allow the fully automatic tagging
of texts (Pemberty Tamayo, ; Pemberty Tamayo et al., ).
4. Methodological Framework
Before describing the methodology through which this soware is built, it is necessary to
explain some elements that have served to frame it in a standard that facilitates its use in
the current environment.
Taking into account that the main objective of the application has been selected as the
POS level in tagging, the use of the EAGLES tag system (Leech & Wilson, ) was ac-
cepted for this purpose, which allows coding information such as grammatical category,
gender, number, etc., in a brief way, through dierent numbers and letters. An example is
shown below:
Table 1. Example of EAGLES tags for a Spanish sentence.
I BUY 
PP1CSN0 VMIP1S0 NCMS000
e table above shows how EAGLES tags are used to specify the information for each of
the words. However, these series of letters and numbers must be converted into a markup
language that can be computationally processed and parsed. To achieve this goal, the pro-
gram uses the XML language, which allows assigning individual elements within a series
of dening characteristics. us, in this language the corresponding tag can be assigned to
each of the text components. Both the EAGLES tags and the XML language correspond to
standards widely used in the corpus tagging environment, so their use guarantees under-
standing by a wide variety of researchers in the eld, as well as easy integration with pre-
vious projects or work that may have been carried out.


4.1 Description of the program structure
e UnderRL Tagger soware interface consists mainly of a window that can be interacted
with to navigate between corpus les, set tags and save or retrieve previous sessions. is
window constantly interacts with other les and folders that record everything necessary
to make the tagging process as ecient and correct as possible.
One of the folders is used by the system to store the data of the dierent dictionaries
that are created. e dictionary is a le in which the tags that can be reused in a given
corpus are stored, so that it is not necessary to re-enter them manually.
Another important location is the folder where the XML les containing the already
tagged texts are stored; this folder is automatically created in the same directory as the
original corpus texts. In addition, there is also a set of les that record at all times which
annotation projects are running and what their progress is; so, it is easy to interrupt the
tagging task at any time and come back to it later.
From here, the program can enter all the texts that make up the corpus, which must be
in plain text format (*.txt) and UTF- encoding, in which the computer will recognize a
wide variety of characters. All of them must be stored in a single folder, the address of which
will be entered in the application.
Once the texts are available, the soware will proceed to go through each of them, as
selected by the user, and perform a process that consists of separating the text by words. Once
the words have been separated, the main window shows the user each one of them, allowing
the user to select more than one when necessary. For each word, the user can select, through
several controls, the characteristics of the word to be tagged and the program takes care of
representing them according to the EAGLES model. In addition, a space in the interface
permits the creation of new tags or the editing of the default ones; in this way it is possible to
expand the tagging possibilities according to the needs outside the POS. Finally, once a tag
has been established, the user can save it in the nal XML le, where it will be arranged with
the rest of the text, with its corresponding tag and a unique identier.
In addition to simply tagging the word, the user can choose to save that tag in the dic-
tionary, so that each time the same word appears in the corpus, it will be automatically
tagged without user intervention. is is how this soware helps to greatly automate an-
notation, as it allows human intervention to be reduced to the points where it is really
necessary. Each time the tagger encounters a new word, it looks it up in the dictionary
before displaying it on the screen, so the same text can go through considerable chunks
before requiring human attention.

Digital Humanities, Corpus and Language Technology
As a consequence of this procedure, the dictionary can be strengthened as the tagging
progresses, permitting for greater automation and also providing a le that can be used to
tag other texts in the same language or as a basis for other programs that require knowledge
of these notions for language processing.
When a user perceives that the tagging of a word cannot be automated because it may
present variations in its tags throughout the corpus, he can simply choose not to save it in
the dictionary, so that each time it appears he will be presented in the main window of the
interface and will be allowed to choose the tag he considers appropriate for each occasion,
as mentioned in Pemberty Tamayo ().
5. Analysis of the algorithms
UnderRL Tagger is a soware written in Python language that can be used for semi-auto-
matic tagging of POS in Under-Resourced Languages, putting the methods of Natural
Language Processing at the service of Corpus Linguistics, and allowing the tagging process
to be signicantly speeded up by automating several of its stages (Pemberty Tamayo, ;
Pemberty Tamayo et al., ).
When a user correctly enters the address of a folder containing the texts of a corpus,
the rst actions performed by the program are to verify the existence of the texts and to
create the les and folders necessary to store the records involved in the process (Figure ),
as described in the methodological framework.
Figure 1.  


All the information that the System stores in addition to the XML tagged texts is in folders
that must be in the same directory in which the program is running, and for this purpose
les are used that are also in plain text format, so that they can be easily read and modied
in case a mistake has been made, for example, by creating an erroneous tag in the dictionary.
Once these les have been prepared, the tool goes on to tag the texts. To exemplify what
will happen in each of the steps, we will take here the same sentence that is proposed in
the work from which this program arises. is fragment is an example of the Creole lan-
guage of the islands of San Andres (Colombia) and is shown below along with a brief
analysis (Table ):
Table 2. Description of the “Sentence A” (Pembert y, 2020, p.31).
Sentence A
Word  bwai gwain da di niu house
POS Article Name Verb Preposition Article Adjective Name
Translation The boy goes to the  house
Before showing the user the texts to be tagged and the diverse options, it is necessary that
the text is processed in a specic way. In previous sections it has been said that the text is
divided into words and categories are assigned to each of them. In this sense, it is impor-
tant to specify that the appropriate concept is not that of a word, but that of a token.
According to Mitkov (), a token is a minimal linguistic unit that can correspond to a
word, a number, or a punctuation mark. An important dierence between a token and a
word is that the latter remains a single element regardless of whether it appears several
times in one or in many texts, whereas the former corresponds to a single occurrence, so
each of them must be dierentiated in relation to the others. e process of dividing a text
into its component tokens is called tokenization.

Digital Humanities, Corpus and Language Technology
Figure 2.  
e soware checks the le system to see if there is previous information on the same text
so that it can be retrieved and continue where the work le o, as well as checking from
the rst token of the text if there is a set of tags for it in the dictionary, as can be seen in the
diagram above. Assuming that this is a new project that has no tags in its dictionary, the
result of this process will simply be the tokenized text.
It is also important to note that tokens are usually identied through the blank space
between two words; however, there are also many units that are made up of two or more
words separated by spaces that would be erroneous to tagged as distinct or non-conse cutive
tokens. ese units are called multi-token words and examples of them can be phrases or
some ways of referring to numbers (Mitkov, ). To annotate these units, the system
oers the possibility of chaining some tokens with others, being able to create a composite
unit between one element and the one that follows it.


All the checks seen in Figure  are performed automatically by the system, so for the
user only a moment passes between selecting a text to tag and the rst tokens and controls
to set the tags are displayed in the window.
Figure 3.  
e program presents the user with the rst token of “Sentence A” as well as others that are
useful for understanding the context in which each one appears, as shown in Figure .
Likewise, a series of drop-down lists are enabled for the user that will permit him to choose
between distinct categories that could be assigned to the token that is selected. From the
various selections, the tag will be created.
e diverse possibilities available to the user vary depending on the rst selection to be
made, that of the part of speech to be attributed to the token, from which the others are
derived. us, the amount of information required and its type change when one of these
categories is selected.
Once you have selected the appropriate items in the drop-down lists, click on the “Show
tag” button, which permits the user to visualize, in the text bar at the bottom, the tag that
has been created from the information entered and following the EAGLES system. In the
drop-down lists the options are expressed with words commonly used in the eld of Lin-
guistics, while the tag only shows its equivalent in the annotation system, as shown in the
previous image; in this way, it is not necessary for the user to be perfectly familiar with the
EAGLES tags to be able to use them, since the program takes care of establishing which
characters are necessary.
e user can already set that tag for that token; however, he be able also to edit it, in
case he needs to add additional information of interest for his work. us, the tagger per-

Digital Humanities, Corpus and Language Technology
mits researchers to create their own tags based on EAGLES or completely new ones, so it
could be used not only for URLs, but also in other languages to tag phenomena outside the
POS level. is exibility let the user to work according to the theory or linguistic approach
he prefers or needs.
ere are also two options to x the tag and bring it denitively to the output XML le.
e rst is “Simple Tag”, which takes whatever is on the bar where the tag appears and
xes it in the output le associated with that particular token and its ID number.
On the other hand, there is a button called “Fix on Dict”. It permits to x what is writ-
ten in the tag bar in the dictionary le associated to the selected token; besides that, it
performs the procedure of xing that occurrence of the token in the XML le.
is second option should only be applied when there is certainty that the same tag
could be used on all occasions when the same word or combination of words occurs in the
token. is can easily be applied to articles, punctuation marks, prepositions, or adverbs,
and even to most nouns, adjectives and verbs. is feeds the dictionary, which will be used
to automatically tag tokens that match the information it contains. For cases where the tag
may vary, the rst option will be used, as the absence of that tag in the dictionary will always
prompt the user to manually select the appropriate categories. An example dictionary le
is shown below:
Figure 4. Tokens and dictionar y entries (Pemberty Tamayo, 2020, p.38).
As shown in Figure , this le consists of several lines of text that associate each token with
the tag that has been assigned to it. e characters found at the beginning and in the mid-
dle of each line are used by the system to dierentiate these two elements. e dictionary
lookup consists of going through this set of alphabetically ordered lines and taking from
them the tag if a match is found, and then taking it to the output le.
By constantly repeating the process of feeding the dictionary with new tokens and tags
and allowing the tagger to automatically nd and x as many word occurrences as possible,
a signicant reduction in the eort required to have a fully XML tagged corpus is achieved.


Figure 5. Final XML example.
Finally, Figure  illustrates what “Sentence A” tagged with the UnderRL Tagger system
would look like in your output le. e XML le has an identication of the text in ques-
tion and all the tokens that make it up. For each of these tokens, the form information is
available, which is the exact way it appears in the text; tag, which is the annotation that was
established for it and an ID, which is a number that identies it and dierentiates it from
all other tokens in the text. is ID is composed of the letter “t”, an integer that refers to
the position of the token in the text and another integer that refers to the number of words
that make up the token, which varies in the case of multi-token words.
6. Conclusions and Perspectives
During this chapter we have seen how it is possible to use Natural Language Processing
applications in corpus tagging in languages that do not yet have access to automatic anno-
tation tools, making it possible that, through diverse processes, to achieve a part of what
would be enormously expensive if executed completely manually.
e UnderRL Tagger soware (Pemberty Tamayo et al., ), the tool described in the
previous pages, aims to bring URLa closer to information and communication technolo-
gies, as well as to facilitate to have them as an object of investigation. For all these reasons,
as we have seen in the theoretical framework of this chapter, the existence of computer
tools capable of processing and tagging corpora in these languages is of utmost importance.
us, through a window-based interface and simple controls, UnderRL Tagger enables a
highly computer-assisted and automated manual handling tagging pro cess, oering users the
possibility to adhere to international standards in the eld of Corpus Linguistics, choose their
own tagging system and even annotate outside the POS with any other desired phenomena.
Similarly, it allows the management of dictionary les that can be used in the future to further
tag texts in the same language or share them with other researchers. Finally, it is important

Digital Humanities, Corpus and Language Technology
to note that this soware is freely available and can be found in the repository of the main
author of this work: https://github.com/jluispemberty/UnderRlTagger.
References
Anthony, L. (). TagAnt (Version .. )[Computer Soware]. Waseda University. http://www.
laurenceanthony.net/soware/tagant/
Baquero, J. M. (). Lingüística computacional aplicada. Universidad Nacional de Colombia.
Beaudouin, V. (). Statistical Analysis of Textual Data: Benzécri and the French School of Data
Analysis. Glottometrics, .
Berment, V. (). Méthodes pour informatiser les langues et les groupes de langues “ peu dotées ”
[PhD esis, Université Joseph-Fourier - Grenoble I]. https://tel.archives-ouvertes.fr/tel-

Bernal, J., & Hincapié, D. (). Lingüística de corpus. Instituto Caro y Cuervo.
Besacier, L., Barnard, E., Karpov, A., & Schultz, T. (). Automatic speech recognition for under-
resourced languages: A survey. Speech Communication, , -.
Biber, D., & Finegan, E. (). On the Exploitation of Computerized Corpora in Variation Studies.
In English Corpus Linguistics (pp. -). Routledge.
Brezina, V. (). Statistics in corpus linguistics: A practical guide. Cambridge University Press.
Buseman, K., & Buseman, A. (). Field Linguist’s ToolBox (Version ..). SIL International. https://
soware.sil.org/toolbox/
El-Haj, M., Kruschwitz, U., & Fox, C. (). Creating language resources for under-resourced
languages: Methodologies, and experiments with Arabic. Language Resources and Evaluation,
(), -.
Grajales Ramírez, A. & Molina Mejía, J. (). Problemática actual del procesamiento computacional
anafórico: el caso de FreeLing .. Lenguaje, (S), -.
Jones, C. & Waller, D. (). Corpus Linguistics for Grammar: A Guide for Research. Routledge.
Krauwer, S. (). e basic language resource kit (BLARK) as the rst milestone for the language
resources roadmap. In Proceedings of SPECOM  (pp. -).
Le, V.-B., & Besacier, L. (). Automatic speech recognition for under-resourced languages:
Application to Vietnamese language. IEEE Transactions on Audio, Speech, and Language
Processing, (), -.
Leech, G., & Wilson, A. (). EAGLES recommendations for the morphosyntactic annotation of
corpora. Istituto di Linguistica Computazionale http://www.ilc.cnr.it/EAGLES/annotate/
node.html
Maxwell, M., & Hughes, B. (). Frontiers in linguistic annotation for lower-density languages. In
T. Baldwin, F. Bond, A. Meyers, & S. Nariyama (Eds.), Proceedings of the workshop on frontiers
in linguistically annotated corpora  (pp. -). Association for Computational Linguistics.
https://aclanthology.org/W-
McEnery, T., & Hardie, A. (). Corpus Linguistics. Edinburgh University Press.
McEnery, T., & Hardie, A. (). e history of corpus linguistics. e Oxford handbook of the history
of linguistics, , .
Mitkov, R. (). Outstanding Issues in Anaphora Resolution. In A. Gelbukh (Ed.), Computational
Linguistics and Intelligent Text Processing (pp. -). Springer.
Mitkov, R. (). e Oxford Handbook of Computational Linguistics. OUP Oxford.


Mitkov, R. (). Anaphora Resolution. Routledge.
Moe, R. (). FieldWorks Language Explorer .. SIL Forum for Language Fieldwork -. SIL
Forum for Language. https://www.sil.org/resources/publications/entry/
Molina Mejía, J. M. (). Lingüística computacional y de corpus: teorías, métodos y aplicaciones.
Editorial Universidad de Antioquia.
Moreno Sandoval, A. (). Lingüística computacional: Introducción a los modelos simbólicos,
estadísticos y biológicos. Editorial Síntesis.
Nerbonne, J. (). Linguistic Challenges for Computationalists. In N. Nicolov, Recent Advances in
Natural Language Processing IV. Selected papers from RANLP  (pp. -). John Benjamins
Publishing.
Padró, L., Collado, M., Reese, S., Lloberes, M., & Castellón, I. (). Freeling .: Five years of open-
source language processing tools. In N. Calzolari, K. Choukri, B. Maegaard, J. Mariani, J. Odijk,
S. Piperidis, M. Rosner, & Daniel Tapias (Eds.), th International Conference on Language
Resources and Evaluation (pp. -). European Language Resources Association (ELRA).
Parodi, G. (). Lingüística de corpus: De la teoría a la empiria. Iberoamericana.
Pemberty Tamayo, J. L. (). Concepción y elaboración de un sistema de etiquetado semiautomático
para under-resourced languages [trabajo de grado, Universidad de Antioquia]. Grupo de Estudios
Sociolingüísticos]. Repositorio Institucional Universidad de Antioquia. https://bibliotecadigital.
udea.edu.co/handle//
Pemberty Tamayo, J. L. & Molina Mejía, J. M. (). UnderRL Tagger: Concepción y elaboración
de un sistema de etiquetado semiautomático para Under-Resourced Languages. In J. M. Molina
Mejía, P. Valdivia Martin & R. A. Venegas Velásquez (Eds.), Actas III Congreso Internacional de
Lingüística Computacional y de Corpus - CILCC  y V Workshop en Procesamiento
Automatizado de Textos y Corpus - WoPATeC  (pp. -). Universidad de Antioquia.
Pemberty Tamayo, J. L.; Molina Mejía, J. M. & Marín Morales, M. I. (). UnderRL Tagger (Versión
.) [Soware]. Corpus Ex Machina, Universidad de Antioquia.
Pemberty Tamayo, J. L.; Molina Mejía, J. M. & Vallejo Zapata, V. J. (). UnderRL Tagger: un
etiquetador gramatical para lenguas infrasoportadas tecnológicamente y lenguas minoritarias.
Forma y Función, (). https://doi.org/./fyf.vn.
Poesio, M., Stuckardt, R., & Versley, Y. (). Anaphora Resolution. Springer.
Rogers, C. (). Review of eldworks language explorer (ex) .. Language Documentation &
Conservation, , -.
Sáiz Noeda, M. (). Inuencia y aplicación de papeles sintácticos e información semántica en la
resolución de la anáfora pronominal en español. Procesamiento del lenguaje natural, , -.
Scannell, K. P. (). e Crúbadán Project: Corpus building for under-resourced languages.
Building and Exploring Web Corpora: Proceedings of the rd Web as Corpus Workshop, , -.
Schmid, H. (). TreeTagger-a language independent part-of-speech tagger. https://www.cis.uni-
muenchen.de/~schmid/tools/TreeTagger/
Schuster, S. & Manning, C. D. (). Enhanced English Universal Dependencies: An Improved
Representation for Natural Language Understanding Tasks. In LREC .
Straka, M. & Straková, J. (). Tokenizing, POS Tagging, Lemmatizing and Parsing UD . with
UDPipe. In J. Hajič, D. Zeman (Eds.), Proceedings of the CoNLL  Shared Task: Multilingual
Parsing from Raw Text to Universal Dependencies (pp. -). Association for Computational
Linguistics. https://aclanthology.org/K-
Tognini-Bonelli, E. (). Corpus Linguistics at Work. John Benjamins Publishing.

Digital Humanities, Corpus and Language Technology
Tordera Yllescas, J. C. (). Lingüística computacional: Tecnologías del habla. Publicacions de la
Universitat de València.
Wallis, S. (). Statistics in Corpus Linguistics Research: A New Approach. Routledge.
Wilks, Y. (). Corpus Linguistics and Computational Linguistics. International Journal of Corpus
Linguistics, (), -.
Zeroual, I. & Lakhouaja, A. (). Data Science in Light of Natural Language Processing: An
Overview. In J. Boumhidi, P. Érdi, Y. Ghanou, E. H. Nfaoui, & Y. Oubenaalla (Eds.), Procedia
Computer Science  (pp. -). https://doi.org/./j.procs...
ResearchGate has not been able to resolve any citations for this publication.
ResearchGate has not been able to resolve any references for this publication.