1 
 
 
PROYECTO NO. 745-B2-A13 
"DESARROLLO DE HERRAMIENTAS INTERACTIVAS PARA EL MEJORAMIENTO Y 
CERTIFICACIÓN DEL ESPAÑOL ESCRITO (FASE 1)" 
INFORME PARCIAL: 30/09/2013 
 
 
COCAE: 
CORPUS CACOGRÁFICO ADULTO DEL ESPAÑOL DE COSTA RICA 
 
 
Dra. Carla Victoria Jara Murillo 
Investigadora Asociada 
 
1. Introducción 
El Corpus Cacográfico Adulto del Español de Costa Rica (COCAE) se compiló a partir de datos 
textuales reales extraídos de internet manualmente. Estos datos se codificaron y se tabularon con el 
objetivo de crear un listado de los vocablos cacográficos más frecuentes en una muestra de textos 
escritos por costarricenses y publicados como comentarios personales en diversos medios de 
comunicación en línea.  
Los datos se extrajeron de dos corpus textuales separados. El primero (corpus de base - CB) consta de 
ca. 22.500 palabras y fue codificado en su totalidad mediante el programa de análisis cualitativo 
Atlas.ti con el fin de realizar la primera sistematización de los errores ortográficos por considerar. En 
este primer corpus se codificaron 1161 errores, de los cuales 974 (84%) son de acentuación, 44 (4%) 
conciernen a otros signos diacríticos y 143 (12%) son grafemáticos. El segundo (corpus de referencia - 
CR) consta de ca. 27.500 palabras y se utilizó para la expansión del corpus ya sistematizado. En 
conjunto los dos corpus textuales suman ca. 50.000 palabras y el corpus cacográfico extraído consta de 
716 formas de palabra (551 cacografías diacríticas y 165 cacografías grafemáticas). 
 
2 
 
2. Antecedentes 
En la conceptualización del COCAE han sido cruciales los trabajos de Pujol Llop (1999, 2005) y de 
Murillo Rojas (2003, 2006). Es también importante destacar el trabajo de Sánchez Avendaño (2008) en 
el cual hace un interesante recuento de los enfoques que históricamente se han planteado en Costa Rica 
en torno a la enseñanza de la ortografía. 
En cuanto al diseño del corpus, nuestro punto de partida fue el trabajo de Murillo Rojas (2006), en el 
cual se describe el procedimiento que se llevó a cabo en la compilación de un vocabulario cacográfico 
a partir de textos de escolares costarricenses. La autora resume el problema de la investigación en los 
siguientes términos:  
El problema fundamental de la presente investigación consistió en identificar los comportamientos y patrones 
generales de la ortografía de los niños escolares costarricenses, a partir del vocabulario cacográfico, obtenido 
este del léxico básico escolar, en virtud de un corpus lingüístico de validez nacional (p. 59). 
Ese corpus se obtuvo mediante la recolección de redacciones en treinta y cinco escuelas públicas y 
privadas ubicadas en las veinte regiones educativas de Costa Rica. Las redacciones fueron hechas por 
70 grupos de escolares (35 de tercer grado, de edades entre 9 y 10 años, y 35 de sexto, de edades entre 
12 y 14 años) con un promedio de 25 alumnos cada uno, para un total de 1765 redacciones.  
En la confección del corpus se tomaron en cuenta los aspectos ortográficos relativos a grafemas y 
acentos; no se consideraron los de mayúsculas ni puntuación: 
Téngase en cuenta que la ausencia de una mayúscula cuando debía aparecer o su aparición sin necesidad, no 
se consideró, al igual que la puntuación, pues estos contenidos escapan al proceso de adquisición de una 
ortografía natural, primera etapa en el proceso de apropiación del código escrito (Cfr. Barberá y otros, 2001) 
(p. 61). 
De igual manera, en el COCAE no se tomaron en cuenta esos dos capítulos de la ortografía pero por 
razones distintas: en nuestro caso, el tipo de discurso -comentario escrito breve y espontáneo-  no 
implica que los escribientes hayan planificado sus textos de la manera en que podrían (o no) hacerlo si 
elaboraran un texto con propósitos más formales. Como esto no se puede determinar a partir de las 
condiciones de producción de los textos (ver Metodología), creemos preferible no tomar en cuenta 
estos aspectos, aunque podrían estudiarse en una investigación posterior, ya que forman parte de la 
ortografía general. 
En síntesis, el vocabulario cacográfico escolar compilado por Murillo Rojas contiene las 100 palabras 
(lematizadas) que presentaron el mayor número de errores ortográficos, independientemente del tipo de 
3 
 
error. Se excluyeron las palabras que presentaron en el corpus frecuencia de 1 (hápax legómena
1
). El 
vocabulario se desglosa según su categoría gramatical en 59 verbos, 12 adverbios, 11 sustantivos, 6 
adjetivos y 12 elementos entre preposiciones, pronombres y conjunciones. 
Los principales errores en los verbos se refieren a las terminaciones -aba, -aban y -ábamos del pretérito 
imperfecto de indicativo. En el pretérito perfecto simple, en el condicional y en el futuro simple, el 
error común es la omisión del acento ortográfico en las palabras agudas terminadas en -ó y -é, en los 
hiatos -ía y en las terminaciones de futuro (-aré/-ará). 
Los adverbios recopilados son: ahora, ya, dónde, aquí, sí, entonces, después (de una dificultad 
ortográfica); siempre, bien, ahí (de dos dificultades) y también, así (de tres dificultades). 
Los sustantivos son: país (pais, paises), papá (papa, papas), mamá (mama, mamas), tío (tio, tios), 
pájaro (pajaro, pajaros), día (dia, dias), árbol (arbol, arboles), río (rio, rios), contaminación 
(contaminacion),  fútbol (futbol) y vez (bes, ves). Murillo hace notar que excepto por el último, todos 
los errores frecuentes consisten en la omisión del acento ortográfico. 
Los adjetivos del corpus son:  feliz (felizes), joven (joben, jovenes), único (unico), último (ultimo), mi 
(mí) y mío (mio). 
Finalmente, en el grupo de pronombres, conjunciones y preposiciones se incluyen: yo (llo, pero con 
muy baja frecuencia), él (el), qué (que), quién (quien), cuál (cual), porque (por que), y (i), a (ha) y 
hasta (asta). 
Más allá de las 100 palabras cacográficas frecuentes, Murillo menciona dentro de las siguientes 500 
palabras, errores de infrasegmentación (e.g. ala, por a la) y de suprasegmentación (e.g. de el, por del). 
Concluye proponiendo que se ponga especial atención pedagógica en las palabras: también, así, más, 
después, los verbos haber, estar, hacer y tener, los homófonos de distintas categorías gramaticales 
como: él/el, qué/que, cuál/cual, dónde/donde, cuándo/cuando, y casos como ahí/hay y por qué/ porqué. 
Este inventario resulta sumamente útil para nuestra propia investigación ya que, como se verá, los 
errores de acentuación representan igualmente la mayoría de los errores en el COCAE,  y los 
problemas grafemáticos, aunque en una proporción menor, también tienden a ser los mismos.  
                                                 
1
 Este término (hápax legómenon, en singular), del griego 'dicho una sola vez', se usa en lingüística de corpus para referirse 
a palabras o expresiones que aparecen con frecuencia de 1 en un corpus. V. Rojo (2008). 
4 
 
Otro antecedente importante en la construcción de nuestro vocabulario cacográfico es el trabajo de 
Pujol Llop (2005), en el cual se hace un estudio exhaustivo de los errores ortográficos contenidos en el 
Corpus PAAU 1992. Este corpus 
...es un conjunto cerrado de textos en lengua española escritos por estudiantes de las Pruebas de Acceso a la 
Universidad (prueba conocida como Selectividad) (...) en seis universidades del territorio peninsular. (...) El 
corpus pretende ser representativo de la competencia escrita (redactora) de los aspirantes a universitarios en 
materias académicas (Battaner 2005:13). 
Pujol se aboca a la sistematización de los errores estableciendo tres divisiones básicas: la ortografía de 
la palabra, la ortografía de la oración y la ortografía del texto.
2
 Los datos se dividen en cinco tipos de 
problema: acentuación, grafemas, palabras, puntuación y texto.  En ese estudio, los errores relacionados 
con el uso de la tilde se dividen en: uso de otro diacrítico por tilde (0, 1%), incorrecta colocación 
(2,5%), exceso (palabras que antes se tildaban o confusión de monosílabos, 7,3%) y omisión: 90%.  
Pujol señala como causas de los errores de acentuación: insuficiente competencia metalingüística 
debida a factores como conocimiento deficiente de las reglas de acentuación, insuficiente competencia 
gramatical, distracción o descuido. En conjunto se deben a un déficit metalingüístico y hábitos 
ortográficos poco cultivados. 
El estudio de Pujol arroja resultados semejantes a los que se ven en otros corpus cacográficos: 
El inventario cacográfico obtenido a partir de los 346 vocablos sobre los que se producen errores mantiene 
características similares a las de otros (Villarejo 1950; Holgado 1986, Mesanza 1990): un reducido número 
de palabras causan una gran cantidad de errores, al mismo tiempo que un gran número de palabras causan 
uno o muy pocos errores. En el inventario de esta muestra se puede advertir que el 50,78% de los errores son  
producto de 34 palabras, que son las que suman desde la máxima frecuencia hasta la seis; es decir, que un 
diez por ciento de las palabras son responsables del cincuenta por ciento de los errores. En el lado contrario 
(palabras de frecuencia 1), hay 216 vocablos –que representan el 62% del total de las palabras- que sólo 
provoca el 21% de los errores. (...) ...comparando las 34 palabras de mayor frecuencia de error, con las 20 
primeras del vocabulario de Mesanza (escolares madrileños de octavo de EGB), y con las 50 primeras del 
inventario de Holgado (alumnos salmantinos de segundo a sexto curos de EGB), vemos que 11 de ellas se 
repiten en las tres listas: países, más, cómo, sí, está, también, día, están, él, qué, así. Todas ellas se 
encuentran dentro del vocabulario fundamental de Barberá (1998), que recoge las 213 palabras de más uso en 
castellano (p. 37). 
Sin embargo, el hecho de que el error de acentuación (y ortográfico en general) más frecuente sea la 
omisión de la tilde, tanto en nuestro corpus como en los reseñados, llama a considerar en particular este 
aspecto de la ortografía y a analizar el fenómeno en términos de sus causas y de la utilidad de este 
elemento de la escritura para los hablantes. Este tema será tratado con detalle más adelante. 
                                                 
2
 Sánchez Avendaño (2004 y 2005) analiza un corpus compuesto por redacciones de una población similar (estudiantes 
universitarios), pero con un énfasis mucho mayor en el uso de la puntuación y las unidades textuales. Con respecto a la 
ortografía en ese mismo corpus, se hacen algunas referencias en Sánchez Avendaño 2008. 
5 
 
3. Marco conceptual 
En el corpus de base (CB) se codificaron 1117 errores, de los cuales 974 (87%) son de acentuación 
ortográfica (y omisión de otros diacríticos, ver infra) y 143 (13%) son grafemáticos. A partir de estos 
datos iniciales, la primera distinción que prueba ser relevante para la construcción del COCAE es entre 
error de acentuación ortográfica (diacrítico) y error grafemático. 
Por otra parte, el texto recién citado de Pujol refleja un hecho ya familiar en lingüística de corpus: el 
vocabulario más frecuente en cualquier tipo de texto va a ser responsable del mayor número de errores, 
si es que los vocablos presentan dificultades ortográficas. Este hecho llama a una segunda distinción, 
de distinta naturaleza: vocabulario funcional y vocabulario léxico. Estas dos distinciones constituyen 
los dos ejes sobre los que se construyó el COCAE.  
3.1 Primera distinción: error de acento ortográfico/diacrítico y error grafemático 
En nuestro marco conceptual partimos de una primera gran división entre problemas de acento 
ortográfico y problemas propiamente grafemáticos. A partir de su estudio, Murillo Rojas (2006) lo 
plantea en los siguientes términos: "Los dos caballos de batalla en la escritura con ortografía son, por 
un lado, la marcación gráfica del acento, según las reglas establecidas y, por el otro, la escritura de los 
fonemas /b/, /s/, /y/, /r/ y la hache" (p. 69). 
Estos dos problemas son de tipo muy diferente: el problema del acento ortográfico no debería ser un 
problema, ya que, en principio, el hablante de español posee el suprasegmental fonológico del acento o 
prominencia silábica como elemento contrastivo en su sistema fonológico. Esto es, todo hablante es 
capaz de discernir que ['saβana] y [sa'βana] son palabras diferentes que se refieren a cosas distintas. 
Además existen reglas ortográficas sin excepción para la aplicación del diacrítico de acento. Por lo 
tanto bastaría con que el hablante supiera reconocer dónde está el acento silábico para saber si debe o 
no acentuar la palabra al escribirla.  
El problema está en que no es tan intuitivo para el hablante reconocer en cuál sílaba de la palabra recae 
su acento. El error de acentuación ortográfica entonces se debe abordar de manera diferente que el error  
relativo al uso de grafemas. En principio habría que considerar dos técnicas distintas: una fonética, para 
el reconocimiento de la sílaba acentuada, con ejercitación posterior de las reglas ortográficas 
correspondientes, y otra visual, para la memorización de las palabras proclives a presentar errores por 
arbitrariedad del sistema fono-ortográfico (ver infra). 
6 
 
Con respecto a los errores escriturales, Pujol Llop (1999: 120-2) había propuesto una detallada 
tipología  que incluía varias categorías: errores en el origen (por desconocimiento de la palabra 
correcta, por ejemplo), errores contra el sistema ortográfico, errores por arbitrariedad del sistema y 
errores por desatención: 
Esta tipología permite diferenciar los errores propiamente ortográficos de los que les son cercanos, pero son 
de naturaleza léxica (errores en el origen). También distingue entre los errores de competencia y de actuación 
(errores por desatención). La división fundamental entre los errores se hace basándose en el carácter mixto 
fonético-arbitrario del sistema ortográfico castellano (errores contra el sistema y errores por arbitrariedad); a 
su vez, dentro de cada uno de estos dos grupos se distinguen diversos subtipos. Parece, pues, que puede 
afirmarse que es una descripción ajustada a la naturaleza de la ortografía castellana y a la de los errores que 
aparecen (p. 120). 
En su análisis comprensivo del Corpus PAAU, Pujol Llop (2005) hace una reelaboración de esta 
tipología para clasificar los errores presentes en ese corpus y, como en la tipología anterior, distingue 
entre el error propiamente ortográfico, el error de actuación y la falta léxica: 
El error ortográfico, propiamente dicho, sería aquel en el que se aprecia una incorrecta utilización de las 
reglas del sistema fono-ortográfico o una incorrecta elección de los grafemas en las realizaciones arbitrarias. 
(...) Además de estos errores, fruto de una competencia deficiente en el dominio del sistema ortográfico, hay 
que contar con los errores de actuación, que serían aquellos producidos en el proceso final de la escritura 
debidos a falta de concentración básicamente, pues el alumno que escribe en una ocasión *decri en vez de 
decir, lo que ha tenido ha sido un despiste. Por otro lado, no parece exacto considerar toda palabra mal escrita 
como error ortográfico: por ejemplo, cuando un sujeto escribe *haiga en vez de haya, no está cometiendo 
una falta ortográfica, sino una falta morfológica al utilizar un vulgarismo en lugar de la forma correcta, pues 
lo que está haciendo es una transcripción ortográficamente correcta del lenguaje oral que utiliza. Este tipo de 
faltas se han considerado faltas léxicas (p. 40). 
Al igual que ha hecho Pujol, en la construcción del COCAE hemos disgregado los errores de 
acentuación de los demás errores grafemáticos; y con el término error grafemático nos referimos a lo 
que Pujol define en la cita anterior como "error ortográfico propiamente dicho". Lo hemos hecho así 
porque el término error ortográfico en nuestra concepción incluye tanto los errores de acentuación 
(tildes) como los grafemáticos, además de otros errores considerados tradicionalmente parte de la 
ortografía como los que conciernen al uso de mayúsculas, símbolos, etc. 
Además de los errores de acentuación, hemos considerado dos errores que aparecen en el corpus con 
alguna frecuencia y que implican, como en el caso del acento ortográfico,  el uso de diacríticos: se trata 
del uso del grafema <n> por <ñ>, es decir que se ha omitido el diacrítico tilde, y el uso de <u> por <ü>, 
esto es, la omisión del diacrítico diéresis en la <u> fónica de las sílabas <güe, güi>. Aunque 
estrictamente estos errores pueden interpretarse como "dentro del sistema fono-ortográfico", 
consideramos más probable que se deban a la omisión del diacrítico, como sucede con el signo de 
acento agudo. 
7 
 
De acuerdo con estas observaciones, en términos del primer eje hemos estructurado el COCAE en dos 
componentes: el COCAE DIACRÍTICO y el COCAE GRAFEMÁTICO. 
Con base en una amplia investigación psicolingüística en el campo de la práctica ortográfica, 
Luelsdorff (1991) ha propuesto una hipótesis de la complejidad, según la cual la desviación 
sistemática de la biunivocidad fonema-grafema es la mayor fuente del error grafemático. A partir de 
esta idea, desarrolla una teoría de la complejidad ortográfica que depende del tipo y cantidad de 
información lingüística requerida para relacionar un determinado sonido con su grafema. Partiendo del 
principio de biunivocidad (relación unívoca, de uno-a-uno), Luelsdorff propone una escala de 
complejidad creciente conforme se van dando desviaciones arbitrarias en la relación fonema-grafema: 
de uno-a-muchos o muchos-a-uno; de uno-a-ninguno o ninguno-a-uno. Con base en estos postulados, 
Pujol (2005:39) propone la siguiente escala para el español: 
Escala de complejidad ortográfica 
A Univocidad. Ausencia de ambigüedad y arbitrariedad 
Dentro del sistema fono-ortográfico 
B Ambigüedad resuelta. Ausencia de arbitrariedad 
C Ambigüedad no resuelta. Presencia de arbitrariedad 
Fuera del sistema fono-ortográfico 
D Correspondencia inexistente. Presencia de arbitrariedad 
El tramo A corresponde a la univocidad entre fonemas y grafemas; por ejemplo las vocales del español, 
casos en que el error ortográfico es muy improbable. Corresponde al Nivel 0 de complejidad. 
El tramo B se refiere a casos en que no hay univocidad, "pero el sistema proporciona reglas de uso que 
deshacen la ambigüedad. Es el caso de u/ü, i/y (vocal), gu/j, g/gu, g/j(+a,o,u), z/qu/c(+a,o,u), 
z/qu/c(+e,i), r/rr. La utilización de estos grafemas y dígrafos debería estar automatizada y no causar 
errores" (Pujol Llop 2005: 39). Corresponde al Nivel 1 en la escala de complejidad. 
El tramo C se refiere a los casos en que el sistema fono-ortográfico presenta arbitrariedad máxima y 
por tanto es donde más errores ortográficos suelen darse. Pujol cita los casos de los grafemas y dígrafos 
k/c/qu, y/i/hi, x/s, j/g(+e,i), y/ll, w/b/v; sin embargo, como se verá, el error grafemático de mayor 
presencia en el COCAE, como corresponde a la variedad seseante costarricense, es la sustitución entre 
los grafemas <c>, <s> y <z>. Constituye el Nivel 2 en la escala de complejidad. 
El tramo D se refiere al caso en que además de la arbitrariedad, el grafema carece de correspondencia 
fónica. En español se reduce al caso del grafema <h> y corresponde al Nivel 3 de la escala de 
complejidad. 
8 
 
3.2 Segunda distinción: vocabulario funcional vs. vocabulario léxico 
En los estudios sobre frecuencias léxicas suele señalarse que las palabras funcionales constituyen 
alrededor del 40% o más del discurso, dependiendo de cuántas palabras funcionales se tomen en 
cuenta. Así por ejemplo, Alvar Ezquerra (2004) analiza el Corpus Vox-Bibliograf y determina que las 
20 palabras de mayor frecuencia (de, la, que, el, en, y, a, los, se, del, las, un, por, no, una, con, es, su, 
para, al) dan cuenta de ca. 38% del total de palabras del corpus.  
En mis investigaciones sobre frecuencias léxicas en el Corpus de Mensajes Presidenciales de Costa 
Rica (CODIMEP-CR, Jara Murillo 2011) he obtenido los siguientes resultados con respecto a la 
relación entre vocabulario léxico y funcional (Jara Murillo 2010): 
Tabla 1. CODIMEP-CR. Siglo XIX 
 Tipos
3
  % Muestras   % 
Vocabulario léxico 12025   98 57370   45,5 
Vocabulario funcional 231     2 68553   54,5 
Totales 12258 100 125923 100 
Tabla 2. CODIMEP-CR. Siglo XX 
 Tipos  % Muestras  % 
Vocabulario léxico 20126 98,8 135910   47 
Vocabulario funcional 243 1,2 153462   53 
Totales 20369 100 289372 100 
En ese estudio se compiló una lista de vocabulario funcional extraído del propio corpus, de manera que 
corresponde a un tipo de discurso formal escrito, pero lo suficientemente general para constituir un 
conjunto bastante exhaustivo de vocabulario funcional. La lista incluye 242 tipos: 
Pronombres personales y posesivos: yo, usted, él, ella, ello, nosotros, vosotros, ustedes, ellas, ellos, me, 
nos, os, lo, le, les, se, mi, mí, mío, mía, míos, mías, mis, nuestro, nuestra, nuestros, nuestras, vuestro, 
vuestra, vuestros, vuestras, su, sus. 
Artículos: el, la, lo, las, los, un, una, unos, unas. 
Pronombres y adjetivos determinativos: esto, este, esta, estos, estas, eso, ese, esa, esos, esas, aquello, 
aquel, aquella, aquellos, aquellas, que, qué, cual, cuál, cuales, cuáles, quien, quién, quienes, quiénes, 
cuyo, cuya, cuyos, cuyas, algo, alguien, alguno, ninguno, ninguna, nada, nadie, varios, cualquier, 
                                                 
3
 Tipos y muestras son las traducciones que doy a las palabras inglesas types y tokens, distinción inicialmente señalada por 
Charles Pierce entre las formas de palabra distintas (types) y las instancias de aparición de esas formas de palabra (tokens). 
9 
 
cualquiera, quienquiera,  cada, tal, tales, mismo, misma, algún, alguna, algunos, algunas, poca, pocos, 
pocas, mucha, muchos, muchas, cuántos, cuánta, cuantas, todo, toda, todos, todas, otro, otra, otros, 
otras, demás, uno, dos, tres, cuatro, cinco, seis, siete, ocho, nueve, diez, mil, demasiada demasiados, 
demasiadas. 
Contracciones: al, del 
Preposiciones:  a, ante, bajo, cabe, con, contra, de, desde, en, entre, hacia, hasta, para, por, según, sin, 
so, sobre, tras. 
Conjunciones y adverbios: e, mas, mediante, ni, o, ora, pero, porque, pues, puesto si, sino, u, y, ya, 
además, aun, aún, conque, durante, luego, aunque, entonces, mientras, obstante, embargo, frente, más, 
no, así, también, hoy, muy, casi, ahora, antes, menos, dentro, siempre, nunca, jamás, solo, aquí, ahí, 
acá, después, adelante, atrás, detrás, sí, cuándo, cómo, dónde, adónde, tan, tanto,  mucho, poco, 
demasiado, bastante, como, cuando, donde, cuanto, cuánto, quizás, todavía. 
Formas de los verbos "ser", "estar" y "haber": era, eran, es, sea, sean, ser, son, fue, fueron, fuera, sido, 
será, sería, está, están, estar, esté, estén, estamos, he, hemos, ha, han, hay, haber, había, haya, habría, 
hubo, habían. 
Dado que alrededor del 50% del discurso está conformado por este conjunto de palabras funcionales, es 
de esperar que una cantidad importante de los errores ortográficos codificados ocurran en este sector 
del vocabulario. 
De acuerdo con esta segunda distinción, que constituye el segundo eje para la estructuración del corpus 
cacográfico, los dos componentes del COCAE se dividen en los subcomponentes FUNCIONAL y 
LÉXICO. El COCAE, así, se estructura en cuatro partes:  
 COCAE 1.1 DIACRÍTICO-FUNCIONAL 
 COCAE 1.2 DIACRÍTICO-LÉXICO 
 COCAE 2.1 GRAFEMÁTICO-FUNCIONAL 
 COCAE 2.2 GRAFEMÁTICO-LÉXICO 
10 
 
 
4. Metodología 
Previo a la construcción del COCAE, se tomó una serie de decisiones preliminares con respecto al 
material que deberíamos utilizar para la construcción del corpus. Estas decisiones fueron: 
 1. Recopilar comentarios escritos en español por personas costarricenses (en principio), en 
 medios de comunicación costarricenses accesibles públicamente a través de internet. 
 2. Realizar la recopilación manualmente, esto es, no utilizar ninguna herramienta automática 
 de extracción de datos, con el fin de extraer un corpus cerrado y delimitado. 
 3. Extraer los comentarios de dos tipos de fuente: medios noticiosos y blogs. 
 4. Extraer un corpus de base (CB) de ca. 20.000 palabras para codificar en su totalidad 
 mediante una herramienta de codificación y un corpus de referencia (CR), más amplio, para 
 verificar ortográficamente mediante una herramienta automática. 
 5. Obtener como resultado un corpus textual cerrado de ca. 50.000 palabras. 
Tomadas estas decisiones, se trabajó en cuatro etapas sucesivas, cuyos procedimientos se describen en 
las secciones siguientes. La etapas son: 
 1. Etapa de recopilación de los corpus textuales CB y CR 
 2. Etapa de codificación del CB 
 3. Etapa de verificación del CR 
 4. Etapa de construcción y análisis del COCAE 
4.1 Etapa de recopilación de los corpus textuales CB y CR 
Los textos que conforman el CB se generaron entre los días 11 y 13 de abril de 2013. Se seleccionaron 
esas fechas porque hubo acontecimientos nacionales de carácter social y político que produjeron una 
cantidad de comentarios mucho mayor que la que generan normalmente las noticias individuales 
cotidianas. Los comentarios se dieron en respuesta a dos editoriales del noticiero Telenoticias, que se 
transmite por televisión. Muchos comentarios se añadieron de forma casi inmediata, o bien en las horas 
11 
 
que siguieron a la transmisión, y los ánimos exaltados de casi la totalidad de ellos nos permite asumir 
que la planificación de la escritura no era la preocupación mayor del comentarista, sino más bien el 
contenido de su comentario. Por ello he señalado en la introducción el carácter relativamente 
espontáneo de los textos, con lo que podemos asumir, en principio, que estos se generaron con la 
ortografía que tiene normalmente la persona. Esto no significa que asumamos que no se haya utilizado 
herramientas de corrección ortográfica, sino que el grado de naturalidad en la escritura es mayor que si 
se hubiera elegido otros géneros escritos que conminan a las personas a un grado mayor de cuidado en 
la producción del texto. 
El primer editorial que se tomó como estímulo de los comentarios fue "Señora Presidenta, abra los 
ojos", emitido por  Ignacio Santos en fecha 11/4/2013. La recolección se hizo en fecha: 12-13/04/2013. 
El sitio del noticiero reportó 444 comentarios y la tabulación a la base de datos produjo 510 registros. 
El segundo editorial de estímulo fue "Gobierno sordo, ciego y mudo", emitido por Pilar Cisneros, en 
fecha: 12/4/2013. La recolección se hizo en fecha: 13/04/2013. El sitio reportó 182 comentarios y la 
tabulación a la base de datos produjo 209 registros. 
Se obtuvo así en una primera tabulación 719 registros que se revisaron individualmente para filtrar 
repeticiones de comentarios y/o usuarios, de manera que la base quedó constituida por 655 comentarios 
de usuarios distintos. El corpus textual preparado para la codificación consta de 22.502 palabras. 
El CR se recopiló a partir de la extracción de comentarios de dos tipos de medio de comunicación a 
través de internet: periódicos y blogs. Los periódicos son de dos tipos: uno que circula tradicionalmente 
de manera impresa y que en la actualidad cuenta con el sitio correspondiente en internet en donde los 
lectores hacen comentarios sobre las noticias (La Nación, http://www.nacion.com/); el otro es un 
periódico originalmente digital y cada noticia cuenta con su sección para comentarios (cr.hoy.com, 
http://www.crhoy.com/). Ambos periódicos son de acceso libre. 
En cuanto a los blogs, se inspeccionaron los que aparecen en los primeros lugares de popularidad en el 
ranking del directorio de blogs de Costa Rica del sitio Blogalaxia - Costa Rica  (http://costarica. 
blogalaxia.com/top100.php), y se eligieron el tercero (Carepicha Blog, http://h3dicho.ticoblogger.com/) 
y el cuarto (El Infierno en Costa Rica, http://infierno.ticoblogger.com/) del ranking, por ser los que 
presentan mayor diversidad de comentaristas.  
12 
 
El resumen de los datos de recopilación se presentan en Tabla 3: 
Tabla 3. CORPUS DE REFERENCIA (CR) - INFORMACIÓN DE LOS DATOS RECOPILADOS 
Tipo Medio Fecha de 
recolección 
Tamaño 
en palabras 
Fecha de edición y título de la noticia o post (no. de comentarios) total 
coms 
Perió
dico 
crhoy.com 
(CRH) 
13 y 26 
/04/2013 
8.895 Edición: 13/04/2013. 
Sección Nacionales:  "Negociación del Gobierno sobre ruta San José-
San Ramón es una burla ante el pueblo" (20) 
Sección Redes Sociales, Tecnología:  Campaña busca que aficionados 
se pronuncien en el clásico contra la concesión San José-San Ramón(8) 
Edición: 12/04/2013 
Sección Gobierno, Nacionales: Comunidades rechazan acuerdo entre 
Gobierno y Alcaldes sobre concesión San José-San Ramón (19) 
Edición: 11/04/2013 
Sección Nacionales, Sucesos: Hombre que rompió parabrisas de Bernal 
Jiménez en manifestación habló con crhoy.com (81) 
Edición: 17/04/2013 
Sección Nacionales: "Aunque somos grupos muy diversos todos 
coincidimos en que la concesión no va" (7) 
Edición: 26/04/2013 
Sección Nacionales:  Gobierno buscará firma auditora para que diga 
cuánto se le debe pagar a empresa OAS (12) 
147 
 
La Nación 
(LAN) 
12 y 13 
/04/2013 
5.022 Edición: 12/04/2013 
Portada. Sección El país: Presidente del PLN junta los vidrios y critica 
al gobierno de Chinchilla(13) 
Edición: 11/04/2013 
Sección El País: Caos en celebración del 11 de abril (93) 
106 
Blog 
Carepicha 
(CAR) 
04/09/2012
y 
13/04/2013 
8.248 Post: 18/11/2012: Mariguana: De Costa Rica para el Mundo (37) 
Post 6/2/2013: Johnny Araya: Un candidato que embarga escuelas (8) 
Post 12/2/2013: Sobre Voto de Censura a Marino Protti  (8) 
Post 27/3/2013: La Zorra (Historia) (16) 
Post 20/1/2013: Cita romántica con un iPhone (5) 
Post 21/3/2013: La directora & educadora nazi (31) 
Post 27/08/2012: Tsunami de Tweets ahoga a estudiante de medicina 
(22) 
126 
El Infierno en 
Costa Rica 
(INF) 
12/04/2013 5.406 Post 4/2013: Acusan a Oscar López de falsificación y estafa (4) 
Post 1/2013: El problema con los cuidacarros (5) 
Post 1/2013: ¿Debe despenalizarse el aborto si el feto está muerto? (7) 
Post 12/2012: Mall San Pedro: Sin cámaras de seguridad  (5) 
Post 10/2012: Irregularidades en INCOPESCA (7) 
Post 10/2012: Cliente denuncia que Banco Nacional le quitó medio 
millón (36) 
Post 9/2012: Alzas en los combustibles: El garrotazo al pueblo (17) 
81 
Totales   27.571  460 
 
La siguiente tabla muestra la composición del corpus textual completo que se recopiló para la 
extracción del corpus cacográfico: 
Tabla 4. COMPOSICIÓN DEL CORPUS TEXTUAL 
 Corpus 
Base 
Corpus de 
Referencia 
Corpus Textual 
Total 
No. comentarios  665 460 1125 
No. palabras  22.502 27.571 50.073 
 
 
13 
 
4.2 Etapa de codificación del CB 
La codificación se llevó a cabo por medio del programa de análisis cualitativo Atlas.ti, que permite 
codificar segmentos textuales al grado de detalle que sea necesario. En nuestro caso se requería 
codificar los vocablos cacográficos para luego extraerlos mediante la opción "Retrieve quotations with 
the query tool" disponible en el programa. Este fue un arduo proceso de minuciosa inspección y 
codificación manual del corpus  para determinar cuándo en efecto hubo cacografías, especialmente en 
el caso de las tildes, y también para desambiguar ítems.   
Se creó la unidad hermenéutica (HU) "CORPUS CACOGRÁFICO BASE" y se definieron los 
siguientes códigos:  
 ERROR: propiamente grafemático. 
 TILDE: omisión,  adición o colocación errónea. 
 TILDE-Ñ: incluye omisión del diacrítico tilde de la letra <ñ> y la diéresis de <ü>. 
 DIGIT: errores de digitación ya que la palabra no presenta dificultad ortográfica (corresponde a 
la categoría de "errores de actuación" o descuidos según la tipología de Pujol Llop (2005:40, 
ver sección 3.1 supra). 
 MORF: errores morfológicos como segmentación errónea, problemas de concordancia, etc. 
 NPROP: nombres propios escritos de manera errónea o extraña. 
 OTROS: fenómenos varios (anglicismos, costarriqueñismos, textismos4, etc.) 
Solamente los tres primeros códigos son relevantes para el COCAE; sin embargo, los demás serán 
útiles para diagnosticar múltiples tipos de problemas ortográficos. Aunque, como se explicó, no se 
codificaron errores de mayúsculas ni puntuación, estos fenómenos parecieron ser a simple vista mucho 
más problemáticos que los propios errores ortográficos, por lo que valdría la pena codificarlos en el 
futuro y sistematizarlos; lo mismo con respecto a la morfología y la gramática. Se codificaron algunos 
errores morfológicos pero no detalladamente, por lo cual para analizar esos datos sería conveniente 
revisar la codificación para hacerla exhaustiva. 
A manera de ejemplo, en el siguiente cuadro se muestra el reporte, ya tabulado, que devuelve la 
función "Query" de Atlas .ti al solicitársele las citas (quotations) del código TILDE-Ñ: 
                                                 
4
 Con textismos se hace referencia a fenómenos como abreviaturas no tradicionales, simplificación o sustitución de palabras 
por letras o números, etc. que utilizan sobre todo los jóvenes en comunicaciones como mensajes de texto, chats, etc. V. 
Crystal 2008a, 2008b y Durkin et al. 2011, entre otras investigaciones recientes en este campo. 
14 
 
  
 Output generated by: ATLAS.ti Query Tool 
 HU:  CORPUS CACOGRÁFICO BASE 
 44 quotation(s) found for Query: "TILDE-Ñ" 
 ---------------------------------------- 
ID code  líneas cacografía ortografía ID com 
1:6 (13:13) anadir añadir 5 
1:79 (173:173) verguenza vergüenza 44 
1:88 (181:181) Dona doña 46 
1:129 (278:278) verguenza vergüenza 74 
1:183 (365:365) companias compañías 100 
1:190 (371:371) verguenza vergüenza 102 
1:205 (412:412) DONA doña 115 
1:209 (418:418) SINVERGUENZADAS sinvergüenzadas 116 
1:244 (485:485) Dona doña 137 
1:272 (572:572) VERGUENZA vergüenza 157 
1:315 (644:644) verguenza vergüenza 175 
1:374 (768:768) verguenza vergüenza 204 
1:398 (818:818) senores señores 217 
1:401 (818:818) Senora señora 217 
1:492 (967:967) senora señora 255 
1:585 (1084:1084) VERGUENZA vergüenza 289 
1:642 (1169:1169) verguenza vergüenza 307 
1:653 (1186:1186) VERGUENZA vergüenza 311 
1:676 (1211:1211) verguensa vergüenza 316 
1:688 (1226:1226) Verguenza vergüenza 321 
1:693 (1227:1227) pequenas pequeñas 321 
1:727 (1344:1344) GUELL Güell 346 
1:759 (1408:1408) verguenza vergüenza 365 
1:761 (1412:1412) verguenza vergüenza 366 
1:773 (1451:1451) sinverguenzas sinvergüenzas 375 
1:792 (1470:1470) Senora señora 378 
1:804 (1486:1486) verguenza vergüenza 381 
1:905 (1664:1664) verguenza vergüenza 427 
1:945 (1750:1750) verguenza vergüenza 450 
1:962 (1811:1811) SENORA señora 463 
1:971 (1830:1830) senora señora 468 
1:981 (1843:1843) verguenza vergüenza 471 
1:1072 (1983:1983) VERGUENSA vergüenza 513 
1:1078 (1987:1987) verguenza vergüenza 514 
1:1103 (2052:2052) VERGUENZA vergüenza 533 
1:1128 (2088:2088) verguenza vergüenza 541 
1:1164 (2153:2153) verguensa vergüenza 558 
1:1172 (2164:2164) VERGUENZA vergüenza 561 
1:1226 (2233:2233) compania compañía 572 
1:1306 (2362:2362) verguensa vergüenza 601 
1:1315 (2387:2387) senora señora 607 
1:1364 (2479:2479) verguenza vergüenza 631 
1:1414 (2528:2528) verguensa vergüenza 643 
1:1467 (2579:2579) sinverguenzas sinvergüenzas 655 
 
15 
 
 
La primera columna (ID code) indica el número de identificación en la secuencia de la codificación; 
por ejemplo, 1:6 indica que esa palabra fue la sexta cita creada en el proceso. La segunda columna 
indica las líneas del documento en que aparece la cita; como en nuestro caso las citas constan de una 
sola palabra, la línea de inicio y término es la misma. En la tercera columna se reproduce el texto de la 
cita, en nuestro caso el vocablo cacográfico. A estos datos generados por el reporte, en la tabulación he 
añadido dos columnas: en la cuarta se indica la forma ortográfica y en la quinta el número de 
identificación del comentario. Este último dato es importante para establecer cuántos comentaristas 
cometieron el error. Así por ejemplo en el caso de los errores diacríticos de omisión de tilde en <ñ> y 
de diéresis en <ü>, se codificaron 44 errores, que corresponden casi siempre a comentaristas distintos, 
excepto en dos casos, 217 y 321; el primero escribió dos veces <n> por <ñ> y el segundo cometió los 
dos errores. Esto significa que del total de comentaristas (655), solamente 42, es decir 6,4%, cometió 
este tipo de errores diacríticos. 
Esta explicación pretende ilustrar la manera en que se organizaron los datos, tomando en cuenta no 
solamente el número y el tipo de errores, sino también cuántas personas lo cometieron. En este sentido 
es importante destacar varios factores que deben ser tomados en consideración:  
 1. Longitud de los comentarios: Es importante señalar que una medición precisa de la 
incidencia de cacografías debería correlacionar la longitud de los comentarios con el número de 
errores. En el caso del corpus textual compilado, esta no era una variable controlada y queda fuera del 
alcance de la investigación establecer correlaciones al respecto. Sin embargo, era necesario organizar 
los datos tomando en cuenta que los comentarios recopilados oscilan entre una y 267 palabras de 
longitud, y era esperable que a una mayor extensión, se diera una mayor cantidad de errores 
ortográficos. Para ver si esto era así, se procedió a  agruparlos en seis rangos, utilizando como criterio 
para la división que hubiera un aumento en la diferencia porcentual de errores mayor a 10% entre cada 
grupo. La Tabla 5 muestra el rango de longitud de los comentarios en palabras, el total de comentarios 
en cada grupo, el número de los que tienen 0 errores y su porcentaje, el número de los que tiene errores 
y su porcentaje, el total de errores por grupo, desglosados según su tipo: error de acentuación (indicado 
en adelante como tilde), error concerniente a los diacríticos tilde de <ñ> y diéresis de <ü> (indicado en 
adelante como diacr) y error propiamente grafemático (indicado como graf). Finalmente se indica el 
número máximo de errores que se presentó en un mismo comentario en cada grupo. 
16 
 
Tabla 5. Agrupación de comentarios por longitud, número de errores y tipos de error
5
 
Grupo 
Longitud 
en palabras 
Total 
coms. 
 Sin 
errores 
% 
Con 
errores 
% 
Errores 
Total:      tilde  diacr   graf 
Máx. 
no. errs 
1 1-5 80  70 87,5 10 12,5 13 8 2 3 2 
2 6-10 85  61 72 24 28 37 31 1 5 3 
3 11-29 226  102 45 124 55 246 197 10 39 8 
4 30-45 100  35 35 65 65 167 144 7 16 8 
5 46-99 126  24 19 102 81 477 389 22 66 14 
6 101-267 38  3 8 35 92 221 205 2 14 16 
TOTAL 22.502 655  295 45 360 55 1161 974 44 143  
 2. Número de errores por comentario: Como se observa en la Tabla 4, de los 655 comentarios 
recopilados el 55% presenta algún error ortográfico; sin embargo, este porcentaje varía sensiblemente 
si se considera el tipo de error; así, mientras que 335 personas (51%) cometieron al menos un error de 
acentuación, solo 96 personas  (14%) cometieron al menos un error grafemático. En la Tabla 5 se 
relaciona el número de errores, de 0 a 16 (el máximo), que se encontró en un mismo comentario y el 
número de comentarios en que aparece cada cantidad. Se observa que un 45% de los comentarios no 
presentó ningún error; pero del 55% que presentó al menos un error, el 28% presenta de 1 a 3 faltas; 
13% de 4 a 8 y un 14% cometió de 9 a 16 faltas en su comentario. 
Tabla 6. Número de errores por comentario 
Máximo no. de errores 
en un mismo comentario 
No. de 
comentarios 
% en relación 
con el total 
Rango de longitud 
de los comentarios 
en palabras 
0 295 45 1-156 
1 125 19 1-267 
2 79 12 3-162 
3 45 7 10-97 
4 33 5 13-140 
5 17 2.6 23-135 
6 14 2.2 28-106 
7 11 1.7 27-155 
8 10 1.5 12-157 
9 8 1.2 57-166 
10 5 0.7 57-111 
11 4 0.6 75-172 
12 4 0.6 60-110 
13 1 0.2 80 
14 3 0.5 87-210 
16 1 0.2 123 
TOTAL 655 100  
                                                 
5
 En el ANEXO 3 "Lista de comentarios por número de palabras, número de errores y tipo de error" se presenta un desglose 
más detallado de estos datos. 
17 
 
 3. Frecuencia y combinación de los distintos tipos de error en el mismo comentario. Es 
claro que la inmensa mayoría de los errores son de acentuación y que cerca de la mitad de los 
comentaristas no cometieron faltas de ortografía; sin embargo puede resultar de interés determinar 
cuántas personas solamente cometieron errores de acento y en cuántas se da todo tipo de errores. En la 
Tabla 7 se presenta esa información y además se clasifican los tipos de error y sus combinaciones en 
siete categorías, según se dé un solo tipo de error (T = tilde, D = omisión del diacrítico de <ñ> o <ü>, 
G = grafemático), o una combinación de ellos: 
Tabla 7. DISTRIBUCIÓN DE ERRORES POR TIPOS: T - D - G y combinaciones 
TIPO DESCRIPCIÓN No. coms No. errores/No. coms Rango en pals. 
T Solo errores de tilde 235 1/101 
2/64 
3/23 
4/16 
5/9 
6/9 
7/3 
8/2 
9/2 
10/2 
11/1 
12/3 
2-267 
5-137 
10-97 
19-140 
23-115 
29-106 
32-155 
89-101 
58-166 
96-111 
109 
60-110 
T/G Errores de tilde y grafemáticos 63  2/9 
3/15 
4/10 
5/6 
6/3 
7/7 
8/1 
9/4 
10/1 
11/2 
12/1 
14/3 
16/1 
16-162 
10-95 
14-54 
28-135 
28-49 
27-127 
54 
95-112 
63 
75-172 
71 
87-210 
123 
T/D Errores de tilde y otros diacríticos 24  2/5 
3/7 
4/4 
5/2 
6/1 
7/1 
8/2 
9/1 
11/1 
3-24 
29-61 
60-95 
48 
79 
43 
65-69 
113 
97 
T/D/G Los tres tipos de errores 13  4/3 
6/1 
8/5 
9/1 
10/2 
13/1 
13-94 
50 
12-157 
57 
57-58 
80 
G Solo errores grafemáticos 19  1/18 
2/1 
1-81 
44 
D Solo errores diacríticos 5 1/5 13-46 
D/G Errores diacríticos y grafemáticos 1  2/1 82 
TOTAL  360   
18 
 
 4. Decisiones idiosincrásicas: omisión general y consistente de la tilde; uso de mayúsculas. 
Se desprende de la Tabla 7 que de los comentarios con errores casi todos (excepto por los 19 que solo 
tuvieron errores grafemáticos) tuvieron errores de tilde (336) o de algún otro diacrítico (5). Durante la 
codificación del corpus se notó que algunos comentarios carecían totalmente de tildes. Esto puede 
deberse a una tendencia a no tildar las palabras en general o a no tildar cuando se escribe por medios 
digitales (en particular  teléfonos celulares). Además se observó que varios comentaristas escribieron 
sus textos exclusivamente en letras mayúsculas. Otros hicieron un uso selectivo de ellas (uso expresivo 
o enfático, solamente en una palabra, frase o consigna) y unos pocos hicieron un uso selectivo pero de 
la minúscula: el texto se encuentra en mayúsculas excepto por  alguna palabra, frase o consigna.  Cabe 
preguntarse si el uso de mayúsculas se relaciona con la incidencia de errores de tilde (y de los otros 
diacríticos), ya que muchas personas, sea por desconocimiento de la normativa o por decisión personal, 
no tildan las mayúsculas.  
Para observar este comportamiento en el CB se procedió a identificar los textos que aparecen escritos 
exclusivamente en mayúscula. Resultaron 46 comentarios a los que se agregaron 4 que hicieron uso 
selectivo de la minúscula. Los 605 comentarios restantes, en minúscula, se inspeccionaron y se 
asignaron a alguna de las categorías que se describen abajo. Los que no correspondían a ninguna de 
ellas fueron eliminados, resultando un conjunto de 240 textos para el análisis del uso de tildes y 
diacríticos en relación con la (posible) intención del escribiente. El análisis del conjunto de 50 
comentarios escritos en mayúsculas se hizo por aparte y se presenta más adelante. 
En primer lugar se dividieron los textos en dos grandes grupos: aquellos que no contienen ninguna tilde 
y aquellos que contienen al menos una palabra tildada. El primer grupo se clasificó en tres categorías y 
el segundo en dos. Las categorías son las siguientes: 
 ?: textos cortos con un error de tilde y en los que al no haber más palabras que la requieran no 
se puede determinar si el error se dio por desconocimiento, descuido o intención.  
 ?N: textos cortos que no contienen tildes y en los que hay dos palabras que la requieren. Podría 
existir la intención de no tildar pero los datos son insuficientes. 
 NN: textos que no contienen tildes y en donde hay al menos tres palabras que la requieren. 
Estos comentaristas por una u otra razón decidieron no tildar. 
 MM: textos en los cuales el número de palabras no tildadas es igual o mayor al de palabras 
tildadas. No se podría determinar si la causa es desconocimiento, descuido o intención. 
19 
 
 M: textos cortos con 1 o 2 errores de tilde y donde aparecen otras palabras correcta o 
incorrectamente tildadas, lo que muestra que el escribiente no tiene la intención de no tildar, 
sino que no sabe hacerlo o no siempre sabe hacerlo. Los textos largos con pocos errores de tilde 
y muchas otras palabras correctamente tildadas fueron eliminados del conteo, pues al parecer se 
dan por error o descuido. 
Los datos que se obtuvieron del conjunto de 240 textos en minúscula se presentan en la Tabla 8: 
Tabla 8. NÚMERO DE COMENTARIOS SIN TILDES EN CB 
Categoría No. de coms. Rango en palabras 
Sin tildes
6
 
(164) 
? 52 3-44 
?N 37 7-60 
NN 75 10-23 
Con tildes 
(76) 
MM 27 27-172 
M 49 11-65 
TOTAL  240  
A estos números ahora agregamos los relativos al conjunto de 50 comentarios escritos en mayúscula: 
Tabla 9. NÚMERO DE COMENTARIOS EN MAYÚSCULA 
Categoría Con errores Sin errores 
Sin tildes
7
 
(29) 
? 12 10 
?N 9 
NN 8 
Con tildes 
(9) 
MM 6 2 
M 3 
TOTAL  38 12 
Asumiendo, como se ha hecho en la construcción del COCAE, que cada comentario fue escrito por una 
persona distinta, se concluye que de los 665 comentaristas, 278, esto es, el 42% no tilda correctamente 
las palabras, ya sea porque no quiere hacerlo o porque no sabe tildar. Con certeza, 83 comentarios 
(12,5%) no contienen ninguna tilde (ni diéresis), lo que podría indicar que estas personas han decidido 
no tildar las palabras; con respecto al restante 29,5%  la cuestión es indeterminada.  
 
                                                 
6
 En cuanto a los otros diacríticos, como se verá detalladamente en la sección correspondiente del COCAE LÉXICO-
DIACRÍTICO, la <ü> solo aparece correctamente escrita una vez en el CB; pero con respecto a la <ñ>, resulta de interés el 
siguiente dato: en la categoría NN, 31 personas la escribieron como <ñ> y solo 7 como <n>, lo que parece asegurarle al 
grafema tildado su buena salud aun entre los escribientes antidiacríticos. 
 
7
 La situación de los diacríticos es muy similar a la descrita en la nota anterior. 
 
20 
 
4.3 Etapa de verificación del CR 
Con el corpus textual de ca. 27.500 palabras recolectado de medios de comunicación en línea, se 
trabajó utilizando una herramienta diseñada por el bachiller en informática Julián Astorga Campos, 
asistente del proyecto. Cada uno de los segmentos del CR, correspondientes a los cuatro medios (CRH, 
LAN, CAR, INF, ver sección 4.1), se introdujo por separado en la herramienta, un verificador 
ortográfico que coteja el input textual con el Diccionario de la Real Academia Española (2001) y extrae 
todas aquellas palabras que no aparecen registradas. De esta manera se obtuvieron cuatro subcorpus 
léxicos que posteriormente fueron codificados manualmente de acuerdo con los siguientes códigos: 
 DIACRÍTICO: omisión, adición o colocación errónea; omisión del diacrítico tilde de <ñ>; 
omisión del diacrítico diéresis de <ü>. 
 GRAFEMÁTICO: error propiamente grafemático. 
 DIGIT: errores de digitación ya que la palabra no presenta dificultad ortográfica. 
 NPROP: nombres propios. 
 MORF: formas polimorfemáticas como verbos con pronombre enclítico, sustantivos con 
diminutivo y toda otra forma ortográfica que por no ser de cita no aparece en el diccionario. 
 OTROS: fenómenos varios. 
Como puede verse, básicamente se utilizaron los mismos códigos que en la codificación manual del CB 
(ver sección 4.2), con la modificación de que los códigos TILDE  y TILDE-Ñ se subsumieron en uno 
solo denominado DIACRÍTICO. Para la construcción del COCAE se tomaron en cuenta  solamente los 
dos primeros códigos; los restantes pueden ser muy útiles para el estudio de otros fenómenos, como el 
textismo.
8
 En la Tabla 10 se indica el número de formas cacográficas que se obtuvo a partir de la 
verificación. Los datos se refieren a las distintas formas de palabra y no a su frecuencia: 
Tabla 10. FORMAS CACOGRÁFICAS EN CB Y CR OBTENIDAS DEL VERIFICADOR 
Tipo de error → DIACRÍTICO GRAFEMÁTICO TOTAL 
No. palabras 
del corpus 
CORPUS  BASE 236 84 320 22502 
CORPUS DE 
REFERENCIA 
CRH 114 31 145 8895 
LAN 80 19 99 5022 
CAR 74 9 83 8248 
INF 102 8 110 5406 
     50073 
                                                 
8
 Ver nota 4. 
21 
 
Es importante destacar que con el verificador se obtuvo un vocabulario cacográfico reducido, ya que se 
eliminaron los nombres propios y las formas que son cacográficas en el contexto del corpus pero 
aparecen en el diccionario porque corresponden a otros lexemas, por ejemplo publico (por publicó), ya 
que el diccionario la registra como una forma ortográfica del verbo publicar (yo publico.) 
Los vocabularios correspondientes al CB y a los cuatro componentes del CR se unificaron para 
eliminar las redundancias y se creó una única lista de palabras para determinar la frecuencia de cada 
tipo en el corpus textual completo. Esta tarea se realizó por medio del programa de análisis de 
concordancias AntConc, que puede devolver la frecuencia de cada forma de palabra en un corpus a 
partir de una lista específica de palabras. Los resultados se muestran en la Tabla 11: 
Tabla 11. NO. DE FORMAS DEL COCAE QUE NO APARECEN EN EL DRAE 
 Tipos
9
 % Muestras % 
Palabras con error diacrítico 445 75 1062 86 
Palabras con error grafemático 145 25 175 14 
Totales 590 100 1237 100 
Pareciera que, en relación con el CB, el CR aportó pocos errores tanto diacríticos como grafemáticos. 
Esto se debe a que mientras el CB fue codificado minuciosamente y se desambiguaron todas las 
formas, el vocabulario cacográfico del CR se construyó con base en el verificador, por lo que no se 
tomaron en cuenta las formas que más frecuentemente presentan error diacrítico, como es el caso del 
adverbio más y el pronombre interrogativo/exclamativo qué, dos palabras que, como se verá en el 
análisis del COCAE DIACRÍTICO, en conjunto son responsables del 17,5% de todos los errores de 
acentuación en el CB. 
La aplicación del verificador ortográfico tenía como finalidad indagar, en un corpus textual más amplio 
y diverso, si se mantenían las tendencias observadas en el CB. La tendencia general se mantiene; sin 
embargo puede observarse que en los subcorpus de los medios más tradicionalmente relacionados con 
el registro escrito (periódicos) parece haber menos errores, y en los blogs, que se producen en 
condiciones temporales más relajadas, también parecen disminuir. Por supuesto sería necesario 
considerar también la composición demográfica de los usuarios de esos medios y productores de los 
textos. La Tabla 12 ilustra estas observaciones: 
 
                                                 
9
 Ver nota 3. 
22 
 
 Tabla 11. INCIDENCIA DE ERRORES SEGÚN EL MEDIO 
Tipo de error → DIACRÍTICO GRAFEMÁTICO TOTAL 
No. palabras 
del corpus 
PERIÓDICOS 
CRH 114 31 145 8895 
LAN 80 19 99 5022 
 194 50 244 13917 
     
BLOGS 
     
CAR 74 9 83 8248 
INF 102 8 110 5406 
 176 17 193 13654 
      
TOTAL  370 67 437  
      
CORPUS BASE 
(reacciones a telediario) 
236 84 320 22502 
4.4 Etapa de construcción y análisis del COCAE 
Una vez que se contó con el vocabulario cacográfico del CB codificado en detalle y el que se extrajo 
del CR por medio de verificador ortográfico, se procedió a la etapa de construcción y análisis del 
COCAE.  El trabajo realizado en esta última etapa se presenta en los siguientes anexos: 
 ANEXO 1.  "COCAE 1 - DIACRÍTICO" 
 ANEXO 2.  "COCAE 2 - GRAFEMÁTICO". 
 
 
 
REFERENCIAS 
 
Alvar Ezquerra, Manuel. 2004. "La frecuencia léxica y su utilidad en la enseñanza del español como 
lengua extranjera". ASELE, Actas XV. Disponible en: http://cvc.cervantes.es/ensenanza/ 
biblioteca_ele/asele/pdf/15/15_0017.pdf. Consultado: 25/06/2013. 
 
Battaner, Paz. 2005. "Proyecto y desarrollo del Corpus PAAU 1992 (Corpus 92)" En: Torner, Sergi y 
Paz Battaner (eds.). 2005, 13-18.  
 
Crystal, David. 2008a. "Texting". ELT Journal 62:77-83. 
 
Crystal, David. 2008b. Txtng: The Gr8 Db8. Oxford: Oxford University Press. 
 
Durkin, K., G. Conti-Ramsden and A. J.Walker. 2011. "Txt lang: Texting, textism use and literacy 
abilities in adolescents with and without specific language impairment. Journal of Computer Assisted 
Learning  27:49-57. 
23 
 
 
Jara Murillo, Carla Victoria. 2011. CODIMEP-CR: Corpus Digital de Mensajes Presidenciales de 
Costa Rica. En: https://sites.google.com/site/mensajepresidencialcr/. 
 
Jara Murillo, Carla Victoria. 2010."Léxico del discurso presidencial costarricense: Algunos ejemplos 
de aplicación de la lexicometría y el análisis de concordancias". Káñina. Revista de Artes y Letras de la 
Universidad de Costa Rica (34). Número especial de 2010, 87-93. 
 
Luelsdorff, Phillip. 1991.  Developmental Orthography. Amsterdam: John Benjamins. 
 
Murillo Rojas, Marielos. 2003. Estudio sobre el lenguaje de los escolares costarricenses: el léxico 
básico. La ortografía y sus características. Tesis doctoral, Universidad de Extremadura. 
 
Murillo Rojas,  Marielos. 2006. "Vocabulario cacográfico. Pautas para la enseñanza de la ortografía en 
la escuela primaria costarricense". Káñina, Revista de Artes y Letras de la Universidad de Costa Rica. 
30(1):59-70. 
 
Pujol Llop, Mario. 1999.  Análisis de errores grafemáticos en textos libres de estudiantes de 
enseñanzas medias. Tesis doctoral, Departament de Didàctica de la Llengua i la Literatura,  Universitat 
de Barcelona. Disponible en: http://www.tdx.cesca.es/TESIS_UB/AVAILABLE/TDX-0906104-
115216//TESIS_COMPLETA.pdf. Consultado: 03/09/12. 
 
Pujol Llop, Mario. 2005. "La ortografía". En: Torner, Sergi y María Paz Battaner (eds.). 2005, 29-65. 
 
Real Academia Española. 2001. Diccionario de la Real Academia Español. 22ª ed. En línea: 
http://www.rae.es. 
 
Rojo, Guillermo. 2008. "Lingüística de corpus y lingüística del español." Ponencia plenaria en el XV 
Congreso de la ALFAL (Montevideo, 18-21 de agosto de 2008). Recuperado de: 
http://gramatica.usc.es/~grojo/Publicaciones/Lgca_corpus_lgca_espanol.pdf. Consultado: 26/06/2013. 
 
Sánchez Avendaño, Carlos. 2008. "La enseñanza de la ortografía en Costa Rica: de las reglas 
fonodependientes a las reglas rentables y al planteamiento grafológico". Educación, Revista de la 
Universidad de Costa Rica 32(2): 97-114. Recuperado de http://www.redalyc.org/articulo.oa?id 
=44032208. Consultado: 02/11/12. 
 
Sánchez Avendaño, Carlos. 2005. "Los problemas de redacción de los estudiantes costarricenses: Una 
propuesta de revisión desde la lingüística del texto." Revista de Filología y Lingüística 31(1), 267-295. 
 
Sánchez Avendaño, Carlos. 2004. "La puntuación y las unidades textuales: Una perspectiva discursiva 
para el estudio de los problemas de su uso y para su enseñanza". Educación, Revista de la Universidad 
de Costa Rica 28(2), 233-254. 
 
Torner, Sergi y Paz Battaner (eds.). 2005. El corpus PAAU 1992: estudios descriptivos, textos y 
vocabularios. Barcelona: Universitat Pompeu Fabra. 
1 
 
ANEXO 1 
 
COCAE 1 - DIACRÍTICO 
1. ASPECTOS PRELIMINARES 
 
El COCAE consta de cuatro compontes de acuerdo con las distinciones propuestas entre errores 
diacríticos y grafemáticos, por una parte, y entre vocabulario funcional y vocabulario léxico, por otra. 
El COCAE 1 DIACRÍTICO se extrajo del Corpus Base (CB); el COCAE 2 GRAFEMÁTICO (Anexo 
2) incluye el CB y el Corpus de Referencia (CR). El CB consta de 22.502 palabras.  
 
VOCABULARIO FUNCIONAL 
 
El vocabulario funcional comprende las clases de determinantes, pronombres, preposiciones y 
conjunciones. Además, se incluyen todas las formas de los verbos ser, estar y haber, y un conjunto de 
adverbios de alta frecuencia. La lista de vocabulario funcional considerada en el análisis comprende las 
siguientes  242 palabras: 
 
1. Pronombres, determinantes, contracciones 
 
Pronombres personales y posesivos: yo, usted, él, ella, ello, nosotros, vosotros, ustedes, ellas, ellos, me, nos, os, lo, le, les, 
se, mi, mí, mío, mía, míos, mías, mis, nuestro, nuestra, nuestros, nuestras, vuestro, vuestra, vuestros, vuestras, su, sus. 
Artículos: el, la, lo, las, los, un, una, unos, unas. 
Pronombres y adjetivos determinativos: esto, este, esta, estos, estas, eso, ese, esa, esos, esas, aquello, aquel, aquella, 
aquellos, aquellas, que, qué, cual, cuál, cuales, cuáles, quien, quién, quienes, quiénes, cuyo, cuya, cuyos, cuyas, algo, 
alguien, alguno, ninguno, ninguna, nada, nadie, varios, cualquier, cualquiera, quienquiera,  cada, tal, tales, mismo, misma, 
algún, alguna, algunos, algunas, poca, pocos, pocas, mucha, muchos, muchas, todo, toda, todos, todas, otro, otra, otros, 
otras, demás, uno, dos, tres, cuatro, cinco, seis, siete, ocho, nueve, diez, mil, demasiados, demasiadas, demasiada. 
Contracciones: al, del. 
 
2. Preposiciones, conjunciones y adverbios de alta frecuencia 
 
Preposiciones: a, ante, bajo, cabe, con, contra, de, desde, en, entre, hacia, hasta, para, por, según, sin, so, sobre, tras. 
Conjunciones y adverbios: e, mas, mediante, ni, o, ora, pero, porque, pues, puesto si, sino, u, y, ya, además, aun, aún, 
conque, durante, luego, aunque, entonces, mientras, obstante, (sin) embargo, frente, más, no, así, también, hoy, muy, casi, 
ahora, antes, menos, dentro, siempre, nunca, jamás, solo, aquí, ahí, acá, después, adelante, atrás, detrás, sí, cuándo, cómo, 
dónde, adónde, tan, tanto,  mucho, poco, demasiado, bastante, como, cuando, donde, cuanto, cuánto, quizás, todavía. 
 
3. Formas de los verbos ser, estar y haber: era, eran, es, sea, sean, ser, son, fue, fueron, fuera, sido, será, sería, 
está, están, estar, esté, estén, estamos, he, hemos, ha, han, hay, haber, había, haya, habría, hubo, habían. 
 
 
 
 
 
2 
 
CÓDIGO TILDE 
 
Los datos recuperados del código TILDE en el CB se ordenaron primero por frecuencia y luego 
alfabéticamente. De acuerdo con este listado, las cacografías por tilde aparecen en un total 349 formas 
de palabra (cacográficas) que se agruparon en 262 lexemas. Los errores de acentuación ortográfica son 
en total 974, de los cuales 489 (50%) corresponden a errores en el vocabulario funcional y 485 se dan 
en el vocabulario léxico (50%). El vocabulario cacográfico funcional comprende 62 formas de palabra 
distribuidas en 44 lexemas, mientras que el vocabulario cacográfico léxico comprende 287 formas de 
palabra correspondientes a 218 lexemas. Estos datos se muestran en la siguiente tabla: 
 
Tabla 1 - CÓDIGO TILDE: organización por lexema e incidencia 
 
 
 
 
 
 
 
 
La Tabla 2 muestra la distribución de los errores de acentuación por comentarista;  en el CB, de los 655 
comentaristas, 320 (49%) no cometieron ningún error de acentuación ortográfica; 246 (37,5%) 
cometieron de 1 a 3 errores y 89 (13,5%) cometieron de 4 a 15 errores: 
 
Tabla 2 - Errores de acentuación por comentarista 
Cantidad de errores Comentaristas % Coms. Total errores 
0 320 49 0 
1 119 18 119 
2 89 13 178 
3 38 5,4 114 
4 25 4 100 
5 18 3 90 
6 18 3 108 
7 6 1 42 
8 7 1 56 
9 3 0,5 27 
10 3 0,5 30 
11 3 0,5 33 
12 3 0,5 36 
13 2 0,4 26 
15 1 0,2 15 
TOTALES 655 100% 974 
 ERRORES % FORMAS  % LEXEMAS % 
VOC FUNCIONAL 489 50 62 18 44 17 
VOC LÉXICO 485 50 287 82 218 83 
TOTALES 974 100 349 100 262 100 
Total de comentaristas: 655.  
No. de comentaristas que tuvieron al menos un error: 335 (51%). 
Total de errores: 974. 
3 
 
2. COCAE 1. 1 DIACRÍTICO-FUNCIONAL
10
 
2.1 CORPUS 
1. Pronombres y determinantes (135 errores en 119 comentaristas) 
cat LEXEMA formas  
ortográficas 
formas  
cacográficas 
coms no. errs no. formas 
correctas 
PRO QUÉ qué (exc (40 err), 
int, int ind) 
que  73 83 13 
PRO QUIÉN quién (int, int ind, 
exc) 
quiénes (int, int ind) 
quien  quienes 16 16 2 
DET ESTE este esta  
estas estos 
ésta éste  
estás èstos 
7 9 este (127) esta (87)  
estas (12) estos (19) 
PRO ÉL él el 4 4 1 
PRO MÍ mí mi 3 3 1 
PRO CUÁL cuál (int, int ind) cual  4 4 2  
PRO QUIEN quien (rel) quién  2 3 31 
DET CUÁNTO cuánta cuántos (int) cuanta cuantos  3 3 - 
DET ALGÚN algún algun 2 2 3 
PRO MÍO mío mio 2 2 - 
PRO ESO eso èso 1 2 39 
DET NINGÚN ningún ningun 2 2 2 
PRO SE se sé 1 1 272 
PRO TÚ tú tu 1 1 - 
 14  19 119 135 611 
 
2. Adverbios de alta frecuencia, preposiciones y conjunciones  
(231 errores en 206 comentaristas) 
cat LEXEMA formas  
ortográficas 
formas  
cacográficas 
coms no. errs no. corr 
ADV MÁS más mas 74 88 62 
ADV SÍ sí si 25 29 3 
ADV ASÍ así asi haci 26 27 29 
ADV CÓMO cómo (exc) (int) 
(int ind) 
como 13 13 6 
ADV DÓNDE dónde (int) (int ind) donde 9 10 - 
ADV AÚN aún aun 7 7 3 
ADV TAMBIÉN también tambien 7 7 5 
ADV AHÍ ahí ahi 6 6 2 
ADV AQUÍ aquí aqui 4 6 4 
ADV COMO como (rel) cómo còmo 3 6 164 
ADV ADEMÁS además ademas 5 5 1 
ADV DETRÁS detrás detras 4 4 5 
ADV JAMÁS jamás jamas 3 3 1 
ADV POR QUÉ por qué porque 3 3 1 
                                                 
10
 El código TILDE-Ñ (errores de <ñ> y<ü>) no tiene instancias en el vocabulario funcional. 
4 
 
ADV CUÁNTO cuánto cuanto 3 3 - 
ADV DESPUÉS después despues 2 2 4 
ADV ATRÁS atrás atras 2 2 4 
ADV ACÁ acá ACA 1 1 1 
ADV ADÓNDE adónde (int) adonde 1 1 1 
ADV CUÁNDO cuándo (int) cuando 1 1 30 
ADV DONDE donde dónde 1 1 27 
ADV MUCHO muchísimo muchisimo 1 1 1 
ADV QUIZÁS quizás quisas 1 1 - 
ADV TODAVÍA todavía todavia 1 1 3 
CONJ O o ó 1 1 53 
CONJ SEGÚN según segun 1 1 4 
PREP ENTRE entre entré 1 1 3 
 27  29 206 231 417 
 
3. Formas de los verbos ser, estar y haber (123 errores en 108 comentaristas) 
cat LEXEMA formas  
ortográficas 
formas  
cacográficas 
coms no. errs no. corr 
V ESTAR está 
están 
estás 
esté 
estábamos 
estaría 
estén 
esta (76)  
estan (19) 
estas (4) 
este (3) 
estabamos (1) 
Estaria (1) 
esten (1) 
65 
16 
4 
2 
1 
1 
1 
TOTAL 
105 
está (35)  
están (21)  
estás (2)  
esté (-) 
estábamos (-) 
estaría (-) 
estén (-) 
V SER sería  
será 
éramos 
es 
fue 
seria (7) 
sera (6) 
eramos (1) 
és (1) 
fué (1) 
7 
6 
1 
1 
1 
TOTAL 
16 
sería (2)  
será (6)   
éramos (-)  
es (283)  
fue (17) 
V HABER habrá 
habría 
habra (1) 
habria (1) 
1 
1 
TOTAL 
2 
habrá (2) 
habría (-) 
 3  14 108 123 368 
 
CUADRO RESUMEN COCAE DIACRÍTICO-FUNCIONAL 
Categorías NO. de 
LEXEMAS 
no. formas  
cacográficas 
no. errores no. formas 
correctas 
PRONS, DETS 14 19 135 611 
ADVS, CONJS,  
PREP 
27 29 231 417 
VERBOS 3 14 123 368 
TOTALES 44 62 489 1396 
 
El error más frecuente fue la omisión de tilde del adverbio más, con una incidencia de 88 errores 
cometidos por 74  comentaristas distintos (11.3% del total). Un total de 62 formas de palabra distintas, 
correspondientes a 44 lexemas, dieron cuenta de 489 errores de acentuación ortográfica del total de 974 
5 
 
errores, es decir, el 50% del total de errores de acentuación ortográfica. El restante 50% de los errores 
de tilde corresponden al vocabulario léxico.  
 
Es de notar que de las 1885 instancias de las formas del vocabulario funcional consideradas aquí (1396 
ortográficas y  489 cacográficas), el 76%  de las veces fueron escritas correctamente. Por otra parte, de 
las 728 formas que debieron estar tildadas, solo el 36% (262 casos) en efecto se tildó, mientras que en 
el  64%  (466 casos) se omitió la tilde. Los 262 casos correctos resultan de restar a las 1396 formas 
correctas las 1134 instancias de palabras que no se tildan como el determinante este y sus formas, el 
pronombre se, el adverbio como, los verbos es y fue, etc. 
 
2.2  CLASIFICACIÓN DE LOS ERRORES. Total: 489 
EXCESO DE ACENTO (23 errores):  
 
1. Pronombres y determinantes: ésta éste estás èstos (9), quién (rel, 3), èso (2), sé (1) 
2. Advs., preps., conjs: cómo còmo (rels, 6), dónde (rel, 1), ó (1), entré (por entre, 1) 
3.Verbos: és (1), fué (1) 
 
OMISIÓN DE ACENTO (466 errores): 
 
Exclamativos e interrogativos (directos e indirectos) (137 errores): 
que (83), quien quienes (16), como (13), donde (10), cual (4), cuanta cuantos (3), cuanto (3), porque 
(por por qué, 3), adonde (1), cuando (1) 
 
Monosílabos (132 errores): 
mas (88), si (29), aun (7), el (4), mi (3), tu (1) 
 
Verbos estar, ser y haber (121 errores): 
 Estar: esta (76), estan (19), estas (4), este (3), estabamos (1), estaria (1), esten (1) 
 Ser: seria (7), sera (6), eramos (1) 
 Haber: habra (1), habria (1) 
 
Agudos (69 errores): asi (25) haci (2), tambien (7), ahi (6), aqui (6), ademas (5), detras (4),  jamas (3), 
algun (2), atras (2), despues (2), ningun (2), aca (1), quisas (1), segun (1) 
 
Hiatos (3 errores):: mio (2) todavia (1) 
 
Esdrújulos (1 error): muchisimo (1) 
 
 
 
6 
 
3. COCAE 1.2 DIACRÍTICO-LÉXICO 
 
El vocabulario léxico comprende las clases de sustantivos, adjetivos, adverbios léxicos, verbos (menos 
ser, estar y haber). Se incluye la interjección ojalá, que apareció con relativa frecuencia en el corpus. 
Por tratarse de vocabulario léxico, la frecuencia de cada forma de palabra es muy baja: 147 formas de 
palabra son hápax, es decir que aparecen solo una vez en el corpus cacográfico (sin acentuación).  
 
La forma cacográfica de más alta frecuencia es el sustantivo país (54 errores), y la siguiente es la 
interjección ojalá (15 errores). A partir de aquí, la frecuencia de las formas cacográficas va de 10 a 2 
instancias. Así, el sustantivo día aparece sin tilde 10 veces; el lexema POLÍTICO suma 15 instancias 
de error distribuidos en las formas politica (7 casos), politico (4 casos) y politicos (4 casos). De las 
formas verbales, las de mayor frecuencia son deberia (7 casos) y vote (por voté, 7 casos). Fuera de 
estas formas de mayor frecuencia, ninguna otra aparece en el corpus cacográfico con una frecuencia 
superior a 6 instancias. Estos datos se muestran en la siguiente tabla: 
 
Tabla 3 Formas frecuentes del vocabulario cacográfico diacrítico-léxico 
LEXEMA forma ortográfica forma cacográfica no. errores no. corr 
PAÍS país pais 54 72 
OJALÁ ojalá ojala 15 6 
DÍA día dia 10 24 
POLÍTICO 
política politica 7 5 
político politico 4 5 
políticos politicos 4 18 
DEBER debería deberia/deveria 7 8 
VOTAR voté vote 7 1 
6 8 8 108 139 
 
En resumen, la distribución cuantitativa de los errores de acentuación en el vocabulario léxico se 
muestra en la siguiente tabla: 
 
Tabla 4. Distribución de errores de acentuación por formas y lexemas 
TILDE/VOC LÉXICO ERRORES % FORMAS % LEXEMAS % 
Frec. del error: 7-54 108 22,3 8 3 6 3 
Frec. del error: 2-6 230 47,4 132 46 65 30 
Hápax (frec. 1) 147 30,3 147 51 147 67 
TOTALES 485 100 287 100 218 100 
 
  
7 
 
3.1 CORPUS 
1. Adverbios e interjección (19 errores – 6 formas ortográfícas) 
CAT LEXEMA f. ortográfica f. cacográfica no. 
errores 
no.  
corr 
INTERJ-AG-V OJALÁ ojalá ojala 15 6 
ADV-HIR FRÍAMENTE fríamente friamente 1 - 
ADV-ESDRR PACÍFICAMENTE pacíficamente pacificamente 1 - 
ADV-ESDRR- PARADÓJICAMENTE paradójicamente Paradojicamente 1 - 
ADV-ESDRR PÚBLICAMENTE públicamente publicamente 1 - 
 correctas: 
prácticamente 
ilícitamente 
sistemáticamente 
ùltimamente (sic) 
    
 
2. Adjetivos (66 errores -  70 formas ortográficas) 
CAT LEXEMA f. ortográfica f. cacográfica no. 
errores 
no. 
corr 
A-ESDRR POLÍTICO política político 
políticos 
politica (7)  politico (4) 
politicos (4) 
15 32 
A-ESDRR ÚNICO única único únicos unica unico unicos 6 8 
A-ESDRR PÚBLICO pública públicas 
público 
publica publicas publico 5 8 
A-ESDRR ÚLTIMO última últimas último ultima ultimas ultimo 5 2 
A-ESDRR PRÓXIMO próxima próximas 
próximo próximos 
proxima PROXIMAS 
proximo proximos 
4 3 
A-ESDRR CRÍTICO crítica crítico critica critico 3 1 
A-ESDRR ECONÓMICO económica 
económicas 
económico 
economica economicas 
economico 
3 2 
A-ESDRR DEMOCRÁTICO democrática 
democrático 
democratica 
DEMOCRATICO 
2 4 
A-ESDRR CÍVICO cívico civico 1 1 
A-ESDRR CLARO clarísimas clarisimas 1 - 
A-ESDRR ENÉRGICO enérgico energico 1 - 
A-ESDRR ESTÚPIDO estúpida estupida 1 1 
A-ESDRR FOLCLÓRICO folclórica Folclorica 1 - 
A-ESDRR INVÁLIDO inválido invalido 1 - 
A-ESDRR PACÍFICO pacífico pacifico 1 1 
A-ESDRR PATRIÓTICO patriótica patriotica 1 - 
A-ESDRPL INÚTIL inútiles inutiles 1 - 
A-ESDRPL DIFÍCIL difíciles dificiles 1 1 sing 
A-AG-S DEMÁS demás demas 4 2 
A-HI INCREÍBLE increíble increible 2 2 
A-GR-R ESTÁNDAR estándar estandar 1 - 
A-SUPRL BUENO buenísimo buenisimo 1 - 
A-SUPRL CARO carísimo CARISIMO 1 - 
8 
 
A-SUPRL EXCELENTE excelentísimo excelentisimo 1 - 
A-SUPRL HERMOSO hermosísimo Hermosisimo 1 - 
A-SUPRL MALO malísimo malic imo 1 - 
A-SUPRL PÉSIMO pésimos pesimos 1 2 
 
3. Sustantivos (212 errores – 248 formas ortográficas) 
CAT LEXEMA f. ortográfica f. cacográfica no. err no. corr 
S-A CONCESIÓN concesión 
concesiones 
concesion consecion 
concesiónes 
10 concesión (19) 
concesiones (5) 
S-A CORRUPCIÓN corrupción corrupcion 
ACORRUPCION 
6 corrupcion (23) 
S-A MONTÓN montón monton MONTO 5 1 
S-A EXPRESIÓN expresión expresion 4 4 
S-A INDIGNACIÓN indignación indignacion 4 - 
S-A OPCIÓN opción opcion 4 1 
S-A CONSTITUCIÓN constitución constitucion 
CONTITUCION 
Costitucion 
3 1 
S-A OPINIÓN opinión opinion 3 4 
S-A PERDÓN perdón perdon 3 - 
S-A ADMIRACIÓN admiración admiracion 2 2 
S-A DECISIÓN decisión decision 2 1 
S-A EDUCACIÓN educación educacion 2 5 
S-A ELECCIÓN elección eleccion 2 2 
S-A INTERÉS interés interes interese 2 1 
S-A RAZÓN razón razon 2 14 
S-A REVOLUCIÓN revolución revocion 2 1 
S-A SITUACIÓN situación situacion 2 3 
S-A ATENCIÓN atención atencon 1 1 
S-A CALZÓN calzón calzon 1 - 
S-A CAPITÁN capitán capitan 1 - 
S-A CELEBRACIÓN celebración celebracion 1 1 
S-A COMUNICACIÓN comunicación COMUNICACION 1 4 
S-A CONCLUSIÓN conclusión conclusion 1 - 
S-A CONDICIÓN condición condicion 1 - 
S-A CONSTRUCCIÓN construcción construccion 1 - 
S-A CORAZÓN corazón corazon 1 - 
S-A DECEPCIÓN decepción decpecion 1 - 
S-A DESCRIPCIÓN descripción DESCRIPCION 1 - 
S-A DISCRIMINACIÓN discriminación discriminacion 1 - 
S-A FLEXIÓN flexión flexion 1 - 
S-A IMPUGNACIÓN impugnación impugnacion 1 - 
S-A LADRÓN ladrón ladron 1 - 
S-A LIBERACIÓN liberación liberacion 1 2 
S-A MESÓN mesón meson 1 - 
S-A NEGOCIACIÓN negociación negociacion 1 1 
S-A OPOSICIÓN oposición OPOSICION 1 - 
S-A PENSIÓN pensión pension 1 - 
9 
 
S-A PERFECCIÓN perfección PERFECCION 1 - 
S-A PRESENTACIÓN presentación presentacion 1 1 
S-A PRESIÓN presión presion 1 2 
S-A REGIÓN región REGION 1 - 
S-A REPULSIÓN repulsión repulsion 1 - 
S-A SALCHICHÓN salchichón salchichon 1 - 
S-A SOLUCIÓN solución solucion 1 1 
S-A TELEVISIÓN televisión TELEVISION 1 1 
S-A TESÓN tesón tezon 1 - 
S-A VIOLACIÓN violación violacion 1 - 
S-A VOCACIÓN vocación vocacion 1 - 
S-E REPÚBLICA república republica 2 2 
S-E TÍTERE títere titere titeres 2 títere (1) 
títeres (1) 
S-E TRÁNSITO tránsito transito 2 - 
S-E ÁNIMO ánimos ANIMOS 1 - 
S-E ÁREA áreas areas 1 - 
S-E CLÁUSULA cláusulas clausulas 1 - 
S-E DÉCADA décadas decadas 1 2 
S-E ÉTICA ética etica 1 2 
S-E HÉROE héroes HEROES 1 1 
S-E LÍMITE límite limite 1 - 
S-E LÍNEA línea linea 1 4 
S-E LÓGICA lógica logica 1 1 
S-E MÁQUINA máquinas maquinas 1 - 
S-E MÁSCARA máscara  mascara 1 - 
S-E PÁGINA página PAGINA 1 - 
S-E PÓLVORA pólvora POLVORA 1 - 
S-E SÍNTOMA síntomas sintomas 1 - 
S-E TÍTULO título titulo 1 - 
S-E VÍCTIMA víctimas victimas 1 - 
S-exc PERIODISTA periodistas periódistas 1 10 
S-G CARÁCTER carácter caracter 3 - 
S-G LÍDER líder lideres lider lideres 3 líderes (1) 
S-G CÁRCEL cárcel carcel 2 - 
S-G CÁNCER cáncer cancer 1 - 
S-G DÓLAR dólar dolar 1 - 
S-G REFERÉNDUM referéndum referendum 1 - 
S-H PAÍS país países pais (54) paises (4) 58 país (72) países 
(1) 
S-H DÍA día días dia (10) dias (2) 12 día (24) 
días (3) 
S-H MAYORÍA mayoría mayorías mayoria 5 3 
S-H COMPAÑÍA compañía compañías compania  
companias 
2 - 
S-H CONTRALORÍA contraloría Contraloria 2 2 
S-H POLICÍA policía Policia policias 2 policía (5) 
policías (3) 
10 
 
S-H ALTANERÍA altanería altaneria 1 - 
S-H ANARQUÍA anarquía Anarquia 1 - 
S-H CIUDADANÍA ciudadanía ciudadania 1 - 
S-H OÍDO oídos oidos 1 4 
S-H PARAÍSO paraíso PARAISO 1 2 
S-H RAÍZ raíz raiz 1 1 
S-H SOBERANÍA soberanía soberania 1 1 
S-H VÍA vía via 1 1 
 
4. Nombres propios (21 errores – 119 formas ortográficas) 
CAT LEXEMA f. ortográfica f. cacográfica no. errores no. corr 
NP JOSÉ José Jose 3 3 
NP ÓSCAR Óscar Oscar 3 - 
NP RAMÓN Ramón Ramon 3 9 
NP MOISÉS Moisés MOISES 2 - 
NP PANAMÁ Panamá Panama 2 - 
NP CISNEROS Cisneros Císneros 1 6 
NP COLÓN Colón Colon 1 1 
NP MÉNDEZ Méndez Mendez 1 - 
NP MÉXICO México Mexico 1 - 
NP PERÚ Perú Peru 1 2 
NP PILAR Pilar Pílar 1 97 
NP SANTAMARÍA Santamaría Santamaria 1 1 
NP SOLÍS Solís Solis 1 - 
 
5. Verbos (167 errores – 62 formas ortográficas) 
CAT LEXEMA f. ortográfica f. cacográfica no. errores no. corr 
VM DEBER debería deberían debió deveria deberia (7) 
DEBERIAN (2)  
debio (1) 
10 debería (8) 
deberían (1)  
debió (1) 
VM PODER podían podría podrían podian podria podrian 4 podían (1)  
podría (5) 
podrían (2) 
V VOTAR votarán votaría  
voté (7) votó 
votaran Votaria vote 10 voté (1) 
V DAR dará (4)dé (4) dándole dara de dandole 9 dará (1) 
dé (1) 
dándole (1) 
V QUEDAR quedó quedará  quedo quedara  8 quedó (1)  
V HACER hacía hacían haría harían 
haciéndose 
hacia hacian  
haria harian haciendose 
6 hacía (1) 
V TENER tendrá tenés  
téngase tenía 
tendra tenes  
tengase tenia 
6 tenés (1) 
tenía (1) 
V CREER creí creía creído crei creia creido 5 - 
V PASAR pasará pase pasó pasara pasé paso 5 pasará (1) 
pasó (1) 
V ACTUAR actúan actúe actúen actuan actue  
actué actuen 
4 actúan (1) 
actúe (1)  
11 
 
V SABER sabía sé sabia se 4 sabía (1) 
sé (1) 
V CONTINUAR continúa continúe continua continué  3 - 
V ELEGIR eligió eligio 3 4 
V ENTENDER entendió entiéndase entendio entiendase 3 - 
V FALTAR faltó falto 3 2 
V OÍR oír oir 3 2 
V DEJAR dejaría dejó dejaria DEJO 2 dejó (1) 
V DESPERTAR despertó desperto 2 - 
V EQUIVOCAR equivocó 
equivoqué 
EQUIVOCO 
EQUIVOQUE 
2 - 
V ESCUCHAR escuchará escúchela escuchara 
ESCUCHELA 
2 - 
V EXPRESAR expresándonos expresó expresandonos expreso 2 expresó (2) 
V HABLAR habló hablo 2 3 
V LEER léanlo leyó leanlo leyo 2 - 
V PERDER perdió perdio 2 - 
V PERMITIR permitió permitirá permitio permitira 2 - 
V PRESENTAR presentó PRESENTO 2 - 
V TRAER traerán traía traeran traia 2 traía (1) 
V ABRIR abra habrá 1 5 
V ACABAR acabó ACABO 1 - 
V APLICAR aplicó aplico 1 - 
V APORTAR aportó aporto 1 - 
V ASESORAR asesoró asesoro 1 -  
V BASTAR bastó basto 1 - 
V BENEFICIAR beneficiará beneficiara 1 - 
V BUSCAR buscarán buscaran 1 - 
V CAMBIARSE cámbiese cambiese 1 - 
V CONCEDER concedió concedio 1 - 
V CONOCER conózcalos CONOSCALOS 1 - 
V CORTAR cortándolo cortandolo 1 - 
V DECIR diré dire 1 - 
V DEMANDAR demandó demando 1 - 
V DENIGRAR denigrándonos denigrandonos 1 - 
V DICTAR dictó dicto 1 - 
V DUDAR dudé dude 1 - 
V EMPEZAR empezó empezo 1 - 
V EMPUJAR empujó empujo 1 - 
V ENFRENTAR enfrentaría ENFRENTARIA 1 - 
V ENTRAR entró entro 1 - 
V ERIZAR erizó erizo 1 - 
V EXISTIR existían existian 1 - 
V FALLECER falleció FALLECIO 1 - 
V FAVORECER favoreciéndose favoreciendo se 1 - 
V GANAR ganaría ganaria 1 - 
V GUIAR guíe guie 1 - 
V GUSTAR gustó gusto 1 1 
12 
 
V IDENTIFICAR identificará identificara 1 - 
V INVADIR invadían invadian 1 - 
V INVERTIR invertiríamos invertiriamos 1 - 
V LIBRAR líbrenos Librenos 1 - 
V LLEGAR llegó llego 1 1 
V LLEVAR llevó llevo 1 2 
V MANDAR mandó mando 1 - 
V MORIR moría moria 1 - 
V MOSTRAR mostró MOSTRO 1 1 
V NACER nació nacio 1 1 
V OCULTAR ocultándose ocultandose 1 - 
V OLVIDAR olvidó olvido 1 2 
V PARECER pareció parecio 1 - 
V PARTICIPAR participar participàr 1 - 
V PELLIZCARSE pellízquense pellizquesen 1 - 
V PONER póngale pongale 1 - 
V PREDICAR predicó PREDICO 1 - 
V QUEMAR quemémosle quememole 1 - 
V QUERER querían querian 1 - 
V RECOGER recogerá recogera 1 - 
V REFERIR referís referis 1 - 
V REGIR regía REGIA 1 - 
V RESUMIR resumiría resumiria 1 - 
V SEGUIR seguirá seguiraira 1 1 
V SENTAR sentó SENTO 1 - 
V SENTIR sentíamos sentiamos 1 - 
V SERVIR servís servis 1 - 
V SOLTAR soltándole soltandole 1 - 
V TRABAJAR trabajaría trabajaria 1 - 
V UNIRSE unámonos unamonos 1 1 
VPAR POSEER poseída poceida 1 - 
 
Las formas de palabra cacográficas por omisión de tilde en el vocabulario léxico son 287; esas mismas 
formas de palabra aparecen correctamente tildadas en un total de 505 instancias, para un total de 792. 
Esto quiere decir que en un 64% de los casos tales formas fueron escritas correctamente. Las 505 
instancias correctas incluyen: 6 instancias de la interjección ojalá, 70 formas de adjetivos, 249 formas 
de sustantivos, 119 formas de nombres propios y 62 formas de verbos. En el caso de los nombres 
propios cabe destacar que hubo un único error en el nombre propio Pilar, que apareció como Pílar, 
pero hubo 97 instancias de la forma sin tildar. Descontando estas formas correctas del NP Pilar, las 
formas ortográficas constituyen el 59% y las cacográficas el 41% de las formas de palabra 
consideradas. 
 
Por otra parte, en el corpus aparece un total de  908 palabras tildadas de las cuales 262 corresponden al 
vocabulario funcional correctamente tildado, 23 a excesos en el vocabulario funcional y 7 a excesos en 
el vocabulario léxico.  Esto significa que hay en el corpus 616 palabras de vocabulario léxico tildadas 
correctamente, es decir, el 68% de las formas tildadas del corpus.  
13 
 
3.2 CLASIFICACIÓN DE LOS ERRORES. Total: 485 
EXCESO Y COLOCACIÓN INCORRECTA DEL ACENTO (7 y 3 errores respectivamente): 
 
Sustantivos y nombres propios: Pílar, Císneros, periódistas (3 errores en el comentarista no. 66), 
concesiónes (comentarista 339) 
 
Verbos: Excesos: participàr  (comentarista 406), habrá (por abra, comentarista 548), pasé (por pase, 
comentarista 310). Colocación incorrecta: actué (por actúe, comentarista 583), continué (por continúe, 
2 errores en comentaristas 33 y 337). 
 
OMISIÓN DE ACENTO (473 errores): 
 
Adjetivos, adverbios, interjección: graves, agudos, hiatos, esdrújulos (85 errores) 
NOTA: cuando no se consigna número de errores entre paréntesis la frecuencia es de 1. 
 
 Grave: Adjetivo: estandar 
 
 Agudos: Interjección ojala (15). Adjetivo: demas (4) 
 
 Hiatos: Adverbio friamente. Adjetivo: increible (2) 
 
 Esdrújulos:  
 Raíces léxicas esdrújulas de adverbios en -mente: pacificamente, paradojicamente, 
publicamente. Cabe agregar que en mayor medida se registró este tipo de adverbios debidamente 
tildados: prácticamente, ilícitamente, sistemáticamente, ùltimamente (sic).  
 Adjetivos de raíz esdrújula: politico,  -a, -os (15), unico, -a, -os (6), publico, -a, -as (5), ultimo, 
-a, -as (5), proximo, -a, -os, -as (4), critico, -a (3), economico, -a, -as (3), democratico, -a (2), civico, 
energico, estupida, folclorica, invalido, pacifico, patriotica. Superlativos: buenisimo, clarisimas, 
carisimo, excelentisimo, hermosisimo, malisimo, pesimos. Plurales de adjetivos graves: dificiles, 
inutiles. 
 
Sustantivos: graves, agudos, hiatos, esdrújulos (211 errores) 
 
 Graves: caracter (3), lider, -es (3), carcel (2), cancer, dolar, referendum. 
 
 Agudos: concesion (9), corrupcion (6), monton (5), expresion (4), indignacion (4), opcion (4), 
constitucion (3), opinion (3), perdon (3), admiracion (2), decision (2), educacion (2), eleccion (2), 
interes (2), razon (2), revolucion (2), situacion (2), atencion, calzon, capitan, celebracion, 
comunicacion, conclusion, condicion, construccion, corazon, decpecion, descripcion, discriminacion, 
flexion , impugnacion, ladron, liberacion, meson, negociacion, oposicion, pension, perfeccion, 
presentacion, presion, region, repulsion, salchichon, solucion, television, tezon, violacion, vocacion 
14 
 
 
 Hiatos: pais (54), -es (4), dia (10), -s (2), mayoria (5), compañia, -s (2), contraloria (2), 
policia, -s (2), altaneria, narquia, ciudadania, oidos, paraiso, raiz, soberania, via 
 
 Esdrújulos: republica (2), titere, -s (2), transito (2), animos, areas, clausulas, decadas, etica, 
heroes, limite, linea, logica, maquinas, mascara, pagina, polvora, sintomas, titulo, victimas 
 
Nombres propios (19 errores): 
 
 Graves: Oscar (3), Mendez 
 Agudos: Jose (3), Ramon (3), Moises (2), Panama (2), Colon, Peru, Solis 
 Hiato: Santamaria 
 Esdrújulo: Mexico 
 
Verbos (161 errores):  
 
 Monosílabos: de (4), se (2) 
 
 Agudos: 
  Futuro (1ª singular, 3ª singular y plural): dire, dara (4), quedara (2), beneficiara, 
escuchara, identificara, pasara, permitira, recogera, seguira, tendra, buscaran, traeran, votaran,  
  Pretérito perfecto (1ª singular, 3ª singular): vote (7), crei (2), equivoque, dude, quedo 
(6), eligio (3), falto (3), paso (3), desperto (2), entendio (2), hablo (2), perdio (2), presento (2), acabo, 
aplico, aporto, asesoro, basto, concedio, debio, dejo, demando, dicto, empezo, empujo, entro, 
equivoco, erizo, expreso, fallecio, gusto, leyo, llego, llevo, mando, mostro, nacio, olvido, parecio, 
permitio, predico, sento, voto 
  Presente (2ª singular, voseo): referis, servis, tenes 
 
 Hiatos: 
  Condicional (singular y plural): deberia (7), podria (2), dejaria, enfrentaria, ganaria, 
haria, resumiria, trabajaria, votaria, invertiriamos, harian, podrian,  
  Pretérito imperfecto (singular y plural, 2ª y 3ª conjugaciones): tenia (3) hacia (2) sabia 
(2), creia, moria, regia, traia, sentiamos, existian, hacian, invadian, podian, querian 
  Otros: Infinitivo: oir (3). Presentes de indicativo: continua, actuan. Presentes de 
subjuntivo: guie, actue, actuen. Participios: creido (2), poseida 
 
 Esdrújulos (siempre con un pronombre enclítico): 
  Imperativos (formas de subjuntivo utilizadas como imperativos o exhortativos): 
cambiese, entiendase, tengase, escuchela, pongale, librenos, conozcalos, leanlo, pellizquense, 
quememosle, unamonos 
  Gerundios: favoreciendose, haciendose, ocultandose, dandole, soltandole, 
denigrandonos, expresandonos, cortandolo 
15 
 
3.3 El CÓDIGO TILDE-Ñ (otros diacríticos) 
Este código se utilizó para señalar los errores de omisión del diacrítico en el grafema <ñ> y la diéresis 
en la u fónica <ü>. Los errores pertenecen exclusivamente al vocabulario léxico. 
2.3.1 CORPUS 
LEXEMA formas ortográficas formas cacográficas no. errores no. corr 
SEÑOR señora 
señores 
senora (6) 
senores 
7 señora (72) 
señores (4) 
DOÑA doña dona 3 135 
COMPAÑÍA compañía  
compañías 
compania 
companias 
2 - 
AÑADIR añadir anadir 1 - 
PEQUEÑO pequeñas pequenas 1 1 
     
GÜELL Güell GUELL 1 - 
SINVERGÜENZA sinvergüenzas 
sinvergüenzadas  
sinverguenzas (2) 
SINVERGUENZADAS 
3 - 
1 
VERGÜENZA vergüenza verguenza (21) 
verguensa (5) 
26 - 
8 11 12 44 213 
 
OMISIÓN DE TILDE EN <ñ> (13 comentaristas) Y DE DIÉRESIS en <ü> (30 comentaristas): La 
omisión de la tilde de <ñ> solo representa el 4% de los casos en que ocurre este grafema, ya que 
además de los 212 casos correctos de las formas señora, señores, doña y pequeñas, otras 105 formas de 
palabras con <ñ> se escribieron correctamente. En cambio, la omisión de la diéresis de <ü> ocurre en 
casi el 100% de las instancias de formas de palabras que la requieren. En todo el corpus solo hubo una 
instancia de <ü>, en sinvergüenzadas. Los datos se resumen en la siguiente tabla: 
 
Tabla 1.5 Incidencia de los grafemas con diacrítico <ñ> y <ü> en el CB 
No. de omisiones de tilde en <ñ>   14     4% 
No. de  casos correctos de <ñ> 317   96% 
TOTAL 331 100% 
   
No. de omisiones de diéresis en <ü>   30   97 % 
No. de  casos correctos de <ü>      1     3% 
TOTAL   31 100% 
2.3.2 CLASIFICACIÓN DE LOS ERRORES. Total: 44 
 
Omisión de tilde en <ñ> (14 errores): senora (6), dona (3), anadir, companía, companías, pequenas, 
senores 
Omisión de diéresis en <ü> (30 errores): verguenza (26), sinverguenzas (2), sinverguenzadas, Guell 
(nombre propio). 
 
16 
 
4. ERRORES DIACRÍTICOS EN EL CORPUS DE REFERENCIA (CR) 
 
De acuerdo con el diseño de la investigación, el corpus diacrítico se construyó con base en el corpus 
textual base (CB), que fue codificado con extremo cuidado para desambiguar las formas que 
precisamente son las que más abultan la incidencia de cacografías (p.ej. está/esta, más/mas, qué/que), 
etc.). Una vez que se contó con un listado de las cacografías más frecuentes extraídas del CB, se podía 
obtener la frecuencia de esas formas en el corpus de referencia, mediante la herramienta AntConc. La 
siguiente es la lista de esas formas y su frecuencia en el CR; las formas indicadas con "indet." son 
aquellas que, al no haber sido desambiguadas mediante una codificación caso por caso, no podemos 
determinar si son formas cacográficas u ortográficas.  
 
COCAE DIACRÍTICO-FUNCIONAL DEL CORPUS DE REFERENCIA 
Total tipos: 48 
Total muestras: 3170 
Frec Tipo 
1. Pronombres y 
determinantes 
1351 que (indet.) 
664 el (indet.) 
48 mi (indet.) 
34 quien (indet.) 
14 cual (indet.) 
12 quién 
12 tu (indet.) 
9 quienes (indet.) 
4 algun 
2 cuantos (indet.) 
2 estás 
2 sé 
1 éste 
1 ningun 
1 ningúna 
2. Adverbios de alta 
frecuencia, 
preposiciones y conjunciones  
189 si (indet.) 
185 como (indet.) 
103 mas (indet.) 
78 porque(indet.) 
42 cuando (indet.) 
34 donde (indet.) 
25 asi 
13 ahi 
9 ademas 
9 despues 
8 aun(indet.) 
7 aqui 
6 dónde (indet.) 
6 tambien 
5 cuanto (indet.) 
3 atras 
3 cómo (indet.) 
3 segun 
2 aca 
2 jamas 
2 ó 
2 todavia 
1 detras 
1 muchisimo 
1 quiza 
1 quizas 
Formas de los verbos ser,  
estar y haber 
133 este (indet) 
99 esta (indet.) 
13 estas (indet) 
11 estan 
7 sera (indet) 
6 seria (indet.) 
1 seran 
2 eramos 
1 estaria 
1 esten 
1 estaras 
1 estariamos 
3 fué 
10 habia 
1 habian 
1 habias 
 
Por otra parte, también se extrajeron del CR, mediante la herramienta del verificación ortográfica, las 
cacografías por error diacrítico en vocabulario léxico. La siguiente es la lista de esas formas y su 
frecuencia en el CR: 
COCAE DIACRÍTICO-LEXICO DEL CORPUS DE REFERENCIA 
Total tipos: 304 
Total muestras: 564 
28 pais 
16 politicos 
11 dia 
10 corrupcion 
6 adiccion 
5 manifestacion 
5 politica 
5 posicion 
4 demas 
4 dias 
4 policias 
4 situacion 
4 unico 
17 
 
3 carceles 
3 compañia 
3 concesion 
3 deberian 
3 educacion 
3 facil 
3 guila 
3 legalizacion 
3 liberacion 
3 monton 
3 opinion 
3 paises 
3 policia 
3 politico 
3 razon 
3 reaccion 
3 revolucion 
3 unica 
3 vandalos 
3 verguenza 
2 administracion 
2 admiracion 
2 alimentacion 
2 angel 
2 atencion 
2 camaras 
2 civico 
2 deberia 
2 decidio 
2 dejenla 
2 diria 
2 ganaria 
2 garantias 
2 increible 
2 informacion 
2 institucion 
2 inutiles 
2 inutilmente 
2 ladron 
2 nacio 
2 nacion 
2 ocasion 
2 ocurrio 
2 optica 
2 pacificamente 
2 recibio 
2 rompio 
2 soberania 
2 telefono 
2 valentia 
2 via 
1 acompanada 
1 actuén 
1 acudi 
1 acusacion 
1 adios 
1 admision 
1 adopcion 
1 alergica 
1 alucinogena 
1 anomalia 
1 anonimo 
1 apocalipticos 
1 arabe 
1 asesorias 
1 automoviles 
1 autorizacion 
1 calderon 
1 camara 
1 cambiénlo 
1 caracter 
1 carcel 
1 carisimo 
1 carroceria 
1 cercanias 
1 cespedes 
1 cinica 
1 ciudadania 
1 clinica 
1 cocaina 
1 comision 
1 companeros 
1 compania 
1 comunicacion 
1 condon 
1 confie 
1 confio 
1 consideracion 
1 contraloria 
1 convirtiendolo 
1 coordinandola 
1 corazon 
1 corífeos 
1 credito 
1 creeria 
1 criminalizacion 
1 criticandolo 
1 cupula 
1 danar 
1 dandole 
1 daran 
1 daria 
1 deberias 
1 debi 
1 debio 
1 decadas 
1 decia 
1 defendera 
1 defensoria 
1 dejabamos 
1 dejeme 
1 dejense 
1 dejeses 
1 demágogo 
1 demarcacion 
1 democrata 
1 démocratas 
1 democratico 
1 denuncielo 
1 déposito 
1 desinformacion 
1 desperto 
1 deveria 
1 dicese 
1 dió 
1 dire 
1 dirijanse 
1 distribucion 
1 dueno 
1 edtan 
1 eligio 
1 encantaria 
1 encontrabamos 
1 energico 
1 envian 
18 
 
1 escandalos 
1 escribi 
1 escrupulos 
1 evasion 
1 examenes 
1 expliacion 
1 expresion 
1 fiscalia 
1 fisica 
1 freir 
1 gestion 
1 guichos 
1 gustaria 
1 habil 
1 hacian 
1 hara 
1 heroe 
1 heroes 
1 heróica 
1 hipocrita 
1 hipocritas 
1 hubieramos 
1 huerfanos 
1 huevon 
1 ideologias 
1 ilicitos 
1 imaginense 
1 incluída 
1 indignacion 
1 infraccion 
1 interes 
1 justificacion 
1 lacrimogenos 
1 larguese 
1 licitacion 
1 limon 
1 linea 
1 llamabamos 
1 llavin 
1 llegabamos 
1 logico 
1 maldicion 
1 manipulacion 
1 matoneria 
1 maxiam 
1 mayoria 
1 medicos 
1 metio 
1 million 
1 minimo 
1 mismisimo 
1 ninos 
1 oigalo 
1 oir 
1 oposicion 
1 parasitos 
1 parrafo 
1 pasese 
1 patetico 
1 patriotica 
1 perdio 
1 permanecia 
1 pesimas 
1 podia 
1 podria 
1 podriamos 
1 podrias 
1 politicas 
1 politologos 
1 pondrian 
1 predisposicion 
1 pregúnten 
1 preguntese 
1 produccion 
1 prohibicion 
1 prohibo 
1 provenia 
1 proxima 
1 publicos 
1 quitandole 
1 radiografia 
1 recien 
1 regulacion 
1 reirse 
1 relacion 
1 relegalizacion 
1 republica 
1 respèto 
1 respondio 
1 romantica 
1 seccion 
1 seguira 
1 senora 
1 sinverguenza 
1 sinverguenzada 
1 sinverguenzas 
1 solucion 
1 subia 
1 tabues 
1 television 
1 tenes 
1 tenian 
1 titeres 
1 traido 
1 traidos 
1 transaccion 
1 traves 
1 turistica 
1 unamonos 
1 unicas 
1 union 
1 uniran 
1 utiles 
1 vá 
1 vacilon 
1 varon 
1 vayase 
1 vease 
1 veia 
1 verguenzas 
1 vias 
1 vieramos 
1 vió 
1 violacion 
1 vivi 
1 zorron 
19 
 
ANEXO 2 
 
COCAE 2 - GRAFEMÁTICO 
1. ASPECTOS PRELIMINARES 
 
El COCAE 2 - GRAFEMÁTICO da cuenta de los errores grafemáticos recogidos  partir de dos corpus: 
el Corpus Base (CB) utilizado en la construcción del COCAE 1 - DIACRÍTICO y el corpus de 
referencia (CR). Primero se tratan los datos obtenidos del CB y luego se agregan los del  CR. 
 
CÓDIGO ERROR 
 
Los datos recuperados del código ERROR en el CB fueron 143, de los cuales solamente 20 (14%) 
corresponden a vocabulario funcional; los restantes 123 (86%) corresponden a vocabulario léxico. Los 
errores se presentan en 108 formas de palabra (cacográficas) que se agrupan en 87 lexemas. Los datos 
se muestran en la siguiente tabla: 
 
Tabla 1 - CÓDIGO ERROR: organización por lexema e incidencia 
 
 
 
 
 
 
 
 
La Tabla 2 muestra la distribución de los errores grafemáticos por comentarista;  en el CB, de los 655 
comentaristas, 559 (85%) no cometieron ningún error grafemático; 85 (13%) cometieron de 1 a 2 
errores y 11 (2%) cometieron de 3 a 6 errores. 
 
Tabla 2 - Errores grafemáticos por comentarista 
Cantidad de errores Comentaristas % Coms Total errores 
0 559 85 0 
1 71 11 71 
2 14 2 28 
3 6 1 18 
4 1 0.2 4 
5 2 0.4 10 
6 2 0.4 12 
TOTALES 655 100% 143 
 ERRORES % FORMAS  % LEXEMAS % 
VOC FUNCIONAL 20 14 9 8,3 3 3,5 
VOC LÉXICO 123 86 99 91,7 84 96,5 
TOTALES 143 100 108 100 87 100 
Total de comentaristas: 655.  
No. de comentaristas que tuvieron al menos un error: 96 (15%). 
Total de errores: 143. 
20 
 
2. COCAE 2.1 - GRAFEMÁTICO-FUNCIONAL 
2.1 CORPUS 
1. Adverbios frecuentes (5 errores en 3 comentaristas) 
cat LEXEMA formas  
ortográficas 
Tipo formas  
cacográficas 
coms no. 
errs 
no. corr 
ADV ASÍ así >h, s/c haci 2 4 29 
ADV QUIZÁS quizás z/s quisas 1 1 2 (quizá) 
 2   2 3 5 31 
 
2. Formas del verbo haber (15 errores en 13 comentaristas) 
cat LEXEMA formas  
ortográficas 
Tipo formas  
cacográficas 
coms no. 
errs 
no. corr 
V HABER ha 
haya  
he 
<h, #h/h# 
<h, y/ll 
<h, #h/h# 
a (7), ah, ay 
alla, hallan 
e, eh 
9 
2 
2 
10 
3 
2 
46 
7 
6 
 1   7 13 15 59 
 
A diferencia de lo que sucede en COCAE 1 - DIACRÍTICO, en donde los errores de acentuación 
ortográfica se distribuyen en partes iguales entre el vocabulario funcional y el vocabulario léxico (50% 
y 50%), los errores grafemáticos ocurren en el vocabulario léxico en un 86%, mientras que en el 
vocabulario funcional solo hubo 20 errores (14%) correspondientes a 3 lexemas y producidos por 15 
distintos comentaristas. 
2.2  CLASIFICACIÓN DE LOS ERRORES. Total: 20 
Formas del verbo HABER: he (e, eh), ha (a, ah, ay), haya (alla), hayan (hallan). 
Adverbios: ASÍ (haci), QUIZÁS (quisas).  
 
En la sección 3.2, en donde se expone la tipología de clasificación de errores grafemáticos que se 
siguió en el análisis del COCAE GRAFEMÁTICO-LÉXICO, se retomaran estos errores y se 
clasificarán de acuerdo con esa tipología. 
2.3. ERRORES GRAFEMÁTICOS EN VOCABULARIO FUNCIONAL DEL CR 
De las formas cacográficas compiladas en el CB, solamente se encontraron dos instancias de a por ha 
(a robado, a querido) y una de halla por haya. Además, hubo un caso del adverbio aquí escrito aqi, 
que podría ser un error de digitación. Contando este caso, hubo en el CR un total de 4 cacografías por 
error grafemático, lo que muestra la misma tendencia observada en el CB de que los errores 
grafemáticos en vocabulario funcional son muy pocos. 
 
 
 
 
21 
 
3. COCAE 2.2  - GRAFEMÁTICO-LÉXICO 
3.1 CORPUS 
1. Interjecciones (2 errores) 
cat LEXEMA formas 
ortográficas 
Tipo formas 
cacográficas 
coms no. errs no. corr 
I AH  ah <h a 1 1 - 
I AY ay >h hay 1 1 2 
 2   2 2 2 2 
 
2. Adjetivos (24 errores) 
cat LEXEMA formas 
ortográficas 
Tipo formas 
cacográficas 
coms no. errs no. corr 
A EXCELENTE excelente xc/c exelente 
 
6 6  73 
A COSTARRICENSE costarricenses 
costarricense 
rr/r 
rr/r 
c/s-s/c 
costaricenses 
costarisence 
2 3 49 
A EXTRANJERO extranjera 
extranjeros 
x/s 
j/g 
estranjera 
extrangeros (2) 
3 3 8 
A PROFESIONAL profesional 
profesionales 
s/c profecional 
PROFECIONALES 
2 2 7 
A ADVENEDIZO advenedizos d/b abvenedizos 1 1 - 
A CAPAZ capaces z>c/s capases 1 1 1 
A CERCANO cercano c/s SERCANO 1 1 2 
A CIEGO ciego c/s SIEGO 1 1 13 
A CONCESIONARIA concesionaria c/s-s/c consecionaria 1 1 2 
A CONSCIENTE consciente sc/c conciente 1 1 2 
A HERMOSO hermoso s/z hermozo 1 1 - 
A JUDICIAL judicial <d Juicial 1 1 - 
A MALO malísimo s/c malic imo 1 1 - 
A TRANSPARENTE transparente <s TRANPARENTE 1 1 - 
 14   17 23 24 157 
 
3. Sustantivos (50 errores) 
cat LEXEMA formas 
ortográficas 
Tipo formas 
cacográficas 
coms no. errs no. corr 
S VERGÜENZA vergüenza z/s verguensa (5) 5 5 1 
S CONCESIÓN concesión  
concesiones 
c/s-s/c consecion (3) 
conseciones 
3 4 35 
S PRESIDENTE presidenta 
presidente 
s/c precidenta (2)  
Precidente (2) 
4 4 118 
 
S MORDAZA mordaza z/s mordasa 2 2 4 
S VEZ vez z/s ves (2) 2 2 24 
S BARBARIDAD barbaridad v/b barvaridad 1 1 3 
S BOLSILLO bolsillos b/v volsillos 1 1 6 
S CABALLEROSIDAD caballerosidad s/c caballerocidad 1 1 - 
22 
 
S CAPACIDAD capacidad c/s CAPASIDAD 1 1 6 
S CHORIZO chorizo z/s choriso 1 1 13 
S CINISMO cinismo c/s sinismo 1 1 - 
S CONSTITUCIÓN constitución <s CONTITUCION 1 1 4 
S CONSTITUYENTE constituyente <s contituyente 1 1 - 
S CORAJE coraje r/rr CORRAJE 1 1 4 
S DECISIÓN decisiones c/s-s/c desiciones 1 1 8 
S ELECCIÓN elección cc/c ELECION 1 1 16 
S EMPRESA empresa s/z empreza 1 1 20 
S EXCUSA excusa x/s escusa 1 1 1 
S GENTE gente g/j jente 1 1 28 
S GOBERNANTE gobernantes b/v governantes 1 1 16 
S HALAGO halagos <h alagos 1 1 - 
S HIPOCRESÍA hipocresías s/c HIPOCRECIAS 1 1 - 
S IDIOSINCRASIA idiosincrasia s/c idiosincracia 1 1 1 
S IMPUESTO impuesto m/n INPUESTO 1 1 9 
S INFRAESTRUCTURA infraestructura ae/e infrestructura 1 1 2 
S INTENCIÓN intenciones c/s intensiones 1 1 2 
S POSICIÓN posición s/c-c/s pocisión 1 1 5 
S RESPETO respeto s/z rezpeto 1 1 53 
S TESÓN tesón s/z tezon 1 1 - 
S TRISTEZA tristeza z/s tristesa 1 1 4 
S ZAFARRANCHO zafarrancho z/s safarrancho 1 1 - 
S-AB ETC. etc. tc/ct ECT. 1 1 3 
S-NP IGNACIO ignacio <g 
gn/ngn 
g/c 
<g c/s 
Inacio 
ingnacio  
ICNACIO 
Inasio (2 errs) 
4 5 209 
S-NP BRASIL brasil s/z Brazil 1 1 1 
 34   39 48 50 596 
 
4. Verbos (47 errores) 
cat LEXEMA formas 
ortográficas 
Tipo formas 
cacográficas 
coms no. errs no. corr 
Vpt HACER hace  
hacen 
c/s 
<h 
ase (2) 
asen 
2 6 36 
16 
Vinf 
Vpi 
Vspt 
IR ir  
iba 
vaya 
>h 
b/v 
y/ll 
HIR 
iva 
valla 
3 3 3 
2 
3 
Vspt 
Vinf 
ABRIR abra (los ojos) 
abrir 
>h habrá 
habrir 
2 2 5 
6 
Vpt COMENZAR comienza z/s COMIENSA 1 2 - 
Vcond DEBER debería 
deberíamos 
b/v deveria 
Deveríamos 
2 2 8 
1 
Vpt 
Vcon 
DESEAR desea  
desearía 
s/c decea 
decearía 
2 2 - 
Vpt RECIBIR recibe c/s 
b/v 
resive 1 2 - 
23 
 
Vpt 
Vinf 
SABER sabe 
saber 
b/v save 
saver 
2 2 15 
5 
Vspt ACEPTAR acepten c/s asepten 1 1 1 
Vpt AGRADECER agradezco z/s agradesco 1 1 - 
Vpart ALCAHUETEAR alcahueteado <l acahueteado 1 1 - 
Vpt ALZAR alza z/s ALSA 1 1 2 
Vpt ANDAR andan >h Handan 1 1 3 (anda) 
Vpart ARRUINAR arruinado rr/r aruinado 1 1 - 
Vpart CALLAR calladito ll/y cayaditio 1 1 - 
Vimp CONOCER conózcalos z/s CONOSCALOS 1 1 - 
V CONSTRUIR construirlas <s contruirlas 1 1 2 (construir) 
Vger ECHAR echando >h hechando 1 1 1 
Vspt ENMENDAR enmiende ie/e enmende 1 1 - 
Vspt ENRIQUECER enriquezca z/s enriquesca 1 1 - 
Vpp ESCOGER escogieron g/j ESCOJIERON 1 1 3 (escog-) 
Vspt HUNDIR hundan <h UNDAN 1 1 3 (und-) 
Vger INCITAR incitando c/s insitando 1 1 - 
Vpt NECESITAR necesita s/c nececita 1 1 25 (necesit-) 
Vspt 
Vspt 
PAGAR pague gu/g 
g/q 
page 
paque 
2 2 - 
Vpart POSEER poseída s/c poceida 1 1 - 
Vpt RASGAR rasgan s/z razgan 1 1 1 
Vpt REBOZAR reboza z/s rebosa 1 1 - 
Vspt RECONOCER reconozcan z/s reconoscan 1 1 1 
Vpt SEGUIR seguimos gu/g SEGIMOS 1 1 25 (segui-) 
Vpp TENER tuvo v/b tubo 1 1 3 (tuv-) 
Vger TRAICIONAR traicionando c/s traisionando 1 1 - 
Vpart VENCER vencidos c/s vensidos 1 1 - 
 34   41 41 47 170 
3.2 CLASIFICACIÓN DE LOS ERRORES. Total: 123 
El vocabulario léxico incluye interjecciones, adjetivos, sustantivos  y verbos (no se dieron errores 
grafemáticos en adverbios léxicos); pero es evidente que no hay una relación entre la categoría de la 
palabra y los errores grafemáticos. Lo que sí es relevante es que las palabras más frecuentes en este 
contexto fueron escritas correctamente en la inmensa mayoría de los casos: excelente (73 vs. 6 
cacografías), costarricense(s) (49 vs. 3), presidente/a (118 vs. 4), el nombre propio Ignacio (209 vs. 5) 
y las formas hace y hacen del verbo hacer (52 vs. 6). Corresponde entonces generar una tipología de 
los errores grafemáticos según su frecuencia, con base en la cual se compilará el vocabulario 
cacográfico del corpus de referencia (CR). 
 
Para la clasificación de los errores partimos de la tipología propuesta por Pujol (2006), que se explicó 
detalladamente en el marco teórico y se basa en la hipótesis de la complejidad de Luelsdorff (1991). 
Luelsdorff  postula que la desviación sistemática de la biunivocidad entre un grafema y el fono que 
representa es la mayor fuente del error ortográfico y propone una escala para establecer grados de 
24 
 
ambigüedad ortográfica. Parte del principio alfabético de la biunivocidad a partir del cual se van 
estableciendo desviaciones conformándose una escala de complejidad creciente.  
 
La tipología de Pujol parte de un Nivel 0:  una relación biunívoca (1 grafema - 1 fono) que 
normalmente no produce errores ortográficos. Por tanto los errores que aparezcan en el corpus que 
involucre grafían biunívocas típicamente se producen por errores de actuación o descuidos.  
 
En el Nivel 1, hay ambigüedad en la relación, pero esta se resuelve por medio de reglas sencillas que 
tiene apoyo fonético, por lo que no deberían darse errores; se trata del uso de: u/ü, i/y (vocal), gu/j, 
g/gu, g/j(+a,o,u), z/qu/c(+a,o,u), z/qu/c(+e,i), r/rr.  
 
En el Nivel 2 se da la máxima arbitrariedad debido a que hay una relación de 2 (o más) grafemas a 1 
fono y no existe apoyo fonético que la desambigüe, por lo que Pujol la denomina "ambigüedad no 
resuelta". En este nivel se ubica la mayoría de los errores grafemáticos, que se dan por confusión entre: 
k/c/qu, y/i/hi, x/s, j/g(+e,i), y/ll, w/b/v, y la más prominente en el español americano: c/s/z.  El Nivel 4 
corresponde a una relación aún más arbitraria: 1 grafema - 0 fonema (el caso de <h> en español. 
 
A manera de ejemplo, retomamos aquí los (pocos) errores grafemáticos del vocabulario funcional del 
CB para clasificarlos de acuerdo con esta tipología. Solo se dan errores de los niveles 2 y 3: 
 
Nivel 2. Arbitrariedad y ambigüedad no resuelta (6 errores) 
<c, s, z>: Sustitución de <s> por <c> (s/c) y de <z> por <s> (z/s): 
Tipo cat LEXEMA formas 
ortográficas 
formas 
cacográficas 
coms errs corr 
s/c Adv ASÍ así haci 2 2 29 
z/s Adv QUIZÁS quizás quisas 1 1 2 
     3 3 31 
<ll, y>: Sustitución de <y> por <ll> (y/ll): 
Tipo cat LEXEMA formas 
ortográficas 
formas 
cacográficas 
coms errs corr 
y/ll V HABER haya 
hayan 
alla 
hallan 
1 
1 
3 7 
1 
     2 3 8 
 
Nivel 3. Arbitrariedad de <h> (14 errores) 
Exceso (>h), omisión (<h), inversión ((#h/h) 
Tipo cat LEXEMA formas 
ortográficas 
formas 
cacográficas 
coms errs corr 
>h Adv ASÍ así haci 2 2 29 (id. supra) 
<h V HABER ha 
he 
haya 
a (7), ay 
e 
alla 
8 
1 
1 
8 
1 
1 
46 
6 
7 
#h/h# V HABER ha ah 
eh 
1 
1 
1 
1 
46 (id. supra) 
6 (id. supra) 
     14 14  
25 
 
En lo que sigue se presenta el análisis de los errores grafemáticos del vocabulario léxico del CB. 
 
Nivel 1: Errores por ambigüedad (22 errores) 
 
Sustitución de <r> por <rr> (r/rr) y de <rr> por <r> (rr/r): 
Tipo cat LEXEMA formas 
ortográficas 
formas 
cacográficas 
coms errs corr 
r/rr S CORAJE coraje CORRAJE 1 1 4 
rr/r 
rr/r 
A COSTARRICENSE costarricenses 
costarricense 
costaricenses 
costarisence 
2 3 49 
rr/r Vpart ARRUINAR arruinado aruinado 1 1 0 
     4 5 53 
 
Sustitución de <x> por <s> (x/s): 
Tipo cat LEXEMA formas 
ortográficas 
formas 
cacográficas 
coms errs corr 
x/s A EXTRANJERO extranjera estranjera 1 1 8 
x/s S EXCUSA excusa escusa 1 1 1 
     2 2 9 
 
Sustitución de <gu> por <g> 
Tipo cat LEXEMA formas 
ortográficas 
formas 
cacográficas 
coms errs corr 
gu/g Vpt SEGUIR seguimos SEGIMOS 1 1 25 
gu/g Vspt PAGAR pague page 1 1 0 
     2 2 25 
 
Omisión de <s> 
Tipo cat LEXEMA formas 
ortográficas 
formas 
cacográficas 
coms errs corr 
<s A TRANSPARENTE transparente TRANPARENTE 1 1 0 
<s S CONSTITUCIÓN constitución CONTITUCION 1 1 4 
<s S CONSTITUYENTE constituyente contituyente 1 1 0 
<s V CONSTRUIR construirlas contruirlas 1 1 2  
     4 4 6 
 
Otros errores aislados: Los siguientes errores se ubican en la frontera entre errores grafemáticos y otros 
fenómenos; por ejemplo en enmende el error parece ser de conjugación, mientras que paque (por 
pague) podría ser simple descuido. 
 
Omisiones 
Tipo cat LEXEMA formas 
ortográficas 
formas 
cacográficas 
coms errs corr 
<d A JUDICIAL judicial Juicial 1 1 0 
<l Vpart ALCAHUETEAR alcahueteado acahueteado 1 1 0 
     2 2 0 
 
26 
 
Reducciones 
Tipo cat LEXEMA formas 
ortográficas 
formas 
cacográficas 
coms errs corr 
ae/e S INFRAESTRUCTURA infraestructura infrestructura 1 1 2 
cc/c S ELECCIÓN elección ELECION 1 1 16 
ie/e Vspt ENMENDAR enmiende enmende 1 1 0 
     3 3 18 
 
Sustituciones 
Tipo cat LEXEMA formas 
ortográficas 
formas 
cacográficas 
coms errs corr 
m/n S IMPUESTO impuesto INPUESTO 1 1 9 
d/b A ADVENEDIZO advenedizos abvenedizos 1 1 0 
g/q Vspt PAGAR pague paque 1 1 0 
     3 3 9 
 
Inversión 
Tipo cat LEXEMA formas 
ortográficas 
formas 
cacográficas 
coms errs corr 
tc/ct ABR ETC. etc. ECT. 1 1 3 
 
Errores en NOMBRES PROPIOS (6) 
Tipo cat LEXEMA formas 
ortográficas 
formas 
cacográficas 
coms errs corr 
<g 
gn/ngn 
g/c 
<g c/s 
S-NP IGNACIO ignacio Inacio 
ingnacio  
ICNACIO 
Inasio 
4 4 209 
s/z S-NP BRASIL brasil Brazil 1 1 1 
     5 5 210 
 
 
Nivel 2. Arbitrariedad y ambigüedad no resuelta (84 errores) 
 
<b, v> 
Sustitución de <b> por <v> (b/v): 
Tipo cat LEXEMA formas 
ortográficas 
formas 
cacográficas 
coms errs corr 
b/v Vcond DEBER debería 
deberíamos 
deveria 
deveríamos 
2 2 8 
1 
b/v Vpt 
Vinf 
SABER sabe 
saber 
save 
saver 
2 2 15 
5 
b/v Vpi IR iba iva 1 1 2 
b/v Vpt RECIBIR recibe resive 1 1 0 
b/v S BOLSILLO bolsillos volsillos 1 1 6 
b/v S GOBERNANTE gobernantes governantes 1 1 16 
     8 8 24 
 
27 
 
Sustitución de <v> por <b> (v/b): 
Tipo cat LEXEMA formas 
ortográficas 
formas 
cacográficas 
coms errs corr 
v/b S BARBARIDAD barbaridad barvaridad 1 1 3 
v/b Vpp TENER tuvo tubo 1 1 3 
     2 2 6 
 
<c, s, z>: 
Sustitución de <c> por <s> (c/s) 
Tipo cat LEXEMA formas 
ortográficas 
formas 
cacográficas 
coms errs corr 
c/s 
 
Vpt HACER hace  
hacen 
ase (2) 
asen 
2 3 36 
16 
c/s A CERCANO cercano SERCANO 1 1 2 
c/s A CIEGO ciego SIEGO 1 1 13 
c/s S CAPACIDAD capacidad CAPASIDAD 1 1 6 
c/s S CINISMO cinismo sinismo 1 1 0 
c/s S INTENCIÓN intenciones intensiones 1 1 2 
c/s Vger INCITAR incitando insitando 1 1 0 
c/s Vger TRAICIONAR traicionando traisionando 1 1 0 
c/s Vpart VENCER vencidos vensidos 1 1 0 
c/s Vpt RECIBIR recibe resive 1 1 0 
c/s Vspt ACEPTAR acepten asepten 1 1 1 
     12 13 24 
 
Sustitución de <s> por <c> (s/c): 
Tipo cat LEXEMA formas 
ortográficas 
formas 
cacográficas 
coms errs corr 
s/c S PRESIDENTE presidenta 
presidente 
precidenta (2)  
Precidente (2) 
4 4 118 
 
s/c A PROFESIONAL profesional 
profesionales 
profecional 
PROFECIONALES 
2 2 7 
s/c Vpt 
Vcon 
DESEAR desea  
desearía 
decea 
decearía 
2 2 0 
s/c A MALO malísimo malic imo 1 1 0 
s/c S CABALLEROSIDAD caballerosidad caballerocidad 1 1 0 
s/c S HIPOCRESÍA hipocresías HIPOCRECIAS 1 1 0 
s/c S IDIOSINCRASIA idiosincrasia idiosincracia 1 1 1 
s/c Vpart POSEER poseída poceida 1 1 0 
s/c Vpt NECESITAR necesita nececita 1 1 25 
     14 14 151 
 
Inversiones entre <c> y <s> (c/s-s/c y s/c-c/s) 
Tipo cat LEXEMA formas 
ortográficas 
formas 
cacográficas 
coms errs corr 
c/s-s/c S CONCESIÓN concesión  
concesiones 
consecion (3) 
conseciones 
3 4 35 
c/s-s/c A CONCESIONARIA concesionaria consecionaria 1 1 2 
c/s-s/c A COSTARRICENSE costarricense costarisence 1 1 49 
28 
 
c/s-s/c S DECISIÓN decisiones desiciones 1 1 8 
s/c-c/s S POSICIÓN posición pocisión 1 1 5 
     7 8 99 
 
Sustitución de <s> por <z> (s/z): 
Tipo cat LEXEMA formas 
ortográficas 
formas 
cacográficas 
coms errs corr 
s/z A HERMOSO hermoso hermozo 1 1 0 
s/z S EMPRESA empresa empreza 1 1 20 
s/z S RESPETO respeto rezpeto 1 1 53 
s/z S TESÓN tesón tezon 1 1 0 
s/z Vpt RASGAR rasgan razgan 1 1 1 
     5 5 74 
 
Sustitución de <z> por <s> (z/s, z>c/s): 
Tipo cat LEXEMA formas 
ortográficas 
formas 
cacográficas 
coms errs corr 
z/s S VERGÜENZA vergüenza verguensa (5) 5 5 1 
z/s S MORDAZA mordaza mordasa 2 2 4 
z/s S VEZ vez ves (2) 2 2 24 
z/s Vpt COMENZAR comienza COMIENSA 1 2 0 
z/s S CHORIZO chorizo choriso 1 1 13 
z/s S TRISTEZA tristeza tristesa 1 1 4 
z/s S ZAFARRANCHO zafarrancho safarrancho 1 1 0 
z/s Vimp CONOCER conózcalos CONOSCALOS 1 1 0 
z/s Vpt AGRADECER agradezco agradesco 1 1 0 
z/s Vpt ALZAR alza ALSA 1 1 2 
z/s Vpt REBOZAR reboza rebosa 1 1 0 
z/s Vspt ENRIQUECER enriquezca enriquesca 1 1 0 
z/s Vspt RECONOCER reconozcan reconoscan 1 1 1 
z>c/s A CAPAZ capaces capases 1 1 1 
     20 21 50 
 
Omisión de <c> 
Tipo cat LEXEMA formas 
ortográficas 
formas 
cacográficas 
coms errs corr 
<c A EXCELENTE excelente exelente 6 6  73 
 
Omisión de <s> (sc/c) 
Tipo cat LEXEMA formas 
ortográficas 
formas 
cacográficas 
coms errs corr 
sc/c A CONSCIENTE consciente conciente 1 1 2 
 
<ll, y>: 
Sustitución de <y> por <ll> (y/ll) y de <ll> por <y> (ll/y) 
Tipo cat LEXEMA formas 
ortográficas 
formas 
cacográficas 
coms errs corr 
y/ll Vspt IR vaya valla 1 1 3 
29 
 
ll/y Vpart CALLAR calladito cayaditio 1 1 0 
     2 2 3 
 
<g, j>: 
Sustitución de <g> por <j> (g/j) y de <j> por <g> (j/g) 
Tipo cat LEXEMA formas 
ortográficas 
formas 
cacográficas 
coms errs corr 
g/j S GENTE gente jente 1 1 28 
g/j Vpp ESCOGER escogieron ESCOJIERON 1 1 3 
j/g A EXTRANJERO extranjeros extrangeros 2 2 8 
     4 4 39 
 
Nivel 3.  Arbitrariedad de <h> (12 errores) 
 
Exceso(>h): 
Tipo cat LEXEMA formas ortográficas formas cacográficas coms errs corrs 
>h Int AY ay hay 1 1 2 
>h Vspt 
Vinf 
ABRIR abra (los ojos) 
abrir 
habrá 
habrir 
2 2 11 
>h Vpt ANDAR andan Handan 1 1 3 
>h Vger ECHAR echando hechando 1 1 1 
>h Vinf IR ir  HIR 1 1 3 
     6 6 20 
 
Omisión (<h): 
Tipo cat LEXEMA formas ortográficas formas cacográficas coms errs corrs 
<h Int AH  ah a 1 1 0 
<h S HALAGO halagos alagos 1 1 0 
<h Vpt HACER hace 
hacen 
ase (2) 
asen 
2 3 52 
<h Vspt HUNDIR hundan UNDAN 1 1 3 
     5 6 55 
 
3.3 RESUMEN DE LA CLASIFICACIÓN DE ERRORES GRAFEMÁTICOS 
En las siguientes tablas se presentan los tipos de error y su frecuencia por cada nivel. 
 
Nivel 1: Errores por ambigüedad 
 
Se dan dos tipos de error: sustituciones (indicadas mediante /) y omisiones (indicadas mediante <). 
 
TIPO tipo LEXEMA formas 
ortográficas 
formas 
cacográficas 
errs 
/ rr/r 
rr/r 
COSTARRICENSE costarricenses 
costarricense 
costaricenses 
costarisence 
3 
/ rr/r ARRUINAR arruinado aruinado 1 
30 
 
/ r/rr CORAJE coraje corraje 1 
/ x/s EXCUSA excusa escusa 1 
/ x/s EXTRANJERO extranjera estranjera 1 
/ gu/g PAGAR pague page 1 
/ gu/g SEGUIR seguimos segimos 1 
/ g/q PAGAR pague paque 1 
/ g/c IGNACIO Ignacio icnacio 1 
/ d/b ADVENEDIZO advenedizos abvenedizos 1 
/ m/n IMPUESTO impuesto inpuesto 1 
/ ae/e INFRAESTRUCTURA infraestructura infrestructura 1 
/ cc/c ELECCIÓN elección elecion 1 
/ ie/e ENMENDAR enmiende enmende 1 
/ tc/ct ETC. etc. ect. 1 
/ gn/ngn IGNACIO Ignacio ingnacio 1 
< <s CONSTITUCIÓN constitución contitucion 1 
< <s CONSTITUYENTE constituyente contituyente 1 
< <s CONSTRUIR construirlas contruirlas 1 
< <s TRANSPARENTE transparente tranparente 1 
< <d JUDICIAL judicial juicial 1 
< <l ALCAHUETEAR alcahueteado acahueteado 1 
< <g IGNACIO Ignacio Inacio 1 
     25 
 
Nivel 2. Arbitrariedad/ambigüedad no resuelta 
 
El error más frecuente sin duda concierne a la arbitrariedad entre los grafemas <c>, <s> y <z>. Del 
total de 92 errores este nivel, 73 (80%) corresponden a esta ambigüedad no resuelta. Los fenómenos 
que se dan en este rubro, en orden de frecuencia son:  
 
Sustitución de <z> por <s> (z/s)   21 
Sustitución de <s> por <c> (s/c)   16 
Sustitución de <c> por <s> (c/s)   15 
Inversiones entre <c> y <s> (c/s-s/c y s/c-c/s)   8 
Sustitución de <s> por <z> (s/z)     6 
Omisión de <c> (<c)       6 
Omisión de <s> (sc/c)      1 
TOTAL      73 
 
La arbitrariedad entre los grafemas <b> y <v> da cuenta de 10 errores; la que se da entre <ll> y <y> en 
nuestra variedad del español (yeísta) da cuenta de 5 y la que se da entre <g> y <j> da cuenta de solo 4 
errores. 
 
 
 
 
31 
 
<c, s, z>: 
Tipo LEXEMA formas 
ortográficas 
formas 
cacográficas 
errs 
z/s VERGÜENZA vergüenza verguensa 5 
z/s MORDAZA mordaza mordasa 2 
z/s VEZ vez ves 2 
z/s COMENZAR comienza comiensa 2 
z/s CHORIZO chorizo choriso 1 
z/s TRISTEZA tristeza tristesa 1 
z/s ZAFARRANCHO zafarrancho safarrancho 1 
z/s CONOCER conózcalos conoscalos 1 
z/s AGRADECER agradezco agradesco 1 
z/s ALZAR alza alsa 1 
z/s REBOZAR reboza rebosa 1 
z/s ENRIQUECER enriquezca enriquesca 1 
z/s RECONOCER reconozcan reconoscan 1 
z/s QUIZÁS quizás quisas 1 
s/c PRESIDENTE presidenta 
presidente 
precidenta  
precidente 
4 
s/c PROFESIONAL profesional 
profesionales 
profecional 
profecionales 
2 
s/c DESEAR desea  
desearía 
decea 
decearía 
2 
s/c ASÍ así haci 2 
s/c MALO malísimo malicimo 1 
s/c CABALLEROSIDAD caballerosidad caballerocidad 1 
s/c HIPOCRESÍA hipocresías hipocrecias 1 
s/c IDIOSINCRASIA idiosincrasia idiosincracia 1 
s/c POSEER poseída poceida 1 
s/c NECESITAR necesita nececita 1 
c/s HACER hace, hacen ase, asen 3 
c/s CERCANO cercano sercano 1 
c/s CIEGO ciego siego 1 
c/s CAPACIDAD capacidad capasidad 1 
c/s CINISMO cinismo sinismo 1 
c/s INTENCIÓN intenciones intensiones 1 
c/s INCITAR incitando insitando 1 
c/s TRAICIONAR traicionando traisionando 1 
c/s VENCER vencidos vensidos 1 
c/s RECIBIR recibe resive 1 
c/s ACEPTAR acepten asepten 1 
c/s CAPAZ capaces capases 1 
c/s IGNACIO Ignacio inasio 1 
c/s-s/c CONCESIÓN concesión  
concesiones 
consecion 
conseciones 
4 
c/s-s/c CONCESIONARIA concesionaria consecionaria 1 
c/s-s/c COSTARRICENSE costarricense costarisence 1 
c/s-s/c DECISIÓN decisiones desiciones 1 
s/c-c/s POSICIÓN posición pocisión 1 
32 
 
s/z HERMOSO hermoso hermozo 1 
s/z EMPRESA empresa empreza 1 
s/z RESPETO respeto rezpeto 1 
s/z TESÓN tesón tezon 1 
s/z RASGAR rasgan razgan 1 
s/z BRASIL Brasil Brazil 1 
<c EXCELENTE excelente exelente 6  
sc/c CONSCIENTE consciente conciente 1 
    73 
 
<b, v>: 
Tipo LEXEMA formas 
ortográficas 
formas 
cacográficas 
errs 
b/v DEBER debería 
deberíamos 
deveria 
deveríamos 
2 
b/v SABER sabe 
saber 
save 
saver 
2 
b/v IR iba iva 1 
b/v RECIBIR recibe resive 1 
b/v BOLSILLO bolsillos volsillos 1 
b/v GOBERNANTE gobernantes governantes 1 
v/b BARBARIDAD barbaridad barvaridad 1 
v/b TENER tuvo tubo 1 
    10 
 
<ll, y>: 
Tipo LEXEMA formas 
ortográficas 
formas 
cacográficas 
errs 
y/ll HABER haya, hayan alla, hallan 3 
y/ll IR vaya valla 1 
ll/y CALLAR calladito cayaditio 1 
    5 
 
<g, j>: 
Tipo LEXEMA formas 
ortográficas 
formas 
cacográficas 
errs 
g/j GENTE gente jente 1 
g/j ESCOGER escogieron ESCOJIERON 1 
j/g EXTRANJERO extranjeros extrangeros 2 
    4 
 
Nivel 3.  Arbitrariedad de <h>  
 
Omisión (<h), exceso (>h),  inversión (#h/h#) 
TIPO Tipo LEXEMA formas 
ortográficas 
formas 
cacográficas 
errs 
< <h HABER ha, he, haya a (7), ay, e, alla 10 
< <h HALAGO halagos alagos 1 
33 
 
< <h HACER hace, hacen ase, asen 3 
< <h HUNDIR hundan undan 1 
< <h AH  ah a 1 
> >h ABRIR abra, abrir habrá, habrir 2 
> >h ANDAR andan handan 1 
> >h ECHAR echando hechando 1 
> >h IR ir  hir 1 
> >h AY ay hay 1 
> >h ASÍ así haci 2 
/ #h/h# HABER ha, he ah, eh 2 
     26 
3.4 ERRORES GRAFEMÁTICOS EN VOCABULARIO LÉXICO DEL CR 
La siguiente es la lista de formas cacográficas por error grafemático que se obtuvo del corpus de 
referencia, donde se aprecia que se dan menos errores tanto en términos de formas de palabra como de 
frecuencia: se observa que únicamente dos palabras aparecieron dos veces, todas las demás son hápax, 
es decir, aparecieron una sola vez. Incluso algunos de los errores recopilados podrían considerarse más 
errores de digitación que propiamente cacográficos. 
 
Total tipos: 62 
Total muestras: 64 
Frec. Tipo 
2 consecion 
2 firmesa 
1 adminsitrativa 
1 aficiados 
1 alcholicos 
1 alcholismo 
1 apollando 
1 barrabazadas 
1 basofia 
1 chorisos 
1 chorizito 
1 comicionistas 
1 concecion 
1 concecionaria 
1 conceción 
1 consecionaria 
1 conseción 
1 consientemente 
1 contruyan 
1 desicion 
1 desmenuasr 
1 deveria 
1 deveriamos 
1 devio 
1 discresión 
1 emvestidura 
1 exigale 
1 govierno 
1 habramos 
1 hacerce 
1 hecharle 
1 hechándos 
1 incomformidad 
1 inmaginece 
1 inponencia 
1 iresponsable 
1 juegito 
1 mansillar 
1 nescesita 
1 ocacion 
1 pagemos 
1 pagen 
1 paices 
1 paque 
1 parese 
1 persinarse 
1 pizara 
1 precide 
1 preciona 
1 precione 
1 presindenta 
1 probecho 
1 proteje 
1 práticas 
1 relección 
1 requizadas 
1 requizas 
1 revez 
1 sencillés 
1 sigen 
1 sinverguensada 
1 tortugismo 
 
 
 
 
  
34 
 
ANEXO 3  
LISTA DE COMENTARIOS POR NO. DE PALABRAS, NO. DE ERRORES Y TIPO DE ERROR 
 
No. 
item 
No. 
pals. 
TILD 
(974) 
DIACR 
(44) 
GRAF 
(143) 
TOTAL 
errs 
TIPOS 
error 
INFO 
1.  1      Primer grupo: 80 comentarios con extensión de 1 a 5 palabras: 
Sin errores: 70 (87,5) 
Con errores: 10 (12,5) 
Total de errores: 13 (8 tildes, 2 diacríticos, 3 grafemáticos)  
Máximo número de  errores en 1 comentario: 2 
 
No. pals No. coms. Coms.  
con error 
Relación 
coms:coms-error 
1 11 1 11:1 
2 24 1 24:1 
3 19 5 19:5 
4  17 2 17:2 
5 9 1 9:1 
TOTAL 80 10  
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
2.  1      
3.  1      
4.  1      
5.  1      
6.  1      
7.  1      
8.  1      
9.  1   1 1 G 
10.  1      
11.  1      
12.  2      
13.  2      
14.  2      
15.  2      
16.  2      
17.  2      
18.  2      
19.  2      
20.  2      
21.  2      
22.  2      
23.  2 1   1 T 
24.  2      
25.  2      
26.  2      
27.  2      
28.  2      
29.  2      
30.  2      
31.  2      
32.  2      
33.  2      
34.  2      
35.  2      
36.  3      
37.  3 1   1 T 
38.  3      
39.  3      
40.  3      
41.  3 1   1 T 
42.  3      
43.  3      
44.  3      
45.  3      
46.  3      
47.  3      
48.  3      
49.  3 1   1 T 
35 
 
50.  3 1   1 T 
51.  3 1 1  2 TD 
52.  3      
53.  3      
54.  3      
55.  4      
56.  4      
57.  4      
58.  4      
59.  4      
60.  4      
61.  4      
62.  4      
63.  4 1 1  2 TD 
64.  4      
65.  4      
66.  4      
67.  4   1 1 G 
68.  4      
69.  4      
70.  4      
71.  4      
72.  5      
73.  5      
74.  5      
75.  5      
76.  5      
77.  5      
78.  5 2   2 T 
79.  5      
80.  5      
81.  6 1   1 T Segundo grupo: 85 comentarios con extensión de 6 a 10 palabras: 
Sin errores: 61 (72%) 
Con errores: 24 (28%) 
Total de errores: 37 (31 tildes, 1 diacrítico, 5 grafemáticos)  
Máximo número de errores en un comentario: 3 (en 10 palabras) 
 
No. pals No. coms. Coms.  
con error 
Relación 
coms:coms-error 
6  14 3 14:3 
7  13 4 13:4 
8  22 7 22:7 
9  15 3 15:3 
10  21 7 21:7 
TOTAL 85 24  
 
 
82.  6      
83.  6      
84.  6      
85.  6      
86.  6      
87.  6 1   1 T 
88.  6      
89.  6 1   1 T 
90.  6      
91.  6      
92.  6      
93.  6      
94.  6      
95.  7      
96.  7      
97.  7      
98.  7      
99.  7 1   1 T 
100.  7      
101.  7 1   1 T 
102.  7      
36 
 
103.  7 2   2 T 
104.  7      
105.  7      
106.  7 2   2 T 
107.  7      
108.  8 1   1 T 
109.  8      
110.  8      
111.  8      
112.  8      
113.  8      
114.  8      
115.  8 2   2 T 
116.  8      
117.  8      
118.  8 2   2 T 
119.  8      
120.  8 2   2 T 
121.  8 2   2 T 
122.  8 1   1 T 
123.  8      
124.  8      
125.  8      
126.  8 1   1 T 
127.  8      
128.  8      
129.  8      
130.  9      
131.  9      
132.  9 1   1 T 
133.  9      
134.  9      
135.  9      
136.  9      
137.  9 1 1  2 TD 
138.  9      
139.  9   1 1 G 
140.  9      
141.  9      
142.  9      
143.  9      
144.  9      
145.  10      
146.  10      
147.  10      
148.  10 2   2 T 
149.  10      
150.  10 1   1 T 
151.  10      
152.  10      
153.  10      
154.  10      
155.  10 2   2 T 
37 
 
156.  10 3   3 T 
157.  10      
158.  10      
159.  10 1  2 3 TG 
160.  10      
161.  10      
162.  10      
163.  10   1 1 G 
164.  10   1 1 G 
165.  10      
166.  11      Tercer grupo: 226 textos con extensión de 11 a 29 palabras: 
Sin errores: 102 (45) 
Con errores: 124 (55) 
Total de errores: 246 (197 tildes, 10 diacríticos, 39 grafemáticos) 
Máximo número de errores en un comentario: 8 (en 12 y 22 
palabras) 
  
No. pals No. coms. Coms.  
con error 
Relación 
coms:coms-error 
11  12 5 12:5 
12  20 9 20:9 
13  11 9 11:9 
14  15 6 15:6 
15  17 5 17:5 
16  12 6 12:6 
17  20 12 20:12 
18  13 7 13:7 
19  14 10 14:10 
20  9 5 9:5 
21  13 8 13:8 
22 12 7 12:7 
23 9 4 9:4 
24 5 4 5:4 
25 8 2 8:2 
26 7 6 7:6 
27 11 7 11:7 
28 12 7 12:7 
29 6 2 6:2 
TOTAL 226 121  
 
 
167.  11      
168.  11      
169.  11      
170.  11 3   3 T 
171.  11 1   1 T 
172.  11 1   1 T 
173.  11 3   3 T 
174.  11      
175.  11 1   1 T 
176.  11      
177.  11      
178.  12 1   1 T 
179.  12      
180.  12      
181.  12 1   1 T 
182.  12 2   2 T 
183.  12   1 1 G 
184.  12   1 1 G 
185.  12      
186.  12      
187.  12      
188.  12      
189.  12      
190.  12 1   1 T 
191.  12 3   3 T 
192.  12 1   1 T 
193.  12      
194.  12      
195.  12 5 1 2 8 TDG 
196.  12      
197.  12      
198.  13 1   1 T 
199.  13 2 1 1 4 TDG 
200.  13      
201.  13 2   2 T 
202.  13 3   3 T 
203.  13 2  1 3 TG 
204.  13 2   2 T 
205.  13      
206.  13 1   1 T 
207.  13 2   2 T 
208.  13  1  1 D 
38 
 
209.  14      
210.  14 2   2 T 
211.  14 3  1 4 TG 
212.  14  1  1 D 
213.  14      
214.  14      
215.  14 2   2 T 
216.  14 2   2 T 
217.  14      
218.  14 1   1 T 
219.  14      
220.  14      
221.  14      
222.  14      
223.  14      
224.  15 3   3 T 
225.  15 1   1 T 
226.  15      
227.  15 1   1 T 
228.  15      
229.  15      
230.  15      
231.  15      
232.  15      
233.  15      
234.  15      
235.  15      
236.  15 2   2 T 
237.  15 1   1 T 
238.  15      
239.  15      
240.  15      
241.  16      
242.  16      
243.  16 1  1 2 TG 
244.  16      
245.  16      
246.  16 1   1 T 
247.  16      
248.  16 1   1 T 
249.  16      
250.  16 1   1 T 
251.  16 1   1 T 
252.  16 1   1 T 
253.  17      
254.  17 1  2 3 TG 
255.  17 1   1 T 
256.  17 1   1 T 
257.  17 1   1 T 
258.  17      
259.  17 2   2 T 
260.  17 1   1 T 
261.  17      
39 
 
262.  17 1   1 T 
263.  17 1   1 T 
264.  17      
265.  17      
266.  17      
267.  17 1   1 T 
268.  17      
269.  17   1 1 G 
270.  17 1   1 T 
271.  17   1 1 G 
272.  17      
273.  18 1   1 T 
274.  18      
275.  18      
276.  18 1  2 3 TG 
277.  18 2   2 T 
278.  18 1   1 T 
279.  18   1 1 G 
280.  18      
281.  18 3   3 T 
282.  18 2   2 T 
283.  18      
284.  18      
285.  18      
286.  19 1   1 T 
287.  19      
288.  19 1   1 T 
289.  19 2  1 3 TG 
290.  19      
291.  19 3   3 T 
292.  19 2   2 T 
293.  19      
294.  19 4   4 T 
295.  19      
296.  19 1   1 T 
297.  19   1 1 G 
298.  19 1   1 T 
299.  19 2   2 T 
300.  20 1   1 T 
301.  20      
302.  20      
303.  20      
304.  20   1 1 G 
305.  20 1   1 T 
306.  20      
307.  20 2  1 3 TG 
308.  20 2   2 T 
309.  21  1  1 D 
310.  21 1   1 T 
311.  21 1   1 T 
312.  21 1   1 T 
313.  21 2   2 T 
314.  21 1   1 T 
40 
 
315.  21 1   1 T 
316.  21 1 1  2 TD 
317.  21      
318.  21      
319.  21      
320.  21      
321.  21      
322.  22      
323.  22 4   4 T 
324.  22      
325.  22      
326.  22 3  1 4 TG 
327.  22 1   1 T 
328.  22 2   2 T 
329.  22 1   1 T 
330.  22 2 1 5 8 TDG 
331.  22      
332.  22 1  1 2 TG 
333.  22      
334.  23      
335.  23 1   1 T 
336.  23   1 1 G 
337.  23      
338.  23      
339.  23 5   5 T 
340.  23 2   2 T 
341.  23      
342.  23      
343.  24 1 1  2 TD 
344.  24 3   3 T 
345.  24 2  1 3 TG 
346.  24 2   2 T 
347.  24      
348.  25      
349.  25      
350.  25      
351.  25      
352.  25      
353.  25 4   4 T 
354.  25      
355.  25 1  1 2 TG 
356.  26 3   3 T 
357.  26 1   1 T 
358.  26      
359.  26 2   2 T 
360.  26 2   2 T 
361.  26 2   2 T 
362.  26 2  1 3 TG 
363.  27 3   3 T 
364.  27      
365.  27      
366.  27 1   1 T 
367.  27 2  2 4 TG 
41 
 
368.  27 1   1 T 
369.  27      
370.  27 1   1 T 
371.  27  1  1 D 
372.  27      
373.  27 5  2 7 TG 
374.  28      
375.  28 3  2 5 TG 
376.  28 1   1 T 
377.  28      
378.  28 1   1 T 
379.  28 4  1 5 TG 
380.  28      
381.  28 5  1 6 TG 
382.  28   1 1 G 
383.  28      
384.  28      
385.  28 1   1 T 
386.  29      
387.  29 2 1  3 TD 
388.  29      
389.  29      
390.  29 6   6 T 
391.  29      
392.  30 1   1 T Cuarto grupo: 100 comentarios con extensión de 30 a 45 palabras: 
Sin errores: 35 (35%) 
Con errores: 65 (65%) 
Total de errores: 167 (144 tildes, 7 diacríticos, 16 grafemáticos)  
Máximo número de errores en un comentario: 8 (en  45 palabras) 
 (en el grupo anterior aparecen 2 comentarios con máximo de 8:  
1 de 12 palabras y 1 de 22 palabras) 
 
 
No. pals No. coms. Coms.  
con error 
Relación 
coms:coms-error 
30  9 5 9:5 
31  7 5 7:5 
32  11 9 11:9 
33  9 5 9:5 
34  5 3 5:3 
35  2 1 2:1 
36  9 5 9:5 
37  8 4 8:4 
38  2 1 2:1 
39  6 4 6:4 
40  2 0 2:0 
41 4 4 4:4 
42 4 3 4:3 
43 6 4 6:4 
44 8 6 8:6 
45 8 6 8:6 
TOTAL 100 65  
 
393.  30      
394.  30 2   2 T 
395.  30      
396.  30 2   2 T 
397.  30      
398.  30 2   2 T 
399.  30 1   1 T 
400.  30      
401.  31      
402.  31 1   1 T 
403.  31 2  1 3 TG 
404.  31 2 1  3 TD 
405.  31 1   1 T 
406.  31      
407.  31 3  1 4 TG 
408.  32 4  3 7 TG 
409.  32      
410.  32 1   1 T 
411.  32 3   3 T 
412.  32   1 1 G 
413.  32 1   1 T 
414.  32 7   7 T 
415.  32 2   2 T 
416.  32 4   4 T 
417.  32 2   2 T 
418.  32 2   2 T 
419.  33 3   3 T 
420.  33      
42 
 
421.  33 1   1 T 
422.  33 1   1 T 
423.  33      
424.  33 1   1 T 
425.  33 2   2 T 
426.  33   1 1 G 
427.  33      
428.  34      
429.  34 1   1 T 
430.  34 1   1 T 
431.  34      
432.  34 4   4 T 
433.  35 2   2 T 
434.  35      
435.  36      
436.  36 2   2 T 
437.  36 1   1 T 
438.  36      
439.  36 1   1 T 
440.  36 1   1 T 
441.  36 2   2 T 
442.  36      
443.  36      
444.  37 1   1 T 
445.  37      
446.  37      
447.  37 1  1 2 TG 
448.  37 3   3 T 
449.  37      
450.  37 1   1 T 
451.  37      
452.  38 1  2 3 TG 
453.  38      
454.  39 4   4 T 
455.  39 1   1 T 
456.  39 6   6 T 
457.  39      
458.  39      
459.  39 3   3 T 
460.  40      
461.  40      
462.  41 2  1 3 TG 
463.  41 2 1  3 TD 
464.  41 1   1 T 
465.  41 4   4 T 
466.  42 3   3 T 
467.  42      
468.  42 4   4 T 
469.  42 5   5 T 
470.  43 3  1 4 TG 
471.  43 2   2 T 
472.  43      
473.  43 5 2  7 TD 
43 
 
474.  43      
475.  43 2   2 T 
476.  44 1   1 T 
477.  44   2 2 G 
478.  44 5   5 T 
479.  44 1  1 2 TG 
480.  44 1   1 T 
481.  44 1   1 T 
482.  44 1   1 T 
483.  44      
484.  45 2 1  3 TD 
485.  45 2 1  3 TD 
486.  45 1   1 T 
487.  45      
488.  45 1   1 T 
489.  45 6 1 1 8 TDG 
490.  45      
491.  45 2   2 T 
492.  46      Quinto grupo: 126 comentarios con extensión de 46 a 99 palabras: 
Sin errores: 24 (19%) 
Con errores: 102 (81%) 
Total de errores: 477 (389 tildes, 22 diacríticos, 66 grafemáticos)  
Máximo número de errores en un comentario: 14(en 87 y 90 
palabras) 
 
 
 
 
 
 
No. pals No. coms. Coms.  
con error 
Relación 
coms:coms-error 
46  5 2 5:2 
47  2 1 2:1 
48  4 4 4:4 
49  3 3 3:3 
50  3 3 3:3 
51  2 2 2:2 
52  2 2 2:2 
53  5 3 5:3 
54  6 5 6:5 
55  5 4 5:4 
56  1 1 1:1 
57  6 4 6:4 
58  5 4 5:4 
59  2 1 2:1 
60  4 4 4:4 
61 2 1 2:1 
62 2 2 2:2 
63 3 3 3:3 
64 2 0 2:0 
65 3 3 3:3 
66 1 1 1:1 
68 3 2 3:2 
69 3 3 3:3 
70 1 0 1:0 
71 1 1 1:1 
72 3 2 3:2 
73 2 2 2:2 
493.  46 2   2 T 
494.  46      
495.  46      
496.  46  1  1 D 
497.  47      
498.  47 1   1 T 
499.  48 4 1  5 TD 
500.  48 6  1 7 TG 
501.  48 5  1 6 TG 
502.  48 4 1  5 TD 
503.  49 3  1 4 TG 
504.  49 5  1 6 TG 
505.  49 4   4 T 
506.  50 3   3 T 
507.  50 3  1 4 TG 
508.  50 2 1 3 6 TDG 
509.  51 1  1 2 TG 
510.  51 2  2 4 TG 
511.  52 3  1 4 TG 
512.  52 2  1 3 TG 
513.  53      
514.  53   1 1 G 
515.  53 5   5 T 
516.  53 4   4 T 
517.  53      
518.  54 2   2 T 
519.  54 2   2 T 
520.  54 2   2 T 
521.  54 3  1 4 TG 
522.  54 6  2 8 TG 
523.  54      
524.  55 1   1 T 
525.  55      
526.  55 2   2 T 
44 
 
527.  55 2   2 T 74 4 4 4:4 
75 1 1 1:1 
77 1 0 1:0 
78 1 1 1:1 
79 2 2 2:2 
80 1 1 1:1 
81 5 4 5:4 
82 2 2 2:2 
84 3 3 3:3 
85 2 2 2:2 
87 1 1 1:1 
89 2 2 2:2 
90 2 2 2:2 
92 3 2 3:2 
93 1 0 1:0 
94 1 1 1:1 
95 3 3 3:3 
96 3 3 3:3 
97 6 5 6:5 
99 1 0 1:0 
TOTAL 126 102  
 
 
528.  55 2 1  3 TD 
529.  56 1   1 T 
530.  57 3   3 T 
531.  57 3   3 T 
532.  57 6 2 1 9 TDG 
533.  57      
534.  57      
535.  57 6 1 3 10 TDG 
536.  58 9   9 T 
537.  58 2  1 3 TG 
538.  58 1   1 T 
539.  58 3 1 6 10 TDG 
540.  58      
541.  59 5   5 T 
542.  59      
543.  60 2   2 T 
544.  60 2   2 T 
545.  60 3 1  4 TD 
546.  60 12   12 T 
547.  61 2 1  3 TD 
548.  61      
549.  62 6   6 T 
550.  62 1   1 T 
551.  63 1   1 T 
552.  63 5   5 T 
553.  63 4  6 10 TG 
554.  64      
555.  64      
556.  65 2   2 T 
557.  65 7 1  8 TD 
558.  65 2 1 1 4 TDG 
559.  66 6   6 T 
560.  68 1  1 2 TG 
561.  68 2   2 T 
562.  68      
563.  69 7 1  8 TD 
564.  69 1   1 T 
565.  69 4   4 T 
566.  70      
567.  71 9  3 12 TG 
568.  72      
569.  72 2   2 T 
570.  72 4  1 5 TG 
571.  73 3 1  4 TD 
572.  73 4   4 T 
573.  74 1   1 T 
574.  74 1   1 T 
575.  74 2   2 T 
576.  74 1  1 2 TG 
577.  75 8  3 11 TG 
578.  77      
579.  78 3   3 T 
45 
 
580.  79 2  1 3 TG 
581.  79 5 1  6 TD 
582.  80 11 1 1 13 TDG 
583.  81      
584.  81   1 1 G 
585.  81 3  2 5 TG 
586.  81 3   3 T 
587.  81 2   2 T 
588.  82  1 1 2 DG 
589.  82 3 1  4 TD 
590.  84 5   5 T 
591.  84 6 1 1 8 TDG 
592.  84 4   4 T 
593.  85 2   2 T 
594.  85 6  1 7 TG 
595.  87 11  3 14 TG 
596.  89 8   8 T 
597.  89 5  2 7 TG 
598.  90 6   6 T 
599.  90 13  1 14 TG 
600.  92      
601.  92 6   6 T 
602.  92 2   2 T 
603.  93      
604.  94 2 1 1 4 TDG 
605.  95 3 1  4 TD 
606.  95 2  1 3 TG 
607.  95 4  5 9 TG 
608.  96 3   3 T 
609.  96 8  1 9 TG 
610.  96 10   10 T 
611.  97 4  1 5 TG 
612.  97      
613.  97 10 1  11 TD 
614.  97 3   3 T 
615.  97 6   6 T 
616.  97 2   2 T 
617.  99      
618.  101 8   8 T Sexto grupo: 38 comentarios con extensión de 101 a 267 palabras 
(no hay textos de 100 palabras): 
Sin errores:  3 (8%) 
Con errores:  35 (92%) 
Total de errores: 221 (205 tildes,  2  diacríticos, 14 grafemáticos)  
Máximo número de errores en un comentario: 16 (en 123 palabras) 
 
No. pals No. coms. 
Coms. 
con error 
Relación 
coms:coms-error 
101 1 1 1:1 
103 1 1 1:1 
104 2 2 2:2 
106 1 1 1:1 
108 1 0 1:0 
109 1 1 1:1 
110 2 2 2:2 
111 2 2 2:2 
619.  103 12   12 T 
620.  104 6   6 T 
621.  104 5   5 T 
622.  106 6   6 T 
623.  108      
624.  109 11   11 T 
625.  110 12   12 T 
626.  110 2   2 T 
627.  111 8  1 9 TG 
628.  111 10   10 T 
629.  112 8  1 9 TG 
630.  113 8 1  9 TD 
631.  115 5   5 T 
632.  115 1   1 T 
46 
 
633.  118 6  1 7 TG 112 1 1 1:1 
113 1 1 1:1 
115 2 2 2:2 
118 1 1 1:1 
119 2 2 2:2 
120 1 0 1:0 
123 1 1 1:1 
124 1 1 1:1 
127 1 1 1:1 
131 1 1 1:1 
132 1 1 1:1 
134 1 1 1:1 
135 1 1 1:1 
137 1 1 1:1 
140 1 1 1:1 
144 1 1 1:1 
155 1 1 1:1 
156 1 0 1:0 
157 1 1 1:1 
162 1 1 1:1 
166 1 1 1:1 
171 1 1 1:1 
172 1 1 1:1 
210 1 1 1:1 
267 1 1 1:1 
TOTAL 38 35  
 
634.  119 2   2 T 
635.  119 4   4 T 
636.  120      
637.  123 15  1 16 TG 
638.  124 2   2 T 
639.  127 6  1 7 TG 
640.  131 4   4 T 
641.  132 2   2 T 
642.  134 1   1 T 
643.  135 4  1 5 TG 
644.  137 2   2 T 
645.  140 4   4 T 
646.  144 7   7 T 
647.  155 7   7 T 
648.  156      
649.  157 5 1 2 8 TDG 
650.  162 1  1 2 TG 
651.  166 9   9 T 
652.  171 1   1 T 
653.  172 7  4 11 TG 
654.  210 13  1 14 TG 
655.  267 1   1 T