1 PROYECTO NO. 745-B2-A13 "DESARROLLO DE HERRAMIENTAS INTERACTIVAS PARA EL MEJORAMIENTO Y CERTIFICACIÓN DEL ESPAÑOL ESCRITO (FASE 1)" INFORME PARCIAL: 30/09/2013 COCAE: CORPUS CACOGRÁFICO ADULTO DEL ESPAÑOL DE COSTA RICA Dra. Carla Victoria Jara Murillo Investigadora Asociada 1. Introducción El Corpus Cacográfico Adulto del Español de Costa Rica (COCAE) se compiló a partir de datos textuales reales extraídos de internet manualmente. Estos datos se codificaron y se tabularon con el objetivo de crear un listado de los vocablos cacográficos más frecuentes en una muestra de textos escritos por costarricenses y publicados como comentarios personales en diversos medios de comunicación en línea. Los datos se extrajeron de dos corpus textuales separados. El primero (corpus de base - CB) consta de ca. 22.500 palabras y fue codificado en su totalidad mediante el programa de análisis cualitativo Atlas.ti con el fin de realizar la primera sistematización de los errores ortográficos por considerar. En este primer corpus se codificaron 1161 errores, de los cuales 974 (84%) son de acentuación, 44 (4%) conciernen a otros signos diacríticos y 143 (12%) son grafemáticos. El segundo (corpus de referencia - CR) consta de ca. 27.500 palabras y se utilizó para la expansión del corpus ya sistematizado. En conjunto los dos corpus textuales suman ca. 50.000 palabras y el corpus cacográfico extraído consta de 716 formas de palabra (551 cacografías diacríticas y 165 cacografías grafemáticas). 2 2. Antecedentes En la conceptualización del COCAE han sido cruciales los trabajos de Pujol Llop (1999, 2005) y de Murillo Rojas (2003, 2006). Es también importante destacar el trabajo de Sánchez Avendaño (2008) en el cual hace un interesante recuento de los enfoques que históricamente se han planteado en Costa Rica en torno a la enseñanza de la ortografía. En cuanto al diseño del corpus, nuestro punto de partida fue el trabajo de Murillo Rojas (2006), en el cual se describe el procedimiento que se llevó a cabo en la compilación de un vocabulario cacográfico a partir de textos de escolares costarricenses. La autora resume el problema de la investigación en los siguientes términos: El problema fundamental de la presente investigación consistió en identificar los comportamientos y patrones generales de la ortografía de los niños escolares costarricenses, a partir del vocabulario cacográfico, obtenido este del léxico básico escolar, en virtud de un corpus lingüístico de validez nacional (p. 59). Ese corpus se obtuvo mediante la recolección de redacciones en treinta y cinco escuelas públicas y privadas ubicadas en las veinte regiones educativas de Costa Rica. Las redacciones fueron hechas por 70 grupos de escolares (35 de tercer grado, de edades entre 9 y 10 años, y 35 de sexto, de edades entre 12 y 14 años) con un promedio de 25 alumnos cada uno, para un total de 1765 redacciones. En la confección del corpus se tomaron en cuenta los aspectos ortográficos relativos a grafemas y acentos; no se consideraron los de mayúsculas ni puntuación: Téngase en cuenta que la ausencia de una mayúscula cuando debía aparecer o su aparición sin necesidad, no se consideró, al igual que la puntuación, pues estos contenidos escapan al proceso de adquisición de una ortografía natural, primera etapa en el proceso de apropiación del código escrito (Cfr. Barberá y otros, 2001) (p. 61). De igual manera, en el COCAE no se tomaron en cuenta esos dos capítulos de la ortografía pero por razones distintas: en nuestro caso, el tipo de discurso -comentario escrito breve y espontáneo- no implica que los escribientes hayan planificado sus textos de la manera en que podrían (o no) hacerlo si elaboraran un texto con propósitos más formales. Como esto no se puede determinar a partir de las condiciones de producción de los textos (ver Metodología), creemos preferible no tomar en cuenta estos aspectos, aunque podrían estudiarse en una investigación posterior, ya que forman parte de la ortografía general. En síntesis, el vocabulario cacográfico escolar compilado por Murillo Rojas contiene las 100 palabras (lematizadas) que presentaron el mayor número de errores ortográficos, independientemente del tipo de 3 error. Se excluyeron las palabras que presentaron en el corpus frecuencia de 1 (hápax legómena 1 ). El vocabulario se desglosa según su categoría gramatical en 59 verbos, 12 adverbios, 11 sustantivos, 6 adjetivos y 12 elementos entre preposiciones, pronombres y conjunciones. Los principales errores en los verbos se refieren a las terminaciones -aba, -aban y -ábamos del pretérito imperfecto de indicativo. En el pretérito perfecto simple, en el condicional y en el futuro simple, el error común es la omisión del acento ortográfico en las palabras agudas terminadas en -ó y -é, en los hiatos -ía y en las terminaciones de futuro (-aré/-ará). Los adverbios recopilados son: ahora, ya, dónde, aquí, sí, entonces, después (de una dificultad ortográfica); siempre, bien, ahí (de dos dificultades) y también, así (de tres dificultades). Los sustantivos son: país (pais, paises), papá (papa, papas), mamá (mama, mamas), tío (tio, tios), pájaro (pajaro, pajaros), día (dia, dias), árbol (arbol, arboles), río (rio, rios), contaminación (contaminacion), fútbol (futbol) y vez (bes, ves). Murillo hace notar que excepto por el último, todos los errores frecuentes consisten en la omisión del acento ortográfico. Los adjetivos del corpus son: feliz (felizes), joven (joben, jovenes), único (unico), último (ultimo), mi (mí) y mío (mio). Finalmente, en el grupo de pronombres, conjunciones y preposiciones se incluyen: yo (llo, pero con muy baja frecuencia), él (el), qué (que), quién (quien), cuál (cual), porque (por que), y (i), a (ha) y hasta (asta). Más allá de las 100 palabras cacográficas frecuentes, Murillo menciona dentro de las siguientes 500 palabras, errores de infrasegmentación (e.g. ala, por a la) y de suprasegmentación (e.g. de el, por del). Concluye proponiendo que se ponga especial atención pedagógica en las palabras: también, así, más, después, los verbos haber, estar, hacer y tener, los homófonos de distintas categorías gramaticales como: él/el, qué/que, cuál/cual, dónde/donde, cuándo/cuando, y casos como ahí/hay y por qué/ porqué. Este inventario resulta sumamente útil para nuestra propia investigación ya que, como se verá, los errores de acentuación representan igualmente la mayoría de los errores en el COCAE, y los problemas grafemáticos, aunque en una proporción menor, también tienden a ser los mismos. 1 Este término (hápax legómenon, en singular), del griego 'dicho una sola vez', se usa en lingüística de corpus para referirse a palabras o expresiones que aparecen con frecuencia de 1 en un corpus. V. Rojo (2008). 4 Otro antecedente importante en la construcción de nuestro vocabulario cacográfico es el trabajo de Pujol Llop (2005), en el cual se hace un estudio exhaustivo de los errores ortográficos contenidos en el Corpus PAAU 1992. Este corpus ...es un conjunto cerrado de textos en lengua española escritos por estudiantes de las Pruebas de Acceso a la Universidad (prueba conocida como Selectividad) (...) en seis universidades del territorio peninsular. (...) El corpus pretende ser representativo de la competencia escrita (redactora) de los aspirantes a universitarios en materias académicas (Battaner 2005:13). Pujol se aboca a la sistematización de los errores estableciendo tres divisiones básicas: la ortografía de la palabra, la ortografía de la oración y la ortografía del texto. 2 Los datos se dividen en cinco tipos de problema: acentuación, grafemas, palabras, puntuación y texto. En ese estudio, los errores relacionados con el uso de la tilde se dividen en: uso de otro diacrítico por tilde (0, 1%), incorrecta colocación (2,5%), exceso (palabras que antes se tildaban o confusión de monosílabos, 7,3%) y omisión: 90%. Pujol señala como causas de los errores de acentuación: insuficiente competencia metalingüística debida a factores como conocimiento deficiente de las reglas de acentuación, insuficiente competencia gramatical, distracción o descuido. En conjunto se deben a un déficit metalingüístico y hábitos ortográficos poco cultivados. El estudio de Pujol arroja resultados semejantes a los que se ven en otros corpus cacográficos: El inventario cacográfico obtenido a partir de los 346 vocablos sobre los que se producen errores mantiene características similares a las de otros (Villarejo 1950; Holgado 1986, Mesanza 1990): un reducido número de palabras causan una gran cantidad de errores, al mismo tiempo que un gran número de palabras causan uno o muy pocos errores. En el inventario de esta muestra se puede advertir que el 50,78% de los errores son producto de 34 palabras, que son las que suman desde la máxima frecuencia hasta la seis; es decir, que un diez por ciento de las palabras son responsables del cincuenta por ciento de los errores. En el lado contrario (palabras de frecuencia 1), hay 216 vocablos –que representan el 62% del total de las palabras- que sólo provoca el 21% de los errores. (...) ...comparando las 34 palabras de mayor frecuencia de error, con las 20 primeras del vocabulario de Mesanza (escolares madrileños de octavo de EGB), y con las 50 primeras del inventario de Holgado (alumnos salmantinos de segundo a sexto curos de EGB), vemos que 11 de ellas se repiten en las tres listas: países, más, cómo, sí, está, también, día, están, él, qué, así. Todas ellas se encuentran dentro del vocabulario fundamental de Barberá (1998), que recoge las 213 palabras de más uso en castellano (p. 37). Sin embargo, el hecho de que el error de acentuación (y ortográfico en general) más frecuente sea la omisión de la tilde, tanto en nuestro corpus como en los reseñados, llama a considerar en particular este aspecto de la ortografía y a analizar el fenómeno en términos de sus causas y de la utilidad de este elemento de la escritura para los hablantes. Este tema será tratado con detalle más adelante. 2 Sánchez Avendaño (2004 y 2005) analiza un corpus compuesto por redacciones de una población similar (estudiantes universitarios), pero con un énfasis mucho mayor en el uso de la puntuación y las unidades textuales. Con respecto a la ortografía en ese mismo corpus, se hacen algunas referencias en Sánchez Avendaño 2008. 5 3. Marco conceptual En el corpus de base (CB) se codificaron 1117 errores, de los cuales 974 (87%) son de acentuación ortográfica (y omisión de otros diacríticos, ver infra) y 143 (13%) son grafemáticos. A partir de estos datos iniciales, la primera distinción que prueba ser relevante para la construcción del COCAE es entre error de acentuación ortográfica (diacrítico) y error grafemático. Por otra parte, el texto recién citado de Pujol refleja un hecho ya familiar en lingüística de corpus: el vocabulario más frecuente en cualquier tipo de texto va a ser responsable del mayor número de errores, si es que los vocablos presentan dificultades ortográficas. Este hecho llama a una segunda distinción, de distinta naturaleza: vocabulario funcional y vocabulario léxico. Estas dos distinciones constituyen los dos ejes sobre los que se construyó el COCAE. 3.1 Primera distinción: error de acento ortográfico/diacrítico y error grafemático En nuestro marco conceptual partimos de una primera gran división entre problemas de acento ortográfico y problemas propiamente grafemáticos. A partir de su estudio, Murillo Rojas (2006) lo plantea en los siguientes términos: "Los dos caballos de batalla en la escritura con ortografía son, por un lado, la marcación gráfica del acento, según las reglas establecidas y, por el otro, la escritura de los fonemas /b/, /s/, /y/, /r/ y la hache" (p. 69). Estos dos problemas son de tipo muy diferente: el problema del acento ortográfico no debería ser un problema, ya que, en principio, el hablante de español posee el suprasegmental fonológico del acento o prominencia silábica como elemento contrastivo en su sistema fonológico. Esto es, todo hablante es capaz de discernir que ['saβana] y [sa'βana] son palabras diferentes que se refieren a cosas distintas. Además existen reglas ortográficas sin excepción para la aplicación del diacrítico de acento. Por lo tanto bastaría con que el hablante supiera reconocer dónde está el acento silábico para saber si debe o no acentuar la palabra al escribirla. El problema está en que no es tan intuitivo para el hablante reconocer en cuál sílaba de la palabra recae su acento. El error de acentuación ortográfica entonces se debe abordar de manera diferente que el error relativo al uso de grafemas. En principio habría que considerar dos técnicas distintas: una fonética, para el reconocimiento de la sílaba acentuada, con ejercitación posterior de las reglas ortográficas correspondientes, y otra visual, para la memorización de las palabras proclives a presentar errores por arbitrariedad del sistema fono-ortográfico (ver infra). 6 Con respecto a los errores escriturales, Pujol Llop (1999: 120-2) había propuesto una detallada tipología que incluía varias categorías: errores en el origen (por desconocimiento de la palabra correcta, por ejemplo), errores contra el sistema ortográfico, errores por arbitrariedad del sistema y errores por desatención: Esta tipología permite diferenciar los errores propiamente ortográficos de los que les son cercanos, pero son de naturaleza léxica (errores en el origen). También distingue entre los errores de competencia y de actuación (errores por desatención). La división fundamental entre los errores se hace basándose en el carácter mixto fonético-arbitrario del sistema ortográfico castellano (errores contra el sistema y errores por arbitrariedad); a su vez, dentro de cada uno de estos dos grupos se distinguen diversos subtipos. Parece, pues, que puede afirmarse que es una descripción ajustada a la naturaleza de la ortografía castellana y a la de los errores que aparecen (p. 120). En su análisis comprensivo del Corpus PAAU, Pujol Llop (2005) hace una reelaboración de esta tipología para clasificar los errores presentes en ese corpus y, como en la tipología anterior, distingue entre el error propiamente ortográfico, el error de actuación y la falta léxica: El error ortográfico, propiamente dicho, sería aquel en el que se aprecia una incorrecta utilización de las reglas del sistema fono-ortográfico o una incorrecta elección de los grafemas en las realizaciones arbitrarias. (...) Además de estos errores, fruto de una competencia deficiente en el dominio del sistema ortográfico, hay que contar con los errores de actuación, que serían aquellos producidos en el proceso final de la escritura debidos a falta de concentración básicamente, pues el alumno que escribe en una ocasión *decri en vez de decir, lo que ha tenido ha sido un despiste. Por otro lado, no parece exacto considerar toda palabra mal escrita como error ortográfico: por ejemplo, cuando un sujeto escribe *haiga en vez de haya, no está cometiendo una falta ortográfica, sino una falta morfológica al utilizar un vulgarismo en lugar de la forma correcta, pues lo que está haciendo es una transcripción ortográficamente correcta del lenguaje oral que utiliza. Este tipo de faltas se han considerado faltas léxicas (p. 40). Al igual que ha hecho Pujol, en la construcción del COCAE hemos disgregado los errores de acentuación de los demás errores grafemáticos; y con el término error grafemático nos referimos a lo que Pujol define en la cita anterior como "error ortográfico propiamente dicho". Lo hemos hecho así porque el término error ortográfico en nuestra concepción incluye tanto los errores de acentuación (tildes) como los grafemáticos, además de otros errores considerados tradicionalmente parte de la ortografía como los que conciernen al uso de mayúsculas, símbolos, etc. Además de los errores de acentuación, hemos considerado dos errores que aparecen en el corpus con alguna frecuencia y que implican, como en el caso del acento ortográfico, el uso de diacríticos: se trata del uso del grafema por <ñ>, es decir que se ha omitido el diacrítico tilde, y el uso de por <ü>, esto es, la omisión del diacrítico diéresis en la fónica de las sílabas . Aunque estrictamente estos errores pueden interpretarse como "dentro del sistema fono-ortográfico", consideramos más probable que se deban a la omisión del diacrítico, como sucede con el signo de acento agudo. 7 De acuerdo con estas observaciones, en términos del primer eje hemos estructurado el COCAE en dos componentes: el COCAE DIACRÍTICO y el COCAE GRAFEMÁTICO. Con base en una amplia investigación psicolingüística en el campo de la práctica ortográfica, Luelsdorff (1991) ha propuesto una hipótesis de la complejidad, según la cual la desviación sistemática de la biunivocidad fonema-grafema es la mayor fuente del error grafemático. A partir de esta idea, desarrolla una teoría de la complejidad ortográfica que depende del tipo y cantidad de información lingüística requerida para relacionar un determinado sonido con su grafema. Partiendo del principio de biunivocidad (relación unívoca, de uno-a-uno), Luelsdorff propone una escala de complejidad creciente conforme se van dando desviaciones arbitrarias en la relación fonema-grafema: de uno-a-muchos o muchos-a-uno; de uno-a-ninguno o ninguno-a-uno. Con base en estos postulados, Pujol (2005:39) propone la siguiente escala para el español: Escala de complejidad ortográfica A Univocidad. Ausencia de ambigüedad y arbitrariedad Dentro del sistema fono-ortográfico B Ambigüedad resuelta. Ausencia de arbitrariedad C Ambigüedad no resuelta. Presencia de arbitrariedad Fuera del sistema fono-ortográfico D Correspondencia inexistente. Presencia de arbitrariedad El tramo A corresponde a la univocidad entre fonemas y grafemas; por ejemplo las vocales del español, casos en que el error ortográfico es muy improbable. Corresponde al Nivel 0 de complejidad. El tramo B se refiere a casos en que no hay univocidad, "pero el sistema proporciona reglas de uso que deshacen la ambigüedad. Es el caso de u/ü, i/y (vocal), gu/j, g/gu, g/j(+a,o,u), z/qu/c(+a,o,u), z/qu/c(+e,i), r/rr. La utilización de estos grafemas y dígrafos debería estar automatizada y no causar errores" (Pujol Llop 2005: 39). Corresponde al Nivel 1 en la escala de complejidad. El tramo C se refiere a los casos en que el sistema fono-ortográfico presenta arbitrariedad máxima y por tanto es donde más errores ortográficos suelen darse. Pujol cita los casos de los grafemas y dígrafos k/c/qu, y/i/hi, x/s, j/g(+e,i), y/ll, w/b/v; sin embargo, como se verá, el error grafemático de mayor presencia en el COCAE, como corresponde a la variedad seseante costarricense, es la sustitución entre los grafemas , y . Constituye el Nivel 2 en la escala de complejidad. El tramo D se refiere al caso en que además de la arbitrariedad, el grafema carece de correspondencia fónica. En español se reduce al caso del grafema y corresponde al Nivel 3 de la escala de complejidad. 8 3.2 Segunda distinción: vocabulario funcional vs. vocabulario léxico En los estudios sobre frecuencias léxicas suele señalarse que las palabras funcionales constituyen alrededor del 40% o más del discurso, dependiendo de cuántas palabras funcionales se tomen en cuenta. Así por ejemplo, Alvar Ezquerra (2004) analiza el Corpus Vox-Bibliograf y determina que las 20 palabras de mayor frecuencia (de, la, que, el, en, y, a, los, se, del, las, un, por, no, una, con, es, su, para, al) dan cuenta de ca. 38% del total de palabras del corpus. En mis investigaciones sobre frecuencias léxicas en el Corpus de Mensajes Presidenciales de Costa Rica (CODIMEP-CR, Jara Murillo 2011) he obtenido los siguientes resultados con respecto a la relación entre vocabulario léxico y funcional (Jara Murillo 2010): Tabla 1. CODIMEP-CR. Siglo XIX Tipos 3 % Muestras % Vocabulario léxico 12025 98 57370 45,5 Vocabulario funcional 231 2 68553 54,5 Totales 12258 100 125923 100 Tabla 2. CODIMEP-CR. Siglo XX Tipos % Muestras % Vocabulario léxico 20126 98,8 135910 47 Vocabulario funcional 243 1,2 153462 53 Totales 20369 100 289372 100 En ese estudio se compiló una lista de vocabulario funcional extraído del propio corpus, de manera que corresponde a un tipo de discurso formal escrito, pero lo suficientemente general para constituir un conjunto bastante exhaustivo de vocabulario funcional. La lista incluye 242 tipos: Pronombres personales y posesivos: yo, usted, él, ella, ello, nosotros, vosotros, ustedes, ellas, ellos, me, nos, os, lo, le, les, se, mi, mí, mío, mía, míos, mías, mis, nuestro, nuestra, nuestros, nuestras, vuestro, vuestra, vuestros, vuestras, su, sus. Artículos: el, la, lo, las, los, un, una, unos, unas. Pronombres y adjetivos determinativos: esto, este, esta, estos, estas, eso, ese, esa, esos, esas, aquello, aquel, aquella, aquellos, aquellas, que, qué, cual, cuál, cuales, cuáles, quien, quién, quienes, quiénes, cuyo, cuya, cuyos, cuyas, algo, alguien, alguno, ninguno, ninguna, nada, nadie, varios, cualquier, 3 Tipos y muestras son las traducciones que doy a las palabras inglesas types y tokens, distinción inicialmente señalada por Charles Pierce entre las formas de palabra distintas (types) y las instancias de aparición de esas formas de palabra (tokens). 9 cualquiera, quienquiera, cada, tal, tales, mismo, misma, algún, alguna, algunos, algunas, poca, pocos, pocas, mucha, muchos, muchas, cuántos, cuánta, cuantas, todo, toda, todos, todas, otro, otra, otros, otras, demás, uno, dos, tres, cuatro, cinco, seis, siete, ocho, nueve, diez, mil, demasiada demasiados, demasiadas. Contracciones: al, del Preposiciones: a, ante, bajo, cabe, con, contra, de, desde, en, entre, hacia, hasta, para, por, según, sin, so, sobre, tras. Conjunciones y adverbios: e, mas, mediante, ni, o, ora, pero, porque, pues, puesto si, sino, u, y, ya, además, aun, aún, conque, durante, luego, aunque, entonces, mientras, obstante, embargo, frente, más, no, así, también, hoy, muy, casi, ahora, antes, menos, dentro, siempre, nunca, jamás, solo, aquí, ahí, acá, después, adelante, atrás, detrás, sí, cuándo, cómo, dónde, adónde, tan, tanto, mucho, poco, demasiado, bastante, como, cuando, donde, cuanto, cuánto, quizás, todavía. Formas de los verbos "ser", "estar" y "haber": era, eran, es, sea, sean, ser, son, fue, fueron, fuera, sido, será, sería, está, están, estar, esté, estén, estamos, he, hemos, ha, han, hay, haber, había, haya, habría, hubo, habían. Dado que alrededor del 50% del discurso está conformado por este conjunto de palabras funcionales, es de esperar que una cantidad importante de los errores ortográficos codificados ocurran en este sector del vocabulario. De acuerdo con esta segunda distinción, que constituye el segundo eje para la estructuración del corpus cacográfico, los dos componentes del COCAE se dividen en los subcomponentes FUNCIONAL y LÉXICO. El COCAE, así, se estructura en cuatro partes:  COCAE 1.1 DIACRÍTICO-FUNCIONAL  COCAE 1.2 DIACRÍTICO-LÉXICO  COCAE 2.1 GRAFEMÁTICO-FUNCIONAL  COCAE 2.2 GRAFEMÁTICO-LÉXICO 10 4. Metodología Previo a la construcción del COCAE, se tomó una serie de decisiones preliminares con respecto al material que deberíamos utilizar para la construcción del corpus. Estas decisiones fueron: 1. Recopilar comentarios escritos en español por personas costarricenses (en principio), en medios de comunicación costarricenses accesibles públicamente a través de internet. 2. Realizar la recopilación manualmente, esto es, no utilizar ninguna herramienta automática de extracción de datos, con el fin de extraer un corpus cerrado y delimitado. 3. Extraer los comentarios de dos tipos de fuente: medios noticiosos y blogs. 4. Extraer un corpus de base (CB) de ca. 20.000 palabras para codificar en su totalidad mediante una herramienta de codificación y un corpus de referencia (CR), más amplio, para verificar ortográficamente mediante una herramienta automática. 5. Obtener como resultado un corpus textual cerrado de ca. 50.000 palabras. Tomadas estas decisiones, se trabajó en cuatro etapas sucesivas, cuyos procedimientos se describen en las secciones siguientes. La etapas son: 1. Etapa de recopilación de los corpus textuales CB y CR 2. Etapa de codificación del CB 3. Etapa de verificación del CR 4. Etapa de construcción y análisis del COCAE 4.1 Etapa de recopilación de los corpus textuales CB y CR Los textos que conforman el CB se generaron entre los días 11 y 13 de abril de 2013. Se seleccionaron esas fechas porque hubo acontecimientos nacionales de carácter social y político que produjeron una cantidad de comentarios mucho mayor que la que generan normalmente las noticias individuales cotidianas. Los comentarios se dieron en respuesta a dos editoriales del noticiero Telenoticias, que se transmite por televisión. Muchos comentarios se añadieron de forma casi inmediata, o bien en las horas 11 que siguieron a la transmisión, y los ánimos exaltados de casi la totalidad de ellos nos permite asumir que la planificación de la escritura no era la preocupación mayor del comentarista, sino más bien el contenido de su comentario. Por ello he señalado en la introducción el carácter relativamente espontáneo de los textos, con lo que podemos asumir, en principio, que estos se generaron con la ortografía que tiene normalmente la persona. Esto no significa que asumamos que no se haya utilizado herramientas de corrección ortográfica, sino que el grado de naturalidad en la escritura es mayor que si se hubiera elegido otros géneros escritos que conminan a las personas a un grado mayor de cuidado en la producción del texto. El primer editorial que se tomó como estímulo de los comentarios fue "Señora Presidenta, abra los ojos", emitido por Ignacio Santos en fecha 11/4/2013. La recolección se hizo en fecha: 12-13/04/2013. El sitio del noticiero reportó 444 comentarios y la tabulación a la base de datos produjo 510 registros. El segundo editorial de estímulo fue "Gobierno sordo, ciego y mudo", emitido por Pilar Cisneros, en fecha: 12/4/2013. La recolección se hizo en fecha: 13/04/2013. El sitio reportó 182 comentarios y la tabulación a la base de datos produjo 209 registros. Se obtuvo así en una primera tabulación 719 registros que se revisaron individualmente para filtrar repeticiones de comentarios y/o usuarios, de manera que la base quedó constituida por 655 comentarios de usuarios distintos. El corpus textual preparado para la codificación consta de 22.502 palabras. El CR se recopiló a partir de la extracción de comentarios de dos tipos de medio de comunicación a través de internet: periódicos y blogs. Los periódicos son de dos tipos: uno que circula tradicionalmente de manera impresa y que en la actualidad cuenta con el sitio correspondiente en internet en donde los lectores hacen comentarios sobre las noticias (La Nación, http://www.nacion.com/); el otro es un periódico originalmente digital y cada noticia cuenta con su sección para comentarios (cr.hoy.com, http://www.crhoy.com/). Ambos periódicos son de acceso libre. En cuanto a los blogs, se inspeccionaron los que aparecen en los primeros lugares de popularidad en el ranking del directorio de blogs de Costa Rica del sitio Blogalaxia - Costa Rica (http://costarica. blogalaxia.com/top100.php), y se eligieron el tercero (Carepicha Blog, http://h3dicho.ticoblogger.com/) y el cuarto (El Infierno en Costa Rica, http://infierno.ticoblogger.com/) del ranking, por ser los que presentan mayor diversidad de comentaristas. 12 El resumen de los datos de recopilación se presentan en Tabla 3: Tabla 3. CORPUS DE REFERENCIA (CR) - INFORMACIÓN DE LOS DATOS RECOPILADOS Tipo Medio Fecha de recolección Tamaño en palabras Fecha de edición y título de la noticia o post (no. de comentarios) total coms Perió dico crhoy.com (CRH) 13 y 26 /04/2013 8.895 Edición: 13/04/2013. Sección Nacionales: "Negociación del Gobierno sobre ruta San José- San Ramón es una burla ante el pueblo" (20) Sección Redes Sociales, Tecnología: Campaña busca que aficionados se pronuncien en el clásico contra la concesión San José-San Ramón(8) Edición: 12/04/2013 Sección Gobierno, Nacionales: Comunidades rechazan acuerdo entre Gobierno y Alcaldes sobre concesión San José-San Ramón (19) Edición: 11/04/2013 Sección Nacionales, Sucesos: Hombre que rompió parabrisas de Bernal Jiménez en manifestación habló con crhoy.com (81) Edición: 17/04/2013 Sección Nacionales: "Aunque somos grupos muy diversos todos coincidimos en que la concesión no va" (7) Edición: 26/04/2013 Sección Nacionales: Gobierno buscará firma auditora para que diga cuánto se le debe pagar a empresa OAS (12) 147 La Nación (LAN) 12 y 13 /04/2013 5.022 Edición: 12/04/2013 Portada. Sección El país: Presidente del PLN junta los vidrios y critica al gobierno de Chinchilla(13) Edición: 11/04/2013 Sección El País: Caos en celebración del 11 de abril (93) 106 Blog Carepicha (CAR) 04/09/2012 y 13/04/2013 8.248 Post: 18/11/2012: Mariguana: De Costa Rica para el Mundo (37) Post 6/2/2013: Johnny Araya: Un candidato que embarga escuelas (8) Post 12/2/2013: Sobre Voto de Censura a Marino Protti (8) Post 27/3/2013: La Zorra (Historia) (16) Post 20/1/2013: Cita romántica con un iPhone (5) Post 21/3/2013: La directora & educadora nazi (31) Post 27/08/2012: Tsunami de Tweets ahoga a estudiante de medicina (22) 126 El Infierno en Costa Rica (INF) 12/04/2013 5.406 Post 4/2013: Acusan a Oscar López de falsificación y estafa (4) Post 1/2013: El problema con los cuidacarros (5) Post 1/2013: ¿Debe despenalizarse el aborto si el feto está muerto? (7) Post 12/2012: Mall San Pedro: Sin cámaras de seguridad (5) Post 10/2012: Irregularidades en INCOPESCA (7) Post 10/2012: Cliente denuncia que Banco Nacional le quitó medio millón (36) Post 9/2012: Alzas en los combustibles: El garrotazo al pueblo (17) 81 Totales 27.571 460 La siguiente tabla muestra la composición del corpus textual completo que se recopiló para la extracción del corpus cacográfico: Tabla 4. COMPOSICIÓN DEL CORPUS TEXTUAL Corpus Base Corpus de Referencia Corpus Textual Total No. comentarios 665 460 1125 No. palabras 22.502 27.571 50.073 13 4.2 Etapa de codificación del CB La codificación se llevó a cabo por medio del programa de análisis cualitativo Atlas.ti, que permite codificar segmentos textuales al grado de detalle que sea necesario. En nuestro caso se requería codificar los vocablos cacográficos para luego extraerlos mediante la opción "Retrieve quotations with the query tool" disponible en el programa. Este fue un arduo proceso de minuciosa inspección y codificación manual del corpus para determinar cuándo en efecto hubo cacografías, especialmente en el caso de las tildes, y también para desambiguar ítems. Se creó la unidad hermenéutica (HU) "CORPUS CACOGRÁFICO BASE" y se definieron los siguientes códigos:  ERROR: propiamente grafemático.  TILDE: omisión, adición o colocación errónea.  TILDE-Ñ: incluye omisión del diacrítico tilde de la letra <ñ> y la diéresis de <ü>.  DIGIT: errores de digitación ya que la palabra no presenta dificultad ortográfica (corresponde a la categoría de "errores de actuación" o descuidos según la tipología de Pujol Llop (2005:40, ver sección 3.1 supra).  MORF: errores morfológicos como segmentación errónea, problemas de concordancia, etc.  NPROP: nombres propios escritos de manera errónea o extraña.  OTROS: fenómenos varios (anglicismos, costarriqueñismos, textismos4, etc.) Solamente los tres primeros códigos son relevantes para el COCAE; sin embargo, los demás serán útiles para diagnosticar múltiples tipos de problemas ortográficos. Aunque, como se explicó, no se codificaron errores de mayúsculas ni puntuación, estos fenómenos parecieron ser a simple vista mucho más problemáticos que los propios errores ortográficos, por lo que valdría la pena codificarlos en el futuro y sistematizarlos; lo mismo con respecto a la morfología y la gramática. Se codificaron algunos errores morfológicos pero no detalladamente, por lo cual para analizar esos datos sería conveniente revisar la codificación para hacerla exhaustiva. A manera de ejemplo, en el siguiente cuadro se muestra el reporte, ya tabulado, que devuelve la función "Query" de Atlas .ti al solicitársele las citas (quotations) del código TILDE-Ñ: 4 Con textismos se hace referencia a fenómenos como abreviaturas no tradicionales, simplificación o sustitución de palabras por letras o números, etc. que utilizan sobre todo los jóvenes en comunicaciones como mensajes de texto, chats, etc. V. Crystal 2008a, 2008b y Durkin et al. 2011, entre otras investigaciones recientes en este campo. 14 Output generated by: ATLAS.ti Query Tool HU: CORPUS CACOGRÁFICO BASE 44 quotation(s) found for Query: "TILDE-Ñ" ---------------------------------------- ID code líneas cacografía ortografía ID com 1:6 (13:13) anadir añadir 5 1:79 (173:173) verguenza vergüenza 44 1:88 (181:181) Dona doña 46 1:129 (278:278) verguenza vergüenza 74 1:183 (365:365) companias compañías 100 1:190 (371:371) verguenza vergüenza 102 1:205 (412:412) DONA doña 115 1:209 (418:418) SINVERGUENZADAS sinvergüenzadas 116 1:244 (485:485) Dona doña 137 1:272 (572:572) VERGUENZA vergüenza 157 1:315 (644:644) verguenza vergüenza 175 1:374 (768:768) verguenza vergüenza 204 1:398 (818:818) senores señores 217 1:401 (818:818) Senora señora 217 1:492 (967:967) senora señora 255 1:585 (1084:1084) VERGUENZA vergüenza 289 1:642 (1169:1169) verguenza vergüenza 307 1:653 (1186:1186) VERGUENZA vergüenza 311 1:676 (1211:1211) verguensa vergüenza 316 1:688 (1226:1226) Verguenza vergüenza 321 1:693 (1227:1227) pequenas pequeñas 321 1:727 (1344:1344) GUELL Güell 346 1:759 (1408:1408) verguenza vergüenza 365 1:761 (1412:1412) verguenza vergüenza 366 1:773 (1451:1451) sinverguenzas sinvergüenzas 375 1:792 (1470:1470) Senora señora 378 1:804 (1486:1486) verguenza vergüenza 381 1:905 (1664:1664) verguenza vergüenza 427 1:945 (1750:1750) verguenza vergüenza 450 1:962 (1811:1811) SENORA señora 463 1:971 (1830:1830) senora señora 468 1:981 (1843:1843) verguenza vergüenza 471 1:1072 (1983:1983) VERGUENSA vergüenza 513 1:1078 (1987:1987) verguenza vergüenza 514 1:1103 (2052:2052) VERGUENZA vergüenza 533 1:1128 (2088:2088) verguenza vergüenza 541 1:1164 (2153:2153) verguensa vergüenza 558 1:1172 (2164:2164) VERGUENZA vergüenza 561 1:1226 (2233:2233) compania compañía 572 1:1306 (2362:2362) verguensa vergüenza 601 1:1315 (2387:2387) senora señora 607 1:1364 (2479:2479) verguenza vergüenza 631 1:1414 (2528:2528) verguensa vergüenza 643 1:1467 (2579:2579) sinverguenzas sinvergüenzas 655 15 La primera columna (ID code) indica el número de identificación en la secuencia de la codificación; por ejemplo, 1:6 indica que esa palabra fue la sexta cita creada en el proceso. La segunda columna indica las líneas del documento en que aparece la cita; como en nuestro caso las citas constan de una sola palabra, la línea de inicio y término es la misma. En la tercera columna se reproduce el texto de la cita, en nuestro caso el vocablo cacográfico. A estos datos generados por el reporte, en la tabulación he añadido dos columnas: en la cuarta se indica la forma ortográfica y en la quinta el número de identificación del comentario. Este último dato es importante para establecer cuántos comentaristas cometieron el error. Así por ejemplo en el caso de los errores diacríticos de omisión de tilde en <ñ> y de diéresis en <ü>, se codificaron 44 errores, que corresponden casi siempre a comentaristas distintos, excepto en dos casos, 217 y 321; el primero escribió dos veces por <ñ> y el segundo cometió los dos errores. Esto significa que del total de comentaristas (655), solamente 42, es decir 6,4%, cometió este tipo de errores diacríticos. Esta explicación pretende ilustrar la manera en que se organizaron los datos, tomando en cuenta no solamente el número y el tipo de errores, sino también cuántas personas lo cometieron. En este sentido es importante destacar varios factores que deben ser tomados en consideración: 1. Longitud de los comentarios: Es importante señalar que una medición precisa de la incidencia de cacografías debería correlacionar la longitud de los comentarios con el número de errores. En el caso del corpus textual compilado, esta no era una variable controlada y queda fuera del alcance de la investigación establecer correlaciones al respecto. Sin embargo, era necesario organizar los datos tomando en cuenta que los comentarios recopilados oscilan entre una y 267 palabras de longitud, y era esperable que a una mayor extensión, se diera una mayor cantidad de errores ortográficos. Para ver si esto era así, se procedió a agruparlos en seis rangos, utilizando como criterio para la división que hubiera un aumento en la diferencia porcentual de errores mayor a 10% entre cada grupo. La Tabla 5 muestra el rango de longitud de los comentarios en palabras, el total de comentarios en cada grupo, el número de los que tienen 0 errores y su porcentaje, el número de los que tiene errores y su porcentaje, el total de errores por grupo, desglosados según su tipo: error de acentuación (indicado en adelante como tilde), error concerniente a los diacríticos tilde de <ñ> y diéresis de <ü> (indicado en adelante como diacr) y error propiamente grafemático (indicado como graf). Finalmente se indica el número máximo de errores que se presentó en un mismo comentario en cada grupo. 16 Tabla 5. Agrupación de comentarios por longitud, número de errores y tipos de error 5 Grupo Longitud en palabras Total coms. Sin errores % Con errores % Errores Total: tilde diacr graf Máx. no. errs 1 1-5 80 70 87,5 10 12,5 13 8 2 3 2 2 6-10 85 61 72 24 28 37 31 1 5 3 3 11-29 226 102 45 124 55 246 197 10 39 8 4 30-45 100 35 35 65 65 167 144 7 16 8 5 46-99 126 24 19 102 81 477 389 22 66 14 6 101-267 38 3 8 35 92 221 205 2 14 16 TOTAL 22.502 655 295 45 360 55 1161 974 44 143 2. Número de errores por comentario: Como se observa en la Tabla 4, de los 655 comentarios recopilados el 55% presenta algún error ortográfico; sin embargo, este porcentaje varía sensiblemente si se considera el tipo de error; así, mientras que 335 personas (51%) cometieron al menos un error de acentuación, solo 96 personas (14%) cometieron al menos un error grafemático. En la Tabla 5 se relaciona el número de errores, de 0 a 16 (el máximo), que se encontró en un mismo comentario y el número de comentarios en que aparece cada cantidad. Se observa que un 45% de los comentarios no presentó ningún error; pero del 55% que presentó al menos un error, el 28% presenta de 1 a 3 faltas; 13% de 4 a 8 y un 14% cometió de 9 a 16 faltas en su comentario. Tabla 6. Número de errores por comentario Máximo no. de errores en un mismo comentario No. de comentarios % en relación con el total Rango de longitud de los comentarios en palabras 0 295 45 1-156 1 125 19 1-267 2 79 12 3-162 3 45 7 10-97 4 33 5 13-140 5 17 2.6 23-135 6 14 2.2 28-106 7 11 1.7 27-155 8 10 1.5 12-157 9 8 1.2 57-166 10 5 0.7 57-111 11 4 0.6 75-172 12 4 0.6 60-110 13 1 0.2 80 14 3 0.5 87-210 16 1 0.2 123 TOTAL 655 100 5 En el ANEXO 3 "Lista de comentarios por número de palabras, número de errores y tipo de error" se presenta un desglose más detallado de estos datos. 17 3. Frecuencia y combinación de los distintos tipos de error en el mismo comentario. Es claro que la inmensa mayoría de los errores son de acentuación y que cerca de la mitad de los comentaristas no cometieron faltas de ortografía; sin embargo puede resultar de interés determinar cuántas personas solamente cometieron errores de acento y en cuántas se da todo tipo de errores. En la Tabla 7 se presenta esa información y además se clasifican los tipos de error y sus combinaciones en siete categorías, según se dé un solo tipo de error (T = tilde, D = omisión del diacrítico de <ñ> o <ü>, G = grafemático), o una combinación de ellos: Tabla 7. DISTRIBUCIÓN DE ERRORES POR TIPOS: T - D - G y combinaciones TIPO DESCRIPCIÓN No. coms No. errores/No. coms Rango en pals. T Solo errores de tilde 235 1/101 2/64 3/23 4/16 5/9 6/9 7/3 8/2 9/2 10/2 11/1 12/3 2-267 5-137 10-97 19-140 23-115 29-106 32-155 89-101 58-166 96-111 109 60-110 T/G Errores de tilde y grafemáticos 63 2/9 3/15 4/10 5/6 6/3 7/7 8/1 9/4 10/1 11/2 12/1 14/3 16/1 16-162 10-95 14-54 28-135 28-49 27-127 54 95-112 63 75-172 71 87-210 123 T/D Errores de tilde y otros diacríticos 24 2/5 3/7 4/4 5/2 6/1 7/1 8/2 9/1 11/1 3-24 29-61 60-95 48 79 43 65-69 113 97 T/D/G Los tres tipos de errores 13 4/3 6/1 8/5 9/1 10/2 13/1 13-94 50 12-157 57 57-58 80 G Solo errores grafemáticos 19 1/18 2/1 1-81 44 D Solo errores diacríticos 5 1/5 13-46 D/G Errores diacríticos y grafemáticos 1 2/1 82 TOTAL 360 18 4. Decisiones idiosincrásicas: omisión general y consistente de la tilde; uso de mayúsculas. Se desprende de la Tabla 7 que de los comentarios con errores casi todos (excepto por los 19 que solo tuvieron errores grafemáticos) tuvieron errores de tilde (336) o de algún otro diacrítico (5). Durante la codificación del corpus se notó que algunos comentarios carecían totalmente de tildes. Esto puede deberse a una tendencia a no tildar las palabras en general o a no tildar cuando se escribe por medios digitales (en particular teléfonos celulares). Además se observó que varios comentaristas escribieron sus textos exclusivamente en letras mayúsculas. Otros hicieron un uso selectivo de ellas (uso expresivo o enfático, solamente en una palabra, frase o consigna) y unos pocos hicieron un uso selectivo pero de la minúscula: el texto se encuentra en mayúsculas excepto por alguna palabra, frase o consigna. Cabe preguntarse si el uso de mayúsculas se relaciona con la incidencia de errores de tilde (y de los otros diacríticos), ya que muchas personas, sea por desconocimiento de la normativa o por decisión personal, no tildan las mayúsculas. Para observar este comportamiento en el CB se procedió a identificar los textos que aparecen escritos exclusivamente en mayúscula. Resultaron 46 comentarios a los que se agregaron 4 que hicieron uso selectivo de la minúscula. Los 605 comentarios restantes, en minúscula, se inspeccionaron y se asignaron a alguna de las categorías que se describen abajo. Los que no correspondían a ninguna de ellas fueron eliminados, resultando un conjunto de 240 textos para el análisis del uso de tildes y diacríticos en relación con la (posible) intención del escribiente. El análisis del conjunto de 50 comentarios escritos en mayúsculas se hizo por aparte y se presenta más adelante. En primer lugar se dividieron los textos en dos grandes grupos: aquellos que no contienen ninguna tilde y aquellos que contienen al menos una palabra tildada. El primer grupo se clasificó en tres categorías y el segundo en dos. Las categorías son las siguientes:  ?: textos cortos con un error de tilde y en los que al no haber más palabras que la requieran no se puede determinar si el error se dio por desconocimiento, descuido o intención.  ?N: textos cortos que no contienen tildes y en los que hay dos palabras que la requieren. Podría existir la intención de no tildar pero los datos son insuficientes.  NN: textos que no contienen tildes y en donde hay al menos tres palabras que la requieren. Estos comentaristas por una u otra razón decidieron no tildar.  MM: textos en los cuales el número de palabras no tildadas es igual o mayor al de palabras tildadas. No se podría determinar si la causa es desconocimiento, descuido o intención. 19  M: textos cortos con 1 o 2 errores de tilde y donde aparecen otras palabras correcta o incorrectamente tildadas, lo que muestra que el escribiente no tiene la intención de no tildar, sino que no sabe hacerlo o no siempre sabe hacerlo. Los textos largos con pocos errores de tilde y muchas otras palabras correctamente tildadas fueron eliminados del conteo, pues al parecer se dan por error o descuido. Los datos que se obtuvieron del conjunto de 240 textos en minúscula se presentan en la Tabla 8: Tabla 8. NÚMERO DE COMENTARIOS SIN TILDES EN CB Categoría No. de coms. Rango en palabras Sin tildes 6 (164) ? 52 3-44 ?N 37 7-60 NN 75 10-23 Con tildes (76) MM 27 27-172 M 49 11-65 TOTAL 240 A estos números ahora agregamos los relativos al conjunto de 50 comentarios escritos en mayúscula: Tabla 9. NÚMERO DE COMENTARIOS EN MAYÚSCULA Categoría Con errores Sin errores Sin tildes 7 (29) ? 12 10 ?N 9 NN 8 Con tildes (9) MM 6 2 M 3 TOTAL 38 12 Asumiendo, como se ha hecho en la construcción del COCAE, que cada comentario fue escrito por una persona distinta, se concluye que de los 665 comentaristas, 278, esto es, el 42% no tilda correctamente las palabras, ya sea porque no quiere hacerlo o porque no sabe tildar. Con certeza, 83 comentarios (12,5%) no contienen ninguna tilde (ni diéresis), lo que podría indicar que estas personas han decidido no tildar las palabras; con respecto al restante 29,5% la cuestión es indeterminada. 6 En cuanto a los otros diacríticos, como se verá detalladamente en la sección correspondiente del COCAE LÉXICO- DIACRÍTICO, la <ü> solo aparece correctamente escrita una vez en el CB; pero con respecto a la <ñ>, resulta de interés el siguiente dato: en la categoría NN, 31 personas la escribieron como <ñ> y solo 7 como , lo que parece asegurarle al grafema tildado su buena salud aun entre los escribientes antidiacríticos. 7 La situación de los diacríticos es muy similar a la descrita en la nota anterior. 20 4.3 Etapa de verificación del CR Con el corpus textual de ca. 27.500 palabras recolectado de medios de comunicación en línea, se trabajó utilizando una herramienta diseñada por el bachiller en informática Julián Astorga Campos, asistente del proyecto. Cada uno de los segmentos del CR, correspondientes a los cuatro medios (CRH, LAN, CAR, INF, ver sección 4.1), se introdujo por separado en la herramienta, un verificador ortográfico que coteja el input textual con el Diccionario de la Real Academia Española (2001) y extrae todas aquellas palabras que no aparecen registradas. De esta manera se obtuvieron cuatro subcorpus léxicos que posteriormente fueron codificados manualmente de acuerdo con los siguientes códigos:  DIACRÍTICO: omisión, adición o colocación errónea; omisión del diacrítico tilde de <ñ>; omisión del diacrítico diéresis de <ü>.  GRAFEMÁTICO: error propiamente grafemático.  DIGIT: errores de digitación ya que la palabra no presenta dificultad ortográfica.  NPROP: nombres propios.  MORF: formas polimorfemáticas como verbos con pronombre enclítico, sustantivos con diminutivo y toda otra forma ortográfica que por no ser de cita no aparece en el diccionario.  OTROS: fenómenos varios. Como puede verse, básicamente se utilizaron los mismos códigos que en la codificación manual del CB (ver sección 4.2), con la modificación de que los códigos TILDE y TILDE-Ñ se subsumieron en uno solo denominado DIACRÍTICO. Para la construcción del COCAE se tomaron en cuenta solamente los dos primeros códigos; los restantes pueden ser muy útiles para el estudio de otros fenómenos, como el textismo. 8 En la Tabla 10 se indica el número de formas cacográficas que se obtuvo a partir de la verificación. Los datos se refieren a las distintas formas de palabra y no a su frecuencia: Tabla 10. FORMAS CACOGRÁFICAS EN CB Y CR OBTENIDAS DEL VERIFICADOR Tipo de error → DIACRÍTICO GRAFEMÁTICO TOTAL No. palabras del corpus CORPUS BASE 236 84 320 22502 CORPUS DE REFERENCIA CRH 114 31 145 8895 LAN 80 19 99 5022 CAR 74 9 83 8248 INF 102 8 110 5406 50073 8 Ver nota 4. 21 Es importante destacar que con el verificador se obtuvo un vocabulario cacográfico reducido, ya que se eliminaron los nombres propios y las formas que son cacográficas en el contexto del corpus pero aparecen en el diccionario porque corresponden a otros lexemas, por ejemplo publico (por publicó), ya que el diccionario la registra como una forma ortográfica del verbo publicar (yo publico.) Los vocabularios correspondientes al CB y a los cuatro componentes del CR se unificaron para eliminar las redundancias y se creó una única lista de palabras para determinar la frecuencia de cada tipo en el corpus textual completo. Esta tarea se realizó por medio del programa de análisis de concordancias AntConc, que puede devolver la frecuencia de cada forma de palabra en un corpus a partir de una lista específica de palabras. Los resultados se muestran en la Tabla 11: Tabla 11. NO. DE FORMAS DEL COCAE QUE NO APARECEN EN EL DRAE Tipos 9 % Muestras % Palabras con error diacrítico 445 75 1062 86 Palabras con error grafemático 145 25 175 14 Totales 590 100 1237 100 Pareciera que, en relación con el CB, el CR aportó pocos errores tanto diacríticos como grafemáticos. Esto se debe a que mientras el CB fue codificado minuciosamente y se desambiguaron todas las formas, el vocabulario cacográfico del CR se construyó con base en el verificador, por lo que no se tomaron en cuenta las formas que más frecuentemente presentan error diacrítico, como es el caso del adverbio más y el pronombre interrogativo/exclamativo qué, dos palabras que, como se verá en el análisis del COCAE DIACRÍTICO, en conjunto son responsables del 17,5% de todos los errores de acentuación en el CB. La aplicación del verificador ortográfico tenía como finalidad indagar, en un corpus textual más amplio y diverso, si se mantenían las tendencias observadas en el CB. La tendencia general se mantiene; sin embargo puede observarse que en los subcorpus de los medios más tradicionalmente relacionados con el registro escrito (periódicos) parece haber menos errores, y en los blogs, que se producen en condiciones temporales más relajadas, también parecen disminuir. Por supuesto sería necesario considerar también la composición demográfica de los usuarios de esos medios y productores de los textos. La Tabla 12 ilustra estas observaciones: 9 Ver nota 3. 22 Tabla 11. INCIDENCIA DE ERRORES SEGÚN EL MEDIO Tipo de error → DIACRÍTICO GRAFEMÁTICO TOTAL No. palabras del corpus PERIÓDICOS CRH 114 31 145 8895 LAN 80 19 99 5022 194 50 244 13917 BLOGS CAR 74 9 83 8248 INF 102 8 110 5406 176 17 193 13654 TOTAL 370 67 437 CORPUS BASE (reacciones a telediario) 236 84 320 22502 4.4 Etapa de construcción y análisis del COCAE Una vez que se contó con el vocabulario cacográfico del CB codificado en detalle y el que se extrajo del CR por medio de verificador ortográfico, se procedió a la etapa de construcción y análisis del COCAE. El trabajo realizado en esta última etapa se presenta en los siguientes anexos: ANEXO 1. "COCAE 1 - DIACRÍTICO" ANEXO 2. "COCAE 2 - GRAFEMÁTICO". REFERENCIAS Alvar Ezquerra, Manuel. 2004. "La frecuencia léxica y su utilidad en la enseñanza del español como lengua extranjera". ASELE, Actas XV. Disponible en: http://cvc.cervantes.es/ensenanza/ biblioteca_ele/asele/pdf/15/15_0017.pdf. Consultado: 25/06/2013. Battaner, Paz. 2005. "Proyecto y desarrollo del Corpus PAAU 1992 (Corpus 92)" En: Torner, Sergi y Paz Battaner (eds.). 2005, 13-18. Crystal, David. 2008a. "Texting". ELT Journal 62:77-83. Crystal, David. 2008b. Txtng: The Gr8 Db8. Oxford: Oxford University Press. Durkin, K., G. Conti-Ramsden and A. J.Walker. 2011. "Txt lang: Texting, textism use and literacy abilities in adolescents with and without specific language impairment. Journal of Computer Assisted Learning 27:49-57. 23 Jara Murillo, Carla Victoria. 2011. CODIMEP-CR: Corpus Digital de Mensajes Presidenciales de Costa Rica. En: https://sites.google.com/site/mensajepresidencialcr/. Jara Murillo, Carla Victoria. 2010."Léxico del discurso presidencial costarricense: Algunos ejemplos de aplicación de la lexicometría y el análisis de concordancias". Káñina. Revista de Artes y Letras de la Universidad de Costa Rica (34). Número especial de 2010, 87-93. Luelsdorff, Phillip. 1991. Developmental Orthography. Amsterdam: John Benjamins. Murillo Rojas, Marielos. 2003. Estudio sobre el lenguaje de los escolares costarricenses: el léxico básico. La ortografía y sus características. Tesis doctoral, Universidad de Extremadura. Murillo Rojas, Marielos. 2006. "Vocabulario cacográfico. Pautas para la enseñanza de la ortografía en la escuela primaria costarricense". Káñina, Revista de Artes y Letras de la Universidad de Costa Rica. 30(1):59-70. Pujol Llop, Mario. 1999. Análisis de errores grafemáticos en textos libres de estudiantes de enseñanzas medias. Tesis doctoral, Departament de Didàctica de la Llengua i la Literatura, Universitat de Barcelona. Disponible en: http://www.tdx.cesca.es/TESIS_UB/AVAILABLE/TDX-0906104- 115216//TESIS_COMPLETA.pdf. Consultado: 03/09/12. Pujol Llop, Mario. 2005. "La ortografía". En: Torner, Sergi y María Paz Battaner (eds.). 2005, 29-65. Real Academia Española. 2001. Diccionario de la Real Academia Español. 22ª ed. En línea: http://www.rae.es. Rojo, Guillermo. 2008. "Lingüística de corpus y lingüística del español." Ponencia plenaria en el XV Congreso de la ALFAL (Montevideo, 18-21 de agosto de 2008). Recuperado de: http://gramatica.usc.es/~grojo/Publicaciones/Lgca_corpus_lgca_espanol.pdf. Consultado: 26/06/2013. Sánchez Avendaño, Carlos. 2008. "La enseñanza de la ortografía en Costa Rica: de las reglas fonodependientes a las reglas rentables y al planteamiento grafológico". Educación, Revista de la Universidad de Costa Rica 32(2): 97-114. Recuperado de http://www.redalyc.org/articulo.oa?id =44032208. Consultado: 02/11/12. Sánchez Avendaño, Carlos. 2005. "Los problemas de redacción de los estudiantes costarricenses: Una propuesta de revisión desde la lingüística del texto." Revista de Filología y Lingüística 31(1), 267-295. Sánchez Avendaño, Carlos. 2004. "La puntuación y las unidades textuales: Una perspectiva discursiva para el estudio de los problemas de su uso y para su enseñanza". Educación, Revista de la Universidad de Costa Rica 28(2), 233-254. Torner, Sergi y Paz Battaner (eds.). 2005. El corpus PAAU 1992: estudios descriptivos, textos y vocabularios. Barcelona: Universitat Pompeu Fabra. 1 ANEXO 1 COCAE 1 - DIACRÍTICO 1. ASPECTOS PRELIMINARES El COCAE consta de cuatro compontes de acuerdo con las distinciones propuestas entre errores diacríticos y grafemáticos, por una parte, y entre vocabulario funcional y vocabulario léxico, por otra. El COCAE 1 DIACRÍTICO se extrajo del Corpus Base (CB); el COCAE 2 GRAFEMÁTICO (Anexo 2) incluye el CB y el Corpus de Referencia (CR). El CB consta de 22.502 palabras. VOCABULARIO FUNCIONAL El vocabulario funcional comprende las clases de determinantes, pronombres, preposiciones y conjunciones. Además, se incluyen todas las formas de los verbos ser, estar y haber, y un conjunto de adverbios de alta frecuencia. La lista de vocabulario funcional considerada en el análisis comprende las siguientes 242 palabras: 1. Pronombres, determinantes, contracciones Pronombres personales y posesivos: yo, usted, él, ella, ello, nosotros, vosotros, ustedes, ellas, ellos, me, nos, os, lo, le, les, se, mi, mí, mío, mía, míos, mías, mis, nuestro, nuestra, nuestros, nuestras, vuestro, vuestra, vuestros, vuestras, su, sus. Artículos: el, la, lo, las, los, un, una, unos, unas. Pronombres y adjetivos determinativos: esto, este, esta, estos, estas, eso, ese, esa, esos, esas, aquello, aquel, aquella, aquellos, aquellas, que, qué, cual, cuál, cuales, cuáles, quien, quién, quienes, quiénes, cuyo, cuya, cuyos, cuyas, algo, alguien, alguno, ninguno, ninguna, nada, nadie, varios, cualquier, cualquiera, quienquiera, cada, tal, tales, mismo, misma, algún, alguna, algunos, algunas, poca, pocos, pocas, mucha, muchos, muchas, todo, toda, todos, todas, otro, otra, otros, otras, demás, uno, dos, tres, cuatro, cinco, seis, siete, ocho, nueve, diez, mil, demasiados, demasiadas, demasiada. Contracciones: al, del. 2. Preposiciones, conjunciones y adverbios de alta frecuencia Preposiciones: a, ante, bajo, cabe, con, contra, de, desde, en, entre, hacia, hasta, para, por, según, sin, so, sobre, tras. Conjunciones y adverbios: e, mas, mediante, ni, o, ora, pero, porque, pues, puesto si, sino, u, y, ya, además, aun, aún, conque, durante, luego, aunque, entonces, mientras, obstante, (sin) embargo, frente, más, no, así, también, hoy, muy, casi, ahora, antes, menos, dentro, siempre, nunca, jamás, solo, aquí, ahí, acá, después, adelante, atrás, detrás, sí, cuándo, cómo, dónde, adónde, tan, tanto, mucho, poco, demasiado, bastante, como, cuando, donde, cuanto, cuánto, quizás, todavía. 3. Formas de los verbos ser, estar y haber: era, eran, es, sea, sean, ser, son, fue, fueron, fuera, sido, será, sería, está, están, estar, esté, estén, estamos, he, hemos, ha, han, hay, haber, había, haya, habría, hubo, habían. 2 CÓDIGO TILDE Los datos recuperados del código TILDE en el CB se ordenaron primero por frecuencia y luego alfabéticamente. De acuerdo con este listado, las cacografías por tilde aparecen en un total 349 formas de palabra (cacográficas) que se agruparon en 262 lexemas. Los errores de acentuación ortográfica son en total 974, de los cuales 489 (50%) corresponden a errores en el vocabulario funcional y 485 se dan en el vocabulario léxico (50%). El vocabulario cacográfico funcional comprende 62 formas de palabra distribuidas en 44 lexemas, mientras que el vocabulario cacográfico léxico comprende 287 formas de palabra correspondientes a 218 lexemas. Estos datos se muestran en la siguiente tabla: Tabla 1 - CÓDIGO TILDE: organización por lexema e incidencia La Tabla 2 muestra la distribución de los errores de acentuación por comentarista; en el CB, de los 655 comentaristas, 320 (49%) no cometieron ningún error de acentuación ortográfica; 246 (37,5%) cometieron de 1 a 3 errores y 89 (13,5%) cometieron de 4 a 15 errores: Tabla 2 - Errores de acentuación por comentarista Cantidad de errores Comentaristas % Coms. Total errores 0 320 49 0 1 119 18 119 2 89 13 178 3 38 5,4 114 4 25 4 100 5 18 3 90 6 18 3 108 7 6 1 42 8 7 1 56 9 3 0,5 27 10 3 0,5 30 11 3 0,5 33 12 3 0,5 36 13 2 0,4 26 15 1 0,2 15 TOTALES 655 100% 974 ERRORES % FORMAS % LEXEMAS % VOC FUNCIONAL 489 50 62 18 44 17 VOC LÉXICO 485 50 287 82 218 83 TOTALES 974 100 349 100 262 100 Total de comentaristas: 655. No. de comentaristas que tuvieron al menos un error: 335 (51%). Total de errores: 974. 3 2. COCAE 1. 1 DIACRÍTICO-FUNCIONAL 10 2.1 CORPUS 1. Pronombres y determinantes (135 errores en 119 comentaristas) cat LEXEMA formas ortográficas formas cacográficas coms no. errs no. formas correctas PRO QUÉ qué (exc (40 err), int, int ind) que 73 83 13 PRO QUIÉN quién (int, int ind, exc) quiénes (int, int ind) quien quienes 16 16 2 DET ESTE este esta estas estos ésta éste estás èstos 7 9 este (127) esta (87) estas (12) estos (19) PRO ÉL él el 4 4 1 PRO MÍ mí mi 3 3 1 PRO CUÁL cuál (int, int ind) cual 4 4 2 PRO QUIEN quien (rel) quién 2 3 31 DET CUÁNTO cuánta cuántos (int) cuanta cuantos 3 3 - DET ALGÚN algún algun 2 2 3 PRO MÍO mío mio 2 2 - PRO ESO eso èso 1 2 39 DET NINGÚN ningún ningun 2 2 2 PRO SE se sé 1 1 272 PRO TÚ tú tu 1 1 - 14 19 119 135 611 2. Adverbios de alta frecuencia, preposiciones y conjunciones (231 errores en 206 comentaristas) cat LEXEMA formas ortográficas formas cacográficas coms no. errs no. corr ADV MÁS más mas 74 88 62 ADV SÍ sí si 25 29 3 ADV ASÍ así asi haci 26 27 29 ADV CÓMO cómo (exc) (int) (int ind) como 13 13 6 ADV DÓNDE dónde (int) (int ind) donde 9 10 - ADV AÚN aún aun 7 7 3 ADV TAMBIÉN también tambien 7 7 5 ADV AHÍ ahí ahi 6 6 2 ADV AQUÍ aquí aqui 4 6 4 ADV COMO como (rel) cómo còmo 3 6 164 ADV ADEMÁS además ademas 5 5 1 ADV DETRÁS detrás detras 4 4 5 ADV JAMÁS jamás jamas 3 3 1 ADV POR QUÉ por qué porque 3 3 1 10 El código TILDE-Ñ (errores de <ñ> y<ü>) no tiene instancias en el vocabulario funcional. 4 ADV CUÁNTO cuánto cuanto 3 3 - ADV DESPUÉS después despues 2 2 4 ADV ATRÁS atrás atras 2 2 4 ADV ACÁ acá ACA 1 1 1 ADV ADÓNDE adónde (int) adonde 1 1 1 ADV CUÁNDO cuándo (int) cuando 1 1 30 ADV DONDE donde dónde 1 1 27 ADV MUCHO muchísimo muchisimo 1 1 1 ADV QUIZÁS quizás quisas 1 1 - ADV TODAVÍA todavía todavia 1 1 3 CONJ O o ó 1 1 53 CONJ SEGÚN según segun 1 1 4 PREP ENTRE entre entré 1 1 3 27 29 206 231 417 3. Formas de los verbos ser, estar y haber (123 errores en 108 comentaristas) cat LEXEMA formas ortográficas formas cacográficas coms no. errs no. corr V ESTAR está están estás esté estábamos estaría estén esta (76) estan (19) estas (4) este (3) estabamos (1) Estaria (1) esten (1) 65 16 4 2 1 1 1 TOTAL 105 está (35) están (21) estás (2) esté (-) estábamos (-) estaría (-) estén (-) V SER sería será éramos es fue seria (7) sera (6) eramos (1) és (1) fué (1) 7 6 1 1 1 TOTAL 16 sería (2) será (6) éramos (-) es (283) fue (17) V HABER habrá habría habra (1) habria (1) 1 1 TOTAL 2 habrá (2) habría (-) 3 14 108 123 368 CUADRO RESUMEN COCAE DIACRÍTICO-FUNCIONAL Categorías NO. de LEXEMAS no. formas cacográficas no. errores no. formas correctas PRONS, DETS 14 19 135 611 ADVS, CONJS, PREP 27 29 231 417 VERBOS 3 14 123 368 TOTALES 44 62 489 1396 El error más frecuente fue la omisión de tilde del adverbio más, con una incidencia de 88 errores cometidos por 74 comentaristas distintos (11.3% del total). Un total de 62 formas de palabra distintas, correspondientes a 44 lexemas, dieron cuenta de 489 errores de acentuación ortográfica del total de 974 5 errores, es decir, el 50% del total de errores de acentuación ortográfica. El restante 50% de los errores de tilde corresponden al vocabulario léxico. Es de notar que de las 1885 instancias de las formas del vocabulario funcional consideradas aquí (1396 ortográficas y 489 cacográficas), el 76% de las veces fueron escritas correctamente. Por otra parte, de las 728 formas que debieron estar tildadas, solo el 36% (262 casos) en efecto se tildó, mientras que en el 64% (466 casos) se omitió la tilde. Los 262 casos correctos resultan de restar a las 1396 formas correctas las 1134 instancias de palabras que no se tildan como el determinante este y sus formas, el pronombre se, el adverbio como, los verbos es y fue, etc. 2.2 CLASIFICACIÓN DE LOS ERRORES. Total: 489 EXCESO DE ACENTO (23 errores): 1. Pronombres y determinantes: ésta éste estás èstos (9), quién (rel, 3), èso (2), sé (1) 2. Advs., preps., conjs: cómo còmo (rels, 6), dónde (rel, 1), ó (1), entré (por entre, 1) 3.Verbos: és (1), fué (1) OMISIÓN DE ACENTO (466 errores): Exclamativos e interrogativos (directos e indirectos) (137 errores): que (83), quien quienes (16), como (13), donde (10), cual (4), cuanta cuantos (3), cuanto (3), porque (por por qué, 3), adonde (1), cuando (1) Monosílabos (132 errores): mas (88), si (29), aun (7), el (4), mi (3), tu (1) Verbos estar, ser y haber (121 errores): Estar: esta (76), estan (19), estas (4), este (3), estabamos (1), estaria (1), esten (1) Ser: seria (7), sera (6), eramos (1) Haber: habra (1), habria (1) Agudos (69 errores): asi (25) haci (2), tambien (7), ahi (6), aqui (6), ademas (5), detras (4), jamas (3), algun (2), atras (2), despues (2), ningun (2), aca (1), quisas (1), segun (1) Hiatos (3 errores):: mio (2) todavia (1) Esdrújulos (1 error): muchisimo (1) 6 3. COCAE 1.2 DIACRÍTICO-LÉXICO El vocabulario léxico comprende las clases de sustantivos, adjetivos, adverbios léxicos, verbos (menos ser, estar y haber). Se incluye la interjección ojalá, que apareció con relativa frecuencia en el corpus. Por tratarse de vocabulario léxico, la frecuencia de cada forma de palabra es muy baja: 147 formas de palabra son hápax, es decir que aparecen solo una vez en el corpus cacográfico (sin acentuación). La forma cacográfica de más alta frecuencia es el sustantivo país (54 errores), y la siguiente es la interjección ojalá (15 errores). A partir de aquí, la frecuencia de las formas cacográficas va de 10 a 2 instancias. Así, el sustantivo día aparece sin tilde 10 veces; el lexema POLÍTICO suma 15 instancias de error distribuidos en las formas politica (7 casos), politico (4 casos) y politicos (4 casos). De las formas verbales, las de mayor frecuencia son deberia (7 casos) y vote (por voté, 7 casos). Fuera de estas formas de mayor frecuencia, ninguna otra aparece en el corpus cacográfico con una frecuencia superior a 6 instancias. Estos datos se muestran en la siguiente tabla: Tabla 3 Formas frecuentes del vocabulario cacográfico diacrítico-léxico LEXEMA forma ortográfica forma cacográfica no. errores no. corr PAÍS país pais 54 72 OJALÁ ojalá ojala 15 6 DÍA día dia 10 24 POLÍTICO política politica 7 5 político politico 4 5 políticos politicos 4 18 DEBER debería deberia/deveria 7 8 VOTAR voté vote 7 1 6 8 8 108 139 En resumen, la distribución cuantitativa de los errores de acentuación en el vocabulario léxico se muestra en la siguiente tabla: Tabla 4. Distribución de errores de acentuación por formas y lexemas TILDE/VOC LÉXICO ERRORES % FORMAS % LEXEMAS % Frec. del error: 7-54 108 22,3 8 3 6 3 Frec. del error: 2-6 230 47,4 132 46 65 30 Hápax (frec. 1) 147 30,3 147 51 147 67 TOTALES 485 100 287 100 218 100 7 3.1 CORPUS 1. Adverbios e interjección (19 errores – 6 formas ortográfícas) CAT LEXEMA f. ortográfica f. cacográfica no. errores no. corr INTERJ-AG-V OJALÁ ojalá ojala 15 6 ADV-HIR FRÍAMENTE fríamente friamente 1 - ADV-ESDRR PACÍFICAMENTE pacíficamente pacificamente 1 - ADV-ESDRR- PARADÓJICAMENTE paradójicamente Paradojicamente 1 - ADV-ESDRR PÚBLICAMENTE públicamente publicamente 1 - correctas: prácticamente ilícitamente sistemáticamente ùltimamente (sic) 2. Adjetivos (66 errores - 70 formas ortográficas) CAT LEXEMA f. ortográfica f. cacográfica no. errores no. corr A-ESDRR POLÍTICO política político políticos politica (7) politico (4) politicos (4) 15 32 A-ESDRR ÚNICO única único únicos unica unico unicos 6 8 A-ESDRR PÚBLICO pública públicas público publica publicas publico 5 8 A-ESDRR ÚLTIMO última últimas último ultima ultimas ultimo 5 2 A-ESDRR PRÓXIMO próxima próximas próximo próximos proxima PROXIMAS proximo proximos 4 3 A-ESDRR CRÍTICO crítica crítico critica critico 3 1 A-ESDRR ECONÓMICO económica económicas económico economica economicas economico 3 2 A-ESDRR DEMOCRÁTICO democrática democrático democratica DEMOCRATICO 2 4 A-ESDRR CÍVICO cívico civico 1 1 A-ESDRR CLARO clarísimas clarisimas 1 - A-ESDRR ENÉRGICO enérgico energico 1 - A-ESDRR ESTÚPIDO estúpida estupida 1 1 A-ESDRR FOLCLÓRICO folclórica Folclorica 1 - A-ESDRR INVÁLIDO inválido invalido 1 - A-ESDRR PACÍFICO pacífico pacifico 1 1 A-ESDRR PATRIÓTICO patriótica patriotica 1 - A-ESDRPL INÚTIL inútiles inutiles 1 - A-ESDRPL DIFÍCIL difíciles dificiles 1 1 sing A-AG-S DEMÁS demás demas 4 2 A-HI INCREÍBLE increíble increible 2 2 A-GR-R ESTÁNDAR estándar estandar 1 - A-SUPRL BUENO buenísimo buenisimo 1 - A-SUPRL CARO carísimo CARISIMO 1 - 8 A-SUPRL EXCELENTE excelentísimo excelentisimo 1 - A-SUPRL HERMOSO hermosísimo Hermosisimo 1 - A-SUPRL MALO malísimo malic imo 1 - A-SUPRL PÉSIMO pésimos pesimos 1 2 3. Sustantivos (212 errores – 248 formas ortográficas) CAT LEXEMA f. ortográfica f. cacográfica no. err no. corr S-A CONCESIÓN concesión concesiones concesion consecion concesiónes 10 concesión (19) concesiones (5) S-A CORRUPCIÓN corrupción corrupcion ACORRUPCION 6 corrupcion (23) S-A MONTÓN montón monton MONTO 5 1 S-A EXPRESIÓN expresión expresion 4 4 S-A INDIGNACIÓN indignación indignacion 4 - S-A OPCIÓN opción opcion 4 1 S-A CONSTITUCIÓN constitución constitucion CONTITUCION Costitucion 3 1 S-A OPINIÓN opinión opinion 3 4 S-A PERDÓN perdón perdon 3 - S-A ADMIRACIÓN admiración admiracion 2 2 S-A DECISIÓN decisión decision 2 1 S-A EDUCACIÓN educación educacion 2 5 S-A ELECCIÓN elección eleccion 2 2 S-A INTERÉS interés interes interese 2 1 S-A RAZÓN razón razon 2 14 S-A REVOLUCIÓN revolución revocion 2 1 S-A SITUACIÓN situación situacion 2 3 S-A ATENCIÓN atención atencon 1 1 S-A CALZÓN calzón calzon 1 - S-A CAPITÁN capitán capitan 1 - S-A CELEBRACIÓN celebración celebracion 1 1 S-A COMUNICACIÓN comunicación COMUNICACION 1 4 S-A CONCLUSIÓN conclusión conclusion 1 - S-A CONDICIÓN condición condicion 1 - S-A CONSTRUCCIÓN construcción construccion 1 - S-A CORAZÓN corazón corazon 1 - S-A DECEPCIÓN decepción decpecion 1 - S-A DESCRIPCIÓN descripción DESCRIPCION 1 - S-A DISCRIMINACIÓN discriminación discriminacion 1 - S-A FLEXIÓN flexión flexion 1 - S-A IMPUGNACIÓN impugnación impugnacion 1 - S-A LADRÓN ladrón ladron 1 - S-A LIBERACIÓN liberación liberacion 1 2 S-A MESÓN mesón meson 1 - S-A NEGOCIACIÓN negociación negociacion 1 1 S-A OPOSICIÓN oposición OPOSICION 1 - S-A PENSIÓN pensión pension 1 - 9 S-A PERFECCIÓN perfección PERFECCION 1 - S-A PRESENTACIÓN presentación presentacion 1 1 S-A PRESIÓN presión presion 1 2 S-A REGIÓN región REGION 1 - S-A REPULSIÓN repulsión repulsion 1 - S-A SALCHICHÓN salchichón salchichon 1 - S-A SOLUCIÓN solución solucion 1 1 S-A TELEVISIÓN televisión TELEVISION 1 1 S-A TESÓN tesón tezon 1 - S-A VIOLACIÓN violación violacion 1 - S-A VOCACIÓN vocación vocacion 1 - S-E REPÚBLICA república republica 2 2 S-E TÍTERE títere titere titeres 2 títere (1) títeres (1) S-E TRÁNSITO tránsito transito 2 - S-E ÁNIMO ánimos ANIMOS 1 - S-E ÁREA áreas areas 1 - S-E CLÁUSULA cláusulas clausulas 1 - S-E DÉCADA décadas decadas 1 2 S-E ÉTICA ética etica 1 2 S-E HÉROE héroes HEROES 1 1 S-E LÍMITE límite limite 1 - S-E LÍNEA línea linea 1 4 S-E LÓGICA lógica logica 1 1 S-E MÁQUINA máquinas maquinas 1 - S-E MÁSCARA máscara mascara 1 - S-E PÁGINA página PAGINA 1 - S-E PÓLVORA pólvora POLVORA 1 - S-E SÍNTOMA síntomas sintomas 1 - S-E TÍTULO título titulo 1 - S-E VÍCTIMA víctimas victimas 1 - S-exc PERIODISTA periodistas periódistas 1 10 S-G CARÁCTER carácter caracter 3 - S-G LÍDER líder lideres lider lideres 3 líderes (1) S-G CÁRCEL cárcel carcel 2 - S-G CÁNCER cáncer cancer 1 - S-G DÓLAR dólar dolar 1 - S-G REFERÉNDUM referéndum referendum 1 - S-H PAÍS país países pais (54) paises (4) 58 país (72) países (1) S-H DÍA día días dia (10) dias (2) 12 día (24) días (3) S-H MAYORÍA mayoría mayorías mayoria 5 3 S-H COMPAÑÍA compañía compañías compania companias 2 - S-H CONTRALORÍA contraloría Contraloria 2 2 S-H POLICÍA policía Policia policias 2 policía (5) policías (3) 10 S-H ALTANERÍA altanería altaneria 1 - S-H ANARQUÍA anarquía Anarquia 1 - S-H CIUDADANÍA ciudadanía ciudadania 1 - S-H OÍDO oídos oidos 1 4 S-H PARAÍSO paraíso PARAISO 1 2 S-H RAÍZ raíz raiz 1 1 S-H SOBERANÍA soberanía soberania 1 1 S-H VÍA vía via 1 1 4. Nombres propios (21 errores – 119 formas ortográficas) CAT LEXEMA f. ortográfica f. cacográfica no. errores no. corr NP JOSÉ José Jose 3 3 NP ÓSCAR Óscar Oscar 3 - NP RAMÓN Ramón Ramon 3 9 NP MOISÉS Moisés MOISES 2 - NP PANAMÁ Panamá Panama 2 - NP CISNEROS Cisneros Císneros 1 6 NP COLÓN Colón Colon 1 1 NP MÉNDEZ Méndez Mendez 1 - NP MÉXICO México Mexico 1 - NP PERÚ Perú Peru 1 2 NP PILAR Pilar Pílar 1 97 NP SANTAMARÍA Santamaría Santamaria 1 1 NP SOLÍS Solís Solis 1 - 5. Verbos (167 errores – 62 formas ortográficas) CAT LEXEMA f. ortográfica f. cacográfica no. errores no. corr VM DEBER debería deberían debió deveria deberia (7) DEBERIAN (2) debio (1) 10 debería (8) deberían (1) debió (1) VM PODER podían podría podrían podian podria podrian 4 podían (1) podría (5) podrían (2) V VOTAR votarán votaría voté (7) votó votaran Votaria vote 10 voté (1) V DAR dará (4)dé (4) dándole dara de dandole 9 dará (1) dé (1) dándole (1) V QUEDAR quedó quedará quedo quedara 8 quedó (1) V HACER hacía hacían haría harían haciéndose hacia hacian haria harian haciendose 6 hacía (1) V TENER tendrá tenés téngase tenía tendra tenes tengase tenia 6 tenés (1) tenía (1) V CREER creí creía creído crei creia creido 5 - V PASAR pasará pase pasó pasara pasé paso 5 pasará (1) pasó (1) V ACTUAR actúan actúe actúen actuan actue actué actuen 4 actúan (1) actúe (1) 11 V SABER sabía sé sabia se 4 sabía (1) sé (1) V CONTINUAR continúa continúe continua continué 3 - V ELEGIR eligió eligio 3 4 V ENTENDER entendió entiéndase entendio entiendase 3 - V FALTAR faltó falto 3 2 V OÍR oír oir 3 2 V DEJAR dejaría dejó dejaria DEJO 2 dejó (1) V DESPERTAR despertó desperto 2 - V EQUIVOCAR equivocó equivoqué EQUIVOCO EQUIVOQUE 2 - V ESCUCHAR escuchará escúchela escuchara ESCUCHELA 2 - V EXPRESAR expresándonos expresó expresandonos expreso 2 expresó (2) V HABLAR habló hablo 2 3 V LEER léanlo leyó leanlo leyo 2 - V PERDER perdió perdio 2 - V PERMITIR permitió permitirá permitio permitira 2 - V PRESENTAR presentó PRESENTO 2 - V TRAER traerán traía traeran traia 2 traía (1) V ABRIR abra habrá 1 5 V ACABAR acabó ACABO 1 - V APLICAR aplicó aplico 1 - V APORTAR aportó aporto 1 - V ASESORAR asesoró asesoro 1 - V BASTAR bastó basto 1 - V BENEFICIAR beneficiará beneficiara 1 - V BUSCAR buscarán buscaran 1 - V CAMBIARSE cámbiese cambiese 1 - V CONCEDER concedió concedio 1 - V CONOCER conózcalos CONOSCALOS 1 - V CORTAR cortándolo cortandolo 1 - V DECIR diré dire 1 - V DEMANDAR demandó demando 1 - V DENIGRAR denigrándonos denigrandonos 1 - V DICTAR dictó dicto 1 - V DUDAR dudé dude 1 - V EMPEZAR empezó empezo 1 - V EMPUJAR empujó empujo 1 - V ENFRENTAR enfrentaría ENFRENTARIA 1 - V ENTRAR entró entro 1 - V ERIZAR erizó erizo 1 - V EXISTIR existían existian 1 - V FALLECER falleció FALLECIO 1 - V FAVORECER favoreciéndose favoreciendo se 1 - V GANAR ganaría ganaria 1 - V GUIAR guíe guie 1 - V GUSTAR gustó gusto 1 1 12 V IDENTIFICAR identificará identificara 1 - V INVADIR invadían invadian 1 - V INVERTIR invertiríamos invertiriamos 1 - V LIBRAR líbrenos Librenos 1 - V LLEGAR llegó llego 1 1 V LLEVAR llevó llevo 1 2 V MANDAR mandó mando 1 - V MORIR moría moria 1 - V MOSTRAR mostró MOSTRO 1 1 V NACER nació nacio 1 1 V OCULTAR ocultándose ocultandose 1 - V OLVIDAR olvidó olvido 1 2 V PARECER pareció parecio 1 - V PARTICIPAR participar participàr 1 - V PELLIZCARSE pellízquense pellizquesen 1 - V PONER póngale pongale 1 - V PREDICAR predicó PREDICO 1 - V QUEMAR quemémosle quememole 1 - V QUERER querían querian 1 - V RECOGER recogerá recogera 1 - V REFERIR referís referis 1 - V REGIR regía REGIA 1 - V RESUMIR resumiría resumiria 1 - V SEGUIR seguirá seguiraira 1 1 V SENTAR sentó SENTO 1 - V SENTIR sentíamos sentiamos 1 - V SERVIR servís servis 1 - V SOLTAR soltándole soltandole 1 - V TRABAJAR trabajaría trabajaria 1 - V UNIRSE unámonos unamonos 1 1 VPAR POSEER poseída poceida 1 - Las formas de palabra cacográficas por omisión de tilde en el vocabulario léxico son 287; esas mismas formas de palabra aparecen correctamente tildadas en un total de 505 instancias, para un total de 792. Esto quiere decir que en un 64% de los casos tales formas fueron escritas correctamente. Las 505 instancias correctas incluyen: 6 instancias de la interjección ojalá, 70 formas de adjetivos, 249 formas de sustantivos, 119 formas de nombres propios y 62 formas de verbos. En el caso de los nombres propios cabe destacar que hubo un único error en el nombre propio Pilar, que apareció como Pílar, pero hubo 97 instancias de la forma sin tildar. Descontando estas formas correctas del NP Pilar, las formas ortográficas constituyen el 59% y las cacográficas el 41% de las formas de palabra consideradas. Por otra parte, en el corpus aparece un total de 908 palabras tildadas de las cuales 262 corresponden al vocabulario funcional correctamente tildado, 23 a excesos en el vocabulario funcional y 7 a excesos en el vocabulario léxico. Esto significa que hay en el corpus 616 palabras de vocabulario léxico tildadas correctamente, es decir, el 68% de las formas tildadas del corpus. 13 3.2 CLASIFICACIÓN DE LOS ERRORES. Total: 485 EXCESO Y COLOCACIÓN INCORRECTA DEL ACENTO (7 y 3 errores respectivamente): Sustantivos y nombres propios: Pílar, Císneros, periódistas (3 errores en el comentarista no. 66), concesiónes (comentarista 339) Verbos: Excesos: participàr (comentarista 406), habrá (por abra, comentarista 548), pasé (por pase, comentarista 310). Colocación incorrecta: actué (por actúe, comentarista 583), continué (por continúe, 2 errores en comentaristas 33 y 337). OMISIÓN DE ACENTO (473 errores): Adjetivos, adverbios, interjección: graves, agudos, hiatos, esdrújulos (85 errores) NOTA: cuando no se consigna número de errores entre paréntesis la frecuencia es de 1. Grave: Adjetivo: estandar Agudos: Interjección ojala (15). Adjetivo: demas (4) Hiatos: Adverbio friamente. Adjetivo: increible (2) Esdrújulos: Raíces léxicas esdrújulas de adverbios en -mente: pacificamente, paradojicamente, publicamente. Cabe agregar que en mayor medida se registró este tipo de adverbios debidamente tildados: prácticamente, ilícitamente, sistemáticamente, ùltimamente (sic). Adjetivos de raíz esdrújula: politico, -a, -os (15), unico, -a, -os (6), publico, -a, -as (5), ultimo, -a, -as (5), proximo, -a, -os, -as (4), critico, -a (3), economico, -a, -as (3), democratico, -a (2), civico, energico, estupida, folclorica, invalido, pacifico, patriotica. Superlativos: buenisimo, clarisimas, carisimo, excelentisimo, hermosisimo, malisimo, pesimos. Plurales de adjetivos graves: dificiles, inutiles. Sustantivos: graves, agudos, hiatos, esdrújulos (211 errores) Graves: caracter (3), lider, -es (3), carcel (2), cancer, dolar, referendum. Agudos: concesion (9), corrupcion (6), monton (5), expresion (4), indignacion (4), opcion (4), constitucion (3), opinion (3), perdon (3), admiracion (2), decision (2), educacion (2), eleccion (2), interes (2), razon (2), revolucion (2), situacion (2), atencion, calzon, capitan, celebracion, comunicacion, conclusion, condicion, construccion, corazon, decpecion, descripcion, discriminacion, flexion , impugnacion, ladron, liberacion, meson, negociacion, oposicion, pension, perfeccion, presentacion, presion, region, repulsion, salchichon, solucion, television, tezon, violacion, vocacion 14 Hiatos: pais (54), -es (4), dia (10), -s (2), mayoria (5), compañia, -s (2), contraloria (2), policia, -s (2), altaneria, narquia, ciudadania, oidos, paraiso, raiz, soberania, via Esdrújulos: republica (2), titere, -s (2), transito (2), animos, areas, clausulas, decadas, etica, heroes, limite, linea, logica, maquinas, mascara, pagina, polvora, sintomas, titulo, victimas Nombres propios (19 errores): Graves: Oscar (3), Mendez Agudos: Jose (3), Ramon (3), Moises (2), Panama (2), Colon, Peru, Solis Hiato: Santamaria Esdrújulo: Mexico Verbos (161 errores): Monosílabos: de (4), se (2) Agudos: Futuro (1ª singular, 3ª singular y plural): dire, dara (4), quedara (2), beneficiara, escuchara, identificara, pasara, permitira, recogera, seguira, tendra, buscaran, traeran, votaran, Pretérito perfecto (1ª singular, 3ª singular): vote (7), crei (2), equivoque, dude, quedo (6), eligio (3), falto (3), paso (3), desperto (2), entendio (2), hablo (2), perdio (2), presento (2), acabo, aplico, aporto, asesoro, basto, concedio, debio, dejo, demando, dicto, empezo, empujo, entro, equivoco, erizo, expreso, fallecio, gusto, leyo, llego, llevo, mando, mostro, nacio, olvido, parecio, permitio, predico, sento, voto Presente (2ª singular, voseo): referis, servis, tenes Hiatos: Condicional (singular y plural): deberia (7), podria (2), dejaria, enfrentaria, ganaria, haria, resumiria, trabajaria, votaria, invertiriamos, harian, podrian, Pretérito imperfecto (singular y plural, 2ª y 3ª conjugaciones): tenia (3) hacia (2) sabia (2), creia, moria, regia, traia, sentiamos, existian, hacian, invadian, podian, querian Otros: Infinitivo: oir (3). Presentes de indicativo: continua, actuan. Presentes de subjuntivo: guie, actue, actuen. Participios: creido (2), poseida Esdrújulos (siempre con un pronombre enclítico): Imperativos (formas de subjuntivo utilizadas como imperativos o exhortativos): cambiese, entiendase, tengase, escuchela, pongale, librenos, conozcalos, leanlo, pellizquense, quememosle, unamonos Gerundios: favoreciendose, haciendose, ocultandose, dandole, soltandole, denigrandonos, expresandonos, cortandolo 15 3.3 El CÓDIGO TILDE-Ñ (otros diacríticos) Este código se utilizó para señalar los errores de omisión del diacrítico en el grafema <ñ> y la diéresis en la u fónica <ü>. Los errores pertenecen exclusivamente al vocabulario léxico. 2.3.1 CORPUS LEXEMA formas ortográficas formas cacográficas no. errores no. corr SEÑOR señora señores senora (6) senores 7 señora (72) señores (4) DOÑA doña dona 3 135 COMPAÑÍA compañía compañías compania companias 2 - AÑADIR añadir anadir 1 - PEQUEÑO pequeñas pequenas 1 1 GÜELL Güell GUELL 1 - SINVERGÜENZA sinvergüenzas sinvergüenzadas sinverguenzas (2) SINVERGUENZADAS 3 - 1 VERGÜENZA vergüenza verguenza (21) verguensa (5) 26 - 8 11 12 44 213 OMISIÓN DE TILDE EN <ñ> (13 comentaristas) Y DE DIÉRESIS en <ü> (30 comentaristas): La omisión de la tilde de <ñ> solo representa el 4% de los casos en que ocurre este grafema, ya que además de los 212 casos correctos de las formas señora, señores, doña y pequeñas, otras 105 formas de palabras con <ñ> se escribieron correctamente. En cambio, la omisión de la diéresis de <ü> ocurre en casi el 100% de las instancias de formas de palabras que la requieren. En todo el corpus solo hubo una instancia de <ü>, en sinvergüenzadas. Los datos se resumen en la siguiente tabla: Tabla 1.5 Incidencia de los grafemas con diacrítico <ñ> y <ü> en el CB No. de omisiones de tilde en <ñ> 14 4% No. de casos correctos de <ñ> 317 96% TOTAL 331 100% No. de omisiones de diéresis en <ü> 30 97 % No. de casos correctos de <ü> 1 3% TOTAL 31 100% 2.3.2 CLASIFICACIÓN DE LOS ERRORES. Total: 44 Omisión de tilde en <ñ> (14 errores): senora (6), dona (3), anadir, companía, companías, pequenas, senores Omisión de diéresis en <ü> (30 errores): verguenza (26), sinverguenzas (2), sinverguenzadas, Guell (nombre propio). 16 4. ERRORES DIACRÍTICOS EN EL CORPUS DE REFERENCIA (CR) De acuerdo con el diseño de la investigación, el corpus diacrítico se construyó con base en el corpus textual base (CB), que fue codificado con extremo cuidado para desambiguar las formas que precisamente son las que más abultan la incidencia de cacografías (p.ej. está/esta, más/mas, qué/que), etc.). Una vez que se contó con un listado de las cacografías más frecuentes extraídas del CB, se podía obtener la frecuencia de esas formas en el corpus de referencia, mediante la herramienta AntConc. La siguiente es la lista de esas formas y su frecuencia en el CR; las formas indicadas con "indet." son aquellas que, al no haber sido desambiguadas mediante una codificación caso por caso, no podemos determinar si son formas cacográficas u ortográficas. COCAE DIACRÍTICO-FUNCIONAL DEL CORPUS DE REFERENCIA Total tipos: 48 Total muestras: 3170 Frec Tipo 1. Pronombres y determinantes 1351 que (indet.) 664 el (indet.) 48 mi (indet.) 34 quien (indet.) 14 cual (indet.) 12 quién 12 tu (indet.) 9 quienes (indet.) 4 algun 2 cuantos (indet.) 2 estás 2 sé 1 éste 1 ningun 1 ningúna 2. Adverbios de alta frecuencia, preposiciones y conjunciones 189 si (indet.) 185 como (indet.) 103 mas (indet.) 78 porque(indet.) 42 cuando (indet.) 34 donde (indet.) 25 asi 13 ahi 9 ademas 9 despues 8 aun(indet.) 7 aqui 6 dónde (indet.) 6 tambien 5 cuanto (indet.) 3 atras 3 cómo (indet.) 3 segun 2 aca 2 jamas 2 ó 2 todavia 1 detras 1 muchisimo 1 quiza 1 quizas Formas de los verbos ser, estar y haber 133 este (indet) 99 esta (indet.) 13 estas (indet) 11 estan 7 sera (indet) 6 seria (indet.) 1 seran 2 eramos 1 estaria 1 esten 1 estaras 1 estariamos 3 fué 10 habia 1 habian 1 habias Por otra parte, también se extrajeron del CR, mediante la herramienta del verificación ortográfica, las cacografías por error diacrítico en vocabulario léxico. La siguiente es la lista de esas formas y su frecuencia en el CR: COCAE DIACRÍTICO-LEXICO DEL CORPUS DE REFERENCIA Total tipos: 304 Total muestras: 564 28 pais 16 politicos 11 dia 10 corrupcion 6 adiccion 5 manifestacion 5 politica 5 posicion 4 demas 4 dias 4 policias 4 situacion 4 unico 17 3 carceles 3 compañia 3 concesion 3 deberian 3 educacion 3 facil 3 guila 3 legalizacion 3 liberacion 3 monton 3 opinion 3 paises 3 policia 3 politico 3 razon 3 reaccion 3 revolucion 3 unica 3 vandalos 3 verguenza 2 administracion 2 admiracion 2 alimentacion 2 angel 2 atencion 2 camaras 2 civico 2 deberia 2 decidio 2 dejenla 2 diria 2 ganaria 2 garantias 2 increible 2 informacion 2 institucion 2 inutiles 2 inutilmente 2 ladron 2 nacio 2 nacion 2 ocasion 2 ocurrio 2 optica 2 pacificamente 2 recibio 2 rompio 2 soberania 2 telefono 2 valentia 2 via 1 acompanada 1 actuén 1 acudi 1 acusacion 1 adios 1 admision 1 adopcion 1 alergica 1 alucinogena 1 anomalia 1 anonimo 1 apocalipticos 1 arabe 1 asesorias 1 automoviles 1 autorizacion 1 calderon 1 camara 1 cambiénlo 1 caracter 1 carcel 1 carisimo 1 carroceria 1 cercanias 1 cespedes 1 cinica 1 ciudadania 1 clinica 1 cocaina 1 comision 1 companeros 1 compania 1 comunicacion 1 condon 1 confie 1 confio 1 consideracion 1 contraloria 1 convirtiendolo 1 coordinandola 1 corazon 1 corífeos 1 credito 1 creeria 1 criminalizacion 1 criticandolo 1 cupula 1 danar 1 dandole 1 daran 1 daria 1 deberias 1 debi 1 debio 1 decadas 1 decia 1 defendera 1 defensoria 1 dejabamos 1 dejeme 1 dejense 1 dejeses 1 demágogo 1 demarcacion 1 democrata 1 démocratas 1 democratico 1 denuncielo 1 déposito 1 desinformacion 1 desperto 1 deveria 1 dicese 1 dió 1 dire 1 dirijanse 1 distribucion 1 dueno 1 edtan 1 eligio 1 encantaria 1 encontrabamos 1 energico 1 envian 18 1 escandalos 1 escribi 1 escrupulos 1 evasion 1 examenes 1 expliacion 1 expresion 1 fiscalia 1 fisica 1 freir 1 gestion 1 guichos 1 gustaria 1 habil 1 hacian 1 hara 1 heroe 1 heroes 1 heróica 1 hipocrita 1 hipocritas 1 hubieramos 1 huerfanos 1 huevon 1 ideologias 1 ilicitos 1 imaginense 1 incluída 1 indignacion 1 infraccion 1 interes 1 justificacion 1 lacrimogenos 1 larguese 1 licitacion 1 limon 1 linea 1 llamabamos 1 llavin 1 llegabamos 1 logico 1 maldicion 1 manipulacion 1 matoneria 1 maxiam 1 mayoria 1 medicos 1 metio 1 million 1 minimo 1 mismisimo 1 ninos 1 oigalo 1 oir 1 oposicion 1 parasitos 1 parrafo 1 pasese 1 patetico 1 patriotica 1 perdio 1 permanecia 1 pesimas 1 podia 1 podria 1 podriamos 1 podrias 1 politicas 1 politologos 1 pondrian 1 predisposicion 1 pregúnten 1 preguntese 1 produccion 1 prohibicion 1 prohibo 1 provenia 1 proxima 1 publicos 1 quitandole 1 radiografia 1 recien 1 regulacion 1 reirse 1 relacion 1 relegalizacion 1 republica 1 respèto 1 respondio 1 romantica 1 seccion 1 seguira 1 senora 1 sinverguenza 1 sinverguenzada 1 sinverguenzas 1 solucion 1 subia 1 tabues 1 television 1 tenes 1 tenian 1 titeres 1 traido 1 traidos 1 transaccion 1 traves 1 turistica 1 unamonos 1 unicas 1 union 1 uniran 1 utiles 1 vá 1 vacilon 1 varon 1 vayase 1 vease 1 veia 1 verguenzas 1 vias 1 vieramos 1 vió 1 violacion 1 vivi 1 zorron 19 ANEXO 2 COCAE 2 - GRAFEMÁTICO 1. ASPECTOS PRELIMINARES El COCAE 2 - GRAFEMÁTICO da cuenta de los errores grafemáticos recogidos partir de dos corpus: el Corpus Base (CB) utilizado en la construcción del COCAE 1 - DIACRÍTICO y el corpus de referencia (CR). Primero se tratan los datos obtenidos del CB y luego se agregan los del CR. CÓDIGO ERROR Los datos recuperados del código ERROR en el CB fueron 143, de los cuales solamente 20 (14%) corresponden a vocabulario funcional; los restantes 123 (86%) corresponden a vocabulario léxico. Los errores se presentan en 108 formas de palabra (cacográficas) que se agrupan en 87 lexemas. Los datos se muestran en la siguiente tabla: Tabla 1 - CÓDIGO ERROR: organización por lexema e incidencia La Tabla 2 muestra la distribución de los errores grafemáticos por comentarista; en el CB, de los 655 comentaristas, 559 (85%) no cometieron ningún error grafemático; 85 (13%) cometieron de 1 a 2 errores y 11 (2%) cometieron de 3 a 6 errores. Tabla 2 - Errores grafemáticos por comentarista Cantidad de errores Comentaristas % Coms Total errores 0 559 85 0 1 71 11 71 2 14 2 28 3 6 1 18 4 1 0.2 4 5 2 0.4 10 6 2 0.4 12 TOTALES 655 100% 143 ERRORES % FORMAS % LEXEMAS % VOC FUNCIONAL 20 14 9 8,3 3 3,5 VOC LÉXICO 123 86 99 91,7 84 96,5 TOTALES 143 100 108 100 87 100 Total de comentaristas: 655. No. de comentaristas que tuvieron al menos un error: 96 (15%). Total de errores: 143. 20 2. COCAE 2.1 - GRAFEMÁTICO-FUNCIONAL 2.1 CORPUS 1. Adverbios frecuentes (5 errores en 3 comentaristas) cat LEXEMA formas ortográficas Tipo formas cacográficas coms no. errs no. corr ADV ASÍ así >h, s/c haci 2 4 29 ADV QUIZÁS quizás z/s quisas 1 1 2 (quizá) 2 2 3 5 31 2. Formas del verbo haber (15 errores en 13 comentaristas) cat LEXEMA formas ortográficas Tipo formas cacográficas coms no. errs no. corr V HABER ha haya he h hay 1 1 2 2 2 2 2 2 2. Adjetivos (24 errores) cat LEXEMA formas ortográficas Tipo formas cacográficas coms no. errs no. corr A EXCELENTE excelente xc/c exelente 6 6 73 A COSTARRICENSE costarricenses costarricense rr/r rr/r c/s-s/c costaricenses costarisence 2 3 49 A EXTRANJERO extranjera extranjeros x/s j/g estranjera extrangeros (2) 3 3 8 A PROFESIONAL profesional profesionales s/c profecional PROFECIONALES 2 2 7 A ADVENEDIZO advenedizos d/b abvenedizos 1 1 - A CAPAZ capaces z>c/s capases 1 1 1 A CERCANO cercano c/s SERCANO 1 1 2 A CIEGO ciego c/s SIEGO 1 1 13 A CONCESIONARIA concesionaria c/s-s/c consecionaria 1 1 2 A CONSCIENTE consciente sc/c conciente 1 1 2 A HERMOSO hermoso s/z hermozo 1 1 - A JUDICIAL judicial h b/v y/ll HIR iva valla 3 3 3 2 3 Vspt Vinf ABRIR abra (los ojos) abrir >h habrá habrir 2 2 5 6 Vpt COMENZAR comienza z/s COMIENSA 1 2 - Vcond DEBER debería deberíamos b/v deveria Deveríamos 2 2 8 1 Vpt Vcon DESEAR desea desearía s/c decea decearía 2 2 - Vpt RECIBIR recibe c/s b/v resive 1 2 - 23 Vpt Vinf SABER sabe saber b/v save saver 2 2 15 5 Vspt ACEPTAR acepten c/s asepten 1 1 1 Vpt AGRADECER agradezco z/s agradesco 1 1 - Vpart ALCAHUETEAR alcahueteado h Handan 1 1 3 (anda) Vpart ARRUINAR arruinado rr/r aruinado 1 1 - Vpart CALLAR calladito ll/y cayaditio 1 1 - Vimp CONOCER conózcalos z/s CONOSCALOS 1 1 - V CONSTRUIR construirlas h hechando 1 1 1 Vspt ENMENDAR enmiende ie/e enmende 1 1 - Vspt ENRIQUECER enriquezca z/s enriquesca 1 1 - Vpp ESCOGER escogieron g/j ESCOJIERON 1 1 3 (escog-) Vspt HUNDIR hundan en español. A manera de ejemplo, retomamos aquí los (pocos) errores grafemáticos del vocabulario funcional del CB para clasificarlos de acuerdo con esta tipología. Solo se dan errores de los niveles 2 y 3: Nivel 2. Arbitrariedad y ambigüedad no resuelta (6 errores) : Sustitución de por (s/c) y de por (z/s): Tipo cat LEXEMA formas ortográficas formas cacográficas coms errs corr s/c Adv ASÍ así haci 2 2 29 z/s Adv QUIZÁS quizás quisas 1 1 2 3 3 31 : Sustitución de por (y/ll): Tipo cat LEXEMA formas ortográficas formas cacográficas coms errs corr y/ll V HABER haya hayan alla hallan 1 1 3 7 1 2 3 8 Nivel 3. Arbitrariedad de (14 errores) Exceso (>h), omisión (h Adv ASÍ así haci 2 2 29 (id. supra) por (r/rr) y de por (rr/r): Tipo cat LEXEMA formas ortográficas formas cacográficas coms errs corr r/rr S CORAJE coraje CORRAJE 1 1 4 rr/r rr/r A COSTARRICENSE costarricenses costarricense costaricenses costarisence 2 3 49 rr/r Vpart ARRUINAR arruinado aruinado 1 1 0 4 5 53 Sustitución de por (x/s): Tipo cat LEXEMA formas ortográficas formas cacográficas coms errs corr x/s A EXTRANJERO extranjera estranjera 1 1 8 x/s S EXCUSA excusa escusa 1 1 1 2 2 9 Sustitución de por Tipo cat LEXEMA formas ortográficas formas cacográficas coms errs corr gu/g Vpt SEGUIR seguimos SEGIMOS 1 1 25 gu/g Vspt PAGAR pague page 1 1 0 2 2 25 Omisión de Tipo cat LEXEMA formas ortográficas formas cacográficas coms errs corr Sustitución de por (b/v): Tipo cat LEXEMA formas ortográficas formas cacográficas coms errs corr b/v Vcond DEBER debería deberíamos deveria deveríamos 2 2 8 1 b/v Vpt Vinf SABER sabe saber save saver 2 2 15 5 b/v Vpi IR iba iva 1 1 2 b/v Vpt RECIBIR recibe resive 1 1 0 b/v S BOLSILLO bolsillos volsillos 1 1 6 b/v S GOBERNANTE gobernantes governantes 1 1 16 8 8 24 27 Sustitución de por (v/b): Tipo cat LEXEMA formas ortográficas formas cacográficas coms errs corr v/b S BARBARIDAD barbaridad barvaridad 1 1 3 v/b Vpp TENER tuvo tubo 1 1 3 2 2 6 : Sustitución de por (c/s) Tipo cat LEXEMA formas ortográficas formas cacográficas coms errs corr c/s Vpt HACER hace hacen ase (2) asen 2 3 36 16 c/s A CERCANO cercano SERCANO 1 1 2 c/s A CIEGO ciego SIEGO 1 1 13 c/s S CAPACIDAD capacidad CAPASIDAD 1 1 6 c/s S CINISMO cinismo sinismo 1 1 0 c/s S INTENCIÓN intenciones intensiones 1 1 2 c/s Vger INCITAR incitando insitando 1 1 0 c/s Vger TRAICIONAR traicionando traisionando 1 1 0 c/s Vpart VENCER vencidos vensidos 1 1 0 c/s Vpt RECIBIR recibe resive 1 1 0 c/s Vspt ACEPTAR acepten asepten 1 1 1 12 13 24 Sustitución de por (s/c): Tipo cat LEXEMA formas ortográficas formas cacográficas coms errs corr s/c S PRESIDENTE presidenta presidente precidenta (2) Precidente (2) 4 4 118 s/c A PROFESIONAL profesional profesionales profecional PROFECIONALES 2 2 7 s/c Vpt Vcon DESEAR desea desearía decea decearía 2 2 0 s/c A MALO malísimo malic imo 1 1 0 s/c S CABALLEROSIDAD caballerosidad caballerocidad 1 1 0 s/c S HIPOCRESÍA hipocresías HIPOCRECIAS 1 1 0 s/c S IDIOSINCRASIA idiosincrasia idiosincracia 1 1 1 s/c Vpart POSEER poseída poceida 1 1 0 s/c Vpt NECESITAR necesita nececita 1 1 25 14 14 151 Inversiones entre y (c/s-s/c y s/c-c/s) Tipo cat LEXEMA formas ortográficas formas cacográficas coms errs corr c/s-s/c S CONCESIÓN concesión concesiones consecion (3) conseciones 3 4 35 c/s-s/c A CONCESIONARIA concesionaria consecionaria 1 1 2 c/s-s/c A COSTARRICENSE costarricense costarisence 1 1 49 28 c/s-s/c S DECISIÓN decisiones desiciones 1 1 8 s/c-c/s S POSICIÓN posición pocisión 1 1 5 7 8 99 Sustitución de por (s/z): Tipo cat LEXEMA formas ortográficas formas cacográficas coms errs corr s/z A HERMOSO hermoso hermozo 1 1 0 s/z S EMPRESA empresa empreza 1 1 20 s/z S RESPETO respeto rezpeto 1 1 53 s/z S TESÓN tesón tezon 1 1 0 s/z Vpt RASGAR rasgan razgan 1 1 1 5 5 74 Sustitución de por (z/s, z>c/s): Tipo cat LEXEMA formas ortográficas formas cacográficas coms errs corr z/s S VERGÜENZA vergüenza verguensa (5) 5 5 1 z/s S MORDAZA mordaza mordasa 2 2 4 z/s S VEZ vez ves (2) 2 2 24 z/s Vpt COMENZAR comienza COMIENSA 1 2 0 z/s S CHORIZO chorizo choriso 1 1 13 z/s S TRISTEZA tristeza tristesa 1 1 4 z/s S ZAFARRANCHO zafarrancho safarrancho 1 1 0 z/s Vimp CONOCER conózcalos CONOSCALOS 1 1 0 z/s Vpt AGRADECER agradezco agradesco 1 1 0 z/s Vpt ALZAR alza ALSA 1 1 2 z/s Vpt REBOZAR reboza rebosa 1 1 0 z/s Vspt ENRIQUECER enriquezca enriquesca 1 1 0 z/s Vspt RECONOCER reconozcan reconoscan 1 1 1 z>c/s A CAPAZ capaces capases 1 1 1 20 21 50 Omisión de Tipo cat LEXEMA formas ortográficas formas cacográficas coms errs corr (sc/c) Tipo cat LEXEMA formas ortográficas formas cacográficas coms errs corr sc/c A CONSCIENTE consciente conciente 1 1 2 : Sustitución de por (y/ll) y de por (ll/y) Tipo cat LEXEMA formas ortográficas formas cacográficas coms errs corr y/ll Vspt IR vaya valla 1 1 3 29 ll/y Vpart CALLAR calladito cayaditio 1 1 0 2 2 3 : Sustitución de por (g/j) y de por (j/g) Tipo cat LEXEMA formas ortográficas formas cacográficas coms errs corr g/j S GENTE gente jente 1 1 28 g/j Vpp ESCOGER escogieron ESCOJIERON 1 1 3 j/g A EXTRANJERO extranjeros extrangeros 2 2 8 4 4 39 Nivel 3. Arbitrariedad de (12 errores) Exceso(>h): Tipo cat LEXEMA formas ortográficas formas cacográficas coms errs corrs >h Int AY ay hay 1 1 2 >h Vspt Vinf ABRIR abra (los ojos) abrir habrá habrir 2 2 11 >h Vpt ANDAR andan Handan 1 1 3 >h Vger ECHAR echando hechando 1 1 1 >h Vinf IR ir HIR 1 1 3 6 6 20 Omisión (, y . Del total de 92 errores este nivel, 73 (80%) corresponden a esta ambigüedad no resuelta. Los fenómenos que se dan en este rubro, en orden de frecuencia son: Sustitución de por (z/s) 21 Sustitución de por (s/c) 16 Sustitución de por (c/s) 15 Inversiones entre y (c/s-s/c y s/c-c/s) 8 Sustitución de por (s/z) 6 Omisión de ( (sc/c) 1 TOTAL 73 La arbitrariedad entre los grafemas y da cuenta de 10 errores; la que se da entre y en nuestra variedad del español (yeísta) da cuenta de 5 y la que se da entre y da cuenta de solo 4 errores. 31 : Tipo LEXEMA formas ortográficas formas cacográficas errs z/s VERGÜENZA vergüenza verguensa 5 z/s MORDAZA mordaza mordasa 2 z/s VEZ vez ves 2 z/s COMENZAR comienza comiensa 2 z/s CHORIZO chorizo choriso 1 z/s TRISTEZA tristeza tristesa 1 z/s ZAFARRANCHO zafarrancho safarrancho 1 z/s CONOCER conózcalos conoscalos 1 z/s AGRADECER agradezco agradesco 1 z/s ALZAR alza alsa 1 z/s REBOZAR reboza rebosa 1 z/s ENRIQUECER enriquezca enriquesca 1 z/s RECONOCER reconozcan reconoscan 1 z/s QUIZÁS quizás quisas 1 s/c PRESIDENTE presidenta presidente precidenta precidente 4 s/c PROFESIONAL profesional profesionales profecional profecionales 2 s/c DESEAR desea desearía decea decearía 2 s/c ASÍ así haci 2 s/c MALO malísimo malicimo 1 s/c CABALLEROSIDAD caballerosidad caballerocidad 1 s/c HIPOCRESÍA hipocresías hipocrecias 1 s/c IDIOSINCRASIA idiosincrasia idiosincracia 1 s/c POSEER poseída poceida 1 s/c NECESITAR necesita nececita 1 c/s HACER hace, hacen ase, asen 3 c/s CERCANO cercano sercano 1 c/s CIEGO ciego siego 1 c/s CAPACIDAD capacidad capasidad 1 c/s CINISMO cinismo sinismo 1 c/s INTENCIÓN intenciones intensiones 1 c/s INCITAR incitando insitando 1 c/s TRAICIONAR traicionando traisionando 1 c/s VENCER vencidos vensidos 1 c/s RECIBIR recibe resive 1 c/s ACEPTAR acepten asepten 1 c/s CAPAZ capaces capases 1 c/s IGNACIO Ignacio inasio 1 c/s-s/c CONCESIÓN concesión concesiones consecion conseciones 4 c/s-s/c CONCESIONARIA concesionaria consecionaria 1 c/s-s/c COSTARRICENSE costarricense costarisence 1 c/s-s/c DECISIÓN decisiones desiciones 1 s/c-c/s POSICIÓN posición pocisión 1 32 s/z HERMOSO hermoso hermozo 1 s/z EMPRESA empresa empreza 1 s/z RESPETO respeto rezpeto 1 s/z TESÓN tesón tezon 1 s/z RASGAR rasgan razgan 1 s/z BRASIL Brasil Brazil 1 : Tipo LEXEMA formas ortográficas formas cacográficas errs b/v DEBER debería deberíamos deveria deveríamos 2 b/v SABER sabe saber save saver 2 b/v IR iba iva 1 b/v RECIBIR recibe resive 1 b/v BOLSILLO bolsillos volsillos 1 b/v GOBERNANTE gobernantes governantes 1 v/b BARBARIDAD barbaridad barvaridad 1 v/b TENER tuvo tubo 1 10 : Tipo LEXEMA formas ortográficas formas cacográficas errs y/ll HABER haya, hayan alla, hallan 3 y/ll IR vaya valla 1 ll/y CALLAR calladito cayaditio 1 5 : Tipo LEXEMA formas ortográficas formas cacográficas errs g/j GENTE gente jente 1 g/j ESCOGER escogieron ESCOJIERON 1 j/g EXTRANJERO extranjeros extrangeros 2 4 Nivel 3. Arbitrariedad de Omisión (h), inversión (#h/h#) TIPO Tipo LEXEMA formas ortográficas formas cacográficas errs < >h ABRIR abra, abrir habrá, habrir 2 > >h ANDAR andan handan 1 > >h ECHAR echando hechando 1 > >h IR ir hir 1 > >h AY ay hay 1 > >h ASÍ así haci 2 / #h/h# HABER ha, he ah, eh 2 26 3.4 ERRORES GRAFEMÁTICOS EN VOCABULARIO LÉXICO DEL CR La siguiente es la lista de formas cacográficas por error grafemático que se obtuvo del corpus de referencia, donde se aprecia que se dan menos errores tanto en términos de formas de palabra como de frecuencia: se observa que únicamente dos palabras aparecieron dos veces, todas las demás son hápax, es decir, aparecieron una sola vez. Incluso algunos de los errores recopilados podrían considerarse más errores de digitación que propiamente cacográficos. Total tipos: 62 Total muestras: 64 Frec. Tipo 2 consecion 2 firmesa 1 adminsitrativa 1 aficiados 1 alcholicos 1 alcholismo 1 apollando 1 barrabazadas 1 basofia 1 chorisos 1 chorizito 1 comicionistas 1 concecion 1 concecionaria 1 conceción 1 consecionaria 1 conseción 1 consientemente 1 contruyan 1 desicion 1 desmenuasr 1 deveria 1 deveriamos 1 devio 1 discresión 1 emvestidura 1 exigale 1 govierno 1 habramos 1 hacerce 1 hecharle 1 hechándos 1 incomformidad 1 inmaginece 1 inponencia 1 iresponsable 1 juegito 1 mansillar 1 nescesita 1 ocacion 1 pagemos 1 pagen 1 paices 1 paque 1 parese 1 persinarse 1 pizara 1 precide 1 preciona 1 precione 1 presindenta 1 probecho 1 proteje 1 práticas 1 relección 1 requizadas 1 requizas 1 revez 1 sencillés 1 sigen 1 sinverguensada 1 tortugismo 34 ANEXO 3 LISTA DE COMENTARIOS POR NO. DE PALABRAS, NO. DE ERRORES Y TIPO DE ERROR No. item No. pals. TILD (974) DIACR (44) GRAF (143) TOTAL errs TIPOS error INFO 1. 1 Primer grupo: 80 comentarios con extensión de 1 a 5 palabras: Sin errores: 70 (87,5) Con errores: 10 (12,5) Total de errores: 13 (8 tildes, 2 diacríticos, 3 grafemáticos) Máximo número de errores en 1 comentario: 2 No. pals No. coms. Coms. con error Relación coms:coms-error 1 11 1 11:1 2 24 1 24:1 3 19 5 19:5 4 17 2 17:2 5 9 1 9:1 TOTAL 80 10 2. 1 3. 1 4. 1 5. 1 6. 1 7. 1 8. 1 9. 1 1 1 G 10. 1 11. 1 12. 2 13. 2 14. 2 15. 2 16. 2 17. 2 18. 2 19. 2 20. 2 21. 2 22. 2 23. 2 1 1 T 24. 2 25. 2 26. 2 27. 2 28. 2 29. 2 30. 2 31. 2 32. 2 33. 2 34. 2 35. 2 36. 3 37. 3 1 1 T 38. 3 39. 3 40. 3 41. 3 1 1 T 42. 3 43. 3 44. 3 45. 3 46. 3 47. 3 48. 3 49. 3 1 1 T 35 50. 3 1 1 T 51. 3 1 1 2 TD 52. 3 53. 3 54. 3 55. 4 56. 4 57. 4 58. 4 59. 4 60. 4 61. 4 62. 4 63. 4 1 1 2 TD 64. 4 65. 4 66. 4 67. 4 1 1 G 68. 4 69. 4 70. 4 71. 4 72. 5 73. 5 74. 5 75. 5 76. 5 77. 5 78. 5 2 2 T 79. 5 80. 5 81. 6 1 1 T Segundo grupo: 85 comentarios con extensión de 6 a 10 palabras: Sin errores: 61 (72%) Con errores: 24 (28%) Total de errores: 37 (31 tildes, 1 diacrítico, 5 grafemáticos) Máximo número de errores en un comentario: 3 (en 10 palabras) No. pals No. coms. Coms. con error Relación coms:coms-error 6 14 3 14:3 7 13 4 13:4 8 22 7 22:7 9 15 3 15:3 10 21 7 21:7 TOTAL 85 24 82. 6 83. 6 84. 6 85. 6 86. 6 87. 6 1 1 T 88. 6 89. 6 1 1 T 90. 6 91. 6 92. 6 93. 6 94. 6 95. 7 96. 7 97. 7 98. 7 99. 7 1 1 T 100. 7 101. 7 1 1 T 102. 7 36 103. 7 2 2 T 104. 7 105. 7 106. 7 2 2 T 107. 7 108. 8 1 1 T 109. 8 110. 8 111. 8 112. 8 113. 8 114. 8 115. 8 2 2 T 116. 8 117. 8 118. 8 2 2 T 119. 8 120. 8 2 2 T 121. 8 2 2 T 122. 8 1 1 T 123. 8 124. 8 125. 8 126. 8 1 1 T 127. 8 128. 8 129. 8 130. 9 131. 9 132. 9 1 1 T 133. 9 134. 9 135. 9 136. 9 137. 9 1 1 2 TD 138. 9 139. 9 1 1 G 140. 9 141. 9 142. 9 143. 9 144. 9 145. 10 146. 10 147. 10 148. 10 2 2 T 149. 10 150. 10 1 1 T 151. 10 152. 10 153. 10 154. 10 155. 10 2 2 T 37 156. 10 3 3 T 157. 10 158. 10 159. 10 1 2 3 TG 160. 10 161. 10 162. 10 163. 10 1 1 G 164. 10 1 1 G 165. 10 166. 11 Tercer grupo: 226 textos con extensión de 11 a 29 palabras: Sin errores: 102 (45) Con errores: 124 (55) Total de errores: 246 (197 tildes, 10 diacríticos, 39 grafemáticos) Máximo número de errores en un comentario: 8 (en 12 y 22 palabras) No. pals No. coms. Coms. con error Relación coms:coms-error 11 12 5 12:5 12 20 9 20:9 13 11 9 11:9 14 15 6 15:6 15 17 5 17:5 16 12 6 12:6 17 20 12 20:12 18 13 7 13:7 19 14 10 14:10 20 9 5 9:5 21 13 8 13:8 22 12 7 12:7 23 9 4 9:4 24 5 4 5:4 25 8 2 8:2 26 7 6 7:6 27 11 7 11:7 28 12 7 12:7 29 6 2 6:2 TOTAL 226 121 167. 11 168. 11 169. 11 170. 11 3 3 T 171. 11 1 1 T 172. 11 1 1 T 173. 11 3 3 T 174. 11 175. 11 1 1 T 176. 11 177. 11 178. 12 1 1 T 179. 12 180. 12 181. 12 1 1 T 182. 12 2 2 T 183. 12 1 1 G 184. 12 1 1 G 185. 12 186. 12 187. 12 188. 12 189. 12 190. 12 1 1 T 191. 12 3 3 T 192. 12 1 1 T 193. 12 194. 12 195. 12 5 1 2 8 TDG 196. 12 197. 12 198. 13 1 1 T 199. 13 2 1 1 4 TDG 200. 13 201. 13 2 2 T 202. 13 3 3 T 203. 13 2 1 3 TG 204. 13 2 2 T 205. 13 206. 13 1 1 T 207. 13 2 2 T 208. 13 1 1 D 38 209. 14 210. 14 2 2 T 211. 14 3 1 4 TG 212. 14 1 1 D 213. 14 214. 14 215. 14 2 2 T 216. 14 2 2 T 217. 14 218. 14 1 1 T 219. 14 220. 14 221. 14 222. 14 223. 14 224. 15 3 3 T 225. 15 1 1 T 226. 15 227. 15 1 1 T 228. 15 229. 15 230. 15 231. 15 232. 15 233. 15 234. 15 235. 15 236. 15 2 2 T 237. 15 1 1 T 238. 15 239. 15 240. 15 241. 16 242. 16 243. 16 1 1 2 TG 244. 16 245. 16 246. 16 1 1 T 247. 16 248. 16 1 1 T 249. 16 250. 16 1 1 T 251. 16 1 1 T 252. 16 1 1 T 253. 17 254. 17 1 2 3 TG 255. 17 1 1 T 256. 17 1 1 T 257. 17 1 1 T 258. 17 259. 17 2 2 T 260. 17 1 1 T 261. 17 39 262. 17 1 1 T 263. 17 1 1 T 264. 17 265. 17 266. 17 267. 17 1 1 T 268. 17 269. 17 1 1 G 270. 17 1 1 T 271. 17 1 1 G 272. 17 273. 18 1 1 T 274. 18 275. 18 276. 18 1 2 3 TG 277. 18 2 2 T 278. 18 1 1 T 279. 18 1 1 G 280. 18 281. 18 3 3 T 282. 18 2 2 T 283. 18 284. 18 285. 18 286. 19 1 1 T 287. 19 288. 19 1 1 T 289. 19 2 1 3 TG 290. 19 291. 19 3 3 T 292. 19 2 2 T 293. 19 294. 19 4 4 T 295. 19 296. 19 1 1 T 297. 19 1 1 G 298. 19 1 1 T 299. 19 2 2 T 300. 20 1 1 T 301. 20 302. 20 303. 20 304. 20 1 1 G 305. 20 1 1 T 306. 20 307. 20 2 1 3 TG 308. 20 2 2 T 309. 21 1 1 D 310. 21 1 1 T 311. 21 1 1 T 312. 21 1 1 T 313. 21 2 2 T 314. 21 1 1 T 40 315. 21 1 1 T 316. 21 1 1 2 TD 317. 21 318. 21 319. 21 320. 21 321. 21 322. 22 323. 22 4 4 T 324. 22 325. 22 326. 22 3 1 4 TG 327. 22 1 1 T 328. 22 2 2 T 329. 22 1 1 T 330. 22 2 1 5 8 TDG 331. 22 332. 22 1 1 2 TG 333. 22 334. 23 335. 23 1 1 T 336. 23 1 1 G 337. 23 338. 23 339. 23 5 5 T 340. 23 2 2 T 341. 23 342. 23 343. 24 1 1 2 TD 344. 24 3 3 T 345. 24 2 1 3 TG 346. 24 2 2 T 347. 24 348. 25 349. 25 350. 25 351. 25 352. 25 353. 25 4 4 T 354. 25 355. 25 1 1 2 TG 356. 26 3 3 T 357. 26 1 1 T 358. 26 359. 26 2 2 T 360. 26 2 2 T 361. 26 2 2 T 362. 26 2 1 3 TG 363. 27 3 3 T 364. 27 365. 27 366. 27 1 1 T 367. 27 2 2 4 TG 41 368. 27 1 1 T 369. 27 370. 27 1 1 T 371. 27 1 1 D 372. 27 373. 27 5 2 7 TG 374. 28 375. 28 3 2 5 TG 376. 28 1 1 T 377. 28 378. 28 1 1 T 379. 28 4 1 5 TG 380. 28 381. 28 5 1 6 TG 382. 28 1 1 G 383. 28 384. 28 385. 28 1 1 T 386. 29 387. 29 2 1 3 TD 388. 29 389. 29 390. 29 6 6 T 391. 29 392. 30 1 1 T Cuarto grupo: 100 comentarios con extensión de 30 a 45 palabras: Sin errores: 35 (35%) Con errores: 65 (65%) Total de errores: 167 (144 tildes, 7 diacríticos, 16 grafemáticos) Máximo número de errores en un comentario: 8 (en 45 palabras) (en el grupo anterior aparecen 2 comentarios con máximo de 8: 1 de 12 palabras y 1 de 22 palabras) No. pals No. coms. Coms. con error Relación coms:coms-error 30 9 5 9:5 31 7 5 7:5 32 11 9 11:9 33 9 5 9:5 34 5 3 5:3 35 2 1 2:1 36 9 5 9:5 37 8 4 8:4 38 2 1 2:1 39 6 4 6:4 40 2 0 2:0 41 4 4 4:4 42 4 3 4:3 43 6 4 6:4 44 8 6 8:6 45 8 6 8:6 TOTAL 100 65 393. 30 394. 30 2 2 T 395. 30 396. 30 2 2 T 397. 30 398. 30 2 2 T 399. 30 1 1 T 400. 30 401. 31 402. 31 1 1 T 403. 31 2 1 3 TG 404. 31 2 1 3 TD 405. 31 1 1 T 406. 31 407. 31 3 1 4 TG 408. 32 4 3 7 TG 409. 32 410. 32 1 1 T 411. 32 3 3 T 412. 32 1 1 G 413. 32 1 1 T 414. 32 7 7 T 415. 32 2 2 T 416. 32 4 4 T 417. 32 2 2 T 418. 32 2 2 T 419. 33 3 3 T 420. 33 42 421. 33 1 1 T 422. 33 1 1 T 423. 33 424. 33 1 1 T 425. 33 2 2 T 426. 33 1 1 G 427. 33 428. 34 429. 34 1 1 T 430. 34 1 1 T 431. 34 432. 34 4 4 T 433. 35 2 2 T 434. 35 435. 36 436. 36 2 2 T 437. 36 1 1 T 438. 36 439. 36 1 1 T 440. 36 1 1 T 441. 36 2 2 T 442. 36 443. 36 444. 37 1 1 T 445. 37 446. 37 447. 37 1 1 2 TG 448. 37 3 3 T 449. 37 450. 37 1 1 T 451. 37 452. 38 1 2 3 TG 453. 38 454. 39 4 4 T 455. 39 1 1 T 456. 39 6 6 T 457. 39 458. 39 459. 39 3 3 T 460. 40 461. 40 462. 41 2 1 3 TG 463. 41 2 1 3 TD 464. 41 1 1 T 465. 41 4 4 T 466. 42 3 3 T 467. 42 468. 42 4 4 T 469. 42 5 5 T 470. 43 3 1 4 TG 471. 43 2 2 T 472. 43 473. 43 5 2 7 TD 43 474. 43 475. 43 2 2 T 476. 44 1 1 T 477. 44 2 2 G 478. 44 5 5 T 479. 44 1 1 2 TG 480. 44 1 1 T 481. 44 1 1 T 482. 44 1 1 T 483. 44 484. 45 2 1 3 TD 485. 45 2 1 3 TD 486. 45 1 1 T 487. 45 488. 45 1 1 T 489. 45 6 1 1 8 TDG 490. 45 491. 45 2 2 T 492. 46 Quinto grupo: 126 comentarios con extensión de 46 a 99 palabras: Sin errores: 24 (19%) Con errores: 102 (81%) Total de errores: 477 (389 tildes, 22 diacríticos, 66 grafemáticos) Máximo número de errores en un comentario: 14(en 87 y 90 palabras) No. pals No. coms. Coms. con error Relación coms:coms-error 46 5 2 5:2 47 2 1 2:1 48 4 4 4:4 49 3 3 3:3 50 3 3 3:3 51 2 2 2:2 52 2 2 2:2 53 5 3 5:3 54 6 5 6:5 55 5 4 5:4 56 1 1 1:1 57 6 4 6:4 58 5 4 5:4 59 2 1 2:1 60 4 4 4:4 61 2 1 2:1 62 2 2 2:2 63 3 3 3:3 64 2 0 2:0 65 3 3 3:3 66 1 1 1:1 68 3 2 3:2 69 3 3 3:3 70 1 0 1:0 71 1 1 1:1 72 3 2 3:2 73 2 2 2:2 493. 46 2 2 T 494. 46 495. 46 496. 46 1 1 D 497. 47 498. 47 1 1 T 499. 48 4 1 5 TD 500. 48 6 1 7 TG 501. 48 5 1 6 TG 502. 48 4 1 5 TD 503. 49 3 1 4 TG 504. 49 5 1 6 TG 505. 49 4 4 T 506. 50 3 3 T 507. 50 3 1 4 TG 508. 50 2 1 3 6 TDG 509. 51 1 1 2 TG 510. 51 2 2 4 TG 511. 52 3 1 4 TG 512. 52 2 1 3 TG 513. 53 514. 53 1 1 G 515. 53 5 5 T 516. 53 4 4 T 517. 53 518. 54 2 2 T 519. 54 2 2 T 520. 54 2 2 T 521. 54 3 1 4 TG 522. 54 6 2 8 TG 523. 54 524. 55 1 1 T 525. 55 526. 55 2 2 T 44 527. 55 2 2 T 74 4 4 4:4 75 1 1 1:1 77 1 0 1:0 78 1 1 1:1 79 2 2 2:2 80 1 1 1:1 81 5 4 5:4 82 2 2 2:2 84 3 3 3:3 85 2 2 2:2 87 1 1 1:1 89 2 2 2:2 90 2 2 2:2 92 3 2 3:2 93 1 0 1:0 94 1 1 1:1 95 3 3 3:3 96 3 3 3:3 97 6 5 6:5 99 1 0 1:0 TOTAL 126 102 528. 55 2 1 3 TD 529. 56 1 1 T 530. 57 3 3 T 531. 57 3 3 T 532. 57 6 2 1 9 TDG 533. 57 534. 57 535. 57 6 1 3 10 TDG 536. 58 9 9 T 537. 58 2 1 3 TG 538. 58 1 1 T 539. 58 3 1 6 10 TDG 540. 58 541. 59 5 5 T 542. 59 543. 60 2 2 T 544. 60 2 2 T 545. 60 3 1 4 TD 546. 60 12 12 T 547. 61 2 1 3 TD 548. 61 549. 62 6 6 T 550. 62 1 1 T 551. 63 1 1 T 552. 63 5 5 T 553. 63 4 6 10 TG 554. 64 555. 64 556. 65 2 2 T 557. 65 7 1 8 TD 558. 65 2 1 1 4 TDG 559. 66 6 6 T 560. 68 1 1 2 TG 561. 68 2 2 T 562. 68 563. 69 7 1 8 TD 564. 69 1 1 T 565. 69 4 4 T 566. 70 567. 71 9 3 12 TG 568. 72 569. 72 2 2 T 570. 72 4 1 5 TG 571. 73 3 1 4 TD 572. 73 4 4 T 573. 74 1 1 T 574. 74 1 1 T 575. 74 2 2 T 576. 74 1 1 2 TG 577. 75 8 3 11 TG 578. 77 579. 78 3 3 T 45 580. 79 2 1 3 TG 581. 79 5 1 6 TD 582. 80 11 1 1 13 TDG 583. 81 584. 81 1 1 G 585. 81 3 2 5 TG 586. 81 3 3 T 587. 81 2 2 T 588. 82 1 1 2 DG 589. 82 3 1 4 TD 590. 84 5 5 T 591. 84 6 1 1 8 TDG 592. 84 4 4 T 593. 85 2 2 T 594. 85 6 1 7 TG 595. 87 11 3 14 TG 596. 89 8 8 T 597. 89 5 2 7 TG 598. 90 6 6 T 599. 90 13 1 14 TG 600. 92 601. 92 6 6 T 602. 92 2 2 T 603. 93 604. 94 2 1 1 4 TDG 605. 95 3 1 4 TD 606. 95 2 1 3 TG 607. 95 4 5 9 TG 608. 96 3 3 T 609. 96 8 1 9 TG 610. 96 10 10 T 611. 97 4 1 5 TG 612. 97 613. 97 10 1 11 TD 614. 97 3 3 T 615. 97 6 6 T 616. 97 2 2 T 617. 99 618. 101 8 8 T Sexto grupo: 38 comentarios con extensión de 101 a 267 palabras (no hay textos de 100 palabras): Sin errores: 3 (8%) Con errores: 35 (92%) Total de errores: 221 (205 tildes, 2 diacríticos, 14 grafemáticos) Máximo número de errores en un comentario: 16 (en 123 palabras) No. pals No. coms. Coms. con error Relación coms:coms-error 101 1 1 1:1 103 1 1 1:1 104 2 2 2:2 106 1 1 1:1 108 1 0 1:0 109 1 1 1:1 110 2 2 2:2 111 2 2 2:2 619. 103 12 12 T 620. 104 6 6 T 621. 104 5 5 T 622. 106 6 6 T 623. 108 624. 109 11 11 T 625. 110 12 12 T 626. 110 2 2 T 627. 111 8 1 9 TG 628. 111 10 10 T 629. 112 8 1 9 TG 630. 113 8 1 9 TD 631. 115 5 5 T 632. 115 1 1 T 46 633. 118 6 1 7 TG 112 1 1 1:1 113 1 1 1:1 115 2 2 2:2 118 1 1 1:1 119 2 2 2:2 120 1 0 1:0 123 1 1 1:1 124 1 1 1:1 127 1 1 1:1 131 1 1 1:1 132 1 1 1:1 134 1 1 1:1 135 1 1 1:1 137 1 1 1:1 140 1 1 1:1 144 1 1 1:1 155 1 1 1:1 156 1 0 1:0 157 1 1 1:1 162 1 1 1:1 166 1 1 1:1 171 1 1 1:1 172 1 1 1:1 210 1 1 1:1 267 1 1 1:1 TOTAL 38 35 634. 119 2 2 T 635. 119 4 4 T 636. 120 637. 123 15 1 16 TG 638. 124 2 2 T 639. 127 6 1 7 TG 640. 131 4 4 T 641. 132 2 2 T 642. 134 1 1 T 643. 135 4 1 5 TG 644. 137 2 2 T 645. 140 4 4 T 646. 144 7 7 T 647. 155 7 7 T 648. 156 649. 157 5 1 2 8 TDG 650. 162 1 1 2 TG 651. 166 9 9 T 652. 171 1 1 T 653. 172 7 4 11 TG 654. 210 13 1 14 TG 655. 267 1 1 T