Lecturas DD4: Lingüística de Corpus en Traducción - Bernardini y Kenny (2020)
Document Details
Uploaded by AdventurousChalcedony9254
Mary Baldwin University
Bernardini y Kenny
Tags
Related
- Examen parcial de lingüística, USAC, 2do semestre, agosto 2023 (PDF)
- Cahiers de lexicologie 2016 PDF - La notion de collocation fondamentale
- Diversidad étnica, cultural y lingüística de México - PDF
- Monográfico Lecciones: El Legado Lingüistico de Latinoamérica (PDF)
- Tema 28: Política Lingüística y Marco Legislativo en Asturias (PDF)
- UNIDAD 3 - Lengua y Literatura - Currículo Básica Media - PDF
Summary
Documento académico que explora las aplicaciones de la lingüística de corpus en traducción. Se introducen diferentes tipos de corpus, como los monolingües, bilingües, paralelos y comparables; y sus usos en la investigación. Los autores también discuten las nuevas tecnologías y métodos que se integran en estos estudios, como el análisis estilométrico y la triangulación de datos.
Full Transcript
**[LECTURAS DD4]** **[Bernardini y Kenny (2020):]** **Desarrollo de la Lingüística de Corpus en Traducción**: Los autores destacan cómo la lingüística de corpus ha permitido avances en los estudios de traducción (descriptivos y aplicados), proporcionando un enfoque empírico para analizar las dif...
**[LECTURAS DD4]** **[Bernardini y Kenny (2020):]** **Desarrollo de la Lingüística de Corpus en Traducción**: Los autores destacan cómo la lingüística de corpus ha permitido avances en los estudios de traducción (descriptivos y aplicados), proporcionando un enfoque empírico para analizar las diferencias entre textos traducidos y no traducidos, y estudiar patrones recurrentes en traducción. Se estudian mediante: corpus query tools, corpus análisis tools and concordancers. El corpus no debe ser representativo de un tipo de lenguaje, sino que debe estar balanceado y ser relevante según la pregunta de exploración. "not only for explicit design criteria or purposes, but also for finding out about general language use as opposed to specialized counterparts" "it must include authentic data, as it pivots around the empiricism of information, which gave rise to Corpus-based translation studies (CTS)" **Tipos de Corpus y su Aplicación en Traducción**: Se describen varios tipos de corpus (monolingües, bilingües, paralelos, comparables) y su relevancia para la investigación en traducción, especialmente en el análisis de características típicas de los textos traducidos y el estilo de los traductores. **Corpus Monolingües**: Estos corpus contienen textos en un solo idioma y permiten analizar características del lenguaje traducido en comparación con el no traducido. Por ejemplo, un corpus monolingüe de textos traducidos y otro de textos originales en el mismo idioma pueden usarse para identificar patrones lingüísticos específicos de la traducción, como la tendencia a la simplicidad o la explicitud. - Según el fin del corpus, pueden tener anotaciones de diferentes tipos: contextuales (metadata), estructurales (divisiones del texto: titulares, párrafos y oraciones) y lingüísticas (etiquetado de cada parte del discurso). **Corpus Bilingües y Multilingües**: Incluyen textos en dos o más idiomas y se utilizan para estudios contrastivos y de equivalencias entre lenguas. Son valiosos en la formación de traductores y en investigaciones de análisis contrastivo, ya que permiten explorar cómo se traducen conceptos y estructuras en distintos idiomas. **Corpus Paralelos**: Estos corpus contienen textos junto con sus traducciones, y suelen estar alineados (generalmente a nivel de oración). Se emplean para investigar las decisiones traductoras y los shifts de traducción; por lo tanto, hay correspondencia entre texto fuente y meta. La alineación permite realizar búsquedas en un idioma y ver la equivalencia en el otro, lo cual es útil para estudiar fenómenos como la elección léxica y la estructura gramatical en la traducción. **Corpus Comparables**: Se componen de subcorpus en distintos idiomas o de textos traducidos y no traducidos dentro del mismo idioma, con un enfoque temático o de género similar, mas no de correspondencia. Esto permite analizar cómo difiere el lenguaje traducido del no traducido o comparar cómo se tratan temas específicos en diferentes lenguas y culturas. Cada uno de estos corpus ofrece perspectivas distintas y útiles en la investigación en traducción. Bernardini y Kenny destacan cómo la elección del tipo de corpus depende de los objetivos del estudio, siendo fundamental en investigaciones de patrones y en la comparación de tendencias y estilos entre lenguas y culturas. - El uso de corpora está sujeto a la identificación de "universals of translation", aunque estas son cuestionadas por varios académicos, así como a generalizaciones como el análisis de comunicación en un idioma extranjero y la comunicación restringida (traducción de la lengua fuente a otra lengua editada o no nativa) **Integración de Nuevas Tecnologías y Métodos**: Los autores resaltan el uso de tecnologías como herramientas de etiquetado (tagging) y la incorporación de métodos como el análisis estilométrico (stylometric analysis) y la triangulación de datos (*corpus triangulation*), lo cual permite una comprensión más profunda de las elecciones estilísticas y lingüísticas en la traducción, que superan el método descriptivo (otrora predominante en dichos estudios). **Desafíos y Complejidades de la Traducción Audiovisual e Interpretación**: Aunque la creación de corpus para textos audiovisuales e interpretación plantea desafíos técnicos, los autores señalan la riqueza de este enfoque para analizar fenómenos específicos, como la descripción de audio y el uso del humor en la traducción de medios, así como corpus enfocados en el estudio de lengua de señas. **[Tendencias Futuras]**: Bernardini y Kenny sugieren que la investigación futura en estudios de traducción basados en corpus debería enfocarse en una mayor contextualización de los datos, el vínculo entre producto y proceso, y la aplicación de métodos estadísticos avanzados. **[Laviosa (2010):]** **Definición y Clasificación de Corpus**: un *corpus* es una colección de textos auténticos en formato electrónico, diseñados según criterios específicos. Propone seis parámetros de clasificación de corpus: - *Corpus de muestra* vs. *de monitoreo*: un corpus de muestra es finito y representa un idioma o variedad específica, mientras que uno de monitoreo se actualiza continuamente. - *Sincrónico* vs. *diacrónico*: un corpus sincrónico contiene textos de un momento específico, mientras que un corpus diacrónico abarca períodos prolongados. - *General* vs. *especializado*: un corpus general representa el lenguaje cotidiano, y uno especializado cubre un área específica de conocimiento. - *Monolingüe, bilingüe o multilingüe*: según el número de idiomas en los textos. - *Escrito, oral, mixto o multimodal*: basado en los modos semiológicos presentes. - *Anotado o no anotado*: incluye niveles adicionales de análisis o metadatos en los corpus anotados. **Herramientas y Procesamiento de Corpus**: Laviosa menciona dos herramientas básicas: el *word lister* para contar y ordenar palabras, y el *concordancer* para visualizar palabras nodo o tokens en sus contextos de izquierda y derecha. Estos también pueden buscar grupos de tokens, comodines así como words o tokens en combinación con operadores Boolean (and, or y not). Estas herramientas ayudan a identificar patrones y estudiar elementos léxicos y gramaticales dentro de grandes conjuntos de datos lingüísticos. **Procedimientos Analíticos**: Describe un enfoque cíclico de análisis de corpus, que incluye observación, formulación de hipótesis, consolidación y reporte. Estos pasos permiten a los investigadores analizar patrones lingüísticos y establecer hipótesis basadas en datos empíricos. **Estudios Descriptivos Basados en Corpus**: Laviosa destaca el uso de corpus en la búsqueda de los llamados \"universales de la traducción\", como la explicitación y simplificación, los cuales son características comunes en textos traducidos. Este análisis permite explorar cómo los textos traducidos difieren de los textos originales, ya sea por decisiones del traductor o por cuestiones de estilo, a través de corpus monolingües comparables y paralelos bilingües. Unidireccionales: Dos subcorpus: textos originales en lengua A y sus traducciones en lengua B. Bidireccionales: Cuatro subcorpus: texto original en lengua A, traducción en lengua B/texto original en lengua B, traducción en lengua A. **Aplicaciones de Corpus en la Formación de Traductores y Evaluación de Traducciones**: Subraya que los corpus especializados y comparables son útiles para enseñar equivalencias funcionales y mejorar el conocimiento específico de una disciplina. En la evaluación de traducciones, los corpus permiten establecer criterios objetivos para comparar la calidad de traducciones en función de precisión léxica, fluidez y comprensión del tema -\> TQA, translation quality assessment. **Futuro de los Estudios Basados en Corpus**: Laviosa sugiere que el futuro de los estudios de corpus en traducción dependerá de la colaboración interdisciplinaria y el uso de análisis multimodales. También prevé que la combinación de datos de corpus con métodos experimentales y etnográficos enriquecerá la evidencia lingüística en los estudios de traducción. **[Hunston (2022):]** En *Corpora in Applied Linguistics* (2022), Susan Hunston explica cómo un corpus lingüístico puede utilizarse para explorar patrones (regularidades observadas, no recurrencias ni ocurrencias fijas) en el lenguaje, destacando su papel clave en el descubrimiento de estructuras, comportamientos lingüísticos y fenómenos semánticos que no son fácilmente observables en muestras pequeñas de texto. A través de la recopilación de grandes volúmenes de datos textuales, un corpus permite a los investigadores identificar de manera precisa patrones en el uso del lenguaje, lo que resulta valioso para diversos campos de la lingüística aplicada. Un enfoque fundamental que Hunston menciona es el uso de las *líneas de concordancia*, que muestran las ocurrencias de una palabra o frase específica en su contexto. Al observar estas líneas, los investigadores pueden analizar cómo una palabra interactúa con otras (es decir, sus *colocaciones*), las estructuras sintácticas que la acompañan y los patrones semánticos que emergen en torno a ella. "Some groupings for concordance lines might serve a particular purpose better than others" Encapsulation: referring back and to summarise a segment of the preceding discourse- Este tipo de análisis puede revelar *prosodia semántica* (el tono evaluativo de una palabra) y otros aspectos sutiles del significado que a menudo pasan desapercibidos en análisis más superficiales. Además, Hunston introduce métodos como la *gramática de patrones* y el *Análisis de Patrones de Corpus*, los cuales ayudan a desentrañar combinaciones recurrentes de palabras y a explorar cómo se organizan estas combinaciones en estructuras gramaticales. Por ejemplo, el *Análisis de Patrones de Corpus* permite examinar las relaciones entre los diferentes componentes de las oraciones y cómo estos patrones se repiten o varían en diversos contextos textuales, contribuyendo a la comprensión de estructuras lingüísticas específicas. Hunston también resalta la importancia de los métodos cuantitativos, que permiten medir la frecuencia de palabras, frases o estructuras gramaticales dentro de un corpus. Herramientas como los análisis de palabras clave y las listas de frecuencia facilitan la identificación de características dominantes en el corpus, mientras que el análisis multidimensional puede revelar cómo se distribuyen estos patrones en distintos géneros o registros textuales. En resumen, el análisis de patrones en un corpus permite a los investigadores descubrir tanto patrones evidentes (como colocaciones frecuentes) como aspectos más profundos del uso lingüístico, ayudando a comprender fenómenos complejos en áreas como la enseñanza de lenguas, el análisis del discurso y la traducción. **[Marchi (2022):]** - Anna Marchi (2022) examina cómo la lingüística de corpus se aplica al análisis de los medios de comunicación, un área particularmente rica para el estudio debido a la relevancia y abundancia del discurso noticioso. Marchi explica que el \"discurso noticioso\" abarca una variedad de formas de contenido periodístico: desde la televisión y los periódicos hasta los medios digitales y la radio. - Esta amplitud hace que el discurso noticioso sea un campo ideal para la lingüística de corpus, ya que permite explorar patrones lingüísticos a gran escala, revelando las estructuras recurrentes, las representaciones ideológicas y las estrategias discursivas que subyacen en la forma en que se informa sobre los eventos. Studies of media corpora: I) News structure and discourse function or II) studies of media representation. -Corpus data must match a research question (and viceversa). -Repurposing corpora might belie some limitations: general corpora might not help study specific phenomena or social topics (specialized corpora are prioritized in such cases). \- Además, Marchi aborda cómo los corpus de noticias también pueden ser utilizados para analizar tendencias a lo largo del tiempo, proporcionando perspectivas sobre la evolución del lenguaje y el discurso a medida que los medios responden a cambios sociales, políticos y tecnológicos. \- Therefore, diachronic compilation is preferred over a synchronic one. \- "Corpora are made and the choices (resting on: source -- historical or modern newspapers, structure -- space constraints of news media, specifically in layout of their corpus, might change the way it is analysed and substance -- data richness as opposed to boilerplate or repetitive info) on which they are based not only will but should determine their use. - Una de las aplicaciones clave de los corpus en este contexto es la capacidad de identificar y analizar cómo se construyen las narrativas en los medios, tales como el uso de palabras con connotaciones específicas, los enfoques narrativos y las técnicas de representación. Ex: newspaper´s style has become an increasingly oral one -\> tabloidization of news form. Ex 2: Evaluative prosody: helps stereotyping and shaping perceptions or attitudes through language use (collocates with "refugees" which reinforce social discourse and perceptions). - When selecting corpora, relevance to research question and journalistic status is required, ensuring homogeneity (comparability across texts) and generalizability (representativeness of findings). - - Marchi enfatiza que los corpus permiten estudiar estos patrones de manera objetiva, ayudando a comprender cómo los medios configuran el sentido de eventos y cómo las representaciones lingüísticas pueden influir en la percepción pública (Mutation plays an important role in this, as it represents journalistic evolution, ex: headline leads, textual positions or tematización, persuasion in British media) - Newsworthiness of events / newsworthiness values \ mediated through language and image, discursively constructed through repetition of visual and verbal patterns. -News form will always contain a wide variety of text types -\> corpus on news media are subjected to space constraints. CADS investigation should focus on the complex interaction between production, message and reception). **[Brookes et al. (2022):]** **-** Brookes, Atkins y Harvey (2022) explora cómo se pueden utilizar los métodos de lingüística de corpus para analizar el lenguaje utilizado en contextos relacionados con la salud y la enfermedad. Este enfoque permite examinar las representaciones lingüísticas de estos temas en diferentes tipos de comunicación, especialmente en el ámbito de los medios de comunicación y el cuidado de la salud. \- "El lenguaje no solo refleja, sino que también construye percepciones y actitudes sobre la salud, la enfermedad y los pacientes, lo cual tiene implicaciones importantes tanto para la comunicación en el sector de la salud como para los medios de comunicación" **[Representación lingüística de la salud y la enfermedad:]** - Los autores argumentan que los corpus permiten un estudio detallado de los patrones lingüísticos utilizados para describir la salud y la enfermedad. La lengua, al ser una herramienta que refleja ideologías y valores, ofrece una visión importante sobre cómo los individuos y las instituciones se relacionan con las cuestiones de salud. El enfoque solía centrarse en las interacciones habladas entre pacientes y doctores, ahora también se analiza en otros contextos clínica y se combina perspectivas analizando críticamente el discurso, no solo para cambiar prácticas, sino también para describir y entenderlas. - Si bien se usaba corpus para analizar fenómenos puntuales y específicos de la oralidad médica (cortesía de doctores al atender a pacientes), ahora analizan la prensa y representaciones literarias, así como medios digitales como páginas de autoayuda). - A través de la aplicación de métodos como el análisis de colocaciones y la identificación de palabras clave, los investigadores pueden desentrañar cómo ciertos términos y frases son usados para enmarcar temas de salud de maneras específicas. Por ejemplo, el análisis de la representación metafórica de enfermedades como la demencia revela cómo se utilizan metáforas relacionadas con la guerra, la lucha o el deterioro, lo cual influye en las percepciones públicas sobre estas enfermedades. Los estudios de caso muestran que, al analizar estos patrones lingüísticos a gran escala, es posible descubrir cómo el lenguaje contribuye a construir una narrativa de vulnerabilidad, miedo o lucha, lo que puede impactar las políticas de salud y las respuestas sociales ante las enfermedades. - Cabe destacar que la tecnología ahora juega un papel importante en las búsquedas médicas. Por lo tanto, el análisis de corpus como estos tiene un enfoque metodológico (cuantitativo y cualitativo). Asimismo, es interdisciplinario y tiene una diversidad teórica y metodológica. **[Estudios de caso:]** En los estudios de caso, uno de los ejemplos clave es el análisis de los correos electrónicos de solicitud de consejo sobre VIH/SIDA extraídos de un sitio web dirigido a adolescentes. Aquí, la lingüística de corpus permite identificar patrones específicos en el lenguaje utilizado, como la frecuencia de términos relacionados con el riesgo y las emociones asociadas. Al mismo tiempo, se puede observar cómo los jóvenes usan el lenguaje para expresar preocupación, pero también cómo los expertos en salud comunican respuestas a estos temas. Este tipo de análisis facilita la comprensión de las necesidades comunicativas de los pacientes y cómo mejorar la interacción en el ámbito digital. En otro estudio de caso, se analiza cómo la prensa británica, específicamente el Daily Mail, representa la demencia a través de metáforas y estructuras lingüísticas. Este análisis revela cómo las enfermedades son etiquetadas de manera que pueden influir en la actitud pública hacia los pacientes, a menudo creando una narrativa que involucra una \"lucha\" constante contra la enfermedad, lo que puede generar estigmatización o un enfoque simplista de la salud pública. **[Desafíos y oportunidades]** El uso de la lingüística de corpus en este contexto presenta desafíos, sobre todo en lo que respecta a la interpretación de los datos. Aunque los patrones lingüísticos son evidentes, el significado subyacente puede variar dependiendo del contexto cultural, social y político. Por ejemplo, el término \"lucha\" puede tener connotaciones positivas en un contexto de superación personal, pero puede ser problemático cuando se aplica a enfermedades crónicas o a personas que no pueden \"ganar\" esa lucha. Los autores advierten que la interpretación de los datos debe tener en cuenta no solo las estadísticas de frecuencia, sino también el contexto en el que estas palabras y frases se emplean. Además, se destaca el potencial de la lingüística de corpus para influir en las estrategias de comunicación en salud, especialmente en la creación de materiales educativos o en campañas de salud pública. Comprender cómo se representan ciertos temas en los medios puede guiar a los profesionales de la salud para que utilicen un lenguaje más inclusivo, sensible y preciso, que favorezca una comunicación más efectiva y menos estigmatizante. **[Conclusión]** Brookes, Atkins y Harvey concluyen que el uso de corpus lingüísticos en la comunicación de salud es una herramienta poderosa para comprender y mejorar cómo se representan las enfermedades en la sociedad. Este enfoque no solo proporciona datos objetivos sobre el uso del lenguaje, sino que también permite a los investigadores y profesionales de la salud reflexionar sobre el impacto del lenguaje en la percepción pública de la salud y la enfermedad. Este enfoque se considera fundamental para la creación de una comunicación más inclusiva y precisa, especialmente en contextos tan sensibles como la salud, donde las representaciones lingüísticas pueden influir significativamente en las respuestas sociales y políticas frente a diferentes condiciones de salud. **[McEnery y Brookes (2022):]** El capítulo \"Building a written corpus: what are the basics?\" de McEnery y Brookes (2022) ofrece una guía detallada sobre los fundamentos de la construcción de un corpus escrito. Este tipo de corpus es esencial para la lingüística de corpus, ya que facilita el análisis de patrones lingüísticos a través de grandes colecciones de texto. Los autores subrayan varios puntos clave en el proceso de construcción de un corpus: **1. Definir los objetivos del corpus** El primer paso en la creación de un corpus es determinar con claridad qué se espera estudiar. Este objetivo guiará todas las decisiones posteriores, desde la selección de los textos hasta las herramientas de análisis que se utilizarán. Los autores insisten en que un corpus debe alinearse con preguntas de investigación específicas, ya que de lo contrario, se corre el riesgo de crear una base de datos que no proporcione insights útiles. Si, por ejemplo, se desea estudiar el uso del lenguaje en el ámbito académico, entonces el corpus deberá centrarse en textos escritos en ese contexto. **2. Selección de textos representativos** La representatividad es uno de los principios clave en la construcción de un corpus, así como el uso de textos auténticos. McEnery y Brookes señalan que los textos seleccionados deben ser lo suficientemente diversos para reflejar el lenguaje de interés en una variedad de contextos, géneros y registros. Esto es especialmente importante para evitar sesgos que puedan surgir si solo se seleccionan textos de un tipo o fuente específica. Se debe buscar una muestra de textos que capture de forma fiel las variaciones naturales en el lenguaje, sin intervenciones de lingüistas, lo que a su vez garantiza que los resultados del análisis sean válidos. **3. Consideraciones éticas y legales** La creación de un corpus escrito también implica una serie de desafíos éticos y legales. McEnery y Brookes hacen hincapié en que los textos utilizados deben ser obtenidos de manera legal y ética. Esto es particularmente relevante cuando se manejan textos protegidos por derechos de autor o datos sensibles. Es fundamental obtener permisos cuando sea necesario y garantizar que los datos sean anonimizados si contienen información personal. Además, se debe obtener el consentimiento explícito en casos en los que el contenido se derive de fuentes privadas. **4. Tamaño y cobertura del corpus** El tamaño del corpus es una cuestión clave que McEnery y Brookes abordan en su capítulo. Aunque un corpus más grande generalmente permite un análisis más detallado y representativo, el tamaño debe ser equilibrado con la capacidad de manejo de los datos y los recursos disponibles para el análisis. Un corpus de tamaño adecuado es el que cubre de forma suficiente las variaciones y matices del lenguaje sin volverse inabordable. Los autores sugieren que se debe considerar la relación entre el tamaño del corpus y el tipo de investigación a realizar (balance and size of a corpus may vary according to purpose of investigation, type of análisis and practical considerations/limitations, there is no ideal size defined). **5. Preprocesamiento de datos** El preprocesamiento de los textos es otro aspecto crítico en la construcción del corpus. Este paso implica la limpieza y organización de los datos para hacerlos utilizables en el análisis. McEnery y Brookes detallan actividades como text gathering and processing o text collection, text encoding o inclusión de metadata, información paralingüística y anotaciones lingüísticas, así como la eliminación de \"ruido\" o text cleaning (errores tipográficos, formato innecesario, etc.). Este preprocesamiento es esencial para garantizar la calidad y la precisión de los resultados del análisis. **6. Herramientas y software de análisis** Los autores también discuten las herramientas y el software necesarios para crear y trabajar con corpora escritos. Desde programas de procesamiento de texto (XML, CLAWS, VARD, WordSmith Tools) hasta software especializado en análisis de corpus, la elección de las herramientas dependerá de las características del corpus y los objetivos de la investigación. Los programas de análisis pueden realizar diversas tareas, como la extracción de concordancias, el análisis de frecuencia de palabras y la identificación de patrones lingüísticos. La accesibilidad y la capacidad de estos programas son factores importantes a considerar, ya que facilitarán el trabajo en todas las etapas del proceso. - Standards arise from practical consensus. **Reflexión crítica y conclusión** El capítulo de McEnery y Brookes proporciona un marco metodológico sólido para los investigadores interesados en construir corpora escritos (un modo muy privilegiado en la actualidad, que contiene handwritten or typed content, speech representing texts, not transcribed or linguistic research). Su énfasis en la claridad de los objetivos, la representatividad, y las consideraciones éticas y legales es crucial para asegurar que los corpora sean tanto efectivos como responsables. Al mismo tiempo, la discusión sobre el preprocesamiento de datos y las herramientas de análisis subraya la importancia de un enfoque detallado y técnico en la construcción de un corpus que sea no solo grande, sino también manejable y fiable. A lo largo del capítulo, los autores también reflexionan sobre los retos inherentes a este tipo de proyectos, como la gestión de grandes volúmenes de datos y la necesidad de adaptar las técnicas de análisis a las particularidades del corpus construido. - **[Anthony (2022):]** El capítulo de Laurence Anthony, *\"What can corpus software do?\"* (2022), proporciona un análisis exhaustivo sobre las capacidades de las herramientas de software para corpus en el análisis lingüístico. El autor se enfoca en las funciones esenciales que permiten estas herramientas, tales como: Corpus software types: online (cloud-based tools, EnglishCorpora.org, offline (standalone packages and downloaded from providers, AntConc) and DIY tools (scripts, commands and scripting programming language, Python and Github) = they all have strengths and weaknesses. Entre los elementos, se estudia: 1\. Frecuencia La frecuencia se refiere al número de veces que una palabra o un elemento lingüístico aparece en el corpus. Esto es una medida cuantitativa que indica la ocurrencia de un ítem específico, ya sea una palabra individual o una secuencia de palabras. Es útil para identificar palabras clave y comparar su aparición en distintos corpus. La frecuencia permite observar la \"keyness\", es decir, qué palabras son más (o menos) comunes en un corpus comparado con otro, ayudando a destacar términos relevantes o característicos en un conjunto de textos. 2\. Patrones Los patrones son estructuras o secuencias recurrentes en el uso del lenguaje que pueden ir más allá de una palabra individual. Incluyen colocaciones, n-grams y combinaciones lexico-gramaticales, mostrando cómo las palabras se agrupan o se estructuran en contextos específicos. Los patrones no solo reflejan la frecuencia de palabras individuales sino también cómo y con qué otras palabras suelen aparecer. Por ejemplo, las colocaciones se refieren a palabras que frecuentemente se encuentran juntas, mientras que los n-grams son secuencias recurrentes de varias palabras. Estos patrones proporcionan una visión más profunda de las estructuras preferidas o del estilo en el lenguaje de un corpus. Frecuencia mide la cantidad de apariciones de palabras o elementos individuales, mientras que los patrones examinan la relación y agrupación entre palabras, revelando estructuras de uso del lenguaje en el corpus. Normalización y Keyness Normalización: Ajusta la frecuencia de palabras en relación al tamaño del corpus. Esto es importante para comparar corpus de distintos tamaños y obtener datos proporcionales. Keyness: Significancia estadística de la frecuencia de una palabra clave en un corpus. Frecuencia de un ítem en un corpus en comparación con otro. Positive keywords: palabras aparecen significativamente con más frecuencia. Negative keywords: palabras aparecen significativamente menos. Es necesario tener corpus comparables. Debemos tener claro qué estamos comparando y por qué (ej. Datos de un corpus de oral de aprendices que contenga exámenes de speaking no podría ser comparado con un corpus que contenga monólogos). Muchos corpus de acceso abierto tienen ya añadido la opción de keyness. \- Tipos de patrones: Collocates (colocaciones): Identifica palabras que tienden a aparecer juntas con frecuencia, lo que ayuda a entender relaciones entre palabras y patrones de uso (with a flair of grandeur). N-grams: Patrones de co-ocurrencia de dos o más palabras, usadas comúnmente en el análisis de frases recurrentes o estructuras sintácticas (Nice to meet you, I am fine). OJO: Collocates son palabras que rodean una palabra clave específica y se analizan en su relación con esta, mientras que n-grams son secuencias de palabras recurrentes de una longitud específica, sin un foco en una palabra clave en particular. Las colocaciones exploran la asociación de palabras en torno a un nodo, y los n-grams examinan combinaciones de palabras de manera fija. Lexico-gramática: Análisis de cómo las palabras se combinan en patrones gramaticales específicos, útil para estudiar cómo ciertos términos suelen acompañarse de estructuras gramaticales específicas. Lenguaje en Contexto: Esta sección destaca la importancia de analizar el lenguaje en su contexto para identificar cómo las palabras y frases se comportan en diferentes géneros textuales o modalidades (escrito u oral). Las co-ocurrencias pueden variar según el tipo de discurso y el contexto. 9\. Líneas de Concordancia (KWIC): Método KWIC (Keyword in Context): Permite observar una palabra clave en su contexto inmediato, mostrando las palabras a su izquierda y derecha. Este método facilita la identificación de patrones y se emplea para agrupar líneas de concordancia con un fin interpretativo específico. The "keyword in context" (KWIC) method, otherwise known as the set of concordance lines. Essentially, concordance lines consist of a node word or phrase with a small amount of context (measured in characters) to the left and the right» (Hunston, 2022). Observing patterns in concordance lines essentially involves grouping those lines together. In most examples, several alternative groupings could be proposed, each highlighting different kinds of information. There is no objectively correct grouping, although some will be more useful for particular purposes than others. Although the presence of individual words may provide help in grouping, usually a wider context and more interpretation are needed to form groups (that is, to identify patterns) that might be thought to be appropriate» (Hunston, 2022). Anthony también enfatiza la flexibilidad de estas herramientas para adaptarse a diversas necesidades de investigación. Por ejemplo, mientras que programas como AntConc son bastante accesibles y adecuados para investigaciones más generales, los software especializados o personalizados pueden ofrecer opciones más sofisticadas para tareas específicas, como el análisis de lenguajes de especialidad o el estudio de corpus multilingües. El autor subraya la importancia de un buen diseño de corpus y la necesidad de comprender cómo estructurar los datos de manera que las herramientas de software puedan realizar análisis significativos. Asimismo, se menciona que las herramientas deben ser elegidas en función de los objetivos específicos del investigador, ya que cada software puede ofrecer diferentes enfoques y características de análisis. En resumen, el capítulo no solo presenta las capacidades de las herramientas de software de corpus, sino también sus aplicaciones prácticas en la lingüística moderna, destacando cómo estas herramientas facilitan el análisis detallado de datos lingüísticos y cómo permiten a los investigadores descubrir patrones y relaciones lingüísticas de manera más eficiente. **[Jones (2022):]** Jones expone varios enfoques clave para el análisis de corpus: -Monomodales solían ser populares, ahora los multimodales gozan de atención. -Steps for a search: Do people say X? / How frequently do people say? / Compare frequencies of X within corpora / Gather qualitative analysis and concordance line info. **[Frecuencia de palabras]**: Permite identificar términos recurrentes y estudiar su uso a través de grandes volúmenes de texto. Este análisis puede ayudar a descubrir tendencias y destacar términos clave en un corpus específico. ![](media/image2.JPG) **[Concordancia]**: Analiza las ubicaciones exactas de las palabras dentro de un contexto textual, mostrando cómo se utilizan y en qué situaciones se encuentran, lo cual es útil para comprender su significado en contextos concretos. **[Colocaciones]**: El análisis de colocaciones examina qué palabras tienden a aparecer juntas de manera significativa, proporcionando información sobre estructuras lingüísticas comunes y el uso contextual de combinaciones léxicas. **[Tipos de corpus]**: Jones resalta la importancia de conocer la naturaleza del corpus (por ejemplo, especializado o general) y sus características para garantizar que el análisis sea relevante y se adapte a los objetivos de investigación. Análisis cualitativo: Aunque el enfoque cuantitativo es esencial, el análisis cualitativo también juega un papel importante al permitir la interpretación contextual de los datos y la identificación de patrones más profundos que no siempre son visibles en los números. Herramientas de análisis: El uso de herramientas informáticas, como AntConc o Sketch Engine, es fundamental para gestionar grandes volúmenes de datos lingüísticos y facilitar el análisis, automatizando procesos como la búsqueda de concordancias y la identificación de patrones léxicos. **[Limitaciones del corpus:]** **[Key concepts:]** Lexical priming -\> expecting a word or phrase to occur along with other words whenever it´s heard or read. Using corpora for complex frequency searches -\> helps us combine qualitative and quantitative analysis of language in context. Jones concluye que el análisis de corpus debe ser flexible y adaptarse a las necesidades del investigador, asegurando que las herramientas y métodos sean apropiados para el tipo de corpus y el enfoque de la investigación. ![](media/image4.JPG)