Corpus y enseñanza del léxico

He estado leyendo este breve, claro e interesnate libro de Jane McCarten sobre corpus aplicados a la enseñanza del vocabulario. He ido tomando notas y al final he hecho este mapa conceptual (pdf). Sirva como recomendación del libro.

mccarten(clicar sobre la imagen para ver más grande)

Referencia:
McCarten, J. (2007). Teaching vocabulary. Lessons from the corpus, lessons for the classroom. Cambridge University Press. Recuperado a partir de http://www.cambridge.org/other_files/downloads/esl/booklets/McCarten-Teaching-Vocabulary.pdf

Anuncios

Uso de corpus en la enseñanza de LE

Algunas notas de la presentación de Randi Reppen en The New School de Nueva York recogida en este vídeo:

Los corpus nos dicen qué enseñar.  Ayudan, por tanto, a diseñar sílabos. También nos dan un mejor conocimiento de la lengua que se enseña, más allá de los juicios del hablante nativo. Finalmente, ofrecen a los alumnos usos y contextos reales.

Perdemos la claridad de las reglas, pero ganamos en profundidad (y también en complejidad). Incorporamos información sobre la relación entre léxico, morfosintaxis y pragmática no como cosas separadas o como diferentes momentos del estudio de la lengua, sino como algo inseparable. Nos dan también una nueva forma de entender eso que llamamos reglas. Y no es cuestión de que el uso de un corpus las contradiga o las refine, sino de que cuando se piensa en términos de patrones en vez de reglas la concepción de la lengua y, en consecuencia, de lo que enseñamos cambia.

Ahora bien, usar un corpus no es fácil como tampoco lo es el camino que lleva de tener un dato en un corpus a tener una actividad lista para llevar al aula. En primer lugar, no basta con las listas de frecuencias. Ese primer criterio cuantitativo tiene que ser completado con otros criterios como el de las necesidades de los alumnos, la rentabilidad, la dificultad del aprendizaje, etc. En segundo lugar, hay dificultades relacionadas con las habilidades que se requieren para manejar un corpus. En tercer lugar, hay que tener un buen corpus (variedad de textos, discurso escrito y hablado, variedad de hablantes, tener en cuenta la varación, etc.) y un buen software porque, aunque se dice que internet es un inmenso corpus digitalizado, si no tienes un software que sepa “leer” esos datos no sirve de nada.

Es obvio que los corpus son algo irrenunciable para los expertos que estudian las lenguas y que ya no es suficiente con buscar ejemplos para las afirmaciones que hacemos sobre la lengua y que los corpus deberían ser la base para la creación de materiales de enseñanza de lenguas, pero no está tan claro que sean una herramienta de consulta para los profesores.

Personalemnte, entender la lógica de trabajo que hay detrás de un corpus y ver qué tipo de conocimiento se puede extraer de su uso me está haciendo ver de otra manera la lengua y, por tanto, lo qué tengo que enseñar y cómo tengo que enseñarlo.

Extras

Voy poniendo otros vídeos de este serie en esta lista de reproducción y he dejado notas de otras pesentaciones aquí, aquí, aquí y aquí.

Lista de libros de Reppen en Amazon.

Corpus del español

Enlaces a diferentes corpus del español.

  1. Corpus del español mexicano contemporáneo.
  2. Corpus del español.
  3. CORPES. Corpus del español del siglo XXI.
  4. Corpus del español actual.
  5. Wikicorpus.
  6. Corpus de referencia del español actual.
  7. Corpus SenSem.

Sólo para tenerlos bien localizados, porque, realmente, yo no tengo ni idea de corpus ni sabría qué hacer con ellos. Pero justamente estos días estoy haciendo diferentes lecturas sobre lingüística del corpus y su aplicación a la enseñanza de LE que me están interesando mucho.

FLAX Project

FLAX Project

The FLAX (Flexible Language Acquisition) project aims to automate the production and delivery of practice exercises for overseas students who are learning English. Exercise material comes from digital libraries, which can supply a virtually endless supply of collaborative and competitive language activities. (All software produced by this project is open source, issued under the GNU General Public License).

Lo que me interesa de este proyecto es que es una forma de rentabilizar la cantidad enorme de textos que hay en internet y que puede ser usado para aprender lenguas. Lo peor es que este tipo de proyectos siempregeneran activiades de rellena huecos que acaban siendo más de lo mismo. Sin embargo, creo que con el tratamiento informático adecuado podría ser útil para la búsqueda de textos que ilustren contenidos formales determinados. El primer ejemplo que me viene ahora es de las colocaciones, pero seguro que se podría hacer mucho con la cuestión de los patrones que reunen contenidos léxicos y morfosintácticos. Claro, yo solo imagino, en realidad, no tengo ni idea de si es técnicamente posible o no.

Más información en la web del proyecto.

Wikicorpus

Desde INFOLING me llega información sobre wikicorpus 1.0. Se trata de un corpus construido con las entradas de la wikipedia y que incluye el español, además del catalán y el inglés. En su web se presenta así:

The Wikicorpus is a trilingual corpus (Catalan, Spanish, English) that contains large portions of the Wikipedia (based on a 2006 dump) and has been automatically enriched with linguistic information. In its present version, it contains over 750 million words.

The corpora have been annotated with lemma and part of speech information using the open source library FreeLing. Also, they have been sense annotated with the state of the art Word Sense Disambiguation algorithm UKB. As UKB assigns WordNet senses, and WordNet has been aligned across languages via the InterLingual Index, this sort of annotation opens the way to massive explorations in lexical semantics that were not possible before.

Moreover, we also provide an open source Java-based parser for Wikipedia pages developed for the construction of the corpus.

El corpus es un trabajo de Samuel Reese, Gemma Boleda, Montse Cuadros, Lluís Padró y German Rigau.

No es ningún secreto que internet es, entre otras cosas, un gran archivo de textos. Basta hacer una búsqueda en google para obtener datos del uso de cualquier elemento lingüístico. Iniciativas como wikicorpus van un paso más allá al etiquetar el corpus ofreciendo además de los datos lingüísticos una codificación con información lingüística. No sería de extrañar que este de corpus, basados en textos archivados en internet, proliferen en los próximos años.

Spanish learner language oral corpus (SPLLOC)

logoHace unos meses me llegó información sobre la página del Spanish learner language oral corpus (SPLLOC). Es un corpus con producciones orales de aprendices de español. Está disponible el audio y la transcripción. Los aprendices son estudiantes de español cuya primera lengua es el inglés desde niveles iniciales hasta avanzados. Las grabaciones se han hecho mediante diversas técnicas de elicitación que están detalladas en la página. El contenido de la página también está disponible vía CHILDES Y TALKBANK. El corpus es accesible a todo el mundo y los investigadores que lo deseen pueden usarlo para sus trabajos citando las fuentes oportunamente. Todo se explica en la página.

El único pero es que las grabaciones no recogen el discurso oral de los alumnos tal y como se produce en el aula. Aunque las técnicas de elicitación sí son consecuentes con los objetivos de investigación del proyecto. En definitiva una página con mucho material de interés para investigadores.

Construcción de un corpus y análisis de datos

El trabajo para mi memoria de máster avanza lento, pero por fin estos días estoy logrando dar un paso importante que, por lo menos me permita, animarme pensando que ya tengo algo hecho. Esta semana he acabado la recogida de datos y tengo el corpus casi listo.  El siguiente paso es el análisis de los datos. Aunque pienso mucho en ello y no acabo de verlo claro, el estado actual de mis ideas está plasmado en este mapa mental. Es además el punto donde estoy ahora mismo. Lo dejo aquí.

Sigue leyendo