Datasets públicos para ML en español

Uno de los problemas más frecuentes al empezar un proyecto de machine learning en español es encontrar datos de calidad. La mayoría de los benchmarks y datasets de referencia están en inglés, y los recursos en español son más dispersos y menos documentados. Este artículo recopila las fuentes que más usamos y las que más recomendamos.

Datos de texto y NLP

Para tareas de procesamiento de lenguaje natural en español, el punto de partida más sólido es el corpus de la Biblioteca Virtual Miguel de Cervantes, que ofrece acceso a miles de textos literarios e históricos en español. Para texto contemporáneo, el corpus CORPES XXI de la Real Academia Española es una referencia, aunque su acceso completo requiere registro.

Para tareas más específicas: el dataset XNLI incluye inferencia de lenguaje natural en español; el Spanish STS Benchmark permite evaluar similitud semántica; y los datos de Wikipedia en español (disponibles en Wikimedia Dumps) son un recurso enorme para preentrenamiento.

Datos de voz

Mozilla Common Voice tiene una colección creciente de voz en español con licencia abierta. El corpus es heterogéneo en calidad, pero su tamaño lo hace valioso para entrenamiento. Para español de España específicamente, el corpus de voz del CSIC ofrece grabaciones más controladas.

Datos estructurados y tabulares

El Instituto Nacional de Estadística publica regularmente datasets sobre economía, demografía y sociedad española en formatos descargables. El portal de datos abiertos del Gobierno de España (datos.gob.es) agrega datos de múltiples administraciones públicas. Para datos financieros, la CNMV publica información sobre empresas cotizadas en formatos estructurados.

Datos de imágenes

Para visión artificial con contexto español, el dataset de imágenes de monumentos y patrimonio cultural del Ministerio de Cultura es un recurso poco conocido pero valioso. Para datos médicos, el Hospital Universitario de La Paz ha publicado algunos datasets de imágenes radiológicas anonimizadas en colaboración con proyectos de investigación.

Cómo evaluar la calidad de un dataset

Antes de usar cualquier dataset, conviene revisar: la licencia (¿permite uso comercial?), la documentación (¿hay una descripción clara de cómo se recopilaron los datos?), el sesgo potencial (¿de qué fuentes provienen? ¿representan a toda la población o solo a un subgrupo?), y la fecha de los datos (¿siguen siendo relevantes?).

Un dataset bien documentado con menos ejemplos suele ser más valioso que uno grande con documentación pobre. La calidad de las etiquetas importa más que la cantidad de datos en la mayoría de los casos.

Crear tus propios datos

A veces la mejor opción es crear datos propios para tu caso de uso específico. Las plataformas de anotación como Label Studio o Prodigy facilitan este proceso. Para NLP, técnicas como la generación de datos sintéticos con LLMs pueden complementar datasets pequeños, aunque hay que tener cuidado con los sesgos que esto puede introducir.