Generación de datos mediante la combinación de cadenas de Markov y Word Embeddings

Acaba de ser publicado un artículo realizado por nuestro equipo de investigadores, formado por Eva Martínez García, Alberto Nogales y Álvaro García Tejedor, en colaboración con Javier Morales, profesor de la UFV y representante de Avanade. El artículo trata de la generación de nuevos corpus a partir de textos ya existentes. Estos métodos de aumento de datos son importantes debido a la gran dependencia de datos de las técnicas de Procesamiento del Lenguaje Natural (PNL) actuales basadas en redes neuronales. En particular se presenta un método híbrido que combina cadenas de Markov y Word Embeddings para generar nuevas frases de alta calidad similares a un conjunto de textos inicial, de manera que se aumente así los datos de entrenamiento. El método se ha validado construyendo varios Modelos de Lenguaje (LM) basados en Transformer utilizando datos de tres dominios diferentes y evaluando la capacidad de cada LM en modelar el lenguaje de cada dominio.

La publicación puede encontrarse en el siguente enlace.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *