Formulario Desafío: NT55

Volver

tcuenew

DESAFÍO UNIVERSIDAD - EMPRESA 2023

Esta necesidad tecnológica forma parte del Concurso de Proyectos de I+D+i y/o consultoría en colaboración Universidad – Empresa “Desafío Universidad Empresa” 2023 organizado por la Fundación Universidades y Enseñanzas Superiores de Castilla y León.

Referencia: NT55

Tipo de Entidad: Empresa

Título del proyecto

Clasificación automática de documentos según un conjunto predeterminado de categorías

Acrónimo CLAS_DOC_CAT

Resumen

Área de interés principal de la demanda

Tecnologías y ciberseguridad - N/A

Buscamos una solución para la extracción de información estructurada a partir de documentos. Los documentos de input pueden ser de todo tipo, aunque los casos de uso que manejamos en la actualidad son principalmente documentos notariales y documentos de archivos y bibliotecas. La solución recibirá como input los documentos y un sistema de clasificación (facetas, y posibles valores para las facetas) y deberá devolver un fichero estructurado con los valores específicos para cada faceta.

Áreas de interés secundarias

Turismo y patrimonio cultural - N/A

DESCRIPCIÓN DE LA NECESIDAD DEMANDADA

1.- Descripción de la demanda tecnológica.

Extracción de información estructurada a partir de textos utilizando técnicas de procesado de lenguaje natural. La información estructurada tiene que seguir unos patrones predefinidos, lo que permite la automatización de procesos de ingestión de datos.

2.- Antecedentes.

Las técnicas de procesado de lenguaje natural han experimentado un importante avance en los últimos años. Estos avances hacen que sea posible, entre otros, la clasificación automática de documentos en categorías. Pero en la actualidad es aún muy difícil realizar diversas clasificaciones de un mismo documento según distintas clasificaciones, así como obtener información estructurada de un documento más allá de la simple clasificación.

3.- Posibles enfoques del proyecto de investigación.

Uso de técnicas de procesado de lenguaje de natural para extraer información de textos de forma estructurada. Estas técnicas podrán implicar el entrenamiento de modelos de lenguaje, usando para ello modelos open source (como OpenLlaMa, Falcon o LlaMa2), o el uso de lenguajes ya entrenados, en la medida en que arrojen resultados satisfactorios.

4.- Enfoques sin interés

No aplica

PALABRAS CLAVE: Clasificación, Automatización, Documentos, NLP, Archivos

Si desea remitir una propuesta de solución tecnológica (proyecto de investigación y/o consultoría) deberá remitirla en los terminos establecidos en la convocatoria hasta el 29 de enero de 2024 incluido (plazo ampliado).

Demanda Tecnológica en formato pdf: www.redtcue.es/desafio/demandas/nt55