Formulario Desafío: NT55
|
|
DESAFÍO UNIVERSIDAD - EMPRESA 2023Esta necesidad tecnológica forma parte del Concurso de Proyectos de I+D+i y/o consultoría en colaboración Universidad – Empresa “Desafío Universidad Empresa” 2023 organizado por la Fundación Universidades y Enseñanzas Superiores de Castilla y León.
|
||
Referencia: NT55
Tipo de Entidad: Empresa |
Título del proyecto
Clasificación automática de documentos según un conjunto predeterminado de categorías
|
|
Acrónimo CLAS_DOC_CAT |
Resumen
|
|
Área de interés principal de la demanda Tecnologías y ciberseguridad - N/A |
Buscamos una solución para la extracción de información estructurada a partir de documentos. Los documentos de input pueden ser de todo tipo, aunque los casos de uso que manejamos en la actualidad son principalmente documentos notariales y documentos de archivos y bibliotecas. La solución recibirá como input los documentos y un sistema de clasificación (facetas, y posibles valores para las facetas) y deberá devolver un fichero estructurado con los valores específicos para cada faceta. | |
Áreas de interés secundarias Turismo y patrimonio cultural - N/A |
||
DESCRIPCIÓN DE LA NECESIDAD DEMANDADA1.- Descripción de la demanda tecnológica. Extracción de información estructurada a partir de textos utilizando técnicas de procesado de lenguaje natural. La información estructurada tiene que seguir unos patrones predefinidos, lo que permite la automatización de procesos de ingestión de datos. 2.- Antecedentes. Las técnicas de procesado de lenguaje natural han experimentado un importante avance en los últimos años. Estos avances hacen que sea posible, entre otros, la clasificación automática de documentos en categorías. Pero en la actualidad es aún muy difícil realizar diversas clasificaciones de un mismo documento según distintas clasificaciones, así como obtener información estructurada de un documento más allá de la simple clasificación. 3.- Posibles enfoques del proyecto de investigación. Uso de técnicas de procesado de lenguaje de natural para extraer información de textos de forma estructurada. Estas técnicas podrán implicar el entrenamiento de modelos de lenguaje, usando para ello modelos open source (como OpenLlaMa, Falcon o LlaMa2), o el uso de lenguajes ya entrenados, en la medida en que arrojen resultados satisfactorios. 4.- Enfoques sin interés No aplica
PALABRAS CLAVE: Clasificación, Automatización, Documentos, NLP, Archivos -- Si desea remitir una propuesta de solución tecnológica (proyecto de investigación y/o consultoría) deberá remitirla en los terminos establecidos en la convocatoria hasta el 29 de enero de 2024 incluido (plazo ampliado). Demanda Tecnológica en formato pdf: www.redtcue.es/desafio/demandas/nt55 |