REDTCUE

TCUE

Principal

Página principal TCUE

Formulario Desafío: NT55



 

 tcuenew

 

 

 

DESAFÍO UNIVERSIDAD - EMPRESA 2023

Esta necesidad tecnológica forma parte del Concurso de Proyectos de I+D+i y/o consultoría en colaboración Universidad – Empresa “Desafío Universidad Empresa” 2023 organizado por la Fundación Universidades y Enseñanzas Superiores de Castilla y León. 

  

 Referencia:    NT55  

Tipo de Entidad: Empresa

Título del proyecto
 
Clasificación automática de documentos según un conjunto predeterminado de categorías
 

 

 Acrónimo   CLAS_DOC_CAT 

Resumen

  Área de interés principal de la demanda

    Tecnologías y ciberseguridad - N/A

Buscamos una solución para la extracción de información estructurada a partir de documentos. Los documentos de input pueden ser de todo tipo, aunque los casos de uso que manejamos en la actualidad son principalmente documentos notariales y documentos de archivos y bibliotecas. La solución recibirá como input los documentos y un sistema de clasificación (facetas, y posibles valores para las facetas) y deberá devolver un fichero estructurado con los valores específicos para cada faceta.

  Áreas de interés secundarias  

   Turismo y patrimonio cultural - N/A

 

DESCRIPCIÓN DE LA NECESIDAD DEMANDADA 

1.- Descripción de la demanda tecnológica.

Extracción de información estructurada a partir de textos utilizando técnicas de procesado de lenguaje natural. La información estructurada tiene que seguir unos patrones predefinidos, lo que permite la automatización de procesos de ingestión de datos.

2.- Antecedentes.

Las técnicas de procesado de lenguaje natural han experimentado un importante avance en los últimos años. Estos avances hacen que sea posible, entre otros, la clasificación automática de documentos en categorías. Pero en la actualidad es aún muy difícil realizar diversas clasificaciones de un mismo documento según distintas clasificaciones, así como obtener información estructurada de un documento más allá de la simple clasificación.

3.- Posibles enfoques del proyecto de investigación.

Uso de técnicas de procesado de lenguaje de natural para extraer información de textos de forma estructurada. Estas técnicas podrán implicar el entrenamiento de modelos de lenguaje, usando para ello modelos open source (como OpenLlaMa, Falcon o LlaMa2), o el uso de lenguajes ya entrenados, en la medida en que arrojen resultados satisfactorios.

4.- Enfoques sin interés

        No aplica

 

PALABRAS CLAVE: Clasificación, Automatización, Documentos, NLP, Archivos

-- 

Si desea remitir una propuesta de solución tecnológica (proyecto de investigación y/o consultoría) deberá remitirla en los terminos establecidos en la convocatoria  hasta el 29 de enero de 2024 incluido (plazo ampliado).

Demanda Tecnológica en formato pdf: www.redtcue.es/desafio/demandas/nt55   pdf

Formulario de participación investigadores 

Más información, Bases y Anexos.

 t cue LOGO  Selección 229 desafioempresa 

Top