El análisis automático del contenido de textos es lo que se denomina Text Analytics (Moreno & Redondo 2016). Tiene un campo de aplicación muy amplio, desde el análisis de comentarios en las redes sociales hasta extracción de información de textos legales, médicos o financieros.
El reto para estos sistemas es entender el contenido de las emisiones lingüisticas y mostrar la información relevante. Para conseguir los objetivos se emplean diferentes técnicas, desde métodos estadísticos (data mining) hasta procedimientos basados en reglas.
Nuestra aproximación se basa en el método clásico de la Lingüística Computacional: mediante reglas y lexicones específicos del dominio, anotamos la información relevante en los textos no estructurados, para posteriormente analizarla cualitativa y cuantitavamente con herramientas de lingüística de corpus (Lyneal y Wmatrix).
Esta propuesta integra la experiencia de dos equipos reconocidos internacionalmente, el Laboratorio de Lingüística Informática de la UAM (LLI-UAM) y el University Centre for Computer Corpus Research on Language (UCREL) de la U. de Lancaster. Durante más de dos décadas estos equipos han desarrollado de manera independiente programas y corpus para el tratamiento de texto.
El principal objetivo de esta propuesta es integrar el español dentro de las herramientas desarrolladas por UCREL, para utilizarlas en el análisis de textos financieros, en concreto, de los informes financieros anuales de las empresas. Con ese objetivo, se recopilará un corpus de textos financieros en español, procedentes de los informes anuales, que será anotado con una nueva versión del Semantic Tagger de UCREL. Los temas del proyecto y sus resultados se enmarcan plenamente dentro del Reto 7 "Economía y sociedad digitales", por cuanto que ayudan a procesar y entender contenidos financieros en formato digital.
Las tecnologías lingüísticas están incluidas dentro de un plan estratégico de la Agenda Digital para España. Los resultados son de interés para su transferencia industrial, a través de aplicaciones informáticas y servicios desarrollados y comercializados por entidades de investigación como el Instituto de Ingeniería del Conocimiento, localizada dentro del campus de la UAM, en la que colaboran dos de los integrantes de equipo.