PT-2 Arquitectura y modelo de datos

En este paquete se definirá la infraestructura escalable y robusta que facilitará la integración y gestión de datos extraídos de medios tradicionales y online, incluyendo las redes sociales más relevantes (p.e., Facebook y Google+), microblogs (p.e., Twitter), las plataformas de blogs más usadas (p.e., WordPress, Blogger, Tumblr), foros, reviews, noticias online y comentarios sobre noticias online.

El objetivo será superar las limitaciones del prototipo actual, que acotan seriamente la capacidad de análisis de comunidades vivas:

  • El sistema debe permitir almacenar y analizar una enorme cantidad de información. Con el prototipo actual hemos podido comprobar que si el estudio de comunidades vivas parte de un conjunto de documentos, autores y fechas demasiado acotado, las comunidades detectadas son pequeñas y previsibles. Los estudios son más útiles y potentes cuanto mayor es la cantidad de información analizada, dando lugar a  comunidades y relaciones de influencia que otras herramientas son incapaces de detectar.
  • Las relaciones entre autores van evolucionando a lo largo del tiempo y su estudio no debe verse limitado por una tecnología que no permita un tratamiento incremental de la información. Las relaciones deben actualizase progresivamente según se van incluyendo nuevos datos en el sistema, permitiendo un estudio dinámico de las mismas.
  • Cada fuente de datos tiene sus propias características, que limitan la forma en que se generan las relaciones y, con ellas, las comunidades. La integración de fuentes muy diversas en una misma plataforma de análisis requiere un importante esfuerzo de estandarización de datos y relaciones, así como un adecuado calibrado para no sobrevalorar ni infravalorar ningún medio.

El paquete se divide en dos actividades:

  • La primera se centrará en la arquitectura Big Data con la suficiente capacidad de almacenamiento y procesamiento en la que se apoyarán las aplicaciones de análisis de comunidades vivas.
  • La segunda profundizará en el modelo de datos de grafos multimedio.