PT-3 Enriquecimiento de datos

En este paquete se engloban las actividades destinadas a aumentar el conjunto de datos disponibles o la calidad de los mismos. El estudio de comunidades vivas se ve muy afectado por los datos disponibles, que además deben recibir el tratamiento adecuado. Pequeñas mejoras en los metadatos disponibles pueden tener una influencia drástica en la calidad de las comunidades detectadas. Estas mejoras influirán en los siguientes aspectos:

  • Relaciones detectadas. La obtención de un  nuevo metadato puede ser suficiente para detectar una nueva relación entre nodos, que a su vez sirva para agrupar comunidades que, de no existir esta relación, estarían aisladas unas de otras. Serán especialmente significativos aquellos metadatos que sirvan para unificar datos procedentes de medios diferentes.
  • Restricción de los datos analizados en el estudio. Los nuevos metadatos permitirán acotar mejor el conjunto de datos utilizado para el análisis de comunidades vivas, eliminando del estudio datos que no se consideran relevantes o generan un ruido excesivo.
  • Estudio de las comunidades detectadas. Una vez detectadas las comunidades, la calidad y completitud de los datos permitirá la adecuada caracterización de éstas y la detección de los roles de las entidades dentro de ellas.

Para conseguir mejorar los datos disponibles se trabajará en las siguientes líneas, cada una de ellas en una actividad:

  • Se completará la información sociodemográfica de los autores.
  • Se completarán y actualizarán los datos disponibles de social media.
  • Se agruparán las diferentes identidades de un mismo autor para diferentes tipos de medio.
  • Se homogeneizarán las urls de los documentos y las mencionadas en los mismos, para optimizar la detección de relaciones de referencia.