Mostrando entradas con la etiqueta Análisis. Mostrar todas las entradas
Mostrando entradas con la etiqueta Análisis. Mostrar todas las entradas

domingo, 3 de noviembre de 2019

Evaluador de Portales de Datos Abiertos - Parte II


Hoy vamos a continuar con el análisis para nuestro evaluador de Portales de Datos Abiertos.

Lo primero que necesitamos conocer son las direcciones de los distintos portales. Para esto nos vamos a ir a la URL de nuestro Portal Nacional de Datos Abiertos: https://datos.gob.es/es/catalogo, allí vamos a localizar el icono para descargar en formato CSV todos los recursos de todos los portales. Os lo señalo en rojo en la siguiente imagen:
Ahora debemos descargarlo en nuestro PC. Ahora mismo ocupa casi 58 megas, y contiene 24.951 líneas.

Para abrirlo y trastear con el fichero, os recomiendo utilizar OpenOffice, su programa de hojas de cálculo (OpenOffice Calc) es la mejor opción para trabajar con ficheros CSVs enormes.

El fichero está compuesto por diferentes columnas, para conseguir hacer nuestro evaluador, necesitamos las siguientes:

  • TÍTULO: nombre del conjunto de datos, soporta multidioma. Ejemplo: 
    [ca]Port de Barcelona - Arees Geogràfiques[en]Port of Barcelona -Geograhic Regions[es]Puerto de Barcelona - Areas Geográficas
  • ÓRGANO PUBLICADOR: el nombre del órgano al que pertenece el portal. Ejemplo: Ayuntamiento de Alcobendas
  • DISTRIBUCIONES: contiene todos los recursos que tiene el conjunto de datos. Tiene una estructura de datos que debemos tratar, ya que contiene todas las URLs de cada recurso, y también soporta multidioma. Ejemplo: [TITLE_eu]Partzelen eta eraikin unitateen datuak[TITLE_es]Datos de parcelas y unidades constructivas[ACCESS_URL]http://api.gipuzkoairekia.eus/dataset/recurso/435e47ac-8f08-40f3-9935-e3aa09783779/descargar[MEDIA_TYPE]CSV[BYTE_SIZE]76360//[TITLE_eu]Lokalen datuak[TITLE_es]Datos de los locales[ACCESS_URL]http://api.gipuzkoairekia.eus/dataset/recurso/1ddf5167-6159-4f7a-b43f-c6e7e92225ba/descargar[MEDIA_TYPE]CSV[BYTE_SIZE]3428844

La idea final es consumir las URLs de cada recurso para verificar que está disponible, si lo está, leeremos el formato del recurso y dependiendo de cada uno de ellos puntuaremos (o profundizaremos más).

Pero en lugar de ir directamente hacia esa dirección, me voy a decantar por realizar un producto mínimo viable, evaluaré los conjuntos de datos sin consumir la URL, confiando en que estén funcionando. Debido a esto, inicialmente solo podré puntuar de 1 a 4 estrellas, ya que para puntuar con 5 debería tener acceso al contenido de la información, procesarla y verificar que se están utilizando URIs externas (linked data).

Nuestro siguiente paso es generar un programa de consola que lea este fichero línea a línea, para evaluar todos los recursos y asignar la puntuación a su respectivo portal.

Para hacer esto voy a copiar el repositorio "lector" que creamos hace unas semanas (https://github.com/tecnificados/lector), y en un nuevo repositorio "evaluador",  voy a renombrarlo y a lanzarlo contra el fichero que he descargado de datos.gob.es para ver si cuenta correctamente el número de líneas y las procesa correctamente. Este es el primer commit del repositorio "evaluador" (https://github.com/tecnificados/evaluador).

Y por hoy lo dejo aquí, en el próximo artículo empezaremos la programación.

Continuará...

lunes, 14 de octubre de 2019

Evaluador de Portales de Datos Abiertos - Parte I

Durante los últimos artículos, he ido sentando la bases para llegar a la creación de una pequeña aplicación de consola que nos sirva para evaluar los distintos portales de Datos Abiertos que están censados en nuestro Portal Nacional de Datos Abiertos: https://datos.gob.es/es/catalogo

Mi idea es leer todas los recursos (ficheros y URLs) que existen todos los portales de Datos Abiertos, agrupándolos por cada por cada conjunto de datos.  Después evaluaremos las siguientes características:
  1. ¿Los recursos están accesibles?
  2. ¿Qué tipo de ficheros contiene (CSV, PDF, HTML,...)?
  3. ¿Utiliza algún formato basado en URIs (RDF, TTL, N3, JSONLD,...)?
  4. ¿Las URIs enlazan con URIs externas a su portal (Linked Data)?
Dependiendo de estas preguntas podremos puntuar cada conjunto de datos basándonos en el siguiente gráfico:




Y para terminar generaremos un informe en formato Markdown con todos los portales de datos y su puntuación.

Todo esto lo haremos en una aplicación de consola con JAVA y la base de nuestra aplicación será la la que desarrollamos la semana pasada (https://github.com/tecnificados/lector).

Y lo iremos desarrollando paso a paso a partir de la semana que viene.

Continuara...