Ir al contenido principal

Entradas

Evaluador de Portales de Datos Abiertos - Parte V

                                  Imagen obtenida de:  https://5stardata.info/es/ Hoy vamos a hablar de la puntuación de los diferentes formatos. Esta puntuación se estableció por Tim Berners Lee hace unos años. Si lo resumimos rápidamente sería así: Cualquier formato con licencia abierta : 1 estrella . Es decir, cualquier conjunto de datos que contenga al menos un fichero y esté alojado en un portal de Datos Abiertos, tendrá al menos esta puntuación. Ejemplo: un PDF. Cualquier formato reutilizable : 2 estrellas . Si puedes descargar un fichero del Portal de Datos Abierto y puedes modificarlo, su conjunto de datos tendrá al menos 2 estrellas. Ejemplo: un fichero Excel. Formato abierto: 3 estrellas . Si ademas de editarlo, lo puedes hacer sin software propietario , este conjunto de datos tendrá 3 estrellas. Un fichero CSV. Utilización de URIs: 4 estrellas . Si en el formato se están utili...

Evaluador de Portales de Datos Abiertos - Parte IV

Y seguimos con la serie del evaluador, lo primero que quiero es dar las gracias a tod@s los que han contactado conmigo por este proyecto. Vamos a seguir poco para poder generar un evaluador gracias los datos que se publican en datos.gob.es Esta semana he generado el primer informe (aunque todavía no es el definitivo), he generado una tabla con cada organismo publicador, el número de conjuntos de datos que contiene y todos los formatos que utiliza. El informe está en formato Markdown (como ya os comenté Github lo interpreta automáticamente) y en formato CSV, así podemos trastear con el fácilmente. Aquí tenéis sus URLs: Markdown:  https://github.com/tecnificados/evaluador/blob/master/informes/organismoFormatos.md CSV:  https://raw.githubusercontent.com/tecnificados/evaluador/master/informes/organismoFormatos.csv Toda la lógica de generación del informe está en la clase " InformeOrganismoFormatos.java ", todo sigue en el repositorio que he estado utilizan...

Evaluador de Portales de Datos Abiertos - Parte III

En esta tercera entrega ya hemos empezado con la programación, el objetivo de hoy es conseguir cargar toda la información del fichero de datos.gob.es para poder evaluarla. Si miráis el repositorio del Evaluador ( https://github.com/tecnificados/evaluador ) hay unas cuantas clases nuevas: OrganoPublicador : es un bean que contiene el nombre del organismo y la lista de conjuntos de datos. ConjuntoDatos : también un bean que contiene su título y la lista de formatos que tienen sus recursos. Evaluador : en esta clase está toda la lógica que traduce el contenido del fichero a los dos beans anteriores. La función "evaluaLinea" me ha llevado más tiempo del que yo pensaba, debido a que hay celdas que son de tipo texto y tienen comas dentro. Como hago un "split" por comas, tengo que volver a juntar las celdas que tienen este comportamiento. Estos son todos los formatos que me he encontrado, que son bastantes más de los que yo pensaba: API  A...

Evaluador de Portales de Datos Abiertos - Parte II

Hoy vamos a continuar con el análisis para nuestro evaluador de Portales de Datos Abiertos. Lo primero que necesitamos conocer son las direcciones de los distintos portales. Para esto nos vamos a ir a la URL de nuestro Portal Nacional de Datos Abiertos:  https://datos.gob.es/es/catalogo , allí vamos a localizar el icono para descargar en formato CSV todos los recursos de todos los portales. Os lo señalo en rojo en la siguiente imagen: Ahora debemos descargarlo en nuestro PC. Ahora mismo ocupa casi 58 megas, y contiene 24.951 líneas. Para abrirlo y trastear con el fichero, os recomiendo utilizar OpenOffice, su programa de hojas de cálculo (OpenOffice Calc) es la mejor opción para trabajar con ficheros CSVs enormes. El fichero está compuesto por diferentes columnas, para conseguir hacer nuestro evaluador, necesitamos las siguientes: TÍTULO: nombre del conjunto de datos, soporta multidioma. Ejemplo:  [ca]Port de Barcelona - Arees Geogràfiques[en]Port...

Evaluador de Portales de Datos Abiertos - Parte I

Durante los últimos artículos, he ido sentando la bases para llegar a la creación de una pequeña aplicación de consola que nos sirva para evaluar los distintos portales de Datos Abiertos que están censados en nuestro Portal Nacional de Datos Abiertos:  https://datos.gob.es/es/catalogo Mi idea es leer todas los recursos (ficheros y URLs) que existen todos los portales de Datos Abiertos, agrupándolos por cada por cada conjunto de datos.   Después evaluaremos las siguientes características: ¿Los recursos están accesibles? ¿Qué tipo de ficheros contiene (CSV, PDF, HTML,...)? ¿Utiliza algún formato basado en URIs (RDF, TTL, N3, JSONLD,...)? ¿Las URIs enlazan con URIs externas a su portal (Linked Data)? Dependiendo de estas preguntas podremos puntuar cada conjunto de datos  basándonos en el siguiente gráfico: Y para terminar generaremos un informe en formato Markdown con todos los portales de datos y su puntuación. Todo esto lo haremos en una aplicaci...

Procesando ficheros en JAVA

Con los últimos artículos que estoy escribiendo estoy sentando las bases de dos proyectos en JAVA. El primero es más pequeño y se basa en una aplicación de consola, y de eso vamos a hablar hoy. Voy a ir creando una pequeña aplicación de consola que lee todas las líneas de un fichero de texto. Es bastante simple, pero lo que quiero hacer es crear un proyecto con todas las necesidades que puede tener una aplicación de consola: Librerías externas Sistema de log Fichero externo de configuración Multidioma Generación de un ejecutable (jar) para su posterior uso Todo el código y los pasos están en el siguiente repositorio:  https://github.com/tecnificados/lector El entorno de trabajo con el que estoy trabajando es el siguiente: Sistema operativo: Windows 10 Openjdk version "12.0.2" 2019-07-16 IDE: Eclipse 2019-06 (4.12.0) El primer paso es crear con Maven un proyecto "quickstart" dentro de Eclipse (File -> New -> Maven Project) : Con...

Máquina Virtual con LAMP en Virtual Box

Llevo un par de semanas pensando en un proyecto para ir realizando poco a poco en tecnificados.com , y uno de los componentes que necesito para empezar es  una base de datos relacional. Lo más cómodo es utilizar MySQL, y para administrarla utilizar PHPMyAdmin, el "problema" es que son muchos componentes a desplegar, y no me gusta instalar muchos servicios en el sistema operativo nativo de mi portátil (Windows). Dándole una vuelta, he decidido montarlo en una máquina virtual con Ubuntu Server 18 . Y nada, me he puesto con ello y lo he hecho con la última versión de Virtual Box. Lo que he instalado se llama LAMP, que son las siglas de: Linux Apache MySQL PHP para PHPMyAdmin He tardado más de lo que pensaba, en otras versiones de Ubuntu Server se instalaba con un solo comando, aquí he tenido que instalar los componentes uno por uno, hacer que se hablen,... y para acabar, he solucionado un bug en el código de PHPMyAdmin ( https://stackoverflow.com/qu...