PDI – Pentaho Data Integration con MySQL – mejora de rendimiento

Actualmente cada mes he tenido que cargar un archivo csv de un tamaño de 200 mb a travel de Pentaho Data Integration (PDI). Este se demora algo asi como 3 horas en cargarlo. El proceso es relativamente sencillo. Los pasos genéricos son:

  1. Leer CSV
  2. Aplicar “Select values” para definir meta-datos.
  3. Aplicar un paso de Javascript para agregar una columna con texto basándose en un dato de una columna (puede ser medio lento según he leído pero no era un cuello de botella por lo que pude ver)
  4. Un campo del CSV viene con fecha-hora por lo que se aplica una calculadora que tenga solo el campo Fecha
  5. Insertar a una tabla en MySQL (lugar donde se produce la lentitud extrema)

Dado que se pierde muchísimo tiempo solo en cargar esta data, y si hay un error de red, se pierde lo avanzado (es mas engorroso tener un proceso que busque la ultima fecha y cargar desde ahí) busque alguna forma para mejorar esto. Es por eso que encontré el link http://forums.pentaho.com/showthread.php?142217-Table-Output-Performance-MySQL que me funcionó perfecto.

De los cambios que salen mencionados hice 2 modificaciones a mi proceso:

  1. En el proceso de carga de MySQL, hice click derecho en PDI y puse “Change Number of Copies to Start” de 1 a 3 (por que este numero? De prueba inicial que me funcionó de maravilla) Se multiplican los datos. Es mejor multiplicar el paso y poner “Distribute”.
  2. En las opciones de la conexión a la base de datos agregue los siguientes parámetros:

Con estos cambios, la velocidad de procesamiento paso de 3 horas a 5 minutos para un archivo de 200 mb.

 

Actualizacion: se corrige el como cargar la data ya que se genera una duplicidad si se hace con “Change Number of Copies”.

Exclusividad y algunos privilegios de los Taxis de Chile

Hoy en día los taxis están en todas partes. Su servicio va desde muy malo a bueno, pasando por medidores adulterados o bien billetes falsos de vuelo. Esto no quiere decir que sean todos malos, solo que a la fecha no se han actualizado como corresponde (ver el post Uber, Cabify y los Taxis chilenos ) o bien que tienen algunas ventajas o beneficios que no tiene el resto. Esto ultimo es lo que me molesta con creces.

Continue reading “Exclusividad y algunos privilegios de los Taxis de Chile”

Molestia con Google y su falta de API en Photos

Hasta hace poco tiempo, estaba tranquilo con todo lo que era utilizar Google. Ocupo su correo felizmente, su disco web (y pago por mas espacio), fui seguidor de Google+ antes que decayera totalmente, probé Wave (ese producto que quisieron que reemplazara a lo que actualmente son los correos) y utilice Picasa lo que finalmente paso a ser Google Photos. Todos estos productos los ocupo como usuario. Me gustan mucho y cumplen lo que quiero. Continue reading “Molestia con Google y su falta de API en Photos”