Leila Versions Save

Librería para la evaluación de calidad de datos, e interacción con el portal de datos.gov.co

v0.2b

2 years ago

LEILA v0.2b

Este release es equivalente en funcionalidad a la versión v0.2 de LEILA. Sin embargo, se hace un nuevo release para corregir el error en la línea de comando para instalar LEILA mediante conda

conda install -c ucd-dnp -c conda-forge leila

v0.2

2 years ago

LEILA v0.2

0.2.0 (2021-12-15)

Agregado

Cambiado

Código

  • Se reestructuró el modulo datos_gov en la clase DatosGov()
  • Se agregó parámetro filtro dentro de la función tabla_inventario() del módulo datos_gov , que permite filtrar por palabras clave.
  • Se reemplazó el parámetro df por datos dentro de la función generar_reporte()
  • Se agregó soporte para lectura directa de archivos tipo '.xlsx', y '.csv' por parte de la clase CalidadDatos()
  • Se agregó soporte para lectura directa de objetos tipo leila.DatosGov() por parte de la clase CalidadDatos()
  • Se agregó parámetro especificas dentro de la función generar_reporte(), que permite personalizar el reporte automático.
  • Se agregó el parámetro 'limite_filas' a los métodos 'CantidadDuplicados' y 'EmparejamientoDuplicados' de la clase 'CalidadDatos'. Este parámetro define el límite de filas que se tendrá en cuenta al calcular los duplicados por columnas (el valor por defecto es 30.000)
  • Se ajustó el código de los siguientes métodos de la clase 'CalidadDatos', para no copiar el conjunto de datos de entrada y evitar problemas de memoria: CorrelacionCategoricas, DescripcionNumericas, DescripcionCategoricas, CantidadDuplicados, EmparejamientoDuplicados
  • Se adecuó el código de la librería al estilo PEP-8
  • Se ajustó el código del método 'TipoColumnas' de la clase CalidadDatos para mejorar los tiempos de ejecución
  • Se adecuó el código de la clase CalidadDatos para que el tipo específico y el tipo general de las columnas se calculen cuando se crea la clase y no cuando se ejecutan los métodos que hacen uso de los tipos
  • Los módulos "calidad_datos" y "reporte" tendrán el nuevo parámetro "castDatos", el cual indica si se desean convertir las columnas al mejor tipo de columna, según la función 'convert_dtypes' de la librería Pandas. Este parámetro remplazará a "castNumero", el cual será deprecado en un futuro

Repositorio

  • Se redactó guía en GitHub en español para reportar issues en la librería
  • Se redactó guía en español para realizar colaboraciones y adiciones a la librería en GitHub
  • Se añaden nuevos ejemplos de uso de la librería en la carpeta de ejemplos
  • Se actualiza documentación de LEILA con respecto a los nuevos cambios.

Memoria y tiempo de ejecución

  • Se mejoró los tiempos de ejecución para las funciones 'CantidadDuplicados' y 'EmparejamientoDuplicados' de la clase 'CalidadDatos'
  • Se redujeron los tiempos de ejecución generales y los requisitos de memoria.
  • Las funciones de la librería se pueden ejecutar para conjuntos de datos más grandes
  • Las funciones generan resultados más rápidos para los mismos conjuntos de datos

Wiki de LEILA

El Wiki de LEILA se encuentra en el repositorio web de GitHub y contiene la siguiente información:

  • Proceso de trabajo de los desarrolladores de LEILA
  • Guía para hacer preguntas de uso, reportar errores y solicitar nuevas características para LEILA
  • Guía para hacer contribuciones y pull-request a LEILA
  • Reglas de comunidad

Obsoleto

Borrado

Arreglado

  • Se corrigieron errores generados por conflictos de librerías de soporte al instalar la librería

v0.1b

3 years ago

Versión 0.1b

Este release es equivalente en funcionalidad a la versión v0.1 de LEILA. Sin embargo, se hace un nuevo release para poder gestionar unos archivos relacionados con la documentación de la librería y facilitar el versionamiento de esta.

  • Se borra la carpeta docs
  • Se agrega la carpeta sphinx

v0.1

3 years ago

Versión 0.1

La librería de calidad de datos tiene como objetivo principal ser una herramienta que facilite la verificación de contenido de bases de datos y dé métricas de calidad para que usuarios puedan decidir si sus bases de datos necesitan modificarse para ser utilizadas en los proyectos.