Por Rosan International | | Procesamiento de Datos

¡Hola a todos! Con el lanzamiento de nuestro blog, queríamos empezar sentando algunas bases para la excelencia en los proyectos de ciencia de datos. En Rosan International realizamos muchas investigaciones y análisis personalizados, trabajando con organizaciones grandes y pequeñas. Según nuestra experiencia, la mayoría de las organizaciones tienen una mezcla de normas, directrices, reglas y estándares implícitos y explícitos para gestionar sus proyectos de ciencia de datos y analítica. Cuanto más explícitas sean, más fácil resultará formar al nuevo personal, garantizar la coherencia, unos resultados de alta calidad y, lo que es más importante, unos clientes satisfechos.

Las directrices que presentamos a continuación identifican las normas y los procedimientos básicos que deberían establecerse para garantizar la reproducibilidad, minimizar los errores, mejorar la calidad analítica e introducir coherencia en la redacción y la elaboración de informes en el ámbito del tratamiento y el análisis cuantitativos de datos.

Gobernanza de datos

El gobierno de datos es la gestión, el control y la protección generales de los activos de datos de una organización. El gobierno de datos efectivo es crucial para mantener la integridad de los datos y garantizar el cumplimiento de las regulaciones. Se deben considerar los siguientes aspectos del gobierno de datos antes de lanzar un proyecto de investigación de análisis personalizado:

  • Fuentes de datos comunes: identifique fuentes de datos, incluidos datos propietarios, datos propiedad del cliente y datos de terceros de fuentes acreditadas como el Banco Mundial, el FMI y la FAO. También diseñe fuentes de datos para evitar.
  • Políticas de gobierno de datos: incluye almacenamiento, calidad, privacidad, seguridad, retención, uso compartido, control de versiones, estándares de nomenclatura y documentación/metadatos.
  • Inventario de datos: mantenga un inventario de datos que enumere importantes fuentes de datos patentadas para análisis de investigación personalizados.

Procesamiento de datos

Un pequeño y triste secreto de la mayoría de los científicos de datos es que el 80 % de nuestro esfuerzo se dedica a ejecutar un montón de recodificaciones y fusiones de datos. Si bien esta puede no ser la parte más sexy del trabajo, definitivamente es crucial hacerlo bien. Los siguientes procedimientos de procesamiento de datos deben estandarizarse para garantizar la coherencia y la precisión durante todo el proceso de análisis.

  • Recodificación de variables: modificación de variables en función de criterios o reglas específicos.
  • Transformaciones de variables: aplicar transformaciones de distribución, discretización o normalización/estandarización a las variables.
  • Agregación de variables: resumen de datos agregando valores en diferentes niveles, como grupos o períodos de tiempo.
  • Fusión de conjuntos de datos: combinación de varios conjuntos de datos en función de variables o identificadores comunes.
  • Identificación de datos faltantes: desarrollo de estrategias para identificar y manejar los datos faltantes de manera adecuada.
  • Divisiones de entrenamiento/prueba/validación: partición de los datos con fines de entrenamiento, prueba y validación del modelo.
  • Muestreo: aplicación de técnicas de muestreo para seleccionar subconjuntos de datos representativos para el análisis.
  • Otros métodos avanzados: imputación de datos faltantes, reducción de datos, detección de valores atípicos, etc.

Análisis cuantitativo

La mayoría de los proyectos utilizan una pequeña cantidad de métodos analíticos de caballo de batalla. Seguro que no hay tantas formas de ejecutar una tabulación cruzada, ¿verdad? ¡Piensa otra vez! Deben normalizarse los siguientes métodos cuantitativos, en particular los que se utilizan con frecuencia:

  • Uso de ponderaciones: pautas para usar ponderaciones en análisis descriptivos, agregación en diferentes niveles (p. ej., país, región, mundo) y estimación de varianza.
  • Tablas de frecuencia: creación de tablas de 1, 2 y 3 factores para resumir datos categóricos.
  • Promedios: Cálculo de promedios para variables continuas.
  • Correlación: medir la correlación entre variables continuas u ordinales.
  • Regresión: aplicación de regresión lineal para resultados continuos, regresión logística para resultados binarios y otros modelos de regresión para datos ordinales o de conteo.
  • Métodos basados ​​en gráficos: uso de mapas de coropletas, diagramas de dispersión y otras visualizaciones para representar datos cuantitativos.
  • Pruebas de significación: Directrices para realizar pruebas de significación en tablas de frecuencia, promedios y modelos de regresión.
  • Otros métodos avanzados: análisis factorial, análisis de conglomerados, regresión multinivel, análisis de series temporales, árboles de clasificación, redes neuronales y métodos bayesianos.

Reproducibilidad

¿Alguna vez finalizó un proyecto con resultados triunfantes, solo para luego descubrir que no puede reproducir esos resultados debido a algún proceso estocástico extraviado? La reproducibilidad en la ciencia de datos se refiere a la capacidad de recrear y obtener los mismos resultados que un análisis o experimento anterior utilizando los mismos datos y métodos. Se deben especificar los siguientes procedimientos para garantizar la reproducibilidad.

  • Documentar y compartir código: usar sistemas de control de versiones como Git, escribir código limpio y autoexplicativo, evitar guardar código/datos en unidades locales y organizar proyectos con estructuras claras y convenciones estandarizadas de nomenclatura de archivos.
  • Administrar dependencias: documentar y rastrear bibliotecas de software, paquetes y versiones utilizadas en el análisis, crear archivos de entorno para dependencias y considerar herramientas de contenedorización como Docker para encapsular el entorno de análisis.
  • Administración de datos: especificación de fuentes de datos, almacenamiento de datos sin procesar y procesados ​​por separado y documentación de los pasos de preprocesamiento de datos.
  • Parametrización y semillas aleatorias: uso de la parametrización para modificar fácilmente las variables de entrada y establecer semillas aleatorias para la reproducibilidad de procesos aleatorios.
  • Registrar detalles experimentales: mantener registros de versiones de software, configuraciones de hardware, sistemas operativos y cualquier configuración o configuración personalizada utilizada en el análisis.
  • Informes reproducibles: uso de técnicas de programación alfabetizadas (por ejemplo, Markdown, Jupyter Notebooks) para combinar código, texto y visualizaciones en informes reproducibles que incluyen explicaciones paso a paso y código completo.
  • Probar y validar: ejecutar análisis varias veces, probar en diferentes sistemas o entornos y validar los resultados con resultados conocidos o verificación independiente.

Procedimientos de control de calidad/garantía de calidad

El control de calidad y la garantía de calidad son esenciales para garantizar la precisión y confiabilidad del análisis de datos. Recomendamos especificar los siguientes procedimientos:

  • Paralelismo de datos: comparación de resultados de diferentes etapas de procesamiento de datos para garantizar la coherencia y la precisión.
  • Revisión editorial: realización de revisiones exhaustivas de informes, códigos y análisis por parte de profesionales experimentados.
  • Control de versiones de código: utilizar sistemas de control de versiones como GitHub para realizar un seguimiento de los cambios y habilitar la colaboración.
  • Estándares y orientación de revisión de código: establecer estándares y pautas para la revisión de código a fin de garantizar la calidad del código y el cumplimiento de las mejores prácticas.
  • Guía para pruebas unitarias/en línea: implementación de pruebas unitarias o en línea para validar componentes individuales de código o funciones específicas.
  • Evitar ataques frecuentes pero peligrosos: procesamiento manual de datos, cálculos manuales con herramientas como Excel, entornos de procesamiento local y comandos de apuntar y hacer clic que pueden introducir errores o limitar la reproducibilidad.

Lenguajes comunes de programación estadística

Un proyecto de investigación de análisis personalizado debe establecer las mejores prácticas con respecto al uso de lenguajes de programación específicos. En nuestro trabajo, las siguientes plataformas de código abierto y propietarias son esenciales:

  • R: código abierto, lo mejor para análisis avanzados de vanguardia.
  • Python: código abierto, lo mejor para aprendizaje automático/IA.
  • SPSS: Propietario, mejor para la tabulación de datos de encuestas.
  • Stata: Propietario, mejor para análisis econométrico.
  • Excel: Propietario, mejor para operaciones básicas.

Dónde obtener ayuda sobre métodos cuantitativos

Los proyectos de análisis personalizados deben especificar dónde buscar ayuda cuando se enfrenten a desafíos de análisis cuantitativo. Algunas fuentes recomendadas incluyen:

  1. IA generativa para escribir código: las herramientas de IA como ChatGPT y Github Copilot pueden ayudar con la generación de código. Se deben sugerir recursos de capacitación para mejorar las habilidades en esta área.
  2. StackOverflow: el mejor sitio de preguntas y respuestas para programadores.
  3. Blogs sobre metodología: Recomendamos sin ambajes el methodology blog de nuestros amigos de Gallup.
  4. Expertos internos: llegar a colegas que poseen un profundo conocimiento y experiencia en métodos cuantitativos para obtener asistencia y orientación.

Las pautas de análisis personalizadas pueden mejorar la reproducibilidad, minimizar errores, mejorar la calidad analítica, introducir consistencia en los estándares de informes y optimizar las oportunidades de aprendizaje. Al implementar estas pautas, las organizaciones pueden fomentar una cultura de excelencia en la toma de decisiones basada en datos y elevar la calidad de sus análisis.


Sobre Rosan International

ROSAN es una empresa tecnológica especializada en el desarrollo de soluciones de Data Science e Inteligencia Artificial con el objetivo de ayudar a resolver algunos de los más desafiantes retos globales. Contáctanos para descubrir cómo podemos ayudarte a extraer la información más valiosa de tus datos y optimizar tus procesos.

By Rosan International | | Data Processing

 

Hello world! As we launch our blog, we wanted to start by laying out some foundations for excellence in data science projects. At Rosan International we do lots of custom research and analytics, working with organizations large and small. In our experience, most organizations have a blend of implicit and explicit norms, guidelines, rules and standards to manage their data science and analytics projects. The more these are made explicit, the easier it becomes to train new staff, ensure consistency, high quality outputs, and most importantly, happy clients!

The guidelines we present below identify the basic standards and procedures that should be put in place to ensure reproducibility, minimize errors, improve analytic quality, and introduce consistency in writing and reporting within the scope of quantitative data processing and analytics.

Data Governance

Data governance is the overall management, control, and protection of an organization’s data assets. Effective data governance is crucial for maintaining data integrity and ensuring compliance with regulations. The following aspects of data governance should be considered before launching a custom analytics research project:

  • Common Data Sources: Identify data sources, including proprietary data, client proprietary data, and third-party data from reputable sources such as the World Bank, IMF, and FAO. Also lay out data sources to avoid.
  • Data Governance Policies: Including storage, quality, privacy, security, retention, sharing, version control, naming standards, and documentation/metadata.
  • Data Inventory: Maintain a data inventory that lists important proprietary data sources for custom research analytics.

Data Processing

A sad little secret of most data scientists is that 80% of our effort is spent running a bunch of data recodes and merges. While this may not be the sexiest part of the job, it is definitely a crucial one to get right. The following data processing procedures should be standardized to ensure consistency and accuracy throughout the analysis process.

  • Variable recodes: Modifying variables based on specific criteria or rules.
  • Variable transformations: Applying distributional transformations, discretization, or normalization/standardization to variables.
  • Variable aggregation: Summarizing data by aggregating values at different levels, such as groups or time periods.
  • Merging datasets: Combining multiple datasets based on common variables or identifiers.
  • Identifying missing data: Developing strategies to identify and handle missing data appropriately.
  • Training/Testing/Validation splits: Partitioning the data for model training, testing, and validation purposes.
  • Sampling: Applying sampling techniques to select representative subsets of data for analysis.
  • Other advanced methods: Missing data imputation, data reduction, outlier detection, etc.

Quantitative Analytics

Most projects use a small number of workhorse analytic methods. Sure there aren’t that many ways to run a crosstab, right? Think again! The following quantitative methods should be standardized, particularly those that are used frequently:

  • Use of Weights: Guidelines for using weights in descriptive analytics, aggregation at different levels (e.g., country, region, world), and variance estimation.
  • Frequency tables: Creating 1-way, 2-way, and 3-way tables to summarize categorical data.
  • Averages: Calculating averages for continuous variables.
  • Correlation: Measuring correlation among continuous or ordinal variables.
  • Regression: Applying linear regression for continuous outcomes, logistic regression for binary outcomes, and other regression models for ordinal or count data.
  • Graph-based methods: Utilizing choropleth maps, scatter diagrams, and other visualizations to represent quantitative data.
  • Significance Testing: Guidelines for conducting significance tests on frequency tables, averages, and regression models.
  • Other advanced methods: Factor analysis, cluster analysis, multilevel regression, time series analysis, classification trees, neural networks, and Bayesian methods.

Reproducibility

Have you ever finalized a project with triumphant results, only to later find out that you can’t reproduce those results due to some stray stochastic process? Reproducibility in data science refers to the ability to recreate and obtain the same results as a previous analysis or experiment using the same data and methods. The following procedures should be specified to ensure reproducibility.

  • Document and Share Code: Using version control systems like Git, writing clean and self-explanatory code, avoiding saving code/data to local drives, and organizing projects with clear structures and standardized file naming conventions.
  • Manage Dependencies: Documenting and tracking software libraries, packages, and versions used in the analysis, creating environment files for dependencies, and considering containerization tools like Docker for encapsulating the analysis environment.
  • Data Management: Specifying data sources, storing raw and processed data separately, and documenting data preprocessing steps.
  • Parameterization and Random Seeds: Using parameterization to easily modify input variables and setting random seeds for reproducibility of random processes.
  • Record Experimental Details: Keeping records of software versions, hardware configurations, operating systems, and any custom settings or configurations used in the analysis.
  • Reproducible Reporting: Using literate programming techniques (e.g., Markdown, Jupyter Notebooks) to combine code, text, and visualizations into reproducible reports that include step-by-step explanations and complete code.
  • Test and Validate: Running analyses multiple times, testing on different systems or environments, and validating results against known outcomes or independent verification.

QC/QA Procedures

Quality control and quality assurance are essential to ensure the accuracy and reliability of data analysis. We recommend specifying the following procedures:

  • Data Paralleling: Comparing results from different stages of data processing to ensure consistency and accuracy.
  • Editorial Review: Conducting thorough reviews of reports, code, and analyses by experienced professionals.
  • Code Version Control: Utilizing version control systems like GitHub to track changes and enable collaboration.
  • Code Review Standards and Guidance: Establishing standards and guidelines for code review to ensure code quality and adherence to best practices.
  • In-line/Unit Testing Guidance: Implementing in-line or unit testing to validate individual components of code or specific functions.
  • Avoiding frequent but dangerous hacks: Manual data processing, manual calculations using tools like Excel, local processing environments, and point-and-click commands that may introduce errors or limit reproducibility.

Common Statistical Programming Languages

A custom analytics research project should establish best practices in regard to the use of specific programming languages. In our work, the following open-source and proprietary platforms are essential:

  • R: Open-source, best for cutting-edge advanced analytics.
  • Python: Open-source, best for machine learning/AI.
  • SPSS: Proprietary, best for tabulation of survey data.
  • Stata: Proprietary, best for econometric analysis.
  • Excel: Proprietary, best for basic operations.

Where to Go for Help on Quant Methods

Custom analytics projects should specify where to go for help when encountering quantitative analysis challenges. Some recommended sources include:

  1. Generative AI to write code: AI tools like ChatGPT and Github Copilot can assist with code generation. Training resources should be suggested to enhance skills in this area.
  2. StackOverflow: The ultimate Q&A site for coders.
  3. Methodology blogs: We strongly recommend the methodology blog from our friends at Gallup.
  4. Internal Experts: Reaching out to colleagues who possess deep knowledge and expertise in quantitative methods for assistance and guidance.

Custom analytics guidelines can enhance reproducibility, minimize errors, improve analytic quality, introduce consistency in reporting standards, and optimize learning opportunities. By implementing these guidelines, organizations can foster a culture of excellence in data-driven decision making and elevate the quality of their analyses.


About Rosan International

ROSAN is a technology company specialized in the development of Data Science and Artificial Intelligence solutions with the aim of solving the most challenging global projects. Contact us to discover how we can help you gain valuable insights from your data and optimize your processes.