Mejores prácticas en ciencia de datos y analítica - Desarrollamos soluciones de Data Science e Inteligencia Artificial

Por Rosan International | Lunes, 22 de mayo de 2023 | Procesamiento de Datos

¡Hola a todos! Con el lanzamiento de nuestro blog, queríamos empezar sentando algunas bases para la excelencia en los proyectos de ciencia de datos. En Rosan International realizamos muchas investigaciones y análisis personalizados, trabajando con organizaciones grandes y pequeñas. Según nuestra experiencia, la mayoría de las organizaciones tienen una mezcla de normas, directrices, reglas y estándares implícitos y explícitos para gestionar sus proyectos de ciencia de datos y analítica. Cuanto más explícitas sean, más fácil resultará formar al nuevo personal, garantizar la coherencia, unos resultados de alta calidad y, lo que es más importante, unos clientes satisfechos.

Las directrices que presentamos a continuación identifican las normas y los procedimientos básicos que deberían establecerse para garantizar la reproducibilidad, minimizar los errores, mejorar la calidad analítica e introducir coherencia en la redacción y la elaboración de informes en el ámbito del tratamiento y el análisis cuantitativos de datos.

1 Gobernanza de datos
2 Procesamiento de datos
3 Análisis cuantitativo
4 Reproducibilidad
5 Procedimientos de control de calidad/garantía de calidad
6 Lenguajes comunes de programación estadística
7 Dónde obtener ayuda sobre métodos cuantitativos

Gobernanza de datos

El gobierno de datos es la gestión, el control y la protección generales de los activos de datos de una organización. El gobierno de datos efectivo es crucial para mantener la integridad de los datos y garantizar el cumplimiento de las regulaciones. Se deben considerar los siguientes aspectos del gobierno de datos antes de lanzar un proyecto de investigación de análisis personalizado:

Fuentes de datos comunes: identifique fuentes de datos, incluidos datos propietarios, datos propiedad del cliente y datos de terceros de fuentes acreditadas como el Banco Mundial, el FMI y la FAO. También diseñe fuentes de datos para evitar.
Políticas de gobierno de datos: incluye almacenamiento, calidad, privacidad, seguridad, retención, uso compartido, control de versiones, estándares de nomenclatura y documentación/metadatos.
Inventario de datos: mantenga un inventario de datos que enumere importantes fuentes de datos patentadas para análisis de investigación personalizados.

Procesamiento de datos

Un pequeño y triste secreto de la mayoría de los científicos de datos es que el 80 % de nuestro esfuerzo se dedica a ejecutar un montón de recodificaciones y fusiones de datos. Si bien esta puede no ser la parte más sexy del trabajo, definitivamente es crucial hacerlo bien. Los siguientes procedimientos de procesamiento de datos deben estandarizarse para garantizar la coherencia y la precisión durante todo el proceso de análisis.

Recodificación de variables: modificación de variables en función de criterios o reglas específicos.
Transformaciones de variables: aplicar transformaciones de distribución, discretización o normalización/estandarización a las variables.
Agregación de variables: resumen de datos agregando valores en diferentes niveles, como grupos o períodos de tiempo.
Fusión de conjuntos de datos: combinación de varios conjuntos de datos en función de variables o identificadores comunes.
Identificación de datos faltantes: desarrollo de estrategias para identificar y manejar los datos faltantes de manera adecuada.
Divisiones de entrenamiento/prueba/validación: partición de los datos con fines de entrenamiento, prueba y validación del modelo.
Muestreo: aplicación de técnicas de muestreo para seleccionar subconjuntos de datos representativos para el análisis.
Otros métodos avanzados: imputación de datos faltantes, reducción de datos, detección de valores atípicos, etc.

Análisis cuantitativo

La mayoría de los proyectos utilizan una pequeña cantidad de métodos analíticos de caballo de batalla. Seguro que no hay tantas formas de ejecutar una tabulación cruzada, ¿verdad? ¡Piensa otra vez! Deben normalizarse los siguientes métodos cuantitativos, en particular los que se utilizan con frecuencia:

Uso de ponderaciones: pautas para usar ponderaciones en análisis descriptivos, agregación en diferentes niveles (p. ej., país, región, mundo) y estimación de varianza.
Tablas de frecuencia: creación de tablas de 1, 2 y 3 factores para resumir datos categóricos.
Promedios: Cálculo de promedios para variables continuas.
Correlación: medir la correlación entre variables continuas u ordinales.
Regresión: aplicación de regresión lineal para resultados continuos, regresión logística para resultados binarios y otros modelos de regresión para datos ordinales o de conteo.
Métodos basados en gráficos: uso de mapas de coropletas, diagramas de dispersión y otras visualizaciones para representar datos cuantitativos.
Pruebas de significación: Directrices para realizar pruebas de significación en tablas de frecuencia, promedios y modelos de regresión.
Otros métodos avanzados: análisis factorial, análisis de conglomerados, regresión multinivel, análisis de series temporales, árboles de clasificación, redes neuronales y métodos bayesianos.

Reproducibilidad

¿Alguna vez finalizó un proyecto con resultados triunfantes, solo para luego descubrir que no puede reproducir esos resultados debido a algún proceso estocástico extraviado? La reproducibilidad en la ciencia de datos se refiere a la capacidad de recrear y obtener los mismos resultados que un análisis o experimento anterior utilizando los mismos datos y métodos. Se deben especificar los siguientes procedimientos para garantizar la reproducibilidad.

Documentar y compartir código: usar sistemas de control de versiones como Git, escribir código limpio y autoexplicativo, evitar guardar código/datos en unidades locales y organizar proyectos con estructuras claras y convenciones estandarizadas de nomenclatura de archivos.
Administrar dependencias: documentar y rastrear bibliotecas de software, paquetes y versiones utilizadas en el análisis, crear archivos de entorno para dependencias y considerar herramientas de contenedorización como Docker para encapsular el entorno de análisis.
Administración de datos: especificación de fuentes de datos, almacenamiento de datos sin procesar y procesados por separado y documentación de los pasos de preprocesamiento de datos.
Parametrización y semillas aleatorias: uso de la parametrización para modificar fácilmente las variables de entrada y establecer semillas aleatorias para la reproducibilidad de procesos aleatorios.
Registrar detalles experimentales: mantener registros de versiones de software, configuraciones de hardware, sistemas operativos y cualquier configuración o configuración personalizada utilizada en el análisis.
Informes reproducibles: uso de técnicas de programación alfabetizadas (por ejemplo, Markdown, Jupyter Notebooks) para combinar código, texto y visualizaciones en informes reproducibles que incluyen explicaciones paso a paso y código completo.
Probar y validar: ejecutar análisis varias veces, probar en diferentes sistemas o entornos y validar los resultados con resultados conocidos o verificación independiente.

Procedimientos de control de calidad/garantía de calidad

El control de calidad y la garantía de calidad son esenciales para garantizar la precisión y confiabilidad del análisis de datos. Recomendamos especificar los siguientes procedimientos:

Paralelismo de datos: comparación de resultados de diferentes etapas de procesamiento de datos para garantizar la coherencia y la precisión.
Revisión editorial: realización de revisiones exhaustivas de informes, códigos y análisis por parte de profesionales experimentados.
Control de versiones de código: utilizar sistemas de control de versiones como GitHub para realizar un seguimiento de los cambios y habilitar la colaboración.
Estándares y orientación de revisión de código: establecer estándares y pautas para la revisión de código a fin de garantizar la calidad del código y el cumplimiento de las mejores prácticas.
Guía para pruebas unitarias/en línea: implementación de pruebas unitarias o en línea para validar componentes individuales de código o funciones específicas.
Evitar ataques frecuentes pero peligrosos: procesamiento manual de datos, cálculos manuales con herramientas como Excel, entornos de procesamiento local y comandos de apuntar y hacer clic que pueden introducir errores o limitar la reproducibilidad.

Lenguajes comunes de programación estadística

Un proyecto de investigación de análisis personalizado debe establecer las mejores prácticas con respecto al uso de lenguajes de programación específicos. En nuestro trabajo, las siguientes plataformas de código abierto y propietarias son esenciales:

R: código abierto, lo mejor para análisis avanzados de vanguardia.
Python: código abierto, lo mejor para aprendizaje automático/IA.
SPSS: Propietario, mejor para la tabulación de datos de encuestas.
Stata: Propietario, mejor para análisis econométrico.
Excel: Propietario, mejor para operaciones básicas.

Dónde obtener ayuda sobre métodos cuantitativos

Los proyectos de análisis personalizados deben especificar dónde buscar ayuda cuando se enfrenten a desafíos de análisis cuantitativo. Algunas fuentes recomendadas incluyen:

IA generativa para escribir código: las herramientas de IA como ChatGPT y Github Copilot pueden ayudar con la generación de código. Se deben sugerir recursos de capacitación para mejorar las habilidades en esta área.
StackOverflow: el mejor sitio de preguntas y respuestas para programadores.
Blogs sobre metodología: Recomendamos sin ambajes el methodology blog de nuestros amigos de Gallup.
Expertos internos: llegar a colegas que poseen un profundo conocimiento y experiencia en métodos cuantitativos para obtener asistencia y orientación.

Las pautas de análisis personalizadas pueden mejorar la reproducibilidad, minimizar errores, mejorar la calidad analítica, introducir consistencia en los estándares de informes y optimizar las oportunidades de aprendizaje. Al implementar estas pautas, las organizaciones pueden fomentar una cultura de excelencia en la toma de decisiones basada en datos y elevar la calidad de sus análisis.

Sobre Rosan International

ROSAN es una empresa tecnológica especializada en el desarrollo de soluciones de Data Science e Inteligencia Artificial con el objetivo de ayudar a resolver algunos de los más desafiantes retos globales. Contáctanos para descubrir cómo podemos ayudarte a extraer la información más valiosa de tus datos y optimizar tus procesos.