Una Introducción a los Datos

El tema de los datos puede resultar algo árido y, por sí solos, no ofrecen mucho en términos de aplicación interdisciplinar significativa, ya sea para planificar finanzas o incluso para descifrar lo que nos están contando en la era de la desinformación.

Pero para llegar a eso, hay que empezar por lo básico. Entonces, ¿qué son los datos?

Los datos pueden considerarse como observaciones o mediciones. Son lo que se procesa y analiza para obtener información sobre un problema concreto y ayudar a desarrollar estrategias para resolverlo.

Pueden dividirse en dos grandes tipos; cualitativos y cuantitativos.

Datos cualitativos

Los datos cualitativos son no numéricos, como el color del cabello, la especie o incluso el sentimiento del mercado; describen en lugar de contar.

Pueden parecer subjetivos, especialmente en los casos en que las descripciones no se han estandarizado. Es posible que dos investigadores describan la misma cosa de manera diferente, lo que dificulta la comparación o el análisis de forma consistente. La estandarización de los datos cualitativos es un intento de convertir las descripciones en categorías que puedan utilizarse de manera fiable.

Los datos cualitativos pueden dividirse en datos nominales, que no tienen un orden natural, como el color de ojos, y datos ordinales, que sí tienen un orden significativo pero no una distancia numérica consistente entre categorías, como se ve en las valoraciones de satisfacción del tipo malo, regular o bueno.

Datos cuantitativos

Los datos cuantitativos tienen un valor numérico que puede contarse o medirse.

Puede ser tan simple como el peso en kg o la frecuencia de observaciones en un conteo local de mariposas.

Los datos cuantitativos pueden describirse además como continuos o discretos.

Los datos continuos pueden tomar cualquier valor dentro de un rango para medir variables como la temperatura o los tiempos por vuelta en Fórmula 1. Pueden registrarse con varios decimales, creando un rango de valores posibles efectivamente infinito.

Los datos discretos, por otro lado, se refieren a un conjunto finito de valores que no pueden subdividirse en partes, como el número de turistas que visitan una ciudad. Son números enteros, ya que no es posible tener la mitad de un turista.

Vale la pena señalar que la distinción entre discreto y continuo no siempre tiene que ver con la medición en sí, sino con el contexto. Un peso de gimnasio se registra en incrementos fijos, lo que lo hace discreto en la práctica, pero en realidad alguien que puede levantar 100 kg podría de hecho ser capaz de levantar 101,75 kg. La capacidad física subyacente de la persona es continua.

Aplicación de los datos

Los datos son un tema universal. En marketing se utilizan para determinar y medir KPI, en estudios éticos determinan el sesgo en los sistemas y en el aprendizaje automático pueden ayudar a desarrollar algoritmos para comprender mejor la distribución de especies.

El campo en el que se aplican y el problema que necesita resolverse determinarán la profundidad de comprensión necesaria para sacarles el máximo partido, lo que podría implicar explorar el álgebra, la estadística y la probabilidad.

Pero para describir, comparar y extraer conclusiones de los datos se requieren las mismas bases; saber qué son los datos, cómo se miden y clasifican, y cómo resumirlos de maneras que sean realmente útiles.

Calidad de los Datos

Poder tomar buenas decisiones basadas en datos requiere que estos sean fiables. Los datos pueden ser incompletos, inconsistentes, desactualizados o inadecuados para responder la pregunta que se está planteando.

Quizás más importante aún, el hecho de que los datos hayan sido registrados no significa que sean precisos. Y la precisión no es lo mismo que la relevancia.

Alfabetización en Datos

Más allá de los problemas de calidad de los datos, pueden surgir más problemas en su interpretación y comunicación.

El juicio humano es falible. Obras de Kahneman, Taleb, y Bergstrom y West ofrecen una visión útil de los tipos de errores que comete la gente, especialmente cuando se le presentan números y estadísticas. Quizás más aún cuando se utilizan para construir una narrativa.

Somos capaces de cometer errores sorprendentemente simples que no tienen nada que ver con la inteligencia, ya sea como resultado de una gráfica engañosa, un sesgo inherente o un simple fallo de juicio. Las tendencias de Munger ofrecen un marco útil para entender por qué.

Entender los datos puede servir para mejorar los flujos de tu campaña de marketing, modelar si es probable que una población de especies se recupere o decline en base a datos históricos de recuento, o simplemente reducir el riesgo de ser engañado en una era en la que los datos se citan habitualmente para respaldar un argumento.