3  Decidir el tipo de gráfico correcto

LA PRIMERA decisión al crear una visualización es elegir el tipo de gráfico más adecuado. Una representación incorrecta puede arruinar toda la interpretación. En su libro Storytelling con datos, Cole Nassbaumer (Knaflic 2015) identifica hasta siete tipos básicos entre los que elegir.

De esta tipología, hay dos gráficos que es fundamental dominar: el gráfico de barras (bar chart) y el gráfico de líneas (line chart).

El gráfico de barras se utiliza para visualizar datos categóricos, los cuales representan grupos o categorías. Nuestro objetivo es mostrar cuántos elementos hay en cada grupo (o categoría). Por ejemplo, los datos categóricos pueden reflejar la distribución de los grupos sanguíneos en la población, el número de mujeres y hombres en una universidad, la distribución de nacimientos por mes o el número de bibliotecas por distrito.

Los valores de cada categoría pueden representar la cantidad absoluta (frecuencia absoluta) o el porcentaje respecto al total (frecuencia relativa). La frecuencia absoluta es el número total de ocurrencias de una categoría. Por ejemplo, si en una encuesta 50 personas tienen sangre tipo A, la frecuencia absoluta de esa categoría es 50. La frecuencia relativa es el porcentaje que representa cada categoría respecto al total. Siguiendo el ejemplo anterior, si en la misma encuesta hay 200 personas, entonces la frecuencia relativa de los que tienen sangre tipo A sería 50/200 = 0.25, es decir, el 25 %. En la Figura 3.1 podemos ver este ejemplo ilustrado.

Figura 3.1: Gráfico de barras mostrando dos versiones de los mismos datos: a la izquierda, la frecuencia absoluta, y la derecha la frecuencia relativa. La forma de la gráfica se mantiene en ambos casos, difiriendo en las etiquetas del eje Y.

Así, cada barra representa un grupo o categoría distinta. En ambos casos, la altura de las barras corresponde al valor de cada categoría.

En su formato estándar, las barras se orientan verticalmente: las categorías se colocan en el eje X y las frecuencias en el eje Y. Sin embargo, en algunos casos puede ser más conveniente orientar las barras horizontalmente. En este formato, las categorías se ubican en el eje Y y los valores en el eje X, lo que facilita la lectura de los nombres de las categorías, especialmente cuando son numerosas o son nombres largos.

Si tenemos una lista larga de productos vendidos en una tienda y queremos mostrar las cantidades vendidas por producto, la orientación horizontal de las barras ayuda a visualizar mejor los nombres de los productos al estar dispuestas en el eje Y (véase Figura 3.2)

Figura 3.2: Gráfico de barras orientado horizontalmente para poder leer con facilidad los nombres de las categorías.

Cuando hay muchas categorías, algunas con frecuencias muy pequeñas pueden distraer la atención del análisis principal. Agrupar estas categorías en una sola llamada Otros puede simplificar la interpretación, pero hay que tener cuidado de que no distorsione la realidad de los datos. Si estamos representando los motivos de consulta médica en un hospital y las categorías más importantes son fiebre, dolor de cabeza, y tos, pero también hay otras causas con muy pocos casos (como erupciones cutáneas o problemas de visión), podríamos agrupar estas últimas en una sola barra denominada “Otros”.

Figura 3.3: Gráfico de barras que incluye una categoría ‘Otros’, la cual agrupa los valores de las categorías con pocos casos en una sola categoría.

Los gráficos de tarta (pie charts) muestran proporciones como segmentos de un círculo. Aunque los gráficos de barras a veces se comparan con los gráficos de tarta, estos últimos suelen estar desaconsejados. Los gráficos de tarta, en general, son más difíciles de interpretar que los gráficos de barras. Su principal limitación es que es más difícil comparar los tamaños de las áreas en segmentos que la altura de las barras. Además, el gráfico de tarta tiende a ser ineficaz cuando hay más de tres o cuatro categorías porque las proporciones se vuelven menos distinguibles. Solo tiene sentido usar un gráfico de tarta cuando hay muy pocas categorías como en la Figura 3.4.

Figura 3.4: Fuente: PewResearch

Si solo contamos con dos grupos, como fumadores y no fumadores, puede ser incluso más adecuado simplemente utilizar un número en lugar de un gráfico. Así, si sólo queremos destacar que el 25 % de la población es fumadora, es más claro decir directamente “El 25 % de la población fuma”.

En ningún caso emplearemos gráficos en 3D. Estos gráficos suelen ser confusos y difíciles de interpretar debido a la distorsión visual, lo que complica la comparación precisa de la información.

Por otro lado, los gráficos de líneas son útiles para visualizar datos que varían en el tiempo (series temporales). Cuando trabajamos con una serie temporal que refleja cómo una variable cambia a lo largo del tiempo, la forma más adecuada de representarla es con un gráfico de líneas. Estos gráficos permiten ver fácilmente las tendencias, los picos y las caídas de una variable a lo largo del tiempo. Ejemplos de series temporales incluyen el precio de la vivienda, el consumo eléctrico, el número de homicidios o la cantidad de visitas diarias a una página web. En los gráficos de líneas, el eje X representa el tiempo y el eje Y representa el valor de la variable en cada momento del tiempo. 

Supongamos que queremos representar el consumo de electricidad a lo largo de un año. En el gráfico de líneas, el eje X sería el tiempo (en meses o días) y el eje Y el consumo en kilovatios por hora (kWh). Si el consumo aumenta durante los meses de verano debido al uso de aire acondicionado, esto se vería como un pico en la línea del gráfico (véase Figura 3.5).

Figura 3.5: Serie temporal que representa la evolución en el tiempo del consumo de energia.

Los gráficos de líneas también permiten comparar múltiples series temporales al representar varias líneas en un mismo gráfico. Por ejemplo, podríamos comparar el precio de la vivienda en diferentes ciudades a lo largo del tiempo, trazando una línea para cada ciudad (véase Figura 3.6).

Figura 3.6: Combinación de varias series temporales en la misma visualización. Fuente de datos: Our World in Data: https://ourworldindata.org/population-growth