Tema 01 - Visualización de Datos

Ejercicio Práctico

Autores/as
Afiliación

Pedro Albarrán

Dpto. de Fundamentos del Análisis Económico. Universidad de Alicante

Alberto Pérez

NOTA: todos los comentarios sobre los resultados se incluyen en el propio archivo de guión.

Ejercicio 1

El fichero pwt.csv contiene datos de las Penn World Tables (PWT) más una variable de continente. Las descripción de las variables de las PWT se puede encontrar aquí

Apartado 1.a)

Usando otras DOS variables económicas que tengan sentido relacionar, debes reproducir aproximadamente este gráfico de The Economist sobre Corrupción y Desarrollo Humano:

  • Sugerencias de pares de variables:

    • Capital humano (hc) vs Productividad (rtfpna)

    • PIB per cápita (rgdpna) vs Esperanza de vida (pop)

    • Formación de capital (csh_i) vs Crecimiento

  • Nota: este es un ejercicio individual. Se recomienda evitar el uso de las mismas variables y/o ofrecer resultados y comentarios demasiado similares.

  • Requisitos:

    • Usa datos de un solo año

    • Incluye puntos coloreados por continente

    • Añade línea de tendencia

    • Etiqueta algunos países seleccionados

    • La reproducción es aproximada (no necesitas puntos vacíos o R²)

Apartado 1.b)

Comenta brevemente qué información revela tu gráfico.


Ejercicio 2

Una consultora de inversiones quiere comparar el perfil de ingresos obtenidos entre startups tecnológicas y grandes corporaciones para una estrategia de inversión.

Ingresos y Empleados: Corporaciones vs Startups (2023)
empresa tipo ingresos_millones empleados
Google Corporación 3522.91 85000
Microsoft Corporación 2831.89 72000
Apple Corporación 2413.98 65000
Amazon Corporación 1751.65 48000
Meta Corporación 1187.63 35000
TechStart Startup 81.40 120
InnovateLab Startup 62.83 85
DataFlow Startup 37.21 45
CloudVision Startup 15.80 28
AI-Solutions Startup 8.45 15

Apartado 2.a)

Mostrar dos diagramas de caja de la distribución de ingresos por tipo de empresa, sin usar y usando escala logarítmica.

  • Nota: realizar algunos ajustes (mínimos) a los gráficos como dar color a los diagramas (asociado al tipo de empresa), poner título al gráfico, los ejes, etc.

Apartado 2.b)

  • Comparando ambos gráficos, ¿qué diferencias existen en la posición central y la variabilidad dentro de cada grupo? ¿qué explican esas diferencias?

  • ¿Qué gráfico es más informativo y por qué?

  • Si la variabilidad observada en los gráficos es una aproximación de la variabilidad en la rentabilidad de una inversión, ¿qué concluirías como empleado de la consultora sobre si es más volátil invertir en Corporaciones o en Startups?


Ejercicio 3

El fichero hotels.csv contiene información sobre reservas de hoteles, donde cada fila corresponde con una reserva; la información detallada sobre las variables puede encontrarse aquí.

Apartado 3.a)

La columna market_segment contiene información de a qué categoría de los segmentos de mercado pertenece la reserva: Aviation (reservas por aerolíneas), Complementary (reservas de cortesía/gratuitas), Corporate (reservas de Empresas), Direct (reservas directas), Groups (Grupos), Offline TA/TO (Agencia de Viajes/Tour Operador ‘offline’), Online TA (Agencia de Viajes de internet), Undefined (Sin definir).

Una cadena hotelera está interesada en desarrollar promociones basadas en diferentes segmentos de mercado. Pero primero necesita saber cuántas de las transacciones ocurren para cada segmento de mercado y si esto dependía del tipo de hotel. La variable hotel indica el tipo de hotel: City Hotel (hotel urbano) o Resort Hotel (hotel de vacaciones).

Mostrar una visualización que permita a la cadena hotelera tener la información para tomar decisiones sobre sus promociones. Realizar los ajustes necesarios para que la visualización sea clara y fácil de interpretar: títulos, etiquetas, colores, etc.

Apartado 3.b)

Un directivo de la empresa afirma que deben centrarse en personas que reservan con antelación, y cree que las personas con hijos tienden a reservar con mayor anticipación. Realice un análisis que permita comprobar si esta afirmación es cierta o no.

Nota: para realizar este análisis, se puede usar la variable lead_time (número de días que transcurren entre la fecha de reserva y la fecha de llegada) y la variable children (número de niños).

Entrega del ejercicio

Rellenad este FORMULARIO con vuestros datos y subid

  • vuestro archivo de R

IMPORTANTE: el nombre de los ficheros que subáis DEBE seguir el siguiente formato que incluye vuestro número de DNI: ej.,

  • Tema01ej_123456789.R