Tema 01. Visualización de Datos. Ejercicio.

Autores/as

Pedro Albarrán

Alberto Pérez

Apartado a)

El fichero pwt.csv contiene los datos de las Penn World Tables (una famosa fuente de datos macro-económicos). Instalad el paquete de R pwt10. En la ayuda de R, buscad pwt10.01 para una descripción de las primeras 52 columnas; la última es el continente al que pertenece el país.

En este apartado, reproduciremos este gráfico de The Economist, donde se relacionaba Corrupción y Desarrollo Humano

PERO usando otras dos variables que tenga sentido relacionar.

  • Debéis elegir la información de solo uno de los años disponibles.

  • La reproducción del gráfico es aproximada; p.e., no es necesario que el interior de los puntos esté vacio o colocar el \(R^2\)

Comentad brevemente la información que ofrece vuestro gráfico.

Apartado b)

La siguiente tabla con datos del PIB (constante a precios de 2015, en miles de millones de dólares) en 2020 para unos cuantos países:

pais continente pib
Angola Africa 81.40
Germany Europe 3459.66
Egypt, Arab Rep. Africa 412.21
Spain Europe 1176.07
France Europe 2419.49
United Kingdom Europe 2830.29
Ghana Africa 62.79
Italy Europe 1746.02
Nigeria Africa 500.23
South Africa Africa 338.05

´ Mostrar un diagrama de caja de la distribución del PIB para cada continente, sin usar y usando escala logarítmica. Comentar la información que ofrecen ambos gráficos y discutir las razones para las diferencias (ej., posición central y dispersión de las distribuciones).

Nota: realizar algunos ajustes (mínimos) a los gráficos como dar color a los diagramas (asociado al continente), poner título al gráfico, los ejes, etc.

Apartado c)

El fichero hotels.csv contiene información sobre reservas de hoteles, donde cada fila corresponde con una reserva; la información detallada sobre las variables puede encontrarse aquí.

Apartado c.1)

La columna market_segment contiene información de a qué categoría de los segmentos de mercado pertenece la reserva: Aviation (reservas por aerolíneas), Complementary (reservas de cortesía/gratuitas), Corporate (reservas de Empresas), Direct (reservas directas), Groups (Grupos), Offline TA/TO (Agencia de Viajes/Tour Operador ‘offline’), Online TA (Agencia de Viajes de internter), Undefined (Sin definir).

Una cadena hotelera está interesada en desarrollar promociones basadas en diferentes segmentos de mercado. Pero primero necesita saber cuántas de las transacciones ocurren para cada segmento de mercado y si esto dependía del tipo de hotel. La variable hotel indica el tipo de hotel: City Hotel (hotel urbano) o Resort Hotel (hotel de vacaciones).

Mostrar una visualización que permita a la cadena hotelera tener la información para tomar decisiones sobre sus promociones. Realizar los ajustes necesarios para que la visualización sea clara y fácil de interpretar: títulos, etiquetas, colores, etc.

Apartado c.2)

Un directivo de la empresa afirma que deben centrarse en personas que reservan con antelación, y cree que las personas con hijos tienden a reservar con mayor anticipación. Realice un análisis que permita comprobar si esta afirmación es cierta o no.

Nota: para realizar este análisis, se puede usar la variable lead_time (número de días que transcurren entre la fecha de reserva y la fecha de llegada) y la variable children (número de niños).

Entrega del ejercicio

Rellenad este FORMULARIO con vuestros datos y subid

  • vuestro archivo de R

IMPORTANTE: el nombre de los ficheros que subáis DEBE seguir el siguiente formato que incluye vuestro número de DNI: ej.,

  • Tema01ej_123456789.R