En el marco de un análisis sobre la salud de los nuevos estudiantes de la UC, extraeremos una muestra consistente en 1000 alumnos a los que se somete a una encuesta compuesta de las siguientes variables:

  1. peso: los valores deben situarse entre 59 y 115 kg.
  2. altura: los valores deben situarse entre 161 y 196 cm.
  3. edad: los valores deben situarse entre 18 y 25, con repetición.
  4. sexo: dos categorías, 1 (hombre) y 2 (mujer).
  5. procedencia: las etiquetas de las categorías serán Bahía, Besaya, Campoo, Zona Oriental, Zona Occidental, Foráneos. Los porcentajes correspondientes a cada categoría son los siguientes 45%, 20%, 5%, 15%, 10% y 5%. Las etiquetas se pueden repetir.
  6. variable 6: números del 1 al 5 con repetición. Las probabilidades correspondientes a cada una de ellas son 25, 20, 25, 5 y 25 %.
  7. variable 7: números del 1 al 3 con repetición. Las probabilidades correspondientes a cada una de ellas son 15, 35, y 50 %.
  8. grupo sanguíneo: las etiquetas serán O+, A+, B+, AB+, O-, A-, B-, AB-. Los porcentajes correspondientes a cada una serán 35, 36, 7,2,8,6,2 y 4%.

PREGUNTA 1.

Crea un dataframe denominado muestra, compuesto de 1000 casos.

Establecemos la semilla para que el resto del ejercicio pueda ser reproducido como en el aula

VARIABLE CUANTITATIVA CONTINUA.

VARIABLE NUMÉRICA DISCRETA.

VARIABLE CUALITATIVA NOMINAL.

VARIABLE CUANTITATIVA DISCRETA.

VARIABLE CUALITATIVA NOMINAL.

Conversión de los vectores en un único dataframe

Eliminar los vectores originales

PREGUNTA 2.

Transforma en factores aquellas variables que consideres necesario.

PREGUNTA 3.

¿Cúal son los valores correspondientes a?:

Filas 12 a 14

Columnas 21 a 30

Filas 17 a 21 de la variable grupo_sanguineo

PREGUNTA 4.

Crea una nueva variable denominada IMC que resulta de dividir el peso (en kg) entre la estatura en metros elevada al cuadrado.

PREGUNTA 5.

Recodifica la variable IMC creando una nueva variable, denominada “riesgo_sobrepeso”, que tendrá las siguientes categorías:

PREGUNTA 6.

Convierte en factores las variables 6 y 7.

PREGUNTA 7.

Comprueba si hay datos nulos en el dataframe, y en su caso, elimínalos.

PREGUNTA 8.

Crea un nuevo dataframe, denominado sobrepeso_masculino, que contenga todos los hombres con sobrepeso y obesidad.

PREGUNTA 9.

De este último dataframe, elimina las variables peso, altura, y uso de móvil.

PREGUNTA 10.

Graba este dataframe con formato .rds en el directorio de trabajo donde alojarás los materiales del curso.

PREGUNTA 11.

Graba todo el contenido del Global Environment con formato .RData.