Estudio de caso 1: Análisis EDA con un dataset de Evaluación sumativa

Realiza el analisis EDA con los datos adjuntos, incluidas las gráficas
2 / 2
GPT
Data Analysis

Para comenzar el análisis exploratorio de datos (EDA) del archivo que has proporcionado, primero necesito cargar y examinar los datos. Vamos a realizar los siguientes pasos:

  1. Carga de datos: Abriré el archivo CSV para entender su estructura y contenido.
  2. Inspección inicial: Revisaré las primeras filas del conjunto de datos para obtener una idea general de los tipos de datos y las columnas disponibles.
  3. Resumen estadístico: Proporcionaré un resumen estadístico de los datos para comprender mejor las distribuciones y posibles valores atípicos.
  4. Análisis de valores faltantes: Verificaré si hay valores faltantes en el conjunto de datos.
  5. Visualización de datos: Crearé gráficos para visualizar la distribución de los datos y posibles relaciones entre variables.

Comencemos con el primer paso: cargar los datos.

El archivo CSV parece estar separado por punto y coma (;) en lugar de la coma estándar. Además, contiene columnas para números de identificación, nombres, puntajes de prácticas, exámenes parciales, examen final y la nota final. Para un análisis más detallado, necesitaré cargar correctamente los datos utilizando el punto y coma como separador.

Procederé a cargar los datos de nuevo con el separador adecuado y luego revisaré las primeras filas para confirmar que los datos se han cargado correctamente. ​

Los datos se han cargado correctamente. El conjunto de datos incluye las siguientes columnas:

  • Nro: Número de identificación del estudiante.
  • ApellidosyNombres: Nombres y apellidos de los estudiantes.
  • Practicos: Puntuaciones de los trabajos prácticos.
  • Parcial1: Puntuaciones del primer examen parcial.
  • Parcial2: Puntuaciones del segundo examen parcial.
  • ExFinal: Puntuaciones del examen final.
  • NotaFinal: Nota final del curso.

El siguiente paso es proporcionar un resumen estadístico de los datos para entender mejor las distribuciones de las puntuaciones. También verificaré si hay valores faltantes en el conjunto de datos. ​

El resumen estadístico de los datos revela lo siguiente:

  • Hay un total de 47 registros.
  • Las puntuaciones de los trabajos prácticos (Practicos) tienen un promedio de aproximadamente 72.19, con una desviación estándar de 25.30.
  • Las puntuaciones del primer examen parcial (Parcial1) tienen un promedio de 24, con una desviación estándar de 18.78.
  • Las puntuaciones del segundo examen parcial (Parcial2) tienen un promedio de 13.19, con una desviación estándar de 19.82.
  • Las puntuaciones del examen final (ExFinal) tienen un promedio de 26.48, con una desviación estándar de 24.48. Sin embargo, parece que hay 7 valores faltantes en esta columna.
  • La nota final (NotaFinal) tiene un promedio de 28.06, con una desviación estándar de 18.12.

En cuanto a los valores faltantes, solo la columna ExFinal tiene valores faltantes, con un total de 7.

Ahora, procederé a realizar algunas visualizaciones para entender mejor la distribución de las puntuaciones y las posibles relaciones entre las diferentes variables. ¿Hay alguna visualización específica o análisis adicional que te gustaría que realice con estos datos?

Gráficos estadisticos

Muestrame gráficos estadisticos
GPT
Data Analysis

Claro, crearé varios gráficos estadísticos para visualizar los datos de este conjunto. Los gráficos incluirán:

  1. Histogramas para cada columna de puntuación (Prácticos, Parcial1, Parcial2, ExFinal, NotaFinal), para observar la distribución de las puntuaciones.
  2. Diagramas de caja (boxplots) para las mismas columnas, para identificar valores atípicos y entender mejor la dispersión de los datos.
  3. Diagrama de dispersión (scatter plot) entre algunas combinaciones de puntuaciones, para ver si hay correlaciones evidentes entre ellas.

Comenzaré creando los histogramas y los diagramas de caja.

Output image

Aquí tienes los gráficos estadísticos para tu conjunto de datos:

  1. Histogramas (columna izquierda):

    • Muestran la distribución de las puntuaciones para cada categoría (Prácticos, Parcial1, Parcial2, ExFinal, NotaFinal).
    • Los histogramas ayudan a visualizar la frecuencia de diferentes rangos de puntuaciones.
  2. Diagramas de caja (columna derecha):

    • Proporcionan una visión de la dispersión y los valores atípicos en cada categoría.
    • La línea dentro de cada caja indica la mediana, mientras que los extremos de las cajas representan los cuartiles (25º y 75º percentil).
    • Los puntos fuera de los "bigotes" del diagrama de caja son considerados valores atípicos.

A partir de estos gráficos, podemos identificar características como la simetría de la distribución de las puntuaciones, la presencia de valores atípicos y la concentración de las puntuaciones en ciertos rangos.

Este es el código que genera los cuadros

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# Carga de datos
file_path = '/mnt/data/DATASET - INF110-FM_1-2022.csv'
data = pd.read_csv(file_path, sep=';')

# Configurando el estilo de los gráficos
sns.set(style="whitegrid")

# Creando un conjunto de subplots
fig, axes = plt.subplots(2, 2, figsize=(15, 12))

# Histograma de Notas Finales
sns.histplot(data['NotaFinal'], bins=20, kde=True, ax=axes[0, 0])
axes[0, 0].set_title('Distribución de Notas Finales')
axes[0, 0].set_xlabel('Nota Final')
axes[0, 0].set_ylabel('Frecuencia')

# Boxplots para Cada Tipo de Evaluación
sns.boxplot(data=data[['Practicos', 'Parcial1', 'Parcial2', 'ExFinal']], ax=axes[0, 1])
axes[0, 1].set_title('Distribución de Calificaciones en Diferentes Evaluaciones')
axes[0, 1].set_xlabel('Tipo de Evaluación')
axes[0, 1].set_ylabel('Calificaciones')

# Gráfico de Dispersión entre Prácticos y Nota Final
sns.scatterplot(x='Practicos', y='NotaFinal', data=data, ax=axes[1, 0])
axes[1, 0].set_title('Relación entre Prácticos y Nota Final')
axes[1, 0].set_xlabel('Calificación de Prácticos')
axes[1, 0].set_ylabel('Nota Final')

# Gráfico de Dispersión entre Examen Final y Nota Final
sns.scatterplot(x='ExFinal', y='NotaFinal', data=data, ax=axes[1, 1])
axes[1, 1].set_title('Relación entre Examen Final y Nota Final')
axes[1, 1].set_xlabel('Calificación de Examen Final')
axes[1, 1].set_ylabel('Nota Final')

# Ajustando el layout
plt.tight_layout()


Perfecto, crearé varios gráficos estadísticos para analizar los datos. Los gráficos incluirán:
  1. Histograma de Notas Finales: Para ver la distribución de las notas finales de los estudiantes.
  2. Boxplots para Cada Tipo de Evaluación (Prácticos, Parciales y Examen Final): Para comparar las distribuciones de calificaciones en diferentes tipos de evaluaciones.
  3. Gráfico de Dispersión entre Prácticos y Nota Final: Para examinar si existe alguna correlación entre las calificaciones de los prácticos y las notas finales.
  4. Gráfico de Dispersión entre Examen Final y Nota Final: Para analizar la relación entre las calificaciones del examen final y las notas finales.

Comenzaré generando estos gráficos.

Output image

Aquí tienes varios gráficos estadísticos basados en los datos proporcionados:

  1. Histograma de Notas Finales: Muestra cómo se distribuyen las notas finales de los estudiantes. Podemos ver la frecuencia de diferentes rangos de notas.

  2. Boxplots para Cada Tipo de Evaluación (Prácticos, Parcial1, Parcial2, ExFinal): Presenta las distribuciones de calificaciones en las diferentes evaluaciones. Los boxplots muestran la mediana, los cuartiles y los valores atípicos.

  3. Gráfico de Dispersión entre Prácticos y Nota Final: Explora la relación entre las calificaciones de los prácticos y las notas finales. Cada punto representa un estudiante.

  4. Gráfico de Dispersión entre Examen Final y Nota Final: Analiza cómo las calificaciones del examen final se relacionan con las notas finales.

Estos gráficos pueden ayudarte a entender mejor el rendimiento y las tendencias en los datos. Si necesitas análisis adicionales o diferentes tipos de gráficos, no dudes en decírmelo. ​



          







 

Comentarios