[Duda] Ciencia de datos

Emmanuelgonzalezpeña · 2023-10-18 19:28

Tengo un dataset al cual le faltan datos en una columna entonces lo divido en datos conocidos y desconocidos realizo un modelo de predicion con los datos conocidos como con la respuesta de el modelo

Hola Emmanuel , espero que estés muy bien.

Para completar la columna survived de tu conjunto de datos desconocidos utilizando un modelo de predicción que hayas entrenado en los datos conocidos, puedes seguir estos pasos en Google Colab:

Primero, asegúrate de cargar tus datos conocidos y desconocidos en dos DataFrames de Pandas.

import pandas as pd

# Carga los datos conocidos
datos_conocidos = pd.read_csv("datos_conocidos.csv")

# Carga los datos desconocidos
datos_desconocidos = pd.read_csv("datos_desconocidos.csv")

Asegúrate de que ambos DataFrames tengan las mismas columnas, incluida la columna survived.

Entrena un modelo de predicción en tus datos conocidos. Por ejemplo, si estás utilizando un modelo de clasificación, puedes hacer lo siguiente:

from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier

# Divide los datos conocidos en características (X) y la variable objetivo (y)
X = datos_conocidos.drop("survived", axis=1)
y = datos_conocidos["survived"]

# Divide los datos conocidos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Entrena un modelo (por ejemplo, un RandomForestClassifier)
modelo = RandomForestClassifier()
modelo.fit(X_train, y_train)

Utiliza el modelo entrenado para predecir la columna survived en tus datos desconocidos:

# Utiliza el modelo para predecir la columna "survived" en los datos desconocidos
predicciones = modelo.predict(datos_desconocidos.drop("survived", axis=1))

# Asigna las predicciones a la columna "survived" en los datos desconocidos
datos_desconocidos["survived"] = predicciones

Ahora, la columna survived en datos_desconocidos debería estar completa con las predicciones del modelo. Puedes guardar estos datos si lo deseas:

# Guarda los datos completos en un nuevo archivo
datos_desconocidos.to_csv("datos_desconocidos_completos.csv", index=False)

Estos pasos te permitirán utilizar un modelo de predicción entrenado en los datos conocidos para completar la columna survived en tus datos desconocidos en Google Colab. Asegúrate de adaptar el código a tus datos específicos y al tipo de modelo de predicción que estás utilizando.

Un saludo.

Si este post te ayudó, por favor, marca como solucionado ✓. Continúa con tus estudios

Trilhas por carreira

Carreiras de IA

Carreiras de Dados

Carreiras de Cyber

Carreiras de DevOps & Cloud

Carreiras de UX & UI

Carreiras de Mobile & Front-End

Carreiras de Back-End

Carreiras de Negócios

Cursos universitários FIAP

Tópicos relacionados

Contenidos de Alura sobre el tema