Ya estoy inscrito ¿Todavía no tienes acceso? Nuestros Planes
Ya estoy inscrito ¿Todavía no tienes acceso? Nuestros Planes
Solucionado (ver solución)
Solucionado
(ver solución)
1
respuesta

[Duda] Ciencia de datos

Tengo un dataset al cual le faltan datos en una columna entonces lo divido en datos conocidos y desconocidos realizo un modelo de predicion con los datos conocidos como con la respuesta de el modelo puedo completar el dataset de datos desconocidos en google colab abajo muestro como tengo en codigo necesito completar la columna survived de la tabla desconocidos

Ingrese aquí la descripción de esta imagen para ayudar con la accesibilidadIngrese aquí la descripción de esta imagen para ayudar con la accesibilidadIngrese aquí la descripción de esta imagen para ayudar con la accesibilidad

Ingrese aquí la descripción de esta imagen para ayudar con la accesibilidad

1 respuesta
solución!

Hola Emmanuel , espero que estés muy bien.

Para completar la columna survived de tu conjunto de datos desconocidos utilizando un modelo de predicción que hayas entrenado en los datos conocidos, puedes seguir estos pasos en Google Colab:

Primero, asegúrate de cargar tus datos conocidos y desconocidos en dos DataFrames de Pandas.

import pandas as pd

# Carga los datos conocidos
datos_conocidos = pd.read_csv("datos_conocidos.csv")

# Carga los datos desconocidos
datos_desconocidos = pd.read_csv("datos_desconocidos.csv")

Asegúrate de que ambos DataFrames tengan las mismas columnas, incluida la columna survived.

Entrena un modelo de predicción en tus datos conocidos. Por ejemplo, si estás utilizando un modelo de clasificación, puedes hacer lo siguiente:

from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier

# Divide los datos conocidos en características (X) y la variable objetivo (y)
X = datos_conocidos.drop("survived", axis=1)
y = datos_conocidos["survived"]

# Divide los datos conocidos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Entrena un modelo (por ejemplo, un RandomForestClassifier)
modelo = RandomForestClassifier()
modelo.fit(X_train, y_train)

Utiliza el modelo entrenado para predecir la columna survived en tus datos desconocidos:

# Utiliza el modelo para predecir la columna "survived" en los datos desconocidos
predicciones = modelo.predict(datos_desconocidos.drop("survived", axis=1))

# Asigna las predicciones a la columna "survived" en los datos desconocidos
datos_desconocidos["survived"] = predicciones

Ahora, la columna survived en datos_desconocidos debería estar completa con las predicciones del modelo. Puedes guardar estos datos si lo deseas:

# Guarda los datos completos en un nuevo archivo
datos_desconocidos.to_csv("datos_desconocidos_completos.csv", index=False)

Estos pasos te permitirán utilizar un modelo de predicción entrenado en los datos conocidos para completar la columna survived en tus datos desconocidos en Google Colab. Asegúrate de adaptar el código a tus datos específicos y al tipo de modelo de predicción que estás utilizando.

Un saludo.

Si este post te ayudó, por favor, marca como solucionado ✓. Continúa con tus estudios