Duda

Hola,

Entiendo tu duda sobre por qué se utilizan diferentes métodos para transformar las variables explicativas y las variables de respuesta. En el contexto del aprendizaje automático, es común que las variables categóricas necesiten ser transformadas en un formato numérico para que los algoritmos puedan procesarlas adecuadamente.

En el caso de las variables explicativas, que pueden ser categóricas, se utiliza el OneHotEncoder. Este método transforma cada categoría en una columna binaria (0 o 1), lo que es útil cuando tienes múltiples categorías y quieres evitar que el modelo interprete un orden o jerarquía entre ellas. Por ejemplo, si tienes una variable "Color" con valores "Rojo", "Verde" y "Azul", el OneHotEncoder creará tres columnas separadas, una para cada color.

Por otro lado, para la variable de respuesta, que también es categórica pero representa la clase que queremos predecir (como "churn" o "no churn"), se utiliza el LabelEncoder. Este método asigna un número entero a cada categoría. Es una transformación adecuada cuando la variable de respuesta tiene solo dos categorías, ya que convierte directamente "churn" en 1 y "no churn" en 0, por ejemplo.

Usar el mismo método para ambas podría no ser adecuado porque OneHotEncoder genera múltiples columnas, lo cual no es necesario para una variable de respuesta binaria. Además, LabelEncoder no es ideal para variables explicativas con más de dos categorías, ya que podría inducir un orden que no existe.

Espero que esta explicación te ayude a entender por qué se utilizan diferentes métodos. ¡Espero haber ayudado y buenos estudios!

Trilhas por carreira

Carreiras de IA

Carreiras de Dados

Carreiras de Cyber

Carreiras de DevOps & Cloud

Carreiras de UX & UI

Carreiras de Mobile & Front-End

Carreiras de Back-End

Carreiras de Negócios

Cursos universitários FIAP

Tópicos relacionados

Contenidos de Alura sobre el tema