Comunidad de Machine Learning / Deep learning

Millonet1

Buenas, la conferencia ha sido una gran experiencia. Dejo el preprint por aquí por si a alguien le interesa (es un paper muy normalito, pero me ha servido para aprender muchísimo).

https://arxiv.org/abs/2210.06872

2 1 respuesta
allmy

Yo me he puesto duro, se programar bastante bien en python, y bastante de data engineering.
Estoy metiendo una buena cantidad de horas a la semana. En Cursera y Udacity.

#121 Qué cursos hiciste?

1 1 respuesta
Millonet1

#122 hice uno para aprender Python en coursera y este para machine learning:

https://www.edx.org/course/machine-learning-with-python-from-linear-models-to

1 respuesta
allmy

#123 yo por ahora estoy haciendo

https://www.coursera.org/professional-certificates/ibm-data-engineer
https://www.coursera.org/professional-certificates/ai-engineer

El de IA me lo estoy tomando con extremada profundidad, tal vez demasiada, para que no solo sea "pasar por el curso", estoy haciendo mis propias implementaciones de algoritmos (no de las cosas más complicadas porque me llevaría demasiado), porque al final me ayuda a interiorizar el por qué de las cosas. También estoy ampliando conocimientos adyuacentes, como algoritmos de distancia, como funcionan matemáticamente los errores, todos ellos, etc. A parte me estoy haciendo ejercicios propios más allá de los del curso con datasets de Kaggle.

La idea es adquirir el conocimientos primero para poder meterme en una formación más tocha sin querer pegarme un tiro.

11 días después
B

Me encantaría aprender IA o Big Data, ¿Algo básico de iniciación? De fácil a medio para empezar?
Casos prácticos cotidianos para verle la utilidad en mi día a día y practicar?

1 respuesta
ercabesa

#125 son cosas muy diferentes Ia y bigdata, luego depende de hasta que punto quieras meterte si quieres ver las bases o no

18 días después
LimPollbrow

Que cursos podríais recomendar para noobs para empezar desde 0 sobre ML/DL?

1 respuesta
GeGe

Les dejo este interesante video en donde recrea chatGPT a mucha menor escala pero dando conceptos que pueden servir y entender un poco mas como funciona, el que habla fue el director de AI de Tesla y openAI.

1
ercabesa

competís en Kaggle?

10 días después
CarlosML27

#127 Empiezas desde cero en ML o en la programación en general?

1 respuesta
LimPollbrow

#130 Hola, gracias por responder. Desde cero en ML. He programado en Java y JS

Lixae

Un poco long-shot pero a ver si alguien tiene idea. Estoy con un dataset de time series, o sea solo fecha y variable x y es todo lo que tengo. Quiero ajustar un XGBoost a la serie para hacer predicciones, pero el y_train y x_train son obviamente iguales xdddd y todos los ejemplos que encuentro son con datasets con más de una variable :confused:

Edit: uso R yo, pero un ejemplo de python me valdría también

1 respuesta
R

#132 como es que tu y_train, x_train son iguales si y guarda la fecha y x la variable? no entiendo

Ademas lo suyo es tenerlo alreves, el tiempo en x resultado y, asi si tienes una funcion

1 1 respuesta
Lixae

#133 Wait, pero entonces cómo aprende solo con la fecha? Vengo de estar con box-jenkins y arima y sus variaciones, por lo que esto de usar la fecha en sí para modelar es algo nuevo para mí.

De hecho ahora al crear la matriz, no me deja usar la fecha tampoco.

He intentado seguir esta guía: https://www.r-bloggers.com/2021/03/time-series-forecasting-with-xgboost-and-feature-importance/

1 respuesta
telemaco103

#134 Si no entiendo mal solo tienes dos variables, la fecha y una variable x (que podría ser, por ejemplo, temperatura), es así? Si es así lo que veo más lógico es utilizar la fecha como entrada a tu regresor/clasificador y que la salida sea la variable a predecir

1
PhDfailer

En una entrevista técnica para data scientist en el que he recalcado que no tengo experiencia me han mandado un "take home" task en el que tengo que hacer un forecasting de una time series irregular (compras que a veces ocurren cada 3 días y otras cada mes), con multiples clientes distintos y con unas 25 variables distintas. Tengo que predecir cuando va a ser la próxima compra y de cuanta cantidad.

Me parece una pasada y no sé ni por donde cogerlo. Yo time series solo he visto o bien que sean regulares (semana 1, semana 2) y modelar la predicción de la siguiente compra, pero lo de predecir CUANDO y de CUANTO va a ser la próxima compra con un time series irregular, sumado a decenas de variables adicionales no sé ni por donde abordarlo, yo creo que incluso se necesitarian dos modelos distintos.

Les he dicho que no tengo el conocimiento para modelar un caso tan complejo. Un poco decepcionado.

2 respuestas
telemaco103

#136 Puedes plantear dos modelos en los que para cada uno de ellos, la otra variable a determinar sea también parte de los datos de entrada.

  • Cuando hagas el modelo para predecir CUANDO se hará la siguiente compra como variable de entrada, a parte de las otras 25 variables, metes la de la cantidad por si influye.
  • Cuando hagas el modelo para predecir CUANTO será la cantidad de la siguiente compra mete el cuando como variable de entrada, a parte de las otras 25 variables.

Además puedes crearte variables nuevas como podría ser la diferencia de un día al otro tanto en días como en cantidad.

Yo me haría un MLP sencillito para empezar a trastear al menos para una de ellas e iría probando nuevas variables, normalizar las variables que ya tienes, hacer feature selection para ver si mejora, etc.

1 1 respuesta
PhDfailer

#137 buenos consejos, y como regularizarias la time series?

me han dicho que tengo que predecir cuando será la próxima compra pero claro, a mi me han dado datatimes en segundos, horas, dias, semanas y año... no sé si modelar por semanas o por días, las compras suelen ser cada una o varias semanas

también cada cliente tiene periodos distintos, por ejemplo hay algunos que en 2019 no compran, otros en 2020 no... me parece complicadísimo y nada relevante estadísticamente

1 respuesta
telemaco103

#138 Así de primeras los tiempos se me ocurre pasarlos a una única variable que no sea demasiado pequeña ni grande, por ejemplo todos a días. Si ves que esta variable te queda muy grande pues todo a semanas. Además yo creo que va a ser importante meter como variable de entrada el día anterior para que tu modelo "aprenda" que puede obtener la fecha siguiente a partir de la anterior.

Está claro que esos datos estadísticamente no van a ser relevantes, pienso en alguna distribución estadística a la que pudieran pertenecer los días que hago la compra y no la encuentro, que lo mismo existe un estudio jajaja

1 1 respuesta
PhDfailer

#139 supongo que datos como si es un festivo podrían afectar, se suele comprar más

pero vaya que me manden una prueba técnica que requiere varios días para hacer para un fin de semana, ni me renta, intentaré hacer algo pero lo veo complicado

2 respuestas
JonaN

#140 Si las compras son frecuentes, podrías crear una variable adicional que sea el periodo entre compra y compra para cliente, y predecir eso. Luego le sumas el periodo más probable a la última compra de cada uno de ellos, y coges la fecha que ocurra antes en el tiempo. Por otro lado, modelas la cuantía para cada cliente.

edit: creo que ya te lo han sugerido, sorry.

1
telemaco103

#140 Haz unas pruebas rápidas a ver si consigues resultados decentes, cosas que te pueden llevar poco tiempo:

  • Haz un MLP donde puedas fácilmente cambiar el número de capas, número de neuronas de cada capa, función de activación, proporción test/train, etc.
  • Sobre los datos prueba a incluir nuevas variables, normalizar (standardization), hacer feature selection. Con respecto a la normalización yo probaría tanto a normalizar usando la media y la desviación típica ( dato_norm = (dato-media)/ desv ) o a normalizar en una recta para que los valores estén comprendidos entre 0 y 1 o entre -1 y 1.
1
c0b4c

Diría que lo que buscan es ver cómo es tu proceso de análisis y cómo llegas a los resultados, y no tanto que el resultado sea correcto y preciso.
Lo más importante es que justifiques adecuadamente cada decisión que tomas en el proceso de análisis.

Si no tienes muchos datos pesa más el fundamental que lo que puedas hacer con modelos… Fechas de cumpleaños, festividades, fíjate en eso. Falta información para que pueda decir más cosas. Esto es preferencia personal claro, habrá quien tenga un toolbox de la hostia y te haga magia, pero no es mi filosofía cuando hay pocos datos o es un problema muy complejo y tengo poco tiempo.

También creo que valorarían que explicases por qué no hiciste ciertas cosas, pero eso mejor para el final si tienes tiempo. Al principio mejor centrarse en las cosas que hiciste y por qué las hiciste.

5 1 respuesta
PhDfailer

#143 El lunes tengo una cosa bastante importante y la entrevista no me dió buena vibra: se ve el tipo de empresa con derecho a mandarte un take home un finde... En resumen voy a hacer next

Pero sin duda el enfoque que propones es el que creo que se buscaría.

1 respuesta
c0b4c

#144 ya, te entiendo. Con más motivo entonces hacer un análisis rápido (pero justificado) y ya.

Incluso decir “este problema llevaría X días resolverlo porque blablabla, pero dado el poco tiempo del que dispongo para dar una respuesta mi análisis se ha centrado en taltaltal…” es una justificación.

“Faltan datos de este tipo y de este otro tipo. Si pudiésemos obtenerlos mejoraría mi capacidad de predicción en X cantidad. Para obtenerlos podríamos hacer tal o tal”. También sirve. Lo de X cantidad podrías responderlo después de un análisis de sensibilidad. Si no lo has hecho puedes decir cómo hacerlo.

3
ercabesa

Me queda poco para terminar los estudios en este campo y aun no he echado ofertas de trabajo pero, lo de #136 es normal? que te pidan este tipo de tareas para verificar tus competencias? Quiero decir realizarlo a modo teórico lo entiendo pero no se me ha parecido raro, viniendo de trabajos en otros campos, no se si es común

2 respuestas
PhDfailer

#146 Me da que esta empresa , y en concreto este entrevistador ha querido ir de listillo (parecía un junior de la empresa o que no llevaba más de 1-2 años, que no significa nada, pero yo le sacaba 5 años de edad, y 5 años de experiencia laboral aunque no en este campo...). Algunas perlas más fueron que me confundió con otro entrevistado, y que iba con desventaja respecto a los otros entrevistados porque no tenía experiencia en IA y que por eso me mandaba esta tarea.

Pero igual nos lo pueden verificar mejor gente con experiencia en el campo a ver si es algo normal.

1 1 respuesta
CarlosML27

Pueeees en mi caso me he encontrado de todo.

Desde empresas que te mandan tareas de ese estilo a ver si les resuelves sus problemas hasta otras (como la que estoy actualmente) que les sirvió con charlar un ratito conmigo y ver que entendía de todo lo que necesitaban.

3
NocAB

Me parece preferible que te dejen unos días para hacer una prueba a tener que hacerla a una hora concreta y con un límite de tiempo, como me pasó con una consultora mientras estaba haciendo el máster. La empresa en la que estoy ahora ni me hizo prueba, supongo que haber terminado ya el máster les sirvió de garantía de que tenía una mínima base.

Lixae

#146 Diría que no es anormal. Yo estoy terminando un máster en estadística y para hacer prácticas me han llegado a enviar un business case, con más tiempo que el user (5 días), pero también de hacer forecast de time series. Además de las típicas pruebas de elección multiple y preguntas de teoría de estadística/machine learning durante la entrevista.

Del tema de #134 al final estuve con mi tutor más de una hora resolviéndolo :psyduck: . El resumen era separar la fecha en elementos más pequeños y varios problemas con los objetos creados/a crear, los packages han cambiado y la guía esa no 😅

2