#240 en tal caso STEAL THE RICH!
#241 en el caso de tunear un modelo de LLM, cuantos intentos soléis hacer con estos modelos?
imagino que primero cogeis varios sub-dataset de prueba, vigilando las distribuciones y demás parámetros, y ahi haces un par de pruebas de parámetros, para hacer cross validation típico y sacar los mejores parámetros
y luego el final es con 10k euros no?
en mi empresa tienen modelos que hacen fine-tunning y llevan ANOS y aun no dan buenos resultados... la verdad... pero claro, me imagino que les pasa como a nosotros y les saldría super caro un intento (50k), y deben usan mierdas de datasets que luego el resultado final fuma porros
ademas son modelos con cosas generativas para rellenar el espacio (long tail) y tal... ósea coste del modelo generativo, de los taggeados... jajaj menudo pozo de dinero es el ML si. mucho hype poco beneficio.
ah y por supuesto son modelos que funcionan geolocalizados, el modelo para UK no funciona para Italia o para Australia JAJAJAJA así que cada equipo tiene que hacer su modelo repitiendo todo.
#242 no recuerdo cuántos tests hicimos (como describes), con cuántos modelos probamos. Tampoco es algo fijo, ahora estamos en nuestra v2 con DeBERTa3. ¿28 modelos? No recuerdo, tengo las métricas por algún lado.
Los 10k€ los invertimos para on premise. Hice cálculos y según el uso que le damos, si sobrevivimos 4 años, nos sale más rentable que tirar de nube. Así de baja ha sido la inversión. (esto es solo para fine tunning y la clasificación mensual de esos millones de objetos). Tiramos de 2×4090. 48 GB de VRAM.
La gran parte del resto de la pipeline va a AWS.
#243 Si on-prem es el futuro.
Por cierto tus cálculos están mal, no veo vuestros salarios a esos 10k jeje : - )
Pues en transmisión de AWS ya veras como se empiece a escalar las cosas. Porque o tienes cosas embedded en memoria con su hardware y tecnología o pagas transmisión.... O te montas la infra de openai (millones de euros) o los pagas a AWS jaja
Yo hablando con Zalando les quería resolver esto porque tienen pipelines de millones de euros que les cuesta tirar 10h. Nah, no lo veían claro. Les ahorraba varios millones de euros al ano pero no me querían pagar lo que les pedia : - ) Ahi sigue esa empresa, en el top 15 e-commerce mundial no?
#244 la inversión para la parte de NLP y clasificación (bueno, lo aprovechamos para todo lo que podemos de cómputo, el resto a AWS). La inversión total en el proyecto ha sido de \~1.5M€, todo ayudas europeas, a fondo perdido, por lo que no hemos tenido que abrir ronda en ningún momento
#245 Que es retos, parte, innpacto, innoeuropa? no tenéis que ir con ningún centro de r+d de la mano para la ayuda?
#248 la pregunta es ¿cómo es que la UE nos financia para hacer investigación sobre farmacias ilegales de USA? Esa pregunta le hice a mi socio cuando, de aquellas como potencial jefe, me hizo la entrevista de trabajo XD
Disculpas al resto se los compas del hilo, que hemos desviado bastante.
#250 si os puedo dar trabajo significaría que habré dejado de vivir precariamente, que tendría estabilidad. Ojalá os pueda dar trabajo XD
Una pregunta un poco tonta pero no me termina de quedar claro.
Estoy usando un modelo llm en local que para input corto va bien, pero como sea más largo se la va completamente y alucina muchísimo.
Para ello un RAG daría mejores resultados cierto? Pese a que el input no sea excesivamente largo.
#252 entiendo que depende del tamaño de contexto que acepte el modelo. Si es un contexto pequeño te pasaría lo mismo pese a usar RAG. Piensa que el orquestador busca en tu pregunta lo más relevante en el RAG y le pasa esa información junto con tu pregunta al llm, por lo que si el problema es el tamaño de contexto estás en las mismas.
#253 Claro eso es lo que pensaba y no me cuadraba. Aún así, si el RAG "filtra" algo disminuye el input y quizá funcionaría mejor, pero no creo que demasiado.
https://machinelearning.apple.com/research/introducing-apple-foundation-models
https://security.apple.com/blog/private-cloud-compute/
Target diffusion starts with the request metadata, which leaves out any personally identifiable information about the source device or user, and includes only limited contextual data about the request that’s required to enable routing to the appropriate model. This metadata is the only part of the user’s request that is available to load balancers and other data center components running outside of the PCC trust boundary. The metadata also includes a single-use credential, based on RSA Blind Signatures, to authorize valid requests without tying them to a specific user. Additionally, PCC requests go through an OHTTP relay — operated by a third party — which hides the device’s source IP address before the request ever reaches the PCC infrastructure. This prevents an attacker from using an IP address to identify requests or associate them with an individual. It also means that an attacker would have to compromise both the third-party relay and our load balancer to steer traffic based on the source IP address.
Si tu empresa no trabaja asi, no la voy a usar.
Bueno, chavales, me acabo de postular para profesor de machine learning en la IE University para el grado de Data Science and Business Analytics. Hay tres asignaturas posibles, que en esencia son:
- Diseño de IA (DNN, NLP, Imagen recognition, etc.)
- ML aplicado
- Cálculo 2 (análisis multivariable, maximización de funciones, etc.)
Yo creo que la primera entrevista ha ido bien, si la paso me harán presentar una clase de prueba sobre algún tema. A ver qué tal. En verdad me estoy presentando no por la pasta (aunque es la universidad privada que mejor paga de España, posiblemente ─en ella imparto Applied Business Mathematics─), sino por el "prestigio" que supone impartir concretamente alguna de estas asignaturas en esta universidad, en especial la primera o la segunda, en mi CV. Convierte mi perfil de ML Engineer en un asset algo más valioso para mis propios empleadores.
Me gustaría impartir la segunda, pues es más práctica, más laboratorio. Son solo 3 ECTS (las otras dos son troncales, de 6 ECTS), lo que implica menos clases, por lo que menos preparación/dedicación para continuar con mi trabajo regular y mi startup.
Ya os iré contando
#257 Muchísima suerte hda! Ojalá yo pueda hacer lo mismo en algún momento, aunque noto que cada vez estoy alejándome más del mundo de la investigación/docencia y tiendo al mundo de la empresa.
#260 yo igual, vaya. Ya antes de terminar el doc tenía decidido que me quería alejar de la academia. Me postulo más bien por el empaque que supondría en mi CV como DS, MLDevops. Creo que me vino bien lo de impartir mates aplicadas de negocio, pero es una asignatura que no me gusta mucho. Prefiero algo más puro o algo más de DS/ML.
#257 ahora quiero que te hagan un hilo de entrevistas.
Cuantos estudios tienes ya? Tengo la sensación de que has trabajado de todo y que eres muy joven xd
#257 suerte!
me uno al hilo, yo acabé hoy el máster de IA de UNIR (me queda la defensa del TFM).
estoy ya tan acostumbrado al ritmo de compaginar curro y máster que ahora se me hace raro eso de tener tiempo libre... empezaré a profundizar en todo lo que me resultó más interesante y no pude por falta de tiempo
#264 jaja, qué va tío. Peinaría bastantes canas si no me las arrancase obsesivamente. Soy del '86, creo que en la media del foro.
He trabajado de mucha mierda porque me emancipé temprano de casa (para los cánones españoles), me fui a vivir con una mediavidera a los 18-19.
Ole ole, #256, felicidades por ese máster
Antes que nada, hda, eres imparable tío, mucho ánimo.
#265 perdón el desvío, estoy acabando la Ing. Informática en UNIR, qué tal el máster de IA?
Me pasa igual, todo el año con la carrera, el curro y la familia, y ahora me veo en verano un poco perdido con algo de tiempo libre xddd
#267 yo salgo contento, aunque como dice #268 pueda resultar básico, no veo cómo podría haber profundizado mucho más en tantos temas en este tiempo.
Este año cambian el plan de estudios para actualizarlo y tiene mejor pinta que el que yo he cursado.
Resumiendo un poco las asignaturas:
- Aprendizaje automático. ML clásico, EDA. Ahora la han dividido en 2 asignaturas, una en cada cuatrimestre.
- Percepción computacional (la han cambiado creo que a Visión Artificial). Tratamiento de imágenes, quizá demasiado teórica o anticuada, en teoría esto iba a cambiar con el nuevo plan.
- Razonamiento y planificación automáticos. Algoritmos de optimización, prácticas con lenguaje de planificación PDDL.
- Sistemas cognitivos. Redes neuronales, rnn, cnn, gan.
- PLN. Procesamiento del lenguaje desde lo más clásico hasta transformers.
- Investigación en IA. Esta sirve de aproximación al mundo de la investigación, por ser un máster oficial (habilita a doctorado).
- Neurociencia cognitiva. Esta la han quitado y creo que es un acierto. Tema interesante pero no encajaba muy bien en el máster.
- Prácticas en empresa. Las hice en mi propia empresa, sino tienen un listado de empresas y proyectos que ofrecen. La han convertido en optativa, en su lugar puedes hacer otra asignatura ( Computación en la nube dirigida a IA).
- TFM. Ofrecen una lista desde UNIR, o lo que tú propongas. También puede ser grupal.
No sé si en la ing. es igual, la dinámica del máster es:
- 1 clase por asignatura y semana (más clases extra de laboratorio, refuerzo).
- 3 actividades prácticas por asignatura, siendo 1 de ellas grupal.
- Evaluación continua supone el 40% de nota y examen 60%.
- Material extra de refuerzo disponible,