#73 ¿Lo de TensorFlow lo dices por algo adicional?
El equipo de python debería pintar relativamente poco ya que son prácticamente bindings a C++, que es como el motor está escrito. Te lo pregunto porque me está tocando analizar opciones de como correr LLMs (bueno, <2B de parametros) usanto TFLite. El soporte que plantea Google ahora mismo (mediante mediapipe) es utilizar un conversor a un subset de TFLite (solo pesos del modelo) + runtime especifico usando xnnpack/gpu. Lo digo porque si TFLite no puede correr LLM´s dignamente, veo el riesgo que comentas bastante cerca.
Ya no solo a desarrolladores, una de las mayores putadas de diseñar NPUs es alinearlo con los motores de inferencia como para que te lo maten (portarlos debería ser trivial pero la experiencia dice que no lo es xD). Nosotros usamos TFLite porque en nuestras plataformas tenemos 3 NPUs diferentes (sin contar que quieras usar las GPUs) y TFLite es lo único que soportan decentemente (por ahora).
Perdona el offtopic, se me olvida que hay gente currando con estas cosas también y me emociono.