IA: Programas y Herramientas

Nujabes

#844 Pf, no sé ni como editar el bat, me parece que diste por hecho que se algo de "programación básica" o algo así jaja.

1 respuesta
covaga

#871 entra en https://colab.research.google.com/github/lllyasviel/Fooocus/blob/main/fooocus_colab.ipynb

Le das a run y esperas a que salga un enlace con el nombre de "gradio"

Ya te saldrá una pestaña nueva en el navegador para generar imagenes

6 1 respuesta
pa1nkill3r

#727 Qué tal funciona ese OCR?
Quería pasar unas fotos que tengo en PDF a OCR
Y luego pasarlo a audio

1 respuesta
TR3H0T3

#873 pues ni idea la verdad, hace años que no tengo un pdf con imágen del texto, recuerdo que traían una compresión de morirse y necesité un rato corrigiendo caracteres. Chatgpt te lo puede sacar, incluso la galeria de imagenes del movil te detecta texto (al menos fotos de iOS).
para pasarlo a audio, elevenlabs ha sacado app ElevenReader que está curiosa, si no https://notebooklm.google/ parece que lo esta petando, ya que te monta un podcast y todo.

1 4 respuestas
Zenrox

#874

Justo lo vi ayer y es una BARBARIDAD, estuve ayer pasandole paginas convertidas a pdf y videos transcritos de youtube y era una locura lo bien que lo hacia:

13 5 respuestas
eondev

#875 menuda puta pasada

1 respuesta
hda

#874 #875 #876 uso llevo usándola una semana ([1], [2]) y muy bien.

3 1 respuesta
covaga

#874 Pues lo poco que lo he usado, me ha ido fatal.

Supongo para hacer resumenes bien pero cuando es algo mas tecnico se desborda.

1 respuesta
hda

#878 Lo que he descubierto es que, al menos a mí, me va mejor poniendo contenido más específico, seleccionado, que chuzándole 40 libros; respecto al podcast que monta. Sin embargo, para buscar sinergias, relaciones manifiestas y ocultas, sí que va bien añadiendo mucho contenido.

Por contrastar, ¿puedes dar el caso concreto en el que se desborda con algo más técnico?, mi caso de uso, con humanidades, es bastante bueno. Y hasta donde tengo entendido, metiéndole papers de investigación también va bien (no he probado todavía).


Posdata: Ayer quedé con una buena amiga, hicimos el doc en física juntos, en grupos diferentes, pero en la misma área. Ella ha sacado una opo hace poco y ha estado alienada del Mundo Real™. Se había quedado en los albores de los generadores de imágenes. Le estuve hablando de LLM, de chagpt (¡lo desconocía por completo!), de notebooklm y del nuevo curro al que entro ahora en noviembre (MLOps, MLengineer). He visto el miedo en sus ojos, jajaja, no se creía nada. Tuve que repetirle que estamos viviendo una revolución semejante a la irrupción de la imprenta de Gutenberg.

2 respuestas
covaga

#879 dos hojas de excels con nombre de productos y precios, todo esto pasadas a pdf.

Hago la primera de busca x producto y dime el precio. Esto funciona bien.

Pero cuando le digo en la tabla uno, está el producto T0001 y en la tabla dos está el mismo producto pero con nombre T01, dime si en las dos tablas están las mismas unidades del producto.

Esto no lo analiza bien porque T0001 y T01 no es el mismo nombre.

Le digo explicitamente que T0001 equivale a T01 y dice que eso no lo puede asegurar por que no hay ningún texto que lo confirme.

En la otra prueba fue darle la web del Api, en formato .md
web
Me hacia un buen resument pero a la hora de decirle que me diera los comandos para importar un proyecto. Me daba un texto generico de que eso no lo podia hacer sin tener unas especificaciones tecnicas y que contacte con un profesional. pero a la hora de decirme por ejemplo la lista de parametros si que me la puede dar. No tiene la capacidad de leer los ejemplos y crear uno con los parametros ya establecidos.

El tercer ejemplo fue algo muy basico. le dí dos perfiles de personajes, le dije de crear una conversación en x contexto y si que lo hizo. Le dije de crear un 3rd personaje pero no lo hizo.
Le di mas información y pudo crear mas Lore de la historia pero dependia mucho de como formulase la "pregunta".

1 1 respuesta
hda

#880 ya veo. Claro, yo no sé si esta es la herramienta específica para lo que buscas.

1 respuesta
covaga

#881 en mi dia a dia no uso para nada documentación, simplemente hice esas pruebas para ver el "nivel".

1
pa1nkill3r

#874 #875 #877 Pues he probado a...
Meter fotos de un texto
Convertirlo a PDF
Crear un podcast

Ahora bien, necesitaría que los pódcast se quedaran en castellano.

¿Se puede usar Wisper para pasar de Audio a Texto?
¿Generarían unos subtítulos?
¿Podría traducir los subtitulo para crear el pódcast en español?

1 respuesta
hda

#883 ¿Solo quieres OCR? Estás dando muchas vueltas si solo quieres eso. Además, te está creando un producto derivado a partir del texto. Desde mi punto de vista, lo mejor que puedes hacer es tirar directamente de chatgpt, gemini, claude, etc., no lo he probado, pero casi seguro que tienen OCR integrado.

Estoy convencido de que tiene que haber mil soluciones para lo que comentas, sucede que desconozco cuales, al ser un problema tan sencillo yo lo haría a mano en un script de python, tirando de algún modelo específico de reconocimiento óptico de caracteres de huggingface. Seguro que este tira bien: https://huggingface.co/microsoft/trocr-base-handwritten

1 1 respuesta
pa1nkill3r

#884 Sí, desde luego, si puedo sacar el texto plano con OCR, ya me soluciona mucho la vida.
ChatGPT se entera de algo, pero luego me cruza mucha información cuando le pregunto.
Puedo probar página por página a ver qué respuesta da.

No soy programador, no sé si se necesita, pero voy a mirar eso de Hugging Face a ver como se utiliza, cualquier ayuda, es bienvenida.

2 respuestas
hda

#885 Podrías pedirle que te transcriba el texto. Página a página. Copias y pegas el texto transcrito. ¿Has probado esto?

1 respuesta
pa1nkill3r

#886 Pues parece lo más eficiente, meter imagen a imagen en ChatGPT
"Transcribe esta página en español paso a paso"

Ahora me pide el plus para hacer mas de una pagina

1 1 respuesta
covaga

#887 #885 si solo quieres texto plano.

Dile al chatgpt que te cree un script python usando la libreria de ocr

2
KIIM

Hola! Un lector de PDF que haga resumenes fiables? Alguna extensión de Chatgpt o algo?

1 respuesta
Alien_crrpt

Yo busco alguna extensión que reconozca los textos de un anime y los traduzca automáticamente al español ¿existe?

_0-0_

#889 Has probado con NotebookLM?

1 1 respuesta
KIIM

#891 Voy a probarlo. Muchas gracias!

EDIT: #891 Increíble macho, es justo lo que necesitaba. Muchas gracias!

1 1 respuesta
_0-0_

#892 Me alegro, la verdad que es una pasada de aplicación

KIIM

Hola! Estoy buscando alguna IA a la que le pueda subir una foto de una casa vacía y que le pueda pedir que me la rellene con muebles, etc. Osea, dándole órdenes específicas de, aquí quiero esto, aquí lo otro.

También sería interesante que de un plano me generara un render. No sé si existe alguna herramienta así pero imagino que sí.

Gracias!

1 1 respuesta
Vedrfolnir

Cómo está la cosa de las IA para que actúen a modo de cleaner si le pasas una página de un comic o un manga? O sea, que te vacíe los bocadillos de los diálogos o los "sonidos" de fondo, esas cosas.

Probé hace tiempo con chatgpt pero petó y me decía que no podía o daba error o algo así, con la versión web gratuita.
Hay alguna otra IA que haga esas cosas, o forma de que lo haga chatgpt?

2 respuestas
Alien_crrpt

#895 https://aimangatranslator.com/manga-translator/

1 respuesta
TripyLSD

#875 Me parece muy loco. El giro de los diálogos, el tono, las pausas, referencias y bromas,. Todo muy natural. el test al final del vídeo me parece tope interesante. Es más real que incluso cuando pones a una persona por primera vez delante de un micro y se le robotiza el diálogo.
Brutal el as que se estaba guardando Google en la manga

#879

He visto el miedo en sus ojos, jajaja, no se creía nada.

Ostras... Me estoy imaginando la situación y lo cierto es que si has estado en un coma los últimos cinco años te crees que te están vacilando. Pobre! xd

1 respuesta
Alien_crrpt

#895 Estoy probando una extension y es una maravilla traduce automaticamente cualquier texto al idioma que quieras. La extension funciona para google y brave
https://chromewebstore.google.com/detail/scan-translator/mnngaddpelmhcgkbeajnbjmkdmpkogbo

1 1 respuesta
hda

#897 totalmente, jaja. Respecto a lo que dices del podcast, que está muy bien, me he fijado en que usa muchos conectores idénticos durante la conversación. Por ejemplo "Exactly", y lo usa con demasiada frecuencia. Da un toque artificial.

Vedrfolnir

#896 #898 se agradece, pero no es lo que buscaba. No quiero que traduzca, quiero que elimine los textos y los deje los bocadillos y eso vacíos.