A ver si alguien me puede echar una mano.
Algunos libros en PDF están escaneados y son imágenes, otros son texto puro, el problema viene con los editados "dobles".
Son libros que están escaneados como imagen y a la vez OCR, puedes marcar el texto y copiarlo pero sin embargo ves como primera capa las imágenes escaneadas.
Ejemplo de texto normal: La fuente es constante y suavizada, es vectorial como se supone debe ser.
Ejemplo de texto/imagen tocapelotas
El texto está hasta torcido, se ven las letras de la página anterior de la imagen del escaneo, pero hay OCR que te deja seleccionar el texto.
Aquí igual, texto borroso de un escaneo pero también OCR.
Como puedo cepillarme estas capas de imágenes y dejar los PDF solo con el texto puro que tiene sentido?