Edición de PDFs con Acrobat

Cryoned

A ver si alguien me puede echar una mano.

Algunos libros en PDF están escaneados y son imágenes, otros son texto puro, el problema viene con los editados "dobles".

Son libros que están escaneados como imagen y a la vez OCR, puedes marcar el texto y copiarlo pero sin embargo ves como primera capa las imágenes escaneadas.

Ejemplo de texto normal: La fuente es constante y suavizada, es vectorial como se supone debe ser.

Ejemplo de texto/imagen tocapelotas

El texto está hasta torcido, se ven las letras de la página anterior de la imagen del escaneo, pero hay OCR que te deja seleccionar el texto.

Aquí igual, texto borroso de un escaneo pero también OCR.

Como puedo cepillarme estas capas de imágenes y dejar los PDF solo con el texto puro que tiene sentido?

B

Supongo que la pregunta es obvia, pero... ¿has probado tú a pasar un OCR?

R

Trabajo en una empresa de digitalización de datos (libros antiguos, hemerotecas y tal) en el departamento de pdf, y la solución mas sencilla es que utilices acrobat (el editor, no el reader gratuito) y guardes el archivo como txt, seleccionando la opción "conservar saltos de página".
El problema es que acrobat es un programa de pago y bastante pesado, pero hay editores gratuitos (no sabría decirte uno, porque en mi empresa todos los que usamos son de pago, como acrobat o abby).

speciaL

Me parece muy improbable lo que te voy a decir pero prueba a abrirlos con PS, si el tío que monto tal chapuza lo hizo con PS quizás al guardar los PDF dejara marcada la opción de 'conservar capacidades de edición en photoshop' con lo cual saldrían las capas de texto y de imagen.

Usuarios habituales