jueves, noviembre 18, 2010

PDF Scissors, una magnífica herramienta para leer PDFs gráficos en un ereader con comodidad

Llevo unos días tratando de comentaros un artículo interesante que he leido en A Kindle World blog: Tips: PDF Scissors tool

Es posible que en algún momento os habéis encontrado con que queríais leer algún PDF obtenido a partir de imágenes. Es el caso, por ejemplo, de algunos de los libros de Google Books, sobre todo si son muy antiguos como este título cuyo interés es inversamente proporcional a su longitud: Impugnación de algunos impios, blasfemos, sacrílegos y sediciosos artículos del código de anarquía, cuyo título es: Decreto constitucional para la libertad de la América.

Voy hacer un poco de trampa, porque la verdad es que también se puede descargar el libro en formato epub. Pongamos que no fuera así y que sólo tenemos a nuestra disposición el PDF generado a partir de imágenes (a la derecha tenéis un enlace para descargar). Claro, el problema es que el PDF tiene el formato que tiene (en la mayoría de los casos un tamaño físico de A4), con lo que si vuestro ereader es de 6 pulgadas (la inmensa mayoría) no vais a poder ver bien el PDF ni aún apaisado.

PDF Scissors ofrece una solución tremendamente sencilla para este problema: literalmente, cortar cada hoja en trozos manejables, que se puedan leer mejor en el ereader. El programa en sí es una pequeña aplicación java que no instala nada en vuestro ordenador, y que Java pide permiso para ejecutar. No os asustéis si al ejecutarlo sale una advertencia de que la firma digital de la aplicación no se puede verificar. Al ser software libre, siempre podemos comprobar el código fuente.

El problema que nos pueden plantear muchos ebooks generados a partir de imágenes es que no todas las páginas tienen el mismo tamaño. En el ejemplo que os he enseñado, algunas de las páginas están apaisadas, teniendo el doble de tamaño físico que la mayoría de las páginas. Un límite que tiene PDF Scissors es que sólo funciona bien un único tamaño de página, así que hay que eliminar las páginas con tamaño diferente al de la mayoría. Afortunadamente, la mayoría de estas páginas son portadas y contraportada es gráficas y, por lo tanto, perfectamente descartables.

Para hacerlo, vamos a emplear otro producto libre, PDFSAM (PDF Split and Merge), un fantástico programa muy maduro y que sirve para dividir y fusionar PDFs, añadiéndoles y quitándoles páginas. En sí mismos muy recomendable, si es que no lo conocíais.

Antes de nada, lo primero que tenéis que hacer es apuntar las páginas que queremos borrar (de la 1 a la 8 y de la 124 a la 132), para después asegurarnos de que habéis cerrado el PDF que queréis modificar. Si no, PDFSAM no podrá hacer nada. Después, abrimos PDFSAM y, en el menú de la derecha, abrimos PDFSAM > Complementos > Dividir. Pulsamos en añadir para empezar a currar con nuestro PDF. En opciones de división, tenemos que escoger la opción Dividir estas páginas. En el cuadro de texto, introduciremos las páginas (1,2,3,4,5,6,7,8,123,124,125,126,127,128,129,130,131,132,133). Para asegurarnos de que no metemos la pata, también tenemos que escoger una carpeta de destino diferente a la original y así evitar cualquier posibilidad de machacar nuestro PDF original.


Si algo sale mal (el error más común que me encontrado es que si marcas todas las páginas hasta la última del PDF no lo admite, tienes que marcar las que quieres eliminar menos exactamente la última) sonará un mensaje de error. Si no, habrás obtenido un nuevo PDF con las páginas innecesarias eliminadas. Podrás observar que en el directorio donde has producido el nuevo PDF hay muchos más PDFs, uno por cada página eliminada. Es muy sencillo encontrar el PDF que te interesa, porque será el de mayor tamaño.

Con ese nuevo PDF ya te puedes ir a PDF Scissors. Cuando lo cargues, se tirará un rato pensando, porque tiene que " colocar todas las hojas en una pila". Es una elección muy curiosa e interesante por parte del desarrollador, porque lo que te va a permitir es ver los límites de cada página, al hacerlas semitransparentes, y asegurarte de que la caja que vas a recortar no se lleva por delante nada de texto.


Una vez que ha formado la pila, podrás comprobar cómo quedan las cajas de texto y los límites reales que tienen. El siguiente paso es seleccionar las marcas de corte que van a generar el nuevo PDF. Cada una de estas cajas irá produciendo una nueva hoja del PDF en sucesión, y para que funcione es importante que se solapen para qué te asegures de que no te queda nada sin leer en ningún caso. Haz clic en la captura para que veas a qué me refiero.


Otra buena idea que ha tenido el desarrollador es que puedes copiar y pegar las marcar de corte y asegurar que, por lo tanto, que todas tienen el mismo tamaño. Como puedes ver en la captura, la idea es generar una primera marca de corte y hacerle dos copias para solaparlas entre si y que te quede el nuevo PDF siempre coherente. Cuando lo tengas hecho, sólo tienes que darle al icono de grabar.



Observa que el nuevo PDF ha dividido las páginas originales en páginas apaisadas que van a caber perfectamente en nuestro ereader y va a resultar de una lectura mucho más cómoda.



Las cosas como son, esta aplicación tiene una utilidad marginal. Conforme pasa el tiempo, los PDFs producidos a partir de imágenes van a ser menos y menos frecuentes. Con todo, si se da el caso por ejemplo de que has escaneado un libro de dominio público y no has tenido tiempo ni fuerzas para pasarle el OCR y transformarle en texto digital, esta opción es realmente buena de cara a utilizar el resultado en nuestro ereader. Si alguna vez tengo tiempo, me quiero pasar por la Biblioteca Nacional y escanear un libro pacifista  de mi bisabuelo. Antes se me hacía más cuesta arriba por el tiempo que tendría que emplear en pasar el OCR y corregir los resultados, pero ahora me parece un proyecto más realista.

Si os animáis aprobar esta solución, os agradezco ya de antemano cualquier comentario en este post.

4 comentarios:

  1. Son muy interesantes estos programas.

    Una utilidad que se les podria dar consistiria en aprovechar un marco de fotos como lector electronico. Si, las pantallas retroiluminadas son un castigo para la vista, sin embargo para un tiempo moderado de lectura tambien valen, en particular si jugando con el color y tono del fondo asi como el de la tinta encontramos la combinacion que nos resulte mas comoda. En los lectores retroiluminados suele dar buen resultado el fondo oscuro y la tinta clara.

    Hay que decir que buena parte de las utilidades de los programas descritos en el post se pueden consegur tambien con un OCR, tal como el Abby Fine Reader, puesto que, cuanto menos este programa, permite extraer cada una de las paginas del PDF, dividir las paginas dobles, limpiar suciedad periferica, cambiar la orientacion y recortarlas justo en la periferia del texto, para luego generar un PDF por pagina o tambien crear uno nuevo a partir del conjunto de paginas procesadas.

    http://www.taringa.net/posts/downloads/5022927/Abbyy-FineReader-10-Corporate-Edition-Full.html

    En en enlace se puede descargar una poderosa version del FineReader. Por prudencia convendria instalarla en un windows virtualizado o bien iniciado desde CD, tarjeta flash o pendrive, sin posibilidad de acceso al disco duro. Añadiria la precaucion de incorporar una utilidad que bloquee tambien el posible acceso a la BIOS.

    Como se vé son muchas puñeterias, asi que si no se sabe como implementarlas, mejor quedarse con los programas sugeridos en el post.

    ResponderEliminar
  2. Estoy de acuerdo contigo en que las pantallas retroiluminadas pueden ser un buen apaño para leer durante periodos no muy prolongados (digamos una hora o así como máximo). Sobre todo si tienen buena resolución. Ya sé que estamos en un foro de "talibanes tintaelectrónicos", y yo personalmente prefiero mi e-reader porque a veces leo mucho rato seguido, pero hay que tener en cuenta que mucha gente no lee más que de forma episódica y por breves periodos de tiempo.

    En cuanto a los programas, muy interesantes los que proponéis, merecen un vistazo a fondo (a ver cuando hay tiempo ...).

    ResponderEliminar
  3. Pdf Scissors Developer8:03 p. m.

    PDF Scissors en breve contará con una actualización que permite abrir PDFs con páginas de distintos tamaños.

    Además, ya cuenta con una utilidad en la que seleccionas toda la región de texto y haces un 'Split' dejando la rectángulo cortado por la mitad para no tener que ir agragando regiones (y no hace falta solaparlas).

    ResponderEliminar
  4. Hola! Estoy usando Windows 8 PRO, y cuando intento abrir el archivo, me pregunta con qué programa quiero abrir el archivo; cómo debo hacer?

    ResponderEliminar

Related Posts Plugin for WordPress, Blogger...