Es posible que tengas muchos archivos PDF con tablas que deseas usar por separado. Para eso es fundamental que sepas cómo extraer tablas de un documento PDF ¿Parece complicado? No te preocupes que existen programas gratuitos que lo hacen de forma automática.
Algo que debemos tener en consideración es que las herramientas que verás abajo buscan las tablas dentro de un PDF. Por lo tanto, es fundamental que en dicho PDF se pueda buscar para poder extraer las tablas de un documento PDF automáticamente.
Extraer tablas de un PDF
A continuación, vamos a ver unas cuantas herramientas bastante útiles para que puedas extraer tablas de diferentes documentos PDF sin ninguna clase de limitación.
Una de las mejores opciones para hacer esto es justamente PDF a XLS. Cuenta con una característica bastante interesante y es que puedes buscar tablas hasta en 20 documentos PDF al mismo tiempo. La extracción de tablas se hace de forma automática y nos devuelve un archivo XLSX.
PDF a XLS
En caso de que un documento PDF cuente con una gran variedad de tablas, cada una de estas se guarda en diferentes hojas de un mismo archivo XLSX.
¿Cómo se usa? Una vez que estés en el sitio principal, simplemente vas a tener que cargar los archivos PDF y de forma automática lo convertirá a XLSX. Si decides cargar varios archivos, podrás descargar uno por uno o descargar un archivo comprimido en ZIP.
Tabula
En este caso no vamos a hablar de un servicio en línea sino de un software bastante potente que nos permite detectar de forma automática tablas que se encuentran presentes en archivos PDF.
Luego podemos guardar dichas tablas en archivos TSV, JSON o CSV. Podrás seleccionar una opción para guardar archivos CSV por cada una de las tablas de un PDF o directamente guardar todas las tablas en un único archivo.
Tabula es un programa de código abierto, lo que significa que es totalmente gratuito, aunque hace falta tener Java instalado en tu ordenador para funcionar.
Una vez descargado el archivo ZIP deberás extraerlo para encontrar tabula.exe el cual deberemos instalar. A continuación, deberías ingresar a http://localhost:8080/ en tu navegador.
Podrás ver una interfaz bastante peculiar en donde lo único que tendrás que hacer es presionar “Examinar” para agregar un archivo PDF. Luego de esto simplemente presiona “Importar”.
Si usas el botón “Autodetect tables” podrás resaltar de forma automática todas las tablas que se encuentran presentes en el PDF. En caso de que únicamente quieras algunas tablas puedes hacerlo manualmente.
PDFtoExcel
PDF a Excel es compatible con OneDrive, Google Drive y Dropbox para cargar un PDF, es capaz de extraer todas las tablas de un PDF sin problemas y el proceso de conversión es totalmente automático.
Para hacer uso del mismo tendrás que ingresar a su sitio web, seleccionar la opción para cargar un PDF y luego se convertirá de manera automática a un archivo Excel. Luego podrás descargar el archivo sin ninguna clase de problemas.
ByteScout PDF
En este caso nos encontramos con un programa bastante útil que cuenta con varias herramientas, ideal para aquellas personas que trabajen constantemente con archivos PDF. Puedes convertir PDF a TIFF de varias páginas, rotar PDF, optimizarlo, hacer que no se pueda buscar en un PDF o añadir imágenes a uno.
A su vez cuenta con la función que nos interesa por ahora de detectar tablas en PDF y extraerlas. Las mismas se podrán guardar en archivos CSV, XLS, XML, TXT o JSON.
ByeteScout PDF es gratuito para uso no comercial. Luego de instalarlo simplemente tendrás que abrir el documento PDF a través del programa y presionar en “Detectar tablas”. Una vez detectadas tendrás que dar clic en “Extracción de datos”.
Sejda PDF Desktop
Sejda PDF Desktop es otro programa que cuenta con una gran variedad de herramientas. Nos permite optimizar y comprimir cualquier PDF, añadir una marca de agua, eliminar restricciones, editar documentos PDF y muchas otras opciones.
El único problema es que cuenta con una versión gratuita que está limitado en cuanto al tamaño de los PDF a 50 MB y 10 páginas como máximo.
No obstante, sigue siendo una herramienta bastante interesante para poder convertir archivos PDF a Excel y extraer todas las tablas del mismo.
Como puedes observar es muy sencillo extraer tablas de un documento PDF con estas herramientas. De esta manera y de forma automática conseguirás ahorrar una gran cantidad de tiempo.
¿Tienes alguna pregunta o problema relacionado con el tema del artículo? Queremos ayudarte.
Deja un comentario con tu problema o pregunta. Leemos y respondemos todos los comentarios, aunque a veces podamos tardar un poco debido al volumen que recibimos. Además, si tu consulta inspira la escritura de un artículo, te notificaremos por email cuando lo publiquemos.
*Moderamos los comentarios para evitar spam.
¡Gracias por enriquecer nuestra comunidad con tu participación!