
Textricator es una interesante herramienta que deberías conocer. Es de código abierto y sirve para extraer datos complejos de documentos PDF, sin necesidad de tener conocimientos de programación. Si quieres conocer más datos de esta herramienta puedes acceder a la web oficial del proyecto. Desde allí encontrarás información y también acceder a enlaces del código de la tool en Github, junto con su documentación.
Textricator puede extraer texto de archivos PDF y generar datos estructurados (CSV o JSON). Algo muy práctico para cuando se trabaja con muchos PDFs de igual formato o un gran PDF, e incluso puede funcionar en documentos OCR. La herramienta tiene muy buena pinta, y fue presentada en el Code for America Summit de 2018, y desarrollado por Measures for Justice con el objetivo de servir de ayuda a todos aquellos que quieren extraer este tipo de datos sin conocimientos de programación.
googletag.cmd.push(function() { googletag.display(‘div-gpt-ad-1456225598129-3’); });
En vez de las necesidades de programación de otras alternativas, Textricator permite al usuario describir la estructura del documento utilizando un fichero yaml. Y así podrá extraer los datos de archivos PDF en casi cualquier diseño, incluido las tablas, y generaciónd e informes complejos a partir de herramientas como Crystal Reports. Así de sencillo, ordenas lo que quieres recopilar y Textricator lo hace de forma totalmente automática…
Sus desarrolladores Joe Hale y Stephen Byrne han pasado los dos últimos años trabajando en el proyecto para poder extraer decenas de miles de páginas de datos de casi cualquier formato de PDF. Y se puede usar desde la línea de comandos, pero también existe una GUI disponible para mayor comodidad. Así que te animamos desde LxA a usar esta alternativa de Tabula (aunque éste esté más limitado en funciones para extraer datos que el flexible Textricator) y otros software similares a éste para la extracción de datos.
El artículo Textricator: un fácil extractor de datos para ficheros PDF ha sido originalmente publicado en Linux Adictos.
from Linux Adictos https://ift.tt/2K9vfUg
via IFTTT