Aquí podría ser tu PUBLICIDAD


La extracción de datos de cadena de PDF de varias páginas Columnas con Python

votos
0

Tengo algunos archivos PDF que se organizan en columnas que tengo que raspar. El problema es que cada columna es de varias páginas y no está en la disposición típica para las columnas, por ejemplo:

******Column 1******************Column 2*************

Sombody once told me Finger and her thumb The world was gonna In the shape of an L Roll me. I ain't the On her forehead. Well *******************NEXT PAGE************************** Sharpest tool in the The years start coming Shed. She was looking And they don't stop coming Kind of dumb with her

He intentado usar raspadores PDF estándar como PDFMiner pero simplemente devolverá una cadena que se lee como:

Sombody me dijo una vez
El mundo se va
Me Roll. No es el
dedo y el pulgar

¡Cualquier ayuda sería apreciada!

Publicado el 02/09/2018 a las 05:04
fuente por usuario Tylerr
En otros idiomas...        العربية       


Aquí podría ser tu PUBLICIDAD