[okfn-be] Re : pdf naar text

Marc Portier marc.portier at gmail.com
Tue Nov 8 13:35:30 UTC 2011


TIKA http://tika.apache.org/

is het Apache project waar allerhande text-extractie gerief in zit (ook 
voor MS office formaten en zo)

Let wel op, indien je PDF afkomstig is van ingescande documenten, dien 
je uiteraard ook nog een of andere OCR oplossing te zoeken, maar dan 
zijn we ver af van 'open-data' natuurlijk.

-marc=

On 08-11-11 14:09, Stéphane Vanbellinghen wrote:
> Le mardi 8 novembre 2011 13:00:06, okfn-be-request at lists.okfn.org a écrit :
>
>
>  > Message: 1
>
>  > Date: Mon, 7 Nov 2011 19:44:09 +0100
>
>  > From: Jan Vangrinsven <jan.vangrinsven at gmail.com>
>
>  > Subject: [okfn-be] pdf naar text
>
>  > To: okfn-be at lists.okfn.org
>
>  > Message-ID:
>
>  > <CAAJpijQUk+9ARXeW6Oat2UPZSioKoVdM_d2EwFDKKuXRCKnEXA at mail.gmail.com>
>
>  > Content-Type: text/plain; charset="iso-8859-1"
>
>  >
>
>  > Kent er iemand een goede tool (gratis) om pdf bestanden om te zetten naar
>
>  > text, liefst in batch ?
>
>
> Maybe this can help you :
>
>
> http://foolabs.com/xpdf/home.html
>
>
> Regards,
>
>
>
> --
>
> Stéphane VANBELLINGHEN
>
> Pirate Party Belgium
>
> Co-Chairman
>
> +32 496 74 28 02
>
> jabber : carnops at legtux.org (supports OTR)
>
>
>
> _______________________________________________
> okfn-be mailing list
> okfn-be at lists.okfn.org
> http://lists.okfn.org/mailman/listinfo/okfn-be




More information about the okfn-be mailing list