PDF vers Word converter ??

4 Antworten [Letzter Beitrag]
john78
Offline
Beigetreten: 05/29/2012

Bonjour, je n'auelqu'un pourrait -il me dire où trouver ce qu'il me manque?

Magic Banana

I am a member!

Offline
Beigetreten: 07/24/2010

Je doute que cela existe. En revanche je suppose que tu peux être intéressé par la commande 'pdftotext' qui est fournie par le paquet poppler-utils qui devrait être installé par défaut. Elle extrait le texte brut d'un PDF. Cela fonctionne bien si le texte est disposé en une seule colonne.

john78
Offline
Beigetreten: 05/29/2012

Merci beaucoup pour votre rapidité, j'avais besoin de ça car on m'a envoyé un docu word à remplir en ligne et je n'avais pas d'autre choix que de le scanner et le transformer en PDF car on me demandait d'ajouter ma photo dans le doc.

Je précise que j'ai trisquel brigantia 5.5 et que je ne trouve pas le packet poppler dans add/remove software. Ou puis je le trouver svp?

Mark
Offline
Beigetreten: 04/14/2012

Bonjour !
Tu peux essayer d'utiliser le Gestionnaire de paquets Synaptic, il se situe dans la fenêtre "paramètre système".
Tu peux chercher poppler dans la barre de recherche que contient le gestionnaire de paquets Synaptic.

Magic Banana

I am a member!

Offline
Beigetreten: 07/24/2010

En effet... sauf que 'pdftotext' ne te donnera rien si le PDF vient d'un scan, c'est à dire d'une image !

Ce que tu veux c'est un logiciel de reconnaissance de caractères, OCR en anglais. En tapant ces trois lettres dans le champ de recherche rapide de Synaptic, tu trouveras plusieurs options.

Je pense que 'tesseract-ocr' est celui qui fonctionne le mieux (Google l'a utilisé pour sa numérisation de livres)... mais il n'a pas d'interface graphique et, surtout, je ne crois pas qu'il fonctionne directement sur des PDF multi-pages. Il te faudrait alors convertir chaque page en une image sur laquelle la commande est lancée (tout cela s'automatise en un script).

Pour des PDF multi-pages, j'essaierai 'gscan2pdf'. Il a l'air très simple d'emploi. Vu sa description, la sortie semble être un nouveau PDF mais tu pourras, cette fois, le traiter avec 'pdftotext'.