geo cherchetout
2010-03-08 21:32:30 UTC
Bonsoir,
Je reviens vous embêter avec mes histoires de pdf d'amateur parce que ce
groupe me semble être le plus adapté, si je me trompe merci de m'aiguiller
ailleurs.
Nous avons vu récemment comment obtenir qu'Adobe Acrobat 9 pro extended,
utilisé pour « océriser » un document, délivre en sortie un document pdf
dont la taille ne dépasse pas environ 104 % de celle du pdf pris en entrée,
sans que les images contenues dans ce dernier subissent la moindre
dégradation. Je rappelle que ces images sont initialement en niveaux de gris
indexés, enregistrées en png puis archivées en pdf à l'aide de pdfLaTeX.
C'est très satisfaisant du point de vue volume mais le couteau suisse
Acrobat n'est pas le champion de l'OCR.
ABBYY FineReader 9 fait mieux, je peux éventuellement dire en quoi, mais le
pdf qu'il produit dans les mêmes conditions est énorme. Sa taille atteint en
effet quelque 130 % de celle de l'original. L'option conduisant à ce
résultat comporte pourtant l'utilisation de l'algorithme LZW, proche parent
du LZ77 employé pour la compression en png. (Sauf erreur car c'est une
science nouvelle pour moi.) FlateEncode n'est pas proposé et aucune des
autres options ne convient mieux. (ZIP, JPEG, CCITT, etc.)
On peut dégraisser les pdf de FineReader en les faisant digérer par Acrobat,
ce dernier offrant une option de conversion LZW -> Flate, mais je ne suis
pas encore satisfait car la taille est encore de 112 % de l'original.
À force de fouiller les pdf à l'éditeur hexadécimal, je crois avoir compris
que cet embonpoint irréductible serait du au fait que les images contenues
ne seraient plus en niveaux de gris *indexés*.
Cette explication est-elle sensée ? Si oui, comment arranger ça sans perdre
le bénéfice de l'OCR ?
J'ai essayé avec ghostscript et son device pdfwrite mais n'ai pas encore
trouvé la bonne commande. Est-ce une voie sans issue ? Je préférerais le
savoir...
Je reviens vous embêter avec mes histoires de pdf d'amateur parce que ce
groupe me semble être le plus adapté, si je me trompe merci de m'aiguiller
ailleurs.
Nous avons vu récemment comment obtenir qu'Adobe Acrobat 9 pro extended,
utilisé pour « océriser » un document, délivre en sortie un document pdf
dont la taille ne dépasse pas environ 104 % de celle du pdf pris en entrée,
sans que les images contenues dans ce dernier subissent la moindre
dégradation. Je rappelle que ces images sont initialement en niveaux de gris
indexés, enregistrées en png puis archivées en pdf à l'aide de pdfLaTeX.
C'est très satisfaisant du point de vue volume mais le couteau suisse
Acrobat n'est pas le champion de l'OCR.
ABBYY FineReader 9 fait mieux, je peux éventuellement dire en quoi, mais le
pdf qu'il produit dans les mêmes conditions est énorme. Sa taille atteint en
effet quelque 130 % de celle de l'original. L'option conduisant à ce
résultat comporte pourtant l'utilisation de l'algorithme LZW, proche parent
du LZ77 employé pour la compression en png. (Sauf erreur car c'est une
science nouvelle pour moi.) FlateEncode n'est pas proposé et aucune des
autres options ne convient mieux. (ZIP, JPEG, CCITT, etc.)
On peut dégraisser les pdf de FineReader en les faisant digérer par Acrobat,
ce dernier offrant une option de conversion LZW -> Flate, mais je ne suis
pas encore satisfait car la taille est encore de 112 % de l'original.
À force de fouiller les pdf à l'éditeur hexadécimal, je crois avoir compris
que cet embonpoint irréductible serait du au fait que les images contenues
ne seraient plus en niveaux de gris *indexés*.
Cette explication est-elle sensée ? Si oui, comment arranger ça sans perdre
le bénéfice de l'OCR ?
J'ai essayé avec ghostscript et son device pdfwrite mais n'ai pas encore
trouvé la bonne commande. Est-ce une voie sans issue ? Je préférerais le
savoir...