pdf layer : métadonnées pour indexation de fichiers image

LasselinVincent · 4 Février 2013

Bonjour,

Il semblerait que j'ai un petit souci avec des pdf.
J'ai récupéré pas mal de pdf en version "image", et du coup pas moyen de faire des recherches de texte dedans ni de faire des copier/coller.

J'ai du me rabattre sur un logiciel Windows qui a une super fonction OCR: PDF-Xchange Viewer. Il est gratuit et ça fonctionne très bien. Son seul défaut est de ne pas exister sous OSX (D'ailleurs si quelqu'un connait un équivalent, je suis preneur, moi je n'ai rien trouvé).

Quand je remet un pdf sur lequel j'ai appliqué cette fonction d'OCR sur mon Mac, ça se passe très bien. Spotlight indexe tout de suite le texte et tout va bien. Mais si je fais une modification de ce pdf avec Apercu (Par exemple, je fais une rotation sur une page) et je sauvegarde. La ca ne marche plus. On dirait qu'Aperçu m'a laissé le layer de texte, mais l'a complètement massacré.

Je peux toujours faire une sélection de texte et faire copier. Mais quand je colle, je vois plein de caractères tout bizarre...

Quelqu'un à une idée ? Serais une bête histoire de police ? J'ai le souci avec des pdf en version 1.5 et 1.6 (si ça change quelque chose) et je suis en 10.8.2.

Merci d'avance.

FrançoisMacG · 4 Février 2013

Bonjour,

Pour moins de 5, j'ai acheté OCRTools sur le MAS = https://itunes.apple.com/fr/app/ocrtools/id412156217?mt=12

Il a des limites :
_ Dans un document PDF de plusieurs pages. seule la première page peut être reconnue (mais existe le bouton Pages)
_ Le second est |'impossibilité d'obtenir une reconnaissance de texte sur un élément de photo. Exemple d'un panneau publicitaire isolé par l'outil de sélection dans une photo de paysage. Pourtant, un texte accompagne d'une grande photo, telle qu'une page de journal au format JPG, est reconnu sans difficulté.
_ Il n'y a pas de fonction d'exportation vers un logiciel de traitement de texte (Page, Word ou autre). ll faut passer par un "copiercoller".

Mais si ton problème vient de ton logiciel, il ne se reproduira pas avec celui-ci.

LasselinVincent · 4 Février 2013

Merci FrançoisMacG,

Je vais regarder ton logiciel, mais mes fichiers .pdf vont quasiment 200 pages chacun et j'en ai un paquet à "reconnaitre". Tu as essayé le bouton "pages" ?

Ce que je regarde en observant les .pdf avant et après modification par Aperçu, j'ai remarqué que la police était changée.

J'avait ArialMT avant (sous Windows et sous OSX avant modification par Aperçu).
Et je me retrouve avec une fonte nommée "font0000000016c03819".

Je ne comprend pas pourquoi Aperçu change la fonte pour ce truc la (Je ne sais d'ailleurs par d'ou il sort ça).

Mais ça me parait être une piste intéressante.

FrançoisMacG · 4 Février 2013

Le bouton d'OCRTools permet de choisir la page dont on veut extraire le texte (le PDF image n'est pas transformé en PDF document)
= pour 200 pages, ça va être long :rolleyes:

Oui, il y a une histoire de polices dans ton affaire.
Mon impulsion a été de penser au logiciel que tu utilises,
mais il y a bien d'autres pistes.

Peut-être vérifier la version des PDF générés par ton logiciel (dans les Informations d'un de ces PDF : Cmd+i) ?
Ou dupliquer un de ces PDF dans Aperçu, et vérifier que les bugs y persistent ?

LasselinVincent · 4 Février 2013

La version des pdf que j'ai rencontré est 1.5 et 1.6. Et j'ai le même comportement pour les deux.
Par contre pour les fontes, je trouve curieux que Aperçu la modifie ...

demougin · 5 Février 2013

de mémoire, il y a un bidule qui doit se nommer "pdf to office" qui doit faire ce que tu cherches

FrançoisMacG · 5 Février 2013

LasselinVincent a dit:
La version des pdf que j'ai rencontré est 1.5 et 1.6.

Je pensais à la version des pdf que produit ton PDF-Xchange Viewer (et pas à celle de ceux qu'il accepte).

Et, dans Aperçu, à Enregistrer sous un des pdf produits.

LasselinVincent · 7 Février 2013

François, la version des .pdf reste la même. L'outil sous windows ne change pas le format du .pdf.
J'ai essayé "enregister sous et imprimer en pdf" sous Aperçu sans faire de rotation et le résultat est le même. C'est à dire que la couche texte ajouté sous Windows est corrompue.
Ca ressemble à un problème de fontes, mais je ne comprend pas ...
Tant pis, il suffit de ne plus y toucher une fois l'OCR faite ...

FrançoisMacG · 7 Février 2013

Après, tu peux regarder dans ton Livre des Polices ce que tu as comme polices Arial MT.

Je n'ai trouvé dans le mien que Arial Rounded MT Bold - Normal.

pdf layer : métadonnées pour indexation de fichiers image

LasselinVincent

Membre confirmé

FrançoisMacG

Pince-fourmis

LasselinVincent

Membre confirmé

FrançoisMacG

Pince-fourmis

LasselinVincent

Membre confirmé

demougin

Membre expert

FrançoisMacG

Pince-fourmis

LasselinVincent

Membre confirmé

FrançoisMacG

Pince-fourmis

Sujets similaires