dimanche 1 septembre 2013

OCR avec GOOGLE

Il n'y a pas si longtemps, quand on devait convertir un document scanné en texte éditable (avec Word, LibreOffice Writer ou autres), il fallait avoir recours à un logiciel d'OCR (Optical Character Recognition) parfois coûteux ou peu efficace. Ce n'est plus le cas depuis 2009. Cette année-là, Google a intégré un outil génial de reconnaissance de caractères dans Google Docs, maintenant Google Drive. Il suffit donc d'y importer le document scanné et enregistré dans un format image standard comme JPG, PNG, GIF ou encore PDF. D'ailleurs, quand vous ouvrez un document PDF dans Google, il est en quelque sorte automatiquement "ocr-isé"puisqu'on peut y sélectionner du texte et le copier pour l'insérer dans un autre document.

Reconnaissance optique des caractères (OCR) avec Google Documents (ou Google Drive)


La reconnaissance optique des caractères en bref


La reconnaissance optique des caractères (OCR) vous permet de convertir des images comprenant du texte en documents texte à l'aide d'algorithmes informatiques automatisés. Les images peuvent être traitées individuellement (fichiers .jpg, .png et .gif) ou dans des documents PDF multi-page (.pdf). Voici certains des types de fichiers compatibles avec la reconnaissance optique des caractères :
Fichiers image ou PDF créés à partir d'un scanner à plat
Photos prises avec un appareil photo numérique ou un téléphone mobile
Utilisation de la reconnaissance optique des caractères dans Google Drive


Dans Google Drive, les fichiers image ou PDF que vous importez sont analysés, puis convertis en documents Google à l'aide d'algorithmes informatiques.


Pour un résultat optimal, ces fichiers image ou PDF doivent avoir certaines caractéristiques :
Résolution : les fichiers haute résolution donnent les meilleurs résultats. En règle générale, il est préférable que chaque ligne de texte ait une hauteur d'au moins 10 pixels.
Orientation : seuls les documents comportant du texte écrit de gauche à droite et de haut en bas sont reconnus. Si vous avez numérisé ou photographié votre document dans un autre sens, utilisez un programme de retouche d'images (par exemple PhotoFiltre ou Picasa) pour le faire pivoter avant de l'importer dans Google Drive.
Langues, polices et jeux de caractères : notre moteur de reconnaissance optique des caractères est compatible avec différents jeux de caractères, mais la prise en charge des jeux de caractères non latins est encore au stade expérimental. Vous pouvez sélectionner la langue de votre document dans un menu déroulant. Les fichiers utilisant des polices courantes telles que Times New Roman et Arial permettent d'obtenir de meilleurs résultats.
Qualité de l'image : les images nettes avec une luminosité régulière et un bon contraste donnent les meilleurs résultats. Si les images sont floues (mouvement) ou la mise au point médiocre, la reconnaissance des caractères est moins performante.
Limites de taille de fichier


Les fichiers image (.jpg, .gif, .png) et PDF (.pdf) doivent avoir une taille maximale de 2 Mo. Pour les fichiers PDF, seules les 10 premières pages sont analysées pour trouver le texte à extraire.
Conservation de la mise en forme du texte


Lorsque nous traitons votre document, nous nous efforçons de conserver la mise en forme de base (caractères gras et italiques, taille et type de police, sauts de ligne). Identifier ces caractéristiques n'est pas toujours facile, et la réussite n'est pas garantie à chaque fois comme dans tout logiciel d'OCR. Les autres éléments de mise en forme et de mise en page (listes à puces ou numérotées, tableaux, colonnes de texte, notes de bas de page ou de fin de texte) risquent d'être perdus.


Avec la reconnaissance optique des caractères, l'importation dans Google Drive peut être plus longue. Le traitement peut demander jusqu'à 30 secondes pour des fichiers images (.jpg, .gif et .png), et jusqu'à une minute pour des fichiers PDF (.pdf).

https://support.google.com/drive/answer/176692?hl=fr

Aucun commentaire:

Enregistrer un commentaire

Remarque : Seul un membre de ce blog est autorisé à enregistrer un commentaire.