samedi 29 décembre 2018

Indispensable! (pour moi, en tous cas...) Convertir un PDF en HTML

Source image: pdfonline.com


Convertir un fichier PDF en HTML (et même en XML) sans perte de mise en page avec l'utilitaire PDFtoHTML.

Pourquoi faire? On peut avoir de multiples raisons de convertir un PDF en un autre format d'autant plus que ce format est très restrictif car on peut difficilement le modifier entre autres défauts. Personnellement, cela me permet de créer des liens quand il n'y en a pas (par exemple, dans le sommaire d'un manuel d'appareil). On peut aussi facilement fusionner plusieurs documents en un seul (mais il est vrai que des utilitaires existent pour ça)

Installez Poppler (appelé Poppler-Utils sous Ubuntu) qui est dispo dans les dépôts:
sudo pacman -S poppler
Poppler-utils est un paquet logiciel fournissant un ensemble d'utilitaires en ligne de commande. Il s'appuie sur Poppler qui est une bibliothèque de rendu PDF fondée sur l'afficheur PDF Xpdf. Ces utilitaires permettent notamment d'extraire du texte ou des images d'un fichier PDF pour obtenir en retour des fichiers au format texte (TXT) ou HTML.

Les utilitaires fournis sont :

pdftotext : pour extraire le texte d'un PDF
pdfimages : pour extraire les images d'un PDF
pdftohtml : pour transformer un PDF en HTML
pdftops : pour convertir un PDF en PostScript
pdfinfo : pour lire les informations d'un PDF
pdffonts : pour obtenir les informations sur la police d'un PDF.


Convertir monfichier.pdf en monfichier.html

Placez vous dans le dossier où se trouve votre PDF et tapez:

$ pdftohtml -c -s monfichier.pdf monfichier.html
Page- 1

ATTENTION AUX IMAGES!

Les images sont enregistrées séparément dans le même dossier. Pour que votre HTML soit opérationnel sur internet (sur un site web par exemple), il va falloir "soulever le capot".

     1. mettre l'image en ligne par exemple dans un blog Blogger (Google) ou sur votre hébergeur d'images favori (comme Imgur).
     2. Editer votre code html et recherchez (Ctrl+F) les balises "img". On va trouver 1 ou plusieurs lignes dans ce genre:
<img width="892" height="1263" src="monimage1.png" alt="background image"/>
remplacez monimage1.png par l'url de votre image mise en ligne comme ceci:

<img width="892" height="1263" src="https://blogger.googleusercontent.com/img/b/R29vZ2xl/AVvXsEgxDyf43vV9PhdJW6JICnP0kHihvkMknAC4PMNaemrbD-IlVQjSptBJ2ZlzFgDnRn3vY9srp7wX_DCQtHC1gwUDWDCGK9D8JUK-Wfh4setOD8WKKEikip6Bpt8DmQYNAPT5uYYgbiC9YYu2/s1600/monimage.png" alt="background image"/>
Exemple (bulletin de vigilance jaune de Météo-France Antilles du 29/12/2018). Note: pour Blogger, j'ai collé le contenu du <body> seulement. Si vous obtenez un texte bizarre: ouvrez plutôt le fichier HTML dans votre navigateur habituel. Affichez la source HTML puis copiez-la. Attention! chez moi, je me retrouve bizarrement avec un contenu en double. Si c'est aussi votre cas, ne récupérez que la partie entre le premier <body> et  le premier </body>. Vous pouvez aussi ajouter l'option  "-enc Latin1" dans la ligne de commande.

Voici ma ligne de commande perso:
pdftohtml -s -enc Latin1 monfichier.pdf monfichier.html
Notez qu'on peut remplacer monfichier.pdf par un astérisque, ainsi tout fichier PDF sera traité. Attention s'il y en a plusieurs dans le même dossier, il ne va rien se passer sauf l'affichage de l'aide. Donc, peu d'intérêt.
background image
Vents violents :
                            
Bulletin de Suivi de Vigilance n°3 pour les Iles du Nord
(Saint-Martin et Saint-Barthélemy)
Episode n°18-IN
Rappel des Dangers :
Vents violents niveau JAUNE
Emis le : samedi 29 décembre 2018 à 08h24 légales (soit 12:24 UTC)
Par : Centre Météorologique de Guadeloupe
Date et heure du prochain bulletin : Samedi 29 décembre 2018 à 17h00 locales.
Début d'évènement : 
en cours
Fin d'évènement estimée : 
samedi 29 décembre 2018 à 17h locales.
Situation actuelle
Des paquets nuageux (résidus d'une bande frontale) défilent toujours sur le nord de l'arc Antillais en
occasionnant des averses accompagnées de 
fortes rafales de vent
.
Prévisions
Le vent d'est-nord-est souffle à une allure moyenne de 40 km/h sur la région, avec des rafales atteignant
souvent 60 à 80 km/h.
Sous les averses les plus marquées, le vent peut temporairement atteindre 50 à 60 km/h en moyenne, et 80
à 100 km/h en rafales.
Ce temps perturbé, caractérisé par de brèves averses accompagnées d'un vent véloce et turbulent, devrait
persister jusqu'à ce soir (samedi).
A noter que ce vent lève une mer forte et hachée, avec des creux de 3m voire 3m50 au large,
essentiellement générés par la mer du vent. Une petite houle de Nord peu énergétique (creux voisins
d'1m50 pour une période de 9 à 10 secondes) croise cette mer du vent.
Données observées
Valeurs max mesurées ces dernières 24h :
Samedi matin à 07h locales :
Gustavia : vent moyen 52 km/h, rafales à 98 km/h
Vendredi après-midi à 17h locales:
Gustavia : vent moyen 41 km/h, rafale à 87 km/h.
Grand-Case : vent moyen 39 km/h, rafale à 63 km/h.
Vendredi matin à 10h locales:
Gustavia : vent moyen 64 km/h, rafale à 115 km/h.
Grand-Case : vent moyen 52 km/h, rafale à 75 km/h.
Météo France – Centre Météorologique de Guadeloupe. Aéroport du Raizet BP 451 – 97183 Abymes Cedex
Téléphone : 0590 89 60 60 – Fax : 0590 89 60 76 
Prévisions : 
0892 68 08 08
 (0,32 €/min + prix appel) – web : 
http://www.meteofrance.gp
-q : ne pas afficher les messages d'erreur
-v : afficher le copyright et les information de version
-p : échanger les lien .pdf avec .html
-c : générer des sorties complexes
-i : ignorer les images
-s
génère un seul HTML incluant toutes les pages
-noframes : ne pas générer de cadres
-stdout : utiliser la sortie standard
-xml : sortie pour des post-traitements XML
-hidden : forcer l'extraction de texte caché
-dev : périphérique de sortie pour Ghostscript
-nomerge : ne pas fusionner les paragraphes
-nodrm : écraser les paramètres DRM du document
et d'autres: https://www.systutorials.com/docs/linux/man/1-pdftohtml


Script pour ajout d'une interface graphique avec Zenity (je n'ai pas encore essayé):


https://doc.ubuntu-fr.org/pdftohtml

Voir aussi: http://pdftohtml.sourceforge.net/

Version pour Win32

Autres options: https://www.systutorials.com/docs/linux/man/1-pdftohtml

Site de conversion en ligne: https://www.pdfonline.com/convert-pdf-to-html

1 commentaire:

  1. On se demande vraiment pourquoi Météo-France persiste à utiliser des PDF surtout pour ce genre de bulletin... D'autant plus que jusqu'à récemment, Google Traduction ne savait pas traduire les PDF et comme il y a beaucoup d'étrangers aux Antilles, c'est plutôt mal venu. Heureusement Translate sait maintenant traduire ces fichiers et plutôt bien...

    RépondreSupprimer

Ajoutez un commentaire mais en bon Français ou éventuellement en bon Anglais. Les commentaires en langage SMS seront supprimés.