Fiche précédente Numérisation des bibliothèques / L'image numérique : acquisition Fiche suivante

Les caractéristiques du fichier numérique

  Le format des fichiers
  Le nom des fichiers
  La compression
  Quelques exemples de compression
  Le poids des fichiers images
  Sites à consulter
   
haut de page

Le format du fichier

Les fichiers numériques se distinguent par leur format que l'on identifie grâce à l'exension du nom du fichier. Il existe environ 70 formats de fichiers pour les images bitmap, mais il est déconseillé d'adopter des formats propriétaires de peur de ne pouvoir communiquer les fichiers en dehors d'un réseau restreint doté du même équipement.

Les formats le plus souvent retenus pour les fichiers images en noir et blanc et en couleurs sont :

– le TIFF (Tagged Image File Format), conçu par Aldus et Microsoft pour l'acquisition et la création d'images, est fréquemment proposé comme format par défaut dans des logiciels de numérisation. Ce format propriétaire est devenu un standard de fait. Il gère toutes les profondeurs de couleurs et intègre des informations de correction gamma. Il comporte de nombreuses variantes (les en-têtes de fichiers varient), il faut prendre garde que les visualiseurs et les logiciels de retouche ne puissent traiter la version choisie de ce format.

JFIF (JPEG File Interchange Format). C'est le format adapté aux images compressées en JPEG.

GIF l'un des plus courants pour les images. Cependant, il ne code pas plus de 256 couleurs par pixel, au-delà les images subissent une perte de qualité. GIF est très répandu sur l'internet.

PNG (Portable Network graphics, prononcé "ping"). Ce format récent améliore la vitesse et la qualité d'affichage et il est bien adapté à une diffusion sur la Toile d'Araignée Mondiale (WWW). Il comporte également de nouvelles fonctions : la "signature électronique" inscrit dans le fichier le nom de l'auteur ou celui de l'oeuvre.

haut de page

Le nom du fichier

Chaque image numérique du document numérisé génère un fichier auquel il faut attribuer un nom spécifique. Le nommage du fichier est une opération délicate lourde de conséquences sur l'exploitation ultérieure du fichier. Il ne faut pas nommer les fichiers au coup par coup, mais établir un plan de nommage exploitable lors des campagnes de numérisation ultérieures. La structure de nommage doit être élaborée en envisageant tous les cas de figure pour l'ensemble des collections.

Il est préférable de ne pas inscrire le nom de l'ouvrage numérisé dans le nom du fichier, mieux vaut privilégier sa cote, sinon il faut utiliser des codes existants ou faciles à reconstituer (ex : n° de cote suivi d'un n° séquentiel).

La structure du nom de fichier peut suivre le modèle suivant que l'on retrouve dans le Cahier des Clauses Techniques Particulières, proposé sur ce serveur ( à télécharger en format Word) :

– un code alphanumériques identifiant de l'institution. Pour les bibliothèques, il s'agit de la lettre « B » suivie du numéro RBCCN (Répertoire des bibliothèques du catalogue collectif national des publications en série) délivré par les agences régionales du CCN-PS.

– un numéro d'immatriculation de l'image structuré ainsi :

  • code ou numéro du fonds ;
  • cote du document sur 9 chiffres complétés à gauche par des zéros, ou 8 chiffres suivis d'une lettre et complétés à gauche par des zéros ;
  • numéro de volume sur 3 chiffres ;
  • numéro de page sur 4 chiffres suivi d'une lettre codant le type de pagination (par exemple, pour un cliché pleine page de la page 62 en chiffre arabe, on aura 0062a) ;
  • type de vue sur une lettre : p pour pleine page, z pour double page, d pour détail. Dans le cas où l'image représenterait le détail d'une page de document ce dernier sera signalé par la lettre « d » suivi d'une lettre indiquant le rang du détail (ex : « da » pour l'image du premier détail, « db » pour celle du second) ;
  • type de fichier (ex : v pour vignette, t pour tiers d'écran, p pour pleine page).

Chaque élément est isolé par le séparateur «_».

  • Ex : B_103876101_Bbl_00001239b_0_0062a_z_p
    Ce nom de fichier identifie la double page 62-63 de l'ouvrage coté Bibliothèque bleue 1239B, conservé à la BM de Troyes.
  • Ex : B_103876101_Bbl_00001239B_0_0062a_da_v
    Ce nom de fichier identifie le premier détail de la page 62 de l'ouvrage coté Bibliothèque bleue 1239B, en précisant que ce fichier contient une vignette.

Les zones alphanumériques sont encodées en ISO-Latin-1. Elles ne doivent comporter aucun signe diacritique.

Le nom du fichier peut être très long (plus de 20 caractères). Il est possible d'en utiliser deux versions : un fichier utilisé exclusivement en interne pourra commencer avec le code du fonds (ex : Bbl) ; en revanche dès que le fichier sera installé sur un serveur il devra comporter son préfixe « B_n° RBCCN » afin de rendre possible son identification.

haut de page

La compression

Si l'on veut augmenter la vitesse de consultation des fichiers ou minimiser l'espace de stockage nécessaire pour les documents numérisés, il est nécessaire d'avoir recours à des systèmes de compression. Plusieurs techniques permettent une compression des informations, certaines sans perte et d'autres avec perte d'informations.

Parmi celles sans perte on peut citer :

Run Length Coding. Les pixels identiques sont codés une seule fois avec l'indication du nombre de pixels consécutifs. Cette technique est fréquemment employée pour le bitonal.

– codage de Huffman. Les occurrences de valeurs les plus nombreuses reçoivent un code court.

– compression LZW(Lempel-Ziv-Welch). Les facteurs de compression entre 1,2 et 2,5 sont déterminés par les caractéristiques du document.

Parmi celles avec perte, on peut citer :

– la transformée cosinus ( DCT) ;
– la méthode fractale ;
– la méthode des ondelettes.

Le mode texte ne peut pas supporter un type de compression avec perte d'information car on risque de perdre le sens du texte. En revanche, le mode image supporte une compression avec perte, les dégradations étant moins perceptibles lors de la décompression. L'intérêt premier de la perte d'information est d'atteindre des taux de compression beaucoup plus élevés, ce qui est important dans le cas des fichiers image qui sont les plus lourds. La plupart des formats de fichier peuvent intégrer une combinaison d'une ou plusieurs méthodes de compression :

– le format GIF utilise la compression LZW sans perte d'informations.

– les formats CCITT groupe III et groupe IV du CCITT (Comité Consultatif International Télégraphique et Téléphonique), devenu UIT-T (Union Internationale des Télécommunication-secteur Télécommunications), correspondent à une norme utilisée en télécopie pour transmettre les documents de bureau.

– le JBIG (Joint Bi-Level Image Group), normalisé par l'ISO, aboutit à une compression sans perte plus importante. Il est utilisé pour les documents de bureau et les images en noir et blanc.

– le Joint Photographic Expert Group (ISO/CEI), norme ISO 10918-1 parties1, 2 et 3 (indice de classement AFNOR NF Z 75-001), peut être utilisé pour les images fixes en noir et blanc ou en couleur. Le JPEG (Joint photographic expert group) est un standard sur l'internet et pour les appareils photographiques numériques. Son mode de compression avec perte divise l'image en carrés de 8 x 8 pixels, dans chaque bloc les valeurs les plus proches sont codées sur quelques bits. On peut fixer un taux de qualité de la compression : à 95 % ( soit un taux de compression compris entre 4 et 8), aucune perte n'est visible, à 75% (soit un taux de compresssion compris entre 7 et 15), on obtient une image de qualité où la perte d'informations est à peine perceptible. Pour un taux de qualité donné, le taux de compression peut varier. Le format JPEG n'est pas recommandé si l'on souhaite faire des impressions par la suite, en revanche il atteint de forts taux de compression qui le rendent très utile pour la diffusion sur l'internet. Le format JPEG 2000 est en cours d'élaboration. Il traitera aussi bien les images en bitonal qu'en niveaux de gris ou en couleurs en utilisant la série d'algorithmes la plus adaptée. Il intègrera aussi le mode pyramidal. On pourra choisir un mode de compression paramétrable en fonction du résultat souhaité, avec ou sans perte.

Une fois choisi le mode de compression, il faut éviter les cycles successifs de compressions et de décompressions.

haut de page

Quelques exemples de compression

Bibliothèque nationale de France

type de document format mode de compression
texte imprimé TIFF Aldus monopage 5.0 compression CCITT groupe IV
photographie en noir et blanc JPEG JPEG 1:10
photographie en couleurs JPEG JPEG 1:10


Bibliothèque du Congrès

type de document type de reproduction format compression
texte

image bitonale

niveaux de gris

TIFF

JFIF

CCITT Gr III et IV

JPEG 1:10

image

image d'archive

version écran

imagette

TIFF

JFIF

TIFF, GIF

non compressé

JPEG 1:10 à 1:20

non compressé ou compression native GIF

haut de page

Le poids des fichiers images

Un livre moyen de 500 pages comprenant 2 000 signes par page occupe environ 1Mo, il peut donc tenir sur une disquette. En revanche si on numérise un document similaire en mode image avec une définition de 400 dpi, il exige 3,5 Go de mémoire soit six CDR. Même comprimé en CCITT groupe IV on aura encore, avec un taux de compression de 15, 230 Mo.

En conséquence sur un CDR, on peut mettre environ 600 ouvrages en mode texte, alors que l'on en mettra que 2 en mode image. On comprendra dès lors que le choix d'un support de stockage pour un document en mode texte est facile, mais s'avère bien plus problématique quand il s'agit de documents en mode image.

Si on dipose d'un modem 56 Kb/s pour l'ouvrage en mode texte, il faut 3 mn pour télécharger ce document. Il faudra 1h30 pour l'autre.

haut de page

Sites à consulter

Formats graphiques
http://www.ensad.fr/formima/

Formats graphiques pour le web
http://www.w3.org/Graphics/

Carl Fleischauer, Digital Formats for Content Reproductions, Washington, Library of Congress, NDLP, 13 July 1998
http://memory.loc.gov/ammem/formats.html

Flash Réseau, n°24, "formats de fichiers graphiques et de fichiers sonores"
http://www.nlc-bnc.ca/pubs/netnotes/fnotes24.htm