Exercice de travail dirigé Greenstone

Back to wiki
Retourner à l' indexe
Fichiers échantillon: difficult_documents.zip
Fabriqué pour version Greenstone: 2.60
Modifié pour version Greenstone: 2.70

Documents PDF difficiles

  1. Construisez une nouvelle collection à partir des deux fichiers qui se trouvent dans sample_files\difficult_documents. Utilisez la collection par défaut: c'est-à-dire rassemblez simplement les fichiers dans une nouvelle collection, et construisez la.

    Ces fichiers sont appelés No extractable text.pdf et Weird characters.pdf—Leurs noms évoquent les problèmes qu'ils vont causer!

  1. Maintenant visualisez la collection. Les listes de titres et noms de fichier montrent un seul des documents. Quand vous cliquez l'icône "texte" pour examiner le texte extrait de ce document, c'est des détritus. Le message suivant apparait au moment de la construction: "Un document a été traité et inséré dans la collection; un a été rejeté."

Les modes dans l'interface du bibliothécaire

L'interface du bibliothécaire peut opérer dans différents modes. Jusqu'à présent, vous avez utilisé le mode par défaut, appelé "bibliothécaire".

  1. Utilisez l'option Préférences du menu Dossier pour passer au mode Expert et reconstruire la collection. Le volet Créer semble différent dans le mode expert parce qu'il donne davantage d'options comme: trouver le bouton Construire la collection, en bas de fenêtre, et cliquer dessus. Un nouveau message apparaît indiquant que le fichier ne peut pas être traité et pourquoi.

  1. Pour éviter toute confusion, nous vous recommandons de retourner au mode Bibliothécaire pour accéder aux exercices suivants.

Convertion PDF avec Ghostscript amélioré

Si vous avez Ghostscript installé, alors vous pouvez utiliser une méthode pour manipuler les documents difficiles au format PDF. Ghostscript est un programme qui peut être convertir des fichiers Postscript et PDF en d' autres formats. Vous pouvez le télécharger de http://www.cs.wisc.edu/~ghost/ (suivez le link à la version estable).

  1. Ces problèmes peuvent être résolus en changeant une option de PDFPlug. Greenstone peut convertir les fichiers PDF en une série d'images avec un fichier associé qui qui décrit comment elles sont placées dans le document initial (appelé un fichier item). ImageMagick doit être installé pour cette partie d'exercice (voir Installation de Greenstone).

  1. Dans la liste Greffons de Documents du volet Conception, double-cliquez sur PDFPlug pour ouvrir une fenêtre avec les options, et initialisez l'option convert_to à pagedimg_gif.

  1. Construisez la collection et visualisez la. Les documents PDF ont été traités et divisés en pages, mais chaque page affiche "Ce document n'a pas de texte" car le texte n'est pas extrait au moment de la conversion des documents PDF en images.

  1. Pour visualiser correctement les documents, nous devons modifier une instruction de formatage. Dans la section Possibilités de Formatage sur le volet Conception, sélectionnez l'instruction de formatage DocumentText. Remplacer [Text] avec [srcicon]et cliquez sur Remplacer le format.

  1. visualisez la collection à partir du volet Création. (Il n'est pas nécessaire de la construire).Les images extraites des documents sont maintenant affichées à la place des textes. Les deux documents: No extractable text.pdf et Weird characters.pdf sont maintenant affichés correctement.


Copyright © 2005 2006 2007 by the New Zealand Digital Library Project at the University of Waikato, New Zealand
Permission is granted to copy, distribute and/or modify this document under the terms of the GNU Free Documentation License, Version 1.2 or any later version published by the Free Software Foundation; with no Invariant Sections, no Front-Cover Texts, and no Back-Cover Texts. A copy of the license is included in the section entitled “GNU Free Documentation License.”