Agropolis

LES REGLES DE BASE DE L'INDEXATION
GESIST 2002 : 27/09/02
Hanka Hensens, IRD : hanka.hensens@ird.fr

 

Pour indexer "au niveau du document", on considère qu’il faut utiliser en général entre 5 et 10 mots clés, d’un niveau de spécialisation cohérent avec le reste de la base.
Toutefois, dans l’indexation documentaire (contrairement à celle pratiquée en bibliothèque), on vise l’exhaustivité et la précision : le nombre de descripteurs peut varier considérablement selon le nombre de concepts contenus dans le document (de 2 à 20 !).

Quoique la recherche se fasse informatiquement sur une suite de caractère quelle que soit sa position dans le champ, l’ordre des mots clés doit rester significatif pour aider à l’identification du contenu du document et permettre la sélection, surtout en l’absence de résumé :

En l'absence d'outils d'indexation ou pour les compléter (candidats descripteurs) :

Pour éviter les problèmes liés aux accents et au "ç", on indexerade préférence en majuscules.

Les mots clés seront les mots les plus simples d’une famille (éviter les préfixes et terminaisons), ou des groupes de mots ou expressions toutes faites représentant des concepts simples.

Ils seront de préférences des noms (plutôt que des adjectifs, verbes, adverbes).

Si possible, ils seront au singulier.
Toutefois le pluriel est parfois nécessaire : notions concrètes par opposition au singulier abstrait (ECHECS et ECHEC), expressions consacrées par l’usage (ARTS MARTIAUX), classification zoologique ou botanique (RENONCULACEES)

Sauf nécessité, ils seront au masculin plutôt qu’au féminin.

Ils ne seront pas précédés d’articles.

On n’utilisera les noms communs étrangers que s’ils n’ont pas de traduction française.

S’il s’agit d’un groupe de mots, mettre en premier le mot le plus important (qui pourrait être interrogé seul, suivi d’une troncature) précisé par les mots suivants, éventuellement rejetés artificiellement (exemple : AMAZONE BASSIN VERSANT SUPERIEUR).

Les sigles et acronymes sont à éviter sauf s’ils sont universellement connus et plus utilisés que leurs développés (exemple : SIG, plutôt que Système d'Information Géographique).

Pour les noms de personne, on respectera l’ordre NOM PRENOM et on utilisera la forme française, si elle existe.

Pour les noms de lieu, on décidera au départ si on privilégie dans la base les formes françaises ou nationales (pour les noms de pays choisir plutôt la forme française normalisée).
Les noms de lieu seront précisés en cas d’homonymie (NIGER FLEUVE et NIGER (pays))

Les collectivités se notent généralement en langue originale, sauf les collectivités internationales, pour lesquelles on peut utiliser la forme française de leur nom, si elle existe (exemple : OMS, plutôt que WHO, pour l'Organisation Mondiale de la Santé).

Les dates et périodes seront notées si possible en chiffres arabes (1800-1899 plutôt que XIXeme siècle), afin de permettre l’interrogation informatique numérique par ">", "<", "=",...
Dans le cas d’une étude, à défaut d’autres éléments dans le texte, la date de fin de période à retenir est la date de parution.
Des concepts historiques généraux peuvent être retenus (PREHISTOIRE, ANTIQUITE, MOYEN AGE, RENAISSANCE, ...).

D'une façon générale, on aura avantage à édicter le plus grand nombre de règles possible, en rédigeant éventuellement un manuel d'indexation maison (exemple : Horizon, INSERM/MESH : http://dicdoc.kb.inserm.fr:2010/basismesh/aidindx.pdf), et, quelles que soient les règles choisies, on devra s'y tenir strictement, le tout pour éviter bruit et silence...