Table des matières

Revenir à la page d'accueil.

Licence Creative Commons Le cours "Outils numériques pour les historiens" de Francesco Beretta, avec tous les documents, fichiers et scripts associés, est mis à disposition selon les termes de la licence Creative Commons Attribution - Pas d’Utilisation Commerciale - Partage dans les Mêmes Conditions 4.0 International.

Annotation sémantique de textes


Fichiertextes_tei_20191007.zip| mis-à-jour}}

Migration 0 de la base de données


Documents à annoter

Concernant le premier document à annoter voir cette page.

Création du deuxième document à annoter

Document à télécharger pour l'exercice de mardi 29 septembre: liste_notices_BNF.ods

Les indications concernant la production du document se trouvent sur cette page.

Il s'agit maintenant le créer le document en format texte que nous allons annoter en introduisant une indexation sémantique.


Nous disposons donc de deux documents à annoter : celui que nous venons de produire et celui que nous avons téléchargé pour le premier exercice (il est téléchargeable ici).


Principes d'annotation

L'annotation sémantique des textes utilise les principes de l'encodage en format XML, selon les recommandations de la Text encoding initiative, en les appliquant de manière simplifiée.

Voir sur cette page une présentation synthétique des principe de l'encodage d'un texte en XML.

Balises

TTT = n'importe quelle chaîne de caractères

Balise Définition Explication Balise TEI Exemple complet Transformé en XML
{ud0}TTT{/ud} unité documentaire Au dessus du niveau paragraphe, enveloppe un paragraphe tei:div {ud0_8}TTT{/ud} <ud ref=“0” ana=“8”>TTT</ud>
{eud}TTT{/eud} en-tête d'unité documentaire A placer toujours au début d'une unité documentaire pour disposer d'un titre tei:head {eud_9}TTT{/eud} <eud type=“9”>TTT</eud>
{en0}TTT{/en} entité nommée Identifie dans le texte une chaîne de caractères qui représente le nom d'un objet tei:name {en2ai_10}TTT{/en} <en type=“ai” ref=“2” ana=“10”>TTT</en>
{ro0}TTT{/ro} référence à un objet Identifie dans le texte une chaîne de caractères qui se réfère à un objet sans être son nom tei:rs {ro0ai_10}TTT{/ro} <ro type=“ai” ref=“2” ana=“10”>TTT</ro>
{dat}TTT{/dat} date Une chaîne de caractéres qui représente une date dans n'importe quel format tei:date {dat1576r_df} <dat when=“1576” cert=“r” type=“df”>TTT</dat>
{seg}TTT{/seg} segment Au dessous du niveau paragraphe, toujours à l'intérieur d'un paragraphe, regroupe en règle générale plusieurs propositions. tei:seg {seg_8}TTT{/seg} <seg ana=“8”>TTT</seg>
{co0}TTT{/co} contenu Identifie dans le texte une unité de connaissance de type 'contenu' tei:seg {co0_11}TTT{/co} <co ref=“0” ana=“11”>TTT</co>
{in0}TTT{/in} information Identifie dans le texte une unité de connaissance de type 'information' tei:seg {in13_12}TTT{/in} <in ref=“2” ana=“12”>TTT</in>

Dans l'espace de noms du TD, le nom des balises possède deux caractères si la balise est susceptible d'être associée à un objet de la base de données, trois si cette possibilité est exclue.
Pour les balises à deux lettres, un 0 est ajouté si la référence à un objet dans la base de données est omise. Au cas contraire, on remplace le 0 par l'identifiant de l'objet dans la base de données.

Types

Types d'objets

On peut ajouter un sigle sur deux caractères aux balises 'en' et 'ro', après le 0 ou l'identifiant numérique de l'objet, qui indique quel est le type de l'objet visé.

ai Acteur [individuel]
ac Acteur collectif
oa Objet abstrait
cs Caractère social
om Objet matériel
bi Bibliographie
ud Unité documentaire
od Objet digital
li Lieu
im Immeuble

Par exemple: {en0cs}mathématicien{/en}

Cette possibilité n'est vraiment utile que si on renonce à créer les objets dans la base de données et que la valeur de l'identifiant sera donc '0'. Grâce au sigle on pourra ainsi indiquer dans le texte de quel type d'objet il s'agit. Si on a créé l'objet dans la base de données, et donc obligatoirement renseigné un type, celui-ci pourra être récupéré par une requête.


Typologie supplémentaire

Pour toutes les balises, sauf la balise 'dat' (pour la date), on peut ajouter un type sous forme d'un objet abstrait qu'on crée dans la base de données et dont on ajoutera l'identifiant numérique après un tiret bas.

Par ex.:


Dates

Nous utilisons pour les dates le format ISO 8601.
En s'inspirant du format ISO 8601, on saisira les dates sous forme de chiffres assemblées dans un texte, ce qui permet de traiter les dates tronquées (seulement l'année, ou seulement l'année et le mois, etc.). Le nombre obligatoire de chiffres est égal au nombre de lettres dans le modèle. Le nombre manquant de chiffres sera remplacé par 0 au début de la date.

Forme Signification Exemples
AAAA Année 0078; 0344; 1564
AAAAMM Année, mois 156403
AAAAMMJJ Année, mois, jour 15640309
AAAAMMJJHH Année, mois, jour, heures 1564030918
AAAAMMJJHHMM Année, mois, jour, heures, minutes 156403091830
AAAAMMJJHHMMSS Année, mois, jour, heures, minutes, segondes 15640309183022


Mise en forme des dates :

{dat20001101} le premier novembre de la dernière année du siècle précédent{/dat}


Types de dates

On peut ajouter après la date, en la séparant par un tiret bas, une précision sous forme de sigle à deux caractères qui indique quel est le type de date:

dd Date de début
df Date de fin
di Date intermédiaire
du Date unique


Incertitude concernant les dates

On peut ajouter également, à la suite de la date, un caractère qui indique le degré de précision de la date

[e] Date exacte Ce caractère est omis car il s'agit de degré de précision par défaut
r Date reconstituée Date qu'on a pu reconstituer à partir du contexte
p Date postulée Date qu'on fixe pour disposer d'un point d'ancrage dans le temps à défaut d'en savoir plus

Il était en fonction au {dat20001115r_di} milieu du mois de novembre de la dernière année du siècle précédent{/dat}.



Techniques d'annotation


Fonctionnalité 'Rechercher et remplacer'

La manière la plus efficace d'annoter un texte consiste à utiliser la fonctionnalité 'Rechercher et remplacer' de Writer ou de l'éditeur de texte de son propre choix (Word, R, etc.). Aussi il est indispensable de se familiariser et d'utiliser les expressions rationnelles ou régulières.

Expressions régulières

Une introduction aux expressions régulières. De nombreux tutoriels et sites proposant des exercices existent sur le web pour apprendre à les utiliser.

Documentation de LibreOffice (traduction en français):

Recherche de similarités


Annotation manuelle

Une pratique efficace :

Chercher toutes les annotations afin de les mettre en couleur ou de les supprimer

Annotation semi-automatique