étiqueteur
545 Visualisations

CG : nm

CT : TermoStat, créé par Patrick Drouin de l’Observatoire de linguistique Sens-Texte (OLST) de l’Université de Montréal, est un dépouilleur terminologique en ligne qui utilise une méthode hybride – c’est-à-dire qui intègre des méthodes statistique et linguistique – pour identifier des candidats termes. Il prend en compte non seulement la structure des unités (en faisant appel à un étiqueteur morphosyntaxique pour cibler des substantifs, des adjectifs et des unités complexes dont ces derniers font partie comme autant de candidats termes), mais il considère aussi les fréquences relatives des unités identifiées dans un corpus d’analyse (le texte ou les textes à dépouiller) et un corpus de référence (une collection de textes journalistiques). TermoStat permet ainsi d’identifier des candidats termes simples et complexes à l’aide d’un seul processus de dépouillement.

S : http://linguistech.ca/TermoStat_F_TUTCERTT_I_PartieI (consulté le 30.06.2014)

N : 1. ÉTIQUETEUR, -EUSE n. XIXe siècle. Dérivé d‘étiqueter. N. Personne qui pose des étiquettes. N. f. Machine à étiqueter. Pas d’acception dans le domaine de l’informatique appliquée à la traduction ou traductique.
Calque de l’anglais tagger.
2. L’étiqueteur de SEM (Segmenteur-Étiqueteur Markovien) est étroitement lié à son segmenteur, en particulier pour la question des unités multi-mots ou mwe (multi-word entity). Il s’agit d’un ensemble de mots qui forment une unité polylexicale contigue à part entière et dont la nature peut varier, par exemple « cordon bleu », « San Francisco », « par rapport à » (Tellier et al. 12).
Si on ne dispose pas en entrée d’un fichier segmenté en tokens au préalable, SEM propose deux types de segmentation :

  • une segmentation dite « maximale » parce qu’elle est fondée uniquement sur les séparateurs (espaces et signes de ponctuation sauf cas particuliers), et qui nereconnaît donc aucune unité multi-mots (modèles plain dans les ressources) ;
  • une segmentation avec reconnaissance des unités multimots grâce à ceux présents dans le French TreeBank et le lefff (modèles mwe).

S : 1. DAF ; FCB. 2.http://www.lattice.cnrs.fr/sites/itellier/SEM.html (consulté le 30.06.2014).

SYN :
S :

RC : informatique, mot-dièse, traductique.