CG : nm
CT : Pour cette étude, l’informatique joue un rôle de plus en plus considérable, via le domaine du traitement automatique du langage naturel (TALN). L’informatique est une discipline scientifique récente, qu’il ne faut pourtant pas réduire à la simple utilisation d’ordinateurs et de programmes. Son nom la désigne comme la science du « traitement automatique de l’information ».
Elle est en fait l’héritière d’une longue tradition mathématique et logique de modélisation du calcul. Plus précisément, on peut dire que les fondements de l’informatique sont double :
– le codage des données à l’aide d’éléments discrets (les fameux 0/1)
– le codage effectif des traitements à l’aide d’algorithmes.
C’est par ce biais qu’on va aborder le traitement automatique du langage. Introduire une démarche informatique dans un domaine revient en effet toujours à se poser les mêmes questions :
– quelles sont les données pertinentes de ce domaine, comment les coder ?
– quels sont les traitements pertinents de ce domaine, comment les coder ?
Maîtriser une langue requiert la manipulation de nombreuses données, et la mise en oeuvre de nombreux traitements. Les linguistes les ont progressivement mis à jour et caractérisé, les informaticiens ont progressivement contribué à les modéliser. Le TALN est né de leur interaction.
S : CNRS – http://www.lattice.cnrs.fr/sites/itellier/poly_info_ling/linguistique003.html (consulté le 7.11.2014)
N : 1. Le Traitement Automatique du Langage Naturel (TALN ou NLP en Anglais pour Natural Langage Processing), est une branche de l’informatique, centrée sur le développement de systèmes qui permettent aux ordinateurs de communiquer avec les humains, en utilisant le langage courant. Le TALN est considéré comme un sous-domaine de l’intelligence artificielle, et a un chevauchement important avec le domaine de la linguistique informatique ou computationnelle.
2. On regroupe sous le vocable de traitement automatique du langage naturel (TALN) l’ensemble des recherches et développements visant à modéliser et reproduire, à l’aide de machines, la capacité humaine à produire et à comprendre des énoncés linguistiques dans des buts de communication. Il sera donc question ici de langage humain, d’où l’adjectif naturel, et non pas de langage formel, tel que C ou encore ADA. Ce naturel fait d’ailleurs tout le sel de l’affaire : les langages formels sont précisément conçus et optimisés dans l’optique de manipulations algorithmiques.
S : 1. http://www.decideo.ca/Big-Data-Traitement-Automatique-du-Langage-Naturel_a6574.html (consulté le 7.11.2014). 2. http://perso.limsi.fr/anne/coursM2R/intro.pdf (consulté le 16.11.2014).
SYN : TALN, TALAN.
S : GDT
RC : catégorisation textuelle, informatique, intelligence artificielle.