Word Embedding 

Le plongement lexical ou plongement sémantique est une méthode d’apprentissage d’une représentation de mots sous forme de vecteurs, utilisée notamment en traitement automatique des langues.


Cette technique est un peu plus complexe à conceptualiser. Elle transforme les mots en vecteurs puis les place dans un espace à plusieurs dimensions. Les mots similaires se retrouvent donc proches les uns des autres.

Les modèles qui emploient cette technique de transformation sont appelés « Transformers ».

Exemple

Imaginez un espace où chaque mot est un point. 

Les mots « roi » et « reine » seront proches l’un de l’autre car ils partagent des significations similaires. 

De même, « homme » et « femme » seront proches, et la distance entre « roi » et « reine » sera similaire à celle entre « homme » et « femme ». 

Cette technique permet aux modèles de langage de comprendre les relations entre les mots de manière beaucoup plus riche.

Cette technique permet de représenter chaque mot d’un dictionnaire par un vecteur de nombres réels, autrement dit une liste de nombre. Les vecteurs des mots ont tous la même longueur et encodent le sens des mots d’un point de vue de similarité d’utilisation. Plus des mots peuvent être utilisées dans le même contexte (l’un à la place de l’autre dans une phrase) et plus leurs vecteurs sont proches. Par exemple, on pourrait s’attendre à ce que les mots « chien » et « chat » soient représentés par des vecteurs relativement proches. Cette technique est basée sur l’hypothèse (dite « de Harris » ou distributional hypothesis[1],[2]) qui veut que les mots apparaissant dans des contextes similaires ont des significations apparentées. La similarité entre des vecteurs peut être défini comme la distance dans l’espace vectoriel où sont définis ces vecteurs ou comme l’angle entre ces vecteurs.

La technique des plongements lexicaux diminue la dimension (la taille) de la représentation des mots en comparaison d’un modèle vectoriel par exemple, facilitant ainsi les tâches d’apprentissage impliquant ces mots, puisque moins soumis au fléau de la dimension.