Pour traiter des données textuelles on doit d'abord transformer le texte en une séquence de vecteurs de nombres, la façon la plus naïve quand l'ensemble des mots pouvant apparaître est connu a l'avance c'est de numéroter les mots puis de leur associer un vecteur de nul pour chaque coordonnées sauf celle qui correspond à leur numéro.
Après ça on peut si nécessaire projeter les vecteurs sur un espace de plus petite dimension avec tout un tas de méthode, soit
Mais je comprends pas pourquoi au lieu de se taper des vecteurs de la taille V du dictionnaire on n'écrit pas simplement les numéros des mots en binaire pour construire des vecteurs de taille ceil(log2(V)) (qui ne serait cette fois pas quasiment rempli de zéros)? 
Après ça rien n'interdit de projeter ça encore sur un autre espace, mais on a au moins déjà préalablement réduit énormément la dimension des vecteurs à projeter 
Message édité le 15 février 2021 à 03:07:37 par [Ban2]PTSI-PT