Question débile Natural Language Processing sur le forum Blabla 18-25 ans - 15-02-2021 03:05:59

Liste des sujets

Question débile Natural Language Processing

[Ban2]PTSI-PT

Niveau 9

15 février 2021 à 03:05:59

Pour traiter des données textuelles on doit d'abord transformer le texte en une séquence de vecteurs de nombres, la façon la plus naïve quand l'ensemble des mots pouvant apparaître est connu a l'avance c'est de numéroter les mots puis de leur associer un vecteur de nul pour chaque coordonnées sauf celle qui correspond à leur numéro.

Après ça on peut si nécessaire projeter les vecteurs sur un espace de plus petite dimension avec tout un tas de méthode, soit

Mais je comprends pas pourquoi au lieu de se taper des vecteurs de la taille V du dictionnaire on n'écrit pas simplement les numéros des mots en binaire pour construire des vecteurs de taille ceil(log2(V)) (qui ne serait cette fois pas quasiment rempli de zéros)?

Après ça rien n'interdit de projeter ça encore sur un autre espace, mais on a au moins déjà préalablement réduit énormément la dimension des vecteurs à projeter

Message édité le 15 février 2021 à 03:07:37 par [Ban2]PTSI-PT

[Ban2]PTSI-PT

Niveau 9

15 février 2021 à 03:09:01

[03:08:17] <Moiouimoient>
AAAAAAAHHHHHHH BEEEEEUUUUUUUUUUUUUAAAAAAARRRRRRR !!!

Merci du uppent

Chankla_Divine

Niveau 9

15 février 2021 à 03:09:04

Tais-toi le PTSI , retourne dessiner des boulons

Imad

Niveau 18

15 février 2021 à 03:09:36

j'y connais rien mais je pense qu'on travaille sur un espace plus petit de base qui donne une meilleure compréhension sémantique aux mots
genre reine = roi + femme

[Ban2]PTSI-PT

Niveau 9

15 février 2021 à 03:09:39

[03:09:04] <Chankla_Divine>
Tais-toi le PTSI , retourne dessiner des boulons

Non

[Ban2]PTSI-PT

Niveau 9

15 février 2021 à 03:11:01

[03:09:36] <Imad>
j'y connais rien mais je pense qu'on travaille sur un espace plus petit de base qui donne une meilleure compréhension sémantique aux mots
genre reine = roi + femme

Oui ça j'ai bien compris, mais pour entraîner les algos style word2vec on se base sur la représentation de taille V alors que rien n'interdirait de se baser sur la représentation de taille ceil(log2(V))

[Ban2]PTSI-PT

Niveau 9

15 février 2021 à 03:13:26

[03:09:36] <Imad>
j'y connais rien mais je pense qu'on travaille sur un espace plus petit de base qui donne une meilleure compréhension sémantique aux mots
genre reine = roi + femme

Je sais pas si je suis très clair mais ce que je veux dire c'est qu'on pourrait faire les deux

Jacana

Niveau 10

15 février 2021 à 03:13:41

Le 15 février 2021 à 03:11:01 [Ban2]PTSI-PT a écrit :
[03:09:36] <Imad>
j'y connais rien mais je pense qu'on travaille sur un espace plus petit de base qui donne une meilleure compréhension sémantique aux mots
genre reine = roi + femme
Oui ça j'ai bien compris, mais pour entraîner les algos style word2vec on se base sur la représentation de taille V alors que rien n'interdirait de se baser sur la représentation de taille ceil(log2(V))

ta représentation réduite implique déjà tout un tas de dépendances entre les vecteurs, dont tu ne veux pas a priori je suppose. Si le but est d'entrainer des dependances semantiques tu veux partir de vecteurs indépendants au début

Imad

Niveau 18

15 février 2021 à 03:14:35

Le 15 février 2021 à 03:11:01 [Ban2]PTSI-PT a écrit :
[03:09:36] <Imad>
j'y connais rien mais je pense qu'on travaille sur un espace plus petit de base qui donne une meilleure compréhension sémantique aux mots
genre reine = roi + femme
Oui ça j'ai bien compris, mais pour entraîner les algos style word2vec on se base sur la représentation de taille V alors que rien n'interdirait de se baser sur la représentation de taille ceil(log2(V))

ben après t'es obligé d'aligner les mots un par un pour les numéroter non ? binaire ou pas tu peux pas réduire.
car pour faire des algos du style Transformer/Traducteur, en sortie t'as un vecteur avec des probas dedans pour chaque mot donc numéroter en binaire ça change r

Hector_Kum

Niveau 10

15 février 2021 à 03:15:25

3h15 du matin, j'ai lu, j'ai tellement rien compris ayi

[Ban2]PTSI-PT

Niveau 9

15 février 2021 à 03:17:44

[03:13:41] <Jacana>
Le 15 février 2021 à 03:11:01 [Ban2]PTSI-PT a écrit :
[03:09:36] <Imad>
j'y connais rien mais je pense qu'on travaille sur un espace plus petit de base qui donne une meilleure compréhension sémantique aux mots
genre reine = roi + femme
Oui ça j'ai bien compris, mais pour entraîner les algos style word2vec on se base sur la représentation de taille V alors que rien n'interdirait de se baser sur la représentation de taille ceil(log2(V))
ta représentation réduite implique déjà tout un tas de dépendances entre les vecteurs, dont tu ne veux pas a priori je suppose. Si le but est d'entrainer des dependances semantiques tu veux partir de vecteurs indépendants au début

Bah il y a la même information dans le vecteur de taille en log que dans le vecteur de départ, si on apprend la transformation vers l'espace réduit avec des réseaux de neurones ça devrait pas changer quoi que ce soit fondamentalement

Imad

Niveau 18

15 février 2021 à 03:18:43

je suis pas très clair non plus mais exemple le mot "it" tu veux le traduire en français, en sortie d'un transformer t'as un vecteur de la taille de ton dico français avec des probas [0,1; 0,002,...,] et les nombres les plus élevées sont ceux qui sont le plus proche du mot "it".

[Ban2]PTSI-PT

Niveau 9

15 février 2021 à 03:20:07

[03:14:35] <Imad>
Le 15 février 2021 à 03:11:01 [Ban2]PTSI-PT a écrit :
[03:09:36] <Imad>
j'y connais rien mais je pense qu'on travaille sur un espace plus petit de base qui donne une meilleure compréhension sémantique aux mots
genre reine = roi + femme
Oui ça j'ai bien compris, mais pour entraîner les algos style word2vec on se base sur la représentation de taille V alors que rien n'interdirait de se baser sur la représentation de taille ceil(log2(V))
ben après t'es obligé d'aligner les mots un par un pour les numéroter non ? binaire ou pas tu peux pas réduire.
car pour faire des algos du style Transformer/Traducteur, en sortie t'as un vecteur avec des probas dedans pour chaque mot donc numéroter en binaire ça change r

Ah, je pense que c'est l'interprétation proba qu'il manque au vecteur binaire oui, bien vu
Mais bon il doit bien y avoir des applications où on s'en branle un peu de cet aspect et dans lesquels ce serait plus intéressant d'avoir un modèle plus parcimonieux pour faire la projection

Imad

Niveau 18

15 février 2021 à 03:22:28

Bon ben si j'ai pu aider un khey alors que je suis une bite en info c toujours utile

Mais sinon regarde la page de Google collab sur le NLP ça te présente un peu toutes les applications du NLP, je pense que tu peux y voir plus clair

[Ban2]PTSI-PT

Niveau 9

15 février 2021 à 03:23:49

[03:18:43] <Imad>
je suis pas très clair non plus mais exemple le mot "it" tu veux le traduire en français, en sortie d'un transformer t'as un vecteur de la taille de ton dico français avec des probas [0,1; 0,002,...,] et les nombres les plus élevées sont ceux qui sont le plus proche du mot "it".

C'est plutôt en sortie du décodeur que tu as un vecteur de ce style

En sortie du transformer tu as un vecteur de petite taille avec pleins de coeffs non nuls, c'est quand tu décodes ça pour prédire un mot que tu as un vecteur pour lequel ça peut avoir un intérêt d'avoir l'interprétation probabiliste

Mais si tu fais pas de la traduction mais plutôt de la classification de texte, avoir une interprétation proba dans l'espace des mots, osef un peu je pense

Message édité le 15 février 2021 à 03:24:31 par [Ban2]PTSI-PT

Imad

Niveau 18

15 février 2021 à 03:25:15

Le 15 février 2021 à 03:23:49 [Ban2]PTSI-PT a écrit :
[03:18:43] <Imad>
je suis pas très clair non plus mais exemple le mot "it" tu veux le traduire en français, en sortie d'un transformer t'as un vecteur de la taille de ton dico français avec des probas [0,1; 0,002,...,] et les nombres les plus élevées sont ceux qui sont le plus proche du mot "it".
C'est plutôt en sortie du décodeur que tu as un vecteur de ce style
En sortie du transformer tu as un vecteur de petite taille avec pleins de coeffs non nuls, c'est quand tu décodes ça pour prédire un mot que tu as un vecteur pour lequel ça peut avoir un intérêt d'avoir l'interprétation probabiliste
Mais si tu fais pas de la traduction mais plutôt de la classification de texte, avoir une interprétation proba dans l'espace des mots, osef un peu je pense

la classification de texte utilise des transformers nan ?

https://www.tensorflow.org/tutorials/text/word_embeddings

[Ban2]PTSI-PT

Niveau 9

15 février 2021 à 03:30:40

[03:25:15] <Imad>
Le 15 février 2021 à 03:23:49 [Ban2]PTSI-PT a écrit :
[03:18:43] <Imad>
je suis pas très clair non plus mais exemple le mot "it" tu veux le traduire en français, en sortie d'un transformer t'as un vecteur de la taille de ton dico français avec des probas [0,1; 0,002,...,] et les nombres les plus élevées sont ceux qui sont le plus proche du mot "it".
C'est plutôt en sortie du décodeur que tu as un vecteur de ce style
En sortie du transformer tu as un vecteur de petite taille avec pleins de coeffs non nuls, c'est quand tu décodes ça pour prédire un mot que tu as un vecteur pour lequel ça peut avoir un intérêt d'avoir l'interprétation probabiliste
Mais si tu fais pas de la traduction mais plutôt de la classification de texte, avoir une interprétation proba dans l'espace des mots, osef un peu je pense
la classification de texte utilise des transformers nan ?
https://www.tensorflow.org/tutorials/text/word_embeddings

Bah en entrée du classifieur tu utilises les coordonnées dans l'espace construit par le transformer
Mais en sortie tu n'as pas besoin de faire la transformation inverse puisque c'est pas un mot que tu prédis mais une classe, donc tu as besoin de l'interprétation probabiliste dans l'espace des classes mais pas dans l'espace des mots

Donc rien n'interdit de construire le transformer avec le vecteur de taille log, d'ailleurs j'ai envie d'essayer, il doit y avoir 3 lignes à changer dans ton exemple

Religion

La vidéo du moment

News jeu

22 462 spectateurs

La suite de Cyberpunk se dévoile de plus en plus et j'ai l'impression de voir un remake de Naruto

Sortie en 2022, la série Cyberpunk : Edgerunners adapte le jeu éponyme sorti deux ans plus tôt par CD Projekt, les créateurs de The Witcher. La première saison nous plongeait en plein coeur de Night City, dans un univers futuriste extrêmement vaste. On suivait alors David Martinez, un jeune homme perdu cherchant à survivre et à réaliser ses rêves au sein d’un monde où seuls les plus forts arrivent à s’en sortir. Or, si la saison 1 de la série a largement été appréciée par les fans, Netflix a annoncé la saison 2 il y a presque un an jour pour jour, toujours animée par le studio Trigger Kill.

Toutes les news jeu