Le 03 février 2021 à 10:55:33 Azerban a écrit :
Le 03 février 2021 à 01:52:04 godrik a écrit :
Le 02 février 2021 à 22:50:50 Bargios a écrit :
Le 02 février 2021 à 05:33:16 godrik a écrit :
Ces trucs la ont toujours ete un peu douteux. Ca me parait pas clair comment text blob fait la classification.
La question fondamentale est as tu une tetra chie de tweet pre-tagge pour pouvoir faire l'apprentissage? Si tu n'as pas ca, il te faut un modele pre-entrainer.
Si tu as ca, c'est relativement facil. Tu decoupe les tweet en adjective+nom et adverbe+verbe apres avoir degager les url et ce genre de conneriw. Et j'ai envie de dire qu'un modele lineaire devrait faire l'affaire.
Ça me parait être une solution idéale mais comment parvenir à créer modèle pré-entraîné ?
J'ai lu quelques articles sur le sujet et je suis tombé sur des exemples très théorique.
Tu ne cree pas un modele pre entraine. Tu trouve quelqu'un qui a fait l'entrainement et qui veut bien te passer le modele.
A mon avis c'est le future business model des boites comme google. Ils vont vendre l'access a des modele pre entraine.
Heu, google fournit déjà gratuitement des dizaines de modèles pré-entraînés par eux-mêmes sur leurs données : https://www.tensorflow.org/hub?hl=fr 
Tout a fait. Mais c'est de la demo tout ca. Rien de tout ces modele la n'utilise vraiment la masse de donnee que google a.
Note que google ne met pas a disposition de modele de speech to text ou text to speech entrainer a partir tous les film dont ils ont les sous titres, ou toutes les videos youtubes dont ils ont les sous titres. Alors qu'on sait que c'est un modele qui est tres bon. STT et TTS d'android est bon, mais c'est pas celui la qu'ils vont te donner.
Non, il te donne des embeddings de texte extrait de wikipedia que tu pourrais faire toi meme. Alors c'est cool que tu n'as pas a booker 30 GPU sur EC2 pendant une semaine. Mais ce sont des modeles essentiellement publique.
Ce qu'ils vont vendre, c'est l'utilisation ou l'access construit a partir de leur donnees interne.