[HS] Modération et Blabla. sur le forum Création de Jeux - 25-02-2005 14:38:48 - page 673

Arkwolf

MP

Niveau 18

08 juin 2019 à 12:41:43

Ah j'avais pas compris qu'avec Stadia il fallait quand même acheter les jeux en plus de l'abonnement et que c'était pas qu'un prix par mois pour accéder au catalogue façon netflix, c'est vraiment nul du coup

blackapplex

MP

Niveau 10

08 juin 2019 à 13:03:22

Le 08 juin 2019 à 12:41:43 Arkwolf a écrit :
Ah j'avais pas compris qu'avec Stadia il fallait quand même acheter les jeux en plus de l'abonnement et que c'était pas qu'un prix par mois pour accéder au catalogue façon netflix, c'est vraiment nul du coup

Soit tu payes chaque mois, et t'as des jeux gratuits et d'autres payants (j'ai compris ça moi)
Soit tu payes pas, et t'achètes juste les jeux, et c'est gratuit, en gros google se fait de la marge sur la marge des vendeurs de jeux j'imagine

Message édité le 08 juin 2019 à 13:03:33 par blackapplex

blackapplex

MP

Niveau 10

11 juin 2019 à 23:14:10

https://www.latribune.fr/technos-medias/internet/data-analytics-pourquoi-salesforce-depense-15-7-milliards-de-dollars-pour-s-offrir-tableau-819940.html
Certains savent où mettre leur tune, même si l'avenir de la data est dans l'open-source, ceux qui en auront besoin pour des analyses commerciales d'entreprises se tourneront vers ce genre d'outil, et quand on voit la place aberrante qu'ont pris certains géants des softwares d'entreprises, Tableau c'est le SAP de demain.

Ya Microsoft Azure aussi mais eux je comprends même pas comment ils font pour être encore présents dans le game. Et j'aime pas ce concept d'avoir des ingénieurs formés que sur une techno, ya des ingé SAP, des ingé Azure etc.. c'est débile ce fonctionnement.

Message édité le 11 juin 2019 à 23:17:02 par blackapplex

Arkwolf

MP

Niveau 18

12 juin 2019 à 21:48:06

Tu veux pas dire power bi au lieu de azure ? Azure c'est que les serveurs non ?

j'ai eu une démo vite fait de 5 min de power bi récemment, je connaissais pas du tout ce genre d'outils, mais c'est vraiment pas mon domaine et ça a vraiment l'air 0% fun donc je m'y suis pas attardé

blackapplex

MP

Niveau 10

13 juin 2019 à 19:49:09

Le 12 juin 2019 à 21:48:06 Arkwolf a écrit :
Tu veux pas dire power bi au lieu de azure ? Azure c'est que les serveurs non ?
j'ai eu une démo vite fait de 5 min de power bi récemment, je connaissais pas du tout ce genre d'outils, mais c'est vraiment pas mon domaine et ça a vraiment l'air 0% fun donc je m'y suis pas attardé

Bah Azure ça englobe un peu toute la suite logiciel en ligne / cloud de Microsoft, ya une partie data, machine learning, deep learning etc. Du coup pour les entreprises qui veulent tout faire facilement c'est un pack tout en un, et yen a qui achète du Microsoft parce que c'est du Microsoft et du coup ils utilisent ces outils de data alors que...Bah c'est cher pour ce que c'est.
C'est difficile de faire de la valeur augmentée dans la data, je crois que Tableau y arrive bien, mais beaucoup de travail consiste à avoir des données proprement formatées et utilisables par des modèles, et ça personne peut te le faire vu que c'est spécifique aux données que tu as.
Tu peux faire de la valeur ajoutée en rendant les données plus jolies, mais dans ce cas tu fais du marketing ou des powerpoints donc perso je m'en balec, et tu peux faire de la valeur ajoutée en utilisant des modèles plus complexes ou en fournissant de la puissance de calcul, mais en fonction des applications soit c'est pas faisable soit les modèles les plus complexes sont déjà disponibles sur github (et de toute façon vu qu'ils changent tous les 6mois ça vaut pas le coup de les implémenter dans un service que tu vendrais).

Je crois qu'il y a pas beaucoup d'entreprises qui ont une vision intelligente de la donnée. Au fond interfacer ton infrastructure avec Microsoft ça ne fait que te rendre dépendant à leurs évolutions ce qui est très regrettable, et vu que c'est un secteur qui évolue beaucoup c'est pas intéressant.

blackapplex

MP

Niveau 10

13 juin 2019 à 20:57:12

Je dois lire un json de 700Go sur un HDD externe, des idées ? Rien de simple hein ? J'arrive même pas à compter le nombre de ligne

Message édité le 13 juin 2019 à 21:00:38 par blackapplex

godrik

MP

Niveau 22

14 juin 2019 à 07:28:48

Le 11 juin 2019 à 23:14:10 blackapplex a écrit :
https://www.latribune.fr/technos-medias/internet/data-analytics-pourquoi-salesforce-depense-15-7-milliards-de-dollars-pour-s-offrir-tableau-819940.html
Certains savent où mettre leur tune, même si l'avenir de la data est dans l'open-source, ceux qui en auront besoin pour des analyses commerciales d'entreprises se tourneront vers ce genre d'outil, et quand on voit la place aberrante qu'ont pris certains géants des softwares d'entreprises, Tableau c'est le SAP de demain.

Ouais, tableau c'est pas mal. J'ai un ancien prof d'ici qui bosse pour tableau maintenant. C'est le gourou des camembert. (Je te jure il sait TOUT ce qu'il y a savoir sur les camembert.) Il fait de la recherche en visualization, et il a ecrit plusieurs papiers sur comment faire un cambert pour que l'utilisateur interprete les donnees correctement.

Arkwolf

MP

Niveau 18

14 juin 2019 à 10:28:04

Le 13 juin 2019 à 20:57:12 blackapplex a écrit :
Je dois lire un json de 700Go sur un HDD externe, des idées ? Rien de simple hein ? J'arrive même pas à compter le nombre de ligne

ça dépend tu veux en faire quoi ?

Si c'est juste pour jeter un œil vite fait et que t'as pas envie de te prendre la tête tu peux juste aller sur http://www.readfileonline.com/ et ça devrait être instantané même pour un méga gros fichier (ça reste en local) mais t'aura pas le nombre de ligne

godrik

MP

Niveau 22

14 juin 2019 à 17:07:32

Le 13 juin 2019 à 20:57:12 blackapplex a écrit :
Je dois lire un json de 700Go sur un HDD externe, des idées ? Rien de simple hein ? J'arrive même pas à compter le nombre de ligne

Miam! La vraie solution est d'utiliser une lib out-of-core de json, mais je ne sais pas si ca existe.

En solution alternative, tu utilise une lib standard et tu trouve 3TB de disk pour utiliser en tant que swap.

Ou alors, tu tape le mec qui a produit un JSON de 700GB.

godrik

MP

Niveau 22

14 juin 2019 à 17:10:06

rapidJSON a une interface pour lire a partir d'un stream et ne pas construire tout le JSON en memoire. http://rapidjson.org/md_doc_stream.html
J'ai jamais essayer, je m'arrange toujours pour ne pas generer des JSON aussi gros.

blackapplex

MP

Niveau 10

14 juin 2019 à 20:24:47

Le 14 juin 2019 à 17:07:32 godrik a écrit :
Le 13 juin 2019 à 20:57:12 blackapplex a écrit :
Je dois lire un json de 700Go sur un HDD externe, des idées ? Rien de simple hein ? J'arrive même pas à compter le nombre de ligne
Miam! La vraie solution est d'utiliser une lib out-of-core de json, mais je ne sais pas si ca existe.
En solution alternative, tu utilise une lib standard et tu trouve 3TB de disk pour utiliser en tant que swap.
Ou alors, tu tape le mec qui a produit un JSON de 700GB.

J'avais beaucoup en tête la dernière solution, c'est un dump de wikidata qui fait 30Go en compressé et 700Go en décompressé (ça m'a pris 1 jour), cimer l'arnaque En plus dans leur dump 99% des infos sont inutiles, c'est une base de données de toutes les infos du monde...mais du coup c'est trop confus, trop d'infos trop peu utiles, dedans t'as plein de labels dans plein de langues différentes pour tous les objets et toutes les choses du monde En vrai c'est une mine d'or mais faut un SSD de 2To avec spark
Mais le fichier est pas mal construit, chaque ligne est un json à elle seule donc virtuellement je peux lire chaque ligne indépendamment en parallèle....
Mais voilà j'ai retourné le truc dans tous les sens j'ai pas trouvé de bonne solution.
Ils ont un système de query spark en ligne, mais il est trop limité pour mes applications je crois..

Ton site web est marrant Ark, ça me permet de savoir ce qu'il y a à la fin de mon fichier...mais...m'voilà pas tellement d'autres usages

edit: ça existe pas les SSD externes de 2To en 2019 ? je suis trop en avance?
edit2: trouvé, 370€, ouch
edit3: Mais est-ce que ça vaut le coup, est-ce que le bottleneck c'est pas l'USB3 ?

Message édité le 14 juin 2019 à 20:27:50 par blackapplex

blackapplex

MP

Niveau 10

14 juin 2019 à 21:16:25

En fait ya un dump au format RDF mais j'ai pris le JSON parce qu'il était "recommandé".
Mais en vrai, le RDF serait beaucoup plus pratique si je peux directement faire des requêtes SPARQL dessus non? Je sais pas comment ça marche..

godrik

MP

Niveau 22

14 juin 2019 à 21:32:21

plusieurs commentaires:

sparql ca fait des requetes a la mord moi le noeud qui sont super difficile a executer. En pratique j'ai du mal a croire que ca pourrait t'etre utile.

Samsung a des SSD de 2TB. Mais en effet, utiliser de l'USB3 c'est completement con. C'est du SSD ou de la NVRAM sur PCI-e que tu veux pour faire ce genre de chose.

Lire 700GB avec un SSD ca prends en gros 40 minutes. Lire 30GB, ca prends en gros 2 minutes. En d'autre terme: si j'etais toi, ce que je commencerai par faire c'est ecrire un code qui prends ton fichier compresse, le decompresse et parse le JSON en le streamant pour virer tout ce qui ne t'interesse pas et le re-ecrit sur le disque compresse. A mon avis le fichier est vachement plus petit a ce moment la.

De facon general quand tu as des gros fichiers tu veux toujours les lire a partir de leur version compresser parceque decompresse est moins cher que des IO de nos jours!

blackapplex

MP

Niveau 10

14 juin 2019 à 22:05:32

Les requêtes sont pas si complexes (mais elles sont moches):
https://query.wikidata.org


#added 2017-08
#defaultView:Map
SELECT * WHERE {
 ?item wdt:P31*/wdt:P279* wd:Q16917;
 wdt:P625 ?geo .
}

Je suis d'accord qu'il vaut mieux lire un fichier compressé, pour moi c'est tout le principe des bases de données, je fais une requête, ça sait où ça doit lire instantanément dans la mémoire avec un décalage en nombre de bytes, ça décompresse ces zones et ça me l'affiche. C'est l'objectif. Mais à partir d'un JSON ça me semble mort. Le compressé c'est un bz2 mais je sais pas si je peux requêter dessus (je crois pas). Les alternativres sont des .nz et .ttl compressés que je sais pas manier (c'est pas forcément mieux)

Le soucis c'est que je sais pas à priori ce qui m'intéresse ou pas. Je sais ce qui m'intéresse vraiment pas, mais si j'enlève ça, certains m'ont dit que c'était pas une grosse part de la base (je mise sur du 50%, ya des objets, leurs labels et des relations et ce qui m'intéresse pas c'est les labels dans 50langues et les hash/id des relations). Au final un fichier de 300Go continuera de me poser quelques soucis. Si je refiltre le fichier sur la tâche qui m'intéresse précisément, ça revient à faire des traitements de base de données puisque je devrai faire ça souvent. Ma problématique ce serait plutôt ce passage en base (genre mysql avec un fichier d'entrée json de 700Go ça donne quoi? Je pourrai tenter..)

Pour l'instant je crois que je peux m'en passer, j'ai trouvé un générateur de requête Sparql qui a l'air d'optimiser le truc pour que mes requetes marchent (50k objets, d'autres savent requêter 200k donc je pense que ça ira pour moi). Si elles ne passent plus et que c'est critique, j'investirai en hardware et je ferai les filtres et les passages en BDD adéquats pour requêter rapidement et sans contraintes

Message édité le 14 juin 2019 à 22:07:30 par blackapplex

blackapplex

MP

Niveau 10

14 juin 2019 à 22:17:57

Bon j'ai 3milliards de personnes dans mes villes, c'est cool, manque plus qu'à voir la représentativité de ce machin.
Oui parce que dans wikidata, vous verrez énormément d'humains morts par pendaison, décapitation ou bûcher Attention aux guillotine en sortant de chez vous

blackapplex

MP

Niveau 10

14 juin 2019 à 23:05:22

Si vous aussi vous sentez venir la grosse extrapolation bien sale pour arriver à 7.7 milliards

godrik

MP

Niveau 22

14 juin 2019 à 23:58:55

Tu me dira si ca marche bien tes requetes SPARQL. Tous les gens que je connais qui ont essaye rapidement arrivent a un point ou le moteur ne sait rien faire d'intelligent et devolve sur des algo exponentiels.

blackapplex

MP

Niveau 10

15 juin 2019 à 00:05:21

En fait ça marche bof mais je sais pas si c'est à cause de leur implem de Sparql ou si c'est à cause des limitations inhérentes aux API.
J'atteinds souvent une limitation de temps de requête, et de façon relativement aléatoire. Deux explications, soit Sparql c'est n'importe quoi et ça marche pas, possible, soit c'est juste leur API qui a des contraintes trop faibles ou leurs serveurs qui sont trop utilisés ou mes requêtes qui sont trop lourdes... m'voilà.

godrik

MP

Niveau 22

15 juin 2019 à 00:22:35

bah si tu n'as pas d'index, il faut quand meme lire la base de donne entiere. Pour une requete comme celle la, il faut probablement deux passes.

blackapplex

MP

Niveau 10

15 juin 2019 à 00:36:34

Là je teste les requêtes à l'API sur le serveur de wikidata dans le cadre de mon application finale. Donc si je veux les villes et leur population, et pourvu qu'il y ait un SGBD intelligent derrière, la complexité sera en O(n_ville) puisqu'il m'aura déjà pré-indexé tous les objets qui sont des villes.
Pour les villes c'est rapide, et yen a 50k.
Mais étrangement pour les pays je fais le même type de requêtes et il galère plus fréquemment. Mais en fait je viens de voir pourquoi je crois, si je demande une série temporelle il va pas me renvoyer les info v1, v2, [t1, t2, t3], il me renvoie v1, v2, t1 puis v1, v2, t2, puis v1, v2, t3 Donc quand je demande 2 séries temporelles en même temps ça explose la requête jpp
Ca c'est sparql je pense Mais ya surement moyen d'écrire la requête proprement c'est pas possible sinon

Message édité le 15 juin 2019 à 00:37:50 par blackapplex

Sujet : [HS] Modération et Blabla.

Gestion du forum

Sujets à ne pas manquer