Salut a vous,
J'ai une panda dataframe qui est relativement grosse. Et dans le cadre d'une analyse, j'ai besoin que d'une partie de la data frame. Donc j'ai un truc du genre.
local_df = df["a = 12"]
Et cette local_df est monstrueusement plus petite que df (c'est en gros 1% de df). Et je vais faire une tonne de requetes differentes sur local_df pour faire les calcul que j'ai besoin de faire.
J'ai l'impression que pandas.dataframe ne materialize pas en memoire local_df. local_df a l'air d'etre juste une reference a df avec l'information qu'il ne faut garder que les "a=12". Donc quand je fais l'analyse qui suit, je me retrouve a quand meme iterer sur df entier. Donc je passe 99% du temps de l'application a iterer sur des lignes de la dataframe dont j'ai pas besoin.
Je n'ai pas trouve dans la documentation de panda.dataframe comment faire ca (Parceque les doc python sont naze en general; en particulier il y a un .copy() qui ne fait pas ce que je veux). J'ai pas trouve sur le web non plus.
Quelqu'un sait comment faire ca ?
En passant, j'ai plein de colone que je peux ignore aussi.
Tchuss!