On a cassé notre fédération Prometheus aujourd'hui. La cause ? HAproxy qui génère 27'000 métriques par noeud. Le nombre de métriques est exponentiel avec le nombre de backends & serveurs. À la base on est "juste" passés de 10 VM de cache à 30, les 900'000 métriques d'un coup, la federation coince. - ThreadSky

bool.fr • 10 days ago

On a cassé notre fédération Prometheus aujourd'hui. La cause ? HAproxy qui génère 27'000 métriques par noeud.

Le nombre de métriques est exponentiel avec le nombre de backends & serveurs.

À la base on est "juste" passés de 10 VM de cache à 30, les 900'000 métriques d'un coup, la federation coince.

Comments

bool.fr•10 days ago

Jusque là je découpait par projet ou autre métrique métier, mais là pas possible.

Bref pour contourner rapidement le problème : j'ai fait du sharding basé sur l'hostname de la VM, pour diviser par 10 le nombre de métriques récupérées à la fois par la fédération.

bool.fr•10 days ago

Mais je pense que je vais devoir revoir ma copie. Passer en Push ?

laurentcrepet.bsky.social•10 days ago

Je ne sais pas s'il a des membres de l'équipe Observability de Criteo ici pour parler tuning et sharding.
Peut-être des idées à prendre dans l'article suivant.
https://techblog.criteo.com/how-we-reduc...

bool.fr•10 days ago

Intéressant ! Je n'ai pas du tout leur volume, donc j'ai shardé par target : c'était facile à mettre en place.

Mais oui c'est un peu ma crainte : si je dois le faire par métrique, ça va être complexe.

laurentcrepet.bsky.social•10 days ago

Pas de possibilité de rajoute de la ram et du cpu aux instances prometheus ?

bool.fr•10 days ago

Pour le moment on n'a pas de saturation à ce niveau. C'est purement le traitement de federation qui demande trop de métriques d'un coup et timeout

nrz.bsky.social•10 days ago

remote_write sans hésiter

zwindler.fr•10 days ago

La fédération, ça marche pas

bool.fr•9 days ago

Oui, on me le répète souvent. 😅

Ce que j'aime dans la fédération, c'est que "monitorer le monitoring" c'est vachement plus facile.

J'ai plein de stacks différentes, chez plein d'hébergeurs différents, j'ai pas encore mis en place tout ce qu'il me faut pour passer en remote-write.

bool.fr•9 days ago

Mais... on y vient. Tous les kubes par exemple ont un agent VictoriaMetrics qui fait du remote-write vers les Prometheus "principaux"

mcorbin.bsky.social•10 days ago

C'est l'énorme défaut de prom (en partie reglé par le nouveau type d'histogramme).
Le pull a tjr été une erreur et prom a été une regression sur ce sujet je pense (comparé à avant où le push était là en force, et ça revient avec otel).

zwindler.fr•10 days ago

💯 this

laurentcrepet.bsky.social•10 days ago

Mon point de vue ne sera pas celui de quelqu'un qui "own" la stack d'observability. Toutefois, à "l'époque du push", il y avait aussi des problèmes de scaling. Par ex, Graphite, qui avait conduit à https://github.com/criteo/biggraphite (chez Criteo).

mycroft.mkz.me•8 days ago

ah oui ce truc là je me suis toujours dit qu’il fallait que je l’essaie!

laurentcrepet.bsky.social•10 days ago

* https://github.com/criteo/biggraphite

laurentcrepet.bsky.social•10 days ago

L'anticipation et le contrôle de la cardinalité sont au cœur du problème, que ce soit en pull ou en push.

allemas.bsky.social•9 days ago

Ca serait donc l'histoire de se parler, de toquer a la porte d'a coté pour prévenir ? :D

laurentcrepet.bsky.social•9 days ago

Je ne suis pas sûr de capter le ton sur lequel lire cette réponse.
En tout cas, j'ai pu constater à de nombreuses reprises par le passé des situations où l'infra obs était mise à mal par l'ajout de quelques metrics/logs dans un service tout juste déployé.

allemas.bsky.social•9 days ago

De l’humour, c’est surtout pour souligner que souvent la solution n’est pas technique en premier lieu mais bien humaine et tu l’expliques très bien.

laurentcrepet.bsky.social•9 days ago

Du coup, sensibiliser les équipes sur les problématiques de cardinalité m'a toujours semblé important.

mcorbin.bsky.social•10 days ago

En push c'était facile de faire du backpressure avec un kafka ou autre au milieu, en pull on a tous des instances prom avec 50gb de ram et qui oom au moindre pépin (donc avec perte de donnée/indispo :D).

allemas.bsky.social•9 days ago

et finir avec un souci de disk presure et besoin de rebalance tes partoch :x

mcorbin.bsky.social•10 days ago

La cardinalite faut faire attention mais de base les histograms prom en crée une gigantesque meme pour des petits besoins (100 path http * 4 verbes * 12 buckets * 10 status code, ça monte vite et c'est exponentiel).

mcorbin.bsky.social•10 days ago

De toute façon dans 5 ans on fera que du tracing/wide event avec du trace to metric partout pour des métriques applicatives 😅

laurentcrepet.bsky.social•10 days ago

Scaler une pyramide de prom 😅

souchay.bsky.social•9 days ago

Je ne vois as vraiment en quoi le push/pull change le prob de cardinalité (je ne suis pas forcément un fana de l'approche push/pull only par ailleurs)

mcorbin.bsky.social•8 days ago

Pour la cardinalite côté storage peu de choses mais ça evite d'avoir des scrapes à plusieurs Mo et ça permet de gerer la tolerance aux pannes, la backpressure etc de maniere beaucoup plus fiable.

souchay.bsky.social•8 days ago

Ça n'empêche rien, le Kafka peut te crasher des terra de données

souchay.bsky.social•8 days ago

Ce n'est pas franchement mon xp, plutôt le contraire en termes de backpressure, idem pour les pannes, c'est compliqué de changer la conf des systèmes qui pushent (criteo mafia aussi)

mcorbin.bsky.social•8 days ago

Tout mettre dans un kafka et router en aval c'est je trouve beaucoup plus simple que d'avoir 35 serveurs web par host avec la config réseau/firewalling... pour permettre de scrape.

mcorbin.bsky.social•8 days ago

Et de toute façon comme je disais le push revient en force, avec les otel collector/vector etc on aura de moins en moins de pull.

souchay.bsky.social•8 days ago

Un Kafka est autrement plus complexe à la administrer (même si ça progresse sans zookeeper), quant au réseau, il faut ouvrir le Kafka aussi hein...

nrz.bsky.social•8 days ago

rien niveau cardinalité, tu vas éviter par contre une aberation comme j'ai eu à taf -1 ou ton payload fait 750Mo gzippé :p

souchay.bsky.social•8 days ago

750 dans une queue Kafka ou dans un payload http, je vois pas la diff. Ah si, dans un cas, la tsdb peut réguler, dans l'autre, pas si simple

ineumann.fr•9 days ago

La fédération ne règle jamais les problèmes de haute dispo correctement 🥲

Comments

Posting Rules

Reply