e.V.
Infrastruktur · Eigener Dienst · Live

Monitoring

cAdvisor + Exporters + Prometheus

Eigene Prometheus-Metriken für Container, Node, Postgres, Redis — Forgejo-Issue als Notify bei Auffälligkeiten.

Ersetzt
Datadog, New Relic, Cloudflare Analytics, Sentry-Performance
Der Dienst

Ein gebündeltes Monitoring-Pattern, das aus mehreren Bausteinen besteht:

  • cAdvisor misst Container-Metriken (CPU, RAM, Network, FS-IO) für alle ~100 Container.
  • node-exporter misst die Host-Metriken des Mac Mini selbst (CPU, RAM, Disk-Usage, Load).
  • postgres-exporter misst alle 17 Postgres-Datenbanken (Connections, Slow Queries, Bloat, Replication-Lag wo relevant).
  • redis-exporter misst Redis (Memory, Hit-Rate, Queue-Längen).
  • Prometheus scrapt diese Exporters, hält die Zeitreihen vor, rendert ad-hoc Graphen.

Was wir bewusst nicht haben: Datadog. Wir kaufen kein Observability-as-a-Service — die Metriken zu jedem Verein-Container sollen nicht in einem US-SaaS landen, dessen Geschäftsmodell darauf basiert, möglichst viele Spans aufzusaugen.

Notify-Kanal: Wenn ein Cron-Job ausfällt oder ein Container neu startet, kommt die Notification als Forgejo-Issue im internen Ops-Repo till/mana-ops (Phase 1 live seit 2026-05-20). Das ist schlicht, durchsuchbar, und braucht keinen weiteren SaaS-Account.

Wer drauf läuft

Konsumenten

Grundsätze

Was Monitoring für den Verein verkörpert

  • Eigenbetrieb
    Eigene Infrastruktur, quelloffener Stack.
  • Offenheit
    Code und Mittelverwendung öffentlich.
  • Langlebigkeit
    Bewährte Stacks, gute Doku.
Stand

Was offen ist

  • Alerting-Regeln für Disk-Voll-Warnung und Container-OOM-Kill ausweiten.
  • Long-Term-Storage (Thanos/Mimir) prüfen, sobald Retention > 30 Tage gewünscht.

Monitoring ist ein Baustein der Vereins-Infrastruktur — eine von drei Schichten unter den Plattform-Services und Apps.