09 - Betriebshandbuch

Version: 1.0 Datum: 2026-02-10 Klassifikation: Vertraulich / Intern Projekt: IceDataEmphasise

Revisionshistorie

VersionDatumAutorBeschreibung
1.02026-02-10Marcus PauliErstversion: Betriebsaufgaben, Prozeduren, Monitoring, Backup, Eskalation

Inhaltsverzeichnis

  1. Taegliche Betriebsaufgaben
  2. Start/Stop/Restart Prozeduren
  3. Log-Rotation und Housekeeping
  4. Performance-Monitoring
  5. Kapazitaetsplanung
  6. Backup und Restore
  7. Wartungsfenster-Prozedur
  8. Kontaktliste und Eskalation

1. Taegliche Betriebsaufgaben

Die folgenden Aufgaben muessen taeglich im Rahmen des regulaeren Betriebs durchgefuehrt werden. Die Checkliste dient als Nachweis fuer die Aufsicht (MaRisk AT 7.2).

Morgendliche Checkliste (bis 09:00 Uhr)

RACI-Matrix: Taegliche Aufgaben

AufgabeIT-BetriebSecurityTeamleitung
Morgendliche ChecklisteR/AII
PQ-Fuellstand pruefenR/ACI
Fehler im System-Log pruefenRC/AI
Datenaktualitaet in SplunkRRA

R = Responsible, A = Accountable, C = Consulted, I = Informed

2. Start/Stop/Restart Prozeduren

2.1 Cribl Stream

Cribl Stream laeuft als systemd-Dienst auf dem NUC-Server:

# Status pruefen
sudo systemctl status cribl

# Starten
sudo systemctl start cribl

# Stoppen (Graceful Shutdown)
sudo systemctl stop cribl

# Neustart
sudo systemctl restart cribl

# Logs anzeigen
sudo journalctl -u cribl -f --no-pager
Achtung: Beim Stoppen von Cribl Stream werden Events, die sich in der In-Memory-Pipeline befinden, in die Persistent Queue geschrieben. Der Shutdown dauert bis zu 30 Sekunden, waehrend die Queues geleert werden. Einen kill -9 auf den Cribl-Prozess niemals ausfuehren – dies fuehrt zu Datenverlust.

2.2 Cribl Edge

# Status pruefen
sudo systemctl status cribl-edge

# Starten
sudo systemctl start cribl-edge

# Stoppen
sudo systemctl stop cribl-edge

# Neustart
sudo systemctl restart cribl-edge

# Logs anzeigen
sudo journalctl -u cribl-edge -f --no-pager

2.3 Abhaengigkeiten und Reihenfolge

AktionReihenfolgeBegruendung
Starten1. Tailscale → 2. Cribl Stream → 3. Cribl EdgeStream muss erreichbar sein, bevor Edge sich verbindet
Stoppen1. Cribl Edge → 2. Cribl Stream → 3. TailscaleEdge-Daten muessen zugestellt sein, bevor Stream gestoppt wird
Neustart StreamEdge muss nicht neugestartet werdenEdge puffert Events lokal und liefert nach, sobald Stream wieder verfuegbar ist

2.4 Notfall-Restart (bei Haenger)

# Nur wenn normaler Restart nicht funktioniert:
# 1. Sanftes Signal senden
sudo kill -SIGTERM $(pgrep -f cribl)
sleep 30

# 2. Falls Prozess immer noch laeuft:
sudo kill -SIGTERM $(pgrep -f cribl)
sleep 10

# 3. Dienst normal starten
sudo systemctl start cribl

# 4. Sofort PQ-Status pruefen (moeglicher Datenverlust?)
curl -s http://localhost:9000/api/v1/system/metrics | jq '.pq'

3. Log-Rotation und Housekeeping

3.1 Cribl-eigene Logs

Cribl Stream erzeugt eigene Betriebslogs unter /opt/cribl/log/:

Log-DateiInhaltRotation
cribl.logHauptlog: Verarbeitungsfehler, WarnungenAutomatisch durch Cribl (5 x 5 MB)
cribl-ui-access.logWeb-UI ZugriffeAutomatisch durch Cribl
audit.logAenderungen an der KonfigurationAutomatisch, 365 Tage Aufbewahrung

3.2 Zusaetzliche Log-Rotation via logrotate

# /etc/logrotate.d/cribl
/opt/cribl/log/*.log {
    daily
    missingok
    rotate 30
    compress
    delaycompress
    notifempty
    create 0640 cribl cribl
    sharedscripts
    postrotate
        systemctl reload cribl 2>/dev/null || true
    endscript
}

3.3 Housekeeping-Aufgaben

AufgabeFrequenzBeschreibung
PQ-Verzeichnis pruefenTaeglichdu -sh /opt/cribl/state/ – darf 2 GB nicht ueberschreiten
Alte Backups bereinigenWoechentlichBackups aelter als 90 Tage loeschen
Temp-Dateien bereinigenWoechentlich/tmp/cribl* pruefen und bereinigen
Audit-Log pruefenWoechentlichUngeplante Konfigurationsaenderungen identifizieren

4. Performance-Monitoring

4.1 Wichtige Metriken

MetrikSchwellenwert (Warnung)Schwellenwert (Kritisch)Quelle
CPU-Auslastung> 70%> 90%top, htop, Cribl Metrics
RAM-Nutzung> 75%> 90%free -h, Cribl Metrics
Disk I/O Wait> 20%> 40%iostat
Events In/sAbweichung > 30% vom BaselineAbweichung > 50%Cribl Monitoring
Events Out/sAbweichung > 30% vom BaselineEvents Out < Events In (Stau)Cribl Monitoring
PQ-Fuellstand (HEC)> 50%> 80%Cribl Monitoring
PQ-Fuellstand (S2S)> 50%> 80%Cribl Monitoring
Destination-Latenz> 5 Sekunden> 30 SekundenCribl Monitoring
Disk-Space (/opt)< 30% frei< 15% freidf -h
Tailscale-VPN Status1 Peer offlineVPN-Tunnel downtailscale status

4.2 Monitoring-Befehle

# Cribl Stream Metriken (API)
curl -s http://localhost:9000/api/v1/system/metrics | jq '.'

# Cribl Stream Health Check
curl -s http://localhost:9000/api/v1/health | jq '.'

# Systemressourcen
top -bn1 | head -20
free -h
df -h /opt

# Netzwerk-Durchsatz (Cribl-Ports)
ss -s
ss -tlnp | grep -E '(9000|9420|9997|8088)'

# Tailscale-Status
tailscale status

4.3 Splunk-basiertes Monitoring

# Cribl-Durchsatz in Splunk verfolgen (letzte 4 Stunden)
index=* cribl_pipeline=*
| timechart span=5m count by cribl_pipeline

# Alarmierung bei fehlenden Daten (Saved Search)
index=idx_security sourcetype=linux_secure earliest=-15m
| stats count
| where count < 10
| eval alert_message="Weniger als 10 Security-Events in den letzten 15 Minuten"

5. Kapazitaetsplanung

5.1 Aktuelle Ressourcenauslastung (PoC-Phase)

RessourceVerfuegbarGenutzt (Durchschnitt)Reserve
CPU-Kerne4~1.5 (37%)63%
RAM8 GB~3 GB (37%)63%
Disk (/opt)50 GB~8 GB (16%)84%
Netzwerk1 Gbit/s~5 Mbit/s (0.5%)99.5%

5.2 Skalierungsplanung

WachstumsfaktorAuswirkungMassnahme
Verdopplung der QuellenCPU +40%, RAM +30%Skalierung auf 8 CPU-Kerne, 16 GB RAM
Verdopplung des VolumensCPU +60%, Disk I/O +80%SSD-Upgrade, ggf. Worker Processes erhoehen
Neue Edge Nodes (+10)Netzwerk +20%, CPU +10%Keine Aenderung erforderlich
Neue Pipelines (+5)CPU +15%, RAM +10%Keine Aenderung erforderlich
Empfehlung: Die aktuelle PoC-Hardware (NUC, 4 Kerne, 8 GB RAM) reicht fuer das aktuelle Volumen aus. Bei einer Produktivstellung mit erweitertem Scope sollte auf mindestens 8 Kerne und 16 GB RAM aufgeruestet werden. Cribl empfiehlt fuer Produktivumgebungen mindestens 4 Kerne und 8 GB RAM pro Worker Process.

6. Backup und Restore

6.1 Backup-Konzept

Das Backup umfasst die vollstaendige Cribl-Konfiguration. Das Skript 08-backup-cribl-config.sh automatisiert den Backup-Prozess.

KomponentePfadEnthalten im Backup
Cribl Stream Konfiguration/opt/cribl/local/Ja
Pipelines/opt/cribl/local/cribl/pipelines/Ja
Routes/opt/cribl/local/cribl/routes/Ja
Destinations/opt/cribl/local/cribl/outputs/Ja
Sources/opt/cribl/local/cribl/inputs/Ja
TLS-Zertifikate/opt/cribl/certs/Ja
Umgebungsvariablen.envJa (verschluesselt)
Persistent Queue Daten/opt/cribl/state/Nein (transient)

6.2 Backup-Durchfuehrung

# Manuelles Backup
sudo /home/mpauli/IceDataEmphasise/scripts/08-backup-cribl-config.sh

# Automatisiertes Backup via Cron (taeglich um 02:00 Uhr)
# Eintrag in /etc/crontab:
0 2 * * * root /home/mpauli/IceDataEmphasise/scripts/08-backup-cribl-config.sh

# Backup-Verzeichnis pruefen
ls -lah /var/backups/cribl/

6.3 Restore-Prozedur

Achtung: Ein Restore ueberschreibt die aktuelle Konfiguration vollstaendig. Vor einem Restore immer ein Backup des aktuellen Zustands erstellen.
  1. Cribl Stream stoppen:
    sudo systemctl stop cribl
  2. Aktuellen Zustand sichern:
    sudo cp -r /opt/cribl/local/ /opt/cribl/local.pre-restore.$(date +%Y%m%d)
  3. Backup entpacken:
    sudo tar xzf /var/backups/cribl/cribl-backup-YYYYMMDD-HHMMSS.tar.gz -C /opt/cribl/
  4. Berechtigungen pruefen:
    sudo chown -R cribl:cribl /opt/cribl/local/
  5. Cribl Stream starten:
    sudo systemctl start cribl
  6. Funktionspruefung:
    curl -s http://localhost:9000/api/v1/health | jq '.'
  7. Alle Quellen und Destinations im UI pruefen

6.4 Backup-Aufbewahrung

TypFrequenzAufbewahrungSpeicherort
TaeglichJede Nacht (02:00)30 Tage/var/backups/cribl/
WoechentlichSonntags (03:00)90 Tage/var/backups/cribl/weekly/
Vor AenderungenManuellUnbegrenzt/var/backups/cribl/pre-change/

7. Wartungsfenster-Prozedur

7.1 Planung

SchrittZeitpunktVerantwortlichBeschreibung
1. AnkuendigungT-5 WerktageTeamleitungChange-Antrag stellen, Stakeholder informieren
2. GenehmigungT-3 WerktageChange Advisory BoardGenehmigung im Change-Management-System
3. BackupT-0 (vor Start)IT-BetriebVollstaendiges Backup der Cribl-Konfiguration
4. DurchfuehrungT-0IT-BetriebWartungsarbeiten gemaess Anleitung
5. VerifikationT-0 (nach Abschluss)IT-Betrieb + SecurityFunktionspruefung, Checkliste abarbeiten
6. AbschlussT+1TeamleitungChange-Ticket schliessen, Dokumentation aktualisieren

7.2 Empfohlenes Wartungsfenster

7.3 Checkliste: Wartungsfenster

7.4 Rollback-Prozedur

Falls waehrend der Wartung ein Problem auftritt, das nicht innerhalb von 60 Minuten behoben werden kann, wird der Rollback eingeleitet:

  1. Cribl Stream stoppen
  2. Restore des Backups (siehe Abschnitt 6.3)
  3. Cribl Stream starten
  4. Vollstaendige Funktionspruefung
  5. Vorfall dokumentieren und Nachbesprechung planen

8. Kontaktliste und Eskalation

8.1 Kontaktliste

RolleNameErreichbarkeitVertretung
Cribl-Administrator[Name eintragen]Tel. / E-Mail[Vertretung]
Splunk-Administrator[Name eintragen]Tel. / E-Mail[Vertretung]
Netzwerk-Team (Tailscale/VPN)[Name eintragen]Tel. / E-Mail[Vertretung]
Security Operations[Name eintragen]Tel. / E-Mail[Vertretung]
Teamleitung IT-Betrieb[Name eintragen]Tel. / E-Mail[Vertretung]
Cribl SupportCribl Inc.support.cribl.io / +1-888-CRIBLn/a
Hinweis: Die Kontaktliste muss vor der Produktivstellung mit den tatsaechlichen Kontaktdaten befuellt werden. Eine quartalsweise Ueberpruefung der Aktualitaet ist vorgeschrieben.

8.2 Eskalationsmatrix

SchweregradBeschreibungReaktionszeitEskalation an
Kritisch (P1)Komplettausfall: Keine Daten werden an Splunk geliefert, PQ > 95%15 MinutenCribl-Admin + Teamleitung + Security
Hoch (P2)Teilausfall: Eine Destination ausgefallen, PQ fuellt sich30 MinutenCribl-Admin + Teamleitung
Mittel (P3)Degradiert: Einzelne Quelle liefert keine Daten, Performance-Einbruch2 StundenCribl-Admin
Niedrig (P4)Kosmetisch: UI-Warnungen, nicht-kritische FehlermeldungenNaechster WerktagCribl-Admin (Ticket)

8.3 Eskalationspfad bei P1-Vorfaellen

  1. 0-15 Min: Cribl-Administrator analysiert das Problem, versucht Sofortmassnahme
  2. 15-30 Min: Teamleitung wird informiert, Security Operations wird einbezogen
  3. 30-60 Min: Falls nicht behoben: Rollback auf letztes Backup einleiten
  4. 60+ Min: Cribl-Support kontaktieren, Management-Eskalation
  5. Nach Behebung: Incident-Report innerhalb von 24 Stunden, Post-Mortem innerhalb von 5 Werktagen
Regulatorische Anforderung: Bei einem P1-Vorfall, der laenger als 4 Stunden dauert und die Integritaet sicherheitsrelevanter Log-Daten betrifft, muss gemaess BAIT II.7 eine Meldung an den Informationssicherheitsbeauftragten (ISB) erfolgen.