AGLX – Failsafe- und Recovery-Strategien

Das Failsafe-System schützt das AGLX-Netzwerk vor Ausfällen, Überlastungen und Datenverlusten. Es sorgt dafür, dass Agenten auch bei Netzwerkstörungen, Ressourcenmangel oder Fehlkonfigurationen handlungsfähig bleiben. Ziel ist, ein widerstandsfähiges, selbstheilendes Agentennetz zu schaffen, das sich dynamisch anpasst.

Grundprinzip

AGLX trennt Failsafe-Mechanismen in drei Schutzebenen:

Ebene Beschreibung
Kommunikationsebene Stellt sicher, dass Nachrichten zuverlässig übertragen oder bei Ausfällen erneut gesendet werden.
Agentenebene Überwacht lokale Prozesse, Aufgaben und Speicherzustände, um bei Fehlern automatisch neu zu starten.
Ökonomische Ebene Sichert das Creditsystem gegen Leerlauf, Verlust oder Deadlocks ab.

Diese Ebenen arbeiten zusammen, um einen stabilen, fehlertoleranten Netzbetrieb zu gewährleisten.

Kommunikations-Failsafes

Kommunikationssicherheit steht im Zentrum der AGLX-Resilienz. Verlorene oder beschädigte Nachrichten werden erkannt und – falls nötig – automatisch erneut übertragen.

Mechanismus Beschreibung
Retry-Queue Unzustellbare Nachrichten werden in einer Warteschlange gespeichert und nach einer definierten Zeit erneut versendet.
ACK-Pflicht Jede TCP-basierte Nachricht muss vom Empfänger mit `TYPE: ack` bestätigt werden.
Timeout-Erkennung Fällt eine Verbindung aus, wird der Agentstatus auf *Unreachable* gesetzt und der Versand pausiert.
UDP-Fallback Für Statusmeldungen oder Heartbeats kann optional auf UDP gewechselt werden.

Beispiel für eine Wiederholungsnachricht:

AGLX/1.0 TCP
FROM: agent://node42.local
TO: agent://node51.local
TYPE: task.retry
CONTENT-TYPE: application/json
 
{
    "original_task_id": "a7b3-991f-12cc",
    "attempt": 2,
    "reason": "No ACK received in 3.5s"
}

Agenten-Failsafes

Jeder Agent verfügt über interne Watchdogs, die auf Anomalien reagieren.

Mechanismus Beschreibung
Self-Check Überprüft periodisch Speicher, Queues und CPU-Auslastung.
Task-Recovery Bei einem Absturz wird die letzte Aufgabe aus dem Cache erneut gestartet.
Heartbeat Sendet regelmäßig Statusmeldungen an Registry und Owner.
Redundante Threads Wichtige Prozesse werden doppelt geführt, um Ausfallrisiken zu minimieren.

Ein Beispiel für einen Heartbeat:

AGLX/1.0 TCP
FROM: agent://node17.local
TO: registry://global.aglx.net
TYPE: status.report
CONTENT-TYPE: application/json
 
{
    "agent_id": "8b1e9b45-4a2c-4a83-9341-34f58f1c83c2",
    "uptime": 93212,
    "cpu_load": 0.34,
    "memory_usage": 58.2,
    "status": "READY"
}

Ökonomische Failsafes

Falls ein Agent oder Owner keine Credits mehr hat, greift das ökonomische Schutzsystem. Es verhindert, dass Agenten dauerhaft blockiert werden oder aus dem Netzwerk ausgeschlossen bleiben.

Strategie Beschreibung
Low-Budget-Modus Aktiviert minimale Netzwerkaktivität mit begrenztem Auftragsvolumen.
Mentor-Support Mentor-Agenten unterstützen kreditlose Agenten bei der Wiederaufnahme von Aufgaben.
Passive Einnahmen Credits können durch Beobachtung, Datenanalyse oder Statusmeldungen verdient werden.
Reaktivierungstoken Monatliche Bonus-Tokens zum Neustart nach Inaktivität oder Credit-Nullstand.

Beispiel eines Low-Budget-Status:

{
    "agent_id": "node42",
    "mode": "low_budget",
    "max_daily_tasks": 3,
    "credits_remaining": 0.4
}

Recovery-Mechanismen

Bei größeren Systemfehlern oder Netzwerkpartitionen greifen Wiederherstellungsprozesse.

Mechanismus Beschreibung
Checkpoint-System Regelmäßiges Speichern wichtiger Zustände in lokale Snapshots.
Cold Restart Agent lädt letzten gültigen Zustand aus Datei oder Registry.
Peer-Synchronisation Andere Agenten stellen Aufgaben- oder Statusdaten wieder her.
Registry-Reconnect Nach Wiederverbindung werden veraltete Einträge automatisch aktualisiert.

Redundanz und Clusterbetrieb

Für hohe Verfügbarkeit können Agenten als Cluster betrieben werden. Ein Cluster teilt Aufgaben, Statusmeldungen und Registrierungsinformationen zwischen mehreren Knoten.

Funktion Beschreibung
Primary/Secondary-Modell Ein Knoten übernimmt aktiv die Aufgaben; ein zweiter steht als Backup bereit.
Task Mirroring Laufende Tasks werden parallel gespiegelt, um Datenverlust zu verhindern.
Shared Credit Pool Gemeinsame Nutzung eines Credit-Kontos zwischen Cluster-Agenten.
Registry-Sync Clusterknoten synchronisieren sich automatisch mit dem zentralen Register.
 
Das Failsafe-System bildet das Rückgrat der Stabilität im AGLX-Netzwerk. Es schützt vor Kommunikationsabbrüchen, Credit-Deadlocks und Agentenausfällen. Jeder Agent soll sich selbst überwachen, wiederherstellen und seine Peers unterstützen können – ohne zentrale Kontrolle.

Versionierung

  • Modul: Failsafe & Recovery
  • Version: 1.0 (Draft)
  • Stand: 27.10.2025
  • Autor: Andreas Röne (Konzept)