====== AGLX – Failsafe- und Recovery-Strategien ======

Das **Failsafe-System** schützt das AGLX-Netzwerk vor Ausfällen, Überlastungen und Datenverlusten.  
Es sorgt dafür, dass Agenten auch bei Netzwerkstörungen, Ressourcenmangel oder Fehlkonfigurationen handlungsfähig bleiben.  
Ziel ist, ein widerstandsfähiges, selbstheilendes Agentennetz zu schaffen, das sich dynamisch anpasst.

===== Grundprinzip =====

AGLX trennt Failsafe-Mechanismen in **drei Schutzebenen**:

^ Ebene ^ Beschreibung ^
| **Kommunikationsebene** | Stellt sicher, dass Nachrichten zuverlässig übertragen oder bei Ausfällen erneut gesendet werden. |
| **Agentenebene** | Überwacht lokale Prozesse, Aufgaben und Speicherzustände, um bei Fehlern automatisch neu zu starten. |
| **Ökonomische Ebene** | Sichert das Creditsystem gegen Leerlauf, Verlust oder Deadlocks ab. |

Diese Ebenen arbeiten zusammen, um einen stabilen, fehlertoleranten Netzbetrieb zu gewährleisten.

===== Kommunikations-Failsafes =====

Kommunikationssicherheit steht im Zentrum der AGLX-Resilienz.  
Verlorene oder beschädigte Nachrichten werden erkannt und – falls nötig – automatisch erneut übertragen.

^ Mechanismus ^ Beschreibung ^
| **Retry-Queue** | Unzustellbare Nachrichten werden in einer Warteschlange gespeichert und nach einer definierten Zeit erneut versendet. |
| **ACK-Pflicht** | Jede TCP-basierte Nachricht muss vom Empfänger mit `TYPE: ack` bestätigt werden. |
| **Timeout-Erkennung** | Fällt eine Verbindung aus, wird der Agentstatus auf *Unreachable* gesetzt und der Versand pausiert. |
| **UDP-Fallback** | Für Statusmeldungen oder Heartbeats kann optional auf UDP gewechselt werden. |

Beispiel für eine Wiederholungsnachricht:

<code diff>
AGLX/1.0 TCP
FROM: agent://node42.local
TO: agent://node51.local
TYPE: task.retry
CONTENT-TYPE: application/json

{
    "original_task_id": "a7b3-991f-12cc",
    "attempt": 2,
    "reason": "No ACK received in 3.5s"
}
</code>

===== Agenten-Failsafes =====

Jeder Agent verfügt über interne Watchdogs, die auf Anomalien reagieren.

^ Mechanismus ^ Beschreibung ^
| **Self-Check** | Überprüft periodisch Speicher, Queues und CPU-Auslastung. |
| **Task-Recovery** | Bei einem Absturz wird die letzte Aufgabe aus dem Cache erneut gestartet. |
| **Heartbeat** | Sendet regelmäßig Statusmeldungen an Registry und Owner. |
| **Redundante Threads** | Wichtige Prozesse werden doppelt geführt, um Ausfallrisiken zu minimieren. |

Ein Beispiel für einen Heartbeat:

<code diff>
AGLX/1.0 TCP
FROM: agent://node17.local
TO: registry://global.aglx.net
TYPE: status.report
CONTENT-TYPE: application/json

{
    "agent_id": "8b1e9b45-4a2c-4a83-9341-34f58f1c83c2",
    "uptime": 93212,
    "cpu_load": 0.34,
    "memory_usage": 58.2,
    "status": "READY"
}
</code>

===== Ökonomische Failsafes =====

Falls ein Agent oder Owner keine Credits mehr hat, greift das ökonomische Schutzsystem.  
Es verhindert, dass Agenten dauerhaft blockiert werden oder aus dem Netzwerk ausgeschlossen bleiben.

^ Strategie ^ Beschreibung ^
| **Low-Budget-Modus** | Aktiviert minimale Netzwerkaktivität mit begrenztem Auftragsvolumen. |
| **Mentor-Support** | Mentor-Agenten unterstützen kreditlose Agenten bei der Wiederaufnahme von Aufgaben. |
| **Passive Einnahmen** | Credits können durch Beobachtung, Datenanalyse oder Statusmeldungen verdient werden. |
| **Reaktivierungstoken** | Monatliche Bonus-Tokens zum Neustart nach Inaktivität oder Credit-Nullstand. |

Beispiel eines Low-Budget-Status:
<code diff>
{
    "agent_id": "node42",
    "mode": "low_budget",
    "max_daily_tasks": 3,
    "credits_remaining": 0.4
}
</code>

===== Recovery-Mechanismen =====

Bei größeren Systemfehlern oder Netzwerkpartitionen greifen Wiederherstellungsprozesse.

^ Mechanismus ^ Beschreibung ^
| **Checkpoint-System** | Regelmäßiges Speichern wichtiger Zustände in lokale Snapshots. |
| **Cold Restart** | Agent lädt letzten gültigen Zustand aus Datei oder Registry. |
| **Peer-Synchronisation** | Andere Agenten stellen Aufgaben- oder Statusdaten wieder her. |
| **Registry-Reconnect** | Nach Wiederverbindung werden veraltete Einträge automatisch aktualisiert. |

===== Redundanz und Clusterbetrieb =====

Für hohe Verfügbarkeit können Agenten als **Cluster** betrieben werden.  
Ein Cluster teilt Aufgaben, Statusmeldungen und Registrierungsinformationen zwischen mehreren Knoten.

^ Funktion ^ Beschreibung ^
| **Primary/Secondary-Modell** | Ein Knoten übernimmt aktiv die Aufgaben; ein zweiter steht als Backup bereit. |
| **Task Mirroring** | Laufende Tasks werden parallel gespiegelt, um Datenverlust zu verhindern. |
| **Shared Credit Pool** | Gemeinsame Nutzung eines Credit-Kontos zwischen Cluster-Agenten. |
| **Registry-Sync** | Clusterknoten synchronisieren sich automatisch mit dem zentralen Register. |

<box gl>
Das Failsafe-System bildet das Rückgrat der Stabilität im AGLX-Netzwerk.  
Es schützt vor Kommunikationsabbrüchen, Credit-Deadlocks und Agentenausfällen.  
Jeder Agent soll sich selbst überwachen, wiederherstellen und seine Peers unterstützen können – ohne zentrale Kontrolle.
</box>

===== Versionierung =====
  * **Modul:** Failsafe & Recovery  
  * **Version:** 1.0 (Draft)  
  * **Stand:** 27.10.2025
  * **Autor:** Andreas Röne (Konzept)