openclaw

OpenClaw Browser Relay: Wie dein Browser zum KI-Agenten wird

Der Browser Relay verwandelt Chrome in ein Werkzeug für KI-Agenten — über CDP, ohne Screenshots, direkt in deinen echten Tabs. So funktioniert es technisch.

OpenClaw Browser Relay CDP Chrome Extension Automatisierung

Die meisten KI-Tools, die behaupten, „den Browser zu steuern”, machen etwas Simples: Sie feuern HTTP-Requests ab, scrapen HTML oder starten einen headless Chromium im Hintergrund. LinkedIn blockiert sie sofort. Cloudflare stoppt sie kalt. Jede Seite mit Behavioral-Detection erkennt sie in Millisekunden.

Der OpenClaw Browser Relay geht einen radikal anderen Weg — und genau das macht ihn so mächtig (und so relevant für die Frage, was KI-Agenten eigentlich können sollten).

Das Grundprinzip: Dein echter Browser, ferngesteuert

Der Browser Relay nutzt das Chrome DevTools Protocol (CDP) — dasselbe Protokoll, das Chrome’s DevTools für Debugging verwenden. Statt einen separaten Browser zu starten, verbindet sich OpenClaw direkt mit deinem vorhandenen Chrome oder Edge.

Das bedeutet konkret:

Drei Modi für verschiedene Szenarien

OpenClaw bietet drei verschiedene Wege, den Browser zu steuern:

1. Extension Relay (Chrome Extension)

Der häufigste Modus. Du installierst die OpenClaw Browser Relay Extension aus dem Chrome Web Store. Ein Klick auf das Toolbar-Icon verbindet den Tab mit dem lokalen Gateway.

Wichtig: Die Extension attached nicht automatisch. Du entscheidest, welcher Tab gesteuert werden darf — ein bewusster Sicherheitsmechanismus. Kein Agent bekommt Zugriff auf deine Banking-Session, es sei denn, du gibst sie explizit frei.

Der Relay-Server läuft lokal auf Port 18792 und kommuniziert über WebSocket mit dem Gateway.

2. OpenClaw-Managed Browser

OpenClaw startet einen eigenen, isolierten Browser — nützlich für Recherche-Aufgaben, bei denen du keine bestehenden Sessions brauchst. Der Agent kann URLs öffnen, navigieren, Snapshots machen und mit der Seite interagieren, ohne deine echten Tabs zu berühren.

3. Node-Browser (Remote)

Für Setups mit mehreren Geräten: Ein „Node” (z.B. ein Raspberry Pi oder ein zweiter Rechner) kann seinen Browser über das OpenClaw-Netzwerk freigeben. Der Agent auf deinem Hauptgerät steuert dann den Browser auf dem Node.

Wie der Agent „sieht”: Snapshots statt Screenshots

Hier wird es technisch interessant. Die meisten Browser-Agenten (einschließlich Anthropics Computer Use) machen Screenshots und schicken sie an ein Vision-Modell. Das ist teuer, langsam und ungenau — ein Pixel-basierter OCR-Ansatz, der bei jedem UI-Redesign bricht.

OpenClaw macht es anders: Es nutzt Accessibility-Tree-Snapshots. Das CDP liefert den strukturierten Baum aller UI-Elemente — Buttons, Links, Textfelder, Menüs — mit ihren Rollen, Namen und Zuständen. Der Agent bekommt eine semantische Repräsentation der Seite, keine Pixelsuppe.

Das hat drei Vorteile:

  1. Viel weniger Tokens — ein Snapshot ist ein paar hundert Zeilen Text statt eines 100KB-Bildes
  2. Präzise Interaktion — der Agent klickt auf Elemente über ihre Referenz-IDs, nicht auf Pixel-Koordinaten
  3. Robustheit — UI-Änderungen (neues Theme, andere Schriftgrößen) brechen nichts

Security: Das Elefanten-Thema

Ein Agent, der deinen echten Browser steuern kann, ist ein Security-Albtraum — wenn man es falsch macht. OpenClaw adressiert das auf mehreren Ebenen:

Explizites Opt-In: Kein Tab wird automatisch attached. Du klickst bewusst auf das Extension-Icon.

Loopback-Only: Der Relay-Server läuft standardmäßig nur auf 127.0.0.1 — keine externen Verbindungen möglich.

CVE-2026-25253: Im Januar 2026 wurde eine Schwachstelle entdeckt: Der WebSocket-Endpunkt hatte keine Origin-Validation. Jede Webseite im Browser hätte eine Verbindung zum lokalen Gateway öffnen können. Der Patch kam innerhalb von 24 Stunden. Der Vorfall zeigt: OpenClaw behandelt Agent-Security als Infrastruktur-Problem, nicht als Prompt-Engineering-Problem.

Reconnect-Toleranz: Seit dem Februar-Update (Changelog) bleibt die CDP-Verbindung auch bei kurzen MV3-Worker-Disconnects erhalten — wichtig, weil Chrome Manifest V3 Background Workers aggressive killt.

Praxisbeispiel: Wie sich das anfühlt

Sagen wir, du bittest deinen OpenClaw-Agenten über Telegram: „Schau mal auf LinkedIn, ob die Stelle bei $Firma noch online ist.”

Was passiert:

  1. Der Agent öffnet den Browser Relay (du hast LinkedIn vorher attached)
  2. Er navigiert zu LinkedIn, nutzt deine echte Session (eingeloggt, keine CAPTCHAs)
  3. Er macht einen Snapshot der Seite — kein Screenshot, sondern den Accessibility Tree
  4. Er sucht nach der Stelle, navigiert, liest die Beschreibung
  5. Er schickt dir eine zusammengefasste Antwort zurück auf Telegram

Das alles passiert in deinem echten Browser, mit deinen echten Daten, in wenigen Sekunden. Kein headless Chrome. Kein Proxy. Kein Selenium-Gefrickel.

Warum das wichtig ist

Der Browser Relay ist mehr als ein Feature — er ist eine These: KI-Agenten sollten die gleichen Tools nutzen wie Menschen. Statt APIs zu bauen für jeden Dienst (was nicht skaliert), gibt man dem Agenten Zugriff auf die universelle Schnittstelle, die bereits existiert: den Webbrowser.

Das hat Implikationen, die über OpenClaw hinausgehen. Wenn Agenten zuverlässig Browser bedienen können, werden viele API-Integrationen überflüssig. Der Browser wird zum neuen API-Layer — und das verändert, wie wir über Automatisierung nachdenken.

Einrichtung in fünf Minuten

  1. OpenClaw installieren (falls noch nicht geschehen)
  2. Chrome Extension installieren aus dem Web Store
  3. Tab öffnen, den du steuern lassen willst
  4. Extension-Icon klicken — Badge zeigt „ON”
  5. Agent ansprechen: „Öffne den angehefteten Tab und schau nach X”

Der Agent erkennt automatisch das richtige Profil (chrome für Extension Relay, openclaw für den managed Browser). In der Tool-Definition heißt es:

„Use profile=‘chrome’ for Chrome extension relay takeover. The user must click the OpenClaw Browser Relay toolbar icon on the tab.”

Mehr ist nicht nötig. Keine Config-Dateien, keine Port-Forwarding-Magie.

Fazit

Der Browser Relay ist das Feature, das OpenClaw von einem cleveren Chatbot-Wrapper zu einem echten Agenten-Framework macht. Es ist nicht perfekt — die Security-Implikationen bleiben ernst, und nicht jede Webseite reagiert gleich gut auf CDP-Steuerung. Aber die Idee, den echten Browser als Agent-Werkzeug zu nutzen statt ihn zu simulieren, ist ein architektonischer Durchbruch, der die Richtung der gesamten Agent-Industrie beeinflusst.

Quellen

Alle Beiträge