Browser-Automatisierung & Web-Hacks

Mit UserScripts, Browser-Extensions und gezielter DOM-Manipulation werden repetitive Web-Workflows automatisiert – ohne Zugriff auf den Server der Gegenseite. Ergänzend zu KI-Schnittstellen und Prompt Engineering bildet Browser-Automatisierung die dritte Säule eines vollständig automatisierten Arbeitsalltags.

Was Browser-Automatisierung leistet – und für wen

Browser-Automatisierung ist weit mehr als automatisierte Klickstrecken. Moderne Skripte und Extensions lesen Seiteninhalte aus, interpretieren sie mit KI, verknüpfen Daten aus mehreren Quellen und schreiben Ergebnisse direkt in interne Systeme — alles im Browser, ohne Zugriff auf den Server der Gegenseite.

Das macht Browser-Automatisierung zur einzigen Option, wenn Drittanbieter-Portale keine API haben, SaaS-Systeme keine Export-Funktion bieten oder Legacy-Webapplikationen nicht mehr gepflegt werden. In Kombination mit KI-Schnittstellen wird der Browser zur vollständigen Automatisierungsplattform — er liest, versteht und handelt. Selbst KI-Assistenten, die den Nutzer direkt im Browser-Workflow unterstützen, sind damit realisierbar.

Faustregel: Fünf Minuten täglich, drei Mitarbeiter, 220 Arbeitstage – das sind 55 Arbeitsstunden im Jahr, bezahlt für reine Handarbeit. Bei zehn solcher Aufgaben im Team summiert sich das auf Monate.

Typische Einsatzbereiche

  • Daten aus Webportalen auslesen, per KI strukturieren und in ERP- oder CRM-Systeme übertragen
  • Preise, Verfügbarkeiten oder Änderungen bei Lieferanten und Wettbewerbern automatisch erfassen und auswerten
  • Formulare in Behördenportalen und Lieferantensystemen befüllen — auch aus unstrukturierten Quellen wie E-Mails oder PDFs
  • SaaS-Oberflächen um fehlende Funktionen erweitern: Suche, Export, Tastaturnavigation, KI-gestützte Zusammenfassungen
  • Berichte aus mehreren Systemen zusammenführen, die nur browserbasierte Ansichten bieten

Was ich mitbringe

Über 30 Jahre Entwicklungspraxis mit Browser-Technologien — mit Sitz im Raum Kiel, aber für Unternehmen in ganz Schleswig-Holstein und darüber hinaus. Von frühem JavaScript und DHTML über IE-Zeiten mit ActiveX und VBScript bis zu modernem ES2024. Das bedeutet: nicht nur aktuelle Standards, sondern auch Verständnis für die historischen Schichten, auf denen viele Unternehmensanwendungen noch laufen. Mehr zur technologischen Basis auf der Startseite.

Warum Browser-Automatisierung trotz KI-Agenten hochaktuell ist

Seit dem Aufkommen von KI-Agenten wie OpenAI Operator, Anthropic Computer Use oder Browser Use wird oft gefragt: Ersetzt das nicht Browser-Skripte? Die kurze Antwort: Nein – und die ausführliche lohnt sich.

Was KI-Agenten können – und wo sie scheitern

KI-Agenten steuern Browser über visuelle Wahrnehmung: Sie "sehen" Screenshots und klicken auf Basis von Bilderkennung. Das ist beeindruckend für explorative, einmalige Aufgaben. Für produktive, tägliche Automatisierung haben sie strukturelle Schwächen:

  • Unzuverlässigkeit: Ein Pixel verschoben, ein A/B-Test der Gegenseite, ein neues Cookie-Banner – der Agent scheitert ohne Fehlermeldung oder klickt falsch.
  • Latenz und Kosten: Jeder Screenshot-Zyklus kostet Token und Zeit. Ein UserScript reagiert in Millisekunden und kostet nichts.
  • Datenschutz: Screenshots der Browseroberfläche enthalten oft sensible Daten, die an Cloud-API-Server gesendet werden. Ein lokales Skript verlässt die Maschine nicht.
  • Nicht auditierbar: Was ein KI-Agent genau getan hat, ist schwer nachzuvollziehen. Ein JavaScript-Skript ist Code – versionierbar, prüfbar, deterministisch.
Wichtige Unterscheidung: KI-Agenten sind gut für einmalige, kreative Browser-Aufgaben. Skriptbasierte Browser-Automatisierung ist die richtige Wahl für tägliche, definierte Workflows, bei denen Zuverlässigkeit, Geschwindigkeit und Datenschutz zählen. Beides schließt sich nicht aus – es ergänzt sich. KI-Schnittstellen können strukturierte Daten liefern, die ein Browser-Skript dann automatisch in ein Formular einträgt.

UserScripts vs. KI-Agenten: Wann was einsetzen

  • UserScript: Gleiche Aufgabe, täglich, definiertes UI, Datenschutz kritisch → immer UserScript
  • KI-Agent: Einmalige Recherche, variables UI, explorative Navigation, keine sensiblen Daten
  • Kombination: KI-Agent findet Daten und strukturiert sie; UserScript trägt sie ins Zielsystem ein

Wie Browser-Automatisierung technisch funktioniert

Die Basis sind Skripte, die direkt im Browser laufen — JavaScript, das beim Laden einer Seite automatisch greift und die Oberfläche steuert, Daten ausliest oder Formulare befüllt. Dafür braucht man keinen Zugriff auf den Server der Gegenseite. Was im Browser sichtbar ist, lässt sich automatisieren.

Was damit möglich ist

  • Oberflächen-Elemente hinzufügen, entfernen oder verändern — ohne Quellcode der Zielseite
  • Formularfelder automatisch befüllen und absenden
  • Datenverkehr der Seite abfangen und weiterverarbeiten
  • Extrahierte Daten an eigene Systeme senden
  • Tastenkürzel definieren, die komplexe Aktionsketten auslösen
  • Fehlende Funktionen nachrüsten — Suche, Export, Navigation

Browser-Extensions für Team-Deployment

Wenn mehrere Mitarbeiter dieselbe Automatisierung brauchen, ist eine dedizierte Browser-Extension die richtige Architektur. Extensions bieten gegenüber UserScripts persistente Hintergrundprozesse (Service Worker), eigene Sidepanel-UIs und lassen sich über Google/Microsoft Admin Consoles unternehmensweit ohne manuelle Installation ausrollen. Sie sind mit dem Manifest V3-Standard Chrome-, Firefox- und Edge-kompatibel.

Cross-Browser-Kompatibilität und Legacy-Web

Viele Unternehmensanwendungen laufen noch auf Technologiebasis der frühen 2000er Jahre: IE-abhängige Oberflächen, ActiveX-Komponenten, VBScript, veraltete CSS-Modelle. Neue Browser können damit nicht umgehen – und die Anbieter pflegen die Software nicht mehr.

Kompatibilitätsprobleme und Lösungsansätze

  • IE-Abhängigkeiten: ActiveX- und VBScript-Komponenten lassen sich durch JavaScript-Wrapper und Polyfills ersetzen, ohne den Quellcode der Anwendung zu ändern
  • CSS-Rendering-Unterschiede: Browser-spezifische Regeln via Feature Detection (Modernizr-Ansatz) oder gezielte Hacks im Stylesheet
  • JavaScript-Inkompatibilitäten: Babel-Transpiling oder gezielte Polyfill-Injection per Skript – auch ohne Build-Pipeline in der Zielanwendung
  • Content Security Policy: CSP-kompatible Injektionspfade über Extension-Mechanismen und Service Worker statt verbotener eval()-Aufrufe
Praxisfall: Eine interne Buchungsanwendung eines Unternehmens im Raum Kiel lief nur in Internet Explorer 11. Statt einer aufwändigen Migration wurde ein Kompatibilitäts-Wrapper entwickelt: Ein UserScript übersetzt die IE-spezifischen DOM-Strukturen in Standard-Äquivalente, sodass die Anwendung in modernen Browsern läuft – ohne den Quellcode der Anwendung anzufassen. Aufwand: zwei Tage. Alternative (Neuentwicklung): mehrere Monate.

Web-Scraping: Daten aus geschlossenen Systemen befreien

Browser-basiertes Scraping mit UserScripts oder Puppeteer/Playwright umgeht Fingerprinting und CAPTCHA-Systeme, weil ein echter Browser mit echtem JavaScript-Rendering arbeitet. Für tägliche Sessions im eigenen Browser sind UserScripts die eleganteste Lösung: kein eigener Server, kein IP-Blocking, keine Bot-Detection. Die Daten werden im Browser extrahiert und direkt an einen eigenen Endpunkt weitergeleitet. Wie diese Daten dann mit KI strukturiert und ausgewertet werden, ist ein separater Schritt in der Pipeline.

Praxisfälle

ERP-Import aus Lieferantenportal ohne API

Ein Lieferanten-Webportal ohne Export-Funktion und ohne API. Täglich wurden Bestellbestätigungen manuell aus dem Browser in die interne Warenwirtschaft übertragen – 40–60 Einträge, mehrmals täglich. Ein UserScript liest alle Einträge beim Laden der Seite automatisch aus, strukturiert sie und sendet sie per POST an einen kleinen lokalen Proxy, der sie direkt in die ERP-Datenbank schreibt. Einsparung: 2,5 Stunden täglich.

Legacy-Webanwendung mit Suchfunktion nachrüsten

Eine ältere webbasierte Aktenverwaltung ohne übergreifende Suchfunktion. Der Anbieter bietet kein Update, die Software läuft aber stabil. Ein UserScript baut beim Laden jeder Aktenansicht einen clientseitigen Suchindex auf (Lunr.js) und injiziert eine eigene Suchleiste in die Oberfläche. Die Suche funktioniert vollständig im Browser – kein Server, keine Migration, keine Abhängigkeit vom Anbieter.

Formular-Automatisierung in Behördenportal

Identische Stammdaten mussten täglich in ein Behördenwebportal eingetragen werden – nur die Vorgangsnummer änderte sich. Ein kontextbewusstes Skript erkennt die Vorgangsnummer aus der URL, lädt die Stammdaten aus einer lokalen JSON-Konfiguration und befüllt alle Pflichtfelder automatisch. Fehlerrate: von mehrmals wöchentlich auf null. Zeitersparnis: 8 Minuten pro Vorgang.

Rechtlicher Hinweis: Web-Scraping und Automatisierung von Drittanbieter-Portalen bewegen sich je nach Einzelfall in rechtlichen Graubereichen (Datenschutz, Urheberrecht, AGB-Konformität, Wettbewerbsrecht). Ich berate ausschließlich zu technisch und rechtlich einwandfreien Umsetzungen.