Browser-Automatisierung & Web-Hacks
Mit UserScripts, Browser-Extensions und gezielter DOM-Manipulation werden repetitive Web-Workflows automatisiert – ohne Zugriff auf den Server der Gegenseite. Ergänzend zu KI-Schnittstellen und Prompt Engineering bildet Browser-Automatisierung die dritte Säule eines vollständig automatisierten Arbeitsalltags.
Was Browser-Automatisierung leistet – und für wen
Browser-Automatisierung ist weit mehr als automatisierte Klickstrecken. Moderne Skripte und Extensions lesen Seiteninhalte aus, interpretieren sie mit KI, verknüpfen Daten aus mehreren Quellen und schreiben Ergebnisse direkt in interne Systeme — alles im Browser, ohne Zugriff auf den Server der Gegenseite.
Das macht Browser-Automatisierung zur einzigen Option, wenn Drittanbieter-Portale keine API haben, SaaS-Systeme keine Export-Funktion bieten oder Legacy-Webapplikationen nicht mehr gepflegt werden. In Kombination mit KI-Schnittstellen wird der Browser zur vollständigen Automatisierungsplattform — er liest, versteht und handelt. Selbst KI-Assistenten, die den Nutzer direkt im Browser-Workflow unterstützen, sind damit realisierbar.
Typische Einsatzbereiche
- Daten aus Webportalen auslesen, per KI strukturieren und in ERP- oder CRM-Systeme übertragen
- Preise, Verfügbarkeiten oder Änderungen bei Lieferanten und Wettbewerbern automatisch erfassen und auswerten
- Formulare in Behördenportalen und Lieferantensystemen befüllen — auch aus unstrukturierten Quellen wie E-Mails oder PDFs
- SaaS-Oberflächen um fehlende Funktionen erweitern: Suche, Export, Tastaturnavigation, KI-gestützte Zusammenfassungen
- Berichte aus mehreren Systemen zusammenführen, die nur browserbasierte Ansichten bieten
Was ich mitbringe
Über 30 Jahre Entwicklungspraxis mit Browser-Technologien — mit Sitz im Raum Kiel, aber für Unternehmen in ganz Schleswig-Holstein und darüber hinaus. Von frühem JavaScript und DHTML über IE-Zeiten mit ActiveX und VBScript bis zu modernem ES2024. Das bedeutet: nicht nur aktuelle Standards, sondern auch Verständnis für die historischen Schichten, auf denen viele Unternehmensanwendungen noch laufen. Mehr zur technologischen Basis auf der Startseite.
Warum Browser-Automatisierung trotz KI-Agenten hochaktuell ist
Seit dem Aufkommen von KI-Agenten wie OpenAI Operator, Anthropic Computer Use oder Browser Use wird oft gefragt: Ersetzt das nicht Browser-Skripte? Die kurze Antwort: Nein – und die ausführliche lohnt sich.
Was KI-Agenten können – und wo sie scheitern
KI-Agenten steuern Browser über visuelle Wahrnehmung: Sie "sehen" Screenshots und klicken auf Basis von Bilderkennung. Das ist beeindruckend für explorative, einmalige Aufgaben. Für produktive, tägliche Automatisierung haben sie strukturelle Schwächen:
- Unzuverlässigkeit: Ein Pixel verschoben, ein A/B-Test der Gegenseite, ein neues Cookie-Banner – der Agent scheitert ohne Fehlermeldung oder klickt falsch.
- Latenz und Kosten: Jeder Screenshot-Zyklus kostet Token und Zeit. Ein UserScript reagiert in Millisekunden und kostet nichts.
- Datenschutz: Screenshots der Browseroberfläche enthalten oft sensible Daten, die an Cloud-API-Server gesendet werden. Ein lokales Skript verlässt die Maschine nicht.
- Nicht auditierbar: Was ein KI-Agent genau getan hat, ist schwer nachzuvollziehen. Ein JavaScript-Skript ist Code – versionierbar, prüfbar, deterministisch.
UserScripts vs. KI-Agenten: Wann was einsetzen
- UserScript: Gleiche Aufgabe, täglich, definiertes UI, Datenschutz kritisch → immer UserScript
- KI-Agent: Einmalige Recherche, variables UI, explorative Navigation, keine sensiblen Daten
- Kombination: KI-Agent findet Daten und strukturiert sie; UserScript trägt sie ins Zielsystem ein
Wie Browser-Automatisierung technisch funktioniert
Die Basis sind Skripte, die direkt im Browser laufen — JavaScript, das beim Laden einer Seite automatisch greift und die Oberfläche steuert, Daten ausliest oder Formulare befüllt. Dafür braucht man keinen Zugriff auf den Server der Gegenseite. Was im Browser sichtbar ist, lässt sich automatisieren.
Was damit möglich ist
- Oberflächen-Elemente hinzufügen, entfernen oder verändern — ohne Quellcode der Zielseite
- Formularfelder automatisch befüllen und absenden
- Datenverkehr der Seite abfangen und weiterverarbeiten
- Extrahierte Daten an eigene Systeme senden
- Tastenkürzel definieren, die komplexe Aktionsketten auslösen
- Fehlende Funktionen nachrüsten — Suche, Export, Navigation
Browser-Extensions für Team-Deployment
Wenn mehrere Mitarbeiter dieselbe Automatisierung brauchen, ist eine dedizierte Browser-Extension die richtige Architektur. Extensions bieten gegenüber UserScripts persistente Hintergrundprozesse (Service Worker), eigene Sidepanel-UIs und lassen sich über Google/Microsoft Admin Consoles unternehmensweit ohne manuelle Installation ausrollen. Sie sind mit dem Manifest V3-Standard Chrome-, Firefox- und Edge-kompatibel.
Cross-Browser-Kompatibilität und Legacy-Web
Viele Unternehmensanwendungen laufen noch auf Technologiebasis der frühen 2000er Jahre: IE-abhängige Oberflächen, ActiveX-Komponenten, VBScript, veraltete CSS-Modelle. Neue Browser können damit nicht umgehen – und die Anbieter pflegen die Software nicht mehr.
Kompatibilitätsprobleme und Lösungsansätze
- IE-Abhängigkeiten: ActiveX- und VBScript-Komponenten lassen sich durch JavaScript-Wrapper und Polyfills ersetzen, ohne den Quellcode der Anwendung zu ändern
- CSS-Rendering-Unterschiede: Browser-spezifische Regeln via Feature Detection (Modernizr-Ansatz) oder gezielte Hacks im Stylesheet
- JavaScript-Inkompatibilitäten: Babel-Transpiling oder gezielte Polyfill-Injection per Skript – auch ohne Build-Pipeline in der Zielanwendung
- Content Security Policy: CSP-kompatible Injektionspfade über Extension-Mechanismen und Service Worker statt verbotener
eval()-Aufrufe
Web-Scraping: Daten aus geschlossenen Systemen befreien
Browser-basiertes Scraping mit UserScripts oder Puppeteer/Playwright umgeht Fingerprinting und CAPTCHA-Systeme, weil ein echter Browser mit echtem JavaScript-Rendering arbeitet. Für tägliche Sessions im eigenen Browser sind UserScripts die eleganteste Lösung: kein eigener Server, kein IP-Blocking, keine Bot-Detection. Die Daten werden im Browser extrahiert und direkt an einen eigenen Endpunkt weitergeleitet. Wie diese Daten dann mit KI strukturiert und ausgewertet werden, ist ein separater Schritt in der Pipeline.
Praxisfälle
ERP-Import aus Lieferantenportal ohne API
Ein Lieferanten-Webportal ohne Export-Funktion und ohne API. Täglich wurden Bestellbestätigungen manuell aus dem Browser in die interne Warenwirtschaft übertragen – 40–60 Einträge, mehrmals täglich. Ein UserScript liest alle Einträge beim Laden der Seite automatisch aus, strukturiert sie und sendet sie per POST an einen kleinen lokalen Proxy, der sie direkt in die ERP-Datenbank schreibt. Einsparung: 2,5 Stunden täglich.
Legacy-Webanwendung mit Suchfunktion nachrüsten
Eine ältere webbasierte Aktenverwaltung ohne übergreifende Suchfunktion. Der Anbieter bietet kein Update, die Software läuft aber stabil. Ein UserScript baut beim Laden jeder Aktenansicht einen clientseitigen Suchindex auf (Lunr.js) und injiziert eine eigene Suchleiste in die Oberfläche. Die Suche funktioniert vollständig im Browser – kein Server, keine Migration, keine Abhängigkeit vom Anbieter.
Formular-Automatisierung in Behördenportal
Identische Stammdaten mussten täglich in ein Behördenwebportal eingetragen werden – nur die Vorgangsnummer änderte sich. Ein kontextbewusstes Skript erkennt die Vorgangsnummer aus der URL, lädt die Stammdaten aus einer lokalen JSON-Konfiguration und befüllt alle Pflichtfelder automatisch. Fehlerrate: von mehrmals wöchentlich auf null. Zeitersparnis: 8 Minuten pro Vorgang.
Weiterführende Themen
- Startseite – Überblick über alle drei Leistungsbereiche
- KI-Integration & Schnittstellen – lokale Modelle, Cloud-APIs, RAG-Systeme
- Prompt Engineering – strukturierte Ausgaben und Automatisierungs-Pipelines
- Kostenlose Erstberatung anfragen – vor Ort im Raum Kiel oder remote