KI-Integration, Lokale Modelle & RAG-Systeme
Von der Cloud-API bis zum lokal laufenden Sprachmodell – KI wird dann produktiv, wenn sie sauber in bestehende Prozesse eingebunden ist. kommklick unterstützt Unternehmen im Raum Kiel und Schleswig-Holstein bei Architektur, Umsetzung und Betrieb. In Kombination mit Prompt Engineering und Browser-Automatisierung entsteht ein vollständiger Automatisierungsstack.
Cloud-KI-APIs professionell einbinden
OpenAI, Anthropic (Claude), Google (Gemini) und andere Anbieter stellen ihre Sprachmodelle über REST-APIs bereit. Was einfach klingt, hat in Produktionsumgebungen erhebliche Komplexität: Authentifizierung, Rate-Limiting, Token-Budgets, Fehlerbehandlung, Retry-Logik, Streaming-Responses, Kontext-Fenster-Management und Kosten-Monitoring sind Aspekte, die in einem stabilen System alle berücksichtigt werden müssen.
Die wichtigsten Modelle im Vergleich
- GPT-4o (OpenAI): Stärkste allgemeine Sprachverarbeitung, hervorragend für Structured Output (JSON-Mode, Function Calling), sehr gute Code-Erzeugung
- Claude 3.5 Sonnet / Opus (Anthropic): Lange Kontextfenster (200k Token), präzise Anweisungsfolge, stark in Dokumentenanalyse und strukturiertem Denken
- Gemini 1.5 Pro (Google): Native Multimodalität, gut für Bild-Text-Kombinationen, tiefe Integration in Google-Ökosysteme
- GPT-4o-mini / Claude Haiku: Günstige Modelle für einfache Klassifikations- und Extraktionsaufgaben – oft ausreichend bei einem Bruchteil der Kosten
Was eine produktionstaugliche API-Integration leisten muss
- Anbieter-Abstraktion: Der Anwendungscode ist nicht hart an einen Anbieter gebunden – ein Adapter-Layer erlaubt den Wechsel zwischen Cloud und lokalem Modell ohne Änderung der Geschäftslogik
- Fallback-Strategien: Wenn die primäre Cloud-API nicht verfügbar ist, greift das System automatisch auf ein Backup-Modell zurück
- Kosten-Kontrolle: Token werden gezählt, Limits konfiguriert; teure Modelle nur für Aufgaben, die sie wirklich brauchen
- Vollständiges Logging: Jede Anfrage und Antwort wird protokolliert – für Debugging, Compliance und Prompt-Optimierung
Lokale Modelle: Datenschutz, Kontrolle, keine Cloud-Kosten
Für viele Unternehmensanwendungen ist die Cloud keine Option – nicht wegen Leistung, sondern wegen Datenschutz. Personenbezogene Daten, Vertragsunterlagen, Gesundheitsinformationen, interne Strategiedokumente: All das darf nicht ohne Weiteres an US-amerikanische Cloud-Server gesendet werden. Lokale Sprachmodelle lösen dieses Problem.
Werkzeuge für lokalen Betrieb
- Ollama: Einfachste Möglichkeit, Modelle lokal zu betreiben. OpenAI-kompatible API auf localhost – dieselben Client-Libraries, nur der Endpunkt ändert sich
- LM Studio: GUI-basierter lokaler Modell-Server, gut für Einzelplatz-Tests und Entwicklung
- llama.cpp mit GGUF-Modellen: Direkter Betrieb quantisierter Modelle, maximale Kontrolle, läuft auch auf CPU-Hardware
- Verfügbare Modelle: Llama 3, Mistral, Phi-3, Qwen 2 – je nach Aufgabe und verfügbarer Hardware auswählbar
Hardware-Anforderungen realistisch einschätzen
Lokale Modelle laufen auf normaler Server- und Consumer-Hardware – aber die Leistung hängt stark von RAM und GPU ab. Für Unternehmenseinsatz empfehle ich eine realistische Evaluation: Ein 7B-Modell (z. B. Mistral 7B) läuft flüssig auf einem modernen Workstation-PC mit 16 GB RAM. Für anspruchsvollere Aufgaben und kürzere Antwortzeiten ist eine Nvidia-GPU mit mindestens 8 GB VRAM sinnvoll. Ich begleite diese Evaluierung und empfehle keine unnötige Hardware.
RAG – Retrieval Augmented Generation: Ihre Dokumente, intelligent abrufbar
Das verbreitetste Missverständnis über Sprachmodelle: Man könne ihnen Unternehmensdokumente "beibringen". Sprachmodelle lernen nicht on-the-fly – ihr Wissen ist beim Training eingefroren. RAG (Retrieval Augmented Generation) ist die Lösung: Dokumente werden in einer Vektordatenbank indexiert. Bei jeder Frage sucht das System zuerst die relevantesten Textabschnitte und fügt sie als Kontext in den Prompt ein. Das Modell antwortet auf Basis dieses dynamisch zusammengestellten Kontexts – korrekt, quellengebunden, aktuell.
Die Architektur eines RAG-Systems
- Dokumenten-Parsing: PDFs, Word-Dokumente, HTML, Datenbankinhalte, eingescannte Bilder (per OCR) werden in Rohtext umgewandelt
- Chunking: Der Text wird in sinnvolle Abschnitte aufgeteilt – mit Überlappung, damit Kontext an Chunk-Grenzen nicht verloren geht
- Embedding: Jeder Abschnitt wird durch ein Embedding-Modell in einen Vektor umgewandelt, der semantische Ähnlichkeit messbar macht
- Vektordatenbank: Die Vektoren werden in ChromaDB, pgvector (PostgreSQL-Extension) oder Qdrant gespeichert und indiziert
- Retrieval: Eine Nutzeranfrage wird ebenfalls eingebettet; die ähnlichsten Chunks werden per Nearest-Neighbor-Suche gefunden
- Reranking: Optionaler zweiter Schritt: ein Cross-Encoder bewertet die Chunks neu und sortiert nach tatsächlicher Relevanz
- Generierung: Das Sprachmodell erhält Frage + Kontext-Chunks und antwortet mit Quellenangabe
Was ein gutes RAG-System von einem schlechten unterscheidet
Viele RAG-Implementierungen scheitern nicht an der Technologie, sondern an schlechtem Chunking, falscher Embedding-Modellwahl oder fehlender Halluzinationskontrolle. Ich baue RAG-Systeme mit: semantisch sinnvollem Chunking (keine willkürlichen Zeichengrenzen), mehrsprachigen Embedding-Modellen wo nötig, Metadaten-Filterung für Teilmengen-Suche, und Prompts, die das Modell zwingen, nur auf Basis der gefundenen Quellen zu antworten.
Wissensextraktion und Datenbankintegration
RAG ist eine Form der Wissensextraktion – aber nicht für alle Datenquellen die beste. Je nach Struktur der Daten kommen unterschiedliche Techniken zum Einsatz:
Text-to-SQL: Datenbankabfragen in natürlicher Sprache
Für strukturierte Daten in Datenbanken ist Text-to-SQL oft effektiver als RAG. Das Sprachmodell erhält das Datenbankschema als Kontext und übersetzt natürlichsprachliche Fragen in SQL-Abfragen. "Welche Maschinen hatten im letzten Quartal mehr als drei Stunden Stillstand pro Woche?" wird zu einem korrekten SELECT mit GROUP BY, HAVING und Datumsberechnung. Das Ergebnis wird als Tabelle ausgegeben oder weiterverarbeitet – ohne dass der Fragesteller SQL kennen muss. Ich bringe jahrzehntelange SQL-Erfahrung (MySQL/MariaDB, Oracle, PostgreSQL, MS SQL) mit, die für zuverlässige Text-to-SQL-Systeme entscheidend ist.
- Datenbankschema-Dokumentation als Modell-Kontext aufbereiten
- Schema-Filterung: Modell sieht nur relevante Tabellen für die jeweilige Anfrage
- SQL-Validierung vor Ausführung: Syntaxprüfung und Sicherheitsfilter gegen Injection
- Ergebnis-Nachbereitung: Zahlen in lesbare Texte übersetzen, Diagramme generieren
OCR und Dokumentenverarbeitung
Eingescannte Dokumente sind für Sprachmodelle zunächst unlesbar. OCR (Tesseract, PaddleOCR) macht sie maschinenlesbar; anschließend sorgen Layout-Analyse-Tools (LayoutParser, Unstructured.io) dafür, dass Tabellen, Kopfzeilen und Abschnitte korrekt erkannt und getrennt verarbeitet werden. Ich habe Erfahrung mit historischen Dokumenten, mehrsprachigen Texten und schlechter Scanqualität.
Technischer Stack
- Embedding-Modelle: sentence-transformers, OpenAI text-embedding-3, Nomic Embed (lokal)
- Vektordatenbanken: ChromaDB (eingebettet/lokal), pgvector, Qdrant
- Frameworks: LangChain, LlamaIndex – oder schlanke eigene Implementierungen ohne Overhead
- Dokumenten-Parsing: PyMuPDF, python-docx, Unstructured.io, Tesseract OCR
- Backend: Node.js/Express oder Python/FastAPI je nach Anforderung
Weiterführende Themen
- Startseite – Überblick über alle drei Leistungsbereiche
- Browser-Automatisierung – Daten aus Weboberflächen extrahieren und einspeisen
- Prompt Engineering – wie KI-Ausgaben zuverlässig strukturiert und automatisiert werden
- Kostenlose Erstberatung anfragen – vor Ort im Raum Kiel oder remote