Offline-KI in der Industrie — Datenhoheit und Architektur
Offline-fähige KI in der Industrie bedeutet, dass Sprachmodelle und Agentenlogik vollständig auf unternehmenseigener Hardware im Werksnetz laufen — ohne dass Anfragen oder Produktionsdaten das Gelände verlassen.
Warum ist Offline-KI in der Industrie wichtig?
Die meisten öffentlich verfügbaren KI-Dienste sind Cloud-Dienste: Anfragen werden über das Internet an Rechenzentren gesendet, dort verarbeitet und die Ergebnisse zurückgeliefert. Für Consumer-Anwendungen ist das unproblematisch. Für industrielle Umgebungen wirft es grundlegende Fragen auf:
Datenschutz und Geheimhaltung Produktionsdaten enthalten oft vertrauliche Informationen: Rezepturparameter, Fertigungsgeschwindigkeiten, Ausschussquoten, Wartungsintervalle, Kundenbezogene Produktionskonfigurationen. Viele Unternehmen haben gegenüber ihren Kunden Geheimhaltungspflichten, die den Transfer dieser Daten an Drittanbieter einschränken.
Netzwerksegmentierung Moderne OT-Sicherheitskonzepte — orientiert an IEC 62443 und dem Purdue-Modell — fordern, dass Steuerungsnetze vom Internet isoliert sind. Ein Cloud-KI-Dienst, der aus dem OT-Netz erreichbar sein muss, schafft einen Kommunikationskanal, der sicherheitstechnisch geprüft und abgesichert werden muss.
Verfügbarkeit ohne Internetabhängigkeit Produktionsanlagen laufen rund um die Uhr. Internetausfälle, Cloud-Provider-Störungen oder Latenzspitzen sollten die Verfügbarkeit von Assistenz- und Diagnosewerkzeugen nicht beeinflussen.
Regulatorische Entwicklung NIS2 (EU-Netzwerk- und Informationssicherheitsrichtlinie), der Cyber Resilience Act und branchenspezifische Regelungen erhöhen die Anforderungen an Nachvollziehbarkeit und Kontrolle von Datenflüssen. Offline-Architekturen erleichtern den Nachweis, dass Daten den vorgesehenen Bereich nicht verlassen haben.
Welche Architektur-Optionen gibt es?
Option 1: Industrie-PC (IPC) am Maschinenstandort
Ein robuster Industrie-PC wird direkt neben der Maschine oder Anlage installiert. Er ist ins OT-Netz eingebunden, hat Zugriff auf OPC UA, Modbus oder MQTT und führt das Sprachmodell lokal aus.
Geeignet für: Einzelmaschinen, dezentrale Fertigung, Szenarien mit hohen Latenzanforderungen.
Voraussetzungen: Ausreichend dimensionierte GPU, industrietaugliche Bauform, gesicherter Zugang für Wartung und Updates.
Option 2: Edge-Gateway im Schaltschrank
Kompakte Edge-Geräte (z. B. Beckhoff CX-Serie, WAGO Edge-Controller, spezialisierte Industrial-Gateway-Hardware) werden im Schaltschrank installiert. Sie haben direkten Feldbus-Zugang und können leichtere Modelle lokal ausführen.
Geeignet für: Anwendungsfälle mit schlanken Modellen (bis 3 Milliarden Parameter), Szenarien mit Platzmangel.
Einschränkung: Die verfügbare Rechenleistung begrenzt die Modellgröße und damit die Leistungsfähigkeit des Agenten.
Option 3: On-Premise-LLM-Server
Ein zentraler Server im Werks- oder Unternehmensnetz betreibt das Sprachmodell und stellt es über interne APIs bereit. Mehrere Maschinen und Arbeitsplätze greifen auf diesen Server zu.
Geeignet für: Mehrere Maschinen oder Bereiche, die denselben Agenten nutzen sollen; leichter zu warten und zu aktualisieren als dezentrale Deployments.
Voraussetzungen: Zuverlässiges internes Netzwerk, ausreichend dimensionierter Server (typisch: 2x GPU mit je 24 GB VRAM für Modelle bis 34 Milliarden Parameter), Zugriffskontrolle auf den Inferenz-Endpunkt.
Welche Modelle laufen heute auf Edge-Hardware?
Die Modelllandschaft hat sich 2025/2026 erheblich verändert. Leistungsfähige Open-Weight-Modelle erreichen auf kompakter Hardware für industrielle Aufgaben ausreichende Qualität:
| Modell | Parametergröße | Typischer VRAM-Bedarf | Stärken für Industrieanwendungen |
|---|---|---|---|
| Llama 3.3 | 70 Mrd. (8-Bit) | ~40 GB | Starke Reasoning-Fähigkeiten, deutschsprachig |
| Llama 3.2 | 3 Mrd. | ~3 GB | Sehr ressourcenschonend, für einfache Aufgaben |
| Mistral Small 3 | 24 Mrd. | ~14 GB | Gute Balance aus Qualität und Ressourcenbedarf |
| Phi-4-mini | 3,8 Mrd. | ~4 GB | Effizient, gut für strukturierte Aufgaben |
| Qwen 3 | 7–32 Mrd. | 6–20 GB | Gute Mehrsprachigkeit, auch Deutsch |
| Gemma 3 | 4–27 Mrd. | 4–18 GB | Google-Basis, solide Allroundleistung |
Wichtig: “Passt auf Edge-Hardware” bedeutet nicht, dass das Modell für alle Aufgaben optimal ist. Für einfache Dokumentensuche, strukturierte Frage-Antwort-Paare und Fehlercode-Interpretation reichen 3-bis-7-Milliarden-Parameter-Modelle. Für komplexe Diagnosen oder mehrstufige Planungsaufgaben sind größere Modelle vorzuziehen.
Welche Hardware reicht?
Einsteiger: Industrie-PC mit GPU
- CPU: Intel Core i7 / AMD Ryzen 7 oder besser (aktuelle Generation)
- RAM: 32 GB DDR5
- GPU: NVIDIA RTX 4060 Ti (16 GB VRAM) oder RTX 4000 Ada
- Speicher: 512 GB NVMe SSD (Modelle + Vektordatenbank)
- Betriebssystem: Linux (Ubuntu 22.04 LTS oder ähnlich)
Einsatzbereich: Modelle bis 13 Milliarden Parameter (4-Bit-Quantisierung), dokumentenbasierte Assistenz, Fehlercode-Interpretation.
Mittlere Klasse: Workstation oder IPC mit Hochleistungs-GPU
- GPU: NVIDIA RTX 4090 (24 GB VRAM) oder 2× RTX 4000 Ada
- RAM: 64 GB
- Einsatzbereich: Modelle bis 34 Milliarden Parameter, komplexere Diagnose-Aufgaben.
Eingebettete Systeme: NVIDIA Jetson
- Jetson Orin Nano (8 GB): Für sehr schlanke Modelle (bis 3 Mrd. Parameter), platzsparend.
- Jetson Orin NX (16 GB): 7-Milliarden-Parameter-Modelle möglich, geringer Energieverbrauch (~20 W).
- Jetson AGX Orin (64 GB): Bis 13 Milliarden Parameter, für anspruchsvollere Edge-Szenarien.
Vorteil Jetson: Integrierter GPU-Speicher, niedriger Energieverbrauch, kompakter Formfaktor, industrietauglich.
Was muss im Werksnetz bleiben?
Folgende Datenkategorien sollten in den meisten industriellen Szenarien das Werksnetz nicht verlassen:
- Echtzeitige Sensordaten (Druck, Temperatur, Vibration, Strom)
- Produktionsparameter und Rezepturen
- Maschinenspezifische Kalibrierungsdaten
- Alarmhistorien und Wartungsaufzeichnungen
- Mitarbeiter-Interaktionen mit dem Agenten (enthalten oft implizit Produktionsinformationen)
Was unter Umständen die Cloud nutzen kann (nach individueller Risikobewertung):
- Aggregierte, anonymisierte Betriebskennzahlen
- Allgemeine Dokumentationsfragen ohne Bezug zu konkreten Produktionsdaten
- Software-Updates für den Agenten (nicht die Daten selbst)
Plattform-Beispiel: ForestHub.ai ist eine Plattform für Embedded und Edge AI Agents — für Maschinen, Sensoren, Controller und industrielle Edge-Geräte.
FAQ
Ist ein vollständig isoliertes (“air-gapped”) Werksnetz möglich? Ja. Wenn keine Verbindung nach außen besteht, muss der Edge-Agent mit allem ausgestattet werden, was er benötigt: lokale Kopien der Modelle, lokale Dokumentendatenbank, lokale Vektordatenbank. Updates erfolgen dann über physische Medien oder ein getrenntes Update-System. Das ist aufwändiger, aber technisch möglich.
Wie werden die Modelle ins Werk gebracht? Entweder über eine gesicherte Netzwerkverbindung (separates Management-VLAN, VPN) oder über physische Medien. Modell-Weights für aktuelle 7-Milliarden-Parameter-Modelle haben typisch 4 bis 8 GB Dateigröße.
Wie verhalte ich mich bei Software-Updates des Agenten? Updates sollten auf einem Test-System validiert werden, bevor sie in die Produktion gehen. Ein gesicherter Update-Kanal mit Signaturprüfung ist empfehlenswert. Details dazu in Cybersicherheit für Edge-Agenten.
Kann Offline-KI auch für Qualitätskontrolle (Bildverarbeitung) genutzt werden? Ja, aber das ist ein anderes Anwendungsfeld als sprachbasierte Assistenz. Bildverarbeitung (Computer Vision) nutzt in der Regel spezialisierte Modelle auf GPU-Hardware. Solche Systeme sind etablierter — KI-basierte Qualitätskontrolle wird in der deutschen Industrie bereits im Serieneinsatz genutzt.