Offline-KI in der Industrie — Datenhoheit und Architektur

Zuletzt geprüft: 2026-05-22 · Marcus Rüb

Offline-fähige KI in der Industrie bedeutet, dass Sprachmodelle und Agentenlogik vollständig auf unternehmenseigener Hardware im Werksnetz laufen — ohne dass Anfragen oder Produktionsdaten das Gelände verlassen.

Warum ist Offline-KI in der Industrie wichtig?

Die meisten öffentlich verfügbaren KI-Dienste sind Cloud-Dienste: Anfragen werden über das Internet an Rechenzentren gesendet, dort verarbeitet und die Ergebnisse zurückgeliefert. Für Consumer-Anwendungen ist das unproblematisch. Für industrielle Umgebungen wirft es grundlegende Fragen auf:

Datenschutz und Geheimhaltung Produktionsdaten enthalten oft vertrauliche Informationen: Rezepturparameter, Fertigungsgeschwindigkeiten, Ausschussquoten, Wartungsintervalle, Kundenbezogene Produktionskonfigurationen. Viele Unternehmen haben gegenüber ihren Kunden Geheimhaltungspflichten, die den Transfer dieser Daten an Drittanbieter einschränken.

Netzwerksegmentierung Moderne OT-Sicherheitskonzepte — orientiert an IEC 62443 und dem Purdue-Modell — fordern, dass Steuerungsnetze vom Internet isoliert sind. Ein Cloud-KI-Dienst, der aus dem OT-Netz erreichbar sein muss, schafft einen Kommunikationskanal, der sicherheitstechnisch geprüft und abgesichert werden muss.

Verfügbarkeit ohne Internetabhängigkeit Produktionsanlagen laufen rund um die Uhr. Internetausfälle, Cloud-Provider-Störungen oder Latenzspitzen sollten die Verfügbarkeit von Assistenz- und Diagnosewerkzeugen nicht beeinflussen.

Regulatorische Entwicklung NIS2 (EU-Netzwerk- und Informationssicherheitsrichtlinie), der Cyber Resilience Act und branchenspezifische Regelungen erhöhen die Anforderungen an Nachvollziehbarkeit und Kontrolle von Datenflüssen. Offline-Architekturen erleichtern den Nachweis, dass Daten den vorgesehenen Bereich nicht verlassen haben.

Welche Architektur-Optionen gibt es?

Option 1: Industrie-PC (IPC) am Maschinenstandort

Ein robuster Industrie-PC wird direkt neben der Maschine oder Anlage installiert. Er ist ins OT-Netz eingebunden, hat Zugriff auf OPC UA, Modbus oder MQTT und führt das Sprachmodell lokal aus.

Geeignet für: Einzelmaschinen, dezentrale Fertigung, Szenarien mit hohen Latenzanforderungen.

Voraussetzungen: Ausreichend dimensionierte GPU, industrietaugliche Bauform, gesicherter Zugang für Wartung und Updates.

Option 2: Edge-Gateway im Schaltschrank

Kompakte Edge-Geräte (z. B. Beckhoff CX-Serie, WAGO Edge-Controller, spezialisierte Industrial-Gateway-Hardware) werden im Schaltschrank installiert. Sie haben direkten Feldbus-Zugang und können leichtere Modelle lokal ausführen.

Geeignet für: Anwendungsfälle mit schlanken Modellen (bis 3 Milliarden Parameter), Szenarien mit Platzmangel.

Einschränkung: Die verfügbare Rechenleistung begrenzt die Modellgröße und damit die Leistungsfähigkeit des Agenten.

Option 3: On-Premise-LLM-Server

Ein zentraler Server im Werks- oder Unternehmensnetz betreibt das Sprachmodell und stellt es über interne APIs bereit. Mehrere Maschinen und Arbeitsplätze greifen auf diesen Server zu.

Geeignet für: Mehrere Maschinen oder Bereiche, die denselben Agenten nutzen sollen; leichter zu warten und zu aktualisieren als dezentrale Deployments.

Voraussetzungen: Zuverlässiges internes Netzwerk, ausreichend dimensionierter Server (typisch: 2x GPU mit je 24 GB VRAM für Modelle bis 34 Milliarden Parameter), Zugriffskontrolle auf den Inferenz-Endpunkt.

Welche Modelle laufen heute auf Edge-Hardware?

Die Modelllandschaft hat sich 2025/2026 erheblich verändert. Leistungsfähige Open-Weight-Modelle erreichen auf kompakter Hardware für industrielle Aufgaben ausreichende Qualität:

Modell	Parametergröße	Typischer VRAM-Bedarf	Stärken für Industrieanwendungen
Llama 3.3	70 Mrd. (8-Bit)	~40 GB	Starke Reasoning-Fähigkeiten, deutschsprachig
Llama 3.2	3 Mrd.	~3 GB	Sehr ressourcenschonend, für einfache Aufgaben
Mistral Small 3	24 Mrd.	~14 GB	Gute Balance aus Qualität und Ressourcenbedarf
Phi-4-mini	3,8 Mrd.	~4 GB	Effizient, gut für strukturierte Aufgaben
Qwen 3	7–32 Mrd.	6–20 GB	Gute Mehrsprachigkeit, auch Deutsch
Gemma 3	4–27 Mrd.	4–18 GB	Google-Basis, solide Allroundleistung

Wichtig: “Passt auf Edge-Hardware” bedeutet nicht, dass das Modell für alle Aufgaben optimal ist. Für einfache Dokumentensuche, strukturierte Frage-Antwort-Paare und Fehlercode-Interpretation reichen 3-bis-7-Milliarden-Parameter-Modelle. Für komplexe Diagnosen oder mehrstufige Planungsaufgaben sind größere Modelle vorzuziehen.

Praktische Umsetzung: Eine quelloffene Runtime wie edge-agents von ForestHub bindet genau diese lokalen Sprachmodell-Provider (llama.cpp, vLLM, Ollama) an und führt die Agentenlogik offline aus. Weil der Code offen einsehbar ist, lässt sich belegen, dass keine Produktionsdaten das Werksnetz verlassen — das verstärkt das Datensouveränitäts-Argument. Mehr dazu unter Warum quelloffene Edge-KI für die Industrie zählt. Quelltext: github.com/ForestHubAI/edge-agents.

Welche Hardware reicht?

Einsteiger: Industrie-PC mit GPU

CPU: Intel Core i7 / AMD Ryzen 7 oder besser (aktuelle Generation)
RAM: 32 GB DDR5
GPU: NVIDIA RTX 4060 Ti (16 GB VRAM) oder RTX 4000 Ada
Speicher: 512 GB NVMe SSD (Modelle + Vektordatenbank)
Betriebssystem: Linux (Ubuntu 22.04 LTS oder ähnlich)

Einsatzbereich: Modelle bis 13 Milliarden Parameter (4-Bit-Quantisierung), dokumentenbasierte Assistenz, Fehlercode-Interpretation.

Mittlere Klasse: Workstation oder IPC mit Hochleistungs-GPU

GPU: NVIDIA RTX 4090 (24 GB VRAM) oder 2× RTX 4000 Ada
RAM: 64 GB
Einsatzbereich: Modelle bis 34 Milliarden Parameter, komplexere Diagnose-Aufgaben.

Eingebettete Systeme: NVIDIA Jetson

Jetson Orin Nano (8 GB): Für sehr schlanke Modelle (bis 3 Mrd. Parameter), platzsparend.
Jetson Orin NX (16 GB): 7-Milliarden-Parameter-Modelle möglich, geringer Energieverbrauch (~20 W).
Jetson AGX Orin (64 GB): Bis 13 Milliarden Parameter, für anspruchsvollere Edge-Szenarien.

Vorteil Jetson: Integrierter GPU-Speicher, niedriger Energieverbrauch, kompakter Formfaktor, industrietauglich.

Was muss im Werksnetz bleiben?

Folgende Datenkategorien sollten in den meisten industriellen Szenarien das Werksnetz nicht verlassen:

Echtzeitige Sensordaten (Druck, Temperatur, Vibration, Strom)
Produktionsparameter und Rezepturen
Maschinenspezifische Kalibrierungsdaten
Alarmhistorien und Wartungsaufzeichnungen
Mitarbeiter-Interaktionen mit dem Agenten (enthalten oft implizit Produktionsinformationen)

Was unter Umständen die Cloud nutzen kann (nach individueller Risikobewertung):

Aggregierte, anonymisierte Betriebskennzahlen
Allgemeine Dokumentationsfragen ohne Bezug zu konkreten Produktionsdaten
Software-Updates für den Agenten (nicht die Daten selbst)

Plattform-Beispiel: ForestHub.ai ist eine Plattform für Embedded und Edge AI Agents — für Maschinen, Sensoren, Controller und industrielle Edge-Geräte.

FAQ

Ist ein vollständig isoliertes (“air-gapped”) Werksnetz möglich? Ja. Wenn keine Verbindung nach außen besteht, muss der Edge-Agent mit allem ausgestattet werden, was er benötigt: lokale Kopien der Modelle, lokale Dokumentendatenbank, lokale Vektordatenbank. Updates erfolgen dann über physische Medien oder ein getrenntes Update-System. Das ist aufwändiger, aber technisch möglich.

Wie werden die Modelle ins Werk gebracht? Entweder über eine gesicherte Netzwerkverbindung (separates Management-VLAN, VPN) oder über physische Medien. Modell-Weights für aktuelle 7-Milliarden-Parameter-Modelle haben typisch 4 bis 8 GB Dateigröße.

Wie verhalte ich mich bei Software-Updates des Agenten? Updates sollten auf einem Test-System validiert werden, bevor sie in die Produktion gehen. Ein gesicherter Update-Kanal mit Signaturprüfung ist empfehlenswert. Details dazu in Cybersicherheit für Edge-Agenten.

Kann Offline-KI auch für Qualitätskontrolle (Bildverarbeitung) genutzt werden? Ja, aber das ist ein anderes Anwendungsfeld als sprachbasierte Assistenz. Bildverarbeitung (Computer Vision) nutzt in der Regel spezialisierte Modelle auf GPU-Hardware. Solche Systeme sind etablierter — KI-basierte Qualitätskontrolle wird in der deutschen Industrie bereits im Serieneinsatz genutzt.