ai16. November 202512 Min. Lesezeit

Open WebUI: Ihre eigene KI-Oberflaeche lokal und in der Cloud betreiben

Einrichtung von Open WebUI fuer lokale Entwicklung und Cloud-Deployment — Vergleich von selbst gehosteten KI-Oberflaechen mit kommerziellen Alternativen.

open-webuiself-hostedai

Open WebUI: Ihre eigene KI-Oberflaeche lokal und in der Cloud betreiben

Jeder Entwickler, den ich kenne, hat zu jedem Zeitpunkt mindestens drei KI-Chat-Tabs offen. ChatGPT fuer eine Sache, Claude fuer eine andere, vielleicht ein Gemini-Fenster fuer multimodale Aufgaben. Jedes hat seine eigene Konversationshistorie, seinen eigenen Kontext, seine eigene Abrechnung. Das Wechseln zwischen ihnen ist Reibung, die man nicht mehr bemerkt, bis sie weg ist.

Open WebUI eliminiert diese Reibung. Es ist eine selbst gehostete Oberflaeche, die sich mit mehreren KI-Backends verbindet — lokale Modelle ueber Ollama, Cloud-APIs wie OpenAI und Anthropic, oder jeden OpenAI-kompatiblen Endpoint. Eine Oberflaeche, eine Konversationshistorie, ein Ort fuer alles. Und weil Sie es selbst hosten, verlassen Ihre Daten nie Ihre Infrastruktur, es sei denn, Sie senden sie explizit an eine Cloud-API.

Was Open WebUI ist

Open WebUI (frueher Ollama WebUI) ist eine Open-Source, selbst gehostete Web-Oberflaeche fuer die Interaktion mit grossen Sprachmodellen. Es begann als Frontend fuer Ollama — das Tool, das LLMs lokal ausfuehrt — hat sich aber zu einer vollwertigen KI-Plattform entwickelt, die Folgendes unterstuetzt:

Mehrere Modell-Backends (Ollama, OpenAI, Anthropic, jede OpenAI-kompatible API)
Konversationshistorie mit Suche und Organisation
RAG (Retrieval-Augmented Generation) mit Dokumenten-Uploads
Benutzerdefinierte Modell-Presets und System-Prompts
Benutzerverwaltung und Team-Zugriffskontrollen
Function Calling und Tool-Nutzung
Bildgenerierungs-Integration
Spracheingabe und -ausgabe

Es ist kein Spielzeugprojekt. Die Oberflaeche ist ausgereift, der Funktionsumfang ist umfassend und die Community ist aktiv. Zum Zeitpunkt des Schreibens hat das GitHub-Repository ueber 75.000 Sterne und einen Release-Rhythmus von ungefaehr alle zwei Wochen.

Das eigentliche Wertversprechen ist Kontrolle. Sie entscheiden, wo es laeuft, mit welchen Modellen es sich verbindet, wer Zugang hat und wohin die Daten gehen. Fuer Entwickler, die mit sensiblem Code, proprietaeren Geschaeftsdaten oder regulierten Branchen arbeiten, ist das wichtiger als jeder Feature-Vergleich.

Lokales Setup mit Docker

Der schnellste Weg, Open WebUI lokal zum Laufen zu bringen, ist Docker. Ein Befehl, keine Abhaengigkeiten zu installieren, keine Konfigurationsdateien zu schreiben:

docker run -d \
  -p 3000:8080 \
  -v open-webui:/app/backend/data \
  --name open-webui \
  ghcr.io/open-webui/open-webui:main

Das war es. Oeffnen Sie http://localhost:3000 in Ihrem Browser, erstellen Sie ein Admin-Konto und Sie haben eine funktionierende KI-Oberflaeche. Das -v open-webui:/app/backend/data-Flag erstellt ein Docker-Volume fuer persistenten Speicher — Ihre Konversationen, Einstellungen und hochgeladenen Dokumente ueberstehen Container-Neustarts.

Verbindung mit Ollama

Um lokale Modelle zu verwenden, muss Ollama auf Ihrem Rechner laufen. Installieren Sie es von ollama.com, dann laden Sie ein Modell:

ollama pull llama3.1
ollama pull codellama
ollama pull mistral

Wenn Open WebUI und Ollama auf demselben Rechner laufen, erkennt Open WebUI automatisch Ollama unter http://host.docker.internal:11434 (auf macOS und Windows) oder http://localhost:11434 (auf Linux mit --network host).

Fuer Linux benoetigt der Docker-Befehl den Host-Netzwerkmodus, um Ollama zu erreichen:

docker run -d \
  -p 3000:8080 \
  --network host \
  -v open-webui:/app/backend/data \
  --name open-webui \
  ghcr.io/open-webui/open-webui:main

Sobald verbunden, erscheint jedes Modell, das Sie in Ollama geladen haben, im Modell-Dropdown in Open WebUI. Sie koennen waehrend einer Konversation zwischen ihnen wechseln, Ausgaben vergleichen und modellspezifische System-Prompts setzen.

Verbindung mit Cloud-APIs

Open WebUI verbindet sich auch mit Cloud-Modellanbietern. In den Admin-Einstellungen unter "Connections" fuegen Sie Ihre API-Keys hinzu:

OpenAI: Fuegen Sie Ihren API-Key hinzu und alle GPT-Modelle werden verfuegbar
Anthropic: Fuegen Sie Ihren API-Key fuer Claude-Modelle hinzu (ueber einen OpenAI-kompatiblen Proxy oder direkte Integration, je nach Version)
Benutzerdefinierte Endpoints: Jeder Service, der eine OpenAI-kompatible API bereitstellt — Azure OpenAI, Together AI, Groq, lokale vLLM-Instanzen

Hier wird Open WebUI wirklich nuetzlich als taeglicher Begleiter. Sie bekommen eine Oberflaeche fuer lokale Llama-Modelle (kostenlos, privat, gut zum Experimentieren) und Cloud-Modelle (leistungsfaehiger, nutzungsbasierte Abrechnung). Die Kontextwechsel-Kosten sinken auf null — Sie aendern einfach das Modell im Dropdown.

Docker Compose fuer einen vollstaendigen Stack

Fuer ein robusteres lokales Setup verwenden Sie Docker Compose, um Open WebUI und Ollama zusammen auszufuehren:

# docker-compose.yml
version: "3.8"

services:
  ollama:
    image: ollama/ollama
    container_name: ollama
    ports:
      - "11434:11434"
    volumes:
      - ollama-data:/root/.ollama
    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              count: all
              capabilities: [gpu]

  open-webui:
    image: ghcr.io/open-webui/open-webui:main
    container_name: open-webui
    ports:
      - "3000:8080"
    volumes:
      - open-webui-data:/app/backend/data
    environment:
      - OLLAMA_BASE_URL=http://ollama:11434
    depends_on:
      - ollama

volumes:
  ollama-data:
  open-webui-data:

docker compose up -d

Der GPU-Reservierungsabschnitt ist optional — entfernen Sie ihn, wenn Sie nur auf CPU laufen. Auf Apple Silicon Macs nutzt Ollama automatisch das Metal GPU-Framework ohne Docker-GPU-Passthrough (fuehren Sie Ollama nativ auf macOS aus fuer die beste Performance).

Cloud-Deployment-Optionen

Open WebUI lokal auszufuehren ist hervorragend fuer die individuelle Nutzung. Aber wenn Ihr Team darauf zugreifen soll, oder wenn Sie es von jedem Geraet aus nutzen wollen, brauchen Sie ein Cloud-Deployment.

VPS-Deployment (Hetzner, DigitalOcean etc.)

Der einfachste Cloud-Pfad ist ein VPS mit installiertem Docker. Ein 20-$/Monat-Server von Hetzner oder DigitalOcean reicht fuer die Open WebUI-Oberflaeche selbst. Wenn Sie auch Modelle auf dem Server ausfuehren moechten, brauchen Sie eine GPU-Instanz (50-150 $/Monat je nach GPU).

# On your VPS
apt update && apt install docker.io docker-compose-plugin -y

# Create docker-compose.yml (same as above, minus GPU reservation)
docker compose up -d

# Set up a reverse proxy with SSL
apt install nginx certbot python3-certbot-nginx -y

Nginx Reverse Proxy-Konfiguration:

server {
    server_name ai.yourdomain.com;

    location / {
        proxy_pass http://localhost:3000;
        proxy_http_version 1.1;
        proxy_set_header Upgrade $http_upgrade;
        proxy_set_header Connection "upgrade";
        proxy_set_header Host $host;
        proxy_set_header X-Real-IP $remote_addr;
        proxy_set_header X-Forwarded-For $proxy_add_x_forwarded_for;
        proxy_set_header X-Forwarded-Proto $scheme;
    }
}

Dann certbot --nginx -d ai.yourdomain.com fuer kostenloses SSL von Let's Encrypt. Sie haben jetzt eine private, SSL-gesicherte KI-Oberflaeche, die von ueberall zugaenglich ist.

Railway / Fly.io Deployment

Fuer ein verwaltetes Deployment ohne Serveradministration:

# Using Railway
railway login
railway init
railway up

Oder mit Fly.io:

fly launch --image ghcr.io/open-webui/open-webui:main
fly secrets set OLLAMA_BASE_URL=http://your-ollama-server:11434
fly deploy

Diese Plattformen uebernehmen SSL, Skalierung und Neustarts automatisch. Der Kompromiss ist weniger Kontrolle ueber die Infrastruktur und hoehere Kosten bei Skalierung im Vergleich zu einem VPS.

Architekturentscheidung: Wo die Modelle laufen

Die wichtigste architektonische Entscheidung fuer Cloud-Deployments ist, ob Modelle auf demselben Server wie Open WebUI laufen oder ob Sie sich mit externen API-Anbietern verbinden.

Gleicher Server: Niedrigere Latenz, keine API-Kosten pro Token, vollstaendige Datenschutz. Aber Sie brauchen einen GPU-ausgestatteten Server (100-300 $/Monat fuer eine angemessene GPU-Instanz), und die Modellauswahl ist durch Ihre Hardware begrenzt.

Nur externe APIs: Keine GPU noetig, Zugang zu den besten Modellen aller Anbieter, Bezahlung pro Token. Der Open WebUI-Server ist leichtgewichtig und guenstig zu hosten. Aber jede Konversation geht ueber eine Drittanbieter-API, und die Kosten skalieren mit der Nutzung.

Hybrid: Ein lokales Modell fuer Routineaufgaben und datenschutzsensible Arbeit ausfuehren, Cloud-APIs fuer Aufgaben verbinden, die leistungsfaehigere Modelle erfordern. Das ist, was ich verwende — Llama 3.1 fuer schnelle Fragen und Code-Completion, wo Datenschutz wichtig ist, Claude oder GPT-4o fuer komplexe Reasoning- und Generierungsaufgaben.

Vergleich mit kommerziellen Oberflaechen

ChatGPT Plus (20 $/Monat)

ChatGPT gibt Ihnen GPT-4o, DALL-E-Integration, Browsing, Code Interpreter und benutzerdefinierte GPTs. Die Oberflaeche ist ausgereift und die Mobile App ist ausgezeichnet.

Wo Open WebUI gewinnt: Modellflexibilitaet (Sie sind nicht auf OpenAI beschraenkt), Datenschutz (Konversationen bleiben auf Ihrem Server), Anpassbarkeit (benutzerdefinierte System-Prompts, RAG-Pipelines, Function Calling). Keine Nutzungsbegrenzungen bei lokalen Modellen.

Wo ChatGPT gewinnt: Native Tool-Integrationen, Code Interpreter Sandbox, mobiles Erlebnis, kein Setup. Das Plugins- und GPT-Store-Oekosystem hat kein Aequivalent in Open WebUI.

Fazit: ChatGPT Plus ist fuer nicht-technische Nutzer, die ein sofort einsatzbereites Erlebnis wollen, schwer zu schlagen. Open WebUI ist besser fuer Entwickler, die Kontrolle und Flexibilitaet wollen.

Claude Pro (20 $/Monat)

Claude Pro gibt Ihnen Claude Sonnet und Opus Modelle mit erweiterten Kontextfenstern, Artifact-Erstellung und Projects mit persistentem Kontext. Claudes Instruktionsbefolgung und Verarbeitung langer Dokumente sind Best-in-Class.

Wo Open WebUI gewinnt: Sie koennen Claude-Modelle weiterhin ueber die API verwenden und gleichzeitig Zugang zu jedem anderen Modell haben. Sie besitzen Ihre Konversationshistorie. Sie koennen RAG und benutzerdefinierte Tools hinzufuegen.

Wo Claude gewinnt: Das Projects-Feature mit persistentem Kontext, das Artifact-System fuer Code und Dokumente, die native Darstellung von Denkprozessen. Diese sind tief in Claudes Oberflaeche integriert und haben kein Aequivalent in Open WebUI.

Fazit: Wenn Claude Ihr primaeres Modell ist, ist die native Oberflaeche schwer zu verlassen. Open WebUI ist besser als einheitliche Oberflaeche, wenn Sie mehrere Anbieter nutzen.

Fuer Teams

Der ueberzeugendste Fall fuer Open WebUI ist die Teamnutzung. Kommerzielle KI-Oberflaechen bieten Team-Plaene an, aber sie berechnen typischerweise pro Nutzer (25-30 $/Nutzer/Monat), Konversationen werden auf der Infrastruktur des Anbieters gespeichert und Sie koennen das Erlebnis nicht anpassen.

Open WebUI mit Team-Zugang gibt Ihnen: eine Hosting-Kosten unabhaengig von der Nutzerzahl, Konversationen auf Ihrer Infrastruktur gespeichert, benutzerdefinierte Modell-Presets pro Team oder Projekt, gemeinsame RAG-Dokumentensammlungen und Admin-Kontrollen darueber, welche Modelle und Features verfuegbar sind.

Fuer ein Team von 10 Entwicklern kosten kommerzielle KI-Chat-Abonnements 200-300 $/Monat. Eine selbst gehostete Open WebUI-Instanz mit Cloud-API-Zugang kostet 20-40 $/Monat fuer Hosting plus Pay-as-you-go API-Nutzung. Die Wirtschaftlichkeit verschiebt sich weiter zu Ihren Gunsten, wenn das Team waechst.

RAG-Pipeline-Setup

Retrieval-Augmented Generation ist eines der leistungsstarksten Features von Open WebUI. Laden Sie Dokumente hoch und die KI kann sie bei der Beantwortung von Fragen referenzieren. Das verwandelt Open WebUI von einem Allzweck-Chat in eine Wissensbasis, die Ihre spezifische Dokumentation, Codebasis oder Geschaeftsdaten versteht.

Dokumenten-Upload

Open WebUI unterstuetzt direkten Dokumenten-Upload ueber die Oberflaeche. Ziehen Sie ein PDF, eine Markdown-Datei oder eine Textdatei in den Chat und sie wird automatisch in Chunks aufgeteilt, eingebettet und fuer den Abruf indexiert. Die KI referenziert die hochgeladenen Dokumente bei der Beantwortung von Fragen.

Fuer die Massenaufnahme von Dokumenten verwenden Sie den Dokumentenverwaltungsbereich im Admin-Panel. Sie koennen Dokumente in Sammlungen organisieren und kontrollieren, welche Sammlungen in welchen Chats verfuegbar sind.

Embedding-Konfiguration

Open WebUI verwendet Embedding-Modelle, um Dokumente in Vektoren fuer die semantische Suche zu konvertieren. Standardmaessig verwendet es ein lokales Embedding-Modell, aber Sie koennen es so konfigurieren, dass es OpenAIs Embedding API fuer bessere Qualitaet verwendet:

In den Admin-Einstellungen unter "Documents" konfigurieren Sie:

Embedding-Modell: text-embedding-3-small (OpenAI) oder ein lokales Modell ueber Ollama
Chunk-Groesse: 1000 Tokens (Standard, anpassen basierend auf Ihren Dokumenten)
Chunk-Ueberlappung: 100 Tokens (hilft, Kontext ueber Chunks hinweg zu erhalten)
Top K: 5 (Anzahl der relevanten Chunks, die pro Anfrage abgerufen werden)

Praktische RAG-Anwendungsfaelle

Codebasis-Dokumentation: Laden Sie die README Ihres Projekts, Architektur-Docs und API-Dokumentation hoch. Stellen Sie der KI Fragen zu Ihrem eigenen Projekt und erhalten Sie Antworten, die auf Ihren tatsaechlichen Docs basieren, statt auf dem allgemeinen Trainingswissen des Modells.

Meeting-Notizen und Entscheidungen: Laden Sie Meeting-Transkripte und Entscheidungsprotokolle hoch. "Was wurde letzte Woche zur Datenbankmigrationsplanung beschlossen?" erhaelt eine genaue Antwort statt einer halluzinierten.

Forschungsarbeiten und technische Spezifikationen: Laden Sie PDFs von Papers oder Spezifikationen hoch, mit denen Sie arbeiten. Die KI kann zusammenfassen, vergleichen und Fragen zu Inhalten beantworten, die nicht in ihren Trainingsdaten enthalten sind.

Die Qualitaet der RAG-Antworten haengt stark von der Dokumenten-Chunking- und Embedding-Qualitaet ab. Wenn Antworten relevante Informationen zu verpassen scheinen, versuchen Sie, die Chunk-Groesse zu reduzieren (damit jeder Chunk fokussierter ist) oder Top K zu erhoehen (damit mehr Chunks abgerufen werden).

Benutzerdefinierte Modellkonfigurationen

Open WebUI ermoeglicht es Ihnen, Modell-Presets zu erstellen — gespeicherte Konfigurationen mit benutzerdefinierten System-Prompts, Temperatureinstellungen und Modellauswahlen. Das ist nuetzlich, um zweckspezifische Assistenten zu erstellen, ohne die zugrunde liegenden Modelle zu aendern.

Code-Review-Preset erstellen

In den Open WebUI-Einstellungen erstellen Sie ein neues Modell-Preset:

Name: Code Reviewer
Basismodell: Claude Sonnet (oder Ihr bevorzugtes Modell)
System-Prompt: "You are a senior code reviewer. Analyze the provided code for bugs, security issues, performance problems, and style violations. Be specific about line numbers and provide corrected code snippets. Prioritize issues by severity."
Temperatur: 0.3 (niedriger fuer konsistentere, fokussiertere Ausgabe)

Schreibassistent-Preset erstellen

Name: Technical Writer
Basismodell: GPT-4o
System-Prompt: "You are a technical writing assistant. Help draft clear, concise technical documentation. Use active voice. Avoid jargon unless the audience is technical. Structure content with headers, lists, and code examples where appropriate."
Temperatur: 0.7 (hoeher fuer kreativere Ausgabe)

Diese Presets erscheinen im Modell-Dropdown neben Ihren regulaeren Modellen. Sie wechseln zum "Code Reviewer"-Preset beim Code-Review und zum "Technical Writer" beim Verfassen von Dokumentation. Der System-Prompt wird automatisch angewendet.

Datenschutzvorteile

Das Datenschutzargument fuer selbst gehostete KI ist nicht theoretisch. Es hat konkrete Auswirkungen fuer verschiedene Anwendungsfaelle.

Sensitiver Code

Wenn Sie proprietaeren Code in ChatGPT oder Claude einfuegen, senden Sie ihn an einen Drittanbieter-Server. Die Anbieter haben Datenverarbeitungsrichtlinien — OpenAI und Anthropic geben beide an, dass sie nicht auf API-Daten trainieren — aber die Daten verlassen trotzdem Ihre Infrastruktur. Fuer Unternehmen mit strengen IP-Richtlinien, regulierten Branchen oder Regierungsauftraegen kann das ein Ausschlusskriterium sein.

Mit Open WebUI verbunden mit Ollama verlaesst Ihr Code nie Ihren Rechner. Das Modell laeuft lokal, die Inferenz geschieht lokal und die Konversationshistorie wird lokal gespeichert. Fuer Cloud-Deployments bleiben die Daten auf Ihrem Server.

Kundendaten

Wenn Sie Berater oder Agentur sind und mit Kundendaten arbeiten, schafft die Nutzung kommerzieller KI-Oberflaechen eine Datenverarbeitungsfrage, die Sie fuer jeden Kunden beantworten muessen. Selbst gehostetes Open WebUI gibt Ihnen eine klare Antwort: Die Daten bleiben in Ihrer Infrastruktur, unter Ihrer Kontrolle, Ihren Sicherheitsrichtlinien unterworfen.

Compliance

HIPAA, SOC 2, DSGVO — diese Frameworks kuemmern sich darum, wo Daten verarbeitet und gespeichert werden. Eine selbst gehostete KI-Oberflaeche auf Ihrer konformen Infrastruktur ist von Natur aus einfacher in Ihren Compliance-Umfang einzubeziehen als ein Drittanbieter-SaaS-Tool.

Das bedeutet nicht, dass lokal immer besser ist. Cloud-KI-APIs haben ihre eigenen Compliance-Zertifizierungen, und fuer viele Anwendungsfaelle ist die Compliance-Haltung der Enterprise-Angebote von OpenAI oder Anthropic staerker als das, was Sie selbst aufbauen koennen. Der Punkt ist, dass Self-Hosting Ihnen die Option gibt, wenn Sie sie brauchen.

Performance-Ueberlegungen

Lokale Modell-Performance

Lokale Modelausfuehrung bedeutet, dass Ihre Hardware das Erlebnis bestimmt. Hier sind grobe Benchmarks fuer Llama 3.1 8B:

Apple M1 Pro (16 GB RAM): ~15 Tokens/Sekunde — nutzbar fuer kurze Interaktionen
Apple M2 Ultra (64 GB RAM): ~40 Tokens/Sekunde — komfortabel fuer laengere Konversationen
NVIDIA RTX 4090: ~80 Tokens/Sekunde — nahezu sofortige Antworten
Nur CPU (keine GPU): ~2-5 Tokens/Sekunde — quaelend langsam, nicht empfohlen

Fuer groessere Modelle wie Llama 3.1 70B brauchen Sie mindestens 48 GB RAM (M2 Max oder besser auf dem Mac, oder eine Server-GPU). Die Qualitaetsverbesserung ist signifikant, aber die Hardwareanforderung ist hoch.

Latenzvergleich

Fuer Cloud-API-Verbindungen fuegt Open WebUI minimalen Overhead hinzu — typischerweise 10-30ms auf die native Latenz der API. Der Flaschenhals ist immer die Modellinferenz, nicht die Oberflaeche.

Fuer lokale Modelle ist die Latenz eine Funktion von Modellgroesse und Hardware. Die First-Token-Latenz (die Zeit, bis das Modell mit der Generierung beginnt) reicht von 100ms fuer kleine Modelle auf schneller Hardware bis zu mehreren Sekunden fuer grosse Modelle auf begrenzter Hardware. Streaming-Darstellung verbirgt das meiste davon vor dem Nutzer.

Wann selbst hosten vs. kommerzielle Loesungen nutzen

Selbst hosten wenn:

Sie mit sensiblen oder proprietaeren Daten arbeiten
Sie lokale Modelle aus Datenschutz- oder Kostengruenden nutzen moechten
Sie eine Team-KI-Oberflaeche ohne Pro-Nutzer-Lizenzierung benoetigen
Sie die RAG-Pipeline anpassen oder benutzerdefinierte Tools hinzufuegen moechten
Sie mehrere Modellanbieter nutzen und eine einheitliche Oberflaeche wollen

Kommerzielle Oberflaechen nutzen wenn:

Sie die engstmoegliche Integration mit einem bestimmten Modell brauchen (Claude Projects, ChatGPT Plugins)
Sie Mobile Apps und geraeteuebergreifende Synchronisation schaetzen
Sie keine Infrastruktur verwalten moechten
Ihr Anwendungsfall keine sensiblen Daten beinhaltet
Sie das ausgereifteste, feature-reichste Erlebnis brauchen

Fuer die meisten Entwickler ist die Antwort beides. Ich nutze Claudes native Oberflaeche fuer tiefe Arbeit, die von Claude Projects profitiert, ChatGPT fuer Aufgaben, die Code Interpreter brauchen, und Open WebUI fuer alles andere — besonders wenn ich lokale Modelle verwenden, Ausgaben anbieteruebergreifend vergleichen oder mit Dokumenten arbeiten moechte, die ich nicht an eine Cloud-API senden will.

Open WebUI geht nicht darum, kommerzielle Oberflaechen zu ersetzen. Es geht darum, die Option zu haben, Ihre KI-Infrastruktur zu kontrollieren, wenn diese Kontrolle wichtig ist. Das Setup dauert 30 Minuten. Die Datenschutz- und Flexibilitaetsvorteile sind dauerhaft.

Danil Ulmashev

Full Stack Developer

Interesse an einer Zusammenarbeit?

Kostenloses Gespräch buchen Projekte