Hosted AI in Austria: Souveräne LLM-Inferenz live

Eine Vorbemerkung: Wir betreiben GPUs in unseren österreichischen Datacentern, eine gehärtete Inferenz-Plattform und eine API im OpenAI-Format. Der Unterschied: Sie wissen, wo Ihre Daten liegen und mit wem Sie reden, wenn etwas klemmt.

01 WARUM ÖSTERREICH-ONLY

Wir betreiben unsere Hosted-AI-Plattform ausschließlich in unseren Datacentern in Graz und Wien. Keine Replikation in die USA, kein „regional residency, aber Logging in Virginia", keine US-Mutterkonzern-Klausel. Wenn Sie unsere API aufrufen, wird Ihr Prompt auf einer GPU in Österreich verarbeitet, das Ergebnis kommt zurück, und damit ist es vorbei. Kein Trainings-Mining, keine Schatten-Logs, keine Cross-Region-Replikation.

Das klingt selbstverständlich, ist aber in der Praxis bei Hyperscalern oft nicht so einfach. Wer mit sensiblen Daten arbeitet (Akten, Patientendaten, anwaltliche Korrespondenz, Konstruktionspläne) kennt das Problem.

„Wir wollten Sprachmodelle nutzen, aber unsere Compliance hat uns drei Monate lang nicht freigegeben. Bei EGW hatten wir die Freigabe in zwei Wochen, weil der Datenfluss komplett dokumentierbar ist."
IT-Leitung, Rechtsbranche, anonymisiert

02 WELCHE MODELLE LAUFEN

Wir setzen auf Open-Weight-Modelle, weil sie kontrollierbar sind und weil wir sie auf unserer Hardware betreiben können, ohne Cloud-Abhängigkeit:

Llama-Familie: von kleinen Instruct-Modellen bis zum 70B-Parameter-Setup für anspruchsvollere Aufgaben.
Qwen: sehr stark bei mehrsprachigen Aufgaben, insbesondere wenn Deutsch und Englisch gemischt werden.
Mistral: kompakte Modelle, die für viele Standard-Anwendungen genau die richtige Größe haben.
DeepSeek: für komplexere Reasoning-Aufgaben und Coding-Assistenz.

Jedes Modell läuft in einer pro Kunde isolierten Instanz. Prompts verschiedener Kunden werden nicht im selben Batch verarbeitet.

03 WIE SIE ZUGREIFEN

Unsere API spricht das gleiche Format wie OpenAI. Das heißt: Wenn Ihre Anwendung schon mit OpenAI redet, ändern Sie einen Endpoint und einen Key. Fertig.

# Beispiel: Chat-Completion
curl https:///v1/chat/completions \
  -H "Authorization: Bearer $EGW_AI_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "llama-3.3-70b-at",
    "messages": [{"role":"user","content":"Erkläre NIS2 in einem Satz."}],
    "temperature": 0.2
  }'

Wir unterstützen Chat-Completions, Embeddings und (in Beta) Function-Calling. Streaming-Antworten ja. Tools wie LangChain, das OpenAI-Python-SDK oder eigene Skripte laufen sofort, weil alles OpenAI-kompatibel ist.

04 DSGVO-RAHMEN

Wir sind kein Auftragsverarbeiter im Sinne eines Modell-Trainers, sondern ein klassischer Hosting-Dienstleister. Das vereinfacht den Vertrag erheblich:

Standardvertrag nach Art. 28 DSGVO.
Kein Trans-Atlantic-Datenfluss, keine Standardvertragsklauseln mit US-Drittländern.
Kein Trainings-Recht auf Ihre Prompts oder Antworten.
Logging auf das Notwendige für Betrieb und Abrechnung, mit konfigurierbarer Retention.

WICHTIGE EINORDNUNG

Wir machen die technische Umsetzung. Ihre Datenschutz-Folgenabschätzung, Auftragsverarbeitungs-Vertrag und Compliance-Strategie bleiben bei Ihrem Datenschutzbeauftragten. Wir liefern aber alle Informationen, die er für eine schnelle Bewertung braucht.

Prompt rein, Antwort raus. Was nicht passiert: Replikation, Training, Schatten-Logs.

05 WAS DAS KOSTET

Wir rechnen pro Million Tokens ab, nicht pro Stunde GPU. Das ist transparenter und meist günstiger als reine GPU-Miete für die meisten Anwendungsfälle.

Auf Wunsch reservieren wir Kapazität für Ihre Workloads: dann zahlen Sie eine monatliche Reservation und haben garantierte Token-Limits. Für Prototypen und kleinere Anwendungen reicht Pay-per-Use.

06 WIE SIE STARTEN

Drei Wege:

Sandbox: wir geben Ihnen einen Test-Key mit kleinem Budget, damit Sie selber probieren können. Innerhalb eines Werktags.
Workshop: wir kommen in Ihr Haus, schauen uns einen konkreten Use-Case an und bauen einen Prototypen.
Migration: Sie haben schon einen produktiven Use-Case bei einem Hyperscaler? Wir helfen beim Umzug, inkl. Modell-Auswahl und API-Kompatibilität.

Mail an sales@egw-telekom.at. Jede Anfrage wird persönlich gelesen.

HOSTED AI
IN ÖSTERREICH:
LLM-INFERENZ
OHNE HYPERSCALER.

01 WARUM ÖSTERREICH-ONLY

02 WELCHE MODELLE LAUFEN

03 WIE SIE ZUGREIFEN

04 DSGVO-RAHMEN

WICHTIGE EINORDNUNG

05 WAS DAS KOSTET

06 WIE SIE STARTEN

WEITERE ENGINEERING-NOTES.

HOSTED AI IN ÖSTERREICH: LLM-INFERENZ OHNE HYPERSCALER.

01 WARUM ÖSTERREICH-ONLY

02 WELCHE MODELLE LAUFEN

03 WIE SIE ZUGREIFEN

04 DSGVO-RAHMEN

WICHTIGE EINORDNUNG

05 WAS DAS KOSTET

06 WIE SIE STARTEN

WEITERE ENGINEERING-NOTES.

MAC-BASIERTE ZUGANGSKONTROLLE OHNE 802.1X-DRAMA

ARGOCD IM PRODUKTIVBETRIEB: DREI PLATTFORMEN PARALLEL

HARDWARE-PORTFOLIO ERWEITERT: VOM ARBEITSPLATZ BIS ZUM SAN

HOSTED AI
IN ÖSTERREICH:
LLM-INFERENZ
OHNE HYPERSCALER.