HOSTED AI
IN ÖSTERREICH:
LLM-INFERENZ
OHNE HYPERSCALER.
Unsere Hosted-AI-Plattform ist live. GPU-Cluster in Graz und Wien, Open-Weight-Modelle (Llama, Qwen, Mistral, DeepSeek), OpenAI-kompatible API. Was bei uns anders ist und wofür wir das gebaut haben — ehrlich, ohne KI-Marketing-Sprech.
Eine ehrliche Vorbemerkung: Wir verkaufen keine Magie. Wir verkaufen GPUs in unseren österreichischen Datacentern, eine ordentlich gehärtete Inferenz-Plattform und eine API, die so aussieht wie die, die Sie wahrscheinlich schon kennen. Was wir aber haben: Klarheit, wo Ihre Daten sind, und mit wem Sie reden, wenn etwas nicht funktioniert.
01 WARUM ÖSTERREICH-ONLY
Wir betreiben unsere Hosted-AI-Plattform ausschließlich in unseren Datacentern in Graz und Wien. Keine Replikation in die USA, kein „regional residency, aber Logging in Virginia", keine US-Mutterkonzern-Klausel. Wenn Sie unsere API aufrufen, wird Ihr Prompt auf einer GPU in Österreich verarbeitet, das Ergebnis kommt zurück, und damit ist es vorbei. Kein Trainings-Mining, keine Schatten-Logs, keine Cross-Region-Replikation.
Das klingt selbstverständlich, ist aber in der Praxis bei Hyperscalern oft nicht so einfach. Wer mit sensiblen Daten arbeitet — Akten, Patientendaten, anwaltliche Korrespondenz, Konstruktionspläne — kennt das Problem.
„Wir wollten Sprachmodelle nutzen, aber unsere Compliance hat uns drei Monate lang nicht freigegeben. Bei EGW hatten wir die Freigabe in zwei Wochen, weil der Datenfluss komplett dokumentierbar ist."
02 WELCHE MODELLE LAUFEN
Wir setzen auf Open-Weight-Modelle, weil sie kontrollierbar sind und weil wir sie auf unserer Hardware betreiben können, ohne Cloud-Abhängigkeit:
- Llama-Familie — von kleinen Instruct-Modellen bis zum 70B-Parameter-Setup für anspruchsvollere Aufgaben.
- Qwen — sehr stark bei mehrsprachigen Aufgaben, insbesondere wenn Deutsch und Englisch gemischt werden.
- Mistral — kompakte Modelle, die für viele Standard-Anwendungen genau die richtige Größe haben.
- DeepSeek — für komplexere Reasoning-Aufgaben und Coding-Assistenz.
Jedes Modell läuft in einer eigenen, isolierten Instanz pro Kunde. Kein Multi-Tenancy auf der Tokenebene.
03 WIE SIE ZUGREIFEN
Unsere API spricht das gleiche Format wie OpenAI. Das heißt: Wenn Ihre Anwendung schon mit OpenAI redet, ändern Sie einen Endpoint und einen Key — fertig.
# Beispiel: Chat-Completion curl https:///v1/chat/completions \ -H "Authorization: Bearer $EGW_AI_KEY" \ -H "Content-Type: application/json" \ -d '{ "model": "llama-3.3-70b-at", "messages": [{"role":"user","content":"Erkläre NIS2 in einem Satz."}], "temperature": 0.2 }'
Wir unterstützen Chat-Completions, Embeddings und (in Beta) Function-Calling. Streaming-Antworten ja. Tools wie LangChain, llama.cpp, oder eigene Python-Skripte — alles, was OpenAI-kompatibel ist, läuft sofort.
04 DSGVO-RAHMEN
Wir sind kein Auftragsverarbeiter im Sinne eines Modell-Trainers, sondern ein klassischer Hosting-Dienstleister. Das vereinfacht den Vertrag erheblich:
- Standardvertrag nach Art. 28 DSGVO.
- Kein Trans-Atlantic-Datenfluss, keine Standardvertragsklauseln mit US-Drittländern.
- Kein Trainings-Recht auf Ihre Prompts oder Antworten.
- Logging auf das Notwendige für Betrieb und Abrechnung, mit konfigurierbarer Retention.
WICHTIGE EINORDNUNG
Wir machen die technische Umsetzung. Ihre Datenschutz-Folgenabschätzung, Auftragsverarbeitungs-Vertrag und Compliance-Strategie bleiben bei Ihrem Datenschutzbeauftragten. Wir liefern aber alle Informationen, die er für eine schnelle Bewertung braucht.
05 WAS DAS KOSTET
Wir rechnen pro Million Tokens ab, nicht pro Stunde GPU. Das ist transparenter und meist günstiger als reine GPU-Miete für die meisten Anwendungsfälle.
Auf Wunsch reservieren wir Kapazität für Ihre Workloads — dann zahlen Sie eine monatliche Reservation und haben garantierte Token-Limits. Für Prototypen und kleinere Anwendungen reicht Pay-per-Use.
06 WIE SIE STARTEN
Drei Wege:
- Sandbox — wir geben Ihnen einen Test-Key mit kleinem Budget, damit Sie selber probieren können. Innerhalb von einem Werktag.
- Workshop — wir kommen in Ihr Haus, schauen uns einen konkreten Use-Case an und bauen einen Prototypen.
- Migration — Sie haben schon einen produktiven Use-Case bei einem Hyperscaler? Wir helfen beim Umzug, inkl. Modell-Auswahl und API-Kompatibilität.
Mail an sales@egw-telekom.at — wir lesen jede Anfrage persönlich.