Lokale KI wird bezahlbar: Macs schlagen Nvidia bei groĂźen LLMs. Was das fĂĽr Bildung, Forschung und Retail-Analytics in der Schweiz praktisch bedeutet.

Lokale KI: Warum Macs Nvidia im LLM-Test schlagen
86 Tokens pro Sekunde bei einem 120B-Sprachmodell – und das bei rund 120 Watt Leistungsaufnahme. Diese Zahl aus einem aktuellen Vergleich (19.12.2025) ist mehr als nur Nerd-Futter. Sie ist ein Signal: Lokale KI wird praktikabler, planbarer und wirtschaftlicher – auch jenseits klassischer Nvidia-Setups.
Für Schweizer Bildungs- und Forschungsorganisationen (und genauso für Retail-Teams, die nebenbei an Personalisierung oder Prognosen tüfteln) ist das eine echte Zäsur. Denn wer on-premise KI ernst nimmt – aus Datenschutzgründen, für stabile Kosten oder weil man nicht von Cloud-Änderungen abhängig sein will – steht immer vor derselben Frage: Welche Hardware liefert genug Speicher, Tempo und Effizienz, ohne das Budget zu sprengen?
Der spannende Punkt: In genau dem Szenario, das für viele KI-Projekte entscheidend ist – große lokale Sprachmodelle – spielen Apple-Silicon-Macs ihre Stärken aus. Bei Bild- und Videogenerierung sieht das Bild dagegen deutlich anders aus.
Was der Vergleich wirklich zeigt: Speicher schlägt „Rohleistung“
Die zentrale Erkenntnis lautet: Bei großen lokalen LLMs entscheidet weniger die reine Rechenpower, sondern die Kombination aus Speichergröße und Speicherbandbreite.
Das getestete Modell gpt-oss-120B benötigt rund 63 GB schnellen Speicher. Und genau hier scheitern viele „klassische“ Setups: Eine sehr starke Consumer-GPU bringt in der Regel maximal 24–32 GB VRAM mit. Klar, man kann ausweichen (Quantisierung, Offloading ins RAM, Multi-GPU). In der Praxis wird es dann aber schnell entweder langsam, teuer oder kompliziert.
Apple fährt seit Jahren einen anderen Ansatz: Unified Memory. CPU und GPU greifen auf denselben schnellen Speicherpool zu. Das ist kein Detail – für große lokale Modelle ist das oft der Unterschied zwischen „läuft richtig gut“ und „läuft irgendwie“.
Konkrete Messwerte, die man sich merken sollte
Im Vergleich wurden u. a. zwei Mac Studios gegen spezialisierte KI-Workstations getestet:
- Mac Studio M4 Max (128 GB Unified Memory): ca. 4.174 €
- Mac Studio M3 Ultra (512 GB Unified Memory): ca. 11.674 €
- GegenstĂĽcke: Nvidia DGX Spark sowie ein System auf Basis AMD Strix Halo
Bei gpt-oss-120B lagen die Apple-Rechner beim Prompt Processing bei 86 bzw. 82 Tokens/s – Bestwerte im Testfeld. Und der M4 Max sticht besonders heraus: hohe Geschwindigkeit bei nur ca. 120 Watt.
Merksatz: Für große lokale Sprachmodelle ist „Tokens pro Sekunde pro Watt“ oft die relevante Kennzahl – nicht Peak-TFLOPS.
Warum das für Bildung & Forschung in der Schweiz zählt
Im Kontext unserer Reihe „KI in Bildung und Forschung“ ist lokale KI nicht einfach ein Technik-Spielzeug. Sie löst drei sehr reale Probleme, die ich in Projekten immer wieder sehe:
- Datenschutz & Compliance: Forschungsdaten, Prüfungsleistungen, Lernstandsdiagnosen – vieles davon ist heikel. Lokale Modelle reduzieren Datenabflussrisiken.
- Planbarkeit: Cloud-Modelle ändern sich, werden teurer oder verschwinden. On-Premise heißt: gleiche Modelle, gleiche Ergebnisse, gleiche Workflows.
- Latenz & Verfügbarkeit: In Lehrsettings, Laboren oder Verwaltung zählt Zuverlässigkeit. Eine lokale „KI-Box“ läuft auch dann, wenn die Cloud gerade zickt.
Gerade in der Schweiz kommen dazu oft interne Vorgaben (Datenhaltung, Beschaffung, Auditierbarkeit). Lokale LLMs werden dadurch nicht nur attraktiv, sondern teilweise zur einzigen realistischen Option.
Praxisbeispiel (realistisch, aber ohne Marketing-Märchen)
Stellen wir uns eine Hochschule vor, die eine KI-gestĂĽtzte Lernplattform betreibt:
- automatische Zusammenfassungen von Vorlesungsskripten
- Tutor-Chat fĂĽr Fragen aus dem Kursmaterial
- Analyse typischer Fehlkonzepte (z. B. in Mathematik oder Programmierung)
Mit einem lokalen Modell kann das Team:
- Kursmaterial ohne Upload verarbeiten
- Antworten konsistenter halten (gleiche Modellversion)
- Kosten kontrollieren (keine Token-Abrechnung)
Und genau hier wird Hardware relevant: Wenn das Modell klein sein muss, weil der Speicher nicht reicht, leidet die Qualität. Wenn es groß sein darf, steigt die Antwortqualität – und damit der Nutzen im Lernalltag.
Der Retail-Transfer: Personalisierung & Nachfrageprognosen profitieren
Unsere Kampagne zielt auf KI im Einzelhandel und E-Commerce – und ja: Der Hardware-Befund aus dem LLM-Test ist direkt übertragbar.
Personalisierung und Demand Forecasting brauchen oft:
- schnelle Iterationen (Feature-Ideen testen, Prompts/Agents anpassen)
- Datenhoheit (Warenkorb-, Kunden-, Filialdaten)
- niedrige Betriebskosten (vor allem bei Dauerbetrieb)
Ein lokales LLM kann z. B.:
- Produktbeschreibungen und Varianten lokalisieren (CH-DE/FR/IT)
- Support-Tickets clustern und Ursachen erkennen
- Filialfeedback und Lieferantenmails automatisiert auswerten
- Forecast-Kommentare erklären („Warum steigt X in KW 03?“)
Der Punkt ist nicht „Mac statt Nvidia“. Der Punkt ist: Unified Memory macht große lokale Modelle für Teams erreichbar, die keine Serverfarm betreiben wollen.
Wo Apple aktuell (noch) verliert: Bild- und Videogenerierung
So klar die Apple-Stärke bei großen LLMs ist, so klar ist die Schwäche bei generativen Bild-/Video-Workflows.
Der Test mit ComfyUI zeigt ein sehr praktisches Hindernis: Viele aktuelle Pipelines setzen auf FP8 (8-Bit-Gleitkomma). Apple Silicon unterstützt FP8 in dieser Form nicht, wodurch Workflows oft auf FP16 umgestellt werden müssen – mit höherem Speicherverbrauch und weniger Tempo.
Die gemessenen Zeiten fĂĽr ein Standardbild mit Flux-Dev waren grob:
- M4 Max: ca. 110 s
- M3 Ultra: ca. 65 s
- DGX Spark: ca. 35 s
- RTX 4090: ca. 12 s
Das ist nicht „ein bisschen langsamer“, sondern ein anderer Leistungsbereich. Für Kreativ-Teams, Medienlabore oder E-Commerce-Content-Fabriken gilt deshalb weiterhin: Nvidia ist oft die unkompliziertere Wahl, weil viele Tools und Modelle stark auf CUDA optimiert sind.
Klartext: LLM-Workstation ≠ComfyUI-Maschine. Wer beides will, plant entweder hybrid oder sehr bewusst.
Kaufberatung: Welche Hardware passt zu welchem KI-Use-Case?
Die schnellste AbkĂĽrzung ist, die Entscheidung entlang von zwei Fragen zu treffen.
1) Wie groĂź sind die Modelle wirklich, die ihr lokal laufen lassen wollt?
- Bis ~24–32 GB Modellbedarf (quantisiert, „passt in VRAM“):
- x86-PC + Nvidia-GPU ist häufig günstiger und schneller
- ~60–80 GB Modellbedarf (z. B. 120B in effizientem Format):
- Mac Studio mit viel Unified Memory ist aktuell extrem stark bei Preis/Leistung und Effizienz
- Jenseits von 128 GB bis 512 GB+:
- lohnt sich nur, wenn ihr wirklich Modelle/Workloads habt, die davon profitieren (sonst bezahlt ihr vor allem Reserve)
2) Was ist euer Haupt-Output?
- Text, Analyse, Zusammenfassungen, Assistenzsysteme, RAG:
- Apple-Setups sind sehr attraktiv, vor allem wegen Effizienz und Speicher
- Bild-/Video-Generierung (ComfyUI-Standardworkflows):
- Nvidia bleibt meist Standard, weil es weniger Reibung gibt
Praktische Checkliste fĂĽr Teams (Bildung/Forschung & Retail)
Bevor ihr Hardware beschafft, klärt intern:
- Datenschutzanforderungen: Muss das Modell zwingend lokal laufen?
- Modellgröße & Quantisierung: Welche Modelle liefern nachweislich die Qualität, die ihr braucht?
- Durchsatz-Ziel: Braucht ihr 1 Nutzer:in oder 50 gleichzeitige Sessions?
- Toolchain: Nutzt ihr
llama.cpp, MLX, oder CUDA-lastige Frameworks? - Betrieb: Wer patcht, ĂĽberwacht, dokumentiert? On-premise ist ein Produkt, kein Bastelprojekt.
„People also ask“ – kurz beantwortet
Sind lokale Modelle in 2025 gut genug fĂĽr den Alltag?
Für viele Aufgaben ja: Zusammenfassen, Klassifizieren, Extrahieren, interne Assistenten, einfache Agenten. Bei absoluter „State-of-the-Art“-Qualität liegen Cloud-Modelle häufig noch vorne, aber lokale Modelle sind praktikabel geworden.
Warum ist Unified Memory bei LLMs so wichtig?
Weil große Modelle speicherhungrig sind. Wenn das Modell nicht in schnellen Speicher passt, wird ausgelagert – und das bremst massiv. Unified Memory ermöglicht große Speicherpools mit hoher Bandbreite.
Heißt das, Nvidia ist „schlechter“?
Nein. Nvidia ist bei vielen GPU-zentrierten Workflows (besonders Bild/Video) weiterhin fĂĽhrend. Der Punkt ist: FĂĽr groĂźe LLMs verschiebt sich der Sweet Spot.
Was ich daraus ableite (und was ich Teams rate)
Die Realität? Viele Organisationen kaufen Hardware nach Markengefühl oder nach dem, was „alle machen“. Genau das ist teuer.
Wer in der Schweiz an KI in Bildung und Forschung arbeitet – oder im Handel an Personalisierung und Nachfrageprognosen – sollte Hardware nach dem wahrscheinlichsten Bottleneck auswählen:
- Große lokale Sprachmodelle: Speicher + Bandbreite + Effizienz → Apple ist aktuell sehr stark.
- Generative Medienpipelines: CUDA-Ökosystem → Nvidia ist oft einfacher.
Als nächster Schritt lohnt sich ein kleiner, kontrollierter Pilot: ein lokales LLM-Setup (RAG + 2–3 typische Workflows), gemessen mit Tokens/s, Watt, Latenz und Total Cost of Ownership. Danach wird die Entscheidung meist überraschend eindeutig.
Wenn lokale KI jetzt schon auf einem kompakten Rechner effizient läuft: Welche Prozesse in Ihrer Organisation würden Sie als erstes aus der Cloud zurückholen – aus Kosten-, Datenschutz- oder Stabilitätsgründen?