Lokales LLM mit 1 Mio. Token Kontext: MiniMax M3 wird Open Weight

23. Jun 2026 Deutsch 5 Min. Lesezeit

minimax-m3 local-llm open-weight

Die praktische Grenze für lokal betriebene Sprachmodelle lag in den vergangenen zwei Jahren bei rund 128.000 Token Kontextfenster — groß genug für die meisten Aufgaben, aber zu klein, um ein ganzes Vertragsarchiv, ein Jahr Kundensupport-Geschichte oder eine vollständige Codebasis in einem einzigen Aufruf zu verarbeiten. MiniMax M3, das um den 13. Juni 2026 seine Open Weights auf HuggingFace veröffentlicht hat, verschiebt diese Grenze auf 1 Million Token. Das Modell ist damit erstmals für den lokalen Betrieb verfügbar.

Was MiniMax M3 ist

M3 startete am 1. Juni 2026 als API-Modell — mit der Zusage, die Gewichte innerhalb von zehn Tagen zu veröffentlichen. Diese Gewichte sind jetzt unter MiniMaxAI/MiniMax-M3 auf HuggingFace verfügbar, dazu GGUF-Quantisierungen über unsloth/MiniMax-M3-GGUF.

Das Modell nutzt eine Mixture-of-Experts-Architektur. Laut MiniMaxs technischer Dokumentation verfügt es über rund 428 Milliarden Parameter gesamt, von denen pro Token-Generierung etwa 23 Milliarden aktiv sind. Durch das MoE-Design ähneln die Inferenzkosten pro Token eher einem 23B-Modell als einem 428B-Modell — auch wenn der Speicherbedarf deutlich größer ist.

Das Kontextfenster umfasst 1 Million Token, ermöglicht durch die proprietäre MSA-Architektur (MiniMax Sparse Attention). Als garantiertes Minimum nennt MiniMax 512.000 Token. Das entspricht dem Achtfachen des Kontexts, den die meisten Ollama-Modelle vor einem Jahr boten.

Multimodalität ist von Anfang an eingebaut: M3 verarbeitet Bild- und Videoeingaben neben Text. Ein einzelner Modellaufruf kann ein gescanntes Dokument, eine eingebettete Grafik und eine Textfrage gemeinsam verarbeiten — ohne separates Bilderkennungsmodell.

Auf SWE-Bench Pro nennt MiniMax eine Trefferquote von 59 %. Das ordnet M3 gemäß diesen von MiniMax berichteten Zahlen unter die stärksten verfügbaren Open-Weight-Coding-Modelle Mitte 2026 ein; unabhängige Validierungen dieser Werte laufen in der Community noch.

Der API-Preis liegt laut MiniMax-Plattform bei 0,60 US-Dollar pro Million Eingabe-Token und 2,40 US-Dollar pro Million Ausgabe-Token. Ein Team mit 200 täglichen Anfragen à 10.000 Eingabe- und 2.000 Ausgabe-Token käme damit auf rund 40–50 US-Dollar monatlich.

Was die Open-Weight-Veröffentlichung bedeutet

Die Gewichts-Veröffentlichung ist nicht nur ein technisches Detail — sie ist datenschutzrechtlich relevant. Solange M3 nur als API verfügbar war, mussten Prompts an MiniMax-Server übertragen werden. Jetzt können Organisationen mit ausreichend Hardware das Modell vollständig im eigenen Netzwerk betreiben.

Für europäische Unternehmen ist das kein kleiner Unterschied. Gemäß unserem Verständnis der DSGVO schafft das Senden personenbezogener Daten — Mitarbeiternamen, Kundendaten, rechtliche Falldetails — an eine Drittpartei-API eine Auftragsverarbeitungsbeziehung, die einen Auftragsverarbeitungsvertrag (AVV) erfordert, gegebenenfalls zusammen mit einem Drittlandstransfer-Mechanismus, falls der Server außerhalb des EWR steht. Der lokale Betrieb eigener Gewichte eliminiert diese Anforderungen vollständig.

Über Ollamas Cloud-Ebene ist M3 ebenfalls verfügbar (ollama run minimax-m3:cloud). MiniMax erklärt dort null Datenspeicherung auf Ollamas Infrastruktur — ein relevanter Hinweis, aber für viele regulierte Workloads nicht ausreichend: Die Server befinden sich in den USA, US-Recht gilt unabhängig von Aufbewahrungsrichtlinien. Unsere Seite zur Datensouveränität erklärt diesen Abwägungsprozess im Detail.

Hardware: Was Selbst-Hosting tatsächlich erfordert

MiniMax M3 läuft nicht auf einem Entwickler-Laptop. Der Speicherbedarf, wie von Practitioners auf HuggingFace und NVIDIA-Developer-Foren berichtet:

FP16 (volle Präzision): ca. 931 GB VRAM
INT4-Quantisierung: ca. 233 GB
UD-IQ1_M GGUF (aggressivste Kompression): ca. 128–133 GB RAM

Die UD-IQ1_M-Zahl ist relevant für Mac-Hardware-Käufer. Ein Mac Studio M3 Ultra mit 192 GB Unified Memory kann diese Variante über Ollamas llama.cpp-Schicht laden — das Modell passt in den Speicher, allerdings mit spürbarer Qualitätseinbuße gegenüber höherpräzisen Varianten. Community-Berichte nennen 8–18 Token/Sekunde bei dieser Quantisierungsstufe auf Apple-Silicon-Hardware.

Für bessere Inferenzqualität benötigt die INT4-Variante rund 233 GB — über einem einzelnen Mac Studio M3 Ultra, aber mit einem Multi-Node-exo-Cluster erreichbar. Ein NVIDIA DGX Spark (128 GB VRAM) liegt an der Grenze der komprimiertesten Variante; Practitioners berichten, dass es mit sorgfältigem Speicher-Management machbar ist. Komfortables INT4-Serving ist für 4× H100-80-GB-Setups mit vLLM und Tensor-Parallelismus dokumentiert.

Kurz gesagt: MiniMax M3 selbst zu hosten erfordert entweder ein hochkonfiguriertes Apple-Silicon-Cluster, einen DGX Spark oder einen Multi-GPU-Server — kein Single-Mac-Studio-Setup wie es für 70B-Modelle ausreicht.

Wann die API besser ist

Trotz des Datenschutz-Arguments ist der API-Einstieg für die meisten Unternehmen der richtige erste Schritt:

Erst validieren, dann investieren. Zu testen, ob 1M Kontext Ihr Vertragsreview oder Ihre Codeanalyse tatsächlich verbessert, kostet wenige Cent in API-Tokens. Hardware-Entscheidungen sollten bewiesenen Use Cases folgen, nicht umgekehrt.

Moderates Volumen bleibt günstig. Unter rund 300–400 Euro monatlichem Token-Aufwand sind Einheitswirtschaft und Flexibilität einer Cloud-API besser als die Investitionskosten eines Multi-GPU-Servers inklusive Energie und Wartung.

Nicht alle Daten sind schützenswert im DSGVO-Sinne. Interne Strategiedokumente, öffentliche Regulierungstexte, Open-Source-Code — diese können via API verarbeitet werden, ohne DSGVO-Pflichten für personenbezogene Daten auszulösen.

Der Schwellenwert für den Umstieg auf On-Premise liegt typischerweise bei monatlichen API-Kosten von 400–600 Euro, wenn die Rechtsabteilung bestätigt, dass Prompt-Inhalte regelmäßig personenbezogene Daten enthalten, oder wenn Cloud-Latenz zu einem Nutzungsproblem wird.

Die drei Use Cases, die sich zuerst lohnen

Vollarchiv-Dokumentenanalyse

Das überzeugendste Argument für 1M Kontext ist die Möglichkeit, Chunking für große Dokumentenkorpora zu eliminieren. Ein Compliance-Team kann eine vollständige regulatorische Einreichungshistorie laden. Eine Einkaufsabteilung kann drei Jahre Lieferantenverträge in einer Sitzung analysieren. Folgefragen werden konsistent über das gesamte Dokument-Korpus beantwortet — ohne Retrieval-Schritt, ohne Chunk-Grenze-Artefakte.

Multimodale Dokumentenverarbeitung

M3s Bildverständnis bedeutet, dass ein einziges Modell gescannte Rechnungen, technische Zeichnungen und handschriftliche Anmerkungen ohne Vorverarbeitung verarbeitet. Für Fertigungs- oder Logistikunternehmen mit gemischten Dokumenttypen reduziert das die Pipeline-Komplexität erheblich.

Codebasis-weites Code-Review

Bei 1M Kontext passt eine mittelgroße Applikation — Frontend, Backend, Tests, Konfiguration — in einen einzigen Aufruf. Code-Qualitätsbewertungen, Sicherheitsprüfungen und Onboarding-Dokumentation können die Codebasis als einheitliches Objekt behandeln, nicht als Folge von Datei-für-Datei-Abfragen.

Einstieg für KMU

Für die meisten kleinen und mittelständischen Unternehmen, die MiniMax M3 evaluieren:

Mit ollama run minimax-m3:cloud den eigenen Workflow testen — ohne Hardware-Investition, Ergebnisse in Minuten
Monatliche Token-Kosten über 30 Tage tracken; nähern sie sich 400 Euro, TCO-Berechnung für On-Premise-Hardware durchführen
Für Workflows mit personenbezogenen Daten im DSGVO-Sinne On-Premise-Hardware von Anfang an einplanen, nicht als nachträgliche Migration

Unsere Übersicht lokaler KI-Lösungen enthält Hardware-Dimensionierungshilfen für unterschiedliche Modellgrößen — einschließlich der Einordnung von M3 gegenüber Llama 4, Qwen 3 und DeepSeek V3.

Wenn Sie wissen möchten, ob MiniMax M3 — oder ein kleineres, einfacher zu hostendes Modell — zu Ihren Compliance-Anforderungen und Ihrem Budget passt, sprechen Sie uns an und starten Sie mit einem Pilot-Scoping.