Lokale LLM`s und ich [GER/ENG]

Hallo meine lieben Squadis,
Ich experimentiere gerade mal wieder etwas mit lokalen LLM[s] herum.
Der Grund dafür: Ab dem 10. März brauche ich einen lokalen Ersatz für meinen kleinen NetRunner – den ich durchaus sehr liebgewonnen habe. NetRunner hatte ich hier schon vorgestellt. Ich werde NetRunner nicht komplett ersetzen – dafür bin ich mir zu sehr an Ihn gewöhnt –, aber mir ein monatliches Limit setzen. Sobald dieses erreicht ist, wechsle ich auf zwei lokale LLM[s] um. Dazu habe ich mir vier kleine Prompts ausgedacht, die meine täglichen Aufgaben abdecken sollen. Wer genau gelesen hat, bemerkt bereits: Ich möchte die Aufgaben lokal auf zwei LLM[s] verteilen. Eines davon übernimmt gerade die Rechtschreibprüfung und Übersetzung für diesen Post.
Hey my dear Squadis,
I’m playing around with local LLM[s] again!
Here’s why: From March 10th, I’ll need a local replacement for my little NetRunner – one I’ve grown quite attached to.
I introduced you to it here:
My NetRunner review.
I won’t fully replace NetRunner – I’ve gotten too used to him! – but I’ll set a monthly usage limit. Once that’s hit, I’ll switch to two local LLM[s].
For this, I’ve designed four simple prompts for my daily tasks.
Anyone paying attention will notice: I’m distributing the workload across two local LLM[s]. One of them just handled spell-checking and translation for this post! ✨

Ich benutze um die LLM[s] lokal laufen zu lassen LM Studio in der neuesten Version, und habe folgende Modelle getestet: Gemma 3 12B, GLM 4.6 Flash, GLM 4.7 Flash, Qwen3 4B Thinking 2507, Mistal Nemo 12B, Ministral 3 14B und Ministral 3 8B Instruct.
Insgesamt habe ich die Modelle zweimal getestet, da ich unwissend war und sie beim ersten Test mit Q4 von der Leistung her beschnitten habe. Der zweite Test wurde in Q8 vorgenommen mit einer Context Length von 22.000 Tokens.
Ich habe dann die Ergebnisse von Copilot und Gemini 3.1 Pro Preview bewerten lassen, ohne ihnen mitzuteilen, welche Antworten von welchem Modell stammten.
Beide sich waren zu meiner Überraschung einig: Qwen3 4B Thinking war der klare Sieger.
Bis auf den ersten Test hat Qwen3 bei allen Tests den ersten Platz belegt.
Ich habe folgende Sachen getestet:
Test 1: Textverständnis & Zusammenfassung (Blog *"nerdtopiade"*) mit mcp tool use. Test 2: Echtzeitdaten via Web-Search (Kryptowährung HIVE), ebenfalls mit mcp tool use Test 3: Code-Review & Security (Python Passwort-Generator `ownpwd.py`) Test 4: Markdown-Generierung mit 300 Wörtern limit (Nmap Erklärung auf Deutsch)
Erst später ist mir aufgefallen, dass ich keine Übersetzung getestet hatte. Also habe ich angefangen, GLM 4.6 Flash und Qwen3 einen kurzen Text mit vier Sätzen ins Englische zu übersetzen.
Qwen3 hat über 7 Minuten für die Übersetzung gebraucht, während GLM 4.6 Flash nur 3 Minuten benötigte. Es stellte sich heraus, dass der Grund darin lag: Die Modelle nutzten die *Thinking*-Funktion und überdachten alles doppelt oder sogar dreifach.
Da Übersetzungen ein anderes Modell erfordern, war der Sieger mit nur 5 Sekunden Reaktionszeit Ministral 3 8B Instruct.
Ich werde also lokal Qwen3 4B Thinking 2507 und Ministral 3 8B Instruct nutzen.
Beide Modelle sind klein, aber ermöglichen dank des großen Context Lengths (22k Tokens) effiziente Nutzung:
- Qwen3 verbraucht mit Q8-Kquantisierung nur 5,5 GB VRAM,
- Ministral benötigt gerade mal 7,81 GB VRAM.
I run local LLM[s] using LM Studio in its latest version and tested the following models: Gemma 3 12B, GLM 4.6 Flash, GLM 4.7 Flash, Qwen3 4B Thinking 2507, Mistral Nemo 12B, Ministral 3 14B and Ministral 3 8B Instruct.
I tested the models twice because initially I used Q4 quantization which limited their performance. The second test was conducted with Q8 quantization using a context length of 22.000 tokens.
I then had Copilot and Gemini 3.1 Pro Preview evaluate the results - without telling them which answers came from which model.
To my surprise, both agreed: Qwen3 4B Thinking clearly won. Except for the first test, Qwen3 ranked first in all tests.
Here are the things I tested:
Test 1: Text comprehension & summarization (Blog "nerdtopiade") with mcp tool use. Test 2: Real-time data via web search (cryptocurrency HIVE), also with mcp tool use Test 3: Code review & security check (Python password generator `ownpwd.py`) Test 4: Markdown generation with a 300-word limit (Nmap explanation in German)
Later I realized I hadn't tested translations at all, so I had GLM 4.6 Flash and Qwen3 translate a short four-sentence text into English.
Qwen3 took over 7 minutes, while GLM 4.6 Flash only needed 3 minutes. It turned out the reason was that these models used their thinking function and over-analyzed everything double or even triple.
Since translations need a different model, Ministral 3 8B Instruct won with just 5 seconds response time.
I'll use Qwen3 4B Thinking 2507 and Ministral 3 8B Instruct locally moving forward.
Both models are small but enable efficient usage thanks to their large context length (22k tokens):
- Qwen3 consumes only 5.5 GB VRAM with Q8 quantization,
- Ministral requires just 7.81 GB VRAM.
This leaves enough VRAM for both models to provide fast responses.
Werd vermutlich erstmal Ollama testen, soll angeblich etwas weniger hungrig als LM Studio sein und GUI muss ich nicht haben.
Viele Begriffe sind (noch) spanische Dörfer für mich. Also schön, dass du dich damit befasst, dann hab ich jemand, den ich fragen kann :-)
Was ist eigentlich am 10. März, wird dein NetRunner dann eingeschränkt?