Es gibt gute Neuigkeiten für KI-Liebhaber im Bereich des Codings

in Deutsch D-A-CH4 months ago

Ich Arbeite und Lebe gern unabhängig, soweit unsere Welt das zulässt.
So auch im Digitalraum, nicht nur im RL, aber vor allem da. : )

Bildschirmfoto 2025-

Bildschirmfoto 2025-

Heute gibt gute Neuigkeiten für KI-Liebhaber im Bereich des Codings, besonders wenn man auf einem Mac mit hoher Leistungsfähigkeit arbeitet.

Die letzten Monate habe ich viel mit lokalen LLMs rumexperimentiert und vor allem als Hobby -und Berufscoder großes Interesse.

Spoiler für alle ungeduldigen. KI wird euch nicht ersetzen ; )
Aber weiter...

Ich habe einige relevante Modelle, darunter:

  • Qwen3-80B
  • GPT-OSS-120B

... und kleinere Varianten (also wenige Parameter und kleinere Quantisierung) auf einem MacBook Pro Max mit M4-Chip und 128 GB RAM getestet. Die Tests erfolgten vollständig lokal mit LM Studio, ohne Cloud-Integration oder externe APIs (wobei die einzige API die lokale von LM-Studio war). Alle Ergebnisse basieren auf direkter Ausführung auf der Hardware, die ich für meine privaten Projekte nutze.

Als IDE verwende ich ausschließlich JetBrains-Tools, hauptsächlich PyCharm für Python und WebStorm für JavaScript/TypeScript.

Ich hab dann mal zum Test einen bestehenden Python-Code mit etwa 5000 Zeilen refakturieren lassen. Das Ergebnis bei Qwen3-80b war absolut fehlerfrei, ohne künstliche Wasserzeichen, unerwünschte Zeilenumbrüche oder falsche Einrückungen.

Im Gegensatz dazu produzierte GPT-OSS-120b regelmäßig Probleme mit der Formatierung, z.b. Zeilen wurden willkürlich abgeschnitten, Einrückungen durch Tabulatoren ersetzt oder Leerzeichen entfernt. Diese Artefakte machen den Code in der Praxis unbrauchbar, besonders wenn er in ein versioniertes Projekt integriert werden soll.

Beide Modelle sind aus meiner Sich sehr leistungsfähig. Für reine Code-Generierung und Refaktorisierung bevorzuge ich Qwen3-80b. Es arbeitet bei mir mit bis zu 8-Bit-Quantisierung stabil und schnell, selbst bei Kontextlängen über 250.000 Token. Die Geschwindigkeit liegt fast konstant bei etwa 48 Tokens pro Sekunde, das ist für lokale Ausführung auf einem M4-Mac hervorragend. nur denn der Chatkontext voller wird bewegt es sich allmälig gegen 20 Tokens und weniger.

GPT-OSS-120B dagegen verlangsamt sich dramatisch. Bereits bei ca. 50.000 Token sinkt die Geschwindigkeit auf 1 bis 5 Tokens pro Sekunde. Je länger der Kontext, desto langsamer wird es, ein deutliches Limit für längere Dateien oder komplexe Anweisungen.
Hier muss ich aber noch anmerken, dass ich außerhalb solcher Test die Kontextlänge schon vorher mit 4000-20.000 vorauswähle und nie die maximalen Längen nutze, so das ich auch auf 10-20 Tokens/Sekunde kommen kann.

Für allgemeine Fragen, Konzeptschreiberei oder kreative Aufgaben ist GPT-OSS-120b weiterhin brauchbar. Es versteht Anweisungen gut und liefert kohärente Antworten, auch wenn sie nicht immer präzise sind. Es ist, würde ich mal sagen ein starker Allrounder.

Qwen3-80b dagegen ist spezialisiert auf exakte, strukturierte Aufgaben, so zumindest mein persönlicher eindruck. Es folgt Anweisungen aber recht stur, und biegt ungern neu ab und erzeugt sauberen, technisch korrekten Code. Es "lernt" also aus Feedback langsamer und verhält sich etwas starr. Wer häufig nachjustieren muss, sollte das berücksichtigen.

Zusammenfassend:

  • Für Code-Generierung und Refaktorisierung: Qwen3-80b (lokal, mit 8-Bit-Quantisierung, in PyCharm)
  • Für allgemeine Aufgaben und kreative Texte: GPT-OSS-120b (lokal, aber langsam bei langen Kontexten)
  • Für kleine Aufgaben oder schnelle Unterstützung in der IDE: Qwen3-7b oder -14b (schneller, ressourcenschonend)
  • Hardware: MacBook Pro Max M4 mit 128 GB RAM ist ausreichend für alle getesteten Modelle (auch die maximalen)
  • Tools: LM Studio zur lokalen Ausführung, JetBrains IDEs für Entwicklung

Die Wahl hängt nicht nur vom Modell ab, sondern davon, welches Verhalten man braucht. Präzision und Geschwindigkeit beim Code, oder Flexibilität bei allgemeinen Aufgaben.

Technische Details

Das B in Modellbezeichnungen wie Qwen3-80b steht für Milliarden, also 80 Milliarden Parameter. Das sind die Gewichtswerte der Verbindungen zwischen Neuronen. Sie bestimmen, wie das Modell Muster erkennt und Antworten generiert.
Die Quantisierung gibt an, mit wie vielen Bits jedes Gewicht gespeichert wird. Sie beeinflusst nicht die Qualität direkt, sondern Speicherbedarf und Geschwindigkeit. 16-Bit ist für Forschung oder hochpräzise Berechnungen gedacht, nicht für Alltagseinsatz. Es verbraucht viel Speicher, bringt aber keine spürbare Verbesserung bei Code-Generierung.
8-Bit ist derzeit der empfohlene Standard für lokale Modelle. Es reduziert den Speicherbedarf deutlich, ohne nennenswerte Qualitätseinbußen. 4-Bit ist für die meisten Aufgaben, naja ausreichend würd ich sagen, auch für Code-Generierung in JetBrains IDEs. Die Ergebnisse sind stabil, die Antwortgeschwindigkeit hoch.
Unter 4-Bit wird das Modell instabil. Die Ausgaben werden unscharf, Fehlerhäufigkeit steigt. Das ist nicht "naja", sondern technisch unzuverlässig.
Solche Modelle eignen sich nicht für produktiven Einsatz. Wobei allg. "produktiv mit Vorsicht zu genießen ist", denn das Ergebnis jeder KI Anfrage sollte mit viel Selbst-Disziplin und Hintergrundwissen geprüft werden. Denn eines ist leider auch ein Problem. KI's gaukeln nur zu oft Kompetenzen vor, die sie nicht haben und sind dabei enorm überzeugend.
Daher nutz ich es fast nur zum coden oder repetitive Aufgaben, denn der Code lügt nicht : )

Mein Fazit

.. und zu guter Letzt:
Mir ist klar, dass ein gut ausgestatteter Mac für allem der M4 Max mit 128 GB Ram sehr teuer ist, aber stellt man das dem aktuellen Preisen für Grafikkarten gegenüber, ist das ganze schnell relativiert. Vor allem die Kompaktheit des Gerätes und die unfassbare Sparsamkeit im Betrieb (ich hab hier zwischen 30-40 Watt Last bei lokal laufenden LLMs) macht es langfristig wett. Ich konnte noch kein Gerät finden, das so viel miteinander vereint und gleichwohl hohe Leistung bietet, die auch brauchbare Ergebnisse hervorbringt.

Ich hab auch über die Zeit gelernt. Ja, vieles geht "scheinbar" schneller, leichter, flüssiger. ABER: diese KIs (LLMs) sind nicht in der Lage komplexe Probleme sauber und vor allem anpassbar und wartbar zu lösen. Du machst Dich auf Dauer eher davon abhängig als voran zu kommen. Daher bin ich auch als Entwickler wieder dazu übergegangen, es eher wie einen Assistenten zu betrachten, den man langweilige und nieder niederschwellige Aufgaben überlässt.

Es ist halt wie mit Google, wenn man zu dumm ist zum suchen, kommt auch nur Unsinn raus. Mit KI ist es exakt das Gleiche.

Ich kann euch gern allg Fragen beantworten im Umgang mit der Praxis. Aktuell arbeite ich noch am Verständnis für MCPs.

#german #deutsch #coding #ki #ai #gpt120b #qwen #qwen3


#german #deutsch #coding #ki #ai #lmm #lmms #gpt120b #gpt #gpt20d #qwen #qwen3