Eine Mathematische und Praxisnahe Analyse der Importance Quantization (IQ) in der Modellkompression für Große Sprachmodelle

Zusammenfassung: Diese Arbeit fasst eine experimentelle Untersuchung zur Nutzung des ik_llama.cpp-Forks für die Inferenz großer Mixture-of-Experts (MoE)-Modelle zusammen. Basierend auf Tests auf einem Lenovo System x3950 X6 mit 8x Intel Xeon E7-8880 v3 (144 Cores, 288 Threads) und 1 TB RAM werden Herausforderungen wie numerische Instabilitäten (NaN-Fehler) und Skalierungsprobleme beleuchtet. Besonderer Fokus liegt auf Importance