In der neuesten Ausgabe des AI-Decoded-Blogs wird gezeigt, wie Large Language Models (LLMs) mithilfe von LM Studio und NVIDIA RTX-Beschleunigung auch lokal ausgeführt werden können – selbst wenn sie nicht vollständig in den Videospeicher (VRAM) passen. Diese bahnbrechende Möglichkeit wird durch eine Funktion namens GPU-Offloading realisiert, welche die Rechenleistung der NVIDIA RTX-GPUs optimal nutzt.
LLMs wie Gemma-2-27B, die ursprünglich für den Einsatz in Rechenzentren entwickelt wurden, lassen sich dank LM Studio auch auf lokalen RTX-Systemen betreiben. LM Studio ermöglicht es, diese Modelle in kleinere Einheiten zu unterteilen und deren Verarbeitung zwischen GPU und CPU aufzuteilen. Dies gewährleistet eine effektive Nutzung der RTX-Beschleunigung, auch wenn das gesamte Modell nicht in den GPU-Speicher passt. So profitieren Nutzer von höherer Geschwindigkeit und erhöhter Flexibilität.
Das GPU-Offloading bietet insbesondere den Vorteil, dass auch auf Systemen mit geringerem VRAM leistungsstarke LLMs betrieben werden können. Nutzer können so die Vorteile einer schnellen, lokalen Verarbeitung genießen, ohne dabei auf die Infrastruktur großer Rechenzentren angewiesen zu sein. Die Ausführung der Modelle direkt auf dem eigenen System bringt zusätzliche Vorteile: Sie gewährleistet mehr Kontrolle über die Daten und erlaubt die Nutzung von AI-gestützter Technologie ohne permanente Internetverbindung.
Die GPU-Offload-Funktion von LM Studio ermöglicht eine flexible Anpassung der Anzahl der auf der GPU verarbeiteten Ebenen. Auf diese Weise können Anwender die Leistungsfähigkeit ihrer Hardware optimal ausnutzen. Für große Modelle wie Gemma-2-27B, die sonst aufgrund ihres hohen Speicherbedarfs nur auf High-End-GPUs lauffähig wären, bietet diese Funktion eine Möglichkeit, auch auf weniger leistungsstarken Systemen eine deutliche Performance-Steigerung zu erzielen.