テクニカルペーパー
News

ローカルLLMの量子化、8GBで何が本当に動くか——実測レポート公開

Ko Ohashi

ogp_banner_technical_paper

「AWQはGGUFより精度が高い」この通説は正しいか。

ローカルLLMを動かすとき、避けて通れないのが「量子化」の選択です。

LLMはそのままでは巨大すぎてコンシューマーGPUに乗りません。7〜8Bのモデルをそのまま保存すると約14GB。VRAM 8GBのGPUには収まりません。そこで重みを圧縮する「量子化」という技術が使われます。

現在主流の方式は大きく2つです。

GGUF Q4_K_Mは、llama.cppが開発した汎用フォーマットです。重みをブロック単位で4ビットに圧縮し、重要な層は少し高い精度で保持します。CPU・GPU・Apple Siliconどこでも動き、VRAMが足りなければCPUと分担して実行できます。品質保持率は約92%とされています。

AWQ INT4は、実際のデータをモデルに流して「出力への影響が大きい重み」を特定し、そこだけ高精度で残しつつ残りを積極的に圧縮する方式です。理論上はGGUFより品質劣化が少なく(約95%)、NVIDIA GPUの演算ユニットに最適化されているため速度も出ます。ただしNVIDIA GPU専用で、vLLMなどのサーバーランタイムが必要です。

この「AWQの方が精度が高い」という比較は、英語の汎用ベンチマーク(MMLU等)を根拠にしているものがほとんどです。では日本語のビジネス文書処理という実務タスクでも同じことが言えるのか。そしてVRAM 8GBという制約環境では、そもそも両方動くのか

この2つの問いに答えるために、実験を設計しました。


NVIDIA RTX 4060 Laptop(VRAM 8GB)という制約環境において、GGUF Q4_K_M と AWQ INT4 を日本語ビジネス文書タスク(会議録の要約・アクションアイテムJSON抽出)で比較した実験レポートを公開しました。

結論は明快です。AWQ INT4(vLLM)は、8GBでは最小条件の8Kコンテキストすら起動できません。一方GGUF Q4_K_MはJSON有効率100%で全24試行を完走しました。「どちらが優れているか」ではなく、「どのハードで何が動くか」——その実測データをそのまま公開します。

実験コード・テストデータ・結果CSVはすべてGitHubで公開しています。

ローカルLLMやオープンソースモデルの導入を検討されている方の、意思決定の一助になれば幸いです。

[論文PDFをダウンロード] [English Version] [GitHubリポジトリを見る]


実験を終えて

今回の実験でGGUF Q4_K_Mの最大速度は41 tok/s(Gemma4-E4B @ 8K)、32Kコンテキストでは8.0 tok/s(Qwen3-8B)でした。

クラウドAPIと比較すると、GPT-5 (high) が92 tok/s、GPT-5.1 (high) が121 tok/sであり、速度面ではローカル8GB環境はまだ大きく見劣りします。用途によっては許容範囲ですが、リアルタイム処理には厳しいのが正直なところです。

一方、GPU メモリ 8GB という制約環境でも、JSON 抽出の有効率は 100%、アクションアイテム抽出の F1 スコアは最大 0.615 と、比較的簡単なタスクにおいては実用的な水準に達することが確認できました。速度面ではクラウド API に大きく見劣りしますが、性能面は想定より健闘しています。

次回は Apple Mac mini(メモリ 64GB)で 32B クラスのモデルを検証します。8B で実用域に入るなら、32B ではクラウド API に本格的に迫れる可能性があります。プライバシーを守りながらクラウド同等の性能を出せるか——そこをぜひ検証してみたいですね。

speed_comparison_table_20260606