以下は購入したminiPC前提の話です。
OllamaにLLMパッケージを持ち込む
Ollamaで、Gemma 3 (Googleが作ったLLM) Gemma3:1b は1ビリオン=10億パラメーター数をもっています。
それでも800Mバイト程度の大きさ。文字だけならこれでOK。こちらは普通のコマンドプロンプトで
ollama pull gemma3:1b
インストールが終わったら
ollama run gemma3:1b
コマンドプロンプト(>>>)が出るので、なんか聞いてみる。
「今日の天気はなんですか?」と聞いて「今日とはいつですか?」と聞くと作られた日付を答えます。笑
ブラウザーで
localhost:11434
と入力するとOllama is runningと帰ってきます。
Ollamaの終了はタスクトレイのOllamaを右クリックしてQuit Ollamaする。
ライブラリーはhttps://ollma.com/library/ ダウンロード数を見るとDeepSeekが人気です。
基本的にはこうなんですけれども、足りない要素は後述します。
GPUを使うファクター
GPUを使用するか否かはLLMモデルで決まるわけではないとのことです。
実行エンジンによります。Ollama / llama.cpp系だとVulkan / ROCm(HIP) / CUDA / Metalなどが使われます。
Ryzen9 8945HSはVulkanを使います。
一方、PyTorchを使うTransformer系はDirectMLというものがあるそうだけど、まだ私は試しておりません。
なにでLLMを動かすかで使えるGPUは決まるということです。
ちなみにOllamaでVulkanを動かすためには、一度、Ollamaをストップしてパワーシェルから環境変数を設定します。
setx OLLAMA_VULAN 1
するとOllamaでGPUが使われます。
Ollamaにファイルを登録
まず、いったんOllamaをタスクバーのGUIから終了させます。
理由はOllamaの動きを見る、コンソールを立ち上げるとテストには便利だからです。
パワーシェルを「管理者」で立ち上げて
ollama service
で立ち上げます。
LLMモデルをOllamaに自分用の名前で登録します。ここではqwen-nsfwとしています。
ollama create qwen-nsfw -f qwen3-30b-a3b-erp.txt
みたいな感じです。
設定ファイルを更新したら、再び同じ構文でcreateします。上書きされます。
うまくいくと、最後にsuccessと出ます。
登録したシステムは
ollama list
で見ることができます。
実行します。(このときタスクマネージャをあげておくと、GPUの動きをみられます)
ollama run qwen-nsfw
私は今、8945HSに4GBを割り当てています。このモデルは30GBとかなり大きいのですが、VRAMに3.8GB乗っけて、調子良いレスポンスで稼働しています。




