AIをローカル環境で動かす（２:Ollama）

以下は購入したminiPC前提の話です。

OllamaにLLMパッケージを持ち込む

Ollamaで、Gemma 3 (Googleが作ったLLM) Gemma3:1b は1ビリオン＝１０億パラメーター数をもっています。
それでも800Mバイト程度の大きさ。文字だけならこれでOK。こちらは普通のコマンドプロンプトで

ollama pull gemma3:1b

インストールが終わったら

ollama run gemma3:1b

コマンドプロンプト（＞＞＞）が出るので、なんか聞いてみる。

「今日の天気はなんですか？」と聞いて「今日とはいつですか？」と聞くと作られた日付を答えます。笑

ブラウザーで

localhost:11434

と入力するとOllama is runningと帰ってきます。

Ollamaの終了はタスクトレイのOllamaを右クリックしてQuit Ollamaする。

ライブラリーはhttps://ollma.com/library/ ダウンロード数を見るとDeepSeekが人気です。

基本的にはこうなんですけれども、足りない要素は後述します。

GPUを使用するか否かはLLMモデルで決まるわけではないとのことです。

実行エンジンによります。Ollama / llama.cpp系だとVulkan / ROCm(HIP) / CUDA / Metalなどが使われます。
Ryzen9 8945HSはVulkanを使います。

一方、PyTorchを使うTransformer系はDirectMLというものがあるそうだけど、まだ私は試しておりません。
なにでLLMを動かすかで使えるGPUは決まるということです。

ちなみにOllamaでVulkanを動かすためには、一度、Ollamaをストップしてパワーシェルから環境変数を設定します。

setx OLLAMA_VULAN 1

するとOllamaでGPUが使われます。

まず、いったんOllamaをタスクバーのGUIから終了させます。
理由はOllamaの動きを見る、コンソールを立ち上げるとテストには便利だからです。
パワーシェルを「管理者」で立ち上げて

ollama service

で立ち上げます。

LLMモデルをOllamaに自分用の名前で登録します。ここではqwen-nsfwとしています。

ollama create qwen-nsfw -f qwen3-30b-a3b-erp.txt

みたいな感じです。
設定ファイルを更新したら、再び同じ構文でcreateします。上書きされます。
うまくいくと、最後にsuccessと出ます。

登録したシステムは

ollama list

で見ることができます。

実行します。（このときタスクマネージャをあげておくと、GPUの動きをみられます）

ollama run qwen-nsfw

私は今、8945HSに4GBを割り当てています。このモデルは30GBとかなり大きいのですが、VRAMに3.8GB乗っけて、調子良いレスポンスで稼働しています。