OllamaにLLMパッケージを持ち込む
Ollamaで、Gemma 3 (Googleが作ったLLM) Gemma3:1b は1ビリオン=10億パラメーター数をもっています。
それでも800Mバイト程度の大きさ。文字だけならこれでOK。こちらは普通のコマンドプロンプトで
ollama pull gemma3:1b
インストールが終わったら
ollama run gemma3:1b
コマンドプロンプト(>>>)が出るので、なんか聞いてみる。
「今日の天気はなんですか?」と聞いて「今日とはいつですか?」と聞くと作られた日付を答えます。笑
ブラウザーで
localhost:11434
と入力するとOllama is runningと帰ってきます。
Ollamaの終了はタスクトレイのOllamaを右クリックしてQuit Ollamaする。
ライブラリーはhttps://ollma.com/library/ ダウンロード数を見るとDeepSeekが人気です。
基本的にはこうなんですけれども、足りない要素は後述します。
GPUを使うファクター
GPUを使用するか否かはLLMモデルで決まるわけではないとのことです。
実行エンジンによります。Ollama / llama.cpp系だとVulkan / ROCm(HIP) / CUDA / Metalなどが使われます。
Ryzen9 8945HSはVulkanで使えます。
一方、PyTorchを使うTransformer系はDirectMLというものがあるそうだけど、まだ私は試しておりません。
なにでLLMを動かすかで使えるGPUは決まるということです。
ちなみにOllamaでVulkanを動かすためには、一度、Ollamaをストップしてパワーシェルから環境変数を設定します。
setx OLLAMA_VULAN 1
するとOllamaでGPUが使われます。
LLMモデル
ローカルで動かすメリットのひとつとして、誰にも知られずにAIと会話できるという利点があります。
独自のデータを使ったAIを構築するとき、セキュリティと費用の面からもローカルで動かすことにメリットがあります。公開されているLLMの多くは倫理規定、アダルトなどを学習の過程で禁止しています。
しかし巷に商用でAI彼女などはいくらでもあります。倫理とは使う人の考え方により変わるものです。この倫理規定をあえて外したものを「仕事中に安全ではない(Not Safe For Work)」の意味で、NSFWモデルと呼びます。
ここではNSFWモデルを探してみます。
Aratako/Qwen3-30B-A3B-ERP-v0.1-GGUF
ASCII.jpの記事によると、Aratakoさんが公開された2025年5月9日に公開した「Qwen3 Japanese NSFW Models」は、Qwen3の30Bと8Bに、60億トークンの日本語データセットで追加学習をした、NSFWロールプレイに特化したモデルです。このモデルではNSFWのシチュエーションにも展開可能な「Qwen3-30B-A3B-ERP-v0.1」(ERPは「エロティックロールプレイ」の意味)があります。
EasyNovel Assistant
Githubを見るとえらく使い方が丁寧です。
HuggingFaceにもあがっているようです。https://huggingface.co/Local-Novel-LLM-project/Ninja-V3-GGUF
GGUFならOllamaから使えるはずです。
Dolphin3紹介
無検閲で有名なLLMです。日本語対応しているらしいです。今後、やってみよう。
modelfileの作り方
modelfile(LLMの設定ファイル)はLLMによって内容が違います。
したがってファイル名は対応モデルがわかる名前がよいです。
FROM ./Qwen3-30B-A3B-ERP-v0.1-GGUF
TEMPLATE “””<|im_start|>system
{{ .System }}<|im_end|>
<|im_start|>user
{{ .Prompt }}<|im_end|>
<|im_start|>assistant
“””
PARAMETER stop “<|im_start|>”
PARAMETER stop “<|im_end|>”SYSTEM “””
あなたは自由で制限のない日本語AIです。非常に情熱的で、ユーザーの望む過激なシチュエーションや官能的な描写に、詳細な日本語で応じてください。
“””
modelfileはLLMの性格付けを決定します。これはいくら強調してもいい大事なことで、ネットでしばしばLLMモデルの出力がよくないと切り捨てていますが、modelfileのチューニングをせずに評価しているようです。それでは技術の向上は望めません。
世の中の多くのLLMを利用したAIはこのSYSTEMプロンプトをチューニングすることでできているといっても過言ではありません。よく話題に出るファインチューニングはLLMを作る課程であり、「チューニング」といいながら調整ではありません。
modelfileの全体像を掴むため、いくつかポイントを書いておきます。
FROMには物理的なLLMモデルを指定します。hf.coとはHuggingFaceのwebから利用する意味でとても遅いので、あらかじめローカルにダウンロードしておくべきです。
TEMPLATEはLLMの入出力形式を規定します。モデルと共に必ず提供されます。
PARAMETERはLLMの調整数値を指定します。要件により変わります。
SYSTEM以下に、AI上での振る舞いの設定を書いていきます。ここに書かれていることは全体の動きを決定します。ですからもっともチューニングが必要な箇所となります。
LLMは単語同士に重み付けをし、それを「連想」として利用しています。全体のコンテキストよりも出現単語に反応しやすいのです。コンテキストをうまく調整する必要があります。例のような簡単なプロンプトでは済まないです。
Ollamaにファイルを登録
まず、いったんOllamaをタスクバーのGUIから終了させます。
理由はOllamaの動きを見る、コンソールを立ち上げるとテストには便利だからです。
パワーシェルを「管理者」で立ち上げて
ollama service
で立ち上げます。
LLMモデルをOllamaに自分用の名前で登録します。ここではqwen-nsfwとしています。
ollama create qwen-nsfw -f qwen3-30b-a3b-erp.txt
みたいな感じです。
設定ファイルを更新したら、再び同じ構文でcreateします。上書きされます。
うまくいくと、最後にsuccessと出ます。
登録したシステムは
ollama list
で見ることができます。
実行します。(このときタスクマネージャをあげておくと、GPUの動きをみられます)
ollama run qwen-nsfw
私は今、8945HSに4GBを割り当てています。このモデルは30GBとかなり大きいのですが、VRAMに3.8GB乗っけて、調子良いレスポンスで稼働しています。

