小さくまとまったモデルだと話題なので、ちょっとだけ試しました。
ダウンロード先
LFM2.5-1.2B-Thinking-GGUF
とりあえず使ったモデルファイルは以下のとおり
FROM ./lfm2.5-1.2b-Thinking-Q4_K_M.gguf
# パラメータ設定(必要に応じて)
PARAMETER temperature 0.7
PARAMETER top_p 0.9
# プロンプトテンプレート設定
TEMPLATE """{{ if .System }}<|system|>
{{ .System }}<|end|>{{ end }}{{ if .Prompt }}<|user|>
{{ .Prompt }}<|end|>{{ end }}<|assistant|>
{{ .Response }}<|end|>"""
下手にnum_gpuを書くとメモリーを圧迫し、なにも書かなくてもGPUメモリーにいい感じで乗ってくれました。
たしかに日本語で会話できるモデルです。Q4_K_Mでファイルサイズが731MBと小さいのでテストに使うのに手頃かもしれません。
あー、もちろんOllamaで問題なく動きました。
ところで、最近、いろんな人のローカルLLMの記事を読んでいるのですが、ほとんどが8B以下の規模ですね。おもちのNVIDIAのGPUの制約だと思います。
ここのRyzen 9シリーズでは一回り大きい30BクラスのLLMを試せています。お金かかってないし、机の上に乗ってるし。Ryzenはもっと評価されてもいいと思います。
もちろんいい話ばかりではありません。速度はそれほど早くないし、NVIDIAのGPUが使うCUDAは当然、使えません。
ただ、ローカルLLMでAIサービス並の知性を求めたいのであれば、割合とイケてる構成だと感じています。




