小さくまとまったモデルだと話題なので、ちょっとだけ試しました。
ダウンロード先
LFM2.5-1.2B-Thinking-GGUF
とりあえず使ったモデルファイルは以下のとおり
FROM ./lfm2.5-1.2b-Thinking-Q4_K_M.gguf
# パラメータ設定(必要に応じて)
PARAMETER temperature 0.7
PARAMETER top_p 0.9
# プロンプトテンプレート設定
TEMPLATE """{{ if .System }}<|system|>
{{ .System }}<|end|>{{ end }}{{ if .Prompt }}<|user|>
{{ .Prompt }}<|end|>{{ end }}<|assistant|>
{{ .Response }}<|end|>"""
下手にnum_gpuを書くとメモリーを圧迫し、なにも書かなくてもGPUメモリーにいい感じで乗ってくれました。
たしかに日本語で会話できるモデルです。Q4_K_Mでファイルサイズが731MBと小さいのでテストに使うのに手頃かもしれません。
あー、もちろんOllamaで問題なく動きました。



