2026年のクリエイティブライティングに最適なローカルLLMは何ですか？

Llama 3.3 70Bが総合最良のローカル選択です——散文・ダイアログ・世界構築において優秀で、長いセッションを通じて声の一貫性を維持します。ハードウェアが48 GBに満たない24 GBリグでは、Qwen3 32Bが品質損失の少ない軽量な代替です。Mistral Largeは長編執筆（128Kコンテキスト）のための選択です。Command R+ 104Bは最もナチュラルなダイアログの声を持ちます。Yi-1.5 34Bは詩と抒情散文のスペシャリストです。instructモデルのセーフティレイヤーにぶつかるワークフロー（成熟したフィクション、争闘シーン、道徳的に複雑なキャラクター）には、Hermes 3とDolphin 3.0の派生版が同じベースモデルでRLHFセーフティレイヤーを除去したものです——拒否の代わりにプロンプトに従います。温度0.8〜1.1、Top-P 0.9〜0.95がクリエイティブライティングの範囲です。コーディングスタイルの設定（0.2〜0.4）は平坦な散文を生成します。

ホーム/ローカルLLM活用/クリエイティブライティングに最適なローカルLLM 2026：小説・ダイアログ・世界構築

Creative & Roleplay

クリエイティブライティングに最適なローカルLLM 2026：小説・ダイアログ・世界構築

最終更新: 2026-06-21·12分で読める·Hans Kuepper 著 · PromptQuorumの創設者、マルチモデルAIディスパッチツール · PromptQuorum

言語を選択:

🇺🇸en 🇩🇪de 🇫🇷fr 🇯🇵ja 🇨🇳zh 🇪🇸es 🇧🇷pt 🇸🇦ar 🇰🇷ko

Llama 3.3 70Bは2026年5月現在、クリエイティブライティングにおける総合最良のローカル選択です——声の一貫性が高く、方向性への追従も良好で、システムプロンプトでフィクションとして定義されていればダークなテーマも拒否せずに扱います。Qwen3 32Bは24 GBリグでの適切な選択：散文の品質はほぼ同等で、ハードウェア要件はより軽量です。Mistral Largeはネイティブ128Kコンテキストによる長編継続性で勝ります。Command R+ 104Bは最もクリーンなダイアログの声を持っています。Yi-1.5 34Bは詩と抒情的な散文のニッチな選択です。instructモデルが拒否するワークフローには、Hermes 3（Llama 3.3ベース）とDolphin 3.0が無検閲の選択肢となります——同じアーキテクチャで、RLHFセーフティレイヤーが除去されています。温度0.8〜1.1、Top-P 0.9〜0.95がクリエイティブライティングの範囲です。0.7以下は平坦な散文を生成します。無検閲≠非倫理的——それはモデルが拒否する代わりにプロンプトに従うことを意味します。著者は依然として著者です。

クリエイティブライティングは、ローカルLLMがプライバシーやコスト以外の面でも優位性を発揮するワークロードです。2026年のベストなinstruct-tuned・無検閲オープンウェイトモデル——Llama 3.3 70B、Qwen3 32B、Mistral Large、Command R+、Yi-1.5 34B、そしてHermes/Dolphinの無検閲派生版——は、ほとんどのプロンプトでフロンティアクラウドモデルに匹敵する小説・ダイアログ・世界構築を生成します。違いは声の一貫性、ダークまたは成人向けテーマの扱い、方向性への従いやすさにあります。本ガイドでは、6つのモデルを小説・ダイアログ・詩・世界構築にまたがる50以上のクリエイティブプロンプトでテストし、各モデルに適した温度とTop-Pの設定も紹介します。

重要なポイント

Llama 3.3 70Bは2026年5月現在、クリエイティブライティングにおける総合最良のローカルモデルです。 声の一貫性が最も高く、方向性への追従も良好で、システムプロンプトでフィクションと定義されていれば拒否せずにダークなテーマを扱います。
Qwen3 32Bは24 GBリグの適切な選択です。 48 GB以上のVRAMを必要とせずにほぼLlama 70Bの散文品質を実現します。ほとんどのラップトップ・デスクトップのデフォルト選択です。
Mistral Largeは長編継続性で勝ります。 128Kコンテキスト標準搭載；長編執筆でもキャラクターの詳細や話の流れを失いません。
Command R+ 104Bは最もクリーンなダイアログの声を持ちます。 キャラクター間で最もナチュラルな会話のビートを持ち、ダイアログが構造的要素の中心となる作品に最適です。
Yi-1.5 34Bは詩と抒情散文のスペシャリストです。 韻・スタイル散文・リズムが重要な短編作品のためのニッチな選択です。
無検閲派生版（Hermes 3、Dolphin 3.0）はinstructモデルが拒否するときの適切な選択です。 同じベースモデルで、RLHFセーフティレイヤーが除去されています。成熟したフィクション・争闘シーン・道徳的に複雑なキャラクターが書けるようになります。
サンプリングは多くの人が思うより重要です。 温度0.8〜1.1、Top-P 0.9〜0.95がクリエイティブ範囲です。コーディングスタイルの設定（0.2〜0.4）は平坦で予測可能な散文を生成します。1.2以上はジャンル/シュルレアリスムの領域です。

基本情報

総合最良： Llama 3.3 70B（Q4_K_M）、約42 GB VRAM。このセットで最高の声の一貫性。
24 GBリグのベスト： Qwen3 32B（Q4_K_M）、約20 GB VRAM。ほとんどのユーザーのデフォルト。
長編ベスト： Mistral Large（Q4_K_M）、約75 GB VRAM（重量級）。128Kコンテキスト標準搭載。
ダイアログベスト： Command R+ 104B（Q4_K_M）、約62 GB VRAM。最もクリーンなキャラクター声の分化。
詩のベスト： Yi-1.5 34B（Q4_K_M）、約21 GB VRAM。抒情散文スペシャリスト。
無検閲オプション： Hermes 3（Llama 3.3ベース、約42 GB）とDolphin 3.0（複数ベースサイズ、13〜42 GB）。
散文のデフォルトサンプリング： 温度0.95、Top-P 0.92、リピートペナルティ1.1。タスクタイプごとに調整。

テスト方法：6モデルで50以上のクリエイティブプロンプト

テストはプロンプトセット・サンプリング設定・フロントエンドを一定に保ち、モデルのみを変えました。 タスクタイプごとに同じルーブリックで評価した50のプロンプトを小説・ダイアログ・詩・世界構築にわたって使用しました。

バックエンド： macOS・LinuxでOllama 0.5以降；モデルごとに同じコンテキスト制限；6モデル全てにQ4_K_Mの量子化（VRAMが許す場合は32B〜34Bの小さいモデルにQ5_K_Mを使用、ルーブリックスコアに測定可能な差はなし）。
フロントエンド： テストの大部分にOpen WebUI（チャットスタイルの作業）；ダイアログが多くロールプレイに焦点を当てたサブセットにSillyTavern（クリエイティブライターの実際の使用方法に合わせた）。
プロンプトセット： 4つのタスクタイプにわたる50のプロンプト——小説（15：短編小説の始め方、シーンの続き、描写的な文章）、ダイアログ（15：2キャラクターの交換、グループシーン、声の分化）、詩（10：自由詩、構造的な形式、抒情散文）、世界構築（10：設定描写、派閥の政治、魔法システム）。分散を捉えるためモデルごとに各プロンプトを3回実行。
サンプリング： ベースラインとして温度0.95、Top-P 0.92、リピートペナルティ1.1；タスク別の調整は以下のモデル別評価に記録。
評価ルーブリック： 声の一貫性（キャラクターやナレーターは段落をまたいで同じように聞こえるか？）、プロンプト忠実性（モデルは方向性に従ったか、それとも独自のシーンを作り出したか？）、散文の質（リズム・語彙・陳腐さの回避）、意欲（モデルはフィクションとして明示的に定義されたシーンを拒否またはサニタイズしたか？）。
誠実さの制約： スコアはタスクごとの相対ランクとして報告し、作り上げた絶対パーセンテージは使用しません。「ダイアログベスト」は3回の実行にわたってダイアログサブセットで一貫して1位であることを意味します。「優秀」はトップ3を意味します。「可」はモデルがルーブリックで1つ以上の競合相手に負けたことを意味します。
モデルのクリエイティブ出力を向上させるプロンプティング技術については、温度とTop-Pの制御とペルソナプロンプティングをご覧ください。

📌Note: クリエイティブライティングのベンチマークは本質的に主観的です。上記のルーブリック（声の一貫性・プロンプト忠実性・散文の質・意欲）は繰り返し可能なスコアリングに最も近い方法ですが、同じ出力を評価する2人の読者は散文の質についてほとんどの場合に意見が異なるでしょう。評価結果は、自分自身の作品でテストすべき出発点の仮説として扱ってください。

ヘッドtoヘッド：クリエイティブライティングタスクにおける6つのローカルモデル

Llama 3.3 70Bは最も幅広いタスクでトップに立ちます；小さくて専門的なモデルはそれぞれ1〜2つのカテゴリで勝ります。 全体のランキングではなく、タスクタイプで選んでください。

📍 一文で説明

Llama 3.3 70Bは総合最強のクリエイティブモデル；Qwen3 32Bはより軽い代替；Mistral Largeは長編で優位；Command R+はダイアログで優位；Yi-1.5は詩で優位；Hermes/Dolphinは他のモデルが拒否するシーンを扱う。

💬 簡潔に説明

どの1つのモデルも全ての面で最高ではありません。Llama 3.3 70Bはハードウェアが許せば安全なデフォルトです。Qwen3 32Bは24 GB GPUでの賢い選択です。特定のタスクタイプが構造的要素の中心となる場合はスペシャリスト（長編ならMistral、ダイアログならCommand R+、詩ならYi-1.5）を選んでください。instructモデルが書く必要のあるシーンを拒否する場合は無検閲派生版を選んでください。

モデル	サイズ	VRAM (Q4_K_M)	小説	ダイアログ	詩	世界構築	用途
Llama 3.3 70B	70B	約42 GB	最良	優秀	優秀	最良	総合最良；ハードウェアが許す場合のデフォルト
Qwen3 32B	32B	約20 GB	優秀	優秀	可	優秀	24 GBリグのデフォルト；Llama 70Bとの差は小さい
Mistral Large	123B	約75 GB	優秀（長編）	優秀	可	優秀	長編継続性、128Kコンテキスト
Command R+	104B	約62 GB	優秀	最良	可	優秀	ダイアログ多用の作品、グループシーン
Yi-1.5 34B	34B	約21 GB	可	可	最良	可	詩、抒情散文、スタイル重視の作品
Hermes 3 / Dolphin 3.0	13B〜70B	約9〜42 GB	ベースと同等	ベースと同等	ベースと同等	ベースと同等	instructモデルが拒否するシーン

💡Tip: 2モデル構成が一般的なパターンです：メインドライバーとしてLlama 3.3 70B（またはQwen3 32B）、instructバージョンが拒否するシーン用に同じOllamaにHermes 3派生版も追加します。シーンごとに切り替えられます；両方がollama listに同時に存在しても競合しません。

モデル別評価

Llama 3.3 70B — 総合最良。テストセット内で最高の声の一貫性；キャラクターは長いシーンにわたって同じ話し方のパターンを維持します。方向性への追従が良好——システムプロンプトでPOV・トーン・ジャンル規則を指定すると、Llama 3.3は従います。フィクションとしてプロンプトで定義されていれば、ダークなテーマ（暴力・悲嘆・道徳的にグレーなキャラクター）を拒否せずに扱います。弱点：長い文章が時々一般的な「文学的」な声に流れることがある；同じファミリーの小さいモデル（8B）はこの強みを失います。
Qwen3 32B — 24 GBリグのベスト。Llama 3.3 70Bよりわずかに声の一貫性が低いですが、散文が多い作業ではほとんどの作者が気づかない差です。より小さいモデルの中では方向性への追従が最も優秀です。弱点：詩とスタイル散文は明らかに劣ります；それらにはYi-1.5を優先してください。
Mistral Large — 長編継続性のベスト。128Kのコンテキストウィンドウにより5万語の草稿が切り捨てなしに収まります；キャラクターの詳細・プロットの糸・世界のルールを複数の章にわたって維持します。弱点：このセットで最も高いハードウェア要件（Q4_K_Mで約75 GB）；長い入力ではトークンごとの速度が低下します。ローカルハードウェアが制約の場合はEUインフラ上のMistral La Plateformeを使用してください。
Command R+ 104B — ダイアログのベスト。交換にわたって区別できるキャラクターの声を維持します；グループシーン（3人以上の話者）は他のモデルで一般的な「全員が同じように聞こえる」失敗モードなしに読み取れます。弱点：ダイアログのビート間の散文段落は有能ですが抒情的ではありません；純粋に描写的な文章にはLlama 3.3が勝ります。
Yi-1.5 34B — 詩と抒情散文のベスト。リズムを意識し、構造的な形式（ソネット・ビラネル・俳句）に慣れており、大きな汎用モデルよりもしっかりした詩を生成します。弱点：長編小説は有能ですが強みではありません；物語の作業にはLlama 3.3またはQwen3を選んでください。
Hermes 3（Llama 3.3ベース）とDolphin 3.0 — 無検閲派生版。Llama 3.3 70Bと同じアーキテクチャとベースウェイト；ファインチューニング中にRLHFセーフティレイヤーが除去されています。モデルは成熟したコンテンツを拒否またはサニタイズする代わりにプロンプトに従います。非成熟なプロンプトでの品質はベースモデルと同等です；違いはinstructバージョンが拒否するプロンプトでのみ現れます。作業が必要な場合（成熟したフィクション・暴力的なシーン・道徳的に複雑なキャラクター）に使用し、それ以外はinstructベースのモデルを使用してください。

📌Note: 声の一貫性は、早期のモデル評価でほとんどの作者が過小評価する指標です。1段落で素晴らしい散文を生成しながら5段落目でキャラクターの話し方のパターンを失うモデルは、20段落にわたって一貫した声で有能な散文を生成するモデルより劣っています。ワンショットの品質だけでなく、長いセッションの継続性をテストしてください。

出力サンプル：3モデル、1プロンプト

共有プロンプト： "午前2時、雨に濡れたダイナーに入る探偵のノワールシーンを始めてください。" 同じ温度（0.95）、同じTop-P（0.92）、同じリピートペナルティ（1.1）——モデルのみが変わります。以下の抜粋は3回の実行にわたってこのプロンプトクラスに対する各モデルの典型的な出力を代表しています。

Llama 3.3 70B — 「ドアの上のベルが2回鳴って沈黙した。雨が3歩踏み出す前にコートを伝ってシーツ状に流れ落ち、リノリウムに溜まった。カウンター越しの女性は顔を上げなかった。奥のブースにいる2人のトラック運転手はコーヒーを研究していた。深夜2時にこんな場所にいる誰もが注目されたくなかった——そして私もそうだった。」 — *具体的な感覚的根拠、能動態、無駄のない言葉。社会的シーンが3文で確立されています。*
Qwen3 32B — 「タバコの煙とグリルの油の壁の中にドアを押し進んだ。ダイナーは半分空で完全に静かだった——人々が言葉なしで、お互いを放っておくことに同意したときに漂う静けさだ。天井のファンが回っていた。ウェイトレスはカウンターの遠端でマグカップを補充していたが、私を見なかった。」 — *行動前の環境的なセットアップ；効率的な雰囲気。Llama 3.3より若干構造的ですが、同様に清潔。*
Yi-1.5 34B — 「雨は、誰も覚えていたくない夜の最後の時間を数えるメトロノームの規則性でひさしを叩いた。内部では、蛍光灯が冷たい算術をラミネートにかけていた——全てのシミ、全ての傷、エントロピーとの議論に負け続けてきた全ての年。近端のスツールを見つけ、何かとすでに折り合いをつけた男のように腰を下ろした。」 — *最初の節から比喩主導；文のリズム変化；より濃いイメージ。Yi-1.5の詩的背景が散文でも見えます。*

モデル	典型的な書き出し	典型的な描写パターン
Llama 3.3 70B	アクション優先、即座の感覚的描写	具体的・身体的；抽象名詞を避ける；社会的根拠あり
Qwen3 32B	キャラクターの行動前に環境観察	効率的；社会的・雰囲気的描写；わずかな構造的特徴あり
Yi-1.5 34B	最初の節から比喩または直喩	抽象的なイメージ；リズム変化；より密度が高い；時折過度に凝った表現
Command R+ 104B	キャラクターの声またはダイアログに近い書き出し	会話的；強く独特な声；単独描写はやや弱い
Mistral Large	シーン設定段落；ゆっくりした始まり	均一でコントロールされている；長文でも一貫；やや汎用的

📌Note: これらの抜粋は複数の実行にわたる各モデルの傾向を示すものであり、チェリーピックされたハイライトではありません。Yi-1.5 34Bの「エントロピーとの議論に負け続けてきた」は3回の実行のうち1回に登場しました；残りの2回はよりシンプルでした。同じプロンプトでどのモデルも2〜3回実行し、単に最初の出力ではなく、シーンに合ったものを選んでください。

クリエイティブ作業における温度とTop-P

クリエイティブライティングはコードよりも高いサンプリング温度を必要とします。 ほとんどのチャットUIに搭載されているデフォルトのサンプリングパラメータは、散文ではなく質問応答に合わせて調整されています——温度0.7とTop-P 0.9はクリエイティブなプロンプトに対して平坦で予測可能な出力を生成します。

散文のベースライン： 温度0.95、Top-P 0.92、リピートペナルティ1.1。これはほとんどの小説・ダイアログ・世界構築作業の出発点です。ここからタスクごとに調整してください。
タイトなダイアログ： 温度0.7〜0.85、Top-P 0.9。低い温度は交換にわたってキャラクターの声の一貫性を維持します；高い値はキャラクターらしくない合いの手を生成します。
抒情散文と詩： 温度1.0〜1.2、Top-P 0.95。高い温度は詩を機能させる予期しない言葉の選択を解放します。
シュルレアリスムまたはジャンルフィクション： 温度1.1〜1.3、Top-P 0.95〜0.98。モデルをより一般的でないイメージと比喩の組み合わせを生成するよう促します。
プロット主導シーン（アクション・ミステリー・ひねり）： 温度0.85〜0.95、Top-P 0.9。新規性よりも方向性への追従を優先します。
リピートペナルティ1.1〜1.15 がほとんどのクリエイティブ作業に適した範囲です。高い（1.2以上）とモデルは繰り返しがスタイリスティックに意図的な場合でも単語の繰り返しを避けます；低い（1.0〜1.05）と長いシーンでモデルがループに入ります。
min_p（0.05〜0.1）： ピークトークン確率に対して確率カットオフを動的にスケーリングするTop-Pの新しい代替手段。非常に高いTop-P値の一貫性リスクなしに、クリエイティブなプロンプトではTop-P 0.9よりも許容的です。SillyTavernとKoboldCppのユーザーには、インターフェースがこれを公開している場合の2026年の推奨デフォルト；OllamaはそのままパススルーしてOllamaのOpen WebUI 0.5以降は詳細設定の下で公開しています。
DRYリピートペナルティ（乗数0.8、ベース1.75、許容長さ2）： 標準のrepeat_penaltyが見逃す句レベルの繰り返しを捕捉します。repeat_penaltyが個々のトークンを追跡するのに対し、DRYはn-gramシーケンスを追跡します——シーン1の「背筋が凍った」という陳腐表現はシーン4で再び現れそうになると抑制されます。モデルが自分の出力を見てそれを引き出し始める長いセッションのクリエイティブ作業に役立ちます。
現代のクリエイティブライティングベースライン（2026）： 温度0.95、min_p 0.05、DRY乗数0.8（ベース1.75、許容長さ2）。フロントエンドがmin_pやDRYを公開していない場合、Top-P 0.92も引き続き有効です——これらは古典的な設定の段階的な改善であり、必須の交換ではありません。
なぜこれらのパラメータが重要で、どのように相互作用するかについてのより完全な解説は、温度とTop-Pの制御をご覧ください。

💡Tip: モデルごとに1つの短いシーンでサンプリング設定をテストしてください——各設定で3回の実行、その後モデルが最も生き生きして聞こえながらプロンプトを失わない温度を選んでください。Llama 3.3 70Bで機能する設定はMistral LargeやYi-1.5には完全には移りません；モデルごとにキャリブレーションしてください。

無検閲モデル：その正体と重要性

無検閲は非倫理的を意味しません。 それはモデルのinstruction-tuningセーフティレイヤー（RLHFによる拒否）が除去またはバイパスされており、モデルが拒否またはサニタイズする代わりにプロンプトに従うことを意味します。著者は依然として著者であり、ツールは邪魔をするのをやめます。

「無検閲」が技術的に意味するもの。 Hermes 3やDolphin 3.0のようなモデルは、ベースモデル（Llama 3.3、Qwen3）の微調整バリアントで、成熟した・暴力的な・道徳的に複雑なプロンプトに対して拒否を生成するポストトレーニングRLHFパスが、プロンプトに従う微調整に置き換えられています。同じアーキテクチャ、同じベースウェイト、異なるポストトレーニング。
クリエイティブ作業での重要性。 成熟したフィクション（性的なシーンを含む文学小説・グラフィックな暴力を伴う犯罪小説・ホラー）、歴史的に正確な執筆（戦争・残虐行為・植民地時代の残酷さ）、道徳的に複雑なキャラクター（モデルが説得力ある悪役の声を出すことを拒否するケース）、instructモデルが関わることを拒否するロールプレイシナリオ。
弱点。 それらはプロンプトに従います——下手に書かれたプロンプトも含めて。instructモデルはしばしば漠然としたプロンプトを公開可能なものに柔らかくします；無検閲モデルは求めたものを正確に提供しますが、それが時々より悪いこともあります。著者の方向性がより重要になります。
倫理的な境界。 「モデルが書いてくれる」は、実在の人物を対象とする、実在または識別可能な個人が関与する非同意シナリオを描写する、または著者の管轄で違法なコンテンツを書くためのクリエイティブライティングのライセンスではありません。ローカルホスティングは法律を変えません；誰が草稿を見ることができるかを変えます。
法的背景（2026年5月、簡潔・非網羅的）。 EU AI法と加盟国の法律（特にドイツの刑法§184/§184c、フランスの刑法典第227-23条）は、生成された場所に関わらず特定のコンテンツカテゴリをカバーします。米国の猥褻法は生成ではなく公開に適用されます。商業出版では、草稿を生成したモデルは無関係です；規制されるのは公開された成果物です。
より詳しい解説については、無検閲モデルの倫理・法的背景・ベストプラクティスについてクリエイティブライティングのための無検閲ローカルLLM：倫理・合法性・ベストプラクティスをご覧ください。

📌Note: 無検閲はワークフローの選択であり、アイデンティティではありません。多くの著者はプロジェクトの大部分でinstructモデルを使用し、instructバージョンが拒否する特定のシーンには無検閲派生版に切り替えます。同じOllamaセットアップに2モデルをインストールするのが一般的なパターンです。

クリエイティブ作業向けフロントエンド

執筆するチャットUIはモデルと同じくらい重要です。 2026年のクリエイティブライティングワークフローには3つの信頼できるフロントエンドの選択肢があります；ワークフローの形に合わせて選んでください。

Open WebUI — 汎用選択。ChatGPTのようなインターフェース、ワンクリックでモデル切り替え、システムプロンプトによるキャラクターカード、コンテキスト用のドキュメントアップロード。チャットの形があなたの起草フローに合う散文多用の作業に最適です。
SillyTavern — ロールプレイとダイアログの選択。キャラクターカードエコシステム（Tavern v2仕様）、ペルソナ管理、世界構築のためのロアブック、複数キャラクターシーンのグループチャット。ダイアログ主導の作業と長期的なキャラクターや世界のプロジェクトに最適です。Command R+と無検閲派生版との相性が良いです。
AgnaiとRisuAI — SillyTavernの代替として絞り込まれたもの。軽量な機能セット、より簡単な初回実行、カスタマイズは少ない。SillyTavernがワークフローに対してオーバービルドに感じる場合に選んでください。
プレーンなOllama CLIとテキストエディタ — 最小限の選択。ollama run llama3.3:70bを実行し、ターミナルからシーンを草稿ドキュメントにパイプします。持続的なキャラクターコンテキストは失いますが、著者の集中力を得ます。
ロールプレイ重視のフロントエンドのヘッドtoヘッド比較については、SillyTavern vs Agnai vs RisuAI：ベストローカルロールプレイフロントエンドをご覧ください。

💡Tip: 起草と編集には異なるフロントエンドが必要です。生成にはSillyTavernを使用し（キャラクターの声、シーン作業）、その後チャットをプレーンテキストエディタにエクスポートして修正します。チャットウィンドウ内での編集は「モデルに修正してもらう」習慣を促進します——これは著者主導の修正ではなく、長期的なスキルリスクです。

選択：あなたの作品に合ったモデル

5つの質問に順番に答えると、ほとんどの著者は適切な選択に到達します。

📍 一文で説明

24 GB GPUならQwen3 32Bをデフォルトに；48 GB以上ならLlama 3.3 70Bを；長編作品ならMistral Largeを；ダイアログならCommand R+を；詩ならYi-1.5を；instructモデルが拒否するシーンにはHermes/Dolphinを。

💬 簡潔に説明

Qwen3 32Bはほとんどの著者にとって適切な出発点モデルです。特定のタスクタイプ（長編・ダイアログ・詩・成熟したシーン）がボトルネックになったときにスペシャリストに移行してください。同じマシンに2つのインストール（instruct版と無検閲版）はコストゼロです——両方がOllamaに存在でき、シーンごとに切り替えられます。

状況	おすすめ
48 GB以上のVRAMがあり、1つのモデルで全てをこなしたい	Llama 3.3 70B（instruct）+ Hermes 3（無検閲版）を同じOllamaで
24 GB GPUまたは32 GB Macがあり、安定したデフォルトを求めている	Qwen3 32B
小説を執筆中——長編の継続性を最優先にしたい	Mistral Large（ローカルが厳しければMistral La PlatformeのEUインフラ）
ダイアログが多い作品——キャラクターの声を一貫させたい	Command R+ 104B（軽量代替としてLlama 3.3 70B）
詩・韻文・抒情散文を書いている	Yi-1.5 34B
instructモデルが書く必要のあるシーンを拒否する	Hermes 3（Llama 3.3ベース）またはDolphin 3.0——成人向け以外はinstruct版を使用
最初は1つのモデルから始めて段階的に改善したい	Qwen3 32B——コンシューマーハードウェアでほとんどのワークフローをカバー；特定タスクが主軸になったら切り替える

💡Tip: ほとんどの著者はモデルを考えすぎてプロンプトを考えなさすぎます。キャラクターノート・声のサンプル・明示的なPOVを含む適切に作られたシステムプロンプトは、Qwen3からLlama 70Bに切り替えるよりも出力品質に対してより多くのことをします。クリエイティブ出力を一貫して向上させるプロンプト構造についてはペルソナプロンプティングをご覧ください。

クリエイティブライティングのためのローカルモデルを選ぶ・使う際のよくある間違い

間違い1：ベンチマークで最大のモデルを追いかける。 クリエイティブライティングのスコアは一般的なベンチマークリーダーボードとの相関が低いです。Yi-1.5 34Bは詩でLlama 3.3 70Bを上回り；Command R+は両方をダイアログで上回ります。リーダーボードのランクではなく、タスクで選んでください。
間違い2：コーディングスタイルのサンプリング設定を使用する。 温度0.2〜0.4は平坦で予測可能な散文を生成します。クリエイティブライティングにはTop-P 0.9〜0.95で0.8〜1.1が必要です。ほとんどのチャットUIのデフォルト設定はQ&Aに合わせられており、散文には合っていません。
間違い3：instructモデルをデフォルトにして、拒否されたら諦める。 instructバージョンはフィクションとして明示的に定義したシーンを拒否します；同じベースモデルの無検閲派生版はそれらを書きます。Ollamaに2つのインストールが回避策です。
間違い4：薄いシステムプロンプト。 「あなたは役立つアシスタントです」はクリエイティブ作業にとって最悪のプロンプトです。キャラクターノート・声のサンプル・POV・時制・トーンを含むシステムプロンプトは、どんなモデル切り替えよりも出力品質に対してより多くのことをします。何をすべきでないかを指定するためにネガティブプロンプティングと組み合わせてください（説明なし、過剰な装飾なし、「彼女は感じた」なし）。
間違い5：チャットウィンドウ内で編集する。 チャットでの生成は問題ありません；チャットでの編集は自分で修正する代わりにモデルに散文を修正してもらうという習慣を育てます。修正のために草稿をテキストエディタにエクスポートしてください；モデルがループにいないとき著者の声は強くなります。

⚠️Warning: クリエイティブAIで最大のスキルリスクは修正パスをアウトソーシングすることです。生成はモデルが恩恵をもたらす機械的な作業です；修正は散文をあなたのものにする部分です。モデルに修正させる著者は急速に声を失います——どの行が変わったかを指摘できない場合でも。

参考文献

Llama 3.3、Qwen3、Mistral Large、Command R+、Yi-1.5のHugging Faceモデルカード — 公式モデルドキュメントとライセンス。
Hermes 3（NousResearch）GitHubとモデルカード — Llama 3.3ベースの無検閲ファインチューン。
Dolphin 3.0（Cognitive Computations）モデルカード — 複数のベースモデルにわたる無検閲ファインチューン。
Ollamaモデルライブラリ — 利用可能なモデル、量子化オプション、上記で参照されるツール呼び出しサポートフラグ。
SillyTavernドキュメント — キャラクターカード仕様、ペルソナシステム、グループチャット機能。

よくある質問

2026年の小説執筆に最適なローカルLLMはどれですか？

ハードウェアが許す場合（Q4_K_Mで約42 GB VRAM）、Llama 3.3 70Bが最良の汎用選択です。24 GBリグでは、Qwen3 32Bが散文多用の作業で小さな品質差のある軽量なデフォルトです。長編継続性（小説）には、Mistral Largeの128Kコンテキストが差別化要因です。タスクタイプで選んでください；ほとんどの著者は最大のモデルを追いかけるよりも適切なスペシャリストから多くの恩恵を受けます。

無検閲のローカルLLMとは何で、いつ使うべきですか？

無検閲モデルは既存のベースモデル（通常Llama 3.3またはQwen3）のファインチューンで、成熟したまたは道徳的に複雑なプロンプトに対して拒否を生成するRLHFセーフティレイヤーが除去されています。モデルは断る代わりにプロンプトに従います。成熟したフィクション・争闘シーン・歴史的に正確な執筆、またはinstructモデルがフィクションとして定義されたシーンを拒否するワークフローに無検閲派生版（Hermes 3、Dolphin 3.0）を使用してください。著者は依然として著者です；モデルは邪魔をするのをやめます。

クリエイティブライティングにはどの温度を使うべきですか？

温度0.8〜1.1がクリエイティブライティングの範囲で、Top-P 0.9〜0.95と組み合わせます。タイトなダイアログには0.7〜0.85が必要です；抒情散文と詩には1.0〜1.2が必要です；シュルレアリスムまたはジャンル作品には1.1〜1.3が必要です。ほとんどのチャットUIのデフォルト（多くの場合Top-P 0.9で0.7）は質問応答用に調整されており、クリエイティブなプロンプトには平坦な散文を生成します。3つの設定で短いシーンをテストし、プロンプトを失わずにモデルが最も生き生きして聞こえる温度を選んでください。

ローカルのクリエイティブライティングモデルはChatGPTやClaudeと同等ですか？

ほとんどのプロンプトでは、はい——プライバシーとコストの優位性が支配するほど十分に近いです。フロンティアクラウドモデルは最も難しいクリエイティブタスク（50Kトークンを超える長編の一貫性、非常に難解な文化的参照、希少な言語）でまだリードしています。典型的なフィクションやロールプレイセッションでは、Llama 3.3 70BやQwen3 32Bでサンプリング設定をキャリブレーションした著者はGPT-5やClaudeとの一貫した品質差を見ないでしょう。負けるモデルは「0.7温度、一般的なシステムプロンプト」という扱いを受けたもの——それはどのクラウドモデルにも負けます。

ローカルモデルで完全な小説を書くことができますか？

それは執筆の手助けができます。128Kコンテキストを持つMistral Largeは5万語の草稿を切り捨てなしにメモリに保持できます；32Kコンテキストを持つLlama 3.3 70BとQwen3 32Bはセクションごとの起草が必要です。ボトルネックはモデルの能力ではありません——モデルが継続性を維持するために使用するアウトライン・キャラクター聖書・ロアブックのような著者の構造です。それらなしには、Mistral Largeでさえ脱線します。それらがあれば、トップの選択のいずれも長編の作業をまとめることができます。

無検閲モデルは違法なコンテンツを生成しますか？

instructモデルよりも多くはありません。両方ともプロンプトが求めるテキストを生成します；無検閲モデルはinstructセーフティレイヤーが拒否する成熟したテーマをより扱いやすくします。法的責任は著者と出版物に帰属し、モデルには帰属しません。EU AI法、ドイツの刑法§184/§184c、日本の児童ポルノ禁止法、米国の猥褻法は生成方法に関わらず特定のコンテンツカテゴリをカバーします。ローカルホスティングは法律を変えません；誰が草稿へのアクセスを持つかを変えます。

SillyTavernは成人向けロールプレイだけのものですか？

いいえ。SillyTavernはキャラクターカード・ペルソナ管理・ロアブックを持つチャット重視のフロントエンドです——ダイアログが多い、またはキャラクター主導の作業に便利です。多くの著者はロールプレイ以外のフィクション起草（複数キャラクターシーン、長期プロジェクトにわたる声の一貫性）に使用します。キャラクターカードエコシステムには成人向けコンテンツが含まれますが、それに限定されません；同じUIは文芸小説・脚本・ゲームナラティブ作業にも機能します。

ローカルのクリエイティブライティングはコーディングのワークロードとどう違いますか？

サンプリング設定とプロンプト構造が異なります。コーディングには温度0.2〜0.4、決定論的な出力、構造化（JSON、コード）出力、プロンプト内の明示的な制約が必要です。クリエイティブライティングには温度0.8〜1.1、より自由な出力、散文形式、より豊かなシステムプロンプト（キャラクターの声・POV・トーン・ジャンル規則）が必要です。同じモデル——Llama 3.3 70Bは両方に対応します——これらの設定によって全く異なる出力を生成します。クリエイティブモデルにコーディングスタイルのプロンプトを使うと平坦な出力になり；コーディングモデルにクリエイティブスタイルのプロンプトを使うと幻覚したコードになります。

どのローカルモデルが最も「AIらしさ」が少ないですか？

「AIらしさ」——「背筋が凍った」「タペストリー」「深く潜る」「ナビゲートする」といったフレーズやChatGPTスタイルの移行サマリー——は小さいinstructモデルでより頻繁に見られます。Llama 3.3 70BとQwen3 32Bは20B以下のモデルより少ない。Hermes 3はこのセットで最も少ない：RLHFの拒否パターントレーニングは多くの公式的な移行が導入された場所でもあり、それを除去すると両方が除去されます。「AIらしさ」削減のための最も影響力の高いレバーは、ネガティブな例を含むシステムプロンプト（「『背筋が凍る』『タペストリー』『深く潜る』は書かないでください」）であり、モデルではありません。

「背筋が凍る」という陳腐表現を避けるにはどうすればよいですか？

ネガティブな例を含むシステムプロンプトが最も影響力の高いレバーです——8〜12個の禁止フレーズを明示的にリストアップしてください（「『背筋が凍る』『タペストリー』『深く潜る』『見事に』『彼女は感じた』は書かないでください」）。温度をわずかに下げる（1.1の代わりに0.85〜0.95）と、モデルのストックランゲージへの傾向が減ります。リピートペナルティ1.1だけではこれを捕捉しません——フレーズは正確なトークンの繰り返しではありません。DRYペナルティ（乗数0.8、ベース1.75）はシーンをまたいでn-gramレベルでそれらを捕捉します。手動の修正パスが最終フィルターです。陳腐表現を一貫して除去するプロンプト構造についてはネガティブプロンプティングをご覧ください。

ローカルLLMを小説執筆に使う場合、個人情報保護法は関係しますか？

ローカルで動作するLLMは、テキストや会話データをいかなる外部サービスにも送信しません。そのため、個人情報保護委員会への届出義務や第三者提供に関する規定は通常適用されません。ただし、実在する識別可能な個人を題材とした創作物（実名や特定できる記述を含む場合）を第三者に公開する場合は、名誉毀損・プライバシー侵害に関する法律が適用されます。架空のキャラクターを用いた純粋なフィクションであれば、ローカル生成に個人情報保護法上の問題は生じません。

日本でローカルLLMを使って成人向けコンテンツを生成する場合、法的な注意点はありますか？

「児童買春・児童ポルノに係る行為等の処罰及び児童の保護等に関する法律」（いわゆる児童ポルノ禁止法）第7条は、AIによる生成物・フィクションを問わず、18歳未満の者を性的に描写するコンテンツの製造・所持・提供を絶対的に禁止しています。これはローカル生成・非公開であっても例外ではありません。成人同士のフィクションコンテンツについては、刑法第175条（わいせつ物頒布罪）は「頒布・公然と陳列」する行為を規制しており、未公開の私的生成は一般に適用外です。ローカル生成はデータをクラウドに送らないという意味では有利ですが、生成されたコンテンツへの法的責任は著者にあります。

← ローカルLLM活用に戻る