Issue #102026年5月21日

Stop trying to use Cline locally. r/LocalLLaMA's real answer for daily-driving Qwen3.6 27B + MTP.

Cloud agents fall apart on local models. Three scaffold-first tools the community is actually shipping with — SmallCode, PI Coding Agent, and little-coder — plus a decision matrix by VRAM.

思い違いをしていた

今週は別の記事を書きかけていました。Google Trends を見れば結論は明らかだったからです。直近12ヶ月で Cline 平均 62、Aider 27、Continue.dev 3。ランキングは明快、対比記事の構成も決まっている、と。

ところが r/LocalLLaMA で「Qwen3.6 27B + ローカル実機」の話題を直近30日で集計してみると、まったく違う景色が見えてきました:

Cline: 1件、スコア 2
Aider: 1件、スコア 21
Continue.dev: 0件
SmallCode: 1件、スコア 792
PI Coding Agent: 1件、スコア 256
little-coder: 1件、スコア 21（技術的に最も深い投稿）

Trends は嘘をついていました。「クラウドコーディングエージェント」のオーディエンスと「実際にローカルモデルを動かしている」オーディエンスはほぼ重なりません。先週の llama.cpp に MTP がマージされた件で生成速度は 2× になりました。次の問い — その上で何を動かすか — は、SEO 結果が示すのとは別の答えがあります。

なぜクラウドエージェントはローカルで崩壊するのか

この記事を書き直すきっかけになった 792 upvote のスレッドは、冒頭の一文がすべてを物語っています:

"I was frustrated that every coding agent (OpenCode, Cursor, Claude Code) assumes you're running GPT-5.4 or Claude Opus. If you try them with a local model like Gemma or Qwen they fall apart."

— r/LocalLLaMA 1tgecrq

このスレッドが指摘し、コメント欄でも全員に同意された4つの失敗モード:

ツールコール連鎖が壊れる — 3回以上の連続呼び出しで小さなモデルは一貫性を失う
コンテキストが溢れる — クラウドエージェントはファイル丸ごとプロンプトに突っ込む
多段タスクが崩壊する — あるステップの出力が次のステップの入力契約に合わない
エラーから回復しない — クラウドエージェントは「モデル自身が直してくれる」前提

MTP は Qwen3.6 27B を速くしました。Claude Opus にしたわけではありません。ローカルコーディングの問題はもはや速度ではなく、スキャフォールドのパラダイムミスマッチです。修正策は、小さなモデルのために ボトムアップで 設計されたツール — Cline をローカル向けに無理やり後付けしたものではなく。

スキャフォールドファーストな3つのツール

1. SmallCode — バイラルになった新顔

アンカー: r/LocalLLaMA 1tgecrq — 792 upvote / 350 コメント、5月18日
主張: Gemma 4 4B（アクティブパラメータ）で 87/100 のベンチマーク合格、OpenCode の 14B モデル 75% を上回る
コアトリック:
- 複合ツール (Compound tools) — 1つのツールで find+read+edit+verify を完結。モデルに4連続呼び出しをさせない
- 改善ループ — コード生成のたびに即座にコンパイル/lint し、エラーを自動でフィードバック
- 失敗時に分解 — 2回目のリトライで「同じことを繰り返す」のではなくタスクを細かく分割
- 自動エスカレーション — どうしても必要な1つのタスクだけ Claude/OpenAI に渡す、95% はローカルのまま
- コードグラフ — シンボル単位のインデックス、grep で断片を投げる代わりにグラフを歩く
インストール: npm install -g smallcode → LM Studio / Ollama を指定
欠けているもの: LSP なし、マルチセッションなし、デスクトップアプリなし

2. PI Coding Agent + plan-first スキル

アンカー: r/LocalLLaMA 1stjwg5 — 256 upvote / 106 コメント
主張: Qwen3.6 35B-A3B Q4_K_XL で実際のプロダクションタスクに耐えた
鍵となるアンロック: 1枚の plan-first スキルファイルが、モデルを5フェーズのループに強制する:
1. プロジェクトをサイレントに分析
2. 最大5つの確認質問を1ラウンドだけ
3. 依存順に並んだ具体的タスクを TODO.md に書く
4. ユーザー承認まで改訂ループ
5. 1タスクずつ実行し、完了したら [x] をマーク
なぜこれが効くか: 小さなモデルはコードは書けるが、200行の計画を頭の中に保持できない。スキルファイルが計画を外部化し、モデルは一度に1タスクだけ扱えばよくなる。
スキルファイルはスレッド本文にそのまま貼ってあります。 コピペで動きます。

3. little-coder + タスク形状ルーティング

アンカー: r/LocalLLaMA 1st4cqq — 21 upvote、しかし本グループで最も技術的に深い投稿
構成: RTX 5090 (Frodo) + RTX Pro 6000 96GB (Gandalf)、Frodo に Qwen3.6 35B-A3B、Gandalf に Qwen3-Coder-Next 80B (vLLM 経由)
主張: 実際の Go コード10タスクで 9/10 合格、コスト $0、所要 1489秒
転換点: 著者は最初「Aider 風のハーネス」を使い 3/10 しか取れませんでした。little-coder + ルーティング に切り替えたところ、単一モデルで 8/10、ルーティングで 9/10 に。
ルーティングポリシー:

一般的な Go モジュール作業    → Qwen3.6 + little-coder
SQL / ストア / マイグレーション → Qwen3.6 + little-coder
コンパイル / import の局所失敗 → ローカル Gandalf (Qwen3-Coder-Next) で修復
タイマー / 並行性バグ          → フロンティアモデルへエスカレーション or 専用 playbook

モデル外の決定論的修復: goimports、gofmt、go mod tidy、go test -timeout。これらはモデルにやらせない。
本質的な一文: 「正しい抽象化は『最良のモデルを選ぶ』ではない。『タスク形状と失敗モードでルーティングする』だ。」

ハードウェア別決定マトリクス

環境	推奨スタック
8〜12GB VRAM	SmallCode + Gemma 4 4B (Q4)
24GB VRAM (3090/4090)	PI Coding Agent + Qwen3.6 27B + MTP + plan-first スキル
32GB+ 単体 (5090)	PI Coding Agent + Qwen3.6 35B-A3B + MTP、もしくは SmallCode
デュアル GPU (24+24, 32+96)	little-coder + ルーティング (Qwen3.6 35B-A3B + Qwen3-Coder-Next 80B)
Mac M3/M4 36GB+	SmallCode または PI Coding Agent (LM Studio で GGUF + MTP)
6GB 以下	エージェントを諦め、1〜3B モデルでインライン補完に留める

実行前に runlocal.dev カリキュレーターで量子化込みの VRAM 余裕を確認してください。

旧勢力の最後の砦

Aider — インターネット全体ではいまだに最も名前を聞きますが、2026年5月の r/LocalLLaMA では 負けたベースライン として登場します。1st4cqq 曰く: 「以前の Aider 風ハーネスは同じタスクで 3/10 しか取れなかった」。死んではいませんが、いまやスキャフォールドファースト系ツールの比較対象です。
Cline — 検索ボリュームは高いが、ローカル LLM 圏での存在感は低い。Cline を使っているコミュニティは裏で Claude Sonnet / GPT-5.4 を動かしています。流れに逆らわないこと。
Continue.dev — インライン補完拡張としてはまだ有効。エージェントモードはローカル LLM ユーザーが時間を使う場所ではありません。Trends は下降、r/LocalLLaMA もそれを反映しています。

Japan corner: Kiro + Hermes

日本語圏のローカルコーディング界隈は、別系統のスタックに収束しつつあります: Kiro CLI + Hermes Agent + Ollama。Hermes が「どのタスクでどのモデルが発火するか」のルーティング問題を担当します。根底の洞察は同じ（スキャフォールドファーストはクラウドエージェントの後付けに勝つ）、構成要素が違うだけです。Hermes のルーティングパターンは独立した1号として深掘り予定です — サイドバーで済ませる話ではありません。

今週末のアクションプラン

24GB+ カード: PI Coding Agent + Qwen3.6 27B (MTP GGUF) をインストール、スレッドの plan-first スキルファイルをコピペ、バックログから実チケットを1つ流してみる。
8GB カード: npm install -g smallcode + Ollama 経由で Gemma 4 4B、SmallCode から指して小さなリファクタを実行。
デュアル GPU: little-coder をクローンし、自分のリポのコピーで著者の10タスク eval を走らせる。
VRAM 余裕を確認: runlocal.dev カリキュレーター → 自分のカードを選ぶ → MTP オーバーヘッド込みで量子化が収まるか確認。
デイリードライバーを共有: 1ti2ga0 (48GB デイリードライバースレッド、現在 153 コメント) に投稿してみる。

今週を超えてなぜ重要か

2026年前半の物語は「どのクラウドエージェントが勝ったか」ではありませんでした。それは 小さなモデルでクラウドエージェントのパラダイムが敗北した話 です。MTP がローカルを速くし、スキャフォールドファースト系ツールがローカルを 使える ものにしました。この2つを足したものが、いま r/LocalLLaMA のデイリードライバー層が実際に動かしているものです。

向こう60日の注目点:

SmallCode が LSP とマルチセッションを足すか — 足せば 8GB ユーザーが OpenCode を完全に捨てられる
誰かが 正準スキルライブラリ (plan-first + test-first + refactor + debug) を公開するか — PI Coding Agent ユーザーが毎回車輪を再発明する状況が解消される
little-coder のルーティングポリシーが独立ライブラリとして抽出されるか — 他のエージェントが採用できるようになる

このイシューから1つだけやるとしたら: いまの自分のローカルエージェントに plan-first スキルファイルを貼り付けてください。10分でできる、もっともレバレッジの高い変更です。

次号: 正準スキルライブラリ — ローカル LLM コーディングエージェントが標準搭載すべきもの、そして自分で書くべきもの。

← 全ての記事