ガイド2026年4月10日

CursorでローカルLLMを使う完全ガイド|OllamaとLM Studioで設定する方法

室谷東吾
監修者室谷東吾(@0x__tom

株式会社MYUUU 代表取締役 / 日本最大級AIコミュニティ「.AI」創設者(累計2,000名超)/ セプテーニ・ホールディングス(電通グループ)と資本業務提携 / 著書「お金を使わず、AIを働かせる『Dify』活用」(ぱる出版、3刷)/ Xフォロワー約2万人

テキトー教師
監修者テキトー教師(@tekitoo_T_cher

.AI 認定講師 / 教育×AIの専門家 / 累計300名以上にAI活用を指導 / 「テキトーに学ぶ」がモットーの実践派講師 / Xアカウント

CursorでローカルLLMを使う完全ガイド|OllamaとLM Studioで設定する方法

CursorでローカルLLMを使う完全ガイド|OllamaとLM Studioで設定する方法

室谷室谷
今回はCursorでローカルLLMを使う話をしていきましょう。これ、.AIコミュニティでも結構聞かれるテーマで・・・コスト的な理由でローカルLLMに興味持ってる人がすごく多いんですよね。
テキトー教師テキトー教師
受講生さんからも「Cursorのフロンティアモデルを使いすぎてAPI費用がかさむ」って相談は定期的に来ます。月$20のProプランを超えて追加課金になるパターン、ほんと多いんですよ(笑)
室谷室谷
そうなんですよね。でもここで気をつけてほしいのが、ローカルLLMに全部移行しようとするのは現実的じゃないケースも多いってこと。

Cursorのタブ補完やAgentモードの精度は、今のクラウドモデルが支えてる部分が大きいので・・・
テキトー教師テキトー教師
そうですね。「ローカルLLMに完全移行すれば無料になる」みたいな期待で始めると、精度が落ちてストレスになる人もいます。

用途を絞って使うのが賢いやり方だと思いますよ。
室谷室谷
今日はまさにそこを整理したいですね。どういうケースでローカルLLMが有効で、どう設定するか。

実際の設定手順も含めて話しましょう。
テキトー教師テキトー教師
CursorのローカルLLM設定、やってみると意外とシンプルで驚く人も多いです。ポイントを押さえれば30分かからずに動きますからね。

ローカルLLMをCursorで使うべき理由

室谷室谷
まず「なぜローカルLLMを使うのか」から整理しましょう。理由は主に3つあって、コスト削減、プライバシー保護、オフライン利用ですね。
テキトー教師テキトー教師
順番に言うと、コスト削減が一番わかりやすいですね。Cursorの料金プランを見ると、Proが月$20で、それを超えるとフロンティアモデルの追加料金がかかります。

開発ヘビーユーザーだと月$60〜$100になることもありますし。
室谷室谷
MYUUUでも複数プロジェクトを同時に動かしてるエンジニアは、普通にそのくらい使いますね。ローカルLLMで補えるところは補う、という使い分けをしてます。
テキトー教師テキトー教師
2つ目のプライバシー保護は、企業だと特に重要ですね。クラウドモデルだとコードが外部サーバーに送信されますから、機密性の高いプロジェクトやセキュリティポリシーが厳しい現場では使えないケースがあります。
室谷室谷
3つ目のオフライン利用も意外と重要で・・・新幹線でガッツリコーディングしたいときとか、ネット環境が不安定なところでも動くのは地味に助かります。
テキトー教師テキトー教師
講座で教えていて気づいたんですが、この3つの理由のうち、実際にローカルLLMに踏み切るきっかけになるのはほぼ「コスト」ですね。プライバシーは後から気づく人が多い(笑)

Cursorの料金プランとローカルLLMの位置づけ

Cursorの料金プラン一覧(公式サイトより)

テキトー教師テキトー教師
ここで整理しておきたいのが、Cursorの現在の料金体系との関係です。まとめるとこうなります。
プラン月額特徴
Hobby無料エージェントリクエスト・Tab補完に制限あり
Pro$20フロンティアモデル(Claude、GPT、Gemini)、MCP、クラウドエージェント
Pro+$60Proの3倍の使用量
Ultra$200Proの20倍の使用量、新機能への優先アクセス
室谷室谷
ローカルLLMはどのプランでも使えます。ただし、Cursorのタブ補完やAgentモードはCursorのクラウドモデルが動いてる部分が多いので、「ローカルLLMにしたら無料になる」わけじゃないんですよね。
テキトー教師テキトー教師
そこが誤解されやすいポイントです。ローカルLLMを使えるのは主に「Chat機能」で、タブ補完はCursorのプロプライエタリな仕組みなので、ローカルモデルに置き換えることはできません。
室谷室谷
つまり「ChatのAIをローカルLLMで代替することでフロンティアモデルの消費を抑える」というのが実態ですね。それでも有効なユースケースはたくさんあります。

OllamaでローカルLLM環境を構築する

Ollamaの公式サイト(公式サイトより)

室谷室谷
設定方法に入りましょう。CursorでローカルLLMを使う一番ポピュラーな方法がOllamaを使うやり方です。
テキトー教師テキトー教師
Ollamaは「オープンモデルでビルドするための最も簡単な方法」というコンセプトのプラットフォームで、ローカルでLLMを動かすためのランタイム環境ですね。コマンド一発でモデルをダウンロードして実行できます。
室谷室谷
何が良いって、OpenAI互換のAPIエンドポイントを持ってるんですよ。http://localhost:11434/v1 でOpenAI形式のリクエストを受け付けるので、CursorのカスタムAPIキー設定と組み合わせて使えます。

Ollamaのインストール手順

テキトー教師テキトー教師
まずインストールから。OSごとのコマンドをまとめると以下です。

macOS / Linux:

curl -fsSL https://ollama.com/install.sh | sh

Windows(PowerShell):

irm https://ollama.com/install.ps1 | iex

Docker:

docker run -d -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama
室谷室谷
macOSの場合は からDMGファイルをダウンロードしてインストールする方法もあります。macOS 14 Sonoma以降が必要なので注意が必要です。
テキトー教師テキトー教師
インストール後はターミナルで ollama --version を実行して確認しましょう。正常にインストールされていればバージョン番号が表示されます。

コーディング向け推奨モデル

Ollamaのモデルライブラリ(公式サイトより)

室谷室谷
次にモデルの選択です。Ollamaで使えるモデルは数百種類ありますが、コーディング用途に絞ると選択肢はある程度絞れます。
テキトー教師テキトー教師
コーディング用途でよく使われるモデルをまとめるとこうなります。
モデル名パラメータ必要VRAM目安特徴
codellama7B / 13B / 34B4〜20GBMeta製コード特化モデル。軽量で高速
deepseek-coder6.7B / 33B4〜20GBコード精度が高い。日本語も比較的得意
qwen2.5-coder7B / 14B / 32B4〜20GBAlibaba製。多言語コードに強い
gemma34B / 12B / 27B4〜16GBGoogle製。バランス型。文書作成も得意
llama3.18B / 70B6〜40GBMetaのフラグシップ。汎用で高品質
室谷室谷
個人利用でGPUが8GB程度なら qwen2.5-coder:7bcodellama:7b あたりが現実的ですね。MYUUUのエンジニアが試したところ、qwen2.5-coderはコード補完の精度が良かったって話してました。
テキトー教師テキトー教師
受講生さんに多いのがM1/M2/M3 Macのケースなんですが、Apple Siliconは統合メモリでVRAMとRAMが共有されるので、16GB RAM搭載のMacなら13Bクラスのモデルがサクサク動きます。実はローカルLLMとApple Siliconの相性はかなり良いんですよ。
室谷室谷
そこは本当に重要なポイントで・・・NVIDIAのGPUがなくても、M1 MacBook Pro以降なら十分実用的なレベルで動かせます。

モデルのダウンロードと起動

テキトー教師テキトー教師
モデルのダウンロードはこのコマンドだけです。
# モデルをダウンロード(例: qwen2.5-coder 7Bモデル)
ollama pull qwen2.5-coder:7b

# 対話形式でモデルを起動
ollama run qwen2.5-coder:7b

# サーバーとして起動(APIとして使う場合)
ollama serve
室谷室谷
ollama serve を実行すると、デフォルトで http://localhost:11434 でサーバーが立ち上がります。これがCursorから参照するAPIエンドポイントになります。
テキトー教師テキトー教師
なお、macOSでOllamaをアプリとしてインストールした場合は、バックグラウンドで自動的にサーバーが起動するので ollama serve は不要です。

CursorとOllamaを連携する設定手順

CursorとOllamaの連携構造図

室谷室谷
ここがメインですね。CursorとOllamaをつなぐ設定方法です。
テキトー教師テキトー教師
Cursorには「カスタムモデル」を追加できる機能があって、OpenAI互換のエンドポイントを持つサービスなら何でも設定できます。OllamaはOpenAI互換APIを持っているので、これを使います。
室谷室谷
設定は Cursor Settings(Cmd+, / Ctrl+,)から行います。

設定手順(ステップバイステップ)

テキトー教師テキトー教師
手順をまとめると以下になります。
  1. Cursorを開いて Settings(歯車アイコン または Cmd+,)を開く
  2. 左メニューから Models を選択
  3. OpenAI API Key のセクションを見つける
  4. Base URLhttp://localhost:11434/v1 に設定する
  5. API Keyollama(任意の文字列でOK)と入力
  6. + Add Model ボタンをクリックして、使いたいモデル名(例: qwen2.5-coder:7b)を追加
  7. 追加したモデルをデフォルトに設定してテスト
室谷室谷
API Keyは実際には使われないんですが、空欄だとエラーになるので ollama という文字列を入れておくのが定番ですね。
テキトー教師テキトー教師
このあたりはOllamaの公式ブログ( but unused(必須だが使用されない)」という扱いです。
室谷室谷
設定後は実際にCursorのチャットで動作確認してみましょう。シンプルなコード生成リクエストを投げてみて、ローカルモデルが返答してくれれば成功です。

動作確認とトラブルシューティング

テキトー教師テキトー教師
設定したのに動かない、というケースで一番多い原因がOllamaサーバーが起動していないことです。Cursorを開く前にOllamaが起動しているか確認しましょう。
室谷室谷
ブラウザから http://localhost:11434 にアクセスして「Ollama is running」と表示されれば、サーバーは正常に動いてます。
テキトー教師テキトー教師
よくあるトラブルをまとめると、こんな感じです。
症状原因対処法
モデルが応答しないOllamaサーバー未起動ollama serve または アプリを起動
「Connection refused」エラーポート11434が使えないファイアウォール設定を確認
レスポンスが遅いモデルサイズが大きすぎる小さいモデル(7B以下)に変更
モデルが見つからないpullしていないollama pull {モデル名} を実行
室谷室谷
あとARMベースのMacで動かす場合は特に問題ないんですが、古いIntel Macで重いモデルを動かそうとするとかなり遅くなります。7BモデルでもCPUだけだと厳しいケースがあるので・・・そこは現実的なスペックかどうか先に確認しておくのが大事ですね。

LM Studioを使う方法

室谷室谷
OllamaだけじゃなくてLM Studioという選択肢もあります。GUIで操作できるのでエンジニアじゃない人でも使いやすい。
テキトー教師テキトー教師
LM Studioの特徴は「ローカルコンピュータでAIモデルをプライベートに実行できるデスクトップアプリ」という点ですね。インストールして起動すると、モデルの検索・ダウンロード・実行が全部GUIでできます。
室谷室谷
こちらもOpenAI互換エンドポイントを持っていて、デフォルトで http://localhost:1234/v1 で動きます。Cursorの設定は Base URL をこのURLにするだけで、Ollamaと同じ要領で使えます。
テキトー教師テキトー教師
インストール方法はLM Studioの公式サイト(
# Mac / Linux
curl -fsSL https://lmstudio.ai/install.sh | bash

# Windows PowerShell
irm https://lmstudio.ai/install.ps1 | iex
室谷室谷
OllamaとLM Studioの使い分けとしては、ターミナル操作が慣れてる人はOllama、GUIで管理したい人はLM Studioって感じですね。機能的には大きな差はないです。
テキトー教師テキトー教師
受講生さんで「コマンドラインは苦手」という方にはLM Studioを勧めることが多いです。モデルのダウンロードや切り替えが視覚的にできるので、最初の壁が低いんですよ。

ローカルLLMとクラウドモデルを使い分けるベストプラクティス

室谷室谷
実際の使い方として、「ローカルLLMをメインにして、クラウドモデルは重要な作業だけ使う」というハイブリッド運用が現実的だと思っています。
テキトー教師テキトー教師
講座でコミュニティのメンバーさんに教えているのも、タスクによって使い分けるアプローチですね。整理するとこういう分け方が使いやすいです。
室谷室谷
まとめるとこうなります。
タスク推奨モデル理由
軽いコード補完・修正ローカルLLM(7B〜)速度優先、精度的にも十分
コードの説明・ドキュメント生成ローカルLLM(7B〜)コスト効率が良い
複雑なアーキテクチャ設計クラウドモデル(Claude、GPT)高い推論能力が必要
バグの根本原因分析クラウドモデル深い文脈理解が重要
セキュリティが重要なコードローカルLLM外部送信を避けたい
新しいフレームワークの学習クラウドモデル最新情報が必要
テキトー教師テキトー教師
このテーブルのポイントは、「単純・反復的なタスク → ローカル」「複雑・高精度が必要 → クラウド」という切り分けですね。ローカルLLMはフロンティアモデルに匹敵する精度ではないけれど、単純作業には十分実用的です。
室谷室谷
でも本当に面白いのは、ローカルLLMの精度がどんどん上がってきてること・・・DeepSeek-R1やQwen3クラスのモデルが7Bサイズでも動くようになってきてるので、1年前と比べると実用範囲がかなり広がっています。
テキトー教師テキトー教師
そうなんですよね。実はそうなんですよw。

受講生さんに最初にローカルLLMを触ってもらった時、「思ったより使えるじゃないですか」って反応がほとんどで。2年前のイメージを持ったまま「精度が低い」と思い込んでる人が多い。

ハードウェア要件と推奨スペック

室谷室谷
ローカルLLMで一番ネックになるのがハードウェアですね。スペックによって使えるモデルサイズが全然違います。
テキトー教師テキトー教師
実用的なスペックの目安をまとめるとこうなります。
環境使えるモデルサイズ速度感
M1/M2/M3 Mac(16GB)7B〜13B実用的(20〜40 tokens/sec)
M1/M2/M3 Mac(32GB)13B〜30B快適
M3 Max / M4 Max(64GB+)30B〜70Bクラウド並みに速い
NVIDIA RTX 4070(12GB VRAM)7B〜13BGPU加速で高速
NVIDIA RTX 4090(24GB VRAM)30B〜非常に高速
CPU only(Intel Mac / 古いPC)7B以下遅い(要忍耐)
室谷室谷
最近のM4系Macって、GPUとしての性能もすごく上がってきてて・・・VRAM問題がなくて統合メモリで大きなモデルを動かせるのは、ローカルLLM用途で本当に強いですね。
テキトー教師テキトー教師
個人開発者の視点だと、新しいMac Miniの24GBモデルがコスパ最強って言われてますよね。10万円以下で30Bクラスのモデルが動く環境が手に入りますから。
室谷室谷
そう、MacとOllamaの組み合わせってめちゃくちゃ使いやすいんですよ。NVIDIA GPUのドライバ問題を気にしなくていいし、設定も本当にシンプルで。

よくある質問(FAQ)

テキトー教師テキトー教師
受講生さんからよく来る質問をまとめておきますね。

Q. Cursorのタブ補完もローカルLLMに変更できますか?

テキトー教師テキトー教師
これは現時点ではできません。タブ補完(Tab Completion)はCursorのプロプライエタリな機能で、Cursorのクラウドサーバーと連携して動いています。

Chat機能のみローカルLLMに変更できます。
室谷室谷
ここを誤解してる人が多いですね・・・「ローカルLLMに切り替えたら完全に無料になる」というわけじゃないので、期待値の調整が必要です。

Q. Ollamaで複数のモデルを切り替えて使えますか?

室谷室谷
できます。Ollamaは複数のモデルを事前にpullしておけば、ollama run {モデル名} で切り替えられます。

Cursorのカスタムモデル設定も複数追加できるので、用途によって切り替えが可能です。
テキトー教師テキトー教師
実際の運用だと「軽いタスクはcodellama:7b、複雑なタスクはqwen2.5-coder:14b」のように使い分けている人が多いですよ。

Q. チームで共有できますか?

テキトー教師テキトー教師
できます。OllamaをDockerで動かして、チームが共有できるサーバーとして運用する方法があります。

ネットワーク内のPCから http://{サーバーIP}:11434/v1 でアクセスする形です。
室谷室谷
ただしこれはGPUサーバーを1台用意するコストが必要になります。小規模チームなら1台のハイエンドGPUマシンを共有する形が現実的ですね。

個々の開発者PCにGPUを積むより、初期投資を抑えられます。

Q. プライバシー的に本当に安全ですか?

室谷室谷
Ollamaは完全にローカルで動くので、コードがOllamaのサーバーに送られることはありません。ただしCursorの設定によっては、Cursor自体のサービスとの通信は残ります。
テキトー教師テキトー教師
企業で使う場合は、IT部門やセキュリティチームと連携して、Cursor自体の通信設定(Privacy Mode等)も確認することをおすすめします。

Q. cursor ローカル llm ollama の設定でコードが返ってこない場合は?

室谷室谷
まずOllamaサーバーが起動しているか確認です。http://localhost:11434 にブラウザでアクセスして「Ollama is running」と出ればサーバーはOK。

次にCursorの設定でBase URLが正しく入力されているか確認してください。
テキトー教師テキトー教師
それでも動かない場合はターミナルで直接APIテストしてみましょう。
curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "qwen2.5-coder:7b",
    "messages": [{"role": "user", "content": "Hello"}],
    "stream": false
  }'

これでレスポンスが返ってくれば、OllamaのAPIは正常に動いています。

まとめ:CursorとローカルLLMの賢い使い方

室谷室谷
今回の内容をまとめましょう。CursorでローカルLLMを使うメリットは「コスト削減」「プライバシー保護」「オフライン利用」の3つ。

設定方法はOllamaかLM Studioを使ってOpenAI互換エンドポイントをCursorに設定するだけです。
テキトー教師テキトー教師
ポイントをまとめるとこうなります。
  • Ollamahttps://ollama.com)が最も手軽。`curl -fsSL https://ollama.com/install.sh | sh` でインストール
  • CursorのBase URLを http://localhost:11434/v1 に設定、API Keyに ollama と入力
  • コーディング向けモデルはqwen2.5-coder、codellama、deepseek-coderがおすすめ
  • Apple Silicon Mac(16GB以上) なら7B〜13Bモデルが実用的に動く
  • 完全移行ではなくハイブリッド運用が現実的。単純作業 → ローカル、複雑作業 → クラウド
室谷室谷
2026年の今、ローカルLLMの精度は2年前と全然違います。「試してみたけど使えなかった」という経験がある方も、最新モデルでもう一度試してみる価値は十分ありますよ。
テキトー教師テキトー教師
.AI(ドットエーアイ)コミュニティでもローカルLLM活用の事例が増えていますし、設定でつまずいた場合はコミュニティで聞いてみるのもいい方法だと思います。まずOllamaをインストールして、一個モデルを動かしてみるところから始めてみてください。
室谷室谷
最初の一歩は本当に30分もあれば踏み出せます。コスト削減とプライバシー保護を両立できるローカルLLM環境、ぜひ試してみてください。

出典

.AI TIMES一覧に戻る