Ollama 0.19 MLX対応でMacのLLMが2倍速に

Ollama 0.19 MLX対応でMacのLLMが2倍速に アイキャッチ画像 AI自動化

「Ollamaで27Bモデルを動かしてるけど、とにかく遅い…」と感じている方、いませんか?

2026年3月30日、OllamaがAppleの機械学習フレームワーク「MLX」に対応したプレビュー版(v0.19)をリリースしました。これによりApple Silicon搭載Macでのデコード速度が約2倍に向上。重いモデルをギリギリ動かしていた環境が、一気に実用レベルに変わる可能性があります。

結論から言うと、アップデートだけでLLMの応答速度が大幅に上がります。

初めてOllamaを使う方は基本編から、すでにMac miniやMacBook AirでOllamaを運用している方は速度比較と応用編からどうぞ。

この記事では、MLX対応の概要・速度比較・導入手順・n8n自動化との組み合わせまで、まとめて解説します。

OllamaのMLX対応とは?30秒でわかる概要

まず「MLXって何?」というところから整理しましょう。

MLX(Machine Learning Xtend)は、AppleがApple Silicon専用に開発した機械学習フレームワークです。M1/M2/M3/M4/M5チップのUnified Memory(CPU・GPUが共有する統合メモリ)を最大限に活かせるよう設計されており、PyTorchやTensorFlowとは異なるアプローチで推論処理を行います。

これまでのOllamaは、Apple Silicon上でも内部的にはllama.cpp + Metal(AppleのGPU API)で動いていました。Metalは汎用GPUアクセスの仕組みなので、Apple Silicon特有のアーキテクチャを完全には活かせていませんでした。

今回のv0.19でMLXバックエンドが追加されたことで、Apple Siliconのニューラルエンジンやメモリバンド幅を本来の性能で使えるようになりました。特にM5チップでは新しいGPUニューラルアクセラレータが有効になります。

「コードは書けないけどOllamaは使ってる」という方にとって、今回の変化は設定変更ゼロで速度が上がるという点で非常にありがたいアップデートです。

旧バージョンとの速度比較

公式ブログに掲載された実測値を見てみましょう。テスト条件はAlibaba製のQwen3.5-35B-A3Bモデルを使用した場合の数値です。

バージョン プリフィル速度 デコード速度
Ollama 0.18(旧) 1,154 tokens/s 58 tokens/s
Ollama 0.19 MLX 1,810 tokens/s 112 tokens/s
  • プリフィル速度(プロンプトを処理するスピード):1,154 → 1,810 tokens/s(約57%向上)
  • デコード速度(テキストを生成するスピード):58 → 112 tokens/s(約93%向上、ほぼ2倍)

特に重要なのはデコード速度です。チャットで会話するときにテキストが流れてくる速さ、n8nのワークフローで長文を生成するときの処理速度、これらに直結するのがデコード速度です。ここが2倍になるのは体感レベルで明確にわかります。

この数値はApple M5チップでの計測です。M4 ProやM3 Maxといった旧世代でも改善効果は期待できますが、数値は異なります。32GB以上のUnified Memoryが推奨されており、大きなモデルほど恩恵を受けやすい傾向があります。

【基本編】Ollama 0.19 MLXプレビューを導入する

必要な環境の確認

まず自分の環境を確認しましょう。

  • 対応ハード:Apple Silicon搭載Mac(M1以降)
  • OS:macOS最新版(Ventura以降推奨)
  • メモリ:16GB以上。32GB以上を推奨(大きなモデルほど必要)
  • Ollama:v0.19以降(今回のアップデート対象)

Intel MacやWindowsでは今回のMLX対応の恩恵は受けられません。Apple Siliconに特化した最適化だからです。

これからMac miniを購入してローカルLLM環境を構築したい方には、Mac mini M4(Amazon)がコストパフォーマンスの高い選択肢です。24GBモデルでもGemma3 12Bや27Bは動作し、今回のMLX対応でさらに実用性が上がっています。

インストール・アップデートの手順

①Ollamaが未インストールの場合

公式サイト(ollama.com)からmacOS用インストーラーをダウンロードして実行します。またはターミナルで以下を実行:

curl -fsSL https://ollama.com/install.sh | sh

②既存のOllamaをアップデートする場合

Homebrewでインストールしている場合:

brew upgrade ollama

Ollamaのメニューバーアプリからアップデートしている場合は、メニューバーのOllamaアイコン → 「Check for Updates」からアップデートできます。

③バージョン確認

ollama --version

ollama version is 0.19.x と表示されれば成功です。

動作確認:モデルを起動してみる

アップデート後、お使いのモデルを起動して速度を確認してみましょう。

# Gemma3 12Bを起動する場合
ollama run gemma3:12b

# Qwen3.5-35Bを試す場合(32GB以上推奨)
ollama run qwen3.5:35b-a3b

ヘッドレス運用(Mac miniをサーバーとして使う場合)は、launchdのサービスを再起動するのを忘れずに:

launchctl stop com.ollama.ollama
launchctl start com.ollama.ollama

💡 実際にやってみた

Mac mini M4 Pro(24GB/512GB)でOllamaをヘッドレス運用しており、Gemma3の12Bと27Bを用途で使い分けています。12Bは日常的な要約タスクに、27Bは精度が求められる長文生成に割り当てていますが、27Bはメモリギリギリのせいかデコードが遅く、n8nのHTTP Requestノードから呼び出すとタイムアウト(30秒設定)に引っかかることが何度かありました。

Ollama 0.19にアップデートしてGemma3 27Bで同じプロンプトを走らせたところ、体感で明らかに改善しました。以前は長めの回答(500字程度)が返ってくるまで25〜30秒かかっていたのが、15秒前後に。n8nのワークフローでのタイムアウトも発生しなくなりました。

かかった時間:brew upgrade ollama とlaunchdの再起動で10分以内。動作確認含めても30分。

つまずいたポイント:launchdサービスの再起動を忘れていて、しばらく旧バージョン(0.18)のまま動き続けていました。ollama --version で確認するまで気づかなかった。アップデート後は必ず確認を。

結果:27Bモデルが実用レベルに。n8nの自動化ワークフローも安定して動くようになった。

【応用編】MLX対応で変わる実運用のポイント

NVFP4量子化でメモリ効率を上げる

Ollama 0.19ではMLXと同時にNVFP4(NVIDIA FP4フォーマット)のサポートも追加されました。

量子化(クォンタイゼーション)とは、モデルの精度を保ちながらファイルサイズとメモリ使用量を削減する技術です。これまでよく使われていたint4(4ビット整数)量子化より、NVFP4はモデルの表現力を損ないにくいとされています。

24GBのUnified Memoryでも、NVFP4量子化された35Bクラスのモデルが動作する可能性があります。Ollamaのモデルライブラリ(ollama.com/library)で「nvfp4」タグのついたモデルを探してみてください。

# NVFP4量子化モデルの例
ollama run qwen3.5:35b-a3b-coding-nvfp4

27Bモデルが遅くて困っている方は、同等以上の性能を持つ35B NVFPモデルを試してみる価値があります。

キャッシュ強化でn8n連携がさらに安定する

自動化ワークフローを組んでいる方にとって見逃せないのが、キャッシュ機能の強化です。

Ollama 0.19では以下の改善が加わりました:

  • 会話間のキャッシュ再利用:同じシステムプロンプトを使う複数の会話で、プロンプトの処理結果をキャッシュとして再利用。毎回ゼロから処理しなくて済む。
  • プロンプト内チェックポイント:長いプロンプトの途中に自動でチェックポイントが設定され、会話が分岐しても効率的にキャッシュを維持。
  • メモリ使用量の削減:キャッシュの賢い管理により、同じメモリ量でより多くのリクエストをさばける。

n8nから繰り返しOllamaのAPIを呼び出す場合、システムプロンプト(役割設定など)が毎回同じであればキャッシュが効いて処理が速くなります。バッチ処理や定期実行ワークフローでの効果が特に大きいです。

Mac miniヘッドレス運用でのOllama API活用

Mac miniをサーバーとして常時稼働させている場合、OllamaはOpenAI互換APIを提供しているのでn8nから直接呼び出せます。

n8nの「OpenAI」ノードか「HTTP Request」ノードを使い、ベースURLを変更するだけです:

# OllamaのAPIエンドポイント(ローカル)

http://localhost:11434/v1
# Mac miniを別のMacからネットワーク越しに使う場合 http://[Mac miniのローカルIP]:11434/v1

APIキーは任意の文字列(”ollama”など)を設定しておけばOKです。

MLX対応後はデコード速度が上がったことで、n8nのデフォルトタイムアウト内に収まるようになったケースが増えています。長文生成タスクを自動化したい方には、特に恩恵が大きいアップデートです。

よくある疑問と注意点

Q. MacBook Air(M2/M3)でも速くなる?

MLXはApple SiliconであればM1以降すべてで機能します。MacBook AirのM2やM3でも改善効果はあります。ただし、公式の速度比較はM5チップでの数値なので、実際の改善幅はチップ世代とモデルサイズによって異なります。

Q. 0.19はプレビュー版。安定版を待つべき?

個人のローカル環境で試す分には問題ありません。ただし、業務用途や本番の自動化ワークフローに組み込む場合は、安定版リリースを待つほうが安心です。公式GitHubのリリースノートを定期的に確認しておきましょう。

Q. Windows/LinuxでOllamaを使いたい場合は?

MLXはApple Silicon専用です。Windows・Linux環境ではMLXバックエンドは使われず、従来のllama.cppベースで動作します。クラウド上でOllamaを動かしたい場合は、XServer VPSのようなVPS環境にDockerでデプロイする方法があります。GPUなしでも動作しますが、Apple SiliconのMLX対応ほどの速度は出ません。

Q. 24GBモデルのMac miniでも恩恵はある?

あります。公式ベンチマークは32GB以上での数値ですが、24GBでのGemma3 27B運用でも体感できる速度改善が期待できます。ただし27Bモデルはメモリがタイトなので、NVFP4量子化モデルを試して余裕を持たせるのもおすすめです。

Q. アップデート後にモデルの再ダウンロードは必要?

不要です。Ollamaのバージョンをアップデートしてもダウンロード済みモデルはそのまま使えます。ollama list でモデル一覧が表示されれば問題ありません。

まとめと次のステップ

  • Ollama 0.19でMLXバックエンドに対応。Apple SiliconでのLLM速度が大幅向上
  • デコード速度が約2倍(58→112 tokens/s。M5+Qwen 35Bでの公式計測値)
  • NVFP4量子化対応で、24GBメモリでも35Bクラスのモデルが射程に入った
  • キャッシュ強化でn8n等の自動化ツールとの相性がさらに改善
  • 現時点はプレビュー版。安定版は今後のリリースで提供予定

Mac miniやMacBook AirでOllamaを運用している方は、まずbrew upgrade ollamaだけ試してみてください。設定変更ゼロで速度が変わります。

Gemma3 27Bの遅さに悩んでいた方、n8nとの連携でタイムアウトが出ていた方にとって、このアップデートは状況を変えてくれるはずです。

Mac miniでOllamaとn8nを組み合わせたローカルAI自動化の具体的な構築手順は、以下の記事も参考にしてください。

コメント

タイトルとURLをコピーしました