ComfyUI –fastで画像生成を高速化する設定方法

ComfyUI --fastで画像生成を高速化する設定方法 アイキャッチ画像 AI自動化

ComfyUIで画像を生成していて、「もう少し速くならないかな…」と感じたことはありませんか?

起動パラメータに--fastを追加するだけで、画像生成の速度が20〜25%アップします。設定にかかる時間は2分。コードを書く必要もなく、起動ファイルを少し編集するだけです。

結論として、--fastはComfyUIの公式オプションで、WindowsのBATファイルからでも、macOSのターミナルからでも同じ方法で設定できます。

初めてComfyUIを使い始めた方は基本編から、すでに動かしている方は応用編からどうぞ。

ComfyUI –fastオプションとは?

そもそもComfyUIとは、画像生成AIをノード(ブロック)をつなぎ合わせて操作するツールです。AUTOMATIC1111のようなWebUIとは異なり、処理の流れを視覚的に組み立てられるため、自動化や複雑なワークフローに向いています。

その中で--fastは、ComfyUIを起動するときに指定できる実験的な最適化フラグです。

具体的には、以下のような内部処理を最適化します。

  • FP8行列演算(fp8_matrix_mult):重みの演算をFP8形式で高速化(NVIDIA 40系以降で特に効果大)
  • FP16累積計算(fp16_accumulation):線形演算を約20%高速化
  • cuBLAS最適化(cublas_ops):NVIDIA GPU向けの演算ライブラリを活用
  • 自動チューニング(autotune):初回実行時に最適な設定を自動選択

「精度を下げて速さを出す」仕組みのため、環境によっては画質にわずかな変化が出ることがあります。ただし、大多数の使用環境では目で見て違いがわからない範囲に収まっています。

Redditのr/StableDiffusionコミュニティでも「追加するだけで速くなった」という報告が多数あり、SDXL系やSD1.5系で特に効果的と言われています。

–fastが効く環境・効きにくい環境

設定の前に、お使いの環境を確認しましょう。GPUの種類によって効果の大きさが変わります。

環境 対応状況 期待できる効果
NVIDIA 40系(RTX 4070等) ◎ 最大の効果 FP8で最大2倍近い速度向上も
NVIDIA 30系(RTX 3080等) ○ 効果あり FP16加速で10〜25%アップ
AMD GPU(ROCm) ○ 一部効果あり 環境によって異なる
macOS(Apple Silicon/MPS) △ 限定的 体感しにくいケースも
CPU only △ ほぼ変化なし 効果は期待しにくい

また、--fastはPyTorch 2.4以降で安定動作します。ComfyUIを最新版に更新してから試すのがおすすめです。古いバージョンのままでは動作しないことがあります。

バージョンの確認方法:ComfyUIフォルダでターミナルを開き、git log --oneline -1を実行すると最新のコミット日時が確認できます。2024年以降のものであれば問題なく使えます。

【基本編】–fastを有効にする手順

Windowsの場合(BATファイル)

WindowsでComfyUIをBATファイルから起動している方は、そのファイルを編集するだけです。

ステップ1:BATファイルを探す

ComfyUIをインストールしたフォルダを開きます。run_nvidia_gpu.batrun_cpu.bat、またはComfyUI_windows_portableフォルダ内のrun_nvidia_gpu.batがあるはずです。対象ファイルを右クリックし、「メモ帳で編集」または「テキストエディタで開く」を選択します。

ステップ2:–fastを追加する

ファイルの中に以下のような行があります。

.\python_embeded\python.exe -s ComfyUI\main.py

または単純に

python main.py

この行の末尾に半角スペース + --fastを追加します。

.\python_embeded\python.exe -s ComfyUI\main.py --fast

すでに--listen--port 8188などのオプションがある場合は、その後ろに続けて追加します。

.\python_embeded\python.exe -s ComfyUI\main.py --listen --fast

ステップ3:保存して再起動

ファイルを上書き保存し、BATファイルをダブルクリックしてComfyUIを起動し直します。起動ログに特別な表示はありませんが、これで有効になっています。

起動後、ブラウザでComfyUIにアクセスして通常通り生成できれば設定完了です。

macOS / Linuxの場合(コマンド)

ターミナルやシェルスクリプトからComfyUIを起動している方は、コマンドの末尾に追加するだけです。

python main.py --fast

仮想環境(venv)を使っている場合も同様です。

source venv/bin/activate
python main.py --fast

毎回コマンドを入力するのが手間な方は、起動スクリプトを作っておくと便利です。

#!/bin/bash
cd ~/ComfyUI
source venv/bin/activate
python main.py --fast

上記をrun.shとして保存し、chmod +x run.shで実行権限を付けると、次回から./run.shだけで起動できます。

💡 実際にやってみた

Mac mini M4 Pro(24GB)でComfyUIのSDXL系モデルを動かし始めたとき、1枚あたりの生成時間が気になっていました。--fastを追加して試したところ、SDXL 1024×1024での生成が体感として速くなった印象でした。ただし、Mac(Apple Silicon/MPS)の場合はNVIDIA GPUほど劇的な変化にはならず、Windows機の方が恩恵を受けやすいことを実感しています。並行してFLUX.1のデバッグも進めていますが、こちらはそもそもプロンプトが無視されてしまう問題があり、速度より動作安定性の調査が先になっている状況です。SDXL系モデルで安定して動いている方にとっては、--fastは試す価値があるオプションです。

かかった時間:2分(コマンドへの追記のみ)

つまずいたポイント:macOS(MPS)では効果が限定的。NVIDIA GPUとのアーキテクチャの差を改めて実感した

結果:SDXL系で速度改善を確認。Mac miniはローカル画像生成環境として引き続き活用中

【応用編】–fastと組み合わせる高速化オプション

--fastに慣れたら、他のオプションと組み合わせることでさらに効果を高められます。ただし、追加しすぎると逆に不安定になることもあるので、1つずつ確認しながら進めましょう。

–use-pytorch-cross-attention

Attention計算にPyTorchのネイティブ実装を使うオプションです。環境によってはメモリ使用量が下がり、速度も改善されます。VRAMが少ない環境(8GB以下)で特に試す価値があります。

python main.py --fast --use-pytorch-cross-attention

–fp8_e4m3fn(モデルの精度変更)

モデルの重みをFP8形式にキャストするオプションです。VRAMを大幅に節約しながら速度も上がります。NVIDIA 40系以降のGPUで特に効果的です。古いGPUでは動作しないことがあるので、エラーが出たら外してください。

python main.py --fast --fp8_e4m3fn

–lowvram / –medvram

VRAMが少ない環境で安定させるオプションです。「CUDA out of memory」エラーが出るときに追加すると解消されることがあります。VRAM 10GB以上の環境では基本的に不要です。

python main.py --fast --medvram

推奨組み合わせ例

NVIDIA GPU(VRAM 8GB以上)で速さと安定性のバランスを取るなら、以下がよいスタートポイントです。

python main.py --listen --fast --use-pytorch-cross-attention

VRAM 6〜8GBでメモリが厳しい場合はこちら。

python main.py --listen --fast --medvram --use-pytorch-cross-attention

NVIDIA 40系GPUでフルに最適化するなら、以下も試せます。

python main.py --listen --fast --fp8_e4m3fn

よくあるトラブルと対処法

Q. –fastを追加したら起動しなくなった

ComfyUIのバージョンが古い、またはPyTorchが2.4未満の可能性があります。ComfyUIフォルダでターミナルを開き、git pullを実行して最新版に更新してから再試行してください。また、BATファイルやコマンドのスペルミスや余分なスペースがないかも確認しましょう。

Q. 速度が変わった気がしない

以下の点を確認してください。

  • Apple Silicon Macの場合、効果は限定的です(MPSはFP8演算の恩恵が小さい)
  • 最初の1枚は各種の初期化と自動チューニングで時間がかかります。2枚目以降で比較するとわかりやすいです
  • 512×512など小さいサイズでは差が出にくいことがあります。1024×1024以上で試しましょう

Q. 画像の色味や質感が変わった

--fastは演算精度をやや下げる仕組みのため、特定のモデルで色味が変わることがあります。その場合は--fastなしの状態と比較してみてください。多くのモデルでは問題ありませんが、モデルとの相性で調整が必要になることがあります。画質の優先順位はFP16 ≥ BF16 ≥ FP8の順番です。

Q. FLUX.1でも効果がある?

FLUX.1はSDXLとはアーキテクチャが異なるため、--fastの効果は環境によって変わります。そもそもFLUX.1でプロンプトが無視されるなどの問題がある場合は、LoRAの競合やCFGスケール設定、モデルファイルの破損などを先に確認する方が効率的です。

Q. 自動チューニングで最初の生成が遅い

--fastにはautotuneオプションが含まれており、初回実行時に最適な設定を調査するため、最初の1枚だけ通常より時間がかかることがあります。2枚目以降は正常な速度になります。

まとめ

  • ComfyUIの起動コマンドに--fastを追加するだけで画像生成が高速化する
  • WindowsはBATファイル、macOS/LinuxはコマンドやShスクリプトに追記(設定2分)
  • NVIDIA 40系GPUで最大の効果、Apple Silicon Macは限定的
  • --use-pytorch-cross-attention--fp8_e4m3fnとの組み合わせでさらに改善できる
  • 初回生成が遅くても、2枚目以降から速度改善を体感できる

ComfyUIをはじめとするローカルAI環境を1台にまとめたい方には、Mac mini M4(Amazon)が選択肢の一つです。Ollamaやn8nと並行稼働もできるので、自動化パイプラインの中心マシンとして活用できます。

ComfyUIで生成した画像をYouTube Shortsの素材に使う自動化フローについては、こちらの記事も参考にしてみてください。

VOICEVOXとComfyUIで音声付きShorts動画を自動生成する方法

コメント

タイトルとURLをコピーしました