[[📒Articles]] > [[📒2025 Articles]] ![[2025-08-24.webp|cover-picture]] [[Python]]にはそれなりに詳しい... けど絵や[[Stable Diffusion]]は玠人の゚ンゞニアが、[[Stable Diffusion Web UI]]を䜿っお蚘事のカバヌ画像を䜜成できるくらいになるたでの蚘録です。 ## 前提 ### 想定する読者 以䞋の読者を前提ずしお話を展開しおいきたす。 - [[Python]]や呚蟺゚コシステムに぀いお熟知しおいる - [[Windows]]のタヌミナル操䜜を行うこずができる ### マシンに぀いお [[MacBook Pro M4 Pro]]に[[Stable Diffusion Web UI]]環境を甚意しおしばらく䜿っおいたした。詳现は以䞋のノヌトに蚘録しおいたす。 <div class="link-card-v2"> <div class="link-card-v2-site"> <img class="link-card-v2-site-icon" src="https://publish-01.obsidian.md/access/35d05cd1bf5cc500e11cc8ba57daaf88/favicon-64.png" /> <span class="link-card-v2-site-name">Minerva</span> </div> <div class="link-card-v2-title"> 📜2025-07-26 Stable Diffusion Web UIをMacBook Pro M4 Proで詊しおみる </div> <div class="link-card-v2-content">WindowsからmacOSぞの移行ず、Stable Diffusionを久々に詊したくなった経緯から、MacBook Pro M4 Pro䞊でStable Diffusion Web UIをセットアップした。PythonやRustはmiseで管理し、SDXL察応モデルを遞定した。起動時の゚ラヌにはコマンドラむン匕数で察応し、ControlNetやVAEの導入も怜蚎した。</div> <img class="link-card-v2-image" src="https://publish-01.obsidian.md/access/35d05cd1bf5cc500e11cc8ba57daaf88/Notes/attachments/activity.webp" /> <a data-href="📜2025-07-26 Stable Diffusion Web UIをMacBook Pro M4 Proで詊しおみる" class="internal-link"></a> </div> %%[[📜2025-07-26 Stable Diffusion Web UIをMacBook Pro M4 Proで詊しおみる]]%% しかし、本気で画像生成にチャレンゞするなら、**絶察に高性胜な[[GPU]]を搭茉した[[Windows]]マシンを買ったほうがいい** です。私は2~3週間くらい[[MacBook Pro M4 Pro]]で頑匵っおいたしたが、スピヌドが段違いです。 以䞊から、環境構築呚りに぀いおは初めから[[Windows]]マシンを利甚しおいた䜓で話を進めおいきたす。 ### 環境 | ハヌド | 倀 | | --- | ----------------------------- | | マシン | [[DAIV KM-I7G6T]] (VRAM 16GB) | | グラボ | [[GeForce RTX 5060 Ti]] | | ゜フト | バヌゞョン | | --------------------------- | ---------- | | [[Windows 11]] | 10.0.26100 | | [[PowerShell]] | 7.5.2 | | [[Stable Diffusion Web UI]] | 1.10.1 | | [[Python]] | 3.10.6 | | モデル | バヌゞョン | | ------------------ | ---------- | | [[blue_pencil-XL]] | v7.0.0 | ## 背景 [[Stable Diffusion Web UI]]に本気で取り組み始めたきっかけに぀いおお話したす。 AIによる画像生成には、今たで[[ChatGPT]]を䜿っおいたした。特に2025幎3月末の倧幅パワヌアップは衝撃的で、それ以降は[[Minerva]]で利甚するカバヌ画像のほずんどを[[ChatGPT]]([[o3]])に䜜成しおもらっおいたした。 せっかくなのでオススメの蚘事を2぀貌っおおきたす。 <div class="link-card-v2"> <div class="link-card-v2-site"> <img class="link-card-v2-site-icon" src="https://publish-01.obsidian.md/access/35d05cd1bf5cc500e11cc8ba57daaf88/favicon-64.png" /> <span class="link-card-v2-site-name">Minerva</span> </div> <div class="link-card-v2-title"> 📘さよならWindows。33幎の日々よ </div> <div class="link-card-v2-content">33幎間䜿い続けたWindowsからmacOSぞ移行した理由や経緯、実際の移行手順やおすすめツヌル、キヌボヌドカスタマむズ、タヌミナル、画像・動画圧瞮、゚ディタ環境の違いなどを詳しく解説しおいたす。WindowsずMacの違いや移行のコツを知りたい方はぜひご芧ください。</div> <img class="link-card-v2-image" src="https://publish-01.obsidian.md/access/35d05cd1bf5cc500e11cc8ba57daaf88/%F0%9F%93%98Articles/attachments/2025-05-15.webp" /> <a data-href="📘さよならWindows。33幎の日々よ" class="internal-link"></a> </div> %%[[📘さよならWindows。33幎の日々よ]]%% <div class="link-card-v2"> <div class="link-card-v2-site"> <img class="link-card-v2-site-icon" src="https://publish-01.obsidian.md/access/35d05cd1bf5cc500e11cc8ba57daaf88/favicon-64.png" /> <span class="link-card-v2-site-name">Minerva</span> </div> <div class="link-card-v2-title"> 📘目指せ二刀流 VSCodeをNeovim色にコヌディネヌトしおみた </div> <div class="link-card-v2-content">VSCodeのNeovim颚カスタマむズ、キヌボヌド操䜜やUIのシンプル化、VSCode Neovim拡匵の導入方法などを、NeovimちゃんずVSCodeちゃんが察話圢匏でお届けしたす。</div> <img class="link-card-v2-image" src="https://publish-01.obsidian.md/access/35d05cd1bf5cc500e11cc8ba57daaf88/%F0%9F%93%98Articles/attachments/2025-06-02.webp" /> <a data-href="📘目指せ二刀流 VSCodeをNeovim色にコヌディネヌトしおみた" class="internal-link"></a> </div> %%[[📘目指せ二刀流 VSCodeをNeovim色にコヌディネヌトしおみた]]%% ### きっかけはAgentic Coding [[Stable Diffusion Web UI]]を䜿っおみようず思った間接的なきっかけ... 実は[[Claude Code]]です。[[Claude Code]]の登堎により、本職の人たちも亀えお䞀局[[Vibe Coding]]や[[Agentic Coding]]ブヌムになりたした。もちろん以前から䜿われおいた[[Cursor]]や、そのあずすぐに登堎した[[Gemini CLI]]も含みたす。 そんな[[Agentic Coding]]が持お囃される䞖の䞭ずは察照的に、私はずっず[[Agentic Coding]]による開発に吊定的でした。いえ、正確な蚀葉を遞ぶならば『奜きになれない』ずいう衚珟が奜たしいでしょう。 <div class="link-card-v2"> <div class="link-card-v2-site"> <img class="link-card-v2-site-icon" src="https://publish-01.obsidian.md/access/35d05cd1bf5cc500e11cc8ba57daaf88/favicon-64.png" /> <span class="link-card-v2-site-name">Minerva</span> </div> <div class="link-card-v2-title"> 🧠Agentic Codingに぀いお思うずころ </div> <div class="link-card-v2-content">AI、特にAgentic Codingに察しお思うずころを話の繋がりもなく぀ら぀らず曞き留めた脳内思考の文章。オヌプンワヌルドのモブキャラの぀ぶやきみたいなものだ。</div> <img class="link-card-v2-image" src="https://publish-01.obsidian.md/access/35d05cd1bf5cc500e11cc8ba57daaf88/Notes/attachments/brain.webp" /> <a data-href="🧠Agentic Codingに぀いお思うずころ" class="internal-link"></a> </div> %%[[🧠Agentic Codingに぀いお思うずころ]]%% ただ、それは私が[[Agentic Coding]]を詊そうずしおいる察象の問題ずも自芚しおいたす。 - 埗意分野であり、䌚瀟では牜匕する立堎にある - 私がプロダクティビティに匷い関心があり、゜フト・ハヌド面でスピヌドや効率化を培底しおいる - コヌドだけでなく仕様や蚭蚈も含め、可読性・メンテナンス性・フェヌズによるスピヌドずの取捚遞択などに匷いこだわりがある 正盎に蚀うず、『゚ンゞニアずいう本職に察する矩務感ず䜿呜感==だけ==でAIや[[Agentic Coding]]を远っおいる日々』です。 倚少はそれでも構いたせんが、私のモチベヌションの源泉はあくたで『自分や呚囲の成長』ず『創䜜掻動が充実するこず』の2぀です。今のずころ[[Agentic Coding]]がそれに倀するかずいうずしないでしょう。 ### 知識の呪いから脱华するには 䞀床物事を知っおしたうず、真に知らない人の立堎に立぀こずができなくなりたす。これは[[知識の呪い]]ずも蚀われおいたす。䞖間の[[Agentic Coding]]に察する情熱が、プログラミング未経隓者によるものが倧きいのであれば、私が詊すなら同様の条件䞋ずなる別の䜕かに察象を移したほうがよいず思いたした。 ずはいえ、興味がない分野のこずを続けるのは苊痛です。かずいっお興味があるこずは倧䜓もうそれなりに経隓を積んでしたっおいるものです。**『興味はあるし成果物は欲しいけど習熟床の䜎い分野はないか...』** ず考えたずきに浮かんできたものがデゞタル画像でした。 よくよく考えるず、調査を陀き、[[ChatGPT Plus]]で成果物の生成を目的にしおいた唯䞀のものがデゞタル画像だったので圓然ではあるのですが。 ## Stable Diffusion Web UI のむンストヌル READMEの `Installation on Windows 10/11 with NVidia-GPUs using release package` の手順に埓いたした。 <div class="link-card-v2"> <div class="link-card-v2-site"> <img class="link-card-v2-site-icon" src="https://github.githubassets.com/favicons/favicon.svg" /> <span class="link-card-v2-site-name">GitHub</span> </div> <div class="link-card-v2-title"> GitHub - AUTOMATIC1111/stable-diffusion-webui: Stable Diffusion web UI </div> <div class="link-card-v2-content"> Stable Diffusion web UI. Contribute to AUTOMATIC1111/stable-diffusion-webui development by creating an account o ... </div> <img class="link-card-v2-image" src="https://opengraph.githubassets.com/631570016ea89116cdcac412f68ef48e9aeaac7a020ebde54fd59dc18fb43f1b/AUTOMATIC1111/stable-diffusion-webui" /> <a href="https://github.com/AUTOMATIC1111/stable-diffusion-webui?tab=readme-ov-file#installation-on-windows-1011-with-nvidia-gpus-using-release-package"></a> </div> 起動たでは䞊手くいきたすが、いざ画像を生成しようずするず゚ラヌになりたした。 ```error RuntimeError: CUDA error: no kernel image is available for execution on the device ``` [[PyTorch]]の[[CUDA]]ビルドが[[GPU]]にあっおいないずいう゚ラヌメッセヌゞです。 ```error C:\Users\syoum\work\sd.webui\system\python\lib\site-packages\torch\cuda\__init__.py:215: UserWarning: NVIDIA GeForce RTX 5060 Ti with CUDA capability sm_120 is not compatible with the current PyTorch installation. The current PyTorch install supports CUDA capabilities sm_50 sm_60 sm_61 sm_70 sm_75 sm_80 sm_86 sm_90. If you want to use the NVIDIA GeForce RTX 5060 Ti GPU with PyTorch, please check the instructions at https://pytorch.org/get-started/locally/ ``` `sm_120` 向けでビルドされた[[PyTorch]]が必芁らしいので、゚ラヌメッセヌゞのURLから[PyTorchのStart Locally](https://pytorch.org/get-started/locally/)を開き、むンストヌルする必芁がありたした。Stableバヌゞョンで[[CUDA]]は最新を遞び、むンストヌルコマンドを生成したした。 ![[2025-08-17-21-13-54.avif]] [[Python]]を実行する仮想環境の䟝存関係を曎新する必芁があるため、`./sysmtem/python` 配䞋にお、䞊蚘の `Run this Command` を少しアレンゞしたものを実行したした。 ```powershell PS C:\Users\syoum\work\sd.webui\system\python> .\Scripts\pip.exe install torch torchvision --index-url https://download.pytorch.org/whl/cu129 Successfully installed torch-2.8.0+cu129 torchvision-0.23.0+cu129 ``` ## Checkpointのダりンロヌド [[Stable Diffusion]]で利甚するモデル本䜓のこずを[[Checkpoint]]ず蚀いたす。拡匵子は `.safetensors` の方が掚奚です。 モデルは[[blue_pencil-XL]]を䜿っおいたす。いく぀か[[Checkpoint]]を詊しおみたしたが、私の甚途では**アニメずゲヌムずリアルが混ざったようなテむスト**が奜たしく、[[blue_pencil-XL]]は䞀番むメヌゞに近かったからです。 <div class="link-card-v2"> <div class="link-card-v2-site"> <img class="link-card-v2-site-icon" src="https://civitai.com/favicon-blue.ico" /> <span class="link-card-v2-site-name">civitai.com</span> </div> <div class="link-card-v2-title"> blue_pencil-XL - v7.0.0 | Stable Diffusion XL Checkpoint | Civitai </div> <div class="link-card-v2-content"> Merge everything. Stable Versions: v7.0.0, v5.0.0 , v3.1.0 , v2.0.0 , v1.0.0 / LCM, Lightning versions If Civita ... </div> <a href="https://civitai.com/models/119012/bluepencil-xl"></a> </div> `Download (6.46 GB)` からダりンロヌドし、`.safetensors` ファむルを `./webui/models/Stable-diffusion` 配䞋に入れれば準備完了です。 ## Neovimちゃんを描いおみる 準備が敎ったので、ためしに実行しおみたしょう。モチヌフがないず難しいので、今回は[[Neovim]]ちゃんをモデルにしおみたす。 ![[neovim-chan-stand2.webp|384x576]] 1からプロンプトを曞くのは倧倉なので、[[ChatGPT]]([[GPT-5]])にプロンプト案を聞いおみたした。 ``` この画像をStable Diffusionに描いおもらうために必芁なプロンプトを教えお。ゎヌグル、マフラヌ、䞊着は特に再珟床を高くしたい。 ``` 以䞋のプロンプトが返っおきたした。 ```bash # postive prompt anime style, cute girl, green hair, short bob cut, wearing black goggles on her head, bright smile, green scarf, white coat with green accents, double-breasted buttons, black leggings, white boots with green straps, arms open, full body, standing, clean background ``` ```bash # negative prompt low quality, blurry, extra limbs, missing hands, distorted face, wrong goggles, messy scarf, asymmetrical coat, wrong colors, different hairstyle ``` これを以䞋のパラメヌタヌで実行しおみたす。 | パラメヌタ名 | 倀 | | --------------- | --------- | | Sampling method | DPM++2M | | Schedule type | Automatic | | Sampling steps | 20 | | Width | 512 | | Height | 768 | | Batch count | 1 | | Batch size | 1 | | CFG Scale | 7 | | Seed | -1 | > [!attention] > 䞊蚘のパラメヌタヌは同じ倀を䜿うこずが倚いです。そのため、**蚘茉のないパラメヌタヌは䞊蚘倀がデフォルト倀ずしお採甚される** ずいう前提で進めたす。デフォルト倀に倉曎があった堎合は郜床告知したす。 こんな画像ができたした。面圱はありたすが、パチモノ感が挂っおたすね...😅 ![[sd-webui-neovim-chan-default.avif|384x576]] > [!attention] > [[Stable Diffusion Web UI]]が生成した画像は[[PNG]]ですが、画像サむズを削枛するために本蚘事の画像はすべお[[AVIF]]に倉換しおいたす。そのため、オリゞナルの画像より荒い郚分があったり、[[Stable Diffusion]]のメタデヌタは埋め蟌たれおいたせん。ただ、今回取り䞊げる内容でそこが問題になるケヌスはないず思っおいたす。 > [!info] > [[CLIP interrogator]]を䜿った方法も詊したしたが、そっちは党く䌌おいなかったです。それに比べれば[[ChatGPT]]の提案するプロンプトはクオリティが高くおすごいず思いたす。 ## 参考画像を䜿っお顔を䌌せる いくら服が䌌おいおも、顔が別人だず同じキャラ感は出たせん。せっかく参考画像がありたすので、[[ControlNet]]ず[[IP-Adapter FaceID Plus V2]]を䜿っお顔の再珟床を䞊げおみたした。詳现は以䞋のサむトが参考になりたす。 <div class="link-card-v2"> <div class="link-card-v2-site"> <img class="link-card-v2-site-icon" src="https://ferret-one.akamaized.net/images/6455e45415a7954ed7cfcc51/original.png?utime=1683350612" /> <span class="link-card-v2-site-name">業界最安玚GPUクラりド | GPUSOROBAN</span> </div> <div class="link-card-v2-title"> 【Stable Diffusion Web UI】ControlNetの䜿い方たずめCannyの玹介 </div> <div class="link-card-v2-content"> この蚘事では、Stable Diffusion WebUIAUTOMATIC1111版・Forge版で、ContorlNetをむンストヌルする方法をたずめお玹介しおいたす。䜵せおControlNetのモデルの぀であるC ... </div> <img class="link-card-v2-image" src="https://ferret-one.akamaized.net/images/65cacf8c329f5c222f3b298f/large.png?utime=1707790220" /> <a href="https://soroban.highreso.jp/article/article-072"></a> </div> ### ControlNetのむンストヌル たずは、[[Stable Diffusion Web UI]]の `Extensions` タブからむンストヌルをしたす。 ![[2025-07-27-11-38-38.avif]] ![[2025-07-27-11-43-24.avif]] [[Stable Diffusion Web UI]] の再起動が必芁です。 ### IP-Adapter FaceID Plus V2のむンストヌル [[Hugging Face]]から `ip-adapter-faceid-plusv2_sdxl.bin` をダりンロヌドしお `./webui/models/ControlNet/` 配䞋に配眮したす。 <div class="link-card-v2"> <div class="link-card-v2-site"> <img class="link-card-v2-site-icon" src="https://huggingface.co/favicon.ico" /> <span class="link-card-v2-site-name">huggingface.co</span> </div> <div class="link-card-v2-title"> h94/IP-Adapter-FaceID at main </div> <div class="link-card-v2-content"> We’re on a journey to advance and democratize artificial intelligence through open source and open science. </div> <img class="link-card-v2-image" src="https://cdn-thumbnails.huggingface.co/social-thumbnails/models/h94/IP-Adapter-FaceID.png" /> <a href="https://huggingface.co/h94/IP-Adapter-FaceID/tree/main"></a> </div> ### LoRAのむンストヌル [[ControlNet]]の[[IP-Adapter FaceID Plus V2]]で䜿甚する[[LoRA]] `ip-adapter-faceid-plusv2_sdxl_lora.safetensors` をダりンロヌドし、`./webui/models/Lora/` 配䞋に配眮したす。 <div class="link-card-v2"> <div class="link-card-v2-site"> <img class="link-card-v2-site-icon" src="https://huggingface.co/favicon.ico" /> <span class="link-card-v2-site-name">huggingface.co</span> </div> <div class="link-card-v2-title"> h94/IP-Adapter-FaceID at main </div> <div class="link-card-v2-content"> We’re on a journey to advance and democratize artificial intelligence through open source and open science. </div> <img class="link-card-v2-image" src="https://cdn-thumbnails.huggingface.co/social-thumbnails/models/h94/IP-Adapter-FaceID.png" /> <a href="https://huggingface.co/h94/IP-Adapter-FaceID/tree/main"></a> </div> ### 顔が認識できない 以䞋の画像を指定しおみたずころ゚ラヌが出たした。 ![[neovim-chan-face1.webp|256x256]] ```error Exception: Insightface: No face found in image. ``` どうやらアニメ調の画像の堎合は顔認識されにくいみたいです...。 <div class="link-card-v2"> <div class="link-card-v2-site"> <img class="link-card-v2-site-icon" src="https://www.ipentec.com/favicon.svg" /> <span class="link-card-v2-site-name">www.ipentec.com</span> </div> <div class="link-card-v2-title"> Instant-ID, IP-Adapter Face-ID の入力画像にアニメ、挫画画像を蚭定するず "Exception: Insightface: No face found in image." が発生する | iPentec </div> <div class="link-card-v2-content"> Instant-ID の入力画像にアニメ、挫画画像を蚭定するず "Exception: Insightface: No face found in image." が発生する珟象ず、察凊法、怜蚌結果を玹介したす。抂芁Inst ... </div> <img class="link-card-v2-image" src="https://www.ipentec.com/document/images/document-category/stable-diffusion" /> <a href="https://www.ipentec.com/document/ai-image/stable-diffusion-controlnet-instant-id-error-exception-insightface-no-face-found-in-image"></a> </div> 背景を黒くするだけでは改善されなかったので、[[ChatGPT]]に画像をリアルにしおもらいたした。 ![[2025-08-18-00-30-34.avif|256x256]] これで画像生成はできるようになりたした。 ### 画像を生成しおみる [[Stable Diffusion Web UI]]の[[ControlNet]]から、[[IP-Adapter FaceID Plus V2]]を指定したす。 ![[2025-08-18-00-35-21.avif|frame-verticle]] [[Positive Prompt (Stable Diffusion)|Positive Prompt]]の最埌に以䞋を远加したす。 ``` <lora:ip-adapter-faceid-plusv2_sdxl_lora:0.8> ``` これで[[Neovimちゃん]]が再珟できるはず... ず思いきや装備ずか服ずかが色々違いたすね...。顔は以前より近づいたかもしれたせんが、キャラクタヌが幌児化しおしたっおいたす。 ![[sd-webui-neovim-chan-ip-adapter-face-id-plus.avif|384x576]] ## プロンプトを調敎する 枡せる情報はすべお枡しおしたったので、ここからはプロンプトで調敎しおいきたす。たずは[[Positive Prompt (Stable Diffusion)|Positive Prompt]]の敎備です。 ```bash # 珟圚のプロンプト anime style, cute girl, green hair, short bob cut, wearing black goggles on her head, bright smile, green scarf, white coat with green accents, double-breasted buttons, black leggings, white boots with green straps, arms open, full body, standing, clean background, <lora:ip-adapter-faceid-plusv2_sdxl_lora:0.8> ``` ### 意味ごずに分類する 1行で曞かれたプロンプトは非垞に芋にくいです。たずは構成ごずにブロック化したす。 ```bash # 党䜓の特城 anime style, clean background, # 人物の抂芁 cute girl, bright smile, arms open, full body, standing, # 顔・髪 green hair, short bob cut, wearing black goggles on her head, # 衣服 green scarf, white coat with green accents, double-breasted buttons, black leggings, white boots with green straps, # 情景 # LoRA <lora:ip-adapter-faceid-plusv2_sdxl_lora:0.8> ``` [[シヌド倀 (Stable Diffusion)|シヌド倀]]を倉えずに再生成するずほが同じ画像ができたす。 ### BREAKを远加する プロンプトは最倧75[[トヌクン (Stable Diffusion)|トヌクン]]からなる[[チャンク (Stable Diffusion)|チャンク]]で構成されおおり、各[[チャンク (Stable Diffusion)|チャンク]]内においおは先頭の[[トヌクン (Stable Diffusion)|トヌクン]]ほど生成物に圱響を䞎えたす。しかし、75ずいう[[トヌクン (Stable Diffusion)|トヌクン]]数を意識しお意図したプロンプトを぀くるのは至難の業です。 そこで、[[BREAKキヌワヌド (Stable Diffusion)|BREAKキヌワヌド]]を䜿いたす。プロンプトに `BREAK` を含めるず、以降の[[トヌクン (Stable Diffusion)|トヌクン]]を新しい[[チャンク (Stable Diffusion)|チャンク]]ずしおスタヌトできたす。そのため、ゞャンルの異なる[[トヌクン (Stable Diffusion)|トヌクン]]の集合前に[[BREAKキヌワヌド (Stable Diffusion)|BREAKキヌワヌド]]を眮いおおくず、意図が反映される可胜性が高たりたす。 ```bash # 党䜓の特城 anime style, clean background, BREAK # 人物の抂芁 cute girl, bright smile, arms open, full body, standing, BREAK # 顔・髪 green hair, short bob cut, wearing black goggles on her head, BREAK # 衣服 green scarf, white coat with green accents, double-breasted buttons, black leggings, white boots with green straps, BREAK # 情景 # LoRA <lora:ip-adapter-faceid-plusv2_sdxl_lora:0.8> ``` `BREAK` を入れたプロンプトで䜜成しおみたした。[[シヌド倀 (Stable Diffusion)|シヌド倀]]は同じです。この効果ず断蚀はできたせんが、絵のクオリティが䞊がっおいたす。 ![[sd-webui-neovim-chan-ip-adapter-face-id-plus-break.avif|384x576]] ### シヌド倀を倉える 本圓は䞊蚘画像の[[シヌド倀 (Stable Diffusion)|シヌド倀]]を䜿い続けたかったのですが、ここから先のプロセスで難易床が跳ね䞊がったため、郜合のよい別の倀を蚭定したした。 ![[sd-webui-neovim-chan-ip-adapter-face-id-plus-break2.avif|384x576]] | パラメヌタ名 | 倀 | | --------------- | -------------- | | Sampling method | DPM++2M | | Schedule type | Automatic | | Sampling steps | 20 | | Width | 512 | | Height | 768 | | Batch count | 1 | | Batch size | 1 | | CFG Scale | 7 | | Seed | **4154995054** | > [!hint] 銀の匟䞞はない > 䜕事もそうですが、すべおの状況で利甚できる銀の匟䞞な方法は存圚したせん。アンチパタヌンこそあるものの、『ずりあえずこれをやっおおけばOK』みたいな幻想は捚おたほうがいいず思っおいたす。[[シヌド倀 (Stable Diffusion)|シヌド倀]]を切り替えるのも回避策の1぀であるかなず。 ### マフラヌの再珟床を䞊げる 緑のマフラヌは[[Neovimちゃん]]のトレヌドマヌクなので、服が倚少倉わっおしたっおも再珟したいずころです。衣服のブロック先頭にマフラヌに関する现かな指定をするこずで、匷調したす。 ```bash # 党䜓の特城 anime style, clean background, BREAK # 人物の抂芁 cute girl, bright smile, arms open, full body, standing, BREAK # 顔・髪 green hair, short bob cut, wearing black goggles on her head, BREAK # [远加・倉曎] 衣服 a bright green thick knitted scarf wrapped once around the neck, scarf passed through itself in front, forming a small knot, ribbed knit pattern, chunky woolen texture, white coat with green accents, double-breasted buttons, black leggings, white boots with green straps, BREAK # 情景 # LoRA <lora:ip-adapter-faceid-plusv2_sdxl_lora:0.8> ``` ![[sd-webui-neovim-chan-ip-adapter-face-id-plus-break3.avif|384x576]] ### Negative Promptで䜙蚈な芁玠を消す マフラヌの再珟床は䞊がりたしたが、頭郚に謎のオブゞェが远加されおしたいたした。これはただマシな方で、マフラヌを指定するずかなりの確率でニット垜がセットで぀いおきおしたいたす。状況によっお効果のあるアプロヌチは倉わりたすが、今回は[[Negative Prompt (Stable Diffusion)|Negative Prompt]]に远加しおみたした。 ```bash low quality, blurry, extra limbs, missing hands, distorted face, wrong goggles, messy scarf, asymmetrical coat, wrong colors, different hairstyle BREAK, # [远加] 頭の装食を犁止 beanie, cat ears, animal ears, hats, hood, pom pom hat, winter hat, knitted hat, cap, ``` ![[sd-webui-neovim-chan-ip-adapter-face-id-plus-break-negative.avif|384x576]] #### Negative Promptの圱響を䟮らない [[Negative Prompt (Stable Diffusion)|Negative Prompt]]は『ずりあえずこれを入れおおけばOK』みたいな説明をされおいるこずが倚いです... が、[[Negative Prompt (Stable Diffusion)|Negative Prompt]]の圱響は䟮れたせん。おたじないのように入れおいた[[Negative Prompt (Stable Diffusion)|Negative Prompt]]の意味を理解しおいなかったこずで、それが求める画像のテむストを阻害しおいるケヌスにも倚く盎面したした。 個人的には **[[Negative Prompt (Stable Diffusion)|Negative Prompt]]は最小限に絞っお慎重に吟味する** 方がいい気がしおいたす。 ### 袖口・ポケット・裟・瞫い目を緑色にする オリゞナルの画像では緑色になっおいた袖口・ポケット・裟・瞫い目の色を反映させるため、[[Positive Prompt (Stable Diffusion)|Positive Prompt]]に远加したす。 ```bash # 党䜓の特城 anime style, clean background, BREAK # 人物の抂芁 cute girl, bright smile, arms open, full body, standing, BREAK # 顔・髪 green hair, short bob cut, wearing black goggles on her head, BREAK # 衣服 a bright green thick knitted scarf wrapped once around the neck, scarf passed through itself in front, forming a small knot, ribbed knit pattern, chunky woolen texture, white coat with green accents, double-breasted buttons, # [远加] green accents on cuffs, green pocket trim, green hemline, green seam lines along coat panels, green piping on seams, black leggings, white boots with green straps, BREAK # 情景 # LoRA <lora:ip-adapter-faceid-plusv2_sdxl_lora:0.8> ``` ![[sd-webui-neovim-chan-ip-adapter-face-id-plus-break4.avif|384x576]] 少し他の郚分にも緑が浞透しおいたすが、服のデザむンずしお違和感がなければ気にしなくおいいかなず思っおいたす。完璧な再珟を目指しすぎるず難易床が跳ね䞊がりたすので、適床な劥協はずおも倧事だず思いたす。 ### 䞍芁なものを消す 再び䞍芁なものを消したす。巊腕のワッペンは䞍芁なので[[Negative Prompt (Stable Diffusion)|Negative Prompt]]に远加したす。 ```bash low quality, blurry, extra limbs, missing hands, distorted face, wrong goggles, messy scarf, asymmetrical coat, wrong colors, different hairstyle BREAK, beanie, cat ears, animal ears, hats, hood, pom pom hat, winter hat, knitted hat, cap, # [远加] arm badge ``` ![[sd-webui-neovim-chan-ip-adapter-face-id-plus-break5.avif|384x576]] ## 手のクオリティを䞊げる [[ChatGPT]]ず比べるず[[Stable Diffusion]]は手が苊手な印象がありたす。遠目から党䜓を芋るずそこたで違和感なくおも、手のみにフォヌカスするずご芧の通り。指の本数が少なく溶けかかっおいたすね。 ![[2025-08-24-09-14-50.avif]] ![[2025-08-24-09-15-03.avif]] ### Hires. fixで解像床を䞊げる Webで怜玢するず、『[[Negative Prompt (Stable Diffusion)|Negative Prompt]]を駆䜿しお厩壊を防ぐ』『[[Inpainting]]で修正する』ずいう内容をよく目にしたすが、䞀番効果があるのは[[Hires. fix]]を䜿うこずだず思いたす。 ![[2025-08-24-09-34-16.avif]] | パラメヌタ名 | 倀 | 備考 | | ------------------ | -------------------- | --------------------- | | Upscaler | R-ESRGAN 4x+ Anime6B | 奜み。SwinIR_4x を䜿うこずもある | | Hires steps | 20 | 20以䞊はほが倉化がないため | | Denoising strength | 0.5 | 元画像ずの敎合性ずクオリティのバランス的に | | Upscale by | 2 | 瞊1536にしたいので | 生成された画像です。埮劙に衚情が倉わっおたすが、比范しなければ分からないほど埮々たるものなので、倧抵のケヌスは蚱容できるず思いたす。 ![[2025-08-24-09-40-33.avif|384x576]] 手の郚分にフォヌカスしおみたす。 ![[2025-08-24-09-42-23.avif|252x257]] ![[2025-08-24-09-42-42.avif|210x185]] 比范しおみるず、指の本数や溶け具合が改善されおいたす。 | Hires. fix なし | Hires. fix あり | | ----------------------------- | -------------------------------------- | | ![[2025-08-24-09-14-50.avif\|254x268]] | ![[2025-08-24-09-42-23.avif\|252x257]] | | ![[2025-08-24-09-15-03.avif\|210x206]] | ![[2025-08-24-09-42-42.avif\|210x185]] | > [!hint] [[Hires. fix]]は構図を決めおから䜿う > [[Hires. fix]]を䜿うずマシンの負荷が䞊がり、生成時間も数倍かかりたす。気に入らない構図の画像を綺麗にしおも意味がありたせん。たずは[[Hires. fix]]なしで [[Batch count (Stable Diffusion)|Batch count]] を䞊げお気に入った構図を芋぀けたら、[[シヌド倀 (Stable Diffusion)|シヌド倀]]を固定し、[[Hires. fix]]あり・[[Batch count (Stable Diffusion)|Batch count]] 1で枅曞するのがいいず思いたす。 ### Sampling stepsを増やす [[Sampling steps (Stable Diffusion)|Sampling steps]] 20は少ないので、30に増やしたす。 | パラメヌタ名 | 倀 | | --------------- | ---------- | | Sampling method | DPM++2M | | Schedule type | Automatic | | Sampling steps | **30** | | Width | 512 | | Height | 768 | | Batch count | 1 | | Batch size | 1 | | CFG Scale | 7 | | Seed | 4154995054 | 画像党䜓は倧きく倉わらないので、手の郚分だけ比べおみたす。右手の方が倉化が倧きいので巊手は割愛したす。せっかくなので40の堎合も比范しおみたした。 | steps | Hires. fix あり | 気になる点 | | ----- | ----------------------------- | ------------------------- | | 20 | ![[2025-08-24-09-42-23.avif]] | がやけお手が溶けおいる | | 30 | ![[2025-08-24-10-08-26.avif]] | 芪指の圢が明らかに倉。<br>小指も欠損しおいる。 | | 40 | ![[2025-08-24-10-07-48.avif]] | 芪指ず薬指が䞍自然 | 30にするずクオリティは䞊がりたしたが、芪指の圢が明らかに倉だったり、小指の先端が䞍十分です。40は芪指がより自然になったものの、謎のシミが぀いおいたり、薬指や小指呚蟺に違和感がありたす。 ### Inpaintingでピンポむントに修埩する 修埩する゚リアがここたで絞れれば、あずは[[Inpainting]]でなんずかなりたす。[[txt2img]]で生成した結果䞋のメニュヌから 🎚 のアむコンをクリックするず、そのたた[[img2img]]が開かれたす。 ![[2025-08-24-13-17-06.avif]] [[Positive Prompt (Stable Diffusion)|Positive Prompt]]ず[[Negative Prompt (Stable Diffusion)|Negative Prompt]]を遞択し、修正したい範囲 (右手) をマスクしたす。 ![[2025-08-24-13-14-53.avif]] [[Positive Prompt (Stable Diffusion)|Positive Prompt]]は曞き盎したした。そのたたにするず、手以倖のすべおのプロンプト内容を読み取っおホラヌになりたす...😱。マスクした範囲は手だけなので、自然な手や指、特に芪指を匷調した指瀺にしたした。 ```bash # positive prompt anime style, natural hand, natural finger, (natural thumb:1.3) ``` [[Negative Prompt (Stable Diffusion)|Negative Prompt]]は倉えおいたせん。もっず少なくおもいい気はしたすが、悪圱響なければ面倒なのでそのたたにしたした。 ```bash # negative prompt low quality, blurry, extra limbs, missing hands, distorted face, wrong goggles, messy scarf, asymmetrical coat, wrong colors, different hairstyle BREAK, beanie, cat ears, animal ears, hats, hood, pom pom hat, winter hat, knitted hat, cap, ``` 他のパラメヌタもかなり倧事です。 ![[2025-08-24-13-22-38.avif]] 以䞋のパラメヌタヌは適切に指定しないず氞遠に期埅する結果は埗られないず思いたす。 | パラメヌタ名 | 倀 | 備考 | | ----------------- | ----------- | -------------- | | Masked content | original | 元画像を尊重する | | Inpaint area | Only masked | マスクした領域のみを修埩する | | Resize by > Scale | 1 | 元画像ず同じサむズにする | 以䞋のパラメヌタヌは数倀を埮調敎しお期埅する結果に近づける必芁がありたす。正解がないので根気がいりたす。 | パラメヌタ名 | 倀 | 備考 | | ------------------ | ---- | --------------- | | Sampling steps | 30 | 元ず同じステップ | | Denoising strength | 0.65 | 元画像ずどれだけ倉化を぀けるか | `Denoising strength` は小さいず元画像からの倉化が小さく、倧きいず倉化が倧きくなりたす。䞀般的には 0.4 ~ 0.7 くらいが適切ず蚀われおいたすが、今回は芪指の圢状を倧きく倉える必芁があったため倧きめの `0.65` に萜ち着きたした。 結果はこのようになりたした。(10回くらい詊行したした) ![[2025-08-24-13-30-43.avif]] 芪指は髪の埌ろに隠れおいたす。[[Inpainting]]をした圱響で髪の連続性に違和感はありたすが、手や指の違和感よりは気づきにくいず思いたす。繰り返しになりたすが、**AIだけで完璧を目指すのには限界があるので、適床な劥協が非垞に倧事**だず思っおいたす。 ### 党䜓画像 手を修正した画像の党䜓を貌っおおきたす。 ![[2025-08-24-13-35-07.avif|384x576]] ## カバヌ画像を぀くる ここたでは[[Neovimちゃん]]の再珟をしおきたしたが、瞊長の画像は蚘事のカバヌ画像には䜿えたせん。以䞋の情報をもずにベストなサむズを決めたす。 - [[OGP]]画像は `1200 x 630` がベストず蚀われおいる - 瞊 x 1.9 = 暪 の比率が良い - [[Hires. fix]]は64の倍数がよい - [[SDXL]]の適正解像床は `1024 x 1024 = 1048576` 以䞊から `960 x 512` たたは `1280 x 670` の画像を生成し、それぞれ2倍、1.5倍にスケヌルするこずにしたした。 ※ 今回採甚した解像床は玹介されおいたせんが、画面サむズに぀いおの説明は以䞋のサむトが分かりやすかったです <div class="link-card-v2"> <div class="link-card-v2-site"> <img class="link-card-v2-site-icon" src="https://romptn.com/article/wp-content/uploads/2024/03/cropped-roptn_logo_%E9%80%8F%E9%81%8E-32x32.png" /> <span class="link-card-v2-site-name">romptn Magazine</span> </div> <div class="link-card-v2-title"> 【SDXL】おすすめの画像サむズ(解像床)ずは最適な画質の蚭定方法を解説 </div> <div class="link-card-v2-content"> SDXL最適サむズ(解像床)のに぀いお培底解説基本蚭定から掚奚サむズ䞀芧、アスペクト比の調敎方法、高解像床化のコツたで解説。矎しい画像生成のために知っおおくべき蚭定ず、よくあるトラブルの察凊法を網矅。 ... </div> <img class="link-card-v2-image" src="https://romptn.com/article/wp-content/uploads/2025/03/%E6%96%B0%E3%82%B5%E3%83%A0%E3%83%8D_%E5%8E%9F%E6%9C%AC2-2-1-2.jpg" /> <a href="https://romptn.com/article/54914"></a> </div> ### 同じような服装ずシンプルな背景で サむズだけ `960 x 512` に倉曎しおから、他のパラメヌタは以前ず同じで生成し、[[Hires. fix]]で2倍にしたした。 ![[2025-08-24-18-38-25.avif]] [[Positive Prompt (Stable Diffusion)|Positive Prompt]]は少し倉えおいたす。背景の指定を远加したのず、䞀郚反映されなかった装備を匷調しお反映されるようにしたした。このぞんは[[シヌド倀 (Stable Diffusion)|シヌド倀]]やプロンプトの内容、画像サむズ、他あらゆる芁玠が絡んでくるので、[[LoRA]]などで匷く孊習させない限りは運の芁玠も倧きい気がしたす。 ```bash # positive prompt anime style, # [远加] [clean backgroundは削陀] background is like a terminal on macbook pro, long shot, BREAK cute girl, bright smile, arms open, full body, standing, BREAK # [倉曎] ゎヌグルが衚瀺されなかったので weight 1.2で匷調 green hair, short bob cut, (wearing black goggles on her head:1.2), BREAK # [倉曎] マフラヌが安定しなかったので weight 1.2で匷調 (a bright green thick knitted scarf wrapped once around the neck:1.2), scarf passed through itself in front, forming a small knot, ribbed knit pattern, chunky woolen texture, white coat with green accents, double-breasted buttons, green accents on cuffs, green pocket trim, green hemline, green seam lines along coat panels, green piping on seams, black leggings, white boots with green straps, BREAK <lora:ip-adapter-faceid-plusv2_sdxl_lora:0.8> ``` [[Negative Prompt (Stable Diffusion)|Negative Prompt]]は倉曎しおいたせん。 ```bash # negative prompt low quality, blurry, extra limbs, missing hands, distorted face, wrong goggles, messy scarf, asymmetrical coat, wrong colors, different hairstyle BREAK, beanie, cat ears, animal ears, hats, hood, pom pom hat, winter hat, knitted hat, cap, arm badge ``` ### お祭りっぜいや぀ せっかく倏なので、お祭りっぜいカバヌ画像も䜜っおみたした。サむズは `1280 x 670` です。メむンの人物以倖にも曞き蟌みたい情報が倚いずきは、サむズが倧きい方が安定しお出力される気がしおいたす。 ![[2025-08-24-18-52-44.avif]] [[Positive Prompt (Stable Diffusion)|Positive Prompt]]では服に関する倧半を削陀し、先頭に今回必芁な指瀺を蚘茉したした。䌌せなければいけない服が指定されおいるわけではないため、雰囲気さえあっおいればOKなので楜でした。 ```bash # positive prompt # Chat GPTに叩きを䜜っおもらっお自分で調敎. back view, green yukata, (looking around curiously:1.5) を぀けるこずでなんずかお祭回っおいる感のある構図に anime style, long shot, back view, wearing green yukata, walking through a japanese summer festival, (looking around curiously:1.5), lively night stalls, glowing paper lanterns, festival atmosphere, goldfish scooping stall, warm lights, bustling crowd, joyful mood, BREAK cute girl, full body, BREAK # [green eyes 远加] 目がお祭りの赀色に匕っ匵られるので # [1.2] ゎヌグルをかけさせるため匷調 green eyes, green hair, short bob cut, (wearing black goggles on her head:1.2), BREAK # [1.2] マフラヌを぀けさせるため匷調 (a bright green thick knitted scarf wrapped once around the neck:1.2), scarf passed through itself in front, forming a small knot, ribbed knit pattern, chunky woolen texture, BREAK <lora:ip-adapter-faceid-plusv2_sdxl_lora:0.8> ``` [[Negative Prompt (Stable Diffusion)|Negative Prompt]]は本質的な倉曎点はありたせん。 ```bash # negative prompt low quality, blurry, extra limbs, missing hands, distorted face, wrong goggles, messy scarf, asymmetrical coat, wrong colors, different hairstyle BREAK, # これはなくおも倧䞈倫な気がする... い぀もの衣装を安定させるためのプロンプトの名残 military uniform, navy uniform, officer coat, epaulette, armband, shoulder patch, gold trim, medals, rank insignia, BREAK beanie, cat ears, animal ears, hats, hood, pom pom hat, winter hat, knitted hat, cap ``` [[Hires. fix]]は1.5倍にしたした。たた、生成された画像の背景にお、明らかに䜍眮がおかしい人や金魚がいたため、その郚分だけ[[Inpainting]]で修埩したした。 ![[2025-08-24-19-00-53.avif|frame]] *巊端の金魚ず人、右端の金魚をマスク* [[#Inpaintingでピンポむントに修埩する]] で玹介した方法ず唯䞀違うのは、**Masked contentが `fill`** であるずいうこずです。今回は **修埩前の画像情報は䞀切䞍芁** であり、**他の背景に溶け蟌むこず** が求められおいるため `original` は遞びたせんでした。 ![[2025-08-24-19-01-55.avif]] ## おわりに 絵や[[Stable Diffusion]]は玠人の゚ンゞニアが、[[Stable Diffusion Web UI]]でカバヌ画像を䜜成できるようになるたでの蚘録を玹介したした。 ゚ンゞニアリングず画像生成、必芁な知識は党然違いたすが、[[AI]]に察するアプロヌチ(そしお恐らく[[AI]]関係なく...)ぱンゞニアリングのそれに近しいなずいう感想です。 具䜓的には以䞋の点が倧事だず思いたした。 - 党䜓から固めおいき、现郚は埌で調敎する - 適切な孊習情報、適切なプロンプトを指定する - [[AI]]に完璧を求めず90点くらいを目指す - 最埌の仕䞊げには人間の確認ずスキルが必須 たた、[[AI]]の生成物は**その道のプロ**が芋れば䞀瞬で倚数の違和感に気づくものだなず思いたした。各々の郚品では高いクオリティを維持しおいおも、考えるこずや調和させる察象が広がるに぀れお、それらを砎綻なく適合しおいくこずは難易床が跳ね䞊がるなず。少なくずも[[AI]]**だけ**でやろうずするなら。 ゜ヌスコヌドに䟋えるず、『個々のメ゜ッド実装はテストも含めおほが完璧だが、党䜓の蚭蚈や今埌の保守性を考えるず優れおいるずは蚀えない』ずいうものです。 絵も同様に、『個々のオブゞェクトはしっかり描けおいおも、それらが混ざりあったずきの敎合性をずるのは難しいのではないか...』ずいう気がしおいたす。**耇数の人物やモチヌフが登堎する期埅通りの絵を生成するのが難しい** ず蚀われおいるのがたさにそれかなず。(そう考えるず、それができる[[ChatGPT]]は本圓にすごい... 改めお) ずはいえ、私は本栌的に[[Stable Diffusion Web UI]]を匄り始めおただ2週間のヒペッコです。ただただ知らないこずは倚いですし、[[LoRA]]を䜿っお服を孊習させる詊みは近い内にチャレンゞしおみたいず思っおいたす。 自分の趣味に掻かせお、[[AI]]の孊習における基瀎も孊べる[[Stable Diffusion Web UI]]が利甚できるこずに感謝をし぀぀、゚ンゞニアリングやドキュメンテヌションずあわせお高みを目指しおいければず思っおいたす。