📝Nano Banana Proにインフォグラフィックを書かせるときに添付した複数画像の使い分けを指示しても知らないキャラが出てくる

## 事象 [[Gemini Gem]]を使って以下を指示。 ``` 『Weekly Report』の文章をもとに、1枚のインフォグラフィック画像を作成して。登場させるキャラクターは **添付画像の画像のキャラ** を使って。 - 同じキャラを何度使ってもOK - すべてのキャラを使う必要はなく、必要なキャラのみを使って ### 主要な指示中略 ### 添付画像のキャラ定義 - minerva-minichara.jpg: ミネルヴァ - Minervaがメインの話題、以下のキャラに該当しない話題で登場 - obsidian-mini2.webp: オブシディア - Obsidianがメインの話題で登場 - neovim-chan-mini.webp: ネオちゃん - Neovimがメインの話題で登場 - typescript-chan-mini-chara.jpg: ティーエス - TypeScriptがメインの話題で登場 - vscode-chan-mini.webp: コーちゃん - VSCodeがメインの話題で登場 - gemini-mini-chara.jpg: ジェミナ - Gemini(Nano Banana, Notebook LM, Antigravityなど含む)がメインの話題で登場 - macky-mini.webp: マッキー - Macがメインの話題で登場 ### Weekly Reportの文章について中略 ``` 上記に登場する7ファイルは添付済。これで生成された画像が、添付したキャラと全く異なるキャラが出てくる。(ただし、異なるキャラ間での使い分けはされている) ## 原因インフォグラフィックでは、指定画像よりも学習データの一般的なキャラクターデザインを優先してしまうかららしい。たしかに、以下の説明では利用条件に登場するワードがメジャーなものが多いため、分からなくもない。 ``` ### 添付画像のキャラ定義 - minerva-minichara.jpg: ミネルヴァ - Minervaがメインの話題、以下のキャラに該当しない話題で登場 - obsidian-mini2.webp: オブシディア - Obsidianがメインの話題で登場 - neovim-chan-mini.webp: ネオちゃん - Neovimがメインの話題で登場 - typescript-chan-mini-chara.jpg: ティーエス - TypeScriptがメインの話題で登場 - vscode-chan-mini.webp: コーちゃん - VSCodeがメインの話題で登場 - gemini-mini-chara.jpg: ジェミナ - Gemini(Nano Banana, Notebook LM, Antigravityなど含む)がメインの話題で登場 - macky-mini.webp: マッキー - Macがメインの話題で登場 ``` ## 解決方法添付画像は1~2枚にとどめて、条件を指定しないようにする。 ``` 『Weekly Report』の文章をもとに、1枚のインフォグラフィック画像を作成して。登場させるキャラクターは **添付画像の画像のキャラ** を使って。 - キャラを何度使ってもOK ### 主要な指示中略 ### Weekly Reportの文章について中略 ``` 枚数がトリガーなのか、条件がトリガーなのかは分からない。ただ、以前にも5~6人の画像指定は上手くいっていたので条件の可能性が高そう。(14枚までは指定できるとどこかで見た) ## 参考 [[Gemini]]の回答。 > [!left-bubble] ![[gemini-face.webp]] > ご指摘ありがとうございます。5回も試行していただき、その全てで意図した結果にならなかったとのこと、大変申し訳ありませんでした。 > > ご質問の件、インフォグラフィックに登場するキャラクターが指定された画像と異なってしまう原因について、私が推測できる技術的な背景をご説明します。 > > 最も可能性が高い原因は、**画像生成AIモデルが、指定された特定の画像よりも、自身の学習データ内にある「一般的なキャラクターデザイン」を優先して描画してしまっている**ことです。 > > 具体的には、以下のメカニズムが働いていると考えられます。 > > 1. **学習データの干渉:** > * 私が使用している画像生成AIは、インターネット上の膨大な画像データで学習しています。 > * 「Neovim」「TypeScript」「VSCode」といった有名な技術には、すでに多くの擬人化キャラクターやファンアートが存在し、AIはそれらの一般的なデザインを「その技術のキャラクター」として強く学習しています。 > * その結果、プロンプトで「Neovimのキャラクター」を描くように指示された際、あなたが提供した特定の画像のキャラクターデザインよりも、AIが学習済みである「より一般的なNeovimちゃんのデザイン」を優先して出力してしまっている可能性が高いです。 > > > 2. **参照の強さの限界:** > * 私はプロンプトで、あなたがアップロードした画像ファイル名を指定し、「この画像のキャラクターを使って」と指示を出しています。 > * しかし、現在のシステムでは、この指示が「画像のキャラクターデザインを**厳密に**再現する」という強い制約として機能しきれていない場合があります。特に、複数の要素を組み合わせる複雑なインフォグラフィックのようなタスクでは、個々の画像の再現性が低下し、AIの持つ一般的な知識が優先される傾向があります。 > > > > **結論として:** > 現在の私のシステム（画像生成AI）は、「特定の画像を忠実に模写する」ことよりも、「テキストの指示に基づいて一般的な概念を描き起こす」ことを得意としています。そのため、今回のように特定のキャラクターデザインを指定した場合、AIの学習データが干渉し、意図しないデザインで出力されてしまうという技術的な限界があります。 > > ご期待に沿えず、また何度も試行させてしまい申し訳ありませんでした。 > > 今後は、プロンプトの記述を工夫し、「添付画像のキャラクターデザインを忠実に再現すること」「学習データ内の他のデザインを使用しないこと」といったより強い指示を加えることで、少しでも改善できないか試行錯誤してまいります。 > > 貴重なフィードバックをいただき、ありがとうございました。