AI 生圖入門 · 3 分鐘看懂

讓 AI 生圖從「隨機」變「可控」

同一句 a cat 每次生出不同的貓，是因為決定權全在模型手上。這個範本教你用結構化 prompt把主體、風格、光線、構圖、配色一個個拿回來，讓同樣的輸入生出同一種畫面。

這頁讓你 3 分鐘知道這是什麼、能做出什麼、真的會動。要逐章、prompt 設計細節、完整對照的完整版，在實戰手冊裡。

What

這是什麼、解決什麼

想用 AI 生圖做產品（貼圖、頭像、角色、素材），常卡在「為什麼同一句話每次生出來都不一樣？怎麼把腦中的畫面準確描述給模型？哪些詞才真的有用？」

這個範本是「繪圖魔法師」系列的基礎 / 前置模組：用 Google Gemini（gemini-2.5-flash-image）當引擎，帶你從一句話 prompt 的痛點，走到結構化 prompt 設計。核心魔法不是模型，是 prompt 設計——同樣的欄位輸入，描述同樣的畫面，可控、可重現。

Outcomes

你會做出什麼

親眼看懂「一句話 a cat」為什麼每次都不一樣、不可控。
用主體 / 風格 / 光線 / 構圖 / 配色 / 負面詞組出一條結構化 prompt。
讀懂對齊真實 Gemini 的 client：怎麼 POST、怎麼從回應拿回 base64 圖片。
不用 API key、不連網，就跑完整套確定性測試驗證整條流程。
拿到真實 key 後，一行指令真的生出可重現的圖。

Quick Win

5 分鐘跑起來

需要 uv。跑測試不需要任何 API key，整套用本地假 Gemini server 驗證。

1. 取得並安裝（Ubuntu / Windows 通用）

git clone https://github.com/yazelin/gemini-image-starter.git
cd gemini-image-starter
uv sync

2. 跑 smoke test（最快的驗證，免 key、免連網）

uv run python client_smoke_test.py

3. 真實輸出

== tests/test_prompt.py ==
OK: prompt builder test passed

== tests/test_request.py ==
OK: request/response shaping test passed

== tests/test_gen_fake.py ==
OK: gen against fake Gemini server passed

OK: all checks passed

成功長這樣：看到 OK: all checks passed，就代表 prompt builder、請求／回應形狀、對假 Gemini server 的完整 build → POST → 解析 → 存檔整條都跑通了。要真的生圖，去 aistudio.google.com/apikey 拿免費 key 設成 GEMINI_API_KEY 即可。

Part 2 · 對照組

一句話 prompt → 結構化 prompt

Part 1（part1_naive/naive.py）只丟一句 "a cat"：姿勢、畫風、背景、光線全由模型替你決定，每次都不一樣。Part 2（app/prompt.py）把每個決定命名成欄位，同樣的輸入永遠組出同一條描述。

面向	Part 1：一句話 prompt	Part 2：結構化 prompt
輸入	`"a cat"`	主體 / 風格 / 光線 / 構圖 / 配色 / 負面詞
結果	每次都不一樣、不可控	同輸入同描述、可控可重現
核心魔法	無，交給模型隨機	prompt 設計

結構化 prompt 真的長這樣（demo_structured.py 的真實輸出）：

a cat sitting by a window, style: ukiyo-e woodblock print, lighting: soft morning light, composition: centered, close-up, color palette: muted indigo and gold. Avoid: text, watermark, extra limbs

核心一句：引擎只是工具，把畫面拿回控制權的是 prompt 設計。完整對照課在 docs/08。

All Chapters

完整章節（想一章一章讀完整版）

這頁是快速了解；下面每一章都是完整內容，在 GitHub 上點開就能讀。

00總覽 01快速開始 02架構 03逐步實作 04部署 05常見踩雷 06改造成你的場景 07工作坊與顧問 08prompt 工程（對照課）

要完整逐步？

這頁是快速了解。逐章讀懂、prompt 設計深入、踩雷清單、FAQ、部署都在實戰手冊（PDF）裡。

取得實戰手冊（免費）

留個 Email，我把完整 PDF 寄給你。

下載手冊 →

看原始碼 / 自己改

程式碼公開，直接拿去改、拿去用。

GitHub repo →

延伸資源：PromptFill（結構化提示詞工具）、prompts-vault（Nano Banana prompt 收集站）。真實案例：line-sticker-studio、catime。