在平溪天燈節這類大型夜間活動中,器材選擇往往直接影響拍攝彈性與成功率。由於天燈活動的拍攝重點主要集中於夜晚,因此使用具備良好高感光表現的相機,通常能為拍攝提供更大的曝光調整空間。無論是全片幅或 APS-C 片幅相機,重點並不在規格數字,而在於攝影者是否熟悉器材在高 ISO 下的畫質極限。鏡頭配置方面,廣角鏡頭幾乎是平溪天燈拍攝的必備選項,當大量天燈同時升空時,廣角鏡頭能完整收納夜空與地景,呈現活動的規模感。然而,僅依賴廣角往往會讓畫面流於紀錄,因此搭配標準或中長焦段鏡頭,有助於捕捉人物表情、書寫祈願等細節,讓整組影像更具有層次與變化。
本文介紹如何利用 Google Antigravity 結合 n8n 實現 AI 協作開發。教你從環境安裝、檔案連結、AI 分析優化到實戰視覺化除錯,大幅提升自動化工作流的品質。
在開發自動化流程時,手動撰寫複雜的 JSON 邏輯或處理節點報錯往往耗時費力。如果你也曾因為 n8n 流程太過龐大而感到頭痛,那麼 Google Antigravity 正是你的救星。這是一款強大的 AI 輔助開發工具,能直接讀取並修改你的本地檔案。本篇教學將帶領你結合 Gemini 3 Pro 的強大解析力,一步步優化你的自動化工作流,甚至能透過讀取 n8n 的 JSON 檔及圖片進行 AI 除錯,讓開發過程變得前所未有的輕鬆。
什麼是 Google Antigravity?
Google Antigravity 是 Google 專為「AI Agent(代理人)時代」打造的全新 AI 原生開發平台。它不僅是一個具備智慧補全功能的程式碼編輯器,更將 IDE、終端機與瀏覽器深度整合。其核心優勢在於能讓 AI Agent 跨介面執行任務,從自動讀取本地檔案、優化邏輯,到透過視覺化截圖進行除錯,都能在統一的環境下完成。
這篇教學詳解如何透過 n8n 串接 Apify 從自動抓取 Google Maps 商家數據、 AI 雜誌化文案編輯,到自動寄送推薦郵件與 LINE 即時通知。
在 LINE 群組討論聚餐時,最耗時的往往是收集餐廳資訊並整理成清單。即使有了關鍵字,手動切換 Google Maps 複製地址、評分與連結依然繁瑣。透過 n8n 串接 Apify 爬蟲工具與 Gemini AI ,我們能讓 LINE OA 化身專業美食編輯:只要輸入關鍵字,系統便會自動抓取地圖數據,並由 AI 撰寫成具備雜誌質感的推薦報告,甚至直接寄送到您的 Gmail 信箱存檔,徹底自動化您的探店工作流。
什麼是 Apify ? Apify 是一個集網頁爬蟲、自動化與雲端運行於一體的生態平台,透過豐富的現成工具(Actors)與強大的抗封鎖技術,讓使用者能高效採集網頁數據,並輕鬆串接至 AI 或各種自動化工作流中。
透過 n8n 與 Gemini 打造 LINE 語音轉文字助手!教您如何將群組內的錄音檔自動轉錄為繁體中文紀錄,大幅提升溝通與資訊處理效率。
在忙碌的 LINE 工作群組中,最怕遇到突如其來的語音訊息。當您正處於會議或吵雜環境時,不方便播放音訊,卻又擔心遺漏關鍵資訊中斷對話。透過自動化工具 n8n 與 Google 強大的 Gemini AI 語音分析技術,我們能將 LINE OA 升級為即時語音轉譯助理,讓群組語音自動轉化為精準的繁體中文紀錄,溝通不再有斷點。我們將延續如何用 n8n 自動備份 LINE 圖片與檔案至 Google 雲端硬碟的流程,快速擴充你的 LINE OA 功能。
步驟 3:回到畫布點選「Execute workflow」,接著到 LINE OA 聊天室傳送一段語音訊息,為了稍後其他節點測試使用。
步驟 4:點選進入 「 Code in JavaScript1 」 節點。
步驟 5:為了讓語音轉譯功能僅在特定群組運作,請將程式碼編輯區內容更改為群組過濾邏輯。 補充:新的程式碼將判斷訊息來源,僅允許指定群組 ID 或 1對1 私訊觸發後續流程。
JavaScript:
// ⚠️ Configuration: Add Allowed Group IDs here const allowedGroups = [ 'C_GROUP_ID_1_HERE', // Support Group 1 'C_GROUP_ID_2_HERE', // Support Group 2 ];
Meta AI 終於在台灣全面開放!這款深度整合社群的 AI 助理,不僅提供對話功能,其圖片生成能力更被譽為 Midjourney 的免費替代方案,Meta AI 的圖片生成技術值得一試。
你也發現了嗎?最近在滑 Facebook 或 Instagram 的時候,介面上似乎多了一個「藍色小圈圈」,這不是軟體改版,而是 Meta AI 終於在台灣上線了!這款 AI 聊天機器人其實早已在國外先行登場,經過一段時間的測試和滾動式更新,如今擴大給更多國家的用戶使用,其中也包含台灣。那麼,這個突然出現在社群介面裡的 AI,到底能幫上什麼忙?它又是否真的和其他 AI 聊天機器人有所不同,值得一試呢?
Meta AI 顧名思義就是由 Meta 推出的 AI 助理,因此一大特色便是與自家社群深度整合,包括 Facebook、Instagram、Messenger、WhatsApp 等。不過,其定位並不僅止於「社群內的聊天機器人」,而是結合產品布局與模型演進,逐步擴大應用情境。
社群起家的 AI 助理,深度整合 Meta 生態系
其實早在 2023 年 9 月,Meta AI 聊天機器人就已於 Meta Connect 大會上亮相。Meta AI 由客製化模型驅動,結合當時的 Llama 2(Llama 為 Meta 的開源大型語言模型)技術,主打更接近真人的自然互動體驗。起先 Meta AI 是直接內建於 Meta 旗下的社群平台中,並僅開放給美國用戶。
到了 2025 年 4 月,Meta 正式推出獨立的 Meta AI App,將使用情境從社群平台中擴大,也被外界視為正面迎戰 ChatGPT 的重要一步;此時,背後所使用的模型也已更新至 Llama 4。直到同年 11 月,Meta AI 宣布登陸台灣,並採取滾動式推送,近期才完成全面開放。
背後引擎:混合專家與原生多模態模型
作為 Meta AI 的核心引擎,Llama 4 是 Meta 首次採用「混合專家(MoE)」架構的模型。不同於傳統模型每次運算都需啟動全部參數,MoE 讓每個輸入單元僅動用部分專家參數處理,不僅降低訓練與推理成本,也能在相同運算資源下提升模型品質。另一項重點是「原生多模態」設計,Llama 4 透過早期融合技術,將文字、圖像與影片整合進單一模型,使其能同時理解並生成多種內容,例如看懂照片並產生描述,或從長文延伸出相關圖像概念。
不過,從使用者角度來看,目前主流的 AI 助理如 ChatGPT、Gemini、Grok等,也都已具備類似的多模態與推理能力,因此在實際操作與基本使用體驗上,Meta AI 與其他 AI 助理之間的差異並不算明顯。
進入方式、如何使用一次看
如同前面提到的,Meta AI 不只內建於 Meta 旗下社群服務中,也推出了獨立App。以下我們就整理目前所有可用的進入方式,以及在不同平台上使用時的差異。
在社群介面中一鍵呼叫
首先,若不想額外下載 App,最直接的方式是透過手機的 Messenger 或 IG聊天室。只要點擊搜尋列,便會看到「詢問 Meta AI」的提示,輸入問題後即可開啟聊天室,進行問答或生成圖片(目前暫不支援影片生成)。此外,在與朋友的聊天室中輸入「@Meta AI」,也能直接向 AI 提問;但需注意,Meta AI 僅能讀取並回覆被標記的那則訊息,無法抓取聊天室的歷史紀錄或讀取其他成員的對話。
另外,Meta AI 先前發表時,曾展示過一項功能:在FB 貼文下方直接詢問 AI關於該貼文的詳細資訊,點擊後同樣會跳轉至聊天室。不過截至截稿為止,台灣版尚未更新此項功能,且網頁版 FB 目前也尚不支持直接開啟 Meta AI 聊天室進行問答,亦無法像 Grok 一樣直接在留言區呼叫 AI。
還有網頁版及 App 可用
雖然電腦版 FB 尚未內建對話視窗,但使用者可透過左側工具列的「Meta AI」圖示,直接跳轉至獨立的網頁分頁。其介面與 ChatGPT、Gemini 並無太大的區別,中央設有對話框,往下滑動則能瀏覽其他使用者透過 Meta AI 創作的影像作品。
最後一種方式則是下載「Meta AI」獨立 App,功能與網頁版類似。除了基本的對話功能外,兩者都內建了一項名為「Vibes」的區塊,Vibes 類似 TikTok 直式短影音,但裡頭的內容全是由 AI 生成的動態影像。此外,Meta 也將 AI 功能整合至 Ray-Ban Meta 智慧眼鏡中,並可搭配 App 使用,不過該款眼鏡目前尚未在台灣正式上市。
圖片生成結合 Midjourney 與 FLUX 技術加持
雖然在文字能力以及功能面上,Meta AI 與其他主流 AI 助理的使用體驗差異不大,但在圖片生成方面,Meta AI 則顯得相當值得一試,甚至被部分使用者視為 Midjourney 的免費替代方案之一。
美學能力大幅提升
這樣的評價並非空穴來風,Meta 先前與 Midjourney 簽署技術合作協議,取得「美學技術(Aesthetic technology)」授權。而 Midjourney 在 AI 影像創作領域向來以藝術性見長,雖然 Meta 並非直接使用其模型進行生圖,但透過相關技術合作,仍讓 Meta AI 在整體風格表現上有所提升。
另一方面,Meta 也與 Black Forest Labs 合作導入 FLUX 模型。FLUX 自推出以來,便以人物細節與寫實度受到關注,使 Meta AI 的生成影像能在藝術感與真實感之間取得平衡。儘管其與兩者的合作細節皆未公開,但從實際成果來看,Meta 在 AI 生圖領域的布局相當明確。
不同 AI 模型各具優勢
對多數一般使用者而言,「免費」與「易用性」往往是選擇 AI 工具的重要因素。因此,即便 Meta AI 在專業層面上仍難以完全取代 Midjourney 或 FLUX 等獨立服務,但若只是希望快速產出品質不錯的圖片,Meta AI 仍是一個具吸引力的選項。
至於不同 AI 的生圖取向,筆者認為各有優勢。偏好風格化與藝術感的使用者可嘗試 Meta AI;有修圖需求或較重視繁體中文支援者,Gemini(Nano Banana Pro)相對完整;ChatGPT 整體表現穩定,而追求生成速度與多張輸出的,則可考慮 Grok。多數服務皆提供免費方案,建議實際試用後再選擇合適工具。
AI 生圖實測比較
筆者參考 Midjourney 網頁版社群畫廊中的公開圖片提示詞,分別於 Meta AI、Gemini 與 ChatGPT 進行圖片生成測試。就當次結果觀察,Meta AI 在藝術性與光影處理上確實較為突出;Gemini 與 ChatGPT 的畫面品質同樣不差,但整體風格偏向寫實。需注意的是,AI 生成具有隨機性,以上僅為當次測試結果。
網頁版獨有的美學設定與生圖介面
由於 Meta AI 導入了 Midjourney 的美學技術,在圖片生成功能中也提供類似Midjourney 的「美學設定(Aesthetics)」選項,使用者可調整多樣性、奇異度、風格化等參數;圖片長寬比則提供 1:1、9:16 與 16:9 三種選擇。不過,這些進階設定目前僅限於網頁版提供,因此以下示範將以網頁版為主;此外,網頁版在單次指令下會一次生成四張圖片。
實際操作方式也相當簡單,只要進入 Meta AI 網頁版,於左側工具列點選「Create」,或是在聊天對話框中點擊「+」號,並選擇「Create」,即可開始進行圖片生成。
而風格參照種子就是一組數字,像是 853、34689 或 3193102811 等都有可能。在 Midjourney 社群中,已有不少玩家專門分享各種 sref(Style Reference Seed)數值;不過依目前測試結果來看,Midjourney 與 Meta AI 之間的風格參照種子並不通用,而 Meta AI 也尚未有較完整的 sref 交流或整理社群。因此若想要找到喜歡的風格,可以透過簡單的提示詞,搭配不同數值進行測試,找到偏好風格後,即可將數字記錄下來作為後續生成的風格參考。
鑑於使用者對 AI 與瀏覽體驗能更緊密結合的期待越來越高,市面上開始出現各種主打「AI 整合」的瀏覽器。繼上期介紹的 Perplexity Comet 後,相隔不到一個月,OpenAI 也推出自家的 ChatGPT Atlas 瀏覽器,主打把搜尋、理解、分析到行動整合在同一個 AI 環境裡,它能讀懂你正在瀏覽的內容,記住你剛執行過的步驟,甚至能自動協助完成多階段任務,讓 AI 真正成為上網過程的一部分,而不再只是停留在對話框內的問答工具。
事實上,ChatGPT Atlas 的定位非常明確,它不是單純在瀏覽器旁邊掛一個 AI側邊欄,而是把 AI 真正塞進瀏覽器的底層運作裡,讓整個上網流程從搜尋、閱讀、比對到執行都能以 AI 為中心。由於 Atlas 採用開源的 Chromium 引擎,因此支援所有 Chrome 擴充功能、生態無痛接軌,介面也延續大多數使用者熟悉的操作方式,與傳統瀏覽器真正的差別在於,它將 ChatGPT 模型深度整合到標籤頁與瀏覽核心之中,不同於過去只是「在瀏覽器裡使用 AI」,而是變成「在 AI 裡使用瀏覽器」,讓你無論是輸入網址、閱讀文章、整理資料或撰寫內容,都能直接與 AI 保持連動。
要注意的是,Atlas 採用分級收費方式,基本瀏覽功能與 AI 輔助皆可免費使用,但若想解鎖能真正替你「自動跑流程」的 Agent 代理功能,就需要付費訂閱。其中,Plus 用戶(月費 20 美元)每月可使用 40 則代理訊息,足以應付一般資料蒐集、文案發布、訂票訂餐或跨平台操作的需求;而對於大量依賴自動化任務的專業工作者,建議升級至 Pro 用戶(月費 200 美元),提供每月 400 則代理訊息,讓 Atlas 真正成為日常工作流程的一部分。
Atlas 與 Comet 瀏覽器比一比
相信不少讀者都對 ChatGPT Atlas 與 Perplexity Comet 之間的差異感到好奇,這兩款 AI 瀏覽器雖然特色各有不同,但在核心概念上其實相當接近,兩者都以乾淨直覺的介面搭配 AI 驅動的代理模式為基礎,並具備能處理多步驟任務的自動化能力,無論是寫郵件、找資料、完成線上操作,或是處理那些日常工作裡反覆又耗時的小事,使用者只要輸入需求,AI 就能接手完成後續流程,這也是現階段 AI 瀏覽器最核心、也最吸引人的共同價值。
兩大 AI 瀏覽器異同之處
筆者把 Atlas 和 Comet 放在相同情境下進行實測後,便能立即感受出兩者差異之處。首先,ChatGPT Atlas 在理解力、內容解析能力與任務完成度上,都更貼近全方位 AI 助理的表現,由於它不只看得懂文字,還具備相當成熟的「視覺理解」能力,能直接解析網頁上的圖片與影片內容,將圖像資訊與文字脈絡結合,提供即時、完整的說明與相關回答,讓多媒體資訊的使用變得更直觀完整。而在實際操作上,Atlas 還支援選取特定文字與 AI 互動,例如選取網頁上的一段文字,就能直接請 AI 解釋或延伸,不需要額外複製貼到側邊欄,讓處理資訊的流程更加順暢;相較之下,Comet 仍得手動將文字貼入側邊欄才能請 AI 分析,操作便利性略遜一籌。此外,Atlas 在跨分頁的資訊整合與記憶能力上也有明顯優勢,能理解不同網頁間的內容,讓使用者比對資料或整理內容時不需反覆切換分頁,大幅降低操作負擔。不過,Atlas 在搜尋速度上確實偏慢一些,有時甚至需要數分鐘以上才能完成回應,但換來的資訊架構更加完整、引用來源也更加清楚,整體呈現的品質與可信度相對更高,可說是以「速度換取準確度」的使用體驗。最後在自動化代理任務方面,Atlas 的成功率也普遍優於 Comet,偏向於「動作不算快,但完成度高」的特性。
步驟 5:進入 Atlas 可看到與 ChatGPT 類似的首頁介面,中間輸入框同時也是網址列,可直接輸入網站或發出指令,並能在網頁中開啟側邊欄詢問或請 AI 協助操作。
化身智慧 AI 助手:摘要文章、量身推薦與段落框選查詢
在日常閱讀新聞、搜尋資料或做研究時,我們經常需要快速掌握文章重點、查詢特定段落的背景資訊,甚至希望 AI 能依照自己的興趣給出更精確的建議。受惠於 ChatGPT Atlas 結合了 AI 互動與瀏覽器記憶的能力,當你在瀏覽新聞網站時,它能根據你平常的使用習慣,自動總結多篇文章並挑出你可能感興趣的內容,閱讀長篇報導時,也能提問讓它即時抓出重點摘要。若網頁上某段資訊或某個名詞需要深入了解,甚至能直接框選文字進行查詢,Atlas 會提供進一步的補充資料,不過若想讓 AI 回覆更精準,指令最好清楚明確,例如指定「針對選取文字詳述」才能確保它只解析你要查的內容。
在使用一般 AI 工具時,我們多半只能獲得針對「文字內容」的回答;一旦遇到圖表、示意圖或資訊密集的 PDF 學術論文,AI 常常就無法真正理解內容,但在 ChatGPT Atlas 中,「視覺理解能力」則是最有感、也是與其它 AI 瀏覽器最具差異化的核心特色之一,它不只會讀文字,還能直接分析網頁、PDF、圖片中的視覺資訊,只要提問「這張圖在講什麼?」或「詳細解說圖片內容」的提示詞,就能精準辨識與說明研究論文的流程示意圖、產品規格圖表、研究模型架構圖,甚至是網站內插圖的意義,協助你更快掌握重點。
步驟 1:首先 Atlas 可直接從 PDF 畫面抓取可見文字,協助快速整理論文摘要內容,不必手動複製貼上也能立即理解整篇論文的核心。
側光是這兩種花卉都非常適合的光型,主要能讓金黃色的油菜花在光影之間展現立體度;也能使梅花的花瓣邊緣更為銳利且富有層次。至於逆光則是花卉攝影中最富表現力的光型。逆光中的油菜花會呈現半透明的金色光暈,整體氛圍溫暖而夢幻。如果讓光點穿透花叢,畫面會更具生命力。逆光拍攝梅花時,花瓣會呈現彷彿被光線包裹的感覺,而枝條則顯得較暗,形成具對比性的影像風格。這類照片通常需要搭配點測光和曝光補償,以避免因背景明亮而造成主體過暗,降低畫面的可看性。另外,冬季的色溫較低,油菜花會呈現較不討喜的黃綠色調,若希望有更暖意的視覺效果,可稍微調整白平衡至偏暖的 K 值,使色彩更具飽和度。梅花則可依場景風格調整,若希望呈現冷冽感,可以維持偏冷色溫;反之若想強化光線包覆的溫暖感,適度調暖會更具吸引力。
Perplexity 推出的 Comet AI 瀏覽器引發關注,其 AI 搜尋與智慧代理功能強大。 Comet AI 瀏覽器不僅能搜尋資料,還能模擬人工操作,大幅提升效率,快來體驗 AI 搜尋的便利!
不同於傳統瀏覽器只負責「顯示網頁」,Perplexity 最新推出的 Comet AI 瀏覽器能「幫你行動」,透過它的 AI 代理能模擬人工操作,幫你自動搜尋資料、彙整報告、寄出郵件、安排日曆行程或網上比價,甚至在背景中同時執行多項任務,而你要做的,只是輸入自然語句下達指令,甫推出之時,讓眾多用戶趨之若鶩。
而這款原本需要邀請碼或付費訂閱用戶才能體驗的 AI 瀏覽器,如今已全面開放免費使用。接下來,本篇將帶你從下載安裝、基礎操作,到延伸介紹多種實用應用場景,一步步掌握 Comet 的智慧功能,讓它成為你日常工作與創作的「隱形工具人」。
Perplexity Comet 是什麼?
隨著生成式 AI 技術迅速滲透各種應用,瀏覽器市場也迎來了新一波的革新浪潮。AI 搜尋新創 Perplexity 於 2025 年中正式推出旗下首款整合式 AI 瀏覽器 Comet,並在推出後不久隨即引發科技圈熱議。
AI 瀏覽器全面免費開放
起初 Comet 瀏覽器原先僅限於每月 200 美元的 Perplexity Max 訂閱用戶使用,後續才逐步開放給 Pro 用戶。然而,由於市場反應熱烈、申請體驗人數短時間內突破數百萬,官方最終於上月宣布全面免費開放下載與使用,無論是 Windows 或 macOS 使用者都能直接體驗 AI 驅動的瀏覽新模式。
最後,「多工任務系統」則是讓 Comet 效率大幅躍升的關鍵。它能同時啟動多個代理並行工作,例如可以在 Gemini 或 ChatGPT 一次生成多張圖片,讓原本需要逐一執行的任務變成同步進行,對於需要跨平台、多來源資訊整合的使用情境,不僅節省時間,更將 AI 的價值延伸至實際工作層面。
使用前該知道的事
在體驗 Comet 帶來的高效率與自動化操作的便利之餘,也不可忽視使用規範和背後的安全性風險。
不可忽視的安全性隱憂
有鑒於 Comet 一大特色在於「它能代替你行動」,像是登入帳號、開啟頁面、搜尋資料,甚至幫你安排行程或寄送郵件,這樣的體驗雖然方便,但前提是你必須將帳號授權交給它,才能讓系統替你操作第三方服務,換句話說,你要信任的不只是 Comet 的 AI 能力,還包括它在背後替你執行任務時,是否能妥善保護你的資料和帳戶安全,因此,在使用這些功能時,務必仔細思考:哪些帳號資訊適合授權給 Comet 代理,哪些任務最好仍親自處理,以避免資料外洩或誤操作的風險。
Comet 與傳統瀏覽器差異之處
雖說現有許多主流瀏覽器紛紛導入 A I 功能, 如 Microsoft Edge 先前也已將Copilot 加入側邊欄,讓使用者能隨時呼叫聊天機器人,但實際上仍只是開啟一個「AI 對話視窗」,頂多能幫忙摘要網頁或回答問題,並沒有真正「參與」使用者的操作過程。而 Comet 則完全不同,它不只是把 AI 放進瀏覽器,而是能讓 AI 直接操控瀏覽器,舉例來說,當使用者想要生成一張圖片時,以往需要先打開 ChatGPT 或 Gemini,再手動輸入提示詞、等待生成、調整內容,若要多做幾張,就得重複同樣流程數次。而在 Comet 中,使用者只需自行登入一次 ChatGPT 帳號,之後在對話框輸入一句多工生圖指令,AI 助手便會替你自動開啟多個小型瀏覽視窗執行,一口氣將圖片生成出來。
免費版與付費版功能有所不同
雖然現今 Comet AI 瀏覽器已供所有使用者免費下載體驗,但實際上,免費版與付費方案之間仍存在明顯差異。其中,免費版的 Comet 主要聚焦在「側邊 AI 助理」的應用體驗,讓使用者在瀏覽任意網站時,能即時呼叫 AI 進行內容摘要、解讀與導覽,甚至協助整理筆記或快速理解文章重點,不過,使用上仍僅限於部分 Perplexity 網頁功能,並且每次新開的分頁會自動導向回 Perplexity 的主頁,多多少少限制了更深層的操作彈性。相對地,訂閱 Perplexity Pro、Max 或 Enterprise 的付費用戶,則能解鎖更強大的模型算力與進階功能。以 Max 方案為例,除了能切換不同 AI 模型進行高階推理外,還新增了「電子郵件助理」與「背景助理」兩大亮點。前者能依據使用者的語氣風格自動撰寫信件、整理收件匣內容、排定會議,甚至直接回覆郵件;後者則能在背景中同時處理多項非同步任務,例如搜尋機票、加購演唱會門票或比價購物,並在任務完成後主動回報結果,功能完整性更上一層樓。
下載安裝時,可直接使用 Google 帳號或 Apple 帳號登入,貼心的是,當使用Google 帳戶登入時,系統會主動詢問是否要將原在 Chrome 瀏覽器中所加入的書籤、外掛與設定一鍵匯入,爾後 Comet 介面幾乎與原本慣用的瀏覽器一樣,完全無需重新適應。Comet 瀏覽器首頁中央的輸入框就像 Perplexity 網站一樣,能直接對 AI 提問、搜尋與生成內容;而右上角的「AI 助手」按鈕點擊後會開啟側邊欄,可即時與 AI 對話、請它分析資料、整理報告,甚至用語音直接對話,讓你邊瀏覽邊完成工作。
如何運用 NotebookLM 與 Nano Banana Pro(Gemini),透過精確的 AI 提示詞與批次處理技巧,將黑白大廚韓語單字表轉化為兼具插圖與例句的高品質學習素材。
學習外語最痛苦的莫過於背誦枯燥的單字表,不僅難以記憶,看久了也容易疲勞。這時,若能將單字轉化為具備視覺美感的圖卡,學習效率將大增。透過 Google 的 NotebookLM 與 Nano Banana Pro(Gemini),我們可以輕鬆將《黑白大廚》等熱門教材的詞彙指南,自動生成為橫式海報、直式手機長圖或質感筆記本風格的圖卡。本篇教學將引導您掌握 AI 指令,快速產出成套的韓語學習教材。
本篇將先整理 Nano Banana Pro 此次最具代表性的四大核心優勢,並進一步透過實際操作教學,帶你完整掌這款 AI 圖像工具的實戰用法與應用場景。
Nano Banana Pro 進化後四大優勢
幾個月前,Google 基於 Gemini 2.5 Flash 架構推出 Nano Banana 圖片生成模型時,便已吸引不少創作者關注,其生成速度與畫面穩定度展現出不俗潛力。不過,近期正式登場的 Gemini 3 Pro Image(以下統稱為 Nano Banana Pro),顯然不只是一次例行性的模型更新,而是朝向「實際可用性」與「商業應用成熟度」同步升級,不論是做合成、海報、Logo、學習懶人包、數據圖表或圖片風格轉換都非常好用,下文將聚焦整理 Nano Banana Pro 本次最具代表性的四項核心升級重點。
中文字不再亂碼,還能翻譯完成多語言渲染圖
在整體定位上,Nano Banana Pro 已不再只是單純「畫得更漂亮」的圖片生成工具,而是著眼於「專業設計內容製作」與「商業應用場景」。首先最有感的進化,來自於圖像「中文字處理能力更成熟」,過去 AI 生圖最常被詬病的,就是文字時常出現亂碼或語意錯誤,往往只能當背景裝飾,但 Nano Banana Pro 已能在資訊圖片中穩定生成標題、副標、說明文字,甚至是較長段落的內容,雖說在長文或多字需求上,偶爾還是會出現幾個亂碼錯字,但整體可讀性與準確度已明顯提升到「實際可用」的水準,此外,Nano Banana Pro 還能在保留原有版面與設計風格的情況下,直接把不同語言的文字翻譯後渲染進圖片中,省去反覆開啟修圖軟體逐字修改的繁瑣流程,對需要大量產出社群圖卡、EDM 或跨國行銷素材的團隊來說,效率提升相當顯著。
多圖融合到位,直接生成可用的主視覺
在影像整合能力上,Nano Banana Pro 可以同時理解並融合最多 14 張參考圖片,以及維持最多 5 位角色一致性,無論是產品照、品牌 Logo、情境照片或手繪草圖,都能在同一次生成中統整成風格一致、構圖完整的最終畫面,讓原本需要經過多次合成與調整的流程大幅簡化,例如把概念草圖轉為正式的產品示意圖,或將平面設計藍圖轉換成寫實的建築外觀視覺,而且完成度已接近可直接使用的設計稿水準。
用說的就能修圖,景深、光線、圖片比例一次搞定
對於不具備專業攝影棚或修圖背景的使用者來說,Nano Banana Pro 另一個關鍵優勢,在於它幾乎把複雜的影像編輯轉化成「用文字操作」,使用者只要用自然語言描述需求,就能調整圖片中的特定視角、改變景深焦點,或是切換不同光線與氛圍設定,從白天到夜景、從自然光到舞台打光,都能快速完成,同時,在輸出品質上也具備最高支援 4K 解析度的水準,就連畫面的長寬比例,也能依照社群貼文、直式手機畫面或簡報封面需求,輸出成多個版本,讓同一組素材能靈活對應不同平台與用途。
結合世界知識,能做有料的資訊圖
最後,真正讓 Nano Banana Pro 與多數 AI 繪圖工具拉開差距的關鍵,在於它結合了 Google 旗下 Gemini 3 Pro 的推理能力與世界知識體系,使圖片不再只是視覺呈現,而能承載真正有用的資訊內容,例如它可以將一段流程說明、教學步驟或筆記內容,直接轉換成結構清楚的圖解或資訊圖表,也能根據實際資料生成具有參考價值的視覺化內容大幅縮減了整理資料、截圖到排版的時間成本。
使用前要知道的事
在實際開始使用 Nano Banana Pro 之前,有幾個關鍵觀念一定要先搞清楚,像是免費與訂閱方案的使用額度、整合進哪些 Google 產品與開發平台,到生成圖片能不能商用一次搞懂。
免費與訂閱使用彈性依官方動態調整
依照先前官方說明,目前 Google 仍針對不同訂閱層級設有 Nano Banana Pro使用限制,尤其 Google AI Pro 與 Ultra 方案的使用者,則能享有更高的使用額度。不過 Google 近期也特別提醒,因應新模型推出後需求量明顯增加,實際使用限制可能會視情況調整,且每日都會重新計算額度,當使用者達到當日上限後,系統將自動改以 Nano Banana 模型處理後續的圖像需求。以筆者在撰寫本文時的實測經驗來看,免費帳號在使用 Nano Banana Pro 生成約 3 到 5 張圖片後,即會出現達到使用上限的提示;而 Pro 方案用戶每日最多可生成與編輯約 100 張圖片,Ultra 方案則進一步拉高至每日 1000 張的使用額度。
進駐 Google 生態系與多種開發平台
從整體布局來看,Nano Banana Pro 現已陸續整合進多個 Google 旗下產品、服務與開發平台,形成一條完整的應用生態。對一般使用者與學生而言,最直接的入口仍是 Gemini 應用程式與網頁版,只要選用 Gemini 3 思考型模型進行圖像建立,系統便會自動調用 Nano Banana Pro 生成圖片,同時,Nano Banana Pro 也已與 NotebookLM 深度整合,使用者可將課堂筆記、研究資料或長篇文件交由 NotebookLM 整理重點,再直接轉換為資訊圖表或流程圖,讓文字內容快速視覺化。
在職場與行銷應用上,Nano Banana Pro 已正式進駐 Google Workspace 生態,並整合至 Google 簡報與 Vids 中,讓使用者能在簡報或影片製作過程中直接呼叫 AI 生成視覺素材,並可指定風格、比例、用途與文字清晰度,滿足正式簡報需求;而在 Google 廣告平台中,影像生成功能也已全面升級為 Nano Banana Pro,可自動產出廣告素材、產品圖,甚至同時生成多版本視覺進行 A / B 測試,並維持品牌配色、Logo 與產品造型的一致性。
此外,第三方軟體如 Adobe Firefly、Photoshop、Canva、Figma 等設計工具,皆已陸續支援相關整合,讓創作者能在熟悉的介面中直接調用模型進行生成與編修;至於在開發與企業端則可透過 Gemini API 與 Google AI Studio 存取 Nano Banana Pro,或在 Vertex AI 與 Google Antigravity 中進行大規模影像生成、UI 樣機與 UX 原型設計。
可商用,但仍需留意法律界線
談到 Nano Banana Pro 生成圖片能否用於商業用途,答案是肯定的,依照目前Google 的服務條款,使用者可以將透過 Nano Banana Pro 產生的圖片應用於商業情境,包括印製商品、作為廣告素材、行銷視覺或對外販售,Google 本身並不會對這類使用行為加以限制。不過,這裡有幾個相當關鍵的重點,一是針對現有 IP 版權進行改製或生圖會構成侵權問題,再者「可商用」並不等同於「擁有著作權」。
由於多數國家仍傾向認定 AI 生成作品並非出自人類創作,因此通常不具備著作權保護資格,簡單來說,你可以合法使用這張圖片進行商業行為,也能藉此獲利,但同時你也無法主張對該圖片擁有專屬著作權,因此,若是將 Nano Banana Pro 生成的圖片作為行銷素材、輔助視覺或短期活動使用,風險相對可控;但若牽涉到品牌核心識別、長期商品化或高度專屬性的視覺資產,就需要更審慎評估。
從資訊圖表、海報到菜單,圖文一起生成更省事
這次 Nano Banana Pro 一大升級亮點,便是能在圖片中生成正確且清晰的文字內容,只要以文字描述主題、風格與希望呈現的資訊結構,就能在產出精緻圖片影像的同時,搭配中文字或它國語言文字說明,呈現清楚且完整的圖文資訊圖表,大幅縮短從構想到成品的製作流程,無論是旅遊行程插畫、宣導型海報或流程類資訊圖,只需提供關鍵概念與核心項目,Nano Banana Pro 便能自動補齊內容邏輯,生成文字正確、視覺風格一致的成品,甚至在餐飲場景中,也能快速產出包含價格、多語言品名與餐點視覺的完整菜單,不論是插畫風格還是擬真照片呈現,都能依需求彈性調整。
這次 Nano Banana Pro 在實務應用上另一個相當關鍵的能力,就是「多圖合併轉換」,受惠於 Nano Banana Pro 能理解每張圖片的角色與用途,並整合成一張構圖合理、視覺一致的完整畫面,因此你可以同時上傳最多 14 張參考圖片,並以文字指令指定最終想呈現的畫面內容,讓 AI 自動完成合成、配置與風格統一,不再需要手動去背、調整比例與光影的流程,大幅降低後製門檻,特別適合用在空間與情境模擬上,例如快速生成裝潢示意圖,或是用於人物穿搭合成、街景照片的風格轉換,甚至還能進一步變換不同季節或節慶氛圍,讓同一張圖片呈現出截然不同的感覺。
在影像生成與內容創作中,「角色特徵是否能維持一致」往往是影響實用性的關鍵之一,而 Nano Banana Pro 在這次更新中,特別強化了角色一致性能力,使用者最多可上傳 5 張角色參考圖片,模型能同時理解角色的外觀特徵、臉部輪廓、髮型、服裝比例與整體風格,並在不同場景、動作與造型變化下,穩定維持同一角色的辨識度,讓過去容易「越畫越不像」的問題,大幅獲得改善。針對實際應用上,此次角色一致性的優化,非常適合用於製作分鏡表、品牌吉祥物和 IP 角色經營。
最後,透過 Google AI Studio 串接 API Key,會是比單純使用 Gemini 網頁版更具彈性與擴充性的做法,有利開發者、設計師或內容團隊直接在 AI Studio 中指定模型、圖像解析度與生成比例,精準控制每一次影像輸出。不過要注意的是,即便是已訂閱 Google AI Pro 方案,若要在 AI Studio 中實際呼叫 Nano Banana Pro 進行生圖,仍必須額外設定需單張計費的 API Key,完成帳單與金流資訊設定後,API Key 方可用於串接 Nano Banana Pro。