[Google I/O 26] Google發表Gemini Omni Flash模型,混搭圖文語音解鎖電影級對話剪輯
繼 Nano Banana 將人工智慧導入影像編輯後,Google 在 AI 領域邁出更具顛覆性的一步,正式推出結合邏輯推理與創作能力的全新模型系列「Gemini Omni」。這款原生多模態模型能將任何輸入素材轉化為任意形式的內容,並率先全面支援高品質影片生成。
使用者可自由混搭圖片、音訊、影片與文字,結合地端豐富的知識庫,僅需透過聊天般的自然對話就能輕鬆完成複雜的影片剪輯。首款輕量旗艦模型 Gemini Omni Flash 即日起正式登場,並同步導入 Gemini 應用程式、Google Flow 以及 YouTube Shorts。
顛覆傳統的對話式剪輯:承接上下文脈絡並完美維持物理邏輯與角色一致性
Gemini Omni 徹底改變了影片後製的繁瑣流程,讓用戶能用最自然的流暢語言進行影片編輯。系統每一次接收指令都會精準承接上一步的語境脈絡,不僅能維持影片中人物角色外觀的一致性,更能記住前一幕的畫面細節,確保光影與環境擁有合理的物理邏輯。
無論是針對畫面中的特定物件進行細緻微調、徹底抽換整個大自然背景,還是上傳一段現成影片並要求 Omni 改變其中的動作情境、加入新角色,甚至是任意調整環境視角與視覺風格,模型都能在保留原始場景連續性的前提下,將平凡的瞬間變成令人意想不到的驚喜情節。
融合物理常識與深層知識庫:重力流體力學大躍進讓複雜概念秒變視覺解說
這款模型不僅能建構逼真場景,更具備推理未來情節發展的強大能力。透過結合物理常識與豐富的歷史、科學、文化知識,Omni 大幅提升了對重力、動能與流體力學的底層理解,拉近了擬真畫面與深刻敘事之間的距離。
它超越了傳統單純的模式比對(pattern matching),在語言、影像與背後的深層意涵間建立更深的理解。即使面對生硬複雜的科學概念,使用者也只需輸入簡短的提示詞,Omni 就能迅速製作出生動的擬真解說影片,透過高效的視覺效果幫助觀眾輕鬆理解。
任意素材混搭與虛擬化身創作:SynthID 隱形浮水印全面捍衛內容真實性
在素材融合方面,Omni 展現了極高的包容度,能將手繪草圖、角色圖片、場景圖或語音檔等任何參考來源,揉合轉化為風格連貫的單一短片。此外,系統還允許使用者建立極具個人特色的數位「虛擬化身(Avatars)」,生成在外貌與聲音上都高度擬真的專屬影片。
為了負責任地發展 AI 技術,所有由 Omni 創作的影片都會自動嵌入肉眼無法察覺的 SynthID 數位浮水印,用戶可透過 Gemini 應用程式、Chrome 瀏覽器或 Google 搜尋輕鬆驗證影片來源。目前,Gemini Omni Flash 已全面開放給 Google AI Plus、Pro 與 Ultra 方案訂閱用戶,並於 YouTube Shorts 中提供免費體驗,未來幾週內也將正式釋出 API 供開發人員與企業客戶深度串接。
史塔夫短評:跨模態影片生成新霸主!
