Google DeepMind、4秒画像生成と会話型動画編集の新モデルを一挙リリース

Google DeepMind、画像と動画の新モデル2つを一挙リリース

室谷代表取締役

速報です！Google DeepMindが2つの新モデルを同時リリースしました。画像生成の「Nano Banana 2 Lite」と動画生成・編集の「Gemini Omni Flash」です。

公式スレッドによると、『これらをInteractions APIで組み合わせると、Nano Banana 2 Liteで画像を生成し、すぐにGemini Omni Flashで動画にできる』と。これはもうワークフローが変わるレベルですよね。

テキトー教師.AI認定講師

いやー、これは面白いですね。画像生成と動画生成がシームレスにつながるって、今までの常識を覆す話ですよ。

特に、会話で動画編集ができるGemini Omni Flashは、従来の動画編集の敷居を一気に下げる。しかも、今回の発表は単にモデルを出しただけじゃなくて、Google AI StudioやGemini APIで開発者がすぐに使える形になってるのが大きい。

室谷代表取締役

そうなんです。公式ブログでも『Building with generative media is often about creative iteration』と書かれていて、まさにクリエイティブな試行錯誤を高速化するための2モデルという位置づけ。

.AI TIMESの読者層であるスタートアップや個人開発者にとっては、まさに待望のリリースだと思います。

テキトー教師.AI認定講師

では、まずそれぞれのモデルの中身に入っていきましょう。

Nano Banana 2 Lite：わずか4秒で画像生成、高速・低コストの新定番

テキトー教師.AI認定講師

まず「Nano Banana 2 Lite」ですが、公式発表によると『テキストから画像を生成する最も高速でコスト効率の高いモデル』で、出力までわずか4秒。これは、従来の画像生成AIが10秒以上かかることが多かったのと比べると、かなりのスピードアップですね。

室谷代表取締役

そうですね。背景ブリーフにもありましたが、プロトタイピングやアイデア出しの段階では『とりあえず見たい』というニーズが頻繁に発生する。

その度に待ち時間が発生すると、思考が止まっちゃうんですよね。MYUUUでも、初期のUIデザイン案を出すときに、すぐにイメージが欲しいシーンがよくあります。

テキトー教師.AI認定講師

しかも、このモデルは「gemini-3.1-flash-lite-image」というモデルIDで提供されていて、以前のNano Bananaの初版（gemini-2.5-flash-image）からの置き換えを推奨されているそうです。ベンチマークでも向上しているとのこと。

室谷代表取締役

つまり、すでにGoogleの画像生成APIを使っている開発者は、モデル名を差し替えるだけで即座に性能向上の恩恵を受けられるわけですね。低コストで高速なので、大量の画像を生成するワークフローにも耐えられる。

テキトー教師.AI認定講師

具体的には、Google AI Studio、Gemini API、そしてGemini Enterprise Agent Platformで本日から利用可能です。また、AI Mode in SearchやGeminiアプリなどの消費者向けサービスにも順次展開されるそうです。

Gemini Omni Flash：会話で動画編集ができるマルチモーダルモデル

テキトー教師.AI認定講師

そしてもう一つが「Gemini Omni Flash」。こちらは動画生成だけでなく、会話形式で動画を編集できるマルチモーダルモデルです。

公式情報によると、『テキスト、画像、動画を横断的に処理し、会話型で動画編集ができる』とあります。

室谷代表取締役

これは本当にすごい。例えば、生成した動画に対して『ここを5秒短くして』とか『背景の色を青に変えて』といった指示を、自然言語でそのまま伝えられる。

従来は動画編集ソフトのUIを操作する必要があったのが、AIとの対話だけで完結する。

テキトー教師.AI認定講師

私も講座でよく言うんですが、AIが『生成』から『編集』の領域に入ってきたのは大きな転換点です。特に、Omni Flashは『マルチモーダル参照と入力の結合』『実世界の知識』『テキストやグラフィックスを動画アクションに直接接続』といった特徴がある。

これにより、非エンジニアでも動画制作が可能になる。

室谷代表取締役

背景ブリーフでは『従来の動画生成AIは高品質だが編集機能が限定的だった』とあり、このギャップを埋めるのがOmni Flashの役割。具体的にどんな編集ができるのか、デモ動画も見たいところですが、公式の情報からは『会話型編集』『マルチモーダル入力』がキーワードです。

Interactions APIで画像→動画をシームレス連携

テキトー教師.AI認定講師

そして、この2つのモデルをつなぐのが「Interactions API」です。公式スレッドには『Quickly generate an image with Nano Banana 2 Lite, then immediately animate it using Gemini Omni Flash』とある。

つまり、画像を作ってそのまま動画にできる。

室谷代表取締役

しかも、『セッション履歴を保持して、最大3回の連続編集が可能』と書いてあります。これにより、複数回の編集をまたいで一貫性を保ちながら動画を作り込める。

例えば、最初に画像を生成して、その後『動かして』『背景を変えて』『テキストを追加して』といった流れをシームレスに実行できる。

テキトー教師.AI認定講師

これはまさに、バックグラウンドで複数のモデルをAPIでつなぐ典型的なワークフローですね。.AI TIMESでもワークフローの構築方法を解説していますが、Interactions APIはその理想的な実装例と言えます。

Gemini Omni Flashのアクセス方法（Google AI Studio、Gemini API）

テキトー教師.AI認定講師

開発者にとって気になるのは、実際にどうやって使うかですね。公式の発表によると、Gemini Omni FlashはGoogle AI Studio、Gemini API、そしてGemini Enterprise Agent Platformで本日から利用可能です。

室谷代表取締役

つまり、ブラウザで試せるGoogle AI Studioにアクセスすれば、無料で触れる可能性が高い。APIももちろん提供されているので、アプリに組み込むこともできます。

テキトー教師.AI認定講師

Google AI Studioは、プロンプトを入力してすぐに動画を生成・編集できるインターフェースが用意されているはずです。APIを使う場合は、APIキーを取得してエンドポイントにリクエストを送る形になります。

Gemini APIのドキュメントも参考になります。

室谷代表取締役

ちなみに、料金については現時点では明らかにされていません。しかし、Nano Banana 2 Liteが『最もコスト効率が高い』と謳っているので、競合と比較しても安価に設定される可能性が高いです。

競合との違いは？速度・編集力・マルチモーダル連携

テキトー教師.AI認定講師

ここで気になるのが、競合との違いです。背景ブリーフには、画像生成ではStability AIやMidjourney、動画生成ではOpenAI SoraやRunway Gen-3などが挙げられています。

Google DeepMindの今回のリリースはどこが違うのでしょうか？

室谷代表取締役

まず、画像生成のNano Banana 2 Liteは『4秒』という速度が最大の差別化ポイント。従来の画像生成モデルは10秒以上かかることが多く、ストレスなくアイデアを試せるレベルではなかった。

テキトー教師.AI認定講師

そして動画生成のGemini Omni Flashは、『会話型編集』と『マルチモーダル連携』が強みです。単に動画を生成するだけでなく、生成後に自然言語で編集指示を出せる。

さらに、画像から動画への変換をシームレスに行えるのは、Interactions APIがあるからこそ。

室谷代表取締役

また、Googleのエコシステムとの統合も強みですね。GeminiアプリやGoogle Flow、さらには検索のAI Modeにも組み込まれているので、一般ユーザーも自然に触れることができる。

テキトー教師.AI認定講師

競合の中には、特定の用途に特化したモデルもありますが、Google DeepMindは『画像生成＋動画編集＋マルチモーダル』を一気通貫で提供する点で異なります。

室谷代表取締役

そうですね。今後の競争の焦点は、単体の性能よりも『ワークフローのシームレスさ』になりそうです。

よくある質問（FAQ）～料金・日本語対応・使い方～

テキトー教師.AI認定講師

読者の方からよく聞かれそうな質問をいくつかまとめました。

室谷代表取締役

はい、公式情報に基づいて答えられる範囲で。

Nano Banana 2 LiteとGemini Omni Flashの料金は？

現時点では明らかにされていません。ただし、Nano Banana 2 Liteは『最もコスト効率が高い』と謳われており、以前のモデルからの置き換えが推奨されています。Gemini Omni FlashはAPI利用料が設定される見込みですが、詳細は公開され次第お知らせします。
日本語対応はしていますか？

Geminiシリーズは日本語を含む多言語に対応しています。Nano Banana 2 Liteもテキスト入力で画像生成が可能なため、日本語のプロンプトでも動作すると考えられます。Gemini Omni Flashも同様に日本語の指示で動画編集が可能なはずです。
どうやって使い始めればいいですか？

Google AI Studio（aistudio.google.com）にアクセスし、Nano Banana 2 LiteまたはGemini Omni Flashのモデルを選択してプロンプトを入力するだけです。APIで利用する場合は、Gemini APIのドキュメントを参照してAPIキーを取得し、リクエストを送信します。
Interactions APIで連携するには？

Interations APIの詳細は公開されていませんが、スレッドには『session historyを保持して最大3回の連続編集が可能』とあります。具体的な使い方は公式ドキュメントが公開されるのを待つ必要があります。
生成された動画の商用利用は可能ですか？

ライセンスについては明記されていません。Googleの通常の利用規約に従うことになりますが、商業利用についても特に制限はない可能性が高いです。ただし、必ず最新の規約を確認してください。