AIの進化は日進月歩。新サービスや大型アップデートが、ほんの1週間で次々と登場しています。本記事では、Gensparkの「スーパーエージェント」や新しいマルチモーダルモデル「Llama4」、ChatGPTとGoogleドライブとの本格連携、さらにはMidjourney V7、RunwayのGen-4動画生成など、注目ニュースをまとめてご紹介します。最新動向を一気に把握したい方はぜひ最後までお読みください。
今週のトピック概要
ここ数日だけでも、新型のAIエージェントやモデルのアップデートが続々発表されました。たとえば「Genspark スーパーエージェント」という新しい汎用型エージェントが登場したり、ChatGPTがようやく社内データを扱えるプランを公開したり、動画生成の「Runway Gen-4」や画像生成の「Midjourney V7」など、クリエイティブ分野にも大きな進展がありました。
さらに、Metaから「Llama4」が発表されるなど、巨大モデル同士の競争も激化。いずれもビジネス・個人利用問わず大きな影響を与えるものばかりです。本記事では、それぞれの概要とポイントをかみ砕いてお伝えします。
AIエージェント関連
Genspark「スーパーエージェント」
まずは注目度が急上昇している「ジェンスパーク スーパーエージェント」。
- 80種類以上のツールと連携できる
- 検索やブラウザー操作、画像生成、動画生成、さらには電話代行サービスまで対応
とにかく「できること」の幅が広く、さらに比較的コストパフォーマンスが良いのが特長です。有料プランは月額25ドルで1万クレジットが付与され、追加パックも20ドルで1万クレジット。文章要約やレポート作成などを中心に使うならクレジット消費量も抑えられ、汎用的な作業を低コストで実施できるのが大きな強みです。
スライドやHTMLファイル作成もOK
特筆すべきは「アウトプットの形を指定すると、一連のステップを自動処理してくれる」点。
- 指示した情報をまとめてプレゼン風のHTMLを生成
- そこからPDF出力も可能
画像や動画を頻繁に生成するとクレジット消費は早くなるものの、他のテキスト処理系タスクは非常に低コストで済みます。
Manusの有料化と比較
先月、大きな話題を呼んだAIエージェント「Manus」も1か月ほどで有料化し、月39ドル/199ドルのサブスク制が始まりました。ただ、
- 処理単位が「クレジット」ベース
- クレジットの消費量が意外と多い
- 総合的に見るとコストパフォーマンスがやや低め
といった点から、同じような汎用AIエージェントを探すなら現時点ではGensparkがやや優勢という印象です。もちろんManus自体もバックエンドが新バージョン(Claude 3.7)になり、精度や長文処理能力が向上していますが、コスト重視ならGensparkを検討する価値は高いでしょう。
Devin2.0でコーディングを自動化
自動コーディング系エージェント「Devin(デビン)」が2.0にアップデートしました。
- 月額20ドル+使用分の従量課金制(1ACUあたり2.25ドル)
- 導入がやや難しいが、チームでの開発フローに溶け込みやすい
DevinはSlack上でエンジニアに指示する感覚で使えるのがポイント。「ヘッダーのロゴを変えて」「フッターのコピーライトを修正して」などの要望をテキストベースで投げると、裏側でPR(プルリク)を自動作成し、エンジニアに近い形で作業を完了してくれます。
初期設定は多少ハードルがありますが、Gitやスラックをメインに使うエンジニアにとっては便利な選択肢。「リモートで突然プロジェクトに参加するAIエンジニア」をイメージするとわかりやすいかもしれません。
マネーフォワードがAIエージェント領域に進出
会計や家計簿アプリなどを手掛けるマネーフォワードが「AIエージェントプラットフォーム」を発表しました。
- データとツールが豊富な大手SaaS企業
- そこにAIエージェントが組み込まれることで、経理・会計まわりの作業効率化が加速
日本のSaaS企業や業務支援プラットフォーム企業は、自社で保有する業務データをAIエージェントと組み合わせる事例が増えています。マネーフォワードの事例はその代表格。今後、請求書・顧客管理・各種分析など、人力が必要だった領域をエージェントが肩代わりする動きが本格化しそうです。
Microsoft Copilotの拡充
MicrosoftもCopilotの新機能を一気に発表しました。
- Copilot Memories:ユーザーの利用履歴を記憶
- Copilot Actions:外部ツールを呼び出して自動でタスクを実行
- Copilot Vision:画像を理解してやり取り
- Deep Research:より深い検索・調査機能
まだ日本を含む一部地域では限定的ですが、OfficeやTeamsといった利用者の多い製品と連携することで、ビジネスシーンでの普及がさらに進む見込みです。
Amazonの新モデル「Nova Act」
Amazonは以前から低コスト高品質の生成モデル「Nova」を公開していましたが、今回「Nova Act」というブラウザー操作特化のAIエージェント機能を追加発表。
- ブラウザー操作成功率が高い
- コストは競合の75%以下になる見込み
AWS上でのサービス提供が行われるため、大量アクセスや法人向けサービスで強みを発揮する可能性があります。まだアメリカなど一部地域限定のプレビュー段階ですが、今後の正式リリースに注目です。
ChatGPT関連
ChatGPTがGoogleドライブと連携
従来のChatGPTプラグインや他サービス(たとえばPerplexity)でもGoogleドライブ連携は存在していましたが、今回OpenAIが本格的な企業向けプランとしてドライブデータを直接扱える形を提供開始しました。
管理者権限で設定すると、会社のGoogle WorkspaceアカウントにあるファイルをChatGPTが大規模に同期し、分析・参照できるように。
- まだ連携設定が複雑、同期に時間がかかる
- ただし、完了すれば社内ドキュメントを一元的にChatGPTで参照できる
ChatGPTの機能が企業独自のデータに対しても回答できるようになり、ビジネスシーンでの活用が一気に広がりそうです。
GPT4oの画像生成が無料開放
ChatGPT上での画像生成が、ついにGPT4o(Vision)によって画像認識+生成機能も統合されました。
- 従来は「DALL·E」など別モデルを呼び出していたが、新GPT4oは会話/画像認識/生成をひとつのモデルで実行
- 無料ユーザーも1日3枚まで利用可能(※混雑状況によって変更の可能性あり)
SNS上ではジブリ風やディズニー風など、あらゆるスタイルの画像生成が大流行。1週間で1.3億人以上が利用し、推定7億円以上のサーバーコストがかかったとも言われています。画像と文章を組み合わせた利用法が広がり、ビジネスでも広告素材や商品イメージ作成など、活用シーンが増えています。
画像生成・動画生成モデル
Midjourney V7がついにリリース
これまで数々の高品質イラスト・アートを生み出してきた「Midjourney」ですが、約1年ぶりにV7へアップデートしました。
- さらに写実的・芸術的な表現力が向上
- 「ドラフトモード」で高速プレビューを作り、良いものだけ最終調整する新フロー
現状、ChatGPTの画像生成のクオリティも高まってきましたが、一枚絵を作り込むならMidjourneyのほうがまだ優位性があるという声も多いです。V7は試作→エンハンスの2段階がより使いやすくなり、スピーディにアート表現を追求できます。
Runway「Gen-4」で動画生成がさらに進化
動画生成プラットフォームRunwayも、新バージョンGen-4を発表。
- 一貫性(コンシステンシー)が向上し、崩れやすかった人物や背景が安定
- リアルな動きもAIプロンプトで再現しやすくなった
「Gen-4」は、あらかじめAIで生成したキャラクター画像を連続的に動かしても破綻しにくいのが特長。ビデオクリップや短編映像を作るときに、かなりクリエイティブの幅が広がりました。ランウェイは3億ドル超の資金調達も完了し、動画AI分野のリーダーとして躍進を続けています。
最新LLMの進化
Meta「Llama4」登場
Metaが「Llama4」ファミリーを発表。3種類のモデルがあり、特に注目は以下2つです。
- スカウト
- 1,000億パラメーター相当
- 最大1,000万トークンの長文入力に対応
- 画像・動画などマルチモーダルに強化
- マーベリック
- 全体で4,000億パラメーター級
- 実際に使うのは128個のエキスパート(それぞれ170億パラメーター)
- GPT4やGemini 2.0に匹敵する性能
さらに最上位モデル「ベヒーモス」は2兆パラメーター規模とされ、GPT4.5やClaude 3.7並みの性能を目指すとのこと。まだ公開されていませんが、オープンソース寄りのライセンスで展開が予想され、多くの派生モデルが生まれる可能性があります。
アリババ「Qwen2.5」
中国のアリババは、7B(70億)パラメーター程度の「Qwen2.5」を公開。
- 画像認識・音声解析・動画解析などマルチモーダルに対応
- パラメーターが軽量なのでオフライン運用も視野に入る
Hugging Faceのデモでは、アップロードした画像に含まれる文字や物体をかなり正確に解析。中〜小規模モデルでも、ここまで認識力が高まっている例として注目されています。
NotebookLM「Discover機能」
Googleが提供するAIノートアプリ「NotebookLM」にディスカバー機能が追加されました。
- ブラウザで検索しながら参考資料を自動で見つけてNotebookLMに取り込める
- ノート中の情報をさらにAIが要約・分析
まだ一部ユーザーに限られますが、情報収集〜ノート構築をAIがほぼ自動でやってくれる未来が近づいています。Googleが本腰を入れてノート×AIを推進している動きとして注目です。
OpenAIが新モデルをオープンソース化?
OpenAIもクローズド戦略から方針転換し、独自のLLMをオープンソース化する可能性が報じられています。
- これまで「悪用防止」などを理由に非公開が中心
- しかし中国やMetaのオープンモデルが一気に普及し、OpenAIのグローバル戦略にも影響?
- 100万〜1,000万トークン級の長文処理が可能なオープンモデルに注目が集まる
実際にどこまで公開されるか不明ですが、もしOpenAI独自モデルの一部コードや重みが公開されれば、企業や開発コミュニティへさらなる影響を及ぼすでしょう。
MCP(Model Context Protocol)の最新アップデート
AIエージェントが外部ツールやデータにアクセスするための標準規格として注目されるMCPがバージョンアップ。
- セキュリティ強化
- ストリーミング対応でリアルタイム処理性向上
- バッチ処理によりAPIコストの削減
- ツールアノテーションでエージェントがツールの役割を把握しやすくなる
AnthropicのClaudeをはじめ、OpenAIやMicrosoftがMCP対応を表明しており、今後AIエージェントが標準的に外部サービスへ接続する基盤となるかもしれません。
テクノロジー×社会・ビジネスの動き
イーロン・マスク関連:XAIとXが合体
イーロン・マスク氏が率いるXAIが、SNSプラットフォーム「X(Twitter)」を買収し、両社を統合した形になりました。
- Xは約6億人の利用者データを抱える
- XAIの大規模言語モデル(Grokなどの推測も)との連携
今後はTwitterの投稿データを生かした生成AIの開発が進むと見られ、GoogleやMetaと競合するAIプラットフォームを狙う戦略がうかがえます。
OpenAI大型資金調達と時価総額の急拡大
OpenAIがソフトバンク主導で100〜300億ドル規模の追加資金調達を計画中との報道も。
- 非営利型の組織体制を見直し、より自由度の高い「営利+公益」のハイブリッド企業へ転換
- 調達実現で時価総額30兆円超(3000億ドル相当)に
これは世界最大級のユニコーンであるスペースXやTikTokを運営するバイトダンスに並ぶ規模。わずか数年でトヨタ自動車を超える時価総額に迫るというのは、まさにAIバブルの象徴とも言えます。
AIチャットボット利用者数の現状
チャットボット各社の週次アクティブユーザー数は以下のようなイメージ(推定含む)です。
- ChatGPT:4〜5億人
- DeepSearch / Grok:1,600万人
- Gemini:1,100万人
- Claude / Copilot:数百万〜数百万人
モバイルアプリでもChatGPTが圧倒的な存在感。ユーザースケールでまだまだ「ChatGPT一強」ですが、DeepSearchやGrok、Claude、Copilotもファンが着実に増えているという構図です。
健康・教育・心理面でのAI活用
Apple「ヘルスケアアプリ」にAIコーチが搭載?
AppleはiPhone標準の「ヘルスケア」アプリに、AIを使ったコーチング機能を追加する動きがあると報じられています。
- 歩数や睡眠データなど、多くのヘルス情報を収集
- ユーザーの健康目標や食事ログをAIで分析
- 生活習慣改善やダイエット、運動アドバイスなどをパーソナライズ提案
Apple WatchやiPhoneで集めたデータをAI解析し、ユーザーの健康を持続的にサポートしてくれるなら大きな価値がありそうです。
AIセラピスト「セラボット」でメンタル改善
メンタルヘルス向けのAIセラピスト「セラボット」が、打つや不安を抱える被験者200人を対象にした実験で症状が有意に改善されたという研究結果が報告されました。
- 認知行動療法(CBT)的なプロンプト設計
- 1〜2か月継続利用で不安や打つ傾向が低減
もちろんAI任せで専門家の役割が不要になるわけではありませんが、セルフケアや軽症者のサポートとしてAIセラピストの有用性が実証されつつあります。
https://www.technologyreview.jp/s/358865/how-do-you-teach-an-ai-model-to-give-therapy/
Claude「エデュケーションモード」
AnthoropicのClaudeでは教育向けにClaude for Education(学習支援モード)が追加。
- ソクラテス式に理由を問い返す→批判的思考や理解度の深掘りを促す
- 教師・学生それぞれに割引や特別プランを提供
ChatGPTの「EDUプラン」に近い機能を追求し、会話型教材・学習の自動化を本格化する狙いです。
AIを使った抽象化の面白さ
最後に、少しユニークなトピックとして「AIを用いた画像の抽象化」があります。
- 元の人物写真をイラスト化し、さらに抽象度を上げてロゴやアイコンに変形
- AIが抽出した「特徴」をテキストでも説明させる
デザイナーやビジネスパーソンにとっても、イメージや概念を多角的に抽象化するのは発想力を高めるうえで重要。AIモデルを使うと、想定外の切り口で特徴を浮き彫りにできるので、ブランディングやアイデアスケッチにも応用できそうです。
まとめ
今回ご紹介したように、AIエージェントや生成系モデルは新規サービスが続々と登場・進化しています。Gensparkのような汎用型エージェントの台頭や、Meta・アリババの新モデル、Runwayの動画生成アップデートなど、どれも実際に触ってみると驚くほど使いやすくなっているのが現状です。
さらに、ChatGPTがGoogleドライブに本格対応するなど、ビジネス現場でも大量の社内データをAI活用できる環境が整いつつあります。これからますます競争が激化し、サービス間の価格・機能差が明確になるはずです。
本ブログを参考に、今後もぜひ新しいAIツールを実際に試しながら、ご自分の業務や学習に役立ててみてください。ほんのわずかのアップデートが圧倒的な生産性向上をもたらす時代です。来週にはまた新たなニュースが飛び込んでくるはずなので、引き続き要チェックですね。
参考・関連情報
- ChatGPTの企業向けGoogleドライブ連携
https://ledge.ai/articles/chatgpt_enterprise_google_drive_integration
https://openai.com/ja-JP/chatgpt/team/ - Genspark「スーパーエージェント」
https://mainfunc.ai/blog/genspark_super_agent - Midjourney V7
https://www.midjourney.com/updates/v7-alpha - Runway Gen-4公式ページ
https://runwayml.com/research/introducing-runway-gen-4 - Meta Llama4
https://ai.meta.com/blog/llama-4-multimodal-intelligence/ - アリババ Qwen2.5-Omni
https://github.com/QwenLM/Qwen2.5-Omni - Devin2.0 公式サイト
https://devin.ai/