Multimodal Text - 検索 News

クラウド Watch on MSN

BrainPad AAA、作業の動画からマニュアル・報告書をAIエージェントが ...

株式会社BrainPad AAA（ブレインパッド ...

「Azure OpenAI Service」利用企業向けにテキスト、音声、画像・映像の ...

AIソリューション事業を手掛ける株式会社ヘッドウォータース（本社：東京都新宿区、代表取締役：篠田庸介、以下「ヘッドウォータース）」は、日本マイクロソフトが提供する「Azure OpenAI Service」利用企業向けにテキスト、音声、画像・映像の複合的な ...

IT Leaders

セブン-イレブン、VLAモデル搭載ヒューマノイド「Astra」を2029年まで ...

セブン-イレブン・ジャパン（本社：東京都千代田区）は2025年9月30日、マルチモーダルAIモデル「VLA（Vision-Language-Action）」を搭載したヒューマノイド（人型ロボット）を、2029年までにコンビニエンスストア店舗に導入する ...

3 日on MSN

グーグル「Nano Banana」超える画像生成AIまた登場「Hunyuan Image 3.0」

テンセントが9月28日、新たな画像生成AIモデル「Hunyuan Image 3.0」を発表した。GitHub、Hugging Face上で公開されている。

Excite エキサイト

テキストだけでなく画像や音声なども処理するマルチモーダルRAG ...

マルチモーダルRAGとは、通常のRAGと何が違うのか？企業データの90%が非構造化データであり、その80%以上が画像、動画 ...

CodeZine（コードジン）

AIエンジニア必見！実践から見る、マルチモーダルRAG最前線

翔泳社では、「独習」「徹底入門」「スラスラわかる」「絵で見てわかる」「一年生」などの人気シリーズをはじめ、言語や開発手法、最新技術を解説した書籍を多数手がけています。プロジェクトマネジメントやチームビルティングといった管理職向けの ...

技術評論社

サイトについて

Phi-4-multimodal ―複数のモード入力を同時に理解⁠・推論できるモデル Phi-4-multimodalは56億パラメータをもつ同社初のマルチモーダル言語モデル。音声、視覚、テキスト処理を1つのアーキテクチャにシームレスに統合しており、複数の入力モードを同時に理解 ...

ITmedia

Apple、UCSBと共同でマルチモーダルLLM採用のテキストベースの画像 ...

米Appleと米カリフォルニア大学サンタバーバラ校（UCSB）の研究者らは2月5日（現地時間）、マルチモーダル大規模言語モデル（MLLM）によるテキストベースの画像編集についての論文を発表し、その実装である「MGIE」（MLLM-Guided Image Editing）のコードをGitHubで ...

マイナビニュース

Meta、単一のAIモデルで多言語・マルチモーダル翻訳に対応「SeamlessM4T」

米MetaのAI研究部門Meta AIは8月22日（現地時間）、自動音声認識、音声テキスト変換、音声合成、テキスト読み上げ、テキスト翻訳の全てを単一のモデルでサポートする「SeamlessM4T」を発表した。オープンサイエンスのアプローチに則り、研究者や開発者がこの ...

毎日新聞

パナソニックHD、テキスト、画像、音を相互に変換可能な ...

パナソニックホールディングス株式会社（以下、パナソニックHD）およびパナソニックR＆Dカンパニーオブアメリカは、カリフォルニア大学ロサンゼルス校の研究者らと共同で、テキスト、画像、音といった異なるデータ形式を自由に相互変換できる（以下 ...

窓の杜

Microsoft、小規模言語モデル「Phi-4-multimodal」「Phi-4-mini」を発表

米Microsoftは2月26日（現地時間）、小規模言語モデル（SLM）である「Phi」ファミリーに「Phi-4-multimodal」「Phi-4-mini」が加わったと発表した。現在、「Azure AI Foundry」、「HuggingFace」、「NVIDIA API Catalog」で利用可能。小規模言語モデル（Small Language Model：SLM）は ...

一部の結果でアクセス不可の可能性があるため、非表示になっています。

アクセス不可の結果を表示する