株式会社BrainPad AAA(ブレインパッド ...
AIソリューション事業を手掛ける株式会社ヘッドウォータース(本社:東京都新宿区、代表取締役:篠田 庸介、以下「ヘッドウォータース)」は、日本マイクロソフトが提供する「Azure OpenAI Service」利用企業向けにテキスト、音声、画像・映像の複合的な ...
セブン-イレブン・ジャパン(本社:東京都千代田区)は2025年9月30日、マルチモーダルAIモデル「VLA(Vision-Language-Action)」を搭載したヒューマノイド(人型ロボット)を、2029年までにコンビニエンスストア店舗に導入する ...
テンセントが9月28日、新たな画像生成AIモデル「Hunyuan Image 3.0」を発表した。GitHub、Hugging Face上で公開されている。
マルチモーダルRAGとは、通常のRAGと何が違うのか? 企業データの90%が非構造化データであり、その80%以上が画像、動画 ...
翔泳社では、「独習」「徹底入門」「スラスラわかる」「絵で見てわかる」「一年生」などの人気シリーズをはじめ、言語や開発手法、最新技術を解説した書籍を多数手がけています。プロジェクトマネジメントやチームビルティングといった管理職向けの ...
Phi-4-multimodal ―複数のモード入力を同時に理解⁠・ 推論できるモデル Phi-4-multimodalは56億パラメータをもつ同社初のマルチモーダル言語モデル。音声、視覚、テキスト処理を1つのアーキテクチャにシームレスに統合しており、複数の入力モードを同時に理解 ...
米Appleと米カリフォルニア大学サンタバーバラ校(UCSB)の研究者らは2月5日(現地時間)、マルチモーダル大規模言語モデル(MLLM)によるテキストベースの画像編集についての論文を発表し、その実装である「MGIE」(MLLM-Guided Image Editing)のコードをGitHubで ...
米MetaのAI研究部門Meta AIは8月22日(現地時間)、自動音声認識、音声テキスト変換、音声合成、テキスト読み上げ、テキスト翻訳の全てを単一のモデルでサポートする「SeamlessM4T」を発表した。オープンサイエンスのアプローチに則り、研究者や開発者がこの ...
パナソニック ホールディングス株式会社(以下、パナソニックHD)およびパナソニックR&Dカンパニーオブアメリカは、カリフォルニア大学ロサンゼルス校の研究者らと共同で、テキスト、画像、音といった異なるデータ形式を自由に相互変換できる(以下 ...
米Microsoftは2月26日(現地時間)、小規模言語モデル(SLM)である「Phi」ファミリーに「Phi-4-multimodal」「Phi-4-mini」が加わったと発表した。現在、「Azure AI Foundry」、「HuggingFace」、「NVIDIA API Catalog」で利用可能。 小規模言語モデル(Small Language Model:SLM)は ...