音声大規模モデル、超リアルな合成技術、全二重対話能力、エッジモデルデプロイメントを基に、ロボットとのリアルタイム対話がより生き生きとして親しみやすくなります。
言語大規模モデル + RAG(Retrieval-Augmented Generation)を活用し、企業専用の業務知識ベースを構築。これにより、正確なマーケティングトーク、業務相談やガイド、展示説明をサポートし、情報伝達がより効率的かつ直感的になります。
マルチモーダル大規模モデルに基づき、マルチチャンネルでの情報処理能力により、人間とロボットのインタラクションがより快適で容易になります。音源定位、顔認識、リップリーディングアルゴリズムを統合し、騒がしい環境や高ノイズのシーンでも96%の正確な音声拾音、99%の顔認識率を実現します。
動作大規模モデル(ActionGPT)に基づき、音声指示や意図に応じて、エンドツーエンドで自然なヒューマノイド動作を生成し、軽作業のタスクを実行します。