今回の記事では、「マルチモーダル」を取り上げます。2022年11月にChatGPTが公開されると、世間はChatGPTの話題で持ちきりになりました。ChatGPTのベースはGPT-3.5ですが、2023年に入ると性能が向上したGPT-4がリリースされ、有料版のChatGPT Plusで利用できるようになりました。そのGPT-4の特徴の一つが「マルチモーダル対応」です。この記事では、そのマルチモーダルがXR分野ではどのように実装されているかを解説します。

 

マルチモーダルとは

一般に、マルチモーダル(multimodal)とは複数のモード(手段)を組み合わせて情報を受け渡しすることを指します。モードには、テキスト、音声、画像、動画、ジェスチャー、タッチなどがあります。

GPTはGenerative Pre-trained Transformerの略で、直訳すると「事前学習済みの生成的変換器」、具体的には「大量のテキストデータを使って事前に学習し、文章の中で次に現れる言葉を確率的に予測する、文章生成言語モデル」です。

GPT-4におけるマルチモーダルとは、 テキストと画像という2つのモードの意味を理解できることを指しています。GPT-4は、与えられた写真を見てその後に起こることを予想したり、図表入りの数学の問題を渡されて解いたりすることができるのです。

人間は視覚・聴覚・触覚・味覚・嗅覚という5つの感覚を使って世界を認識しており、五感はそれぞれが独立しているのではなく、互いに影響し合い、融合しています。IT分野では、ChatGPT以外にも、人間にとって自然な双方向体験を叶えるマルチモーダルインターフェースの研究開発が進んでいます。すでに、ゲームやエンターテインメントを筆頭に、教育、医療、広告など、さまざまな領域でマルチモーダル対応が実現・活用され始めており、視覚と聴覚以外の感覚が扱われつつあります。

 

マルチモーダルとXR

XRの分野でもマルチモーダルの実装が進んでいます。むしろ、XRとマルチモーダルは最初から切っても切れない関係にあると言った方が正しいかもしれません。VR(仮想現実)においてもAR(拡張現実)においても、臨場感やインタラクティブ性は何より重要で、視覚と聴覚に触覚や嗅覚を組み合わせる試みが盛んに行われています。

たとえば、スマートグラスを使用したARアプリや、ヘッドマウントディスプレイを使用したVRアプリでは、ただ見たり聞いたりするだけでなく、手や指によるジェスチャーで操作することが可能です。さらには、特殊なコントローラーを使えば、画面には表示されているのに現実には存在しない物を触ったりつかんだりしたときに、ユーザーに触覚情報(「力覚」とも言います)を伝えることもできるようになっています。

 

XRにおけるマルチモーダルの実例その1:ContactGlove

日本のスタートアップ企業「Diver-X」が開発したContactGloveは、見た目は一般的な同種製品に似た手袋型のVRコントローラーですが、触覚(ハプティクス)フィードバック機能を搭載している点が他と一線を画しています。従来製品の弱点である「VR空間に自分の手が映し出されてはいるけれど物をつかんでいる実感がない」という弱点が克服されているのです。

触覚フィードバックが搭載されたコントローラーはContactGloveが初めてではないものの、ContactGloveには形状記憶合金とリニアバイブレーターが採用されていて、格段にリアルな触覚・力覚が再現されます。手袋型コントローラーに欠かせないフィンガートラッキング(実際の指の動きをVR上の仮想指に反映する機能)も高度なものが搭載されていて、VR空間での没入感の高い操作性も群を抜いています。

さらに、「見た目は一般的な同種製品に似た」と書きましたが、他の製品の外観はもっとゴツゴツもっさりしていたり、作業用やキッチン用の手袋のようにのっぺりしていたりするのに対して、ContactGloveはハンサム。白と黒のツートンカラーを基調としており、イカしたバイカーグローブ感があってカッコイイです。

日本発のマルチモーダルデバイスがどのように発展していくのか、今後の進化がとても楽しみです。同社のTwitterアカウント(@DiverX_VR)では、開発や製造の様子がリアルタイムで発信されています。先日は、医療VRシミュレーション向けのペン型触覚フィードバックデバイス「HaptPencil」の発表が共有されていました。これにも大きな期待が寄せられています。

 

 

XRにおけるマルチモーダルの実例その2:ION 3

嗅覚・匂いのデジタル化が急速に進んでいることをご存じですか?「Eノーズ」と呼ばれる嗅覚・匂いのデジタル化市場は、食品、飲料、化粧品から、家電製品、自動車など幅広い分野に及んでおり、その市場規模はまもなく世界で5,000万ドル規模に達し、年平均率は10%を超えるだろうという予測もあります

2023年1月にOVR Technologyが発表した「ION 3」は、コンテンツと連動して香りを生成するウェアラブルデバイスです。交換可能なカートリッジ式で、香りシリンダーが内蔵されており、マイクロメートルレベルの香りの粒子が放出される仕組みのようです。

色の元となるのは三つ(三原色)ですが、匂いを形成する分子は40万種以上あり、そのうち複数(多いものでは数千)の分子が混ざり合って1つの匂いができています。人間の鼻には嗅覚受容体が821種類あり、そのうち機能しているのは396種類だそうです。最新の研究では、人間は一兆種類の匂いを嗅ぎ分けることが可能だ、とも言われています。

ION 3で再現できる香りは数百種類のようですが、コンテンツに合わせて放出する数としては十分でしょう。VR世界の景色や活動に応じて香りが漂えば、没入感はいっそう深くなりそうで、今後の普及が楽しみです。

 

マルチモーダルの未来

ユナイテッドシネマの映画館では「4DX」と呼ばれるテクノロジーが導入されています。これは、映画のシーンに合わせてシートが前後上下左右に動いて衝撃を再現するほか、雨のシーンで水しぶきがかかり、走るシーンで風が吹き、煙を模した霧が湧き、場面に合わせた香りが漂ってくるなど、映像や音と合わさり、まさに五感すべてを刺激して臨場感を高める仕掛けです。

これと同じことがVRなどのXRでも実現されれば素晴らしいですよね。エンターテインメントコンテンツだけでなく、たとえば学校で授業を受ける際に、歴史上の事件や海底や宇宙を4DXで体験できたら楽しいでしょう。医療や製造業のトレーニングで、五感すべてが仮想空間にリアルに再現された状態で練習を積めれば、スキルアップがいっそう後押しされそうです。

 

マルチモーダル分野で新たなテクノロジーやデバイスが登場したら、またこの連載で紹介しようと思いますので、ぜひお楽しみに!

(記事作成日:2023年5月24日)

       

XRシリーズの記事一覧