記事内に広告を含む場合があります。

ChatGPTの大アップデート!マルチモーダルモデルで、見る、聞く、話すができるように!

chatGPT部

mikimiki Webスクールで、、ChatGPTの最新アップデートについて解説されていました。

【速報!今期最大アプデ🔥】ついにChatGPTが見る・聞く・話す!マルチモーダルモデルが実装されます

マルチモーダルモデルの実装により、ChatGPTが画像や音声を認識し、それに基づいて対話を行う能力を獲得した点です。

この機能の追加により、ChatGPTの活用の幅が大きく広がることが期待されます。

スポンサーリンク

会話型アシスタント

mikimiki WEBスクールより

動画では、みきみきさんがchaGPTのサイトに掲載されたアップデートの内容について、ひとつひとつ確認しながら紹介しています。

まずは、「聞く、話す」の「会話形アシスタント」の紹介。

ユーザーが音声で「スーパーデューパーヘッジホッグ」という架空のキャラクターをモチーフにした寝かしつけのストーリーを考えてほしいとchatGPTに話しかけると、ChatGPTは音声でそのキャラクターに関するストーリーを生成し、ユーザーに返答します。

chatGPTが用意した話者も数人いて、どれも自然な言語を話すことができていました。

このデモは、ChatGPTが音声入力を受け取り、それに応じて音声で自然な言語を使用して答えを生成する能力を見せてくれています。

 

画像認識のデモ

mikimiki webスクールおり

 つぎに、みきみきさんは、画像認識のデモを解説します。

ユーザーが、スマホのカメラで撮影した自転車の写真をchatGPTのアプリでアップロードし、その自転車のシートの下げ方について質問します。

ChatGPTは、アップロードされた画像を認識し、自転車のシートの下げ方に関する5つのステップを提供します。

さらに、ユーザーは、「レバーを動かす」というステップについての確認として、自転車の特定の部分を示すために画像上でマーキングを行い、それがレバーかどうかを質問します。

ChatGPTは、マーキングされた部分がレバーではないことを認識し、その部分に関する説明を提供します。ユーザーが示した写真はレバーではなく、六角レンチの穴だったのです。

そこで、ユーザーは自分が持っているツールボックスの内容の写真と、マニュアルの写真をアップロードし、その中のどのツールを使えばいいか質問します。

ChatGPTは、写真の中のツールと説明書の内容を認識し、ユーザーに左のボックスの中の六角レンチをつかうのだと適切な答えを提供します。

画像を認識してそれがなにかを答えるだけでなく、これまでの会話からの文脈を理解し、記憶した上で会話が流れていくのです。

スポンサーリンク

 

まとめ

今回のアップデートにより、ChatGPTは画像や音声を認識して対話する能力を獲得しました。

2つ目の画像認識については驚きました。

画像認識ができることの価値がこれまでピンと来ていなかったので、デモを見てその使い方がわかりました。そして、そこまで認識できるのかということ、認識した上でその意味や価値を理解し、ユーザーにわかるように解説することまでできてしまうのです。

ユーザーはこれまでのように文章入力だけでなく、声や写真などの方法でも情報を入力できるようになりました。そして、それに基づいてChatGPTからの音声による返答を受け取ることができるようになりました。

これは、これまでのchatGPTの使い方を大きく変えることになりそうですね。
視覚障害を持った方にもよいですね。

特に、ChatGPT+やエンタープライズユーザー向けには、この新機能が2週間以内に利用可能になるとのことです。

10月初旬から中旬にかけてといったところでしょうか。

楽しみです。

タイトルとURLをコピーしました