GoogleにはI/Oがあり、AppleにはWWDCがあり、そして今、OpenAIにはDevDaysがあります。今回は何が違うのでしょうか?OpenAIは、サンフランシスコからアジアにコア開発者を移動させるという重要な動きをしました。
このイベントは完璧な規模でした。偶然の出会いを生むのに十分な人数がいて、リラックスするための十分なスペースもありました(または緊急の電話を処理するために...)。ペースもちょうど良く、30分のセッションと15分の休憩のバランスが取れており、圧倒されることなくエネルギーを高く保っていました。
興味深いことに、ai.comが現在ChatGPT.comにリダイレクトされているにもかかわらず、デモはChatGPT自体よりもAPI統合に重点を置いていました。
際立っていた点は以下の通りです:
- 効率的なソフトウェア作成:最小限の監督でソフトウェアを開発することがこれまでになくスムーズになりました。
- コスト効果の高いテスト:結果をテストするための強化された方法が、評価と蒸留によってコストを大幅に削減しています。
- 高度な会話API:音声コマンドは、個人アシスタントを超えて、会話を通じて複雑なプロセスを構築する方向に進化しています。
重要なポイントは?これらの進展は、かつては全チームが必要だったことを個人が達成できるようにする...まさにパラダイムシフトです!
この例を見てみましょう;完璧な音声認識と応答能力の内訳。
デモンストレーターのイラン・ビジオは、モデルに10まで数えるように頼んでいます。
- モデルは数え始めます(命令が実行され始めた後、低遅延で)。
- デモンストレーターは数えの途中で中断します。
- モデルは4で止まります。
- デモンストレーターは最後の数字が何だったかを尋ねます。
- モデルは正しく4だと答えます。
デモ中に示されたことは以下の通りです:
1. 完璧な音声からテキストへの変換(人間の声からAIが使用するテキストへの転写):デモンストレーターは10まで数えるように頼みます。
2. 完璧なテキストから音声への変換(生成された人間の声):AIは数え始め、声は人間のものと同じです。
3. 完璧な実行、AIはゆっくりと数えます。
4. AIが話しているにもかかわらず、常に「聞いている」こと:デモンストレーターが何かを要求し、AIはそれを理解します。
5. 初期の命令はいつでも中断可能:デモンストレーターが数えの途中で止めるように要求し、AIは従います。
6. このプロセスの状態は知られています:デモンストレーターが数えがいつ止まったかを尋ねます。
私たちはもはやSiriや一方向の命令によって提供されていた半分機能する個人アシスタントの領域にはいません。私たちは今、スマートマシンが音声会話を通じて非常に複雑な指示を実行できる時代にいます。
私は子供たちが私の携帯電話でお気に入りのアニメを検索するために音声からテキストへの変換を使用しているのを見ています。次のステップは、複数のタイプの入力を組み合わせたインターフェースを作成することであり、最終的には追加の生産性向上を提供するでしょう。
そして、イラン・ビジオとOpenAIに拍手を送りたいです;全体のデモは18秒で迅速に行われました...!