2025年日本大阪博覧会中国館は4月に開館以来、多くの観光客が「チェックイン」しに訪れています。観光客が中国館に入ると、遠くから「俺老孫来也」という声が聞こえてきます。この声は、科大讯飞股份有限公司(以下「科大讯飞」)が中国館のために制作した、中国語、日本語、英語の三言語に精通した「AI孫悟空」から発せられています。その外見と音色は、クラシックアニメ映画『大闹天宫』の孫悟空を再現したものです。 「AIモンキーキング」の背後には、近年急速に発展したデジタルヒューマン技術があります。 AIやメタバースなどの新興産業の重要な接続点として、デジタル経済の発展におけるデジタルヒューマンの役割はますます重要になっています。 この分野での大規模モデル技術の徹底的な応用により、デジタルヒューマンは徐々に「使える」から「使いやすい」へと移行し、関連業界が新たな発展段階に入ることを促進しています。 三つの主要なアプリケーションシーンを形成するデジタル人とは、モデリングなどのさまざまなデジタルインテリジェンス技術を通じて作成されたデジタルインテリジェント体を指します。彼らは人間の外観、声、言語を持ち、肢体の動きを模倣でき、思考能力を備え、大規模モデルの支援の下で学習、生成、インタラクションなどの機能を実現します。 技術と需要の二重駆動の下で、我が国のデジタル人産業エコシステムはますます充実し、応用規模は着実に拡大しており、産業チェーンの上下流の生産、運営、サービス能力も徐々に向上しています。天眼査のデータによれば、2024年までに我が国のデジタル人に関連する企業は114.4万社に達しており、2024年の最初の5ヶ月で新たに登録された企業は17.4万社以上で、デジタル人産業の市場の潜在能力と活力を示しています。中国インターネット協会の専門家相談委員会の委員である武鎖寧氏によれば、デジタル人技術が形式に流れ込み、資源の浪費を引き起こさないようにするためには、応用の出口を見つけ、点から面にかけてデジタル人の応用を推進する必要がある。アプリケーションを牽引力として、デジタル人材産業は「技術—シーン—ビジネス」のクローズドエコシステムを加速的に構築しています。中国インターネット協会が発表した「中国デジタル人発展報告(2024)」(以下「報告」)によると、デジタル人の応用シーンは現在、メディアデジタル人、サービスデジタル人、業界デジタル人の三大カテゴリに初めて形成されています。その中で、メディアデジタル人は現在最も成熟したデジタル人の応用形式です。メディアデジタル人から生まれるシーンの数は50%に達する可能性があり、そのリアルなイメージと言語表現の流暢さは、情報伝達のインタラクティブ性と楽しさを大いに向上させています。 たとえば、昨年、中国中央ラジオテレビが初めて開始した「大晦日科学技術ショー」である「中国科学技術イノベーションフェスティバル」では、ホストの張天月と「AIクローン」が同じステージでホストを務めるシーンがありました。 iFLYTEKのiFLYTEKインテリジェントプラットフォームに基づくこの「AIホスト」は、実際のホストと同じ声、表情、動きを持っているだけでなく、ホストと落ち着いてコミュニケーションを取り、相手の言葉を正確に理解し、迅速かつ適切に応答することができ、インタラクションの流暢さにより、観客は本物と偽物を区別するのが難しくなります。《報告》によると、メディアデジタル人を除いて、サービスデジタル人も全面的にアップグレードされ、より強力なインタラクション能力を備え、シーンの数の割合は30%に達し、行政、電子商取引、金融などの分野で広く応用されています。一方、業界デジタル人は芽生え始め、シーンの数の割合は20%に達し、徐々に医療、教育、企業管理の分野で役割を果たしています。AIの革新の入り口になることが期待されるデジタル人は大まかに実人駆動からプログラム駆動、そして現在のAI駆動の3つの段階を経てきました。 初期の頃は、現実の人間が駆動するデジタルヒューマンは、仮想のデジタルアバターを提示することもできましたが、主にコンピュータグラフィックスモデリングやモーションキャプチャなどの技術の助けを借りて、現実の人間が提供する大量の言語、行動、その他のデータによってサポートされる必要がありました。 プログラム駆動型のデジタルヒューマンは、もはや現実の人間が言語や行動などのデータを提供するものではなく、固定されたコンピュータプログラムに基づいており、これは「デジタルロボット」に近く、忠実度の高い擬人化効果を実現することはできません。 近年、AIを搭載したデジタルヒューマンは、音声放送や顔の表情など細部の表現がよりリアルになっただけでなく、徐々に強力なインタラクションや思考能力を持つようになりました。数年前、デジタル人は口の形や表情が一致せず、動作が硬直するなどの問題がありました。これは、デジタル人自体がテキストの意味を十分に理解できず、表情や動作が主に限られた予め設定されたリソースに依存しているため、テキスト内容と正確に一致させることができなかったからです。科大讯飞のデジタル人事業責任者である郜静文は、モデル技術のデジタル人分野への深い応用に伴い、デジタル人製品の性能が新たな段階に進んだと述べています。 例えば、昨年10月、iFLYTEKは超擬人化されたデジタルヒューマンをリリースしました。 これは、大型モデルのマルチモード拡散生成に基づいており、リズム、イントネーション、スピーチの内容に応じてリアルタイムで体の動きを生成でき、アクションプリセットテンプレートの制限を打ち破り、ダイナミックなシーンでのデジタルヒューマンの表現力を大幅に向上させます。 TencentのZhiyingデジタルヒューマンは、「画像のクローン作成」と「音声のクローン作成」を実現でき、ユーザーは少数の写真、ビデオ、オーディオ資料をアップロードするだけで、独自のデジタルヒューマンクローンをすばやく生成し、音色をカスタマイズできます。 アリババのオープンソースAIデジタルヒューマンであるEchoMimicは、静止画に鮮やかな音声と表現を与えることができます。「簡単に言うと、大規模モデル技術はデジタル人が真に意味を理解できるだけでなく、テキストの理解に基づいて迅速に対応する動作や表情を生成することができるため、非常にリアルな表現が可能です。」郜静文は言った。中国インターネット協会の理事長である尚冰は、デジタル人がAIの活発な応用の入り口となりつつあり、ビッグデータ、スマート端末、具身知能などの産業とのリンク度、埋め込み度、融合度が高くなることで、次世代インターネットの活発なインターフェースの一つになる可能性があると考えています。革新的な応用の実践に注目し、デジタル人などの新興業態を積極的に探求し、規模化された応用の優位性を形成することを加速する必要があります。武锁宁は、デジタル人がAIアプリケーションの突破口であり、AIイノベーションの入り口であると考えています。AI駆動のデジタル人は、さまざまな業界により豊かなアプリケーションをもたらすことが期待されており、これらのアプリケーションはAIを実用的な発展の道に導くことができます。パーソナライズされた「デジタルツイン」を作成するデジタル人の広範な利用に伴い、多くのシーンがデジタル人に対してより高い要求を求めています。 「例えば、eコマース、ライブ放送、カスタマーサービスのQ&Aなどのシナリオでは、デジタルヒューマンのリアルタイムインタラクション能力に対する非常に高い要件が提唱されています。 デジタルヒューマンは、ユーザーとリアルタイムに会話をするだけでなく、その対話内容に応じたアクションや表現を生成することができなければ、業務処理の効率に影響を与え、ユーザー体験に直接影響を与えることになります。 Gao Jingwen氏は、デジタルヒューマンビデオ生成モデルの効率を向上させるために、同社のチームは、音声とテキスト入力をコンパクトな中間表現に変換し、ビデオの次元を効果的に圧縮するアクション表現抽出技術を開発したと紹介しました。 この技術の助けを借りて、システムは速記者のように入力されたテキストと音声から重要な情報を迅速に抽出し、無関係な情報データの量を減らし、それに応じてビデオを生成することができ、ビデオ生成の効率を大幅に向上させ、デジタルヒューマンとユーザー間のリアルタイムの相互作用を確保します。 また、デジタルヒューマン業界は急速に発展している一方で、まだ急成長期にあることにも注意が必要です。 Gao Jingwenは、現在、デジタルヒューマン製品の均質化現象があり、パーソナライゼーションとカスタマイズが将来のデジタルヒューマン業界の重要な開発方向になると考えています。 ジェネレーティブAI技術の発展により、デジタルヒューマンの制作閾値とコストは急速に削減され、制作効率とコンテンツの多様性が大幅に向上し、ユーザーが自分の特性に応じてよりパーソナライズされたデジタルヒューマン製品を作成することが現実のものになりました。 現在では、写真や一文の録音などの素材だけで、パーソナライズされた超擬人化されたデジタルヒューマンを生成することができるようになり、デジタルヒューマンのカスタマイズのためのプリセット素材の要件が大幅に簡素化され、ユーザーの操作経路を最適化することができます。郜静文も認めているように、大規模モデル技術がデジタル人を「一般市民の家に飛び込ませる」ことを推進しているが、より精緻な効果を実現するためには、依然として大量のデータの供給とインタラクションのトレーニングが必要である。また、それに伴うプライバシー漏洩やデータセキュリティなどの問題は無視できない。「将来的には、私たち一人一人に『デジタル分身』がいるかもしれません。それは私たちが仕事を処理し、生活の疑問に答え、私たちの伴侶となる手助けをしてくれるでしょう。」と郜静文は言った。(出典:科学技術日報)ソース: Oriental Fortune Network著者:Science and Technology Daily
AIがデジタル人を「一般家庭に飛び込ませる」
2025年日本大阪博覧会中国館は4月に開館以来、多くの観光客が「チェックイン」しに訪れています。観光客が中国館に入ると、遠くから「俺老孫来也」という声が聞こえてきます。この声は、科大讯飞股份有限公司(以下「科大讯飞」)が中国館のために制作した、中国語、日本語、英語の三言語に精通した「AI孫悟空」から発せられています。その外見と音色は、クラシックアニメ映画『大闹天宫』の孫悟空を再現したものです。
「AIモンキーキング」の背後には、近年急速に発展したデジタルヒューマン技術があります。 AIやメタバースなどの新興産業の重要な接続点として、デジタル経済の発展におけるデジタルヒューマンの役割はますます重要になっています。 この分野での大規模モデル技術の徹底的な応用により、デジタルヒューマンは徐々に「使える」から「使いやすい」へと移行し、関連業界が新たな発展段階に入ることを促進しています。
三つの主要なアプリケーションシーンを形成する
デジタル人とは、モデリングなどのさまざまなデジタルインテリジェンス技術を通じて作成されたデジタルインテリジェント体を指します。彼らは人間の外観、声、言語を持ち、肢体の動きを模倣でき、思考能力を備え、大規模モデルの支援の下で学習、生成、インタラクションなどの機能を実現します。
技術と需要の二重駆動の下で、我が国のデジタル人産業エコシステムはますます充実し、応用規模は着実に拡大しており、産業チェーンの上下流の生産、運営、サービス能力も徐々に向上しています。天眼査のデータによれば、2024年までに我が国のデジタル人に関連する企業は114.4万社に達しており、2024年の最初の5ヶ月で新たに登録された企業は17.4万社以上で、デジタル人産業の市場の潜在能力と活力を示しています。
中国インターネット協会の専門家相談委員会の委員である武鎖寧氏によれば、デジタル人技術が形式に流れ込み、資源の浪費を引き起こさないようにするためには、応用の出口を見つけ、点から面にかけてデジタル人の応用を推進する必要がある。
アプリケーションを牽引力として、デジタル人材産業は「技術—シーン—ビジネス」のクローズドエコシステムを加速的に構築しています。
中国インターネット協会が発表した「中国デジタル人発展報告(2024)」(以下「報告」)によると、デジタル人の応用シーンは現在、メディアデジタル人、サービスデジタル人、業界デジタル人の三大カテゴリに初めて形成されています。その中で、メディアデジタル人は現在最も成熟したデジタル人の応用形式です。メディアデジタル人から生まれるシーンの数は50%に達する可能性があり、そのリアルなイメージと言語表現の流暢さは、情報伝達のインタラクティブ性と楽しさを大いに向上させています。
たとえば、昨年、中国中央ラジオテレビが初めて開始した「大晦日科学技術ショー」である「中国科学技術イノベーションフェスティバル」では、ホストの張天月と「AIクローン」が同じステージでホストを務めるシーンがありました。 iFLYTEKのiFLYTEKインテリジェントプラットフォームに基づくこの「AIホスト」は、実際のホストと同じ声、表情、動きを持っているだけでなく、ホストと落ち着いてコミュニケーションを取り、相手の言葉を正確に理解し、迅速かつ適切に応答することができ、インタラクションの流暢さにより、観客は本物と偽物を区別するのが難しくなります。
《報告》によると、メディアデジタル人を除いて、サービスデジタル人も全面的にアップグレードされ、より強力なインタラクション能力を備え、シーンの数の割合は30%に達し、行政、電子商取引、金融などの分野で広く応用されています。一方、業界デジタル人は芽生え始め、シーンの数の割合は20%に達し、徐々に医療、教育、企業管理の分野で役割を果たしています。
AIの革新の入り口になることが期待される
デジタル人は大まかに実人駆動からプログラム駆動、そして現在のAI駆動の3つの段階を経てきました。
初期の頃は、現実の人間が駆動するデジタルヒューマンは、仮想のデジタルアバターを提示することもできましたが、主にコンピュータグラフィックスモデリングやモーションキャプチャなどの技術の助けを借りて、現実の人間が提供する大量の言語、行動、その他のデータによってサポートされる必要がありました。 プログラム駆動型のデジタルヒューマンは、もはや現実の人間が言語や行動などのデータを提供するものではなく、固定されたコンピュータプログラムに基づいており、これは「デジタルロボット」に近く、忠実度の高い擬人化効果を実現することはできません。 近年、AIを搭載したデジタルヒューマンは、音声放送や顔の表情など細部の表現がよりリアルになっただけでなく、徐々に強力なインタラクションや思考能力を持つようになりました。
数年前、デジタル人は口の形や表情が一致せず、動作が硬直するなどの問題がありました。これは、デジタル人自体がテキストの意味を十分に理解できず、表情や動作が主に限られた予め設定されたリソースに依存しているため、テキスト内容と正確に一致させることができなかったからです。科大讯飞のデジタル人事業責任者である郜静文は、モデル技術のデジタル人分野への深い応用に伴い、デジタル人製品の性能が新たな段階に進んだと述べています。
例えば、昨年10月、iFLYTEKは超擬人化されたデジタルヒューマンをリリースしました。 これは、大型モデルのマルチモード拡散生成に基づいており、リズム、イントネーション、スピーチの内容に応じてリアルタイムで体の動きを生成でき、アクションプリセットテンプレートの制限を打ち破り、ダイナミックなシーンでのデジタルヒューマンの表現力を大幅に向上させます。 TencentのZhiyingデジタルヒューマンは、「画像のクローン作成」と「音声のクローン作成」を実現でき、ユーザーは少数の写真、ビデオ、オーディオ資料をアップロードするだけで、独自のデジタルヒューマンクローンをすばやく生成し、音色をカスタマイズできます。 アリババのオープンソースAIデジタルヒューマンであるEchoMimicは、静止画に鮮やかな音声と表現を与えることができます。
「簡単に言うと、大規模モデル技術はデジタル人が真に意味を理解できるだけでなく、テキストの理解に基づいて迅速に対応する動作や表情を生成することができるため、非常にリアルな表現が可能です。」郜静文は言った。
中国インターネット協会の理事長である尚冰は、デジタル人がAIの活発な応用の入り口となりつつあり、ビッグデータ、スマート端末、具身知能などの産業とのリンク度、埋め込み度、融合度が高くなることで、次世代インターネットの活発なインターフェースの一つになる可能性があると考えています。革新的な応用の実践に注目し、デジタル人などの新興業態を積極的に探求し、規模化された応用の優位性を形成することを加速する必要があります。
武锁宁は、デジタル人がAIアプリケーションの突破口であり、AIイノベーションの入り口であると考えています。AI駆動のデジタル人は、さまざまな業界により豊かなアプリケーションをもたらすことが期待されており、これらのアプリケーションはAIを実用的な発展の道に導くことができます。
パーソナライズされた「デジタルツイン」を作成する
デジタル人の広範な利用に伴い、多くのシーンがデジタル人に対してより高い要求を求めています。
「例えば、eコマース、ライブ放送、カスタマーサービスのQ&Aなどのシナリオでは、デジタルヒューマンのリアルタイムインタラクション能力に対する非常に高い要件が提唱されています。 デジタルヒューマンは、ユーザーとリアルタイムに会話をするだけでなく、その対話内容に応じたアクションや表現を生成することができなければ、業務処理の効率に影響を与え、ユーザー体験に直接影響を与えることになります。 Gao Jingwen氏は、デジタルヒューマンビデオ生成モデルの効率を向上させるために、同社のチームは、音声とテキスト入力をコンパクトな中間表現に変換し、ビデオの次元を効果的に圧縮するアクション表現抽出技術を開発したと紹介しました。 この技術の助けを借りて、システムは速記者のように入力されたテキストと音声から重要な情報を迅速に抽出し、無関係な情報データの量を減らし、それに応じてビデオを生成することができ、ビデオ生成の効率を大幅に向上させ、デジタルヒューマンとユーザー間のリアルタイムの相互作用を確保します。
また、デジタルヒューマン業界は急速に発展している一方で、まだ急成長期にあることにも注意が必要です。 Gao Jingwenは、現在、デジタルヒューマン製品の均質化現象があり、パーソナライゼーションとカスタマイズが将来のデジタルヒューマン業界の重要な開発方向になると考えています。 ジェネレーティブAI技術の発展により、デジタルヒューマンの制作閾値とコストは急速に削減され、制作効率とコンテンツの多様性が大幅に向上し、ユーザーが自分の特性に応じてよりパーソナライズされたデジタルヒューマン製品を作成することが現実のものになりました。 現在では、写真や一文の録音などの素材だけで、パーソナライズされた超擬人化されたデジタルヒューマンを生成することができるようになり、デジタルヒューマンのカスタマイズのためのプリセット素材の要件が大幅に簡素化され、ユーザーの操作経路を最適化することができます。
郜静文も認めているように、大規模モデル技術がデジタル人を「一般市民の家に飛び込ませる」ことを推進しているが、より精緻な効果を実現するためには、依然として大量のデータの供給とインタラクションのトレーニングが必要である。また、それに伴うプライバシー漏洩やデータセキュリティなどの問題は無視できない。
「将来的には、私たち一人一人に『デジタル分身』がいるかもしれません。それは私たちが仕事を処理し、生活の疑問に答え、私たちの伴侶となる手助けをしてくれるでしょう。」と郜静文は言った。
(出典:科学技術日報)
ソース: Oriental Fortune Network
著者:Science and Technology Daily