С 4 апреля 2025 года, когда открылась китайская экспозиция на Всемирной выставке в Осаке, Япония, она привлекла множество туристов для ежедневного посещения. Когда туристы входят в китайский павильон, вдали они могут услышать голос: "俺老孙来也". Этот звук исходит от "AI Сунь Укуна", созданного компанией iFlytek (далее по тексту "iFlytek"), который владеет тремя языками: китайским, японским и английским. Его внешний вид и тембр голоса полностью воссозданы по образцу классического анимационного фильма "Великая битва в Небесной палате".
За "AI Сунь Укун" стоит стремительно развивающаяся технология цифровых людей. В качестве ключевой связующей точки новых отраслей, таких как ИИ и метавселенная, роль цифровых людей в развитии цифровой экономики становится все более важной. С углубленным применением технологий больших моделей в этой области цифровые люди постепенно переходят от "доступных" к "удобным в использовании", что способствует переходу связанных отраслей на новый этап развития.
Формируются три типа сценариев применения
Цифровой человек — это цифровой интеллект, созданный с помощью различных цифровых интеллектуальных технологий, таких как моделирование. Он имеет человеческий облик и голос, способен имитировать движения тела, обладает мыслительными способностями и может реализовывать функции обучения, генерации и взаимодействия на основе больших моделей.
Под влиянием технологий и спроса экология цифровой человеческой промышленности в Китае становится все более совершенной, масштабы приложений расширяются, а производственные, эксплуатационные и сервисные возможности восходящей и нисходящей промышленной цепочки постепенно улучшаются. Данные Тяньянча показывают, что по состоянию на 2024 год в Китае будет насчитываться 1,144 миллиона цифровых предприятий, связанных с человеком, и только за первые пять месяцев 2024 года будет добавлено более 174 000 новых зарегистрированных предприятий, что свидетельствует о рыночном потенциале и жизнеспособности индустрии цифрового человека.
По мнению члена Консультативного совета экспертов Китайской ассоциации интернета У Сюанина, чтобы избежать формального использования технологий цифровых людей и предотвратить растрату ресурсов, необходимо найти выходы для их применения, продвигая внедрение цифровых людей по принципу от частного к общему.
С учетом применения, индустрия цифровых людей ускоренно формирует замкнутую экосистему "технологии — сцены — бизнес".
Китайская интернет-ассоциация выпустила "Отчет о развитии цифровых людей в Китае (2024)" (далее "Отчет"), в котором анализируется, что на данный момент приложения для цифровых людей в основном формируются в три категории: медиаперсонажи, сервисные персонажи и отраслевые персонажи. Среди них медиаперсонажи являются наиболее зрелой формой применения цифровых людей. Доля сцен, связанных с медиаперсонажами, может достигать 50%, а их реалистичный облик и плавное языковое выражение значительно повышают интерактивность и увлекательность передачи информации.
Например, на первом «Новогоднем科技秀», организованном Центральным телевидением Китая в прошлом году, появилась сцена, где ведущий Чжан Тэньюэ ведет программу вместе с «AI-двойником». Этот «AI-ведущий», созданный на платформе Xunfei Zhizuo, принадлежащей компании iFlytek, не только имеет такой же голос, выражения и движения, как у реального ведущего, но и может непринужденно общаться с ведущим, точно понимать его слова и быстро давать соответствующие ответы, что делает взаимодействие настолько плавным, что зрители едва могут отличить реальность от виртуальности.
"Доклад" показывает, что, кроме медиаперсон, сервисные цифровые люди также претерпели полное обновление, обладая более высокой интерактивной способностью, доля сценариев достигает 30%, широко применяется в государственных делах, электронной коммерции, финансах и других областях; цифровые люди в отрасли только начинают развиваться, доля сценариев составляет 20%, постепенно играя роль в медицине, образовании и управлении компаниями.
Ожидается, что станет входом для инноваций в области ИИ
Цифровые люди в основном прошли три этапа: от управления реальными людьми к управлению программами, а затем к управлению AI.
В первые дни цифровые люди, управляемые реальными людьми, также могли представлять виртуальные цифровые аватары, но в основном с помощью компьютерной графики, моделирования и захвата движения и других технологий, они все еще нуждались в поддержке большого количества языка, действий и других данных, предоставляемых реальными людьми. Программно-управляемый цифровой человек больше не может быть обеспечен реальными людьми языком, действиями и другими данными, но он основан на фиксированной компьютерной программе, которая ближе к «цифровому роботу» и не может достичь высокоточного антропоморфного эффекта. В последние годы цифровые люди на базе искусственного интеллекта не только стали более реалистичными в представлении деталей, таких как голосовые трансляции и мимика, но и постепенно обладают более мощными возможностями взаимодействия и мышления.
“Несколько лет назад цифровые люди могли иметь проблемы с несовпадением губ, выражений лица и неестественными движениями. Это связано с тем, что цифровые люди сами недостаточно понимают семантику текста, и их выражения и действия в основном зависят от ограниченных предустановленных ресурсов, что не позволяет точно соответствовать содержанию текста.” Гао Цзинвэнь, руководитель бизнес-отдела цифровых людей компании iFlytek, сказал, что с углубленным применением технологий больших моделей в области цифровых людей, производительность продуктов цифровых людей достигла нового уровня.
Например, в октябре прошлого года компания iFLYTEK выпустила суперантропоморфного цифрового человека. Он основан на многорежимной диффузионной генерации больших моделей, которые могут генерировать движения тела в режиме реального времени в соответствии с ритмом, интонацией и содержанием речи, преодолевая ограничения предустановленных шаблонов действий и значительно улучшая выразительность цифровых людей в динамических сценах. Цифровой человек Zhiying от Tencent может достичь «клонирования изображения» и «клонирования звука», пользователям нужно только загрузить небольшое количество изображений, видео и аудиоматериалов, и они могут быстро создавать свои собственные цифровые клоны человека и настраивать их тембр. EchoMimic, цифровой человек с искусственным интеллектом с открытым исходным кодом от Alibaba, может придать статичным изображениям яркую речь и выразительность.
"Короче говоря, технологии больших моделей могут не только позволить цифровым людям действительно понимать семантику, но и быстро генерировать соответствующие действия и выражения на основе их понимания текста, что делает их поистине реалистичными", - сказала Гао Цзинвэнь.
Шан Бинг, председатель Общества Интернета Китая, считает, что цифровые люди становятся входом в активное применение ИИ и имеют сильную степень связи, встроенности и интеграции с такими отраслями, как большие данные, интеллектуальные терминалы и воплощенный интеллект, и могут стать одним из активных интерактивных интерфейсов следующего поколения Интернета. Необходимо уделять внимание внедрению инновационных приложений, активно осваивать новые форматы, такие как цифровые люди, и ускорять формирование преимуществ масштабных приложений.
Ву Слочин также считает, что цифровые люди являются прорывом в применении ИИ и входом в инновации ИИ. Цифровые люди, управляемые ИИ, могут принести более разнообразные приложения в различные отрасли, и эти приложения как раз могут направить ИИ на путь практического развития.
Создание персонализированного "цифрового двойника"
С учетом широкого применения цифровых людей, многие сценарии выдвигают более высокие требования к цифровым людям.
«Например, такие сценарии, как электронная коммерция, прямая трансляция и обслуживание клиентов, вопросы и ответы, выдвигают чрезвычайно высокие требования к способности цифровых людей взаимодействовать в режиме реального времени. Цифровые люди должны не только иметь возможность вести разговоры с пользователями в режиме реального времени, но и генерировать соответствующие действия и выражения в соответствии с содержанием диалога, в противном случае это повлияет на эффективность бизнес-процессов и напрямую повлияет на пользовательский опыт. Гао Цзинвэнь сообщил, что для повышения эффективности цифровой модели генерации видео человеком команда компании разработала технологию извлечения представления действия, которая преобразует речь и текст в компактные промежуточные представления, эффективно сжимая видеоизмерение. С помощью этой технологии система может быстро извлекать ключевую информацию из входного текста и голоса, как стенографистка, сокращать количество нерелевантных информационных данных и соответственно генерировать видео, значительно повышая эффективность создания видео и обеспечивая взаимодействие между цифровыми людьми и пользователями в режиме реального времени.
Следует также отметить, что хотя индустрия цифрового человека развивается быстрыми темпами, она все еще находится в периоде бурного роста. Гао Цзинвэнь считает, что в настоящее время существует феномен гомогенизации цифровых продуктов человека, и персонализация и кастомизация станут важным направлением развития индустрии цифрового человека в будущем. С развитием технологии генеративного искусственного интеллекта порог производства и стоимость цифровых людей быстро снизились, эффективность производства и разнообразие контента значительно улучшились, и для пользователей стало реальностью создание более персонализированных цифровых продуктов для людей в соответствии с их собственными характеристиками. Теперь персонализированный суперантропоморфный цифровой человек может быть сгенерирован всего из фотографии, записи в одно предложение и других материалов, что значительно упрощает требования к предустановленным материалам для кастомизации цифрового человека и оптимизирует траекторию работы пользователя.
Гао Цзинвэнь также признала, что, хотя технологии больших моделей способствуют тому, что цифровые люди «входят в дома простых людей», для достижения более тонкого эффекта все еще требуется большое количество данных и интерактивное обучение. Кроме того, возникающие проблемы, такие как утечка личных данных и безопасность данных, также нельзя игнорировать.
“Возможно, в будущем у каждого из нас будет ‘цифровой двойник’, который сможет помогать нам в работе, отвечать на жизненные вопросы и стать нашим спутником”, - сказала Гао Цзинвэнь.
(Источник: Технологическая ежедневная газета)
Источник: Восточные богатства
Автор: Научно-техническая газета
Посмотреть Оригинал
Содержание носит исключительно справочный характер и не является предложением или офертой. Консультации по инвестициям, налогообложению или юридическим вопросам не предоставляются. Более подробную информацию о рисках см. в разделе «Дисклеймер».
Искусственный интеллект способствует тому, чтобы цифровые люди «влетали в дома обычных людей»
С 4 апреля 2025 года, когда открылась китайская экспозиция на Всемирной выставке в Осаке, Япония, она привлекла множество туристов для ежедневного посещения. Когда туристы входят в китайский павильон, вдали они могут услышать голос: "俺老孙来也". Этот звук исходит от "AI Сунь Укуна", созданного компанией iFlytek (далее по тексту "iFlytek"), который владеет тремя языками: китайским, японским и английским. Его внешний вид и тембр голоса полностью воссозданы по образцу классического анимационного фильма "Великая битва в Небесной палате".
За "AI Сунь Укун" стоит стремительно развивающаяся технология цифровых людей. В качестве ключевой связующей точки новых отраслей, таких как ИИ и метавселенная, роль цифровых людей в развитии цифровой экономики становится все более важной. С углубленным применением технологий больших моделей в этой области цифровые люди постепенно переходят от "доступных" к "удобным в использовании", что способствует переходу связанных отраслей на новый этап развития.
Формируются три типа сценариев применения
Цифровой человек — это цифровой интеллект, созданный с помощью различных цифровых интеллектуальных технологий, таких как моделирование. Он имеет человеческий облик и голос, способен имитировать движения тела, обладает мыслительными способностями и может реализовывать функции обучения, генерации и взаимодействия на основе больших моделей.
Под влиянием технологий и спроса экология цифровой человеческой промышленности в Китае становится все более совершенной, масштабы приложений расширяются, а производственные, эксплуатационные и сервисные возможности восходящей и нисходящей промышленной цепочки постепенно улучшаются. Данные Тяньянча показывают, что по состоянию на 2024 год в Китае будет насчитываться 1,144 миллиона цифровых предприятий, связанных с человеком, и только за первые пять месяцев 2024 года будет добавлено более 174 000 новых зарегистрированных предприятий, что свидетельствует о рыночном потенциале и жизнеспособности индустрии цифрового человека.
По мнению члена Консультативного совета экспертов Китайской ассоциации интернета У Сюанина, чтобы избежать формального использования технологий цифровых людей и предотвратить растрату ресурсов, необходимо найти выходы для их применения, продвигая внедрение цифровых людей по принципу от частного к общему.
С учетом применения, индустрия цифровых людей ускоренно формирует замкнутую экосистему "технологии — сцены — бизнес".
Китайская интернет-ассоциация выпустила "Отчет о развитии цифровых людей в Китае (2024)" (далее "Отчет"), в котором анализируется, что на данный момент приложения для цифровых людей в основном формируются в три категории: медиаперсонажи, сервисные персонажи и отраслевые персонажи. Среди них медиаперсонажи являются наиболее зрелой формой применения цифровых людей. Доля сцен, связанных с медиаперсонажами, может достигать 50%, а их реалистичный облик и плавное языковое выражение значительно повышают интерактивность и увлекательность передачи информации.
Например, на первом «Новогоднем科技秀», организованном Центральным телевидением Китая в прошлом году, появилась сцена, где ведущий Чжан Тэньюэ ведет программу вместе с «AI-двойником». Этот «AI-ведущий», созданный на платформе Xunfei Zhizuo, принадлежащей компании iFlytek, не только имеет такой же голос, выражения и движения, как у реального ведущего, но и может непринужденно общаться с ведущим, точно понимать его слова и быстро давать соответствующие ответы, что делает взаимодействие настолько плавным, что зрители едва могут отличить реальность от виртуальности.
"Доклад" показывает, что, кроме медиаперсон, сервисные цифровые люди также претерпели полное обновление, обладая более высокой интерактивной способностью, доля сценариев достигает 30%, широко применяется в государственных делах, электронной коммерции, финансах и других областях; цифровые люди в отрасли только начинают развиваться, доля сценариев составляет 20%, постепенно играя роль в медицине, образовании и управлении компаниями.
Ожидается, что станет входом для инноваций в области ИИ
Цифровые люди в основном прошли три этапа: от управления реальными людьми к управлению программами, а затем к управлению AI.
В первые дни цифровые люди, управляемые реальными людьми, также могли представлять виртуальные цифровые аватары, но в основном с помощью компьютерной графики, моделирования и захвата движения и других технологий, они все еще нуждались в поддержке большого количества языка, действий и других данных, предоставляемых реальными людьми. Программно-управляемый цифровой человек больше не может быть обеспечен реальными людьми языком, действиями и другими данными, но он основан на фиксированной компьютерной программе, которая ближе к «цифровому роботу» и не может достичь высокоточного антропоморфного эффекта. В последние годы цифровые люди на базе искусственного интеллекта не только стали более реалистичными в представлении деталей, таких как голосовые трансляции и мимика, но и постепенно обладают более мощными возможностями взаимодействия и мышления.
“Несколько лет назад цифровые люди могли иметь проблемы с несовпадением губ, выражений лица и неестественными движениями. Это связано с тем, что цифровые люди сами недостаточно понимают семантику текста, и их выражения и действия в основном зависят от ограниченных предустановленных ресурсов, что не позволяет точно соответствовать содержанию текста.” Гао Цзинвэнь, руководитель бизнес-отдела цифровых людей компании iFlytek, сказал, что с углубленным применением технологий больших моделей в области цифровых людей, производительность продуктов цифровых людей достигла нового уровня.
Например, в октябре прошлого года компания iFLYTEK выпустила суперантропоморфного цифрового человека. Он основан на многорежимной диффузионной генерации больших моделей, которые могут генерировать движения тела в режиме реального времени в соответствии с ритмом, интонацией и содержанием речи, преодолевая ограничения предустановленных шаблонов действий и значительно улучшая выразительность цифровых людей в динамических сценах. Цифровой человек Zhiying от Tencent может достичь «клонирования изображения» и «клонирования звука», пользователям нужно только загрузить небольшое количество изображений, видео и аудиоматериалов, и они могут быстро создавать свои собственные цифровые клоны человека и настраивать их тембр. EchoMimic, цифровой человек с искусственным интеллектом с открытым исходным кодом от Alibaba, может придать статичным изображениям яркую речь и выразительность.
"Короче говоря, технологии больших моделей могут не только позволить цифровым людям действительно понимать семантику, но и быстро генерировать соответствующие действия и выражения на основе их понимания текста, что делает их поистине реалистичными", - сказала Гао Цзинвэнь.
Шан Бинг, председатель Общества Интернета Китая, считает, что цифровые люди становятся входом в активное применение ИИ и имеют сильную степень связи, встроенности и интеграции с такими отраслями, как большие данные, интеллектуальные терминалы и воплощенный интеллект, и могут стать одним из активных интерактивных интерфейсов следующего поколения Интернета. Необходимо уделять внимание внедрению инновационных приложений, активно осваивать новые форматы, такие как цифровые люди, и ускорять формирование преимуществ масштабных приложений.
Ву Слочин также считает, что цифровые люди являются прорывом в применении ИИ и входом в инновации ИИ. Цифровые люди, управляемые ИИ, могут принести более разнообразные приложения в различные отрасли, и эти приложения как раз могут направить ИИ на путь практического развития.
Создание персонализированного "цифрового двойника"
С учетом широкого применения цифровых людей, многие сценарии выдвигают более высокие требования к цифровым людям.
«Например, такие сценарии, как электронная коммерция, прямая трансляция и обслуживание клиентов, вопросы и ответы, выдвигают чрезвычайно высокие требования к способности цифровых людей взаимодействовать в режиме реального времени. Цифровые люди должны не только иметь возможность вести разговоры с пользователями в режиме реального времени, но и генерировать соответствующие действия и выражения в соответствии с содержанием диалога, в противном случае это повлияет на эффективность бизнес-процессов и напрямую повлияет на пользовательский опыт. Гао Цзинвэнь сообщил, что для повышения эффективности цифровой модели генерации видео человеком команда компании разработала технологию извлечения представления действия, которая преобразует речь и текст в компактные промежуточные представления, эффективно сжимая видеоизмерение. С помощью этой технологии система может быстро извлекать ключевую информацию из входного текста и голоса, как стенографистка, сокращать количество нерелевантных информационных данных и соответственно генерировать видео, значительно повышая эффективность создания видео и обеспечивая взаимодействие между цифровыми людьми и пользователями в режиме реального времени.
Следует также отметить, что хотя индустрия цифрового человека развивается быстрыми темпами, она все еще находится в периоде бурного роста. Гао Цзинвэнь считает, что в настоящее время существует феномен гомогенизации цифровых продуктов человека, и персонализация и кастомизация станут важным направлением развития индустрии цифрового человека в будущем. С развитием технологии генеративного искусственного интеллекта порог производства и стоимость цифровых людей быстро снизились, эффективность производства и разнообразие контента значительно улучшились, и для пользователей стало реальностью создание более персонализированных цифровых продуктов для людей в соответствии с их собственными характеристиками. Теперь персонализированный суперантропоморфный цифровой человек может быть сгенерирован всего из фотографии, записи в одно предложение и других материалов, что значительно упрощает требования к предустановленным материалам для кастомизации цифрового человека и оптимизирует траекторию работы пользователя.
Гао Цзинвэнь также признала, что, хотя технологии больших моделей способствуют тому, что цифровые люди «входят в дома простых людей», для достижения более тонкого эффекта все еще требуется большое количество данных и интерактивное обучение. Кроме того, возникающие проблемы, такие как утечка личных данных и безопасность данных, также нельзя игнорировать.
“Возможно, в будущем у каждого из нас будет ‘цифровой двойник’, который сможет помогать нам в работе, отвечать на жизненные вопросы и стать нашим спутником”, - сказала Гао Цзинвэнь.
(Источник: Технологическая ежедневная газета)
Источник: Восточные богатства
Автор: Научно-техническая газета