Искусственный интеллект способствует тому, чтобы цифровые люди «влетали в дома обычных людей»

С 4 апреля 2025 года, когда открылась китайская экспозиция на Всемирной выставке в Осаке, Япония, она привлекла множество туристов для ежедневного посещения. Когда туристы входят в китайский павильон, вдали они могут услышать голос: "俺老孙来也". Этот звук исходит от "AI Сунь Укуна", созданного компанией iFlytek (далее по тексту "iFlytek"), который владеет тремя языками: китайским, японским и английским. Его внешний вид и тембр голоса полностью воссозданы по образцу классического анимационного фильма "Великая битва в Небесной палате".

За "AI Сунь Укун" стоит стремительно развивающаяся технология цифровых людей. В качестве ключевой связующей точки новых отраслей, таких как ИИ и метавселенная, роль цифровых людей в развитии цифровой экономики становится все более важной. С углубленным применением технологий больших моделей в этой области цифровые люди постепенно переходят от "доступных" к "удобным в использовании", что способствует переходу связанных отраслей на новый этап развития.

Формируются три типа сценариев применения

Цифровой человек — это цифровой интеллект, созданный с помощью различных цифровых интеллектуальных технологий, таких как моделирование. Он имеет человеческий облик и голос, способен имитировать движения тела, обладает мыслительными способностями и может реализовывать функции обучения, генерации и взаимодействия на основе больших моделей.

Под влиянием технологий и спроса экология цифровой человеческой промышленности в Китае становится все более совершенной, масштабы приложений расширяются, а производственные, эксплуатационные и сервисные возможности восходящей и нисходящей промышленной цепочки постепенно улучшаются. Данные Тяньянча показывают, что по состоянию на 2024 год в Китае будет насчитываться 1,144 миллиона цифровых предприятий, связанных с человеком, и только за первые пять месяцев 2024 года будет добавлено более 174 000 новых зарегистрированных предприятий, что свидетельствует о рыночном потенциале и жизнеспособности индустрии цифрового человека.

По мнению члена Консультативного совета экспертов Китайской ассоциации интернета У Сюанина, чтобы избежать формального использования технологий цифровых людей и предотвратить растрату ресурсов, необходимо найти выходы для их применения, продвигая внедрение цифровых людей по принципу от частного к общему.

С учетом применения, индустрия цифровых людей ускоренно формирует замкнутую экосистему "технологии — сцены — бизнес".

Китайская интернет-ассоциация выпустила "Отчет о развитии цифровых людей в Китае (2024)" (далее "Отчет"), в котором анализируется, что на данный момент приложения для цифровых людей в основном формируются в три категории: медиаперсонажи, сервисные персонажи и отраслевые персонажи. Среди них медиаперсонажи являются наиболее зрелой формой применения цифровых людей. Доля сцен, связанных с медиаперсонажами, может достигать 50%, а их реалистичный облик и плавное языковое выражение значительно повышают интерактивность и увлекательность передачи информации.

Например, на первом «Новогоднем科技秀», организованном Центральным телевидением Китая в прошлом году, появилась сцена, где ведущий Чжан Тэньюэ ведет программу вместе с «AI-двойником». Этот «AI-ведущий», созданный на платформе Xunfei Zhizuo, принадлежащей компании iFlytek, не только имеет такой же голос, выражения и движения, как у реального ведущего, но и может непринужденно общаться с ведущим, точно понимать его слова и быстро давать соответствующие ответы, что делает взаимодействие настолько плавным, что зрители едва могут отличить реальность от виртуальности.

​​"Доклад" показывает, что, кроме медиаперсон, сервисные цифровые люди также претерпели полное обновление, обладая более высокой интерактивной способностью, доля сценариев достигает 30%, широко применяется в государственных делах, электронной коммерции, финансах и других областях; цифровые люди в отрасли только начинают развиваться, доля сценариев составляет 20%, постепенно играя роль в медицине, образовании и управлении компаниями.

Ожидается, что станет входом для инноваций в области ИИ

Цифровые люди в основном прошли три этапа: от управления реальными людьми к управлению программами, а затем к управлению AI.

В первые дни цифровые люди, управляемые реальными людьми, также могли представлять виртуальные цифровые аватары, но в основном с помощью компьютерной графики, моделирования и захвата движения и других технологий, они все еще нуждались в поддержке большого количества языка, действий и других данных, предоставляемых реальными людьми. Программно-управляемый цифровой человек больше не может быть обеспечен реальными людьми языком, действиями и другими данными, но он основан на фиксированной компьютерной программе, которая ближе к «цифровому роботу» и не может достичь высокоточного антропоморфного эффекта. В последние годы цифровые люди на базе искусственного интеллекта не только стали более реалистичными в представлении деталей, таких как голосовые трансляции и мимика, но и постепенно обладают более мощными возможностями взаимодействия и мышления.

“Несколько лет назад цифровые люди могли иметь проблемы с несовпадением губ, выражений лица и неестественными движениями. Это связано с тем, что цифровые люди сами недостаточно понимают семантику текста, и их выражения и действия в основном зависят от ограниченных предустановленных ресурсов, что не позволяет точно соответствовать содержанию текста.” Гао Цзинвэнь, руководитель бизнес-отдела цифровых людей компании iFlytek, сказал, что с углубленным применением технологий больших моделей в области цифровых людей, производительность продуктов цифровых людей достигла нового уровня.

Например, в октябре прошлого года компания iFLYTEK выпустила суперантропоморфного цифрового человека. Он основан на многорежимной диффузионной генерации больших моделей, которые могут генерировать движения тела в режиме реального времени в соответствии с ритмом, интонацией и содержанием речи, преодолевая ограничения предустановленных шаблонов действий и значительно улучшая выразительность цифровых людей в динамических сценах. Цифровой человек Zhiying от Tencent может достичь «клонирования изображения» и «клонирования звука», пользователям нужно только загрузить небольшое количество изображений, видео и аудиоматериалов, и они могут быстро создавать свои собственные цифровые клоны человека и настраивать их тембр. EchoMimic, цифровой человек с искусственным интеллектом с открытым исходным кодом от Alibaba, может придать статичным изображениям яркую речь и выразительность.

"Короче говоря, технологии больших моделей могут не только позволить цифровым людям действительно понимать семантику, но и быстро генерировать соответствующие действия и выражения на основе их понимания текста, что делает их поистине реалистичными", - сказала Гао Цзинвэнь.

Шан Бинг, председатель Общества Интернета Китая, считает, что цифровые люди становятся входом в активное применение ИИ и имеют сильную степень связи, встроенности и интеграции с такими отраслями, как большие данные, интеллектуальные терминалы и воплощенный интеллект, и могут стать одним из активных интерактивных интерфейсов следующего поколения Интернета. Необходимо уделять внимание внедрению инновационных приложений, активно осваивать новые форматы, такие как цифровые люди, и ускорять формирование преимуществ масштабных приложений.

Ву Слочин также считает, что цифровые люди являются прорывом в применении ИИ и входом в инновации ИИ. Цифровые люди, управляемые ИИ, могут принести более разнообразные приложения в различные отрасли, и эти приложения как раз могут направить ИИ на путь практического развития.

Создание персонализированного "цифрового двойника"

С учетом широкого применения цифровых людей, многие сценарии выдвигают более высокие требования к цифровым людям.

«Например, такие сценарии, как электронная коммерция, прямая трансляция и обслуживание клиентов, вопросы и ответы, выдвигают чрезвычайно высокие требования к способности цифровых людей взаимодействовать в режиме реального времени. Цифровые люди должны не только иметь возможность вести разговоры с пользователями в режиме реального времени, но и генерировать соответствующие действия и выражения в соответствии с содержанием диалога, в противном случае это повлияет на эффективность бизнес-процессов и напрямую повлияет на пользовательский опыт. Гао Цзинвэнь сообщил, что для повышения эффективности цифровой модели генерации видео человеком команда компании разработала технологию извлечения представления действия, которая преобразует речь и текст в компактные промежуточные представления, эффективно сжимая видеоизмерение. С помощью этой технологии система может быстро извлекать ключевую информацию из входного текста и голоса, как стенографистка, сокращать количество нерелевантных информационных данных и соответственно генерировать видео, значительно повышая эффективность создания видео и обеспечивая взаимодействие между цифровыми людьми и пользователями в режиме реального времени.

Следует также отметить, что хотя индустрия цифрового человека развивается быстрыми темпами, она все еще находится в периоде бурного роста. Гао Цзинвэнь считает, что в настоящее время существует феномен гомогенизации цифровых продуктов человека, и персонализация и кастомизация станут важным направлением развития индустрии цифрового человека в будущем. С развитием технологии генеративного искусственного интеллекта порог производства и стоимость цифровых людей быстро снизились, эффективность производства и разнообразие контента значительно улучшились, и для пользователей стало реальностью создание более персонализированных цифровых продуктов для людей в соответствии с их собственными характеристиками. Теперь персонализированный суперантропоморфный цифровой человек может быть сгенерирован всего из фотографии, записи в одно предложение и других материалов, что значительно упрощает требования к предустановленным материалам для кастомизации цифрового человека и оптимизирует траекторию работы пользователя.

Гао Цзинвэнь также признала, что, хотя технологии больших моделей способствуют тому, что цифровые люди «входят в дома простых людей», для достижения более тонкого эффекта все еще требуется большое количество данных и интерактивное обучение. Кроме того, возникающие проблемы, такие как утечка личных данных и безопасность данных, также нельзя игнорировать.

“Возможно, в будущем у каждого из нас будет ‘цифровой двойник’, который сможет помогать нам в работе, отвечать на жизненные вопросы и стать нашим спутником”, - сказала Гао Цзинвэнь.

(Источник: Технологическая ежедневная газета)

Источник: Восточные богатства

Автор: Научно-техническая газета

Посмотреть Оригинал
Содержание носит исключительно справочный характер и не является предложением или офертой. Консультации по инвестициям, налогообложению или юридическим вопросам не предоставляются. Более подробную информацию о рисках см. в разделе «Дисклеймер».
  • Награда
  • комментарий
  • Поделиться
комментарий
0/400
Нет комментариев
  • Закрепить