2023年10月24日至25日,北京成功举办了第九届RTE2023实时互联网大会,这次盛会邀请到了喜马拉雅的首席科学家卢恒和喜马拉雅喜播教育副总经理江敏出席。两位代表在大会的“音频专场”和“在线教育”专场论坛中分别探讨AI在音频行业和在线教育领域的未来发展前景。
RTE2023大会聚集了来自音视频、互联网技术、在线教育等多个领域的专家和技术人才,共设了20余场论坛和活动,围绕音频AI算法、前沿音频技术应用等热门话题展开深入讨论。
喜马拉雅首席科学家卢恒对AIGC技术的发展充满信心。他认为这一技术标志着音频产业正迈入全新的内容创作时代。然而,他强调AIGC并非要完全取代人类创作者,而是要成为创作者和企业的有力助手。卢恒详细介绍了喜马拉雅珠峰实验室在AIGC领域的多维度应用,包括多角色小说音频AIGC技术和多模态情感识别与情感内容生成。
据卢恒透露,喜马拉雅的AIGC技术在音色转换和有声书主播领域已经取得了令人瞩目的进展,展现出巨大的潜力。卢恒指出,以音频创作技术中的“多角色小说音频AIGC技术”为例,这一技术能够根据创作者提供的题材,自动进行角色识别、音色分配,并进行多种情感风格的语音合成、情感转化,最后自动添加适当的后期效果等。这一应用使得通过AIGC技术进行内容创作不仅显著提升了创作效率,还拓宽了创作的方向和内容,大幅降低了音频创作门槛,同时也扩大了内容创作者的规模和用户群体。
而近期,由喜马拉雅和⻄北⼯业⼤学合作研发的语⾳⽣成式⼤模型技术,已经能够结合预训练大模型及大语言模型,分别提取离散的Speech token及连续的Speech Vector,该技术能够实现style和音色的独立控制以及transfer,同时能够实现5秒钟音色定制,并且该框架还能应用于VC、S2ST等不同场景。
在情感表达方面,卢恒领导的珠峰实验室参考心理学对情感的定义和分类,进行了广泛的研究,从而成功建立了“喜怒悲惧惊厌警赞无”等9种情感分类,以更精细地捕捉文本中的复杂情感。此外,在多模态情感识别与情感内容生成领域,喜马拉雅已经成功开发了新一代的自动化AudioPS技术,通过美化语音信号的情感、韵律和风格,将音频作品的质量提升至优秀大主播的水准,使音频内容更贴近当下的情境。
在教育领域,喜播教育的副总经理江敏分享了如何借助AI技术开创新教育模式的经验。她强调,喜播教育致力于为音频领域的人才提供全链条的系统培训和就业指导服务。江敏介绍了喜播教育的多款AI助学工具,如AI练功房和AI角色音测试,这些工具提高了学员的训练和自我评估效率。
卢恒和江敏一致认为,AIGC技术将持续影响音频产业和在线教育领域的未来发展。他们表示,喜马拉雅将继续探索AIGC技术的应用,提供更多优质、多元、智能和便捷的产品和服务,以满足不断升级的用户需求,助力音频产业和在线教育行业不断向前发展,帮助更多人实现美好人生。
此外,喜播教育也成立了专项研究小组,早在2018年就上线了一站式学习及教务管理系统,提前关注5G、AIGC等信息技术的推动下涌现的智能教育新应用和新职业。
为此,喜播教育先后上线了多款AI 教学及评测产品,并搭建AI练习场景,让学员能够通过系统的学习和科学有效的训练,掌握有声书制作及运营所需要的演播、后期制作、导演、运营等综合能力,进而能够通过这些能力去实现兼职就业,甚至专门从事这一行业,变成一名全职的有声演播者。
除了有声书主播,喜播教育还为学员提供多元化的赋能培训机会,如音频剪辑后期培训和娱乐主播培训。喜播教育通过自建MCN的方式挖掘和扶持有潜力的娱乐主播人才,帮助更多人实现多元化的职业发展和选择。
江敏同样表示,AIGC对教育行业的“渗透”是不可逆的,是大势所趋。她鼓励积极拥抱这一趋势,并利用AIGC为学员和用户谋福利,创造机会。
作为AIGC技术的受益者和引领者,喜马拉雅不断延伸和挖掘这一技术在用户需求和体验等层面的价值和作用。在AIGC技术的引领下,我们可以期待音频领域的无限可能性,以及音频教育的更多创新,去惠及音频爱好者和创作者。(主办方供图)
以上就是喜马拉雅出席RTE互联网大会,展望AIGC助推音频行业未来创作的全部内容了,希望大家喜欢。