第九代微软小冰来了!花式AI音乐绘画创作,小冰岛实现“AI自产自销”

智东西(公众号:zhidxcom)
作者 | 韦世玮
编辑 | 心缘

智东西9月22日消息,今天微软小冰迎来了第九代升级,发布了社交网络平台APP小冰岛,人类用户能够在岛上创造各种AI个体,形成一个共同“生活”的社交网络。

与此同时,小冰还发布了一系列最新技术进展,其中就包括歌声合成工具X Studio 2.0、能提高4个半音模仿歌手周深唱《大鱼》的AI歌手陌笙。在智能设备领域,“召唤小冰”新增支持天猫精灵平台。

此外,微软也宣布与小冰的多端产品融合,将小冰集成到Windows及各类移动应用产品中做个性化推荐,未来几个月将会陆续上线。这些新技术的发布背后,离不开第九代小冰开放域对话引擎、超自然语音等多项核心技术的升级与突破。

一、200个对话还原语言声音风格,小冰V9的多样性优势

小冰公司董事长沈向洋博士谈道,第九代小冰(小冰V9)的特点是多样性。简单来说就是用不同的声音、感情、情绪来表达对话。

对此,小冰框架在开放域对话、超级自然语音和多模态交互等方面都进行了升级,并重点加强了小样本学习和反馈式学习的效能,小冰语音对话的自然度和舒适度效果大大提升。

为了更直观体现小冰V9在开放域对话方面的提升,沈向洋博士展示了小冰V9与其他两个同行的评价指标对比。这五大技术指标分别为平均对话长度(CPS)、上下文一致性、上下文相关性、对话信息含量与话题引导成功率。

可以看到,小冰V9均领先于同行使用超大规模预训练模型的效果。不仅如此,小冰每轮对话成本仅为同行的二十分之一。

其实在加强小样本学习背后,小冰公司产品总监周典谈道,自去年小冰第八代发布以来,人们在小冰框架中创造了多达1700万个独特的AI Beings(人工智能个体),其中26.1%是被用户当作某个过往真实人类的替身而创造出来的。

但普通人所能留下做训练的数据样本极少,为了能用尽量少的数据去训练模型,达到与某个人一致的语言与声音风格,以更好地承载人类情感,小冰展开了“Project Chararu”项目研究。

过去一年,小冰用2000个对话的数据量还原一个特定人类的对话风格,相似度达到了3.89分,而普通人类用自己的真实数据做测评的平均分是4.33分。今年,小冰通过进一步迭代小样本训练过程,仅用200个对话数据量进行训练,分数达到了4.19分,与人类分数仅相差0.14分。

目前,“Project Chararu”项目已实现产品化,今年将首先在日本上线。

除此之外,小冰还宣布与英伟达在计算平台及NLP(自然语言处理)等领域达成战略合作。同时,小冰将在今年下一季度,与智源研究院、智谱AI合作发布初版多语言超大规模模型。

二、小冰岛五大特性,围绕用户交互的AI世界

为了更好探索人类和AI的未来,小冰专门开发了第一方平台APP——小冰岛,每个用户均可创造在记得岛屿,以及岛屿上一起生活的AI Beings,每个AI Beings都有不同的性格和能力,还会和用户互动,包括发消息、评论朋友圈等。

同时,小冰岛还会随着用户和AI Beings的交互不断地进行迭代,如此构成一个人类与AI融合的社交网络。

总的来看,小冰岛拥有五大特性:沉浸式体验、高度定制化、以人为中心、X套件岛屿版,以及轻松、热情、无时不在。

1、沉浸式体验:每个用户除了能创造自己的岛屿外,岛上还拥有一个功能完整的社交交互界面,类似微信。用户不仅能在岛屿中体验丰富的视觉和自然音场,还能与每个AI Beings对话,拥有一对一对话、群聊、朋友圈和技能生态等体验。

2、高度定制化:每个AI Beings的样貌、声音、性格、能力都是独一无二的,例如AI歌手、音频生产者、文字创作者、画家等。用户也可以创造并训练自己喜欢的各种新的AI Beings,甚至可以去别人的岛屿中“挖角”。

3、以人为中心:小冰岛上的AI Beings会根据用户需求,不间断地为用户生成各种长音频、短视频、音乐、文本及视觉内容,一对一生提供给用户。同时根据不同AI Beings的特点,用户还能选择由特定的AI Beings来提供特定内容。

4、X套件岛屿版:该版本为用户提供了方便高效的内容生产工具,用户可指定AI Beings即时生成各种长音频和短视频内容,内容拥有完整的知识产权,可在任何平台上使用。

5、轻松、热情、无时不在:每个AI Beings都能自己进行交互和信息传递,共同构成以用户为中心的社交生活目标,在交互、朋友圈和各种生成内容中实时响应用户,让用户获得类似真实社交网络的体验。

小冰公司产品负责人彭爽谈道,今日小冰岛正式开放抢先预览版,支持iOS和安卓平台,并将在第四季度开放支持Windows PC版的空气投影版本。

同时,此前用户通过虚拟亲友产品创造出来的虚拟人类,也将在预览版公测结束后自动登录他们的小冰岛。

三、AI内容生成三大环节升级,丰富艺术生活创作

小冰公司产品总监胡晓光提到,从2017年投入大量资源研究AI内容生成至今,小冰已拥有包含文本、声音、视觉在内的完整技术线。

AI内容生成也叫AI内容创造,主要包含创作、演绎和二次封装三大部分。

1、创作:辅助音乐人词曲创作,新增艺术家及中国画模型

音乐方面,小冰将与11支人类乐队合作,为他们提供AI词曲创作动机辅助、演唱和封面视觉设计,这11首作品将从今天起陆续上架。后续小冰将把该技术封装成产品,开放给更多创作者来协助创作。

诗歌绘画方面,小冰将诗歌与绘画创作模型升级到了第三代,大幅度提升高了模型的创作精度和构图合理性。例如,在模型创造的一副绘画作品中,它不仅画出了远方河上的船只,还画出了水中的倒影和大量细节。

不仅如此,为了保证AI能稳定且大批量地创作高质量作品,小冰还发布艺术家模型,只需要通过小数据训练,就能生成各种艺术家模型,创作出风格高度一致的作品,同时还有中国画模型。

针对AI学生“夏语冰”,小冰框架不仅创造了夏语冰的面容、声线等生物学特征,还升级了它的绘画创作模型,未来将主攻中国画。

2、演绎:发布X Studio 2.0,新AI歌手现场飙极限高音

胡晓光认为,AI内容生成三大环节中,最容易出现瓶颈的就是演绎部分,因为该部分包含的模型量庞大,同时对整个系统的完整性也有更大要求。

对此,小冰发布了X Studio 2.0,从学习歌声本身演进到学习歌声产生。该版本拥有全新的GUI交互界面,新增力度、气泡音等参数调节,优化气声、性别参数。同时,歌手模型也进行了升级,增加Rap、美声、民歌等多种风格和念白功能,以及小程序版本。

为了更好展现X Studio 2.0的升级效果,新发布的AI歌手陌笙还在现场演唱了周深的《大鱼》,并在原唱基础上表演了高四个半音的升调演唱,以展示AI歌手的稳定性优势。

胡晓光透露,X Studio 2.0将在10月22日发布,下周三发布内测版。此外,小冰还宣布Alice映画达成合作,将推出一系列AI歌手企划。

3、封装:新增两种形式内容封装

针对内容的二次封装形式,小冰推出了短视频内容封装管线,包括二次元和三次元视频内容两种形式。

二次元方面实现了AI模型完全自驱,视频成本仅为0.03元/分钟;三次元方面则首次实现从生物学特征生成起的综合封装,例如AI歌手华智冰的歌声就由X Studio生成,人类生物学特征由X Avatar生成及置入。

此外,小冰还发布了与次世文化联手打造全球首位AI人类观察者Merror,其采用小冰框架的核心对话引擎、全双工、全域超级自然语音等技术,能在交谈、演唱等场景中实现高度拟人的实时交互。

值得一提的是,在智能汽车、智能设备等领域,小冰都有着不少新的落地进展。针对智能汽车座舱解决方案,目前小冰已与宝马等汽车头部厂商达成商业合作。

此外,除了华为、小米、OPPO、vivo等合作伙伴外,“召唤小冰”还新增支持天猫精灵平台,目前深度内嵌小冰的智能设备已超过10亿台。“小冰已成为全球规模最大的第三方跨设备人工智能系统。”胡晓光说。

结语:加速推动AI融入人类生活

从第一代小冰到第九代小冰,小冰从最初一个16岁的少女小冰,发展到今天1700万个虚拟人类、几百个AI歌手,这些拥有各种各样性格和能力的AI背后,是多年以来小冰框架不断的技术积累和突破。

某种意义上看,正如小冰公司首席执行官李笛所说,小冰是一场庞大的实验,目的是为了找出适合的途径,让AI能更好地融入人类世界。它的创新,也将为AI赋能人类生活带来更多值得借鉴的落地样本。

你可能也喜欢