出品|网易科技《态度》栏目
作者|丁广胜
1. 如何让文生视频更好用,Pika再下一城。不仅仅是文生视频,AI连音频也一并搞定,且非常逼真。Pika说不好意思他们不再“静音”了,音频生成包括两个方法,一是输入Prompt,二是直接根据视频内容匹配生成。Pika把这一功能称为“Sound Effects”。目前开放测试版给到“超级合作者和专业用户”。
2.输入Prompt生成音频或许不值得特别惊讶,大家乐见其成的是“根据视频生成”,即你让AI生成了一段视频,Pika根据视频再帮你搞定音频,且这个音频完全符合现实世界——让我想起了电影工业的昂贵“手艺人”音效师——又一个即将失业的群体?
3.“这是工程上的一个小进步,从技术角度来讲,没什么”。英诺天使基金合伙人王晟告诉网易科技《态度》,虽然Pika生成质量方面还有不少问题,但这是趋势,AI把各种模态都统一起来,用一个Prompt去解决,这大大提升了视频制作的流程和效率,AI让这个事情变得非常简单,但本质上技术难度不大。
4.在Pika的x博文留言区,引来了音频工作者的质问:能分享一下训练音频的数据吗?许多创作者担心他们的作品在未经他们同意的情况下被你们使用。
5.文生音频其实比文生视频要成熟。经过网易科技粗略统计,市面上公开可用的文生音频工具多达50+款,但生成质量层次不齐。比如,伦敦创业公司Stability AI在靠文生图获得大量关注之后,就曾于2023年推出Stable Audio,用prompt的方式写歌,描述音乐流派、乐器、画面、感觉就可以生成一段音乐demo。
6.多模态是大势所趋,AI将重塑创作的每一个角落。从大模型在文生图应用的大放异彩,再到文生视频Sora的惊艳众人。AI定会不断的给我们惊喜,从文本、音频、视频的全链条AI化,这是通往AGI的天然场景,也可能是证明AGI的绝佳方式。
7.Pika创始人郭文景称其对标的产品就是Sora,当Sora横空出世之时,所有人都在为Pika捏一把汗,郭文景当时的表态是:“振奋人心,筹备直接冲”。今天率先推出文生视频的音频生成功能,想必是她冲击Sora的其中一步。
8.这家公司成立于2023年4月,同年11月发布了Pika 1.0。Pika1.0的主要功能是:一是用文本和图像生成视频,只需要输入几行文本或上传图像,就可以创建简短、高质量的视频;二是编辑更改视频,输入相关文本,实现对背景环境、衣着道具等元素的增减或者更改;三是切换视频风格,例如在黑白、动画等不同风格中转化;四是更改视频的宽高比。2024年2月28日,Pika 推出新功能 Lip Sync,允许用户为视频添加语音对白,并实现嘴唇同步的效果。而后,最新的更新便是今天这次。
9.给大家看看demo:
Pika Sound Effects音频功能demo(来源:网易科技报道)