是什么力量,让阿里云腾讯云和火山引擎走到了一起
作者 | 李亮
编辑 | 苏子华
几天前,特斯拉表示,正在努力让用户在车载屏幕上玩 steam 的各种游戏。对于开发者而言,这意味着不需要进行移植或修改,大部分游戏就能接入车载屏,在座舱中运行。听到这样的消息,立刻有人兴奋地问:我是不是可以在电动皮卡上玩《赛博朋克 2077》了?
人对更沉浸、更美好的体验有着天然的向往。一块屏幕不断发展,就可以带来丰富体验。虽然目前智能汽车里的屏幕只拥有导航等简单的功能,但不久的将来,看电影、直播互动、视频开会都将成为常常在车里做的事情。
越来越习惯互动直播、视频连线的当下,人们对音视频的期待也从「看什么」变成了「怎么看」,期待更顺滑的体验。
迎接这样的未来,除了可以想象的硬件和算力进步,编转码、画质算法等底层音频技术也是不可或缺的前提。
正是对未来视频交互广泛场景的探索,让阿里云、腾讯云、和诞生于字节的火山引擎在今天联合发布一项新的技术标准—— 超低延时直播协议信令标准。这套标准,首次将传统直播技术 3 至 6 秒的延时缩短到 1 秒。这是第一个适合直播低延时的通用标准方案,也是三家技术先进方推动技术进步的一次尝试,将已验证的「最佳实践」普及。
这套标准可广泛应用于赛事直播、在线教育、电商直播等对实时性要求较高的场景,带来超低延时、低卡顿、秒开流畅的直播体验。
此次的新技术标准,三方以推动行业直播技术进步、提升用户体验为初衷,在技术层面上共同探讨与协助。2 月 25 日举行的「火山引擎视频云科技原力峰会」上,火山引擎直播技术负责人周一楠说,[在超低延时这个方向上,阿里云、腾讯云和火山引擎一起,做了一件大事,为整个直播的发展做出了贡献」。
01 泛视频时代,需要怎样的直播技术
「姐的眼睛就是尺」,王濛的金句随着直播讲解辐射开来。当下的情绪、即时的反应,直播不仅传递信息,更是陪伴与交互的载体。音视频直播技术,也成为了目前最流行的在线交互方式之一。即时流畅是直播内在的追求。具体到音视频传输的技术上,通用与高效,是直播技术发展变迁的终极目标。
直播场景中,人与人会直接建立连接。一旦出现延时,就会出现各种问题。例如,主播反馈慢,电竞和抢购也会由于延时不同导致不在同一个水平线,线上的 PK 也会因效果不同而不公平。
通过内部 A/B 测试的方法,火山引擎验证了低延时的对观看行为的直接影响。在内部的反转实验中,团队将 3 秒的端到端延时的播放重新提升为 7 秒,用户的观看时长下降了 1.3%。
目前,市面上没有合适直播的低延时通用标准方案。这也是火山引擎、阿里云、腾讯云共同探索出的这套方案,提供一套标准,从而让各种直播业务,迈入 1s 内规模分发的大关。
所谓低延时,也就是直播时端到端的延时达到 500 毫秒~1500 毫秒,人眼无感。一套标准方案,也让不同的技术供应商之间方便互通。参与者使用一套 SDK(Soft Development kit,软件开发工具包)即可无缝切换各种供应商的产品。
这项协议交互细节全部开放,也将在 Github 上逐步开放,其他三方公司可按照标准来实现服务端和客户端接入。
在视频云原力峰会上,行业人士也分享了对于视频技术趋势的观察。IDC 企业及系统软件研究部研究经理魏云峰表示,根据研究预测,2025 年全球实时产生的数据里将有 25% 以非结构化存在。这其中,大部分将以图片、视频的形式存在。
未来对于音视频的需求可以归纳为清晰、流畅、互动。2020 年,中国视频云市场的规模接近 70 亿,并且在过去 2 年保持了年均复合增长率 50% 以上的增速。例如线上教育、远程手术、金融行业的内训等更多场景都会需要更便捷高质的视频技术。这些领域的具体需求不同,对应的视频云方案既需要差异化,又需要能够低门槛。
02 从「中台」到「To B」,从「能力」到「体验」
视频云是火山引擎云业务的一环,随着字节跳动的视频业务而成长,在字节跳动内部支撑了抖音、西瓜视频的播放体验。目前,其技术支持着每日 1 亿次播放、数千万次互动的应用。
火山引擎视频云技术负责人浩铭介绍,火山引擎团队在思考对视频端到端体验的持续优化的过程中,逐渐意识到体验的重要性。
随着支持字节的产品越来越多,团队开始思考,「把作为中台的业务模式变成 to B 的服务模式,会在业务支持效率和组织效能上有更大的提升。」
从技术出发往往思考的是功能指标(QoS),而火山引擎从体验指标(QoE)去思考问题,将技术指标直接与业务的增长结果关联。
这样的思维也带来许多有价值的发现。例如,网络受限的用户不得不选择低分辨率播放模式。如果在带宽受限的情况下将画质优化,做超分处理,整个大盘的播放时长能够提升 0.23%。
甚至一些容易被忽略的指标也会带来明显影响。在点播时前后视频的音量可能会忽高忽低,实现了音量均衡之后,结果显示,不仅仅人均观看时长提升了 3%,电商直播的 GMV 也提升了 4%。
在不同的应用场景上,火山引擎很早就尝试了各种合作,以验证技术效果。例如,点播上,火山引擎视频云为足球社区APP「懂球帝」提供了视频云解决方案,帮助「懂球帝」解决了播放中首屏卡顿的问题。球迷在浏览 APP 中的视频时,首帧时间降低 30% 以上。
峰会上,PICO 行业资深市场专家刘凯展望了未来视频互动的场景。他认为,未来用户会希望和视频本身交流,因此,许多厂商在研究的「立体视频」会有大量的应用空间。视频云技术负责人浩铭表示,未来 VR 的视频互动会呈现更大的自由度、以及虚实结合两个特点。火山引擎将与 PICO 共同打磨更多沉浸式的视频体验,不断沉淀到视频云的解决方案中。
03 体验优化的四个维度
视频体验如何建立指标并优化?火山引擎的视频云将其分为四个部分: 播放体验、互动体验、画质体验、性能体验。在四个不同维度上建立指标,以求数据驱动的业务增长。
播放体验的优化,意味着首帧压缩到 100ms 以下,崩溃率小于 1/10000。首帧即是视频播放的第一帧。
其实 100ms 是一个更为严苛的指标。因为按照人眼自然体验,当你被一个视频封面吸引,点击播放到首帧渲染出来的耗时小于 200ms 时,基本就没有延时和卡顿感了。而崩溃率小于 1/100000,这意味着,一个人每天刷 100 个短视频,3 年才能遇到一次播放器崩溃。
互动体验则集合了不同维度的指标,聚焦服务直播场景。目前多人线上语音沙龙是非常流行的互动方式,一般多人同时在线时,同时开麦的人数需要控制在 20 到 50 人,且多人共同说话时卡顿、吞音常常出现。
视频云首次实现了单房间上麦人数超过1000人服务。多人同时说话、抢答,语音即使重叠也会完整传递。百万级用户高并发,可以让单个直播间容纳超过1000个主播。
画质体验上,火山引擎提供的 BVC 编码器,能够在保证画质清晰度不变的情况下,带宽比行业竞品降低 10%。性能优化涉及使用成本,火山引擎从三个方面入手:提供参数配置、码率配置的最优解;自研算法实现图片压缩更优;视频高清低码,主观效果相同下,码率再节省 10%~20%。
火山引擎总经理谭待表示,开放互联是火山引擎云服务的重要发展理念。火山引擎希望与产业的各方、上下游进行深度合作。一方面希望把自己最好的技术拿出来,输出最佳实践;另外一方面,此次火山引擎与阿里云、腾讯云的技术合作是共建开放的协议标准,也欢迎更多人直接参与到标准的接入和建设。
*头图来源:视觉中国