过去几年,在需求的驱动下,互联网造芯早已家喻户晓。尤其是这几年,云计算、数据中心、人工智能变得火热,全球领先的互联网公司似乎都是同一个目标,都走上了AI芯片、CPU、DPU芯片的自研之路。同时,他们会根据各自的业务构建不同的芯片矩阵。
当我们惊叹于近年来互联网造芯的迅猛发展时,谷歌、meta、字节跳动、腾讯等互联网公司无一例外都盯上了一个芯片:视频处理芯片VPU。
谷歌、腾讯、字节跳动和脸书
已经开始了他们自己的研究。
2021年4月,谷歌发布了自己的Argos VCU。Argos有10个核心用于处理视频。这些核心放置在一个相当大的散热器下,每块板上放置两个芯片。谷歌声称它可以将计算效率提高20到33倍。过去处理4K的视频需要几天时间,但现在只需要几个小时。Argos已经成功更换了数千万的Intel CPUs,仅CPU一项就节省了200多亿人民币。在构建这种芯片的过程中,谷歌甚至创建了他们自己的EDA工具,名为Taffel。
谷歌阿尔戈斯VCU
我们正在进入一个音视频蓬勃发展的时代,这个时代的特点是视频用户数量激增,视频量巨大,视频压缩处理难度越来越大。从2003年到现在,有许多不同的视频标准和编解码器。如果编解码器在压缩视频方面效率更高,则最终的文件大小会更小,流也会更小。
来源:谷歌关于热门芯片的演讲33
谷歌的Argos芯片可以帮助其使用VP9的视频编码器,其视频压缩效率比上一代H.264高40%。VP9是一种更复杂的视频编解码器,可以让视频文件变得更小,并保持相同的画质。它还可以存储相同大小但质量更高的视频。VP9让谷歌节省了大量带宽,这些带宽通过他们的内容交付网络从数据中心流向消费者,从而大大降低了他们的成本。AV1是更高级的视频编码方式,会比VP9高30%-40%。更高级别的压缩通常需要更多的计算。
根据半分析来源,下一代Argos已经在开发中。它将能够实现CPU或GPU上难以支持的AV1格式,并将实现进一步的存储和带宽节省。此外,他们计划开始在新芯片中添加机器学习推理硬件。最后,他们还将在附加卡本身上添加网络,以提高效率并减少与主机CPU的通信。这将允许他们自动生成视频字幕,检查他们是否违反了服务条款,甚至可以在YouTube和Google photos上启用视频搜索。
今年6月,腾讯云发布了《腾讯的核心》,从中我们了解到,腾讯研发的视频转码芯片“渤海”于2022年3月5日流回并点亮。这是腾讯的第三款芯片,也是第一款完全自主研发的芯片。腾讯渤海小分队的目标是做业界最强的视频转码芯片,最大化压缩率。芯片采用12nm工艺,可以用更少的数据量和更小的带宽提供同样质量的视频。与业界最好的性能相比,压缩率提高了30%以上。
腾讯沧海点亮
最近,字节跳动核心制造再次掀起了一波关注高潮。据了解,字节跳动三年前开始研发视频编解码硬件,去年下半年成立SoC团队,今年年初推出FPGA。7月20日,字节跳动副总裁杨振源在“2022火山引擎原动力大会”上接受媒体采访时证实,字节跳动正在研发自己的芯片,主要用于自己的视频推荐业务。RD团队将为字节跳动大型视频推荐服务的特殊场景定制硬件优化,如视频编解码、云推理加速等。,以提高性能,降低成本。
除了bytes,另一家国内视频巨头Aauto Quicker在相关视频芯片产品上也有布局。据笔者了解,他们的相关芯片已经发布,也许应该能看到更多的信息披露。
此外,脸书的母公司meta也在寻求“控制关键技术,减少对现有芯片供应商的依赖”。据悉,它也在开发定制服务器芯片,其中一个主要用于推荐算法;另一个主要执行视频转码,以提高脸书用户观看的录制和直播视频的质量。此外,脸书还从英特尔聘请了高级网络芯片工程师乔恩·达马(Jon Dama)来领导这家互联网巨头的基础设施硬件工程团队的芯片设计。
而CPU和GPU已经不经济了,
VPU将会闪耀。
目前,随着互联网内容的不断更新迭代,视频流媒体已经开始取代文字、图片等形式。直播、点播、短视频等视频应用正在“侵蚀”各个年龄段的人群,视频流媒体占据了80%左右的互联网流量,比如国外的Youtube,国内的Tik Tok、Aauto faster等短视频。该网络在内容上已经走向去中心化,用户每分钟向YouTube上传超过700小时的Youtube视频,Tik Tok、Aauto Quicker和腾讯微视频也是如此。消费者在用户生成的内容上花费更多时间。
这个过程中要做的工作越来越复杂,视频的分辨率、质量、带宽消耗直接决定了用户的粘性。Tik Tok是近年来短视频领域的赢家之一。很大一个原因是它可以给大家做定制推送,背后有强大的推荐机制。用户对超高清视频的追求越来越高,但也带来了对编解码计算能力和CDN带宽成本的更高需求。
多年来,英特尔的CPU+软件的视频解码/编码方案一直主导着流媒体市场,但随着视频流媒体对高质量视频的需求越来越大,CPU将不再具有经济价值,它会消耗过多的能量和空。虽然GPU的TCO略好,但缺点是利用率较低,工作负载灵活性较低。对某些应用使用GPU,运行驱动栈是一件复杂混乱的事情,所有版本的Linux或者Windows都无法正常工作。这样的软件问题阻碍了英特尔、英伟达等GPU解决方案的发展,比如被英特尔取消的Xe HP tile GPU架构。英特尔的Xe-HP computing GPU是该公司多年来推出的首款高性能独立GPU,也是英特尔向公众展示的首款独立Xe GPU。
英特尔xe-惠普计算GPU
显然,CPU和GPU都不适合处理海量的视频业务,于是,VPU这种专用的视频处理芯片应运而生。从某种意义上说,VPU比其他编码方法更灵活。
图像:半分析
VPU是一款结合人工智能技术,专为视频场景优化而设计的视频加速器。内置视频编码加速专用功能模块,具有高性能、低功耗、低延迟等特点,能够为视频行业应用带来高效的加速计算。
图像:半分析
一般来说,ASIC需要在其目标工作负载中提供高一个数量级的能力,才能得到业界的认可。根据SemiAnalysis对国内VPU芯片初创企业荣明微电子的分析,与CPU和GPU相比,VPU的密度和功耗是CPU和GPU无法比拟的。下图是荣明微电子的VPU用HEVC编解码器碾压英伟达的上一代T4。
另外,根据相关报道,一家名为突现科技的公司也有这方面的布局。该公司表示,它提供Seirios视频编解码器加速解决方案。核心ASIC视频编解码芯片是由紧急技术RD团队自主研发的先进工艺芯片。通过将其安装在执行编码和转码的视频处理服务器上,可以在不改变服务器配置的情况下提高处理性能。减轻数据中心服务器的多媒体处理负担,降低整体功耗和成本。
从谷歌自研VPU的好处也可以看出为什么互联网厂商都在努力做VPU这个芯片:一方面,互联网是TCO最重要的地方,VPU的使用会大大降低CPU的使用率;另一方面,他们可以根据自己的需求打造功耗更低、速度更快的芯片,这也将加强他们的战略优势。还有一个好处是,这些互联网厂商都有自己的视频产品,丰富的多媒体应用场景,还有很多直播互动头部客户被云覆盖,这将为他们的研发提供独特的分析验证条件,再者,互联网巨头们对这个赛道的看好,也足以看到VPU市场的广阔前景。
写在最后
由于VPU芯片是对场景处理技术要求较高的产品,目前专注于ASIC VPU的芯片供应商似乎并不多。整体来看,目前真正实现大规模实际应用的厂商为数不多,互联网厂商研发的产品投入实际应用还需要2-3年的时间。
国内各种视频应用已经走在时代前列,而且还有庞大的用户群体。不仅如此,VPU还有很多市场应用场景。随着5G、移动视频、云游戏、云桌面、VR/AR、元宇宙等行业的快速扩张,市场对专用视频处理芯片的需求正在爆发,专用于视频处理的ASIC芯片将迎来一个长期的蓝海市场。
据研究和分析,预计VPU市场在未来几年内可能达到数千亿美元。从CPU到GPU,再到DPU,现在一个属于VPU的时代似乎正在悄然来临。目测这个市场未来应该会一头扎进更多玩家。
本文中的参考文献:
来源:内容最初由半导体行业观察到
作者:杜勤