来源@视觉中国
文| AI商业评论

IDC报告预测,从2021年到2025年,全球人工智能年复合增长率将接近24.5%。
从技术层面来看,根据全球知名编程语言社区TIOBE指数,2021年人工智能编辑的编程语言Python可以用“轰轰烈烈”来形容。它超过Java成为世界上最流行的语言。全球知名数据科学平台Anaconda的分析师表示,“Python将继续滑入我们的生活”。
2022年,硬科技时代拉开序幕。让我们来看看图片的获胜者Yoshua Bengio、吴恩达AI研究院前院长、meta AI研究中心主任等专家认为人工智能世界接下来会发生什么:
看看2022年吴恩达的AI趋势:将会出现更多多模态的AI起飞模型,拥有数万亿的参数。
人工智能专家吴恩达最近在深度学习上分享了2022年人工智能趋势预测。AI平台。首先是多模态人工智能将会腾飞。
多模态指的是不同类型的数据,如文本、图像、音频、电影等。过去,人工智能模型只能处理单一模态的任务,如文本或视觉。但2021年出现了很多多模态的AI成果,比如OpenAI发布的CLIP和DALL E模型,可以同时处理文本和图像,通过输入文本生成图片;DeepMind的感知者IO对文本、图像、视频、点云进行分类;斯坦福大学的ConVIRT试图给医学x光图像添加文本标签。
虽然这些新的多模态系统大多处于实验阶段,但在实际应用中也取得了突破。
例如,开源社区将CLIP与生成性对抗网络结合起来,开发引人注目的数字艺术作品..艺术家马丁·奥利里用塞缪尔·柯勒律治的史诗《忽必烈汗》作为输入,创作出充满迷幻色彩的“蜿蜒小溪”。
脸书表示,其多模态语音检测器可以标记和删除社交网络中97%的辱骂和有害内容,该系统可以根据包括文本、图像和视频在内的10种数据类型将图像-文本配对分为良性或有害。
谷歌还表示,将在其搜索引擎中增加多模态功能。其统一的多任务模型可以处理文本、音频、图像和视频内容,用户可以使用75种语言中的任何一种。
在GTC 2021期间,英伟达宣布推出英伟达Omniverse Avatar,这是一个用于生成交互式人工智能头像的技术平台。Omniverse Avatar汇集了英伟达在语音人工智能、计算机视觉、自然语言理解、推荐引擎和模拟方面的技术,为创造可以帮助处理数十亿次日常客户服务交互的人工智能助手打开了大门。
多模态研究可以追溯到几十年前。1989年,约翰霍普金斯大学和加州大学圣地亚哥分校的研究人员开发了一个系统,可以根据人们讲话的音频和视频数据对元音进行分类。在接下来的二十年里,研究团队尝试了多模态应用,例如搜索数字视频库和基于视听数据对人类情绪进行分类。
由于图像和文本都非常复杂,研究人员只能长时间专注于其中一种。然而,在过去的十年中,计算机视觉和自然语言处理在神经网络中得到了有效的整合,这使得最终将它们结合起来成为可能。
在过去的一年里,我们见证了大规模语言模型的巨大进步,这场军备竞赛将在2022年继续。
早在2019年,OpenAI的GPT-2就成为第一个参数超过10亿的模型。2020年,GPT-3开始在AI社区流行,拥有1750亿个参数,这让之前的一切都相形见绌。但是GPT 3作为最大的人工智能模型的统治并没有持续很久。2021年,Google Switch Transformer模型和北京致远研究院的“启迪”模型打破了万亿参数壁垒。
预计明年大语言模型的规模会继续增长。2022年最大的模型很可能来自OpenAI: GPT-4。
吴恩达认为,2022年将会出现更多万亿参数的模型,而在过去的一年里,这些模型已经从大型发展到更大型。简单的添加参数并无益处,但随着计算能力和数据资源的增长,深度学习发展出了“越大越好”的原则。于是,财力雄厚的大AI公司纷纷花大力气开发超大型模型,尤其是NLP领域模型。然而,构建越来越大的模型也带来了挑战,开发人员必须克服四个巨大的障碍:
数据:大型模型需要大量数据,网络或开放数据集等大型来源缺乏高质量的数据。例如,包含1.1万本电子书的数据集BookCorpus已被用于训练30多个大型语言模型,但它缺乏讨论基督教和伊斯兰教以外信仰的文本,这可能会传播对某些宗教的偏见。业界越来越意识到数据质量的重要性,但对于如何编制大规模、高质量的数据集,还没有达成共识。
速度:今天的硬件很难处理庞大的模型,当Bit反复进出内存时,这些模型可能会遇到麻烦。为了减少延迟,Switch Transformer背后的Google团队开发了一种方法来为每个令牌处理选择模型层的子集。他们的最佳模型的预测速度比只有其1/30参数的模型快66%。同时,微软开发了DeepSpeed库,可以并行处理数据、单层和层组,通过CPU和GPU分工任务,减少冗余处理。
能源:训练如此庞大的网络会消耗大量的电力。2019年的一项研究发现,在八个英伟达P100 GPU上训练一个2亿参数的变压器模型几乎相当于一辆普通汽车运行五年的碳排放量。然而,新一代人工智能芯片,如脑波强化器的WSE-2和谷歌最新的TPU,可能有助于减少碳排放。
交付:这些庞大的模型太大,无法在C端边缘设备上运行。集中部署可能导致延迟,而小规模部署能力较弱。
所以2022年大语言模型还是以千亿级参数模型为主,因为很难部署一万亿以上的参数模型。吴恩达还做出了其他AI趋势预测,包括Transformer的单一架构将控制更多任务,AI的音频生成将成为主流,各个国家将出台AI法规。
meta-AI研究中心主任joelle Pineau:meta universe急需AI技术的小样本学习和持续学习。
脸书为元宇宙改名为meta,并承诺斥资数百亿美元打造元宇宙。meta Lab负责人Joelle Pineau表示:2022年将带来新的AI数据集、模型、任务以及VR/AR“拥抱现实世界的丰富性”的挑战。
“我预见了人工智能工作的新模式,它使我们能够与世界进行更丰富的感官互动。利用人工智能的创造力可以增强和放大人类的表达和体验。随着机器传感技术的进步,可以建造更多有用的人工智能助手和未来的家庭机器人。并推动部署负责任的人工智能技术新标准的进展,更符合人类的价值观,包括安全、公平和透明。”皮诺说。

多模态AI可以提高出于营销目的而生成的视频的质量,例如,Synthesia、Soul Machines和STAR Labs等初创公司目前提供的产品线。它们可以被用作艺术工具,使电影和游戏设计等行业的用户能够在投入生产之前迭代和完善它们。
Pineau还预计,人们将更加关注小样本学习和持续学习等技术,因为这将使人工智能能够快速适应新任务,满足快速迭代的新需求。比如OpenAI和meta的最新语言模型,WebGPT和BlenderBot 2.0都可以在线搜索到他们问题的最新答案。
目前大部分AI算法还是以被动数据为主,数据量比较大,稳定,同质化严重。这种算法可能适用于互联网时代的人工智能模型,但如果我们想将人工智能的能力带入元宇宙,我们需要支持社会属性快速变化的新算法。
吴恩达在最近的一次采访中表示:“虽然AI改变了软件互联网行业,但当它应用到其他行业时,还有很多工作要做。在消费互联网中,单个人工智能系统就可以为数十亿用户提供服务。但是在制造业,每个制造工厂可能都需要自己的AI模型。小数据的人工智能是一项迅速崛起的技术,它将是人工智能普及的关键。”
许多专家认为,到2022年,行业的重点将从算法建模转向使用基础数据来开发AI系统,例如合成数据——人工智能生成的数据,可以取代现实世界的数据,并已得到广泛应用。最近Synthesis AI调查了100位有决策权的高层管理者,89%的技术高管认为这是保持领先地位的关键。
数据合成可以解决监督学习耗时和成本高的问题。在关于合成数据技术的受访者中,50%的人认为合成数据克服了监督学习/人工标注的局限性,82%的人认为合成数据面临安全风险。但超过一半的决策者认为,他们将在未来五年内独立使用合成数据或与“真实世界”数据结合使用。
Gartner预测,到2024年,合成数据将占AI开发中使用的所有数据的60%。
图灵奖得主Yoshua Bengio:人工智能最怕被滥用,其危害堪比“核泄漏”
蒙特利尔大学教授Yoshua Bengio是世界级AI牛,图灵奖获得者。他正在研究如何提高AI技术的可靠性和人机交互的方式,探索解决这两个问题的方法。
近日,Bengio与外媒Workflow对话,分享了他对人工智能的最新理解。
在过去的几十年里,人工智能取得了惊人的进步,但就对商业至关重要而言,我们离人类智能还很远。在某些情况下,它们可能会犯人类不会犯的错误,甚至是2岁的孩子不会犯的错误。“我们需要更好地理解这种差距,而这正是我想做的——设计新一代人工智能系统来弥合这种差距。”本吉奥说。
“我们的工作旨在改善人和机器之间的互动。我们希望与人类互动的AI能够用人类容易理解和接受的方式解释他们在做什么。因此,有必要破解机器学习的‘黑匣子’,把它变成更结构化的东西,类似于人类有意识的构思和交流方式。”
这就像人类的直觉。人类可以做出涉及直觉的决定,这可能是一种高级推理。但是对于目前机器学习的状态来说,这种能力还是遥不可及。
谈及人工智能是否会控制世界,本吉奥更担心机器可能被滥用。因为人类可能会发疯或者被说服去做疯狂的事情。虽然他们现在可以做一些对我们社会有害的事情,伤害是有限的,但是如果他们可以用超级强大的可以当武器的电脑,他们就会害怕。
在20世纪40年代和50年代,全球物理学家参与讨论核武器带来的危险。技术可能非常有用,但也可能很危险。本吉奥认为,“人工智能现在是新的物理学。我有绝对的道德义务去思考这些问题。任何科学家都应该问问自己,他们的工作最终会不会被用来做坏事。”
当我们使用人工智能系统做决策时,可能是完全错误的,因为我们假设输入导致输出,但也可能是反过来,或者可能有第三个变量混淆了这些结论,机器学习需要介入并考虑后果。
本吉奥也非常关注气候变化,曾参与新型电池和碳吸材料的研究。“如果我们能以更便宜的方式进行碳吸收,那将是颠覆性创新。它涉及决策、数据获取和训练的大量迭代。”
此外,本吉奥还致力于气候建模。他说:气候科学家开始使用机器学习来开发比物理模型更简单、更容易理解、更便宜的模型。如果我给你一个有十亿个参数的气候模型,很难说服政府部门投入数十亿美元进行研究。然而,如果气候变化可以归结为几个方程式,大多数人会更相信它。
标签
展望2022年,硬技术创新的周期才刚刚开始。多模态、通用人工智能、超级模型、AI+元宇宙、AI伦理都是值得关注的热门方向。在这些前沿的科技创新赛道上,中国企业已经深度布局。
中科院自动化所牵头的多模态人工智能产业联盟在武汉成立。其理事单位有新华社、爱奇艺、福建新世界、中国移动系统集成、华为等。
上海人工智能实验室联合商汤科技(SenseTime)、香港中文大学、上海交通大学共同发布了新一代通用视觉技术系统“学者”。与open ai 2021年发布的最强开源模型CLIP相比,“学者”在精度和数据使用效率上都有了很大的提升。“学者”在数据效率上的提升尤为显著:只需要1/10的下游数据,就能超越基于完整下游数据的CLIP的精度。
与鹏程实验室联合发布全球首个规模达2600亿的知识增强模型鹏程文心。
腾讯AI团队和腾讯NLP Oteam联合发布了优于微软DeepSpeed的开源项目PatrickStar,可以在价格不到5000元的个人游戏电脑上训练出拥有7亿参数的GPT模型。
元宇宙将把我们从数字世界带到互联时代的物理世界,数据将会泛滥。自主学习和决策功能越来越强的人工智能,辅以人工微调,可以大大减少构建元宇宙的周期和人力成本。
昨天,北京大学发布了200页的元宇宙报告,解读了国内科技巨头的元宇宙布局。
字节跳动重点在三个方向布局:硬件入口、底层架构、内容和场景。
腾讯的超宇宙拼图比较全。通过资本和流量的结合,未来将会像搭积木一样探索和发展元宇宙。腾讯重点在三个方向布局:底层架构、后端基础设施、内容和场景。
在阿里宇宙方向的布局可以追溯到2016年淘宝推出VR购物功能,投资AR独角兽Magic Leap。2021年,阿里在超宇宙方向的布局更加频繁。先后成立新品牌“云镜”和XR实验室,并聘请AYAYI担任天猫超级品牌的数字经理。

基于多元化的产品,网易在VR、AR、人工智能、引擎、云游戏、区块链等元宇宙相关领域拥有全球领先的技术储备,并完全拥有探索和开发元宇宙的技术和能力。
华为布局元宇宙,重点是XR核心链路自主性的争夺和5G行业标准的制定。在XR方面,华为不仅发布了XR专用芯片、游戏手柄、VR头显相关专利,还围绕“1+8+N”战略集结了5G、云服务、AI/VR/AR等一系列前沿技术。同时,通过自研、扶持开发者、与游戏厂商合作,不断丰富鸿蒙系统的内容生态。
一百年前的1922年,科学加拿大多伦多总医院的医生万津博士首次使用胰岛素治疗糖尿病;72号元素铪的发现证明了玻尔的理论。玻尔因其对原子结构理论的贡献获得了诺贝尔物理学奖...2022年,科技创新必将写下精彩的一页。我们一起期待!
参考资料:
https://read . deep learning . ai/the-batch/issue-123/https://venturebeat . com/2021/12/30/a-look-back-at-recent-ai-trends-and-what-2022-may-hold/https://www . datanami . com/2022/01/03/data-science-and-ai-predictions-for-2022/https://www . analyticsinsight . net/top-10


