亚马逊正在通过 Sumerian 大举进军增强现实和虚拟现实。这是一个完整的开发应用,可为智能手机和头显开发 AR 和 VR 应用,而且不用多久,开发者就可以通过 Sumerian 开发直接运行在你浏览器的 AR/VR 应用。
在这些体验之中,Sumerian 可以创建充满“Host”的沉浸式虚拟世界,一种由驱动亚马逊 Alexa 的相同人工智能提供支持的 3D 角色。

Sumerian 是一种跨平台工具。亚马逊没有选择开发自家品牌的设备或头显,而是为市场提供集成服务。Sumerian 基于开源网络标准,并且支持 苹果ARKit 和谷歌ARCore,这意味着应用开发者可以开发出运行在安卓,iOS,Oculus Rift和HTC Vive等平台的 Sumerian 应用。
作为 Amazon Web Servics的新成员,Sumerian 采用了基于用量的定价模型而非订阅模型,而且 Sumerian 可以连接至其他 AWS 服务。
亚马逊于 2017 年 11 月推出了 Sumerian 的预览版,并计划在 5 月正式上线。在这之前,PCMag 深入探访了 Sumerian 和数款早期的消费者应用。以下是映维网的具体整理:
亚马逊 Sumerian 的总经理 Kyle Roche 向我演示了这个 3D 应用开发平台。我体验了 Sumerian 的拖放应用编辑器和 3D 对象库,用于编写复杂动画场景脚本的 Visual State Machine,以及创建人工智能 Host 的过程。对于 Host,你在这些虚拟体验中时将能与它们进行完整的对话。
我同时与负责亚马逊 AR/VR,AWS Mobile,Serverless Computing 和物联网部门的副总监 Marco Argenti 进行了交谈。亚马逊对 Sumerian 寄以厚望,并且认为结合了 AI 的增强现实和虚拟现实将在我们的联网未来扮演重要角色。
1. 为什么亚马逊要押宝 AR 和 VR?
亚马逊从来都不畏惧进军一个全新的领域。我们只需看看全食,亚马逊视频,或者他们在医疗保健和医药行业的努力即可明白这一点。
Roche 开玩笑说,Sumerian 这个名字取自于科幻小说《雪崩》,而“Host”的概念则源于 HBO 的科幻剧《西部世界》。但 Argenti 表示,亚马逊决定进军 AR/VR 是因为三个关键的要素:智能手机 AR 的兴起;VR 在 B2B 市场的广阔机遇;这可以帮助 AWS 用户解决一系列的痛点。
Argenti 解释说:“信号已经足够明显,所以我们开始进入设计 Sumerian 的过程。典型的亚马逊做法是,我们以逆向的方式先研发消费者用例,然后组建一支构建产品的开发团队。”
B2B 应用包括交互式数字招牌,虚拟培训,以及一系列的工业物联网用力,比方说利用传感器来创建数字孪生和复杂的模拟。Argenti 同时强调了智能手机 AR 已经通过 ARKit 和 ARCore 来到了一个关键的临界点。
他说:“在与现实交互和探索周围的世界方面,摄像头正在日益变成一项十分强大的工具。快速的图形处理器可以实时叠加信息,而传感器可以帮助构建一个 3D 现实。其思想是,数以亿万计的用户拥有一个高质量,高分辨率的情景感知传感器。”
2. 亚马逊是如何构建 Sumerian?
亚马逊最初是在 2016 年下旬开始思考 AR 和 VR 可以为 AWS 用户带来的帮助,然后在大约一年后的 AWS re:Invent 大会中亮相了一个预览版。在这期间的时间里发生了几件事情。
首先,亚马逊收购了一家破产的瑞典初创公司 Goo Technologies。他们的 3D 开发环境 Goo Create 成为了 Sumerian 集成开发环境的基础。
Goo Create 的视觉三维建模同样是基于网络的云服务,但亚马逊更进一步,他们将后端迁移到了 AWS。将其构建在已有的可扩展云基础架构基础上存在大量益处,但重要的是这可以大幅缩短延迟。Roche 表示,Sumerian 最大的卖点之一是,对于一个如其强大的编辑器,你无需下载或安装任何东西。在演示期间,Sumerian 可以在数秒内完成浏览器 URL 的加载。即使是进行实时自然语言处理和渲染精巧的动画也不会减慢其速度。
作为一个低码开发平台,Sumerian 可以支持几乎没有开发经验的用户,而程序员和数据科学家可以通过可编程的 API 和 Sumerian 的命令行界面来自定义场景和编写复杂的应用逻辑。
Argenti 表示:“我们渴望一种你点击一下就可马上进入场景的体验。然后为你提供可以拖放对象的 3D 图形工具。Sumerian 是一个可以联想当动作和事件发生时可以出现什么情况的视觉工具,这一切可能无需编写任何一行代码。”
3. 创建 3D Sumerian 应用
亚马逊对 Sumerian 的整体设计理念是尽可能地巩固创作体验。Roche 表示,他们希望可以掩盖大量重复的开发任务,所以无论你最终选择发行的平台是什么,构建 Sumerian 应用的基本过程都相同。
你可以选择一个模板,或者直接开始创建一个新场景。Sumerian 的部分默认模板包括办公场所,培训室和仓库,货船和户外篝火等场景。主编辑器支持 WebGL 和 WebVR,其布局方式与我们测试过的许多低码工具相同。
左边是一个实体面板。一个实体本质上是数据库中的一个表格,可帮助你管理导入应用程序的数据。下方则是 asset 窗口,你可以在其中搜索要拉入场景中的对象,或者打开 Sumerian3D 模型的完整 asset 库。Roche 表示,Sumerian 提供了一系列的开源对象库并且与 Sketchfab API 集成。亚马逊也有兴趣整合诸如 TurboSquid 和谷歌 Poly AR/VR 对象库等平台。你同时可以将自己的 asset 导入到 Sumerian 中,然后将它们放入场景。
Roche 解释说:“asset 面板可以作为调整管道的拖放区。你可以拖放大多数常见的 3D 文件格式。我们会转换它们,对它们进行优化并为你储存它们。我们在后端做的一件事情是,如果你在多个场景中使用相同的 asset,我们实际上会为你创建一个参考链接。”
屏幕中间是主画布,你可以将 asset 和 3D 模型拖放到场景之中。画布的角落有一个按钮,用于启动场景的 WebVR 预览。
其下方则是时间线编辑器,工作原理与视频编辑工具类似。当你拖入动画和声音并使用 Visual State Machine 创建场景,Host 行为和事件进程时,它们都会显示在时间轴中,你可以通过时间轴调整一个状态将如何过度至另一个状态。
右侧栏是 inspector 面板,其包含你正在查看的组件详细信息,以及你可以如何定制它们。对于可能有一百种不同变体的模型而言,你可以在不实际触及场景的情况下调整属性和纹理等内容。
4. 亚马逊的策略:海纳百川式的集成
Sumerian 不仅在 3D 开发领域发支持 Unity,Unreal 和 Vuforia 这样的平台,同时还在更广泛的 AR/VR 生态系统中兼容 ARKit,ARCore 和 Windows Mixed Reality。Roche 表示,Sumerian 将“开发一次,随处运行”的理念应用于 AR/VR 应用程序,特别是针对企业开发者”。
Roche 指出:“专业 3D 开发者或专业动画师都有一个合作的工作室,但大多数都是网络或移动开发者,在工作中学习到像 Unity 这样的工具。Unity 很优秀,但要真正精通它要比把他们的技能带到 3D 困难得多。所以我们决定把重点放在这一部分。”
Sumerian 支持多种核心开源标准:WebGL,WebAR,WebVR 和即将推出的 WebXR 框架。 WebXR 框架可以把 AR/VR 应用带到不同平台的所有设备与浏览器,而万维网联盟将在未来几个月内投票批准 WebXR。届时,Sumerian 应用将能够直接在浏览器中运行。
在 WebGL,WebVR 和 WebXR 之间,Sumerian 完全与平台无关,而且 Sumerian 已经发布了本地 wrapper 来直接与 ARKit 和 ARCore 集成。Roche 表示,Sumerian 可以为任何支持 WebVR 的平台构建应用,这不仅只是包括 OculusRift和 HTCVive,同时还包括三星Gear VR和谷歌Daydream View等等。另外,Sumerian 正在就 WebXR 与谷歌 Chrome 团队进行紧密合作,开发基于浏览器的应用程序。
另一个主要角色是 微软。尽管亚马逊尚未宣布 Sumerian 将与 WMR 生态系统集成,但 Roche 确实提到最新的微软HoloLensRS4 版本包含了 WebAR 支持,而这意味着 Sumerian 可以运行 HoloLens 的场景。亚马逊同时在观察Magic Leap和 meta 等公司的头显。
Argenti 说道:“我们做出了选择,我们本可以进行自研,并推动开发者走向这条道路。但我们希望可以尽可能广泛地支持一个巨大的市场。当一切都整合至 WebXR 时,完整的设备生态系统就会随之而来。我们瞄准的是底层基础。”
5. Sumerian 的 AI Host 将改变一切
Host 是 Sumerian 最独特的卖点之一。Host 是一种可以放置在 AR 或 VR 场景中的 3D 动画角色。用户可以向 Host 提出问题,而开发者可以编写一套复杂的动作,行为,手势和移动方向,因为它们可以进行对话,并且会围绕场景四处走动。Roche 指出,亚马逊吸收了大量的灵感,包括《第二人生》和《模拟人生》等在线游戏。
Sumerian 目前有两个默认 Host:克莉丝汀 (Christine)和普雷斯顿。但亚马逊将在今年推出一系列的 Host。这些 AI 角色存在很多细微的差别。Roche 向我展示了一个关于克莉丝汀的演示,他将 Host 拖到场景之中,并打开 inspector 面板来定制她的情绪,面部表情和手势。Sumerian 可以自动生成手势,Host 会根据对话的自然语言处理进行对话。所以如果克莉丝汀对你说“嗨”,这可能会触发挥手动作。

借助一个名为兴趣点的系统,你可以在编辑器中选中一个复选框,令 Host 的眼睛始终看着相机。所以如果你佩戴 HTC Vive Pro 在 360 度的空间中走动,Host 将跟随你。如果这是一款与智能手机摄像头相关的 AR 应用程序,亚马逊的 Rekognition 深度学习系统则可以运行面部分析,判断你的位置和你的面部位置,然后令 Host 直接透过屏幕看着你。这会提供一种眼睛接触的幻觉。
用户还可以使用亚马逊的 Maya SDK 从零创建自己的定制 Host,但亚马逊已经提供了基本框架,方便你从中调整 Host 的外观,口音和语调变化,以及语言等等。从长远来看,亚马逊正在考虑如何帮助用户更轻松地创建 Host。Argenti 谈到了用于第一人称角色的 Host 生成器概念,或者使用面部识别来匹配渲染角色和真实人类。
Argenti 表示:”结合 Rekognition,如果我们在程序上尽可能多地生成这些角色,我们可以尝试将你与最接近的角色进行匹配。我们可以拍摄你的照片并运行反向面部识别,并将其与随机角色进行匹配,从而提供一个看起来像是你的 Host 版本。”
Argenti 解释了集成其他 AWS 服务可以令 Host 更加逼真,比如说 Amazon Comprehend 自然语言处理服务。Comprehend 可以分析文本并提取诸如心情和情绪分析等元数据。所以根据对话者的情绪,Host 可以有不同的面部表情或表达方式。
Argenti 说:“如果对话者生气了,也许 Host 可以令他们平复心情。不仅在我们传达信息的方式上有所发展,我们通过深度情感分析来呈现这一点的方式上也有进步。”
6. Alexa 背后的语音服务
能够进行对话的 Host 才是好 NPC。与在 WMR 中激活 Cortana 小娜的方式不同,你不能在 Sumerian 应用中通过说“Hey Alexa”来激活语言服务。相反,亚马逊采用了 Alexa 背后的自动语音识别和自然语言理解 API 来帮助 Host 进行对话。
Sumerian 与 Amazon Lex 和 Amazon Polly 进行了集成。Polly 是一种文本到语音转换服务,可将文本转换为 Host 的语音脚本。Lex 则是一个用于构建会话界面的 NLP 引擎,这是 Host 理解和响应用户说话内容的方式。Sumerian 目前已经通过 Polly 支持了超过二十种语言,而且嘴唇同步功能可以令 Host 的嘴巴动作与语言或语音节奏相匹配。
Argenti 说道:“当你沉浸在 AR 或 VR 中时,语音是一种真正有意义的媒介。如果你看到一个角色站在那里,我会希望与它进行交谈。所以我们从人工智能团队中挑选了两个这样的工具,并试图将它们人格化。我们希望场景能够倾听并回应我们。因此,你可以像聊天机器人一样将整个 Lex 流程拖放到角色上。从很多方面来讲,它比构建一项 Alexa 技能要容易得多。”
7. 沉浸式世界中的脚本逻辑
Sumerian 的 Visual State Machine 是你设计复杂序列和虚拟模拟的工具。借助视觉时间线编辑器或完整的 Javascript 界面,应用创建者和开发者就可以编写脚本逻辑来控制场景中的 Host 或其他对象。例如,Sumerian 包括一个可以编写脚本的飞行无人机对象。
当你把真实世界的对象引入等式时,这一切都将变得更加复杂。由于 Argenti 同时负责 AWS 的无服务器计算和物联网部门,他认为将 Sumerian 连接到 Lambda 和 Greengrass 这样的 AWS 服务中可以为复杂模拟带来更多可能性。Greengrass 是机器学习模型在物联网设备上进行本地运行的一种方式。我们可以设想一个根据工厂车间机器数据进行训练的 ML 模型,然后我们把这种算法带到 Sumerian,并且使用 AI 来模拟同一台机器。
Argenti 说道:“AR 和 VR 中真的可以存在一个模拟世界,每个角色或对象都能通过现实世界中的机器学习训练变得智能起来。最终,你将希望尝试以最逼真的方式来重新创造现实。今天我们可以进一步靠近,但从行为角度来看,它还不足以模拟实际情况。”
8. Weatherbug 的模拟气象学家
当亚马逊向我演示 Sumerian 应用时,我十分惊讶于他们展示的第一个应用是与天气有关。
但正如 WeatherBug 总经理 Olivier Vincent 所解释的那样,虚拟现实与天气数据的结合比你想象中更为合理。由于人们已经开始通过应用程序查看天气状况,天气预报已经丢失了其中一个亮点:站在天气屏幕前的当地天气预报员。
Vicent 说道:“天气就是告诉你某个时间段内某个地方将会发生什么,你可以在应用中以一种 2D 方式进行快速查看,但我们知道一直以来天气预报员都十分受欢迎。所以我们的想法是以一种更加身临其境的方式重新引入天气预报员。”
WeatherBug 构建了一个包含虚拟新闻工作室的 Sumerian 场景,并配有一个主播台和天气屏幕。然后他们把克莉丝汀当作气象学家。这款应用可以根据你的位置提取当前的天气数据,然后 Host 将以一种个性化的方式来向你播报天气。在 WeatherBug 主应用中,Vincent 启动了一个展示曼哈顿 3D 模型的 VR 场景,这时克莉丝汀会向你播报天气,并且提供最高温度和最低温度等其他信息,而你甚至可以看到飘落的雪花。
9. 艾迪生:虚拟看护者
位于新墨西哥州的健康管理科技公司 Electronic Caregiver 则开发了一款十分不同的 Sumerian 体验。
这家公司为老年人提供了包含医疗帮助的可穿戴设备,他们同时开发了一种名为 Addision Care 的解决方案,目标是降低家庭护理成本,并使用会话式 AI 来评估老年患者跌倒的风险。Electronic Caregiver 为药店,医院和临床医生推出了一个终端机,通过机器学习来分析患者的步态。他们开发的 Sumerian 体验同时应用了一个自定义的 Host:艾迪生。Addison 将会帮助用户完成关于跌倒历史的口头调查问卷。
Electronic Caregiver 的技术总监 Bryan Chasko 表示:“让老年人接受技术并不容易。随着这方面越来越好,语音技术将会涉足这个市场,你将不再需要让他们坐在键盘和鼠标前面,通过艾迪生,他们只需进行对话即可。”
Electronic Caregiver 制作艾迪生已有数年时间,利用 Amazon Lex 和 Polly 来开发这个 3D 角色。该公司是其中一家帮助亚马逊构思可以通过 Sumerian 解决的难题,以及如何自动化 AR/VR 应用创建流程的 AWS 用户之一。
Electronic Caregiver 的一名虚拟开发者 Judah Tveito 表示,Sumerian 将他们需要投入数月时间的流程转化为只需几次点击的体验。Chasko 指出,该公司还在开发艾迪生移动应用。Electronic Caregiver 将艾迪生定位为家庭虚拟护理人员。对于独立生活的老年用户,AI 可以提醒他们服用药物,或者在其跌倒或出现其他医疗紧急情况时自动拨打 911。
Chasko 说道:“我们认为这可以解决的最大问题之一是,老年人独自生活时的隔离感,我们希望提供一个全天候的家庭环境,当你没有与艾迪生对话并且在浴室跌倒时,只需大喊‘我需要帮助’就可以挽救许多生命。”
10. 赚钱机器:B2B 和物联网
亚马逊谈到很多关于交互式数字标识的场景。想象一下,当你在酒店大堂,商场或体育场中散步时,你可以在屏幕中看到陪你一起走动的 Host。这听起来可能有点令人毛骨悚然,但 Host 可以处理位置等情景信息,并将广告转变为个性化的对话。Argenti 认为 Host 是公司品牌的虚拟扩展,可以根据业务需求进行改变。
亚马逊正在为 Sumerian 的用户探索一系列的 B2B 和物联网应用。在工业方面,Argenti 表示诺基亚整合了一个包含传感器和可视化系统,并将其用于监测集装箱内的环境,这样工作人员无需实际打开集装箱即可测量内部温度和减震效果。
他说:“你可以想象这么一个 AR 世界:我们将数百万台设备连接到 AWS,并从现实世界获取大量的感官数据。然后,我们可以使用 AR 进行三角测量来识别对象,并在其上显示相关信息。从服务和维修到监控,安全等各种服务,这存在很大的适用性。”
Sumerian 同样存在广泛的电子商务可能性。对于任何来自亚马逊购物目录的 Sumerian 3D 模型而言,如果将其添加到 AR/VR 场景中,你都有可能获得开发者推荐费用。这是 AWS 上的企业和独立开发者通过 Sumerian 应用实现营收的一种方式。
Argenti 设想了 Sumerian 和亚马逊零售部门之间的众多交叉机会,他说:“我们可以利用我们零售团队在家居装饰,家用电子产品,以及其他高价值物品方面的一些工作来创建 3D 模型。然后你可以用它们来拍摄一个照片级真实的透视空间。我该如何设置一个现代化的阁楼呢?我们应该摆设什么家具呢?”
11. 一切都回到 AWS
为所有 AR/VR 设备和平台搭建桥梁是降低 AR/VR 开发门槛的一种明智方式,不仅对 B2B 公司是如此,对开发者来说都是如此。令亚马逊大力发展 Sumerian 的一点是,这可以推动更广泛地 AWS 服务采用。对于尝试使用新服务的现有用户,以及新 Sumerian 用户来说都是如此。后者将开始使用亚马逊的存储,计算,处理,人工智能和其他服务,因为它们都融入了之中体验。定价模式同样很有吸引力,因为亚马逊不征收预付费,AWS 只按照你的使用量进行费用。
这只是所有流经 AWS 大环路的一部分。数据来自于物联网设备,通过 AWS Lambda 函数进行处理,部署在 AWS Greengrass 以进入训练机器学习模块的 AWS IoT,并且最终作为 3D 模型成为 Sumerian 中的 AR 可视化。

12. 亚马逊对 AR/VR 未来的展望
亚马逊希望 Sumerian 能够刺激行业制作 3D 大众产品,以及降低成本。在 AR 方面,Argenti 表示由于 ARKit 和 ARCore 的原因,基本的支持者已经到位。他指出,当开发者提供足够的应用和视频内容时,行业将出现一个拐点。在 VR 方面,亚马逊希望看到的重大变化是硬件价格下降,变得轻便和无线。
Argenti 说:“当这一切发生的时候,以及当你像佩戴眼镜一样佩戴 VR 体验的时候,VR 将实现腾飞。我认为它必须要像在平板电脑上观看视频或打开电视机一样自然,只有这样才能达到与其他媒介相同的主流消费水平。围绕内容创建者,广告客户,终端用户,以及迎合这些用户的公司来开发一个完整的生态系统就是具体的操作方式。”
Argenti 还强调了 VR 和 MR 中沉浸感的重要性。亚马逊为 Sumerian 设置的另一个目标用例是教育和培训。他指出,无论你是在学习如何使用医疗设备,还是说学习新的语言,这一切都是为了令你感觉自己仿佛置身于一个真实的环境之中。
他说道:“你足不出户就可以坐在一家法式小酒馆里学习当地语言。Host 会用法语与你进行对话。菜单是用法语书写。然后在这个现实中,你可以触摸一个菜单并看到相应的翻译,将你的手指放在一个条目上即可看到单词变成不同的语言。学习主要是情景化的学习,所以作为一种学习工具,能够涉及你所有感官的体验将十分强大。”


