Amazon SageMaker Unified Studio要“数据和AI在一起”
今天,各种各样的大模型层出不穷,用户可以根据自己的需求选择最适合的模型,这个过程相对容易。但是大模型、生成式AI如果想真正落地,不可或缺的还是企业私有化的数据,这也是生成式AI时代决定业务差异化的关键所在。从这个角度说,企业用户迫切需要将数据的利用,包括数据的分析、处理、探索、集成等,与各种操作工具结合在一起,形成一个统一的开发平台,从而更快地进行迭代,同时也能更好地支持AI的开发和应用。
亚马逊云科技已经想在了前面,全新的Amazon SageMaker Unified Studio不仅可以使客户轻松查找和访问整个组织的数据,而且汇集了亚马逊云科技专门构建的分析、机器学习(ML)和AI功能。客户在Amazon Q Developer的协助下,能够为各种类型的常见数据用例选择最合适的工具,以加速数据的处理。
分析与AI正在融合
“当前的趋势是,数据分析与AI正在深度融合。Amazon SageMaker Unified Studio正是新一代的数据和AI的统一的开发平台。”亚马逊云科技大中华区数据及存储产品总监崔玮表示,“未来,企业所有的数据引擎以及AI的需求,都可以通过Amazon SageMaker Unified Studio这样一个大的平台来统一完成。”
Amazon SageMaker Unified Studio整合了在Amazon Bedrock、Amazon EMR、Amazon Redshift、Amazon Glue和现有Amazon SageMaker Studio中客户喜欢使用的一系列独立的“工作室”、查询编辑器和可视化工具,为用户提供了一个单一的数据和AI开发环境。用户可以利用Amazon SageMaker Unified Studio,轻而易举地发现和准备数据、编写或查询代码、处理数据以及构建ML模型。
借助Amazon SageMaker Unified Studio中与Amazon Bedrock集成的开发环境(IDE),用户可以使用Amazon Bedrock精选的高性能基础模型和工具(例如Agents、Guardrails、Knowledge Bases和Flows),快速、轻松地构建和部署生成式AI应用程序。
另外,Amazon SageMaker Unified Studio还内置了数据发现、共享和治理功能。分析师、数据科学家或工程师可以快捷地搜索和找到其用例所需的正确数据,同时应用所需的安全控制和权限,维护访问控制,并保护数据的安全。
从去年的re:Invent开始,我们已经可以明显地感觉到,亚马逊云科技致力于为用户提供强大的原子能力,Amazon EC2、存储、数据服务、AI推理等的持续迭代与演进就是最好的例子。用户在借助这些原子服务去构建自己的应用时,必然会需要一些中间的连接。而这正是Amazon SageMaker Unified Studio的价值所在,即为数据服务和AI推理提供一个很好的连接,为相关原子服务的落地搭建起一座桥梁。
崔玮表示:“Amazon SageMaker Unified Studio在单角色、多引擎的环境,或者多个角色之间需要配合与协作的环境中能够最大程度发挥其优势。”
Amazon SageMaker Unified Studio提供了一个高度集成的数据与AI的开发及治理环境,具有简单、高效等特质。但是这样一个高度集成的平台,会不会让用户感觉受到“束缚”,不能按照自己的喜好和习惯采用适合的工具?“我们在接触用户的过程中发现,很多用户都有自己习惯使用的数仓、ETL等产品。我们的目的并不是将用户强行拉入Amazon SageMaker Unified Studio平台。”崔玮解释说,“如果用户使用的是一个单一的引擎,且工作量不大,业务不复杂,那么用户完全没有必要改变原有的使用习惯。但是用户在使用工具的同时,还需要资产端进行配合,或者即使是单一角色,却会用到多个引擎,那么Amazon SageMaker Unified Studio就是一个非常理想的选择。”
举个例子,英国一家领先的银行NatWest Group为超过1900万客户提供服务。它就采用Amazon SageMaker Unified Studio,以一个统一的环境来支持数据工程、SQL分析、ML和生成式AI工作负载等,预计其数据用户访问分析和AI功能所需的时间将减少50%,从而可将更多的时间用于客户创新。
Amazon SageMaker Unified Studio改变了什么?
说到这,您可能更好奇,Amazon SageMaker Unified Studio究竟是如何帮助用户加速数据分析和实现人工智能创新的?
首先,通过Amazon SageMaker数据和AI治理,能够更好地满足企业的安全需求。借助基于Amazon DataZone构建的Amazon SageMaker Catalog,管理员可以使用具有精细控制的单一权限模型,定义和实施一致的访问策略,这样跨团队的数据工作人员可以安全地发现和访问经过批准的数据和模型。同时,用户还可以通过Amazon SageMaker中的数据分类、毒舌检测(toxicity detection)、防护栏(guardrails)和负责任的AI策略来保护其AI模型。
其次,Amazon SageMaker Unified Studio具有统一的数据访问能力。Amazon SageMaker Lakehouse基于Apache Iceberg开放标准构建的统一、开放和安全的数据湖仓库,能够有效减少数据孤岛并统一数据。无论数据存储在Amazon Simple Storage Service(Amazon S3)数据湖、Amazon Redshift数据仓库,还是第三方或整合的数据源中,用户都可以从单一入口访问并使用兼容Apache Iceberg的引擎和工具进行处理。Amazon SageMaker Lakehouse已与Amazon S3 Tables集成,这保证了用户能够使用Amazon SageMaker Lakehouse高效地创建、查询和处理S3 Tables,既可以使用Amazon SageMaker Unified Studio中的各种分析引擎,也可以使用如Apache Spark和PyIceberg等Apache Iceberg兼容的引擎。
最后,全新zero-ETL集成SaaS应用程序,可以快速、轻松地访问SaaS数据。用户借助zero-ETL,能够访问Amazon SageMaker Lakehouse中的Zendesk和SAP等应用程序,以及Amazon Redshift中的数据,用于分析和AI。集成SaaS应用程序的zero-ETL包含数据同步、增量更新和删除检测,以及目标merge的最佳实践。
另外,Amazon Bedrock的功能也已经在Amazon SageMaker Unified Studio中可用,它能够帮助客户在受管理的环境中快速构建原型、定制和共享生成式AI应用。Amazon SageMaker Unified Studio还集成了Amazon Q Developer,这一强大的软件开发生成式AI助手可以更好地简化数据和AI开发生命周期中的各项任务,包括代码编写、SQL生成、数据发现和问题排查等。
“实现不同业务角色之间的有效联动和协同,这是Amazon SageMaker Unified Studio为用户的AI开发环境带来的最大改变。”崔玮举例说,“以前,用户若想获取一个真正想要的数据集,可能需要以天甚至是周为单位,但是Amazon SageMaker Unified Studio能够做到小时级。”
加速AI在企业中的落地,不能只是喊喊口号,而是必须真正了解用户的需求和痛点。用户需要的是一个一站式的平台,能够将各种技术和工具以集成的方式实现协同。Amazon SageMaker Unified Studio的价值就在于,它通过全面的分析功能、一站式的开发环境,以及整合的湖仓架构,真正简化了解决方案的交付流程,其核心是将分析与AI整合在一起,更高效地解决复杂的端到端问题,并加速创新。
崔玮表示,新一代Amazon SageMaker希望在保证数据治理、安全和合规的情况下,为用户提供一个完整、统一的数据视图,包括数据及AI。Amazon SageMaker Unified Studio的推出,为企业的AI应用开发提供了全新的体验。
客户需求永远是第一位的
提供“数据+AI”的统一开发环境,这是亚马逊云科技的创新,也会是业界未来的发展方向吗?事实上,这一话题已经在业内引起了广泛而热烈的讨论。
崔玮表示,站在亚马逊云科技的角度,最关心的还是客户的实际需求。如果时间回溯到两三年前,人们更多倾向于“专门构建”,比如专门构建数据库、专门构建数据分析等。虽然用户对这种专门构建的环境非常满意,因为确实享受到了强大的服务。但是,随着业务越来越多,而且越来越复杂,让这么多服务能够有效协同,是一个棘手的问题。用户提出了更高的要求,就是希望拥有一个统一的环境,不管是统一的界面,还是统一的治理。亚马逊云科技正是从这样的客户需求出发,才打造出了Amazon SageMaker Unified Studio。
AI开弓没有回头箭,而且AI的应用是一个持续的过程。在未来的发展过程中,一定会有新的需求不断涌现。就像崔玮所说,无论是技术还是服务创新,都必须以客户为中心,随需而动。
