数据团队在构建符合道德的人工智能中会起到什么关键作用
在技术竞赛中,快速行动始终是未来成功的标志。不幸的是,行动太快也意味着我们可能会忽视潜在的风险。
对于 GenAI 来说,就是生活模仿艺术。
无论我们多么希望将人工智能视为已知量,但残酷的现实是,即使是这项技术的创造者也不完全确定它是如何运作的。在联合健康保险公司、谷歌以及加拿大法院等公司曝光多起引人关注的人工智能失误之后,我们是时候反思自己错在哪里了。
现在,需要明确的是,我们相信 GenAI以及更广泛的 AI最终将对每个行业都至关重要——从加快工程工作流程到回答常见问题。然而,为了实现 AI 的潜在价值,我们首先必须开始批判性地思考如何开发 AI 应用程序——以及数据团队在其中扮演的角色。
在这篇文章中,我们将探讨人工智能中的三个道德问题、数据团队如何参与其中,以及作为数据领导者今天可以做些什么来为未来提供更符合道德和更可靠的人工智能。
人工智能伦理的三个层次
当我与同事聊天时,他分享了他第一次遇到的真正道德困境之一。在在开发用于财务激励的机器学习模型时,有人讨论了可以确定折扣的机器学习模型的道德影响。
从表面上看,考虑到所有因素,折扣代码的 ML 模型似乎是一个非常无害的请求。但是,尽管自动化处理一些折扣代码似乎无害,但从该业务问题中消除人类同理心的行为会给团队带来各种道德考虑。
竞相将简单但传统上属于人类的活动自动化似乎是一个完全务实的决定——提高效率与不提高效率的简单二元性。
一旦你从任何等式中剔除人类判断,无论是否涉及人工智能,你也会失去直接管理该过程对人类影响的能力。
在人工智能发展方面,有三个主要的道德考虑:
1. 模型偏差
这成为了我们讨论的核心。这种模式本身是否会产生意想不到的后果,对一个人有利或不利?
这里的挑战是以这样一种方式设计你的 GenAI——在所有其他考虑因素相同的情况下——它将始终为每次交互提供公平公正的输出。
2. 人工智能的使用
可以说,人工智能最存在且最有趣的伦理考虑是了解这项技术将如何使用,以及该用例对公司或社会可能产生什么影响。
这种人工智能的设计是否合乎道德?它的使用是否会直接或间接地伤害任何个人或群体?最终,这种模式能否带来长期的净收益?
正如伊恩·马尔科姆博士在侏罗纪公园第一幕中所定义的那样,你可以建造某物并不意味着你应该这么做。
3. 数据责任
最后,数据团队最关心的问题也是我在这篇文章中花费大部分时间的地方:数据本身如何影响人工智能的构建和负责任地利用的能力?
这种考虑涉及了解我们正在使用什么数据,在什么情况下可以安全地使用这些数据,以及与之相关的风险。
例如,我们是否知道数据来自哪里以及如何获取数据?为给定模型提供数据是否存在隐私问题?我们是否利用了任何可能使个人面临过度伤害风险的个人数据?
当你不知道 LLM 是基于什么数据进行训练的时候,基于闭源 LLM 进行构建是否安全?
而且,正如《纽约时报》对 OpenAI 提起的诉讼中所强调的那样——我们首先有权使用这些数据吗?
这也是数据质量发挥作用的地方。我们能相信为给定模型提供的数据的可靠性吗?如果质量问题被允许进入人工智能生产,可能产生什么后果?
所以,既然我们已经从整体上审视了这些道德问题,那么让我们来考虑一下数据团队在这一切中的责任。
为什么数据团队要对 AI 伦理负责
在与数据团队相关的所有人工智能道德考虑中,迄今为止最突出的是数据责任问题。
就像 GDPR 迫使业务和数据团队共同重新思考如何收集和使用数据一样,GenAI 将迫使公司重新思考哪些工作流程可以以及不能实现自动化。
虽然我们作为数据团队绝对有责任尝试参与任何 AI 模型的构建,但我们无法直接影响其设计结果。然而,通过将错误数据排除在模型之外,我们可以大大降低这些设计缺陷带来的风险。
如果模型本身超出了我们的控制范围,那么“可以”和“应该”的存在问题就完全是另一回事了。同样,我们有义务指出我们看到的陷阱,但归根结底,不管我们是否上飞船,火箭都会起飞。
我们能做的最重要的事情就是确保火箭安全起飞。
因此,就像数据工程师生活的所有领域一样,我们愿意投入时间和精力的地方就是我们能为最多人带来最大直接影响的地方。而这个机会就存在于数据本身中。
为什么数据责任对于数据团队来说很重要
这似乎太明显了,但我还是要说:
数据团队需要对如何将数据运用到 AI 模型中负责,因为坦率地说,他们是唯一能做到这一点的团队。当然,当道德被忽视时,合规团队、安全团队甚至法律团队也会承担责任。但无论可以分担多少责任,到最后,这些团队永远无法像数据团队一样理解数据。
想象一下,您的软件工程团队使用 OpenAI 或 DeepSeek的第三方 LLM 创建应用程序,但没有意识到您正在跟踪和存储位置数据(除了应用程序实际需要的数据之外),他们利用整个数据库来支持模型。如果逻辑上存在缺陷,恶意行为者可以轻松设计提示,使用存储在该数据集中的数据来追踪任何个人。
或者,假设软件团队知道该位置数据,但他们没有意识到该位置数据实际上可能是近似的。他们可能会使用该位置数据来创建 AI 地图技术,该技术会在晚上无意中将 16 岁的孩子带到一条黑暗的小巷,而不是街区尽头的必胜客。当然,这种错误不是故意的,但它凸显了数据利用方式所固有的意外风险。
这些例子和其他例子都凸显了数据团队在人工智能道德方面所扮演的守门人角色。
那么,数据团队如何才能保持道德?
在大多数情况下,数据团队习惯于处理近似数据和代理数据来使其模型发挥作用。但当涉及到为 AI 模型提供数据时,你实际上需要更高级别的验证。
为了有效地为消费者解决这一问题,数据团队需要刻意审视他们的数据实践以及这些实践与整个组织的关系。
在我们考虑如何降低人工智能的风险时,以下是数据团队必须采取的 3 个步骤,以使人工智能走向更符合道德的未来。
1. 参与人工智能项目
数据团队不是鸵鸟——他们不能把头埋在沙子里,希望问题会自行消失。就像数据团队为争夺领导地位而战一样,数据团队也需要为自己在人工智能领域的一席之地而战。
就像任何数据质量消防演习一样,在地球已经烧焦之后再跳入战斗是不够的。当我们处理 GenAI 固有的生存风险时,比以往任何时候都更重要的是要积极主动地履行我们自己的个人责任。
如果他们不让你参与其中,那么你就有责任从外部进行教育。尽你所能提供出色的发现、治理和数据质量解决方案,为掌舵的团队提供信息,让他们对数据做出负责任的决策。教他们使用什么、何时使用,以及使用无法通过团队内部协议验证的第三方数据的风险。
这不仅仅是一个商业问题。正如联合健康保险和不列颠哥伦比亚省所证实的:在许多情况下,这些都关系到人们的生命和生计。所以,让我们确保我们以这样的视角来运作。
2. 利用 RAG 等方法来整理更负责任、更可靠的数据
我们经常将检索增强生成 (RAG) 视为从 AI 中创造价值的资源。但它也同样是保护 AI 构建和使用方式的资源。
例如,假设一个模型正在访问私人客户数据,以向面向消费者的聊天应用提供数据。正确的用户提示可能会将各种关键 PII 泄露到公开场合,让不良行为者有机可乘。因此,验证和控制数据来源的能力对于保障该 AI 产品的完整性至关重要。
知识渊博的数据团队利用 RAG 等方法来精心整理合规、更安全、更适合模型的数据,从而降低了很多风险。
采用 RAG 方法进行 AI 开发也有助于最大限度地降低摄入过多数据带来的风险——正如我们的位置数据示例所示。
那么在实践中会是什么样子呢?假设你是一家像 Netflix 这样的媒体公司,需要利用第一方内容数据和一定程度的客户数据来创建个性化的推荐模型。一旦你定义了该用例的具体(和有限的)数据点,你就能够更有效地定义:
谁负责维护和验证这些数据,
在什么情况下可以安全使用数据,
以及谁最终最适合构建和维护该 AI 产品。
数据沿袭之类的工具也可以在这里提供帮助,它使您的团队能够快速验证数据的来源以及数据在您团队的 AI 产品中的使用情况(或误用情况)。
3. 优先考虑数据可靠性
当我们谈论数据产品时,我们经常说“垃圾进,垃圾出”,但对于 GenAI 来说,这句格言却不尽人意。事实上,当垃圾进入人工智能模型时,产生的不仅仅是垃圾——它还会给人类带来真正的后果。
这就是为什么您需要一个 RAG 架构来控制输入到您的模型中的数据,同时您还需要强大的数据可观察性来连接到Pinecone等矢量数据库,以确保数据实际上是干净、安全和可靠的。
我从刚开始使用人工智能的客户那里听到的最常见的抱怨之一是,在追求生产就绪的人工智能时,如果您没有主动监控索引进入矢量数据管道的情况,那么几乎不可能验证数据的可信度。
通常情况下,数据和人工智能工程师只有在模型给出错误的快速响应时才会知道数据出了问题,而到那时已经太晚了。
现在正是最佳时机
对更高数据可靠性和信任度的需求正是激励我们创建数据可观察性类别的挑战。如今,人工智能有望颠覆我们日常所依赖的许多流程和系统,数据质量的挑战——更重要的是道德影响——变得更加严峻。
