数据是人工智能的燃料。对于大企业来说,这也是一个瓶颈,因为它们不愿意在不了解更多用于构建人工智能程序的数据的情况下完全接受这项技术。
现在,一个由公司组成的联盟已经制定了描述数据来源、历史和法律权利的标准。这些标准本质上是一个标记系统,用于记录数据收集和生成的地点、时间和方式,以及数据的预期用途和限制。
周四宣布的数据来源标准是由数据与信任联盟(data & Trust Alliance)制定的。数据与信任联盟是一个非营利组织,由24家主要是大公司和组织组成,包括美国运通(American Express)、Humana、IBM、辉瑞(Pfizer)、UPS和沃尔玛(Walmart),以及一些初创企业。
联盟成员认为,数据标签系统将类似于食品安全的基本标准,要求提供食品的基本信息,比如食品来自哪里,谁生产和种植食品,以及谁在食品进入杂货店货架的过程中处理食品。
高管们表示,人工智能模型中使用的数据的清晰度和更多信息,将增强企业对这项技术的信心。所提议的标准的使用范围有多广是不确定的,很大程度上取决于标准的应用和自动化的容易程度。但标准加速了从电力到互联网等每一项重要技术的使用。
UPS信息技术和数据分析总裁Ken Finnerty表示:“这是朝着将数据作为一种资产进行管理迈出的一步,这是当今行业中每个人都在努力做的事情。”“要做到这一点,你必须知道数据是在哪里创建的,在什么情况下,它的预期目的,以及在哪里使用是合法的,或者不合法的。”
调查表明,需要对数据有更大的信心,并提高数据处理的效率。在一项针对企业首席执行官的民意调查中,大多数人认为“对数据血统或来源的担忧”是采用人工智能的主要障碍。一项对数据科学家的调查发现,他们将近40%的时间花在了数据准备任务上。
数据计划主要针对企业用来制作自己的人工智能程序的商业数据,或者他们可能有选择地将来自谷歌、OpenAI、微软和Anthropic等公司的数据输入人工智能系统。数据越准确、越可信,人工智能生成的答案就越可靠。
多年来,公司一直在应用人工智能,从定制产品推荐到预测喷气发动机何时需要维护。
但过去一年所谓的“生成式人工智能”(generative ai)的兴起,加剧了人们对数据使用和滥用的担忧。OpenAI的ChatGPT等聊天机器人就是由这种人工智能驱动的。这些系统可以像人类一样流畅地生成文本和计算机代码,但它们经常根据它们访问和组装的数据来编造东西——正如研究人员所说的“幻觉”。
公司通常不允许员工自由使用消费者版的聊天机器人。但他们正在试点项目中使用自己的数据,这些项目利用人工智能系统的生成能力来帮助编写商业报告、演示文稿和计算机代码。企业数据可以来自许多来源,包括客户、供应商、天气和位置数据。
IBM软件高级副总裁罗布·托马斯(Rob Thomas)说:“秘密武器不是模型。“关键是数据。”
在新系统中,有八个基本标准,包括血统、来源、法律权利、数据类型和生成方法。然后是对大多数标准的更详细的描述,例如指出数据来自社交媒体或工业传感器。
数据文档可以采用各种广泛使用的技术格式。数据联盟的公司一直在测试这些标准,以改进和完善它们,计划明年初向公众开放。
按类型、日期和来源对数据进行标注是由个别公司和行业完成的。但该联盟表示,这些是第一个旨在适用于所有行业的详细标准。
“我的一生都沉浸在数据中,试图弄清楚我可以使用什么,什么是准确的,”数据科学家、transarent负责报告和分析的副总裁蒂·蒙塔尔沃(Thi Montalvo)说。
transarent是数据联盟的成员之一,是一家初创公司,依靠数据分析和机器学习模型来实现个性化医疗保健,并加快向供应商付款的速度。
蒙塔尔沃说,数据标准的好处在于数据供应链中的每个人都更透明。这一工作流程通常从与保险公司就获取索赔数据的合同进行谈判开始,然后继续与初创公司的数据科学家、统计学家和健康经济学家进行谈判,后者会建立预测模型,为患者提供治疗指导。
蒙塔尔沃估计,在每个阶段,更快地了解更多数据应该会提高效率,消除重复工作,可能会将花在数据项目上的时间减少15%到20%。
数据联盟表示,如今的人工智能市场需要该组织的数据标签标准所能提供的清晰度。“这可以帮助解决所有人都在谈论的人工智能领域的一些问题,”生产数据分析工具和人工智能软件的初创企业Howso的联合创始人兼首席技术官克里斯·哈扎德(Chris Hazard)说。
Steve Lohr报道技术、经济和劳动力问题。他是2013年获得普利策解释性报道奖的团队成员之一。更多关于Steve Lohr的信息