大模型中的数据_大模型样本数据质量 csdn-程序员宅基地

技术标签: 人工智能  数据库  大模型专栏  

简介:        

       数据是基础大模型的生命线;这些模型的训练数据在很大程度上决定了这些模型可以获得哪些功能。数据的中心性并不是基础大模型所独有的;最近对以数据为中心的人工智能的呼吁表明了管理、理解和记录用于训练机器学习模型的数据的普遍重要性。具体而言,对于基础大模型,目前的做法是使用未指定或不明确的原则选择训练数据,并且训练数据的性质普遍缺乏透明度。我们认为,需要一种替代方法来重新构想围绕基础模型的数据生态系统:我们利用数据可视化和管理方面的工作,为基础模型提出一个数据中心。我们阐述了该提案如何与基础模型的许多相关的以数据为中心的考虑因素相关:选择,策展,文档,访问,可视化和检查,质量评估和法律的监管。

        基础模型标志着一种范式转变,越来越多的大量数据被馈送到这些模型中,以提高适应性能,总体经验法则是数据越多越好。如前所述,对数据策展的关注引起了对基础模型数据生命周期的关注,包括:

       1.  管理如此大规模的数据

       2.  在新模式中整合数据

       3.  对许可证和治理法规的推理-特别是考虑到基础模型培训中使用的大规模网络爬行时,

       4.  理解数据质量

       虽然基础大模型为这些挑战增加了新的和困难的方面,但我们看到这些问题与数据管理和数据分析以及工业ML管道等社区的核心挑战之间存在相似之处。例如,数据管理长期以来一直在研究可扩展的声明性系统,用于数据分析,版本控制,出处和集成解决挑战12。行业拥有应对挑战3的渠道,以管理各种数据许可证并帮助减少数据违规。有一个完整的研究和系统生态系统来应对挑战4,以支持交互式数据分析和可视化虽然这些解决方案不一定是基础模型就绪,但我们认为,更好地管理基础模型数据生命周期的路径应该从这些现有系统中获得灵感。

       在本文中,我们将讨论管理基础模型数据生命周期。我们首先概述了四个必要条件,包括大规模数据管理、对异构数据源的支持、数据治理和数据质量监控。然后,我们设想如何将所有这些需求集成到称为数据中心的整体数据管理解决方案中。数据中心只是一个数据管理工具包,可供私营或公共部门使用,以更好地支持基础模型数据生命周期的交互式管理。

1. 必要的数据管理

       当前基础模型开发的实践通常在从数据管理和数据文档到模型监测和修补的整个生命周期中是临时的。数据管理社区的研究表明,定义良好的数据管理平台通过数据摄取、数据版本控制、数据来源、有效分析和模型监控促进了大规模的ML模型开发.从数据管理社区中汲取灵感,我们在为基础模型构建整体数据管理平台时考虑了核心需求。

(1)  可扩展性。基础模型正在越来越大量的数据上进行训练Wudao 2.0模型正在4.9TB的多模态数据上进行训练。随着大多数最新模型主要在面向公众的数据集上进行训练,预计这一规模将增加。与每天收集并用于工业基础模型管道的PB级业务和个人数据相比,公共数据只占数据的极小部分。因此,对于可以处理多模态基础模型数据集的高度可扩展技术的需求日益增长。

(2)  数据整合。最近使用基础模型的工作表明,利用集成的结构化和非结构化数据可以帮助模型更好地泛化到罕见的概念,并提高事实知识的回忆。尽管最近取得了这些成功,但为基础模型集成数据集仍然是一个挑战。许多作品使用具有结构化实体知识或图像数据的非结构化文本数据。越来越需要跨文本、视频、眼动跟踪和机器人模拟等多种模式集成数据集。我们需要能够在工业规模上应用于多种模式和多个领域(如政府、商业和科学)的数据集成解决方案。

(3)  隐私和治理控制。用于基础模型的训练数据可能存在侵犯数据主体隐私的风险;他们的数据可能在未经其同意的情况下被披露、收集或使用,或者在最初同意的背景之外。同意和使用的问题与基础模型特别相关,因为下游应用并不总是可以预期的。正如合法性中所解释的那样,这些问题与用于基础模型训练的网络抓取数据集的流行情况更加复杂。由于关于如何管理和保护网络抓取的数据仍然存在公开的法律的问题,公共和私营部门的基础模型提供商仍然不清楚使用网络数据的后果。我们需要工具来帮助基础模型提供商适应新兴的法规和指导方针,以确保安全和负责任的数据管理。

(4)  了解数据质量。数据质量影响模型性能;然而,系统地、可扩展地理解训练数据和相关数据子集的工具包或方法仍处于起步阶段。数据创建过程可能很混乱,数据可能包含不同类型的偏差,并由有毒、虚假或重复的信息组成。数据也会不断更新和细化,可能会出现新的实体、分布变化和概念含义变化。此外,一旦部署,基础模型可能会在基础模型提供商需要检测和缓解的关键细粒度数据子群体上呈现不良行为。我们需要能够检测并潜在地缓解不同类型的不良数据的工具包,以交互和迭代的方式提高模型性能。这种工具包还需要适应训练数据的动态性质。

2. 数据中心解决方案

       在数据管理、数据科学和数据分析方面,我们设想了一个基础模型生命周期数据管理解决方案,我们称之为数据中心。虽然存在以ML为重点的数据中心以及更传统的数据管理系统的示例,但它们有下述特点:

1)不将数据集成视为第一类原语,

2)不原生地支持具有模型预测的端到端生命周期,

3)不允许交互驱动的数据管理和细化,其中基础模型提供者可以根据访问控制指南动态地探索和更新可能的数据集。

      我们现在讨论数据中心如何解决这四个迫切需要。

数据规模

为了应对大规模管理的挑战,数据中心将需要标准的数据管理解决方案,例如随着时间的推移存储和维护大规模数据集的基础设施,以及查询、选择和过滤数据集的可扩展接口。中心应该支持异构计算以及云基础设施,以支持不同环境中的可扩展解决方案。

数据整合

中心应该将数据集成作为一等公民。它将需要先进的数据集成解决方案,以允许跨模态和领域合并结构化和非结构化知识。此外,这意味着集线器将需要支持对异构数据集和源的存储和查询。

访问控制

考虑到中心的访问控制,中心将需要支持各种文件,例如,数据集表或数据声明,允许数据管理者反思他们的流程,并对预期用例、潜在偏差和数据集的局限性保持透明。数据中心将需要决定要上传的数据需要哪些文档(例如,数据源和数据描述)以及推荐哪些信息(例如,数据可以用于什么任务)。此外,随着数据集的发展,可能需要更新文档。数据源通常与许可证相关联,中心将需要整合具有不同法律的问题和条件的不同来源此外,某些数据集具有保护数据主体隐私的法律的指南。该中心将需要方法来确保数据集不会释放个人身份信息(PII),匿名或去身份化数据的聚合不会释放PII并且数据主体已经对其数据的传播给予了知情同意。从数据集成中提取想法,该中心应支持各种机制,以便能够有效和安全地维护和分享数据资源。特别是某些公共数据集的合法性(例如,Web转储)仍在决定中,中心迫切需要工具来帮助识别许可违规并减轻任何治理违规的影响。由于某些违规行为可能与模型行为有关,因此我们需要系统来支持更好地理解模型行为,正如我们接下来描述的那样。

数据质量工具

       借鉴数据分析和探索领域,随着用户交互式地选择、过滤和细化用于训练或适应的数据,中心将需要工具来快速理解用户的当前数据集及其对模型行为的影响。这些系统可以通过结合最近在切片上的工作的模型性能,允许端到端的基础模型监控(亚群)发现、相关子集的模型验证和数据评价。最近的工作还提出了使用模型来检测哪些数据亚群对给定输出贡献最大的方法,以进一步帮助模型调试

       一旦用户可以监控模型的行为,特别是在罕见的,但关键的子人群,中心应该为用户提供方法和指导,以维护模型,纠正模型错误。虽然模型修补仍然是一个悬而未决的问题,但的工作首次描述了使用数据工程来维护生产自监督系统,该系统通过更改数据而不是模型来纠正不良行为。我们认为数据中心需要支持用户接口,以便为模型维护注入有针对性的数据修改。

       我们还承认,数据管理和探索不是孤立进行的,并认为数据中心应该支持围绕共享有用指标和分析管道的社区。受Hugging FaceModelHubTableau Public的可视化共享平台等类似社区共享平台的启发,我们希望用户分享有关基础模型训练数据的见解。

开放性问题

       虽然我们描述的数据中心是受现有工具包和解决方案的启发,但我们不认为它们都准备好应对基础模型的挑战。特别是,围绕设计数据中心的一些悬而未决的问题是:我们应该如何支持数据版本化,以便在维护旧版本的同时更新数据集以实现再现性?一旦部署了模型并确定了错误桶,可能需要更新数据集以包含这些错误桶中的更多示例。应该如何收集这些新的、有针对性的例子?·训练中所述,我们想象更少的模型将从头开始训练,更多的模型将被微调。我们如何支持来源或谱系信息以了解原始数据的来源,同时保持受试者隐私?在公共部门,数据中心可能由一个由数据管理者和基础模型提供者组成的开源社区组织和运行。在这种情况下,谁存储数据等问题的答案?谁来为电脑买单如果违反许可证,谁负责?特别模糊。数据中心如何提供正确的工具,以便一旦这些问题的答案得到解决,它们就可以轻松地操作?·什么是正确的数据统计,以提供适当的文件,而不是太昂贵或难以获得?·数据中心如何支持有针对性的数据修改,如增强或数据编程·监控工具包如何更好地检测基础模型何时需要更新,因为动态变化的评估数据性能不佳?我们对数据中心的愿景并不完整或完全详细。然而,我们提出了关于数据挑战的初步想法,以及一个解决方案,以促进思考如何改进基础模型生命周期的数据管理。

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/xw555666/article/details/134741566

智能推荐

while循环&CPU占用率高问题深入分析与解决方案_main函数使用while(1)循环cpu占用99-程序员宅基地

文章浏览阅读3.8k次,点赞9次,收藏28次。直接上一个工作中碰到的问题,另外一个系统开启多线程调用我这边的接口,然后我这边会开启多线程批量查询第三方接口并且返回给调用方。使用的是两三年前别人遗留下来的方法,放到线上后发现确实是可以正常取到结果,但是一旦调用,CPU占用就直接100%(部署环境是win server服务器)。因此查看了下相关的老代码并使用JProfiler查看发现是在某个while循环的时候有问题。具体项目代码就不贴了,类似于下面这段代码。​​​​​​while(flag) {//your code;}这里的flag._main函数使用while(1)循环cpu占用99

【无标题】jetbrains idea shift f6不生效_idea shift +f6快捷键不生效-程序员宅基地

文章浏览阅读347次。idea shift f6 快捷键无效_idea shift +f6快捷键不生效

node.js学习笔记之Node中的核心模块_node模块中有很多核心模块,以下不属于核心模块,使用时需下载的是-程序员宅基地

文章浏览阅读135次。Ecmacript 中没有DOM 和 BOM核心模块Node为JavaScript提供了很多服务器级别,这些API绝大多数都被包装到了一个具名和核心模块中了,例如文件操作的 fs 核心模块 ,http服务构建的http 模块 path 路径操作模块 os 操作系统信息模块// 用来获取机器信息的var os = require('os')// 用来操作路径的var path = require('path')// 获取当前机器的 CPU 信息console.log(os.cpus._node模块中有很多核心模块,以下不属于核心模块,使用时需下载的是

数学建模【SPSS 下载-安装、方差分析与回归分析的SPSS实现(软件概述、方差分析、回归分析)】_化工数学模型数据回归软件-程序员宅基地

文章浏览阅读10w+次,点赞435次,收藏3.4k次。SPSS 22 下载安装过程7.6 方差分析与回归分析的SPSS实现7.6.1 SPSS软件概述1 SPSS版本与安装2 SPSS界面3 SPSS特点4 SPSS数据7.6.2 SPSS与方差分析1 单因素方差分析2 双因素方差分析7.6.3 SPSS与回归分析SPSS回归分析过程牙膏价格问题的回归分析_化工数学模型数据回归软件

利用hutool实现邮件发送功能_hutool发送邮件-程序员宅基地

文章浏览阅读7.5k次。如何利用hutool工具包实现邮件发送功能呢?1、首先引入hutool依赖<dependency> <groupId>cn.hutool</groupId> <artifactId>hutool-all</artifactId> <version>5.7.19</version></dependency>2、编写邮件发送工具类package com.pc.c..._hutool发送邮件

docker安装elasticsearch,elasticsearch-head,kibana,ik分词器_docker安装kibana连接elasticsearch并且elasticsearch有密码-程序员宅基地

文章浏览阅读867次,点赞2次,收藏2次。docker安装elasticsearch,elasticsearch-head,kibana,ik分词器安装方式基本有两种,一种是pull的方式,一种是Dockerfile的方式,由于pull的方式pull下来后还需配置许多东西且不便于复用,个人比较喜欢使用Dockerfile的方式所有docker支持的镜像基本都在https://hub.docker.com/docker的官网上能找到合..._docker安装kibana连接elasticsearch并且elasticsearch有密码

随便推点

Python 攻克移动开发失败!_beeware-程序员宅基地

文章浏览阅读1.3w次,点赞57次,收藏92次。整理 | 郑丽媛出品 | CSDN(ID:CSDNnews)近年来,随着机器学习的兴起,有一门编程语言逐渐变得火热——Python。得益于其针对机器学习提供了大量开源框架和第三方模块,内置..._beeware

Swift4.0_Timer 的基本使用_swift timer 暂停-程序员宅基地

文章浏览阅读7.9k次。//// ViewController.swift// Day_10_Timer//// Created by dongqiangfei on 2018/10/15.// Copyright 2018年 飞飞. All rights reserved.//import UIKitclass ViewController: UIViewController { ..._swift timer 暂停

元素三大等待-程序员宅基地

文章浏览阅读986次,点赞2次,收藏2次。1.硬性等待让当前线程暂停执行,应用场景:代码执行速度太快了,但是UI元素没有立马加载出来,造成两者不同步,这时候就可以让代码等待一下,再去执行找元素的动作线程休眠,强制等待 Thread.sleep(long mills)package com.example.demo;import org.junit.jupiter.api.Test;import org.openqa.selenium.By;import org.openqa.selenium.firefox.Firefox.._元素三大等待

Java软件工程师职位分析_java岗位分析-程序员宅基地

文章浏览阅读3k次,点赞4次,收藏14次。Java软件工程师职位分析_java岗位分析

Java:Unreachable code的解决方法_java unreachable code-程序员宅基地

文章浏览阅读2k次。Java:Unreachable code的解决方法_java unreachable code

标签data-*自定义属性值和根据data属性值查找对应标签_如何根据data-*属性获取对应的标签对象-程序员宅基地

文章浏览阅读1w次。1、html中设置标签data-*的值 标题 11111 222222、点击获取当前标签的data-url的值$('dd').on('click', function() { var urlVal = $(this).data('ur_如何根据data-*属性获取对应的标签对象

推荐文章

热门文章

相关标签