1312阅读
1回复

[智能应用]AI数据之战：大模型的“燃料”还能烧多久？[4P] [复制链接]

上一主题下一主题查看指定楼层

在线huozm32831

UID: 329002

精华: 1097
职务: 超级斑竹
级别: 玉清道君

发帖: 117190

金币: 8518

道行: 19524

原创: 29557

奖券: 18284

斑龄: 203

道券: 10562

获奖: 0

座驾

设备: EOS—7D

摄影级: 专家级认证

在线时间: 25235(小时)
注册时间: 2007-11-29
最后登录: 2026-01-02

只看楼主倒序阅读使用道具楼主发表于: 2024-07-09

真实数据即将耗完，合成数据训练成替代品？
作者／ IT时报记者贾天荣
编辑／王昕
AI时代，高质量、规模庞大且安全可靠的语料库已成为构建强大AI模型的基石。
近日有外媒报道，OpenAI使用所有公开可用的数据来训练ChatGPT，包括来自互联网的书籍和文章。事实上，在大模型发展如火如荼的当下，任何大模型公司对于高质量语料的需求都不会停止。谷歌、Meta、OpenAI、Anthropic和微软等领先的科技公司都在争相寻找新的数据来源。Meta甚至一度考虑收购世界上最大的出版社之一西蒙与舒斯特公司。
但作为人工智能大模型的“燃料”，高质量语料正在面临“枯竭”。
加州大学伯克利分校计算机科学教授斯图尔特・罗素就曾发出警告，ChatGPT等人工智能驱动的机器人可能很快就会“耗尽宇宙中的文本”。随着越来越多出版商指责大模型公司窃取受版权保护的数据，一场知识产权的纷争也即将打响，获取数据正变得越来越难。
在2024年世界人工智能大会（WAIC2024）上，如何有效供给高质语料数据，以支持大规模AI模型的产业应用，成为业界内外专家热烈讨论的核心议题之一。面对数据稀缺与模型旺盛需求之间的矛盾，学界与业界正在探索可持续的解决方案，以确保AI健康发展的同时，兼顾创新与知识产权的平衡。
“做大模型应该像造火箭”
“如果我们所有数据都放在一个表格里，那么做数据分析的门槛和成本都会比较低。”在中国科学院院士鄂维南看来，如何将大量的非结构化数据转化为结构化形式，以降低数据分析门槛与成本，成为亟待解决的问题。

非结构化数据，是如文本、图片、语音及视频等数据，因其复杂性和多样性，给大模型的数据分析带来巨大挑战。
鄂维南以全球第一个AI数据库——MyScale数据库为例，该数据库刚刚获得了2024WAIC的硬核大奖SAIL奖，能在同一系统中支持海量结构化、向量、文本、时序、图片等各类异构数据的高效存储和联合查询。他认为，这是目前国际上综合性能最好、功能最强的AI数据库。
鄂维南强调，AI的发展需以“大模型+大数据库”双轮驱动。这意味着所有数据资源应集中于一个数据库内，通过大模型的处理，实现数据价值的最大化。同时，利用专用知识库和高质量数据，低成本地批量生产智能体或小型模型。这一策略不仅适用于特定行业，还能服务于整个科研行业，涵盖化学、材料、生物等多个领域。
针对当前数据处理工具的缺失，院士团队正致力于打造一系列工具，以弥补在数据清洗、整理及训练大模型方面的空白。此外，鄂维南院士还提出了一种创新的“忆立方模型”，旨在通过知识分层处理，减少模型规模，降低训练成本。该模型已在上海临港新片区的试点项目中得到验证，其将模型规模降低10倍，在降低模型规模与成本方面具有潜力。
“我们在数据库方面是有优势的，在高性能计算方面还有很大空间没有挖掘，就像当年造火箭一样，每一样都搞不过别人，但是我们希望整个系统不比别人差。”鄂维南院士呼吁，中国应从底层逻辑出发，深入探索AI的基本原理，并从系统角度布局AI发展，涵盖算力、数据、模型与高性能计算等多个方面。他强调，单纯堆砌大模型并非长久之计，需从整体系统优化入手。
华为上海代表处战略官房思哲也表示，华为在训练其盘古大模型时，也面临着和所有大模型玩家一样的问题：“数据的规模要大，质量要高，种类也要多元化，同时需要这些数据能够以一定的配比形成体系化。”房思哲特别提到了专业知识类和行业知识类数据的获取难度，尤其是在外文数据方面。
事实上，各方对于数据获取的探索从未停止。7月6日，“语料筑基智生时代”2024WAIC语料主题论坛上，上海市级语料公司库帕思携手大模型语料生态伙伴，集中发布了一批大模型语料成果，包括语料运营平台1.0上线、首批十大高质量语料产品发布等。其中，“语料运营平台1.0”实现了面向语料数据“采、洗、标、测、用”五位一体的工具链能力。
为进一步激发市场主体语料创新活力，增强供给侧能级，加速医疗健康、城市交通、消费零售、金融、影音等重点行业的大模型产业发展，库帕思携手咪咕视频、宝信软件、复旦大学智能医学研究院、上海工创中心、汇纳科技、万达信息、DGC数传集团、文远知行、文因互联、上海电科智能、海天瑞生集中发布了十大语料数据产品。此外，本次论坛中还发布了金融、生命健康、教育三项行业语料术白皮书。

数据标注用“魔法”提纯“魔法”
高质量数据的获取，离不开大量的标注工作，一段时间内，数据标注员的需求也随着AI技术的发展而大幅增加。
“AI已经进入了2.0时代。”北京星尘纪元智能科技有限公司总裁章磊回顾了2019年与国家融媒体实验室的合作，当时双方致力于语料的深度清洗、详尽标注与规则制定，三年时间里，这项工作消耗了大量的人力资源，每一句话、每一个实体、每一条问答规则都经过了细致入微的标注。

然而大模型出现之后，这一切开始发生变化。大模型的出现，意味着AI系统本身已具备了相当程度的智能，能够处理复杂的自然语言处理（NLP）任务，无需人工再深入到每一个细节之中：“对我们来说，这看似让工作变得简单，但也带来了全新的挑战。”
大模型的训练和优化，对数据的维度和认知深度提出了更高要求。与此同时，尽管需要人工介入的人员更精简，但对人员的要求却发生了质的飞跃。现在需要的是更高层次的人才，通常具备硕士研究生以上的学术背景，才能承担起大模型语料的深入体系设计工作。
在标贝（青岛）科技有限公司联合创始人兼首席技术官李秀林看来，大模型的出现不仅改变了数据需求的本质，还催生了新的供需动态和合作模式，同时也重新定义了模型在数据生产过程中的角色。
首先，从需求侧来看，大模型对数据规模和类型提出了全新要求。传统的数据需求主要集中在特定场景的精细标注，而现在，无监督学习所需的海量语料成为关键。这不仅增加了数据筛选和清洗的复杂度，还要求更深层次的数据加工技术，以确保数据质量满足大模型训练的高标准。
其次，各行业领域的专业语料在大模型的应用中扮演着至关重要的角色。处理这些领域的语料需要深厚的行业知识和专业技能，远非简单的数据标注所能比拟。这要求数据处理团队不仅要具备技术实力，还要深入了解特定领域的专业知识，才能有效挖掘和利用领域语料的价值。
随着大模型的普及，数据的供应方也在悄然变化。传统的数据公司不再是唯一的来源，许多拥有行业数据的团队或组织开始直接参与到数据供给中来。然而，如何将这些语料有效整合进大模型，成为一道亟待解决的难题。
大模型在数据生产过程中的作用发生了根本性变化。它不再仅仅是被动的数据消费者，而是成为数据生产的参与者和优化者。
由此，自动化标注的发展与应用也成为AI领域的一大热点，其目的是减少人工参与、提高数据处理效率和降低成本。章磊表示，在自动化标注的初期，预标注阶段是主流。借助已有模型的预测能力，数据被初步标记，随后交由人工审核修正，以确保标注的准确性。
然而，随着技术的演进，自动化标注不再局限于简单的模型预测。星尘纪元等企业投入大量资源，自主研发了50余种适用于各类场景的自动化标注工具和算法，实现了任务细分与专项处理，显著提升了标注效率与质量。另一方面，通过分析视频序列中的时序关系，前后帧数据互相监督，实现自我校正，显著提高了动态场景下的标注精度。
章磊表示，理想状态下，自动化标注有望覆盖90%以上的数据处理需求，甚至逼近99%的自动化水平。但在面对复杂或异常数据时，实际的提效比例只有30～50%，章磊认为，AI大模型和多模态技术的驱动下，自动化标注的准确性和覆盖率将持续提升，自动化与人工相结合的模式将成为常态。
李秀林指出，数据标注实际上是一个非常好的人机协同场景，两者相辅相成的过程。随着技术的发展，越来越多的标注工作从完全依赖人工转变为机器辅助或主导，人工的角色更多地转向了质量控制和复杂问题的解决。
在业务实践中，标贝科技经常面临新的、更复杂的标注需求，这些需求往往超出了现有模型的能力范围。面对这种情况，公司在初始阶段可能需要纯人工介入，随后工程师根据任务需求开发和迭代模型，逐步提高自动化标注的比例。这一过程体现了从“纯人工”到“人工为主导”，再到“机器为主导”，最终可能达到人工仅负责质检，甚至完全无需人工干预的演变。
合成数据完全取代真实数据？
科技巨头们已经在多个场景探索合成数据的应用，如英伟达的元宇宙平台Omniverse拥有合成数据能力omniverse replicator；亚马逊使用合成数据来训练、调试其虚拟助手Alexa，以避免用户隐私问题；微软的Azure云服务推出了airSIM平台，创建高保真的3D虚拟环境来训练、测试AI驱动的自主飞行器……
目前，GPT宣称已经用完了人类互联网的数据，英伟达的Nemotron-4也宣称用了98%的合成数据，而人工标注数据仅有2%。未来，合成数据是否会完全取代真实数据？
多位专家都认为，合成数据和真实数据各有优势和局限性，它们在AI模型训练中的角色和重要性将根据具体的应用场景和需求而变化。在未来，合成数据和真实数据很可能会并存，形成互补，共同推动AI技术的发展。
“合成数据对于大模型训练的重要性是毋庸置疑的。”房思哲透露，华为已经在大模型训练和自动驾驶等领域中使用了合成数据，在对真实世界细节要求不高的情况下，合成数据可以有效补充或替代真实数据，“但在一些对真实性要求更高的场景下，我们觉得合成数据可能使用起来是要谨慎的。”
房思哲表示，行业数据往往需要在真实世界中生成，这涉及人类活动、经验和观察，而这些是合成数据难以完全捕捉的，因此，即使基础大模型可以从合成数据中获益，行业大模型仍然需要大量高质量的真实数据来训练，以确保其在特定应用场景下的准确性和可靠性。
中云开源数据技术（上海）有限公司创始人、CEO陈刚则认为，就工业领域而言，合成数据不会成为主流。他的理由主要基于两个方面，首先，工业数据并非缺乏，而是受限于版权、产权等因素，导致现有数据未能得到充分利用；其次，合成数据在特定场景下（如核电站故障预测）具有应用价值，但在大多数情况下，特别是对于大模型而言，合成数据的迭代可能导致信息失真，使其在工业应用中难以达到实际效果。

山庄提示：道行不够，道券不够？---☆点此充值☆

分享到 淘江湖新浪 QQ微博 QQ空间开心人人豆瓣网易微博百度鲜果白社会飞信

在线jjybzxw

UID: 551814

精华: 0
职务: 超级斑竹
级别: 得道成仙

发帖: 215887

金币: 642873

道行: 2006

原创: 2442

奖券: 3260

斑龄: 41

道券: 1197

获奖: 0

座驾

设备

摄影级

在线时间: 47033(小时)
注册时间: 2008-10-01
最后登录: 2026-01-03

只看该作者沙发发表于: 2024-07-09

申请VIP---在山庄畅通无阻还送FTP单独下载账号!

　　在AI时代，高质量、规模庞大且安全可靠的语料库已成为构建强大AI模型的基石。然而，随着大模型的发展，高质量语料正面临“枯竭”的问题。加州大学伯克利分校计算机科学教授斯图尔特·罗素警告称，ChatGPT等人工智能驱动的机器人可能很快就会“耗尽宇宙中的文本”。在这场知识产权的纷争中，获取数据变得越来越难。

　　为了解决这一问题，学界和业界正在探索可持续的解决方案，以确保AI健康发展的同时，兼顾创新与知识产权的平衡。在中国，例如，中国科学院院士鄂维南提出了“大模型+大数据库”双轮驱动的策略，主张所有数据资源应集中于一个数据库内，通过大模型的处理，实现数据价值的最大化。此外，他还提出了一种创新的“忆立方模型”，旨在通过知识分层处理，减少模型规模，降低训练成本。

　　另一方面，合成数据也成为了AI模型训练的一个重要补充。科技巨头如英伟达、亚马逊和微软都在探索合成数据的应用，以避免真实数据中可能涉及的隐私问题。然而，合成数据是否能完全取代真实数据，目前还存在争议。多位专家认为，合成数据和真实数据各有优势和局限性，它们在AI模型训练中的角色和重要性将根据具体的应用场景和需求而变化。未来，合成数据和真实数据很可能会并存，形成互补，共同推动AI技术的发展。

　　在中国，企业和研究机构也在积极利用合成数据进行AI模型的训练。例如，华为在其盘古大模型中使用了合成数据，而在一些对真实性要求更高的场景下，如自动驾驶，合成数据的使用则需要更加谨慎。中云开源数据技术（上海）有限公司创始人陈刚认为，在工业领域，合成数据不会成为主流，因为工业数据往往需要在真实世界中生成，涉及人类活动、经验和观察，而这些是合成数据难以完全捕捉的。

　　总的来说，无论是合成数据还是真实数据，它们都在AI模型训练中发挥着重要作用。随着AI技术的发展，数据的需求和处理方式也在不断变化，未来，合成数据和真实数据很可能会并存，共同推动AI技术的发展。

如何不发帖就快速得到金币和道行

发帖回复

返回列表


	关闭您还没有登录，快捷通道只有在登录后才能使用。立即登录还没有帐号？赶紧注册一个


	关闭选中1篇全选

帖子

[智能应用]AI数据之战：大模型的“燃料”还能烧多久？[4P] [复制链接]