您现在的位置是：首页 > 人工智能 >

智源人工智能研究院副院长林咏华：大模型面临两项资源瓶颈

2024-05-31 17:20:40作者：于帆来源：

摘要在日前召开的“新质生产力·AI Partner大会”上，北京智源人工智能研究院副院长兼总工程师林咏华表示，在算法、数据和算力三大AI大模型重要资源中，数据和算力面临资源瓶颈。...

在日前召开的“新质生产力·AI Partner大会”上，北京智源人工智能研究院副院长兼总工程师林咏华表示，在算法、数据和算力三大AI大模型重要资源中，数据和算力面临资源瓶颈。

北京智源人工智能研究院副院长兼总工程师林咏华

数据资源的三大问题
算法、数据、算力，是大模型背后最重要的三大资源。在AI发展过程中，各种开源算法不断迭代，目前，数据、算力已成为大模型落地应用的资源瓶颈。
林咏华将当前的数据问题分为三部分，数量、质量、使用。
第一，数据数量问题。全球范围内所有的大模型训练都离不开同一个数据集Common Crawl。该数据集爬取了超过200亿的网页。但今天看来，这些数据远远不够。大模型赛道逐渐进入多模态学习、文生视频等新阶段，需要更高质量的图文数据、更高质量的视频数据。同时，跨模态应用需要图文对（图像和文本相对应）、视频文字对数据集，但目前全球95%以上的多模态数据集都是英文内容，中文内容仍是稀缺状态。
林咏华表示，通用模型打造行业应用，必须用大量行业专业知识对大模型进行训练。行业知识数据不等于企业数据、业务数据，而是这个行业领域的书籍、文献等数据。针对行业的知识数据，目前仍是分散匮乏状态。
第二，数据质量问题。随着Chat GPT-4o的发布，有文章指出，GPT-4o的分词器训练所用的中文数据充斥着大量中文垃圾网站内容，质量堪忧。例如该分词器模型中最长的100个中文词语中有超过90个来自垃圾网站。
林咏华表示，除数据集的内容质量问题外，还有其他数据质量问题。例如，如果数据来源是一些扫描图片，OCR（光学字符识别）进行文字、公式和图表转换，存在识别质量的问题；当前用于跨模态学习的图文对、视频文字对存在对图像、视频的文字描述质量低下问题；用于训练的数据质量低，将会浪费算力，并影响模型生成内容的安全。因此质量是数据非常重要的部分。
第三，数据使用问题。训练数据用来让机器学习，而不是做二次分发。在现有法律体系下，对机器学习数据的模式并未进行定义，因此需要高质量数据进行训练的大模型面临数据版权问题。如何平衡数据版权和高质量数据的模型训练？

打造三种数据共享方式
林咏华表示，智源研究院一直在积极探索让整个产业有更多高质量数据可用的道路，已与全国数十家头部互联网企业、大模型企业、数据提供企业，以及中央、北京市各方机构共同努力打造了三种数据的共享使用方式。
第一，完全开源下载。智源研究院对没有版权或者弱版权的大量数据进行了安全过滤、质量过滤，整理到开源网站上，目前有2.4TB数据。
第二，鼓励企业贡献数据，建立不公开的数据联盟实现数据共享。智源研究院打造积分共享制度，对企业贡献的数据进行质量评定，再通过质量系数乘数据量，得到积分。贡献数据的企业可以凭借积分在高质量数据池获取其他企业贡献的数据，打造共建、共享的数据互补模式。
第三，针对有版权诉求的高价值数据，打造“数算一体”的使用方式。有版权的高质量数据的训练、管理和算力平台在同一个安全域，严格保障数据可控安全。大模型企业在平台使用数据，对数据进行二次加工，进行模型训练，训练完只能带走模型，不能带走数据，减少数据提供方对数据安全的担忧。
林咏华表示，没有高质量数据，就无法做出更好的大模型。

AI芯片需要开源编程语言
近日来，大模型降价甚至免费的消息刷屏全网。林咏华表示，这背后是算力成本的压力，一方面是模型部署成本，另一方面是模型训练成本。
当前面临的算力难题，是算力增长赶不上大模型对算力的需要。从去年到今年，英伟达，AMD、英特尔的单芯片算力增长基本达到2倍。但即使是2倍单芯片算力增长，仍赶不上模型参数量、训练数据量需要的算力增长。而国内的先进算力储备不足，与国际相比，单芯片算力仍有差距。此外，国内各种AI芯片生态是割裂的。
林咏华表示，各家芯片厂商的指令架构、编译器、算力等都不一样，导致上层算法的迁移成本过高。一旦算法开发团队遇到目标芯片短缺问题，可能会耽误整个开发周期。
目前面临的AI芯片生态割裂问题，或许可以参考CPU的生态构建方法。CPU存在多种通用架构和指令集，GCC作为开源统一编译器，向下连接数十种芯片，上层的语言开发者不需要考虑底层是什么芯片，只需要开发同一套C/C++语言的算法或代码。AI芯片领域也需要开源语言和编译器。
当前，有面向AI开发的开源编程语言Triton，包括它的开源编译器。Triton已被英伟达、英特尔、AMD以及国内多家芯片厂商支持。过去各家厂商需要打造自己的编译器、算子库，追赶不同算法要求，现在变成另一种生态模式，开源社区打造统一的编辑器、算子库，芯片厂商只需要移植编译器。智源研究院联同多个团队、芯片厂商正在打造基于Triton的通用算子库，建立开源开放的软件生态，帮助多元AI芯片接入各种框架。

(本文不涉密)
责任编辑：

上一篇：探索生成式AI产品新纪元，2024 全球产品经理大会重磅来袭！

下一篇：大模型“自由落体”式降价的背后