两会建言|全国政协委员周源：中文语料数据短板未来几年需要足够重视

最新信息

2024-03-04 12:16:00

3月4日，2024年全国两会正式召开。全国政协委员、知乎创始人兼CEO周源提交了多份提案，涉及高质量技能人才供给、推动大模型产业高质量发展、打击新型盗版侵权力度、提升全民科学素质、促进民营经济高质量发展等相关主题。
　　周源在接受《中国经营报》记者采访时，谈及于去年首次以全国政协委员身份参与全国两会时的不同感受，他表示：“去年是站在知乎平台的视角，看到的问题与知识数据流动、打破流动壁垒比较相关，形成了提案，但两会结束后，这份提案背后的工作并没有结束，在过去的一年里，我发现问题没有那么简单，（各个问题和提案）有很多相关性，当提到数据红利的时候，也会涉及知识产权保护的问题，涉及新技术所带来的行业改变的问题。行业与产业都有一定的相关性，因此今年的准备更为充足，这是一个不断深入思考的过程。”
　　在采访中，就国内当前人工智能（AI）大模型产业发展中遇到的高质量中文语料数据短缺现状及问题，周源给出了自己的洞察和观点，并且提出了相应的解决思路和建议措施。
　　语料资源短缺掣肘大模型发展
　　周源指出，尽管我国在模型领域紧跟国际前沿步伐，取得了一定的成就，但仍面临着一些挑战，其中最显著的问题之一是高质量中文语料资源的短缺。
　　记者了解到，截至2023年年底，我国从事研发10亿参数规模以上的大模型厂商以及高校院所超过200家，目前已有20多个大模型产品获批向公众开放提供服务。国内存量数据资源丰富，但因数据挖掘不足、无法自由在市场上流通等，目前中文优质数据仍然稀缺，如ChatGPT训练数据中中文资料比重不足千分之一，而英文资料占比超过92.6%。受高质量中文语料资源短缺的掣肘，国内许多从事大模型开发的研究机构和企业在进行模型训练时，不得不依赖于外文标注数据集、开源数据集，或者爬取网络数据，这在一定程度上限制了我国人工智能技术的发展和创新应用的推动。
　　当被问及大模型产业繁荣发展是否对中文语料短缺的问题有所改善时，周源向记者表示：“这是一个先构建‘水库’，然后再去合理使用的问题。”他解释道，目前大模型最大的语料库来自于UGC（用户生成内容）生态，即来自每个人的知识、经验、见解的上传。“我觉得今天构建‘水库’的工作大家重视得不够，反而都比较看重怎么去打水的环节，比如模型训练怎么去进行数据和内容的爬取，其间可能还会出现知识产权、隐私安全等问题。当我们再去看大模型新技术迭代的时候，会发现其实中文文本的短缺更明显。”
　　“没有好的语料、好的算料，光有算力、模型，这个循环显然是不对的。”周源认为，“语料短缺在未来好几年里都将是一个特别明显和严重的问题，需要得到足够的重视。”
　　建议从三方面补齐中文数据集短板
　　补齐优质中文语料数据短板，对于推动我国大模型产业高质量发展起到重要的作用。周源建议从三个层面推进：一是建立数据合规的监管机制和评估办法。大模型训练高度依赖高质量数据，没有好的数据就不可能有好的模型。随着大模型技术的深度发展，建议相关政府部门和监管机构针对数据合规应建立相应的监管机制，推动完善AIGC的监管立法，保护和规范人工智能领域的数据合规。二是加强数据安全和知识产权的保护措施。建议监管部门和相关机构研究制定相应的管理办法或法律法规。一方面是推动大模型研发机构和企业制定严格的保护政策和行为规范，严厉打击侵权行为，确保数据持有方的知识产权和利益得到充分保护；另一方面是制定相应的鼓励和扶持政策，保障拥有丰富高质量数据储备及持续生产能力的企业和社会主体得到整个行业的重视，促进数据要素市场的形成和生产能力的持续发展。三是加快高质量中文数据集的开发与利用。
　　关于如何加快高质量中文数据集的开发与利用，周源在提案中提供了三项具体的建议措施：首先，要规范数据标注标准。建设标准化、规范化的数据标注方法，有助于加快数据要素的共享、流通与交易。其次，要加快探索数据要素交易模式。由政府引导或相关行业组织牵头构建有利于数据交易模式创新与合规的新秩序，有助于推动数据交易行业有序发展和健康成长。最后，要加大政府主导的公共数据资源开放共享。当前，我国已开始全面部署和推行公共数据开放制度，但公共数据开放仍然存在数据开放利用不充分、不协同、不平衡、不可持续等问题，加快构建标准统一、布局合理、管理协同、安全可靠的公共大数据资源体系，有助于大模型训练数据质量提升。
（文章来源：中国经营网）

免责申明： 本站部分内容转载自国内知名媒体，如有侵权请联系客服删除。