百川智能发布超千亿参数大模型Baichuan 3 医疗能力逼近GPT-4

最新信息

2024-01-29 22:26:00

1月29日，中国人工智能创业公司百川智能发布超千亿参数的大语言模型Baichuan 3。在多个权威通用能力评测如CMMLU、GAOKAO和AGI-Eval中，Baichuan 3都展现了出色的能力。而在CMMLU、GAOKAO、HumanEval和MBPP等多个中文评测榜单上，更是超越GPT-4展现了其在中文任务上的优势。
　　与百亿、几百亿级别参数模型训练不同，超千亿参数模型在训练过程中对高质量数据，训练稳定性、训练效率的要求都高出几个量级。为更好解决相关问题，百川智能在训练过程中针对性地提出了“动态数据选择”、“重要度保持”以及“异步CheckPoint存储”等多种创新技术手段及方案，有效提升了Baicuan 3的各项能力。
　　高质量数据方面，传统的数据筛选依靠人工定义，通过滤重筛选、质量打分、Textbook筛选等方法过滤数据。而百川智能认为，数据的优化和采样是一个动态过程，应该随着模型本身的训练过程优化，而非单纯依靠人工先验进行数据的采样和筛选。为全面提升数据质量，百川智能设计了一套基于因果采样的动态训练数据选择方案，该方案能够在模型训练过程中动态地选择训练数据，极大提升数据质量。
　　百川智能的医疗知识水平也有突破。Baichuan3的医疗数据集Token数超千亿，医疗能力逼近GPT-4。为了给Baichuan3注入丰富的医疗知识，百川智能在模型预训练阶段构建了超过千亿Token的医疗数据集，包括医学研究文献、真实的电子病历资料、医学领域的专业书籍和知识库资源、针对医疗问题的问答资料等。该数据集涵盖了从理论到实际操作，从基础理论到临床应用等各个方面的医学知识。
　　目前，百川智能没有透露模型参数量，只是公布Baichuan3是超千亿参数的大模型。相比之下，GPT-3.5是1750亿参数。
　　百川智能由王小川和茹立云联合创立，成立于2023年4月，以搜狗团队为基础。据报道，公司成立之初就已获得5000万美元启动资金。
　　百川智能的速度一直很快。百川智能成立不到100天，便发布了Baichuan-7B、Baichuan-13B两款开源可免费商用的中文大模型。从Baichuan 1.0到如今3.0，只用了9个月。
　　就在一个月前，2023年12月19日，百川智能宣布开放基于搜索增强的Baichuan2-Turbo系列API，包含Baichuan2-Turbo-192K及Baichuan2-Turbo，在支持192K上下文窗口的基础上，还增加了搜索增强知识库的能力。
　　相比于Baichuan2-192K，Baichuan3的允许输入文本长度有缩水。Baichuan2-192K上线时，允许用户输入文本最长达35万字，宣称可以一次读完一本《三体2》，是全球处理上下文窗口长度最长的大模型。目前Baichuan3允许输入不超过4096个字符的文本，相当于2000个汉字或者3000个英文单词。
　　在过去一年的大模型创业中，通过行业数据训练行业垂直大模型，被认为是大模型在B端落地的主要路径。但百川智能选了另一条方向，据甲子光年报道，百川智能将向量数据库升级为搜索增强知识库，提升了大模型获取外部知识的能力；把搜索增强知识库和超长上下文窗口结合，让模型可以连接全部企业知识库以及全网信息。
　　去年年底的媒体沟通会上，王小川透露，百川智能的C端产品第一重心是医疗方向，产品预计会在2024年上线。
（文章来源：蓝鲸财经）

免责申明： 本站部分内容转载自国内知名媒体，如有侵权请联系客服删除。