通义千问720亿参数模型宣布开源不少创业者测试下来效果是这样的

最新信息

2023-12-01 15:59:00

阿里云正在进一步打造开源的AI生态。
　　12月1日消息，阿里云通义千问720亿参数模型Qwen-72B宣布开源，该模型基于3T tokens高质量数据训练，在10个权威基准测评中夺得开源模型最优成绩，在部分测评中超越闭源的GPT-3.5和GPT-4。
　　从18亿、70亿、140亿到720亿参数规模，通义千问成为业界首个“全尺寸开源”的大模型。用户可在魔搭社区直接体验Qwen系列模型效果，也可通过阿里云灵积平台调用模型API，或基于阿里云百炼平台定制大模型应用。阿里云人工智能平台PAI针对通义千问全系列模型进行深度适配，推出了轻量级微调、全参数微调、分布式训练、离线推理验证、在线服务部署等服务。
　　精神孤独？这个学生团队用大模型开发了一款心理大模型
　　打工人上班被老板骂了，心里不爽；学生党写不出论文，影响毕业……遇到这些事情，怎么办？基于通用AI开发一个产品来排解。
　　MindChat这样一款心理咨询工具就诞生了，它像一个AI心理咨询师，能在温暖、安全、及时、方便的对话环境下，为用户提供心理评估等服务。
　　偶然一次和老师在饭桌上的对话，激发了00后颜鑫做一个心理服务项目的想法。“我的老师之前在德国发展，长居德国，三四年前为了照顾家里老人，回到了国内。我是一个人在外求学，留爷爷奶奶孤独在家，偶尔会打打电话。但这些都不够，家人还是缺少陪伴。”
　　2023年本科毕业的颜鑫，目前在华东理工大学·X-D Lab（心动实验室）专注于社会计算和心理情感领域的AI应用开发，基于开源的通义千问开源模型开发了心理健康大模型 MindChat（漫谈），同时还有医疗健康大模型 Sunsimiao（孙思邈）、教育/考试大模型 GradChat（锦鲤）等，并为下游客户开发基于行业大模型的产品。
　　“心理服务就是这样的场景，它在整个社会有很大的需求空间，而整体供给又很匮乏，优质可靠的心理咨询服务在很多地方都是奢侈品。我们想用大模型技术把这类服务变得普惠。”颜鑫说。
　　据了解，目前已有超过20万人次用过我们的大模型，我们累计提供了超过100万次的问答服务。大家问得最多的就是升学、考研、就业、职场之类的压力。
　　在做整个项目的过程中，颜鑫感触最深的是，大模型应用落地的驱动力，不应该是“为技术找场景”，而应该是“为场景找技术”。
　　颜鑫说，其实最初，整个团队从模型微调开始，一点点摸索。但做着做着发现，在解决一些需求点的时候还是需要回归到主业上。比如联邦学习，这是一种针对分布式系统的机器学习技术，可以采用各种隐私技术（如加密技术等），确保参与联邦学习的各方做出有用的计算，同时保证用户数据不被泄露。
　　“我们在做模型微调时，就关注信息隐私保护和数据加密，采用分布式架构存储与分析训练数据，很好地保护了用户信息。”颜鑫说，医疗、心理都是非常注重隐私的场景，很多客户都要求私有化部署，所以团队选择开源模型。我们一直在追踪开源领域大模型的发展，Qwen（通义千问）出现之前，团队试用了一些其他模型，比如ChatGLM、Baichuan、InternLM。
　　颜鑫表示，Qwen-7B和14B推出后，团队快速做了试验，用内部数据和自己的benchmark做了测评。“在我们的场景中，通义千问是所有的开源模型里发挥最好的，是目前的最优解。尤其在复杂的逻辑推理方面，通义千问表现出很强的能力。在同样的对焦实验下，当我们用同样的方法、把同样规模的数据应用到各个开源模型，Qwen的效果比其他模型好得多。所以，我们的三款垂直领域大模型主要以Qwen为基座。”
　　有创业团队借力大模型，助力企业快速开发企业级 AI 应用
　　上海交通大学硕士毕业的秦续业，在阿里巴巴工作了7年之后，2022年6月出来创业，创立了未来速度（英文叫 Xorbits）。这家公司打造了企业级的分布式推理框架Xinference，用于完成大模型推理任务。
　　公司创立伊始，大模型还没普及，AI对于算力的利用率还不是很高效，AI场景使用算力比较零碎和分散，一个AI工程师可能只用一台机器来处理算法模型。
　　“创业之初，我们的想法就是把AI算力聚集在一起使用，通过调度，更好地利用集群资源，来推动AI计算的规模化和降本。”秦续业说，但去年11月底 ChatGPT 推出以后，大模型爆发，新的模型不断涌现，基于基础模型的衍生版本、微调版本及特定优化（如扩展上下文窗口长度）等也不断出现。随后公司决定业务要以大模型为中心。
　　训练模型需要重资产投入，企业不一定都得从零开始训练大模型。“我们判断，把模型用起来是更重要的事情，于是把公司核心产品定位在让大家更好地使用大模型。我们的模型推理平台Xinference，就是为了把市面上最好的主流大模型在各种硬件上跑起来。”
　　Xinference平台中内置了分布式推理框架，可以用不那么高端的计算资源，把模型变成服务，从而解决共性问题；还提供更高的吞吐量、更低的延迟、容错、权限管理等企业特性；也对接了各种各样的生态，包括 Langchain，Dify 等中间件，它们是构建AI应用必不可少的组件。用户基于我们的Xinference平台，可以快速开发企业级 AI 应用。
　　“通义千问开源模型刚出来，我们第一时间就支持了。我们有个客户是做电商客服场景的，使用高质量的数据测试了几款开源模型的能力，他们觉得千问的表现最好。”秦续业说，我们平台现在已经支持用Mac显卡进行Qwen模型推理，这一点应该能击中很多人。很多开发者用的都是Mac电脑，如果能直接在本地拉起Qwen系列模型，可以极大提升开发效率。
　　在秦续业看来，大模型开源领域也很卷，长期看，开源大模型和闭源大模型会共存。闭源大模型更多面向 C 端场景，C端用户需要大模型具备大而全的能力，能够全方位地满足需求。
　　开源大模型在B端大有可为，企业级用户更在意的是能不能解决问题，而非要求模型能力面面面俱到。开源大模型安全、可控、更具性价比，而且可定制。
　　“开源生态对促进中国大模型的技术进步与应用落地至关重要，通义千问将持续投入开源。”阿里云CTO周靖人说，希望通义千问成为“AI时代最开放的大模型”，与伙伴们共同促进大模型生态建设。
　　据了解，8月以来，阿里云开源了Qwen-7B、Qwen-14B和视觉理解模型Qwen-VL，几款模型先后冲上HuggingFace、Github大模型榜单，得到中小企业和个人开发者的青睐，累计下载量超过150万，催生出150多款新模型、新应用。
（文章来源：周到）

免责申明： 本站部分内容转载自国内知名媒体，如有侵权请联系客服删除。

通义千问720亿参数模型宣布开源 不少创业者测试下来效果是这样的

最新信息

通义千问720亿参数模型宣布开源 不少创业者测试下来效果是这样的

通义千问720亿参数模型宣布开源不少创业者测试下来效果是这样的

通义千问720亿参数模型宣布开源不少创业者测试下来效果是这样的