7月27日下午,2025世界人工智能大会“语料筑基 智生时代”语料创新发展论坛在上海世博中心隆重举行。论坛由世界人工智能大会组委会指导,上海库帕思科技有限公司与上海市人工智能行业协会联合主办。上海市委常委、副市长陈杰出席并致辞,中国科学院院士鄂维南等顶尖专家及行业领袖发表主旨演讲,共同探讨AI时代下高质量语料数据的核心价值与建设路径。
陈杰副市长在致辞中强调,上海牢记国家嘱托,以先行者姿态全力构建语料基座的“上海方案”。他指出,上海高度重视语料产业生态建设,为此专门组建库帕思公司,通过市场化运营赋能行业,重点突破具身智能、强推理数据集和稀缺数据集三大专项工程。目标是建立共建共享共收益机制,构建多层次语料供给体系,强化标准建设,升级运营平台,并攻关数据合成、思维链等新技术,加速模型迭代与有效供给。
论坛聚焦“AI Ready”高质量语料,重磅发布平台筑基、标准引领、人才培育、生态协同四大类成果,为行业发展树立标杆。
中国科学院院士、上海算法创新研究院学术委员会主任鄂维南提出“数据产线”是AI最重要基础设施,如同“炼油厂”将原始“原油”(数据)提炼成精品。他宣布将与库帕思合作,在全国批量建设高质量专业数据产线(AI数据库)。
库帕思董事长山栋明指出AI模型正向小参数生产力、强推理、科学智能、具身智能转变,语料体系需同步重构。库帕思致力于方法体系、技术设施、行业生态三大重构,聚焦“建基座、强技术、搭平台、育生态”。
上海AI实验室青年科学家何聪辉介绍,智能引擎“MinerU2”,其性能提升6倍、准确性提升22%,能高效处理异构数据至AI-Ready状态,破解模型同质化困局,推动竞争从规模转向数据质量。
商汤科技代继、联通数智宋雨伦、游族网络傅焜等企业代表分享了语料工程、高质量数据集构建及游戏多模态实时语料价值挖掘的实战经验。圆桌论坛以《什么是好数据?》为题,深入探讨好数据的定义、来源与获取机制。
本次论坛既是库帕思成立一年多来“百日攻坚”成果的集中展示,也标志着中国语料生态建设迈入以“AI Ready”重新定义好数据的新阶段,为从信息化迈向智能化提供关键支撑。
(中国日报上海分社 林淑娟)