语料数据(Corpus Data)指为语言分析 、模型训练等目的系统化收集的真实文本或语音材料的集合 ,是自然语言处理(NLP)领域的核心资源,相当于AI学习语言的“教材 ” 。在AI时代,语料是人工智能发展的核心基础之一,甚至被誉为AI产业的“金矿” ,是决定模型能力上限的核心要素。随着国产开源推理大模型DeepSeek的“出圈”,其思维链背后用到的数据合成技术,再次提升了对于高质量语料数据的需求。
政策引领 ,上海战略布局推动语料体系建设
上海作为中国人工智能发展的前沿阵地,AI相关产业正迎来蓬勃发展的机遇,而语料正是其中最为关键的抓手之一 ,语料体系建设已被纳入人工智能发展的核心框架。
2024年底发布的《关于人工智能“模塑申城”的实施方案》中明确提出,到2025年底,建成世界级人工智能产业生态 ,力争全市智能算力规模突破100EFLOPS(每秒百亿亿次浮点运算次数),形成50个左右具有显著成效的行业开放语料库示范应用成果 。方案还明确提出,要建立一批通用和专用语料库 ,打造多层次语料体系,支撑基础大模型研发和垂直应用。聚焦前沿大模型训练需求,推动打造基础大模型训练语料库。聚焦金融、制造、教育、医疗 、文旅、城市治理等行业需求,打造一批行业开放语料库与测试数据集 。此外 ,还要推动成立算力和语料基金,探索算力和语料作价入股等模式,加强创新型企业培育。
在近期举行的2025全球开发者先锋大会上 ,语料也成为一个备受瞩目的议题。2月22日,“语料筑基 智生时代 ”主题论坛在上海徐汇举行,会议深度聚焦大模型语料前沿主题 ,汇聚产学研用顶尖智慧,共同探讨语料数据发展的无限机遇与潜力,共建上海大模型语料繁荣生态 ,为人工智能大模型创新发展和应用注入新动能 。
论坛由全球开发者先锋大会组委会指导,由上海库帕思科技有限公司承办,漕河泾开发区总公司、上海人工智能实验室 、商汤科技、阶跃星辰、稀宇科技等公司联合协办。上海市经济和信息化委员会副主任张宏韬 ,徐汇区委常委 、副区长俞林伟出席论坛并致辞。
在论坛上,张宏韬表示,上海已全面战略布局人工智能大模型产业,加速推进“模塑申城”行动方案 ,为大模型提供强大的基础底座赋能和丰富的应用场景支持,成为产业界创新发展的理想沃土 。未来,上海将持续夯实高质量综合语料基座 ,构建数据语料核心枢纽,加快创新语料服务关键性技术,加速推动“5+6”垂类领域语料工程 ,完善行业语料供给体系,构建共赢繁荣的语料服务生态,更好助力大模型创新发展和应用。
实践先行 ,发力语料基建建设和生态协同
有研究表明,互联网上的高质量语言数据资源或将在2027年消耗殆尽。与开采金矿需要在资源勘察、选矿厂建设、固定资产购置等方面开展大量工作,高质量的语料数据也需要解决在获取 、治理、安全、应用等多方面存在的挑战 ,语料基础设施的建设和生态环境的形成至关重要 。
上海为此已采取一系列措施来加强语料库的建设和应用,推动世界级人工智能产业生态的形成。在本届全球开发者先锋大会,上海市经信委主任张英表示:“上海将开发者捧为主角,为这一群体倾力提供资源 、政策与氛围 ,努力培育繁荣的开发者生态。 ”
2024年3月,首家由政府主导成立的人工智能语料公司——上海库帕思科技有限公司正式成立,公司定位于专业化的功能性语料服务运营平台 ,致力于提供低成本、高质量的语料数据服务。
库帕思去年已完成构建了“1+X”语料基座,语料服务规模达260T,链接合作伙伴超100家 ,签署战略合作协议57家,发布了9个语料团体标准,并完成了7个标准草案 。目前已全面启动具身智能、金融、制造 、教育、医疗、文娱 、城市治理等领域的行业语料库建设。同时 ,为了形成高质量的多模态语料库,库帕思也正在建设大模型语料超级工厂,以每天最高1000GB的速度进行语料加工 ,计划到今年年底将语料库的总容量提升至2PB。
在生态协同上,徐汇区作为国家级人工智能产业集聚区,在全市率先发展人工智能大模型产业,市区联手推出了全国首个大模型创新生态社区—“模速空间” ,打造了算力调度、开放数据、金融服务等五大功能平台,为企业提供“保姆式 ”“专班式”服务 。俞林伟表示,徐汇将持续做好落实要素保障 ,持续吸引全球顶尖人才,持续优化大模型和语料服务产业生态,把模速空间打造为“全球最大的人工智能孵化器” ,打造徐汇建成全国人工智能高地的创新策源尖峰。
模塑申城,语料普惠计划之语料数据智能创意大赛正式启动
在本届论坛上,市经济和信息化委副主任张宏韬 、上海信投党委书记、副总裁黄卫军、人民网上海分公司总经理金煜纯 、上海人工智能协会秘书长钟俊浩共同发布了模塑申城语料普惠计划之语料数据智能创意大赛(简称CICC)。依托《模速申城语料普惠计划》 ,CICC大赛面向全社会寻找“好语料、好技术、好场景 ”,为上海“模塑申城”工程筑牢语料基石,打通高质量语料数据采集 、标注、共享、应用全链路 。
随后 ,大会隆重发布2025语料风云榜招募令。为汇聚行业顶尖智慧、构建开放合作生态,在2024年世界人工智能大会上,库帕思发起了首届语料风云榜,一批好企业 、好产品脱颖而出。2025语料风云榜将延续“好企业、好产品、好规则”的基本框架 ,在未来4个月完成征集与遴选,并在2025年世界人工智能大会上正式对外发布“2025中国语料生产商风云榜TOP10 ” 、“2025中国语料服务商风云榜TOP10” 。
此外,为进一步促进高质量语料数据建设 ,在市经济和信息化委的指导下,库帕思以普惠、链接、创新的态度,携手首批103家企业 、科研机构和专家学者 ,联合发起成立语料工作委员会。语料工作委员会将围绕高质量语料建设,通过优化语料平台与各垂类应用领域链接机制,促进语料方、模型方、应用场景方三方合作模式跑通落地 ,从而构建高质量 、具备应用价值的语料生态。
在可以预见的未来,上海不但是“魔都”,更将是AI产业的“模都” ,致力于占据全球人工智能产业的发展高地 。如今,上海正以语料为支点,撬动人工智能产业的全球竞争力,为全球行业发展提供新基建、新生态和新路线 ,这座“最懂开发者的城市 ”,正在书写人工智能时代的“掘金传奇”。