广州大学AI-DimSum:粤语多模态语料库平台数字化里程碑
12月6日至7日,第十届语言服务高级论坛在广州大学成功举办。论坛期间,粤语语料库建设与大规模模型评测实验室正式发布了其最新研究成果——AI-DimSum多模态粤语语料库平台,标志着在全球拥有上亿使用者的粤语,正迈入数字化发展的崭新阶段。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
突破“低资源语言”困境,广州大学教授齐佳音介绍指出,在当前的网络世界中,粤语常被归类为“低资源语言”。该平台紧密围绕“数字中文建设”与“大湾区文化数字化”两大战略需求,构建了一个基于岭南文化、面向人工智能应用的多模态语料数据生态系统,并严格遵循“标准先行、数据可溯、服务可用”的核心原则。
一体化、模块化的基础设施 AI-DimSum平台由语料采集、标注、大模型对接、确权检索、质量评估、管理及应用商店等七个子系统构成,实现了从数据采集到模型接入与应用发布的一体化、模块化全流程覆盖。
海量语料的坚实支撑 该语料库汇聚了丰富的多模态资源,为AI模型训练提供了坚实的基础:
文本:收录超过100万字的语料,广泛覆盖新闻、文学等领域。
音视频:已完成3000小时的高保真语音标注,并整合了超过1TB的音视频原始资料。
影视:包含了《功夫熊猫》《大圣归来》《外来媳妇本地郎》等多部带有粤语字幕与精细标注的经典作品。
评测:构建了一套包含超过20万道题目的粤语大模型内容安全多模态评测体系。
该平台的发布,将极大提升粤语在人工智能大模型时代的应用能力与文化传承价值。
热门专题
热门推荐
加密货币行业翘首以盼的监管里程碑,终于有了实质性进展。美国证券交易委员会(SEC)主席保罗·阿特金斯(Paul Atkins)近日证实,那份允许加密项目在早期获得注册豁免权的“安全港”框架提案,已经正式送抵白宫,进入了最终审查阶段。 在范德堡大学与区块链协会联合举办的数字资产峰会上,阿特金斯透露了这
微策略Strategy报告:第一季录得144 6亿美元浮亏 再斥资约3 3亿美元买进4871枚比特币 市场震荡的威力有多大?看看Strategy的最新季报就明白了。根据其最新向美国证管会(SEC)提交的8-K报告,受市场剧烈波动影响,这家公司所持的比特币在第一季度录得了一笔惊人的数字——144 6亿
稳定币巨头Tether的动向,向来是加密世界的风向标。这不,它向Web3基础设施的版图扩张,又迈出了关键一步。公司执行长Paolo Ardoino在社交平台X上透露,其工程团队正在全力“烹制”一个新项目——去中心化搜索引擎 “Hypersearch”。这个消息一出,立刻引发了行业的广泛猜想。 采用D
基地位于Coinbase旗下以太坊Layer2网络Base的Seamless Protocol,日前正式宣告了服务的终结。这个曾经吸引了超过20万用户的原生DeFi借贷协议,在运营不到三年后,终究没能跑赢时间。它主打的核心产品是Integrated Leverage Markets(ILMs)——一
PAAL代币揭秘:深度解析Web3社区治理的核心钥匙 在去中心化自治组织的浪潮中,谁真正掌握了项目的话语权?PAAL代币提供了一套系统化的答案。它不仅是生态内流转的价值媒介,更是开启链上治理大门的核心凭证。通过持有并质押PAAL代币,用户能够对协议升级、资金分配乃至战略方向等关键事务投出决定性的一票





