合合信息智能文字识别技术“牵手”传统典籍研究 开启古彝文“传统的新生命周期”
2023-08-09 20:46:39AI云资讯1741
彝文是云南、贵州、四川等地的彝族人使用的文字,而“古彝文”专指在民间流通使用的原生态彝文。古彝文传承至今已有数千年历史,是世界上最古老的文字之一。根据《滇川黔桂彝文字集》,目前记录在册的古彝文多达87046个。在中国西南多家高校的共同努力下,规范和通用彝文的数字化工作取得了重要突破。为了帮助建立起完善的古彝文数据库和翻译系统,极大提升研究效率,合合信息与上海大学社会学院正式签署校企合作协议,将智能文字识别技术引用到古彝文研究工作,并由此建立起精确的彝文古籍电子数据库,在古彝文研究领域属于首创。

毕节市彝文文献翻译研究中心展示汉译书稿
当前非母语研究者在翻译古彝文时,通常需要在母语者的帮助下记音,再用汉语逐字直译,最后采用汉语对整句话进行意译。由于古彝文尚未取得预留的Unicode编码区段,数字化工程还处于起步阶段,所以在印刷出版时,需由一位彝文缮写员先将彝文字和国际编码抄写在书页的左侧,再将已输入电脑的汉文译文打印、剪切后粘贴在相应彝文字的右侧,形成目前常见的“四行体”彝汉文对译,过程十分繁琐。
由于古彝文与汉字并非一 一对应关系,存在大量的异体字、变体字。在相对规范的汉译本彝文典籍中就有至少15%的变体字,原稿中只会更多;每个字的异体写法少则2-3个,多则几十种。若想要找到某个字在一本古籍里的全部样例,手动查阅需要耗费一整天。不仅如此,除了页面残损、字形复杂、字迹模糊等古籍识别中常遇到的问题外,彝文古籍还常出现加字、替字、整句倒置、文字方向不统一等现象,给文字定位造成挑战。再加上古彝文从未经过统一,异体字、变体字众多,给古彝文数字化团队带来非常大的挑战。
此次上海大学社会学院与合合信息合作,将通过合合信息基于“AI+OCR”融合下的智能文字识别技术,来解决解决古彝文识别的版式检测、图像处理和文字识别的难题,通过对大量的彝文古籍文字深度学习和训练,智能文字识别技术的效率及准确性也会越高,将更快推动古彝文研究进展。
本次合合信息与上海大学共同研究的《西南彝志》共计26卷,有“彝族历史文化的百科全书”之誉,对研究彝族历史、经济、文化十分重要。古彝文数字化项目发起人、上海大学人类学民俗学研究所讲师邵文苑表示,“传统也和人一样有生老病死的过程,并和人一样有通过后代延续‘生命’的能力,这种理论被称为‘传统的生命周期’。”他同时表示,智能文字识别技术“牵手”传统典籍研究,会是古彝文“传统的新生命周期”的开始。
相关文章
- 合合信息携启信慧眼亮相数字中国建设峰会,释放“AI+数据”双重潜能
- 合合信息:金融AI应用落地的垂直样本
- 合合信息入选世界数据组织首批会员单位,深度参与全球数据治理实践
- 合合信息亮相2026金融AI联盟大会,携手阿里云共同启动“超级智能体计划”
- 聚焦数字权益保护,合合信息AIGC图像鉴别技术助力图像安全
- 合合信息发布多模态大模型文本智能白皮书,破解复杂文档处理困局
- 合合信息发布多模态大模型文本智能白皮书,五大核心能力标准引领复杂文档处理变革
- 沙利文发布AI行业最佳应用实践报告,合合信息旗下AI Agent产品入选
- 多模态文本智能实力获得认证,合合信息INTSIG DocFlow斩获InfoQ重磅奖项
- 合合信息TextIn亮相火山引擎Force大会 助力大模型文本智能终端应用场景
- 合合信息入选“科创板价值50强”,多模态文本智能技术助推AI应用升级
- 让智能体开发如“拼积木”般便利!合合信息携手火山引擎共探大模型落地新范式
- 合合信息与上海交通大学开展课题合作研究,共探智能文档图像处理前沿技术
- 《数据产业图谱(2025)》权威发布,合合信息作为核心企业参编
- 合合信息联合南京大学苏州校区举办高校快闪日,共育AI未来人才
- 突破复杂版面及图表解析难题,合合信息“大模型加速器”再升级
人工智能企业
更多>>人工智能硬件
更多>>人工智能产业
更多>>人工智能技术
更多>>- 高德发布鸿蒙首个生成式 UI 开源框架 AGenUI,告别传统 UI 开发模式
- 发布即适配| 天数智芯全力支持腾讯混元Hy3 preview 开源落地,共推国内大模型产业普惠
- Seedance 2.0面向企业公测,豆包大模型日均Token使用量突破120万亿
- 端到端OCR模型第一!百度千帆Qianfan-OCR正式发布
- 云知声Unisound U1-OCR大模型发布!首个工业级文档智能基础大模型,开启OCR 3.0时代
- 基石智算上线 MiniMax M2.5,超强编程与智能体工具调用能力
- 昇腾原生支持,科学多模态大模型Intern-S1-Pro正式发布并开源
- 百度千帆深度研究Agent登顶权威评测榜单DeepResearch Bench









