“中文十级”难题,AI怎样解读产业界
2018-08-07 10:27:58爱云资讯1222
在人工智能领域,“懂语言者得天下”是普遍的共识。其中,可帮助人工智能识别人类语言的自然语言处理(NLP)被誉为人工智能语言“皇冠上的明珠”。
当人工智能自然语言处理技术遇到“要你管和不要你管”“掉地上和掉地下”“我一把把把把住了”等中文“绕口令”,“小意思”“意思意思”等多义词时,及“俺们那疙”“中不中”等方言时,该怎样“听懂”这些“中文十级”语句呢?日前在成都举办的科大讯飞未来科栈活动上,记者采访了相关专家。
能分词会断句 机器尚在努力
NLP就是机器让计算机来理解和处理人类自然语言的技术,它和计算机视觉、语音处理的区别在于信息处理的类型。
“计算机视觉主要处理图像,语音技术处理声音,而NLP主要是对文字的理解。”云浮科技的创始人兼CEO张文斌说,在人工智能中,语音识别是耳朵,语音合成是嘴巴,计算机视觉是眼睛,而NLP则负责将抽象的文字符号转化为计算机能理解的语言。
“‘中文十级’的某些语句,人类去理解都有很大难度,何况是计算机。”张文斌说,在口语和书写上,汉字往往没有词与词之间的边界,即便机器能够准确识别文字,但理解它的意思却很难;再比如各种五花八门的地方口音和方言,也是“绊脚石”。
“自然语言处理一般从最小的语意单位‘词’开始,即分词算法。这最简单,也最成熟。”张文斌说, NLP的算法分为语法级别、句子级别分析等,其中分词就是将字词切开,让机器明白哪几个字组成一个词,哪几个词组成一句话,从而理解整句、整段的意思。但在“分词”实际的应用过程中,仍有各种问题。
张文斌解释,首先是分词标准不确定、存在歧义,及新词和实体词困扰等问题。如“乒乓球,拍卖完了”和“乒乓球拍,卖完了”无论怎么切分都正确,这就要依赖上下文语境。其次,每年都会涌现出的网络词汇,“神马”“不明觉厉”“佛系”等原来不存在的词也需要计算机理解。
听语气判关系 AI有新招
如何让机器读懂上下文语境,从而进一步了解整段话的含义?
“我们会尝试利用听人类说话时的停顿信息,作为一种分词算法的辅助。”讯飞翻译业务负责人翟吉博说。
对于AI工程师们来说,更重要的是深层次的算法,如实体识别、属性抽取等。“就是把人名、地名、机构名等实体识别出来后,再抽取实体之间的关系,搞清楚不同实体在句子中的不同属性。”张文斌说,五花八门的算法还有很多,比如情感分析,分析文本里面蕴藏了什么样的情感,是正面、负面还是中性的;文档摘要,把长文生成一两百字简短的摘要等。而基于这些算法层,又可以做很多NLP的衍生应用,包括自动问答、机器翻译等。
那如何识别方言呢?在科大讯飞的新款翻译机设备中,首次推出方言翻译功能,实现河南话、东北话、粤语等方言互译,或将之翻译成外语。翟吉博说,针对不同类型方言,机器采用不同翻译流程——对同属北方方言区的河南话、东北话等,可先翻译成普通话再翻译成外语;对于粤语等南方语言,则建立独立的语料库,直接从粤语到外语进行翻译。“考虑到方言中带有许多地方特色的说法、语言、词汇,‘雄起’‘中不中’等也可以作为独立的语料,由机器单独学习。”他说,人工智能的优势是在自然语言处理方面能够不断从用户处积累语料,学习新的词汇和表达方式,不断完成自身数据库和语料库的更新。
相关文章
- AR智能眼镜催化万亿市场,Meta/微美全息驱动“AR+AI”产业生态爆发式增长
- 华硕无畏家族跨界联动《凸变英雄X》:有信赖,更热AI
- 全流程AI赋能,重庆首个美的灯塔工厂照亮中国水机前行之路
- 燃梦绿茵,智联未来,大连移动携手华为打造5G-A×AI数字球场
- 白皮书发布会:空调行业新标准 海信AI技术让空调能耗下降41%
- 从防伪溯源到智能协同,动码印章借AI之力重塑酒业生态
- 拒绝机械化互动!云知声兽牙AI Agent功能上新,开启智能协作新时代
- 腾讯云AI存储解决方案持续升级,为AI全业务场景提供全面支持
- 星汉大模型2.0:AI大模型浪潮奔涌 大华股份呈交“智能答卷”
- Flat Ads:透视中国AI出海战略,看豆包、腾讯元宝、美图相机如何占领市场先机
- 动码印章搭载AI引擎,筑牢教育行业数字化转型安全基石
- 2025电动汽车百人会:神州数码AI破局,构建车企AI增长点
- 云轴科技ZStack CTO王为@中国GenAI大会:AI原生实践重构AI Infra新范式
- AI+教育,浩鲸科技参加2025高校人工智能大模型建设发展论坛
- 摩尔线程与松应科技达成战略合作,国产GPU+物理AI仿真打造具身智能开发“新底座”
- 广和通与实丰文化达成战略合作,共建AI产品联合实验室