“多模态AI”会对人察言观色更接近人类五感-AI云资讯

据《日本经济新闻》7月12日报道，一项可能预示着人工智能（AI）未来走向的技术亮相。这种技术被称为“多模态AI”，像人类通过五感理解周围那样，可以通过图像、声音和文件等多种数据作出高水平判断。AI更接近人类，对社会各个场景带来影响，这样的未来即将到来。

“您吃饭了吗？”“您吃药了吗？”可爱的机器人跟老人聊天的时候顺便提醒道。虽然老人有些时候回答模糊不清，有些时候只是默默点头，新AI可以通过观察情况，机智地判断出“没有问题”。

这是日本内阁府推进的项目一环。有关研究机构正推进由AI看护独居老人等的研究。目标是，通过每天对话发现细微异常变化。

重要的是，新AI不仅可以理解对话内容，还可以通过视频读出感情和动作变化。日本情报通信研究机构的鸟泽健太郎说，如果新AI可以感知体温，则“可以在新冠肺炎疫情时期为老年人提供防护”。

如果是人与人之间的交往，即使对方嘴上逞强说“我很好”，若是她脸色不好，我们也可以推测出对方“可能心里有烦恼”等。传统AI可以对图像、声音和文件进行分析，但不具备察言观色的能力。打破这一壁垒的是多模态AI。

多模态AI展现能力的未来已近在咫尺。韩国大成建设和EXAWIZARDS制造的AI机器人正具备接近人体五感的感觉。

AI从人的动作学习处理不同黏性液体的方法。AI可以比人更灵巧地将正确体积的液体从瓶子倒入烧杯中。

如果是粘稠液体，即使快速倒入，也很难洒出来。如果是像自来水那样的液体，若倒入速度较快，则很容易倒得过多而溢出来。人凭感觉会明白这一点，但对于传统AI而言这是难以理解的。于是，大成建设等采用了多模态AI技术，不管是倒有泡沫的肥皂水还是粘稠的煎饼面糊都不费劲。这种技术可以在药品和食品工厂等发挥作用。

多模态AI应用范围今后将进一步扩大。日本电信电话公司（NTT）正打算有效利用多模态AI进行商标等调查。AI根据图片和解说文字两种信息检查过去是否有类似商标。将来可以期待的是，AI以视频和文字的形式自动记录医院手术室治疗方法。

“多模态AI”会对人察言观色 更接近人类五感