人工智能技术发展和外语教学-爱云资讯

1）背景和意义

2016年大众开始认识到人工智能；2017年国务院发布“新一代人工智能发展规划”，人工智能教育名列第一大应用领域。2018教育部发布“教育信息化2.0”行动计划，提出以人工智能、大数据等新兴技术为基础积极开展智慧教育创新研究和示范。2019年中国教育部和联合国教科文组织联合举办“国际人工智能与教育”大会，指出中国重视人工智能在教育中的应用。中央国务院发布“中国教育现代化2035”，指出互联网、人工智能等新技术的发展正在不断重塑教育形态。

在中国的中小学教学中，尤其在中小学外语教学中，人工智能技术已经在广泛应用。什么是人工智能技术？智能技术有哪些类别？最新研究前沿是什么？目前的教学应用存在哪些问题和如何提高？本文以英语教学中的人工智能语音技术为例对人工智能技术发展做一个科普介绍。

2）三代智能技术和本质区别

按照国际最新对于人工智能的分类，人工智能技术可以分为专家系统、统计学习、和类脑模型三代。第1代技术的特点是直接对于人类的知识和策略进行建模。第2代技术的特点是对于观测数据建模。第3代技术也称为未来的方向的智能技术，是对人脑对特定问题的认知过程建模和用数据优化，也称为类脑模型。这是这三代技术的本质不同之处。

DARPA Director John Launchbury

三代人工智能技术的分类

第1代智能技术是人类策略的组合，经常以包括了问卷和分支形式的决策树来建模。目前在英语口语和测评中广泛使用的脱胎与语音识别的语音技术一般属于第2代技术，但已经有第3代技术的应用，并且取得了明显优势。第二代和第三代技术到底有哪些不同呢？下面以这个方面为例深入介绍。

第2代智能技术的特点是基于大数据的统计。它的特点是首先需要采集成千上万不同的人的声音，然后对每一个音素进行统计建模，得出一个概率模型。例如，某个语言只有/i/，/o/，/u/这3个音，那么就需要首先采集成千上万不同的人对这三个音的发音，并且得出这三个音的概率模型。然后，当一个学生发了一个声音（假设是/i/），系统会把这个声音相对三个概率模型计算它概率（假如分别是0.9，0.6，0.07），然后可以根据概率的高低判断出发的这个声音是/i/，并且因为这个声音相对于/i/这个模型的概率是0.9，可以把它换算成90分。这就是第2代人工智能技术的用于语音识别和发音评价的原理。

对不同类别的数据（用不同的水果表示）进行建模

根据统计模型进行识别和评价

第3代智能技术会怎么做？首先，人类并不是通过向上面统计学习学习这样的大数据过程学习语言的。一个两岁小孩单独和他的母亲学会了语言，不会爷爷奶奶来了，因为没有采集过他们的语音数据而听不懂。而且，人可以直接对比一个成年男性的发音的/a/和一个小女孩发音的/a/，并且判断出“他们的发音一样，说的都是/a/”--虽然这两个信号如果进行直接对比的话，它们是完全不同的声音信号，因为包含了人的性别、年龄、身材、语速等各种信息和差别。人是怎么能够把两个完全不同的信号判断成是一样的，人的大脑到底是在如何处理语音声音？第3代人工智能也就是类脑模型就是对于人类的这个独特的听觉过程建立模型，让人工智能也可以做到上面这两个事情，这个模型也称为感知心理声学模型(Psychoacoustic Model）。上面描述的两个情景是第2代人工智能技术从原理上不可能做到的。第2代技术目前只能对比声音和一个成千上万人的声音建立起来的一个统计模型，而无法直接按人类的听觉特性对比两个声音示是否相似。

第3代技术背后的哲学思想是人工智能理论中的”丑小鸭定理”，意思是说分类问题不可能是纯客观问题，而是个主观问题。因此必须要把人的主观因素进行模型，才能够做到像人一样的有意义的分类。而第2代统计模型则不考虑人的主观特性因素。

以上就是第2代统计模型和第3代类脑模型（具体到语音领域是感知心理声学模型）的本质差别。这也揭示了基于大数据的机器学习和类人学习的本质差别。人类大脑一个20瓦的装置是如何进行高效的学习的？李世石的40瓦大脑是如何和上万瓦的AlphaGo对抗围棋的？机器虽然在有的任务已经超越了人类，但是在哪些任务上人类还是远远超过目前的机器学习的人工智能？从上面的分析看出，至少目前对于语音这个问题上，尤其在外语语音教学上。机器还远远达不到人类水平--尤其是第2代大数据统计智能技术。

3）智能技术在教学中的应用--不同任务需要不同的技术

除了两代技术本质的区别以外，对于教学所需要的一些特定的需求是否能够更好的满足，也有着根本的区别。

目前很多用于英语教学的智能语音技术脱胎于语音识别技术。语音识别的目标是要听懂各种各样的人的发音，因此都采用大数据统计模型技术。它追求的核心目标是要能够“容错”。也就是无论说话的人有什么口音或发音有多差，系统都应该能够轻松的听懂。但是在外语教学中，核心任务是为了“挑错”--发现学生发音的不标准和错误之处。可以看出这两个任务不仅不同，而且是完全“相反”的。因此语音识别做的很好，用在外语教学中，恰恰不一定能够很好的发现错误。甚至假如有了全世界最顶级的语音识别，也就是学生说得再糟糕它都能很轻松听懂，反而不适合用于做教学--这个很浅显直白的道理却经常被忽略。

更重要的是：教学与学习中有清晰的标准是至关重要的。教学最怕是教的人自己都不知道读成什么样子能是满分，甚至对于自己给学生示范的标准声音都无法打出高分。而从上面介绍就可以看出，第2代技术根本没有标准和不可能确立标准，因为它的背后只有成千上万人说同一个声音的一个统计模型。这样的模型无法回答读成什么样子能够高分。甚至最明显的就是完全做不到给自己对学生展示的标准音给出高分。这个实验任何人都可以很方便的去做一下，就可以看出使用的是第2代还是第3代技术，是否适合外语教学。

4）总结

本文以语音技术为例，介绍了三代人工智能技术的区别。这三代人工智能技术可以说是存在着代际的本质区别。前两代技术已经发展得比较成熟，优势和局限也都比较清晰。第3代技术是目前研究的前沿，但展现出突出的优势。

不同技术针对不同的任务各自独特的优势。并不是所有的任务都是第3代技术最有优势。下面我们会结合不同的任务介绍不同技术的优势和劣势。

2人工智能技术用于测评--存在的问题和解决之道

1）背景和意义

2020年10月13号教育部发布《深入新时代教育评价改革总体方案》，提出改革学生评价，坚持以德为先、能力为重、全面发展。其中在加强专业化建设部分，提出发挥专业机构和社会组织作用。利用人工智能大数据等现代技术探索开展学生各年级学习情况全过程中向评价。人工智能第1次在国家的评价方案中占据一席之地。人工智能在中小学教学评价中，主要应用有哪些？存在什么问题和如何更好提高呢？

在外语教学领域，对于学生的听说能力测评是一个重要的改革方向。这可以扭转长期忽视听说能力测评的现状，通过测评来推动对于听说能力的教学。高分低能无法开口是外语教学中常见的问题。而更因为外语听说读写本是一个整体，听说能力差更会让整体外语成绩难以提高。但是，对于口语评这样的主观性评价，由真人老师来做不仅负担大而且分数随意性的大，因此，人工智能语音技术这个重要的工具在各地外语口语测评仲广泛使用。

2）当前现状

影响着每一个学生命运的智能语音评价的水平到底怎么样？了解人工智能背后原理的人不多，对这个问题的正面的科普也非常少。很多问题会被有意无意的回避或扭曲，甚至会被故意误导，直接损害了广大考生的根本利益。本文就继续对这个问题做一个科普性的介绍。

英语语言教学中存在的一个独特的现象就是本身并不存在一个唯一的正确标准。一般教学中认为英音、美音都算是正确的发音。考试中应该兼容各种发音标准，因此一般都采用第2代智能技术，也就是大数据建模的方法。基本上各技术提供者采用的都是同样的技术路线，力求在建模过程的训练数据中包含了不同的发音。英语口语测评是对学生口语说的好不好的一个评价，一般打分都包括了发音的完整度：是不是该说的都说了而且说法正确、发音的准确度就是发音是不是标准、以及流畅度和语音语调进行评价，然后综合给分。

但是前面讲过大数据建模方法对于英语口语评价存在着一些根本性的问题。首先，模型训练的大数据应该用美国家人发音的声音，还是中国学生发音的声音？目前这个最基础的问题都很难回答。常见的做法是选用中国学生的发音建模--但这意味着什么？就是说如果发音和大部分中国学生类似，就能高分。但这样对吗？显然不对！那我们干脆用所谓更好的标准发音来建模？也就是教学中示范的磁带上的标准声音建模？也不行，因为这么做的话基本上中国学生都会只能拿很低的分数，因此在实践中几乎不能这么做。所以，这个大数据模型到底兼容了什么标准？说不清！这个尴尬的核心原因是口语评价和语音识别任务性质不同。对语音识别任务，如果是识别中国学生说的外语，自然用中国学生数据训练，毫无疑问。

所以可以看出，在语音识别这个任务上非常好而且理论明确的统计模型，在口语评价这个任务上连基础理论都是有没有坚实基础。因为任务性质和语音识别任务本质不同。因此不能把某一个成功的语音识别系统，就认为在另外一个语音评价任务上也能够胜任。

随便做一个实验就可以发现。目前常见的考试的各个题型中的模仿朗读题目。哪怕把用来模仿示范的标准声音来进行打分，一般都拿不到满分甚至高分。这是人工智能技术在评价中的尴尬现状。而这是基础理论所决定的。

3）提升之道

如果大数据统计模型连最基础的应该用什么样的数据训练模型都无法回答的话，这样的技术怎么能够用于考试，尤其适用于中考、高考的打分呢？

回答这个问题有多个方面：

第一，英语教学中需要加入听说考试。否则的话对于英语学习更加不利。这是一个更大的原则和方向性问题。

第二，如果让真人老师进行评价，如果让老师连续几个小时听学生的声音并且打分的话，也会出现很多的分数偏差，和语文评价等主观评价类似，而且因为是对于英文的声音评价，可能会偏差更大。

第三，目前的技术研究表明，语音识别任务中的一些计算的概率和人工的评分存在一定的相关度。之前的研究发现这种相关度一般在0.7-0.8左右，根据不同的题型，还会有一定的变化。因此人工智能机器打分可以整体上给出一个客观的参考。哪怕这个参考在局部会有问题，但可以一定程度上弥补真人打分的偏差。因此这不是一个什么完美的问题，而是一个互相比较的问题利弊权衡问题。

第四，在一些高利害考试中人工智能首先要学习专家组的评分，通过这个过程先在一定程度上弥补自身的不足。并且在打分过程中不断受到专家的监督和继续学习。这也能够减少因为基础理论存在问题而实际上出现的各种系统偏差和局部问题。

经过以上的分析，我想英语教育工作者应该了解，用大数据建模技术的智能技术给学生的口语进行评价的优点和缺点。不要笼统以为人工智能能够超越真人老师。目前的研究表明真人专家组认真的小批量打分超越人工智能（在进行对专家组打分学习后）的打分，而人工智能打分的稳定性正确性超过了普通老师大批量打分。尤其是应该理解在听说打分中，整个的考试标准和打分标准是由学科专家制定的，而不是由人工智能机器制定的。人工智能连自己用什么样的大数据训练模型都无法说清楚理由。

4）迫切需要解决的问题

目前各地的听说考试招投标过程中，经常把考试打分系统和考务系统以及考试平台混在一起进行，这也是造成评价问题的重要原因。有的企业在考务系统等纯功能软件方面有经验，但在需要人工智能技术的考试打分领域不一定领先，而这样的作为整体成为当地的中高考打分考试的打分系统，这对学生的评分和命运显然是不公平的。难度最大也最重要的评价系统应该独立出来。

人工智能评价在英语口语考试中还能如何提高？结果上面分析，我们了解其存在的一些本质理论缺陷，我们了解了没有任何技术能够完美的解答口语考试评价问题，我们了解了最好的语音识别系统不一定是最好的口语考试评价，因为这是两个不同类型的任务。但是在人工智能领域中，存在着一个近乎完美的算法策略(Meta-algorithm)--集成组合算法（Ensemble Method）。集成算法本身不算一种单独的机器学习算法，而是通过构建并结合多个机器学习器来完成学习任务。可以说是集百家之所长，能在机器学习算法中拥有较高的准确率。这是人工智能学术界所普遍了解的。基本含义也非常简单，也就是：三个臭皮匠顶个诸葛亮。

很显然在中高考学生口语评价这个领域，应该使用在人工智能领域已经非常成熟的这一个集成组合算法。具体做法就是调动国内多家技术企业共同参与，在考试中分别担任一位评委各自打分，但是整体上形成一个人工智能评委团，通过取平均投票的方式。获得更好的打分的准确度。这种方式在奥运会这样的重大比赛中都普遍使用，甚至不会因为某一个裁判强就让他来裁判整个比赛。

在各地教育局中高考考试系统的招标中，打分系统必须和考试考务系统分开，扭转因为历史因素有意无意形成的错误。如同考试的命题显然应该和考试过程软件分开。打分是人工智能任务，命题是考试院任务，而考试系统作为纯软件是一项功能软件采购。考试系统软件功能最为简单成熟。而无论是命题还是打分都需要独立机构不断研究提升。同时在打分中引入人工智能评委团，采用在人工智能领域里边已经很成熟的集成组合算法（Ensemble Method)打分，才能够真正让中国的智能人工智能口语考试走上正确的方向，走进一个更成熟的阶段。才可能做到对中国的每一个考生负责。否则只能在低水平上耽误学生、误导老师、耽误教学。

而中小学教研和一线教学老师，需要了解人工智能打分的原理，优点和不足，才能正确的理解和把握人工智能在评价中的作用。在清晰了解后把人工智能评价作为一个重要的助手。而不是被技术企业误导。而每一个人工智能技术企业担负责任，说明真相而不是误导隐瞒真相，都应该直面问题，不断研发，互相竞争，为中小学外语教学带来更好的技术和解决方案。

5)对学生负责，对教育负责，对国家负责

人工智能技术提升考试的科学性、公平公正，大有可为。人工智能企业和学术界应该共同努力，直面问题，本着对学生负责，对教育负责，对国家负责的态度，把人工智能考试测评这个事情做好。尤其不能因为各种利益考虑而扭曲真相。人工智能评委团这种方式，本来应该是学术界都应该马上想到的经过长期验证的和公开算法和方法，但目前还未在中国外语教学中高考普遍使用，应该说是一大遗憾和目前迫切需要解决的问题。我们看到部分地区已经开始“双评”“多评”的努力。如果家长和学生知道在中考中给他们打分的人工智能技术，连给自己再模仿朗读题中的标准发音都会经常性打出低分，或者说是稳定的得不到高分，不知会作何感想。人工智能评委团能够有效的缓解这些问题。

3.人工智能技术用于外语教学--深入理解和自如运用之道

1）背景和意义

在人工智能时代这个未来大背景下，国家通过“中国教育现代化2035”，“教育信息化2.0行动规划”等文件深入推动人工智能等新技术在教育中的应用。在英语学科教学上，2017版《英语课程标准》加强了语言能力教学的重视。提出要重视现代信息技术应用，确保虚拟现实、人工智能、大数据等现代技术的应用促进学生有效的学习和提升学科核心素养。

中国听说师资普遍缺乏。因此，应用人工智能语音技术辅助学生的语音学习成了一条必经之路。目前人工智能语音技术在中小学外语的语音教学中广泛应用。尤其随着考试改革和听说考的普遍推进，听说教学也成为一项重要教学任务。英语整体教学理论(whole language approach)表明英语教学的听说读写是一个整体，帮助中国学生突破哑巴英语和提高听说能力能够帮助英语教学仲听说读写等各个方面的提高。这些都加强了人工智能教学的重要性。

但教育工作者，教研、教科学者，和一线老师们对于人工智能技术本身的了解不足，对于技术的特点、优势与不足的科普文章很少。本文就人工智能语音技术在口语教学中的应用做一个深入的分析。

2）标准示范、模仿朗读、发音纠正训练，和纠正的必要性

模仿是语言学习的基础，这是常识。婴幼儿可以天然通过模仿来掌握一门语言。大脑语言中枢发育规律还揭示了8岁语言关键期后学习一门新的语言，通过独自模仿学习语言效率大大降低。因此还需要有人纠正，否则经常会发生重复自己的错误而不自知，仅仅重复自己的错误。经典电影“窈窕淑女”的特别展示了语言教学的这个特点。

在外语语音教学中最常见的和广泛使用的，几十年来反复验证过的一个高效的方法就是课文模仿朗读。中小学教材课文都配备了标准朗读声音用于教学示范。学生课后跟着磁带模仿朗读课文成为英语教学中的一个普遍教学实践，但缺乏有效的纠正是一个明显问题。老师也难以对每个学生进行纠正辅导。

人工智能语音技术可以在模仿朗读过程中，起到有效的纠正辅导作用，有效避免学生错误的模仿而不自知，避免反复重复发音错误而不是提高发音水平。这是目前大部分人工智能英语教学软件的一个重要功能。

3）不同人工智能技术和示范-模仿-纠正任务的关系

英语语音教学的一个特点是：并非只有一个“正确发音”。英音、美音都是正确。前面介绍了，口语考试需要兼容各种正确发音，但教学中的模仿朗读则需要选取一种正确发音进行示范、学生模仿、老师根据示范的标准声音进行纠正。这个区别首先需要分清。

从人工智能技术角度，针对一个标准的示范、模仿、纠正和兼容多个标准的评价是两个完全不同的任务，需要不同的技术来应对。通过前面的技术介绍读者已经了解，只有第3代人工智能技术可以有明确的标准和根据标准进行纠正。只要模仿得像就肯定能够高分。这其中的关键是，所谓的像是模拟人类听觉判断的像，而不是简单的波形对比等呆板的像。男女音色的变化，语速快慢的变化在一定范围内不会影响打高分。第2代大数据统计模型的智能技术因为无法明确标准，甚至无法对于自己示范给学生的标准发音打高分，可以说不适合教学，更无法进行参考标准示范声音的纠正。

4）教学和考试的区别：选取一个标准v.s.兼容多个标准，考教根本不可能用一个技术

老师们都理解：教学过程是把学生从不会发音、错误发音，逐渐通过模仿纠正，帮助学生接近某个标准下的正确发音的过程--这个问题第3代人工智能技术已经能够比较完美解决。而考试是参考多个可以接受的标准来对学生进行评价，目前智能技术本身存在很大理论缺陷，第二代技术因为超过了真人老师长时间打分会产生的各种随机偏差，因此可以姑且可用，但绝不完美。

由此可以看到，有的说法“用什么考就用什么教”，是完全不可能的事情，是一个错误的说法。技术企业尤其不应该故意散布这样的谎言。因为教的过程只能选取一个标准来教，而不可能使用多个标准混着教。

教学过程到底是使用英音还是美音作文标准进行示范教学是地方教学上包括教材选用上的一个决定。但是人工智能技术应该有能力做到无论学校选取什么作为标准，都能以此作为参考来对学生进行辅导纠正。第三代智能技术恰恰可以做到这点。第二代技术理论上就完全做不到。

5）标准清晰在教学中的重要性和实践中的问题

如果人工智能技术可以确保读得像就一定能够高分，这句话的等价说法就是如果低分肯定模仿的什么地方不好。这样就能够为学生的学习带来直接的参考。实践表明，学生在被指出错误后甚至对比了错误和正确的声音，依然不一定能够很快发现自己发音的问题。因为听说能力包括对于声音差异的分辨力的提升都是需要一个过程。这是正常的过程和必经的过程。在电影窈窕淑女中，一开始赫本扮演的学生也经常质疑老师的纠正，表示明明自己的发音已经很好了，为什么老师还是说不对。这点在人工智能对于学生进行语言教学中也会发生，这是正常的。只要让学生理解模仿得像一定能够高分，甚至可以让他自己来做实验来验证这一点，就能够耐下心来认真模仿并最终提升和获益。

在教学实践中，我们也遇到有些老师要求学生一定读上90分或95分。这样是不对的。听说能力的训练就像举重跳高等能力训练，是需要日积月累才能够提高，并不是懂了就能做到。同样对于学生而言，日积月累训练提升，比一次就反复练高分更重要。

纠正过程的打分本身并不是水平评价，是教学为目的的参考。分数高低代表模仿朗读的模仿水平。分数本身也是考虑鼓励性和提升空间综合设置的主观分数。通过实践，我们感觉整体平均分设为89分，让一半学生能上90分比较复合中国学生的心理习惯和实际水平。

另外，第3代人工智能技术虽然在理论上是完善的，但是任何实际的系统在实际使用中还是会有一定的问题，包括录音音量和尤其噪音干扰问题。但研究表明这些问题都不影响整体的教学效果，能够有效缓解中国听说师资缺乏的问题。

还有，有的人已经形成了某种正确发音的习惯，在模仿朗读过程中不是去模仿，而是依靠自己的习惯去读，当然不会得到高分。包括有些老师去测试语音技术，也会忘记这是参考了某一个标准的模仿朗读和纠正。换句话说，如果示范的明明是英音而用标准美音去读会给低分，这是显然的。此时需要明白：教学过程和考试评价过程是完全两个不同的事情。一个是针对一个标准，一个是兼容多个标准。

6）总结

可以看出，人工智能语音技术可以在在英语语音教学中起到重要的作用。但是其中有很多专业问题和细节区分，但这些区分又非常重要，如果混淆也会带来认识和教学实践上的错误。对于训练方法意义的理解，对于训练过程中可能会遇到的问题的理解，对于人工智能技术在这个训练中以什么标准进行纠正，第2代第3代智能技术在这个问题上的区别，对于语音识别、口语评价、语音模仿朗读教学三个任务的不同和所需要技术的不同--这些问题应该有明确理解。如果老师们理解了这些问题，就可以正确把握和自如应对各种遇到的问题，在教学中让人工智能成为您的高效助手。