编者按:本文来自微信大众号“AI科技谈论”(ID:aitechtalk),36氪经授权发布。
作者 | 贾伟
修改 | 蒋宝尚
机器翻译真的是全能的,不只可以写诗、对对联、推导微分方程,还可以读取脑波信息。
昨日,加州大学旧金山分校的Joseph Makin 等人在 Nature Neuroscience上宣布了一篇论文,标题为《运用 encoder-decoder 结构,将大脑皮质活动翻译为文本》(Machine translation of cortical activity to text with an encoder–decoder framework)。
这篇论文的作业思路反常简略。他们将脑波到文本的转化视为机器翻译的进程,脑波为输入序列,文本为输出序列。
经过让受试者朗诵文本,搜集相应脑区的电波,构成练习数据集,然后去练习一个端到端的机器翻译模型。
经过这种办法,他们取得了一个模型,这个模型可以将受试者的脑波「精确」、「实时」地转化为语句文本,而过错率仅为3%。
这种立异,无疑是革命性的。
现在一些用于大脑操控打字的脑机接口技能,大多依赖于头部或眼睛的剩余运动。以霍金为例,他可以终究靠手指的运动操控虚拟键盘来打出他想表达的单词。但这种办法一分钟最多也只能打出8个单词。
也有一些测验将口头语音(或测验宣布的语音)解码为文字,但迄今也仅限于对单音素或单音节的解码,在中等巨细的文本(100个单词左右)上过错率往往高达60%以上。
Joseph 等人的这项作业,则直接将脑波简直无推迟地精确转化为文本,关于瘫痪患者来说,无疑是一大福音。
1整体思路
如前面所述,作者借用了自然言语处理范畴的概念,在自然言语的机器翻译中,是将文本从一种言语翻译到别的一种言语。而脑波到文本,事实上也是相似的一种「翻译」进程。
从概念上讲,这两种场景的方针都是在两种不同表明之间树立映射联系。更具体地说,在这两种状况下,意图都是将恣意长度的序列转化为恣意长度的另一序列。这儿需求要点着重一下「恣意」,由于输入和输出序列的长度是改动的,而且彼此之间并不必须有确定性的一一对应联系。
在Joseph 等人的这项作业中,他们测验一次解码一个语句,这和现在依据深度学习的端到端机器翻译算法相似。
两者相同的当地是,都会映射到相同类型的输出,即一个语句的词序列。不同之处在于,输入,机器翻译的输入是文本,而Joseph等人作业的输入是神经信号——受试者朗诵语句,试验人员用高密度脑电图网格(ECoG grids)从参加者的大脑皮层处搜集信号。
所以,对神经信号稍加处理后,便可以直接用 seq2seq架构的机器翻译模型进行端到端练习,根本不必进行改动。
在这项作业中,最难的是怎么获取满足多的练习数据集。咱们我们都知道,机器翻译的数据集可以到达上百万规划,但这个试验中的每一个受试者顶多也就只能供给几千量级的数据。在这种练习数据稀疏的布景下,为了充沛的运用端到端学习的优点,作者运用了一种只包括30~50个独立语句的受限“言语”。
2模型
在这项研讨中,为了搜集输入数据,要求参加人员大声朗诵语句,调查脑波活动。一组需求朗诵的数据是图片描绘,大概有30个语句,125个单词,另一组选用MOCHA-TIMIT语料数据库中的数据,以50个语句为一组,最终一组包括60个语句。
一共有四个参加者进行朗诵,研讨人员只考虑重复朗诵三次的语句集,其间一次朗诵的数据用于测验,两次用于练习。
参加者在大声朗诵的时分,会发生脑电波,给参加人员插上电极之后,研讨人员用高密度脑电图网格(ECoG grids)从参加者的大脑皮层处搜集信号。
搜集的脑电波信号和对应朗诵的语句,会作为数据输入到“编码-解码”架构的人工神经网络。
如上图所示,人工神经网络对输入数据做处理睬经过三个阶段:
1、时刻卷积:一些相似的特征或许会在脑电信号数据序列的不同点处重现,全衔接的前馈神经网络明显无法处理。为了有用学习这种规则,网络以必定的步幅为距离,对每个距离运用相同的时刻滤波器(temporally brief flter)。
2、编码器循环神经网络:经过时刻卷积的处理睬发生特征序列,把特征序列输入到编码器循环神经网络里边,然后,神经网络的躲藏层会供给整个序列的高维编码,这个编码与长度无关。
3、解码器循环神经网络:在解码阶段,要点将是高维序列“翻译”成一个单词。这时的循环神经网络会进行初始化,然后对每一步的单词进行猜测,当猜测成果是end-of-sequence token时,中止解码。
作者所运用的神经网络结构如下图所示:
练习整个网络的方针是挨近MFCC(梅尔倒谱系数特征),MFCC可以引导神经网络发生杰出的序列解码。但是在模型测验阶段,扔掉了MFCC,解码彻底依托解码器神经网络的输出。在模型练习中,随机梯度下降法贯穿练习的整一个完好的进程,一切的网络层都运用了dropout。
模型评价用错词率(The Word error rate, WER)量化,WER根本主意便是把正确答案和机器的辨认成果排在一同,一个词一个词的对,把多出的词,遗失的词和过错辨认的词通通加在一同,算作过错,然后计算过错的词占实践单词总数的百分比。
经过验证,一切参加者的均匀WER为33%,比照当时最先进的语音解码WER的60%,作用较好。
3试验成果
作者在论文中一共进行了两个试验,一个是采取了相似“操控变量”的办法,看看为何这个模型体现如此优异,另一个是经过搬迁学习改进其他参加者的模型体现。
在“操控变量”试验中,作者从头练习网络,上图的第二个框是选用低密度脑图网格数据(lower-density ECoG grids)并进行下采样的功能。别的,作者只留下了1/4个通道,即只用了64个通道,而不是256个通道,此刻的错词率比原先高出四倍。这在某种程度上预示着除了高密度脑电图网格,算法也很重要。
第三个框是没有附加MFCC时的功能,过错率与低密度脑电图网格相似,但优于之前的语音解码测验。
第四个框是选用全衔接网络的成果,关于卷积网络,全衔接的错词率比之前高了8倍。但是在试验中,作者发现,用全衔接网络形成的错词率可以在高γ信号传递之前进行下采样处理。
最终,作者对重复试验是否影响错词率进行了量化。研讨发现,当至少有15次重复练习时分,错词率可以到25%以下。
如上图所示,当练习次数很少的时分,参加者a和参加者b的解码功能很差,为了处理这样的一个问题,作者测验了搬迁学习。
上图 a 中的第一个框用MOCHA-1数据练习的成果,错词率为53%。考虑网络第一次针对参加者b的更丰厚的数据集进行预练习时的功能,这种搬迁学习能使错词率下降约17%(上图a中的第一个框到第二个框所示)。
作者还考虑了一种组合方法的搬迁学习,其间编码器-解码器网络依据参加者b的一切MOCHA-TIMIT数据进行预练习;然后针对参加者a的一切MOCHA-TIMIT数据进行练习,像平常相同在参加者a的MOCHA-1块上进行测验。这种“两层搬迁学习”(图a,第四条框)使错词率比基线下降了36%,与使命搬迁学习比较有所改进。
那么,改进是否以相反的方向搬运,即从参加者a搬运到参加者b,明显是可以的,正如上图b所示。
关于在MOCHA-TIMIT数据上体现最差的参加者d,将其他的MOCHAT语句添加到练习集并不能改进成果(如c图所示)。
4谈论
很明显,这项研讨最大的不足之处便是——数据集太小,仅250个单词,30~50个语句。
若想把这种技能扩展到通用自然言语上,则需求探究,究竟需求多少数据才满足,以及怎么才干取得满足的数据。
事实上,假如可以将脑电图网格(ECoG)长时间刺进受试者脑中,可用的练习数据量将比本试验(仅搜集了半个小时的数据)大几个数量级。在实践运用中会遇到一些状况,有些人现已失去了说话才能,虽然如此,这种办法依然可以适用,虽然功能会稍有下降。
这儿,AI 科技谈论还想着重的一点是:机器翻译的实质,便是从一种信息序列映射到另一种信息序列。特别是现在端到端的技能下,只需可以将你的问题换种表述办法,转化为序列到序列的映射问题,然后能搜集到满足多的练习数据,那么都可以借用现有的机器翻译技能来做出巨大的改动。