您当前的位置：中国日用科技网资讯正文

脑机接口利器从脑波到文本只需要一个机器翻译模型

2020-03-31 18:40:58 阅读：420+ 作者：责任编辑NO。魏云龙0298

编者按：本文来自微信大众号“AI科技谈论”（ID:aitechtalk），36氪经授权发布。

作者 | 贾伟

修改 | 蒋宝尚

机器翻译真的是全能的，不只可以写诗、对对联、推导微分方程，还可以读取脑波信息。

昨日，加州大学旧金山分校的Joseph Makin 等人在 Nature Neuroscience上宣布了一篇论文，标题为《运用 encoder-decoder 结构，将大脑皮质活动翻译为文本》（Machine translation of cortical activity to text with an encoder–decoder framework）。

这篇论文的作业思路反常简略。他们将脑波到文本的转化视为机器翻译的进程，脑波为输入序列，文本为输出序列。

经过让受试者朗诵文本，搜集相应脑区的电波，构成练习数据集，然后去练习一个端到端的机器翻译模型。

经过这种办法，他们取得了一个模型，这个模型可以将受试者的脑波「精确」、「实时」地转化为语句文本，而过错率仅为3%。

这种立异，无疑是革命性的。

现在一些用于大脑操控打字的脑机接口技能，大多依赖于头部或眼睛的剩余运动。以霍金为例，他可以终究靠手指的运动操控虚拟键盘来打出他想表达的单词。但这种办法一分钟最多也只能打出8个单词。

也有一些测验将口头语音（或测验宣布的语音）解码为文字，但迄今也仅限于对单音素或单音节的解码，在中等巨细的文本（100个单词左右）上过错率往往高达60%以上。

Joseph 等人的这项作业，则直接将脑波简直无推迟地精确转化为文本，关于瘫痪患者来说，无疑是一大福音。

1整体思路

如前面所述，作者借用了自然言语处理范畴的概念，在自然言语的机器翻译中，是将文本从一种言语翻译到别的一种言语。而脑波到文本，事实上也是相似的一种「翻译」进程。

从概念上讲，这两种场景的方针都是在两种不同表明之间树立映射联系。更具体地说，在这两种状况下，意图都是将恣意长度的序列转化为恣意长度的另一序列。这儿需求要点着重一下「恣意」，由于输入和输出序列的长度是改动的，而且彼此之间并不必须有确定性的一一对应联系。

在Joseph 等人的这项作业中，他们测验一次解码一个语句，这和现在依据深度学习的端到端机器翻译算法相似。

两者相同的当地是，都会映射到相同类型的输出，即一个语句的词序列。不同之处在于，输入，机器翻译的输入是文本，而Joseph等人作业的输入是神经信号——受试者朗诵语句，试验人员用高密度脑电图网格（ECoG grids）从参加者的大脑皮层处搜集信号。

所以，对神经信号稍加处理后，便可以直接用 seq2seq架构的机器翻译模型进行端到端练习，根本不必进行改动。

在这项作业中，最难的是怎么获取满足多的练习数据集。咱们我们都知道，机器翻译的数据集可以到达上百万规划，但这个试验中的每一个受试者顶多也就只能供给几千量级的数据。在这种练习数据稀疏的布景下，为了充沛的运用端到端学习的优点，作者运用了一种只包括30~50个独立语句的受限“言语”。

2模型

在这项研讨中，为了搜集输入数据，要求参加人员大声朗诵语句，调查脑波活动。一组需求朗诵的数据是图片描绘，大概有30个语句，125个单词，另一组选用MOCHA-TIMIT语料数据库中的数据，以50个语句为一组，最终一组包括60个语句。

一共有四个参加者进行朗诵，研讨人员只考虑重复朗诵三次的语句集，其间一次朗诵的数据用于测验，两次用于练习。

参加者在大声朗诵的时分，会发生脑电波，给参加人员插上电极之后，研讨人员用高密度脑电图网格（ECoG grids）从参加者的大脑皮层处搜集信号。

搜集的脑电波信号和对应朗诵的语句，会作为数据输入到“编码-解码”架构的人工神经网络。

如上图所示，人工神经网络对输入数据做处理睬经过三个阶段：

1、时刻卷积：一些相似的特征或许会在脑电信号数据序列的不同点处重现，全衔接的前馈神经网络明显无法处理。为了有用学习这种规则，网络以必定的步幅为距离，对每个距离运用相同的时刻滤波器（temporally brief flter）。

2、编码器循环神经网络：经过时刻卷积的处理睬发生特征序列，把特征序列输入到编码器循环神经网络里边，然后，神经网络的躲藏层会供给整个序列的高维编码，这个编码与长度无关。

3、解码器循环神经网络：在解码阶段，要点将是高维序列“翻译”成一个单词。这时的循环神经网络会进行初始化，然后对每一步的单词进行猜测，当猜测成果是end-of-sequence token时，中止解码。

作者所运用的神经网络结构如下图所示：

练习整个网络的方针是挨近MFCC（梅尔倒谱系数特征），MFCC可以引导神经网络发生杰出的序列解码。但是在模型测验阶段，扔掉了MFCC，解码彻底依托解码器神经网络的输出。在模型练习中，随机梯度下降法贯穿练习的整一个完好的进程，一切的网络层都运用了dropout。

模型评价用错词率（The Word error rate, WER）量化，WER根本主意便是把正确答案和机器的辨认成果排在一同，一个词一个词的对，把多出的词，遗失的词和过错辨认的词通通加在一同，算作过错，然后计算过错的词占实践单词总数的百分比。

经过验证，一切参加者的均匀WER为33%，比照当时最先进的语音解码WER的60%，作用较好。

3试验成果

作者在论文中一共进行了两个试验，一个是采取了相似“操控变量”的办法，看看为何这个模型体现如此优异，另一个是经过搬迁学习改进其他参加者的模型体现。

在“操控变量”试验中，作者从头练习网络，上图的第二个框是选用低密度脑图网格数据（lower-density ECoG grids）并进行下采样的功能。别的，作者只留下了1/4个通道，即只用了64个通道，而不是256个通道，此刻的错词率比原先高出四倍。这在某种程度上预示着除了高密度脑电图网格，算法也很重要。

第三个框是没有附加MFCC时的功能，过错率与低密度脑电图网格相似，但优于之前的语音解码测验。

第四个框是选用全衔接网络的成果，关于卷积网络，全衔接的错词率比之前高了8倍。但是在试验中，作者发现，用全衔接网络形成的错词率可以在高γ信号传递之前进行下采样处理。

最终，作者对重复试验是否影响错词率进行了量化。研讨发现，当至少有15次重复练习时分，错词率可以到25%以下。

如上图所示，当练习次数很少的时分，参加者a和参加者b的解码功能很差，为了处理这样的一个问题，作者测验了搬迁学习。

上图 a 中的第一个框用MOCHA-1数据练习的成果，错词率为53%。考虑网络第一次针对参加者b的更丰厚的数据集进行预练习时的功能，这种搬迁学习能使错词率下降约17%（上图a中的第一个框到第二个框所示）。

作者还考虑了一种组合方法的搬迁学习，其间编码器-解码器网络依据参加者b的一切MOCHA-TIMIT数据进行预练习；然后针对参加者a的一切MOCHA-TIMIT数据进行练习，像平常相同在参加者a的MOCHA-1块上进行测验。这种“两层搬迁学习”(图a，第四条框)使错词率比基线下降了36%，与使命搬迁学习比较有所改进。

那么，改进是否以相反的方向搬运，即从参加者a搬运到参加者b，明显是可以的，正如上图b所示。

关于在MOCHA-TIMIT数据上体现最差的参加者d，将其他的MOCHAT语句添加到练习集并不能改进成果（如c图所示）。