实验室里,67岁的Pat Bennett正在尝试使用包含125000个人生就是博单词的大词汇集和包含50个单词的小词汇集说出短语,训练深度学习算法识别她大脑中的独特信号,以解码单词。
对Bennett来说,这项研究给她带来了希望,因为她患有肌萎缩侧索硬化,也叫运动神经元病。这种疾病会使肌肉逐渐失去控制,从而导致行动和说话困难。
美国斯坦福大学神经科学家Francis Willett和他的同事开发了一种脑机接口,可以在细胞水平解析神经活动并将其翻译成文本。
他们与Bennett合作,通过手术,将小型硅基电极阵列插入Bennett大脑中与语言能力有关的部分。电极插入的大脑皮层下几毫米处。然后,Bennett试着说出各种短语,训练深度学习算法识别她大脑中的独特信号。人工智能从最小语音单位——音素中解码单词。
对于包含50个单词的小词汇集短语的解析,现脑机接口工作速度是该团队早期开发的脑机接口工作速度的3.4倍,单词错误率为9.1%,而对于包含125000个单词的大词汇集短语的解析,错误率上升到23.8%。相关研究8月23日发表于《自然》。
“这相当于每4个单词中有3个被正确破译。”Willett说,“我们可以想象未来同瘫痪患者流畅对话。”
在8月23日发表在《自然》杂志1、2上的另一项研究中,两组研究人员描述了脑机接口(BCI),该接口将神经信号转换为合成语音所说的文本或单词。脑机接口可以分别以每分钟62个单词和每分钟78个单词的速度解码语音。自然对话的速度约为每分钟160个单词,但新技术的速度都比以前的任何尝试都快。
在另一项同期发表于《自然》的研究中,美国加利福尼亚大学旧金山分校神经外科医生Edward Chang团队则采用了与Willett团队不同的方法,帮助失去语言能力的患者。
47岁的Ann在18年前因脑卒中,失去了说话能力。Chang团队在Ann的大脑皮层表面放置了一个包含253个电极的薄如纸张的矩形插入物。这种被称为脑皮层电图(ECoG)的技术侵入性较小,可以同时记录数千个神经元的联合活动。
团队让Ann尝试使用包含1024个单词的词汇集,说出249个句子,以训练人工智能算法识别大脑活动模式,从而破译单词。该设备每分钟可破译78个单词,平均错误率为25.5%。
法国格勒诺布尔神经科学研究所研究员Blaise Yvert说,尽管Willett团队使用的植入物能更准确地捕捉神经活动,在更大的词汇集破译中表现更优,但“我很高兴看到ECoG实现低单词识别错误率的可能”。
此外,Chang团队还创建了自定义算法,将Ann的大脑信号转换为合成语音和模仿其面部表情的动画化身。他们利用Ann的婚礼视频的录音对人工智能算法进行训练,将合成语音个性化,使其听起来更像Ann生病前的声音。
在研究结束后的一次反馈会议上,Ann告诉研究人员听到与自己相似的声音十分激动。
“声音是我们身份的一个非常重要的组成部分。它不仅关乎交流,还关乎我们是谁。”Chang说。
尽管上述两个研究利用人工智能增强的大脑阅读植入物使两名瘫痪患者能够以前所未有的准确性和速度进行交流,但在脑机接口可用于临床前,还有许多地方需要改进。比如,适合日常使用的脑机接口必须采用完全植入式的系统,不能有可见的连接器或电缆。此外,两个团队都希望通过更强大的解码算法继续提高设备的速度和准确性。
相关论文信息:https://doi.org/10.1038/s41586-023-06377-x
https://doi.org/10.1038/s41586-023-06443-4