马斯克的脑机芯片:Neuralink的野心
来源:内容由半导体行业观察(ID:icbank)编译自「IEEE」,谢谢。
过去一段时间里,Elon Musk的大脑科技公司Neuralink受到了疯狂的猜测和误解。你只需使用短语“Neuralink...”在谷歌上搜索,您就会看到很多常见的问题,当中包括“Neuralink 能治愈抑郁症吗?” 以及“Neuralink 能控制你吗?” Musk的公开声明并没有帮助公司在现实中的奠定声誉和基础,同事他还声称Neuralink 设备有朝一日将实现“人工智能共生”,其中人脑将与人工智能融合。
以上这一切听起来都有些荒谬,因为 Neuralink大脑植入物仍然是一种实验设备,甚至还没有获得最基本的临床安全性试验的批准。
但在炫耀和夸张背后,事实仍然是 ,在Neuralink,有一批认真的科学家和工程师正在从事有趣的研究。他们一直在开发的完全植入式脑机接口 ( brain-machine interface:BMI),并在推进该领域的发展,其超细神经 “线”( threads)可以穿过脑组织以获取信号,其定制芯片和电子设备可以处理来自超过 1000 个电极的数据。。
2020 年 8 月,该公司在猪身上展示了这项技术,并在今年 4 月发布了一个YouTube 视频和博客文章,展示了一只猴子使用名为 Link 的植入设备来控制光标并玩电脑游戏 Pong。但是 BMI 团队尚未公开其当前的研究目标以及为实现这些目标而采取的步骤。
在这次IEEE对其高管Joseph O'Doherty的采访中,我们将探讨这个技术的现状和未来。
IEEE Spectrum:Elon Musk 经常谈到 Neuralink 的远期可能性;在未来,人们可以自愿接受脑部手术并植入 Links 以增强他们的能力。但短期内该产品是为谁准备的?
Joseph O'Doherty:我们正在开发一种通讯假肢(communication prosthesis),它可以让瘫痪的人重新控制键盘和鼠标。我们正在推动健全的打字率,这显然是一项艰巨的任务。但这就是目标。
我们有一个非常强大的设备,我们知道其他人使用的各种算法技术。所以我们可以应用最佳实践工程来加强所有方面。制作 BMI 需要一个很好的记录设备,但也需要真正关注解码器的细节,因为它是一个闭环系统。您需要注意它的闭环方面,才能真正实现高性能。
我们有一个内部目标,即试图在来自 BMI 的信息率方面打破世界纪录。据我们所知,我们非常接近于超越最佳性能。还有一个悬而未决的问题:我们还能走多远?
我和我的团队正在努力实现这一目标并打破世界纪录。我们要么确定我们能做什么,要么,如果我们不能,找出原因,以及如何使设备更好。
IEEE Spectrum:多年来,Neuralink 系统经历了一些重大的设计变更。当我在 2019 年与您的团队交谈时,该系统还不是完全可植入的,关于线的设计、每线有多少电极以及植入的芯片仍有很多变化。目前的设计是什么?
O'Doherty:线( threads)通常被称为神经接口本身;那是实际与组织接触的物理部分。多年来,广泛的方法一直保持不变:我们的假设是,使这些线非常小且灵活,这将让设备拥有长期的使用寿命。我们还希望它是免疫系统喜欢的东西,或者至少不讨厌它。这种方法显然带来了挑战,因为我们有非常非常小的事情需要多年保持稳健。许多用于使事物变得坚固的技术都与增加厚度、增加层数和设置障碍有关。
IEEE Spectrum:我想在尺寸和可靠性之间有很多权衡。
O'Doherty:世界上还有其他灵活且非常酷的神经接口,我们在学术出版物中读到过。但是这些演示通常只需要在实验完成后的一小时或一天内有效。而我们需要让这个工作很多很多很多天。这是一个完全不同的解决方案。
IEEE Spectrum:当我在 2019 年与您的团队交谈时,每个线有 128 个电极,现在有没有改变?
O'Doherty:现在我们每个线做了16 个触点,间隔 200 微米。早期的设备密度更大,但在对皮层各层神经元进行采样方面,它的杀伤力太大了。当触点相距大约 20 微米时,我们可以在多个相邻通道上记录相同的神经元。所以我们可以很好地表征我们正在记录的单个神经元,但是它需要很高的密度,很多东西都挤在一个地方,这意味着更多的功耗要求。如果您从事神经科学,那可能会很棒,如果您正在尝试制造功能性产品,则效果可能较差。
这就是我们改变设计以将我们的触点分布在皮层中并将它们分布在皮层区域的许多线上的原因之一。这样我们就没有多余的信息。当前的设计是每个线16 个通道,我们有 64 个这样的线,我们可以将它们放置在皮质区域内的任何位置,总共有 1,024 个通道。这些线进入一个小于四分之一的微型设备,该设备具有算法、尖峰检测( spike detection)、电池、遥测等所有功能。
除了 64x16,我们还在测试 128x8 和 256x4 配置,看看是否有性能提升。我们最终可以灵活地对 1024 个电极进行任何配置。
IEEE Spectrum : 每个Link设备都有多个芯片吗?
O'Doherty:是的。实际的硬件是一个256通道的芯片,有4个,加起来就是1024个通道。Link 是一个东西,但它实际上是由四个芯片组成的。
IEEE Spectrum:我想您在朝着目标前进的过程中会不断升级软件,但此时硬件是否已修复?
O'Doherty:嗯,我们一直在做下一件事。但在这种情况下,我们必须证明设备特定版本的安全性,以便我们可以将其应用在人类上。我们使用所谓的设计控制,在那里我们固定设备,以便我们可以很好地描述它是什么,并描述我们如何测试其安全性。然后我们可以进行更改,但我们在工程控制框架下进行。我们描述了我们正在更改的内容,然后我们可以说这种更改对安全无关紧要,或者我们必须进行这些测试。
IEEE Spectrum:听起来很多尖峰检测( spike detection)都是在芯片上完成的。这是随着时间的推移而进化的吗?我认为几年前它是在外部设备上完成的。
O'Doherty:没错。我们有一种略有不同的尖峰检测方法。让我首先给出一个大致评论。对于神经科学,您通常不只是想检测峰值。您想检测尖峰(spike),然后根据神经元生成尖峰对尖峰进行排序。如果你在一个通道上检测到一个尖峰,然后意识到,哦,我实际上可以在这里记录五个不同的神经元。它来自哪个神经元?我如何将每个尖峰指向产生它的神经元?这是一个非常困难的计算问题。这是在后处理中经常做的事情——所以在你记录了一堆数据之后,然后你做一堆数学运算。
还有另一种极端情况,你只是在电压上设置一个阈值,然后你说每次有东西超过这个阈值时,它就是一个尖峰。然后你只需计算其中发生了多少。就这样。这就是您可以使用的所有信息。
这两个极端对我们来说都不是好事。在第一个中,您正在做大量的计算,这在小封装(package)中可能是不可行的。在另一个极端情况下,您对噪声和伪影(artifacts )非常敏感,因为很多事情都可能导致不是神经元触发的阈值交叉(threshold crossing)。所以我们在中间使用一种方法,我们正在寻找看起来像神经元产生的信号的形状。我们传输这些事件,以及一些关于尖峰的额外信息,比如它有多高、有多宽等等。
这是我们之前在设备外部所做的事情。在我们验证该算法时,我们拥有更高的带宽,因为它是一个有线系统。因此,我们能够流式传输大量数据并开发此算法。然后芯片团队采用该算法并在硬件中实现它。所以现在这一切都在芯片上自动发生。它会自动调整参数——它必须了解大脑中电压的统计分布。然后它只是检测尖峰并将它们发送到解码器。
IEEE Spectrum:这些天有多少数据从设备上流出?
O'Doherty:为了用脑机接口术语解决这个问题,我们正在检测 25 毫秒窗口或“bin”内的尖峰。因此,我们在闭环控制算法中使用的信息向量是尖峰计数的因子:1,024 x 25 毫秒。我们计算每个通道发生了多少个尖峰,这就是我们发出的。我们每个 bin 只需要大约 4 位,即每秒 40 个 bin 乘以 1,024 个通道,即每秒 4 位乘以 20 KB。
由于我们使用芯片上的自定义算法进行尖峰检测,因此可以实现这种程度的压缩。最大带宽将是每秒 1,024 个通道乘以 20,000 个样本,这是一个相当大的数字。那是如果我们可以发送所有东西。但压缩版本只是发生的尖峰事件的数量——零一、二、三、四,等等——乘以 1,024 个通道。
对于我们的应用程序,即控制我们的通信假肢,这种数据压缩是一个很好的方法——我们仍然有可用的信号用于闭环控制。
IEEE Spectrum:当您说闭环控制时,在这种情况下是什么意思?
O'Doherty:大多数机器学习都是开环的。假设你有一张图片,你用一个模型对其进行分析,然后产生一些结果,比如检测照片中的人脸。你有一些你想要做的推理,但你做的速度有多快通常并不重要。但在这里用户处于循环中——用户正在考虑移动,解码器实时解码这些移动意图,然后采取一些行动。它必须非常迅速地采取行动,因为如果它太慢,那就无所谓了。如果你向我扔一个球,我的 BMI 需要五秒钟才能推断出我想要向前移动我的手臂——那就太晚了。
因此,用户根据有关解码器功能的视觉反馈来更改他们正在执行的操作:这就是我所说的闭环。用户做出运动意图;它由 Neuralink 设备解码;预期的运动是通过使用光标或机械臂进行物理操作而在世界上实现的;用户看到该操作的结果;并且这种反馈会影响他们接下来产生的运动意图。我认为 BMI 之外最接近的类比是使用虚拟现实耳机——如果有你所做的和你在耳机上看到的之间存在很大的滞后,这非常令人迷惑,因为它打破了闭环系统。
IEEE Spectrum : 要从你现在的位置到世界上最好的地方,必须发生什么?
O'Doherty:第一步是找到延迟的来源并消除所有这些。我们希望整个系统的延迟都很低。这包括检测尖峰;这包括在植入物上处理它们;这包括必须传输它们的无线电——蓝牙的各种 packetization细节都会增加延迟。这包括接收端,您在模型推理步骤中进行一些处理,甚至包括在屏幕上为您控制的光标绘制像素。任何少量的滞后都会增加延迟并影响闭环控制。
IEEE Spectrum:好的,让我们假设所有延迟都已消除。接下来是什么?
O'Doherty: 第二步是解码器本身,以及它使用的模型。在模型方面有很大的灵活性——它可以非常简单、非常复杂、非常非线性,或者在深度学习方面非常深入——整个网络有多少层。但我们有特殊的限制。我们需要我们的解码器模型快速工作,因此我们不能使用非常准确但需要很长时间才能使用的复杂解码器。我们还可能对在植入物本身上运行解码器感兴趣,这需要低内存使用量,因此我们不必在非常受限的环境中存储大量参数,并且计算效率,因此我们不需要使用大量时钟周期。但是在那个空间内,我们可以在将神经尖峰映射到运动方面做一些聪明的事情。有非常简单的线性模型和非线性模型,它们使我们在捕捉神经动力学的丰富性方面具有更大的灵活性。我们想在那里找到合适的甜蜜点。
其他因素包括您可以为用户校准解码器的速度。如果我们必须花很长时间来训练解码器,那不是很好的用户体验。我们想要一些可以真正快速上线的东西,并给主题很多时间来练习设备。
我们还专注于稳健的模型。所以从第一天到第二天到第三天,我们不想重新校准或重新调整解码器。我们想要一个在第一天就可以工作并且可以长时间可靠工作的产品。最终,我们希望解码器能够自行校准,甚至无需用户考虑。因此,用户每天都在做一些使模型保持校准的事情。
IEEE Spectrum:有没有你发现的解码器技巧或技巧可以告诉我?
O'Doherty:我们发现特别有用的一件事是解码点击意图(decoding click intention)。当 BMI 用户将光标移动到某个目标时,他们通常需要在该目标上停留一段时间,这被视为一次点击。用户停留了 200 毫秒,所以他们选择了它。这很好,但它增加了延迟,因为用户必须等待选择发生的时间。但是如果我们直接解码点击意图(decoding click intention),那么用户可以更快地做出选择。
这是我们正在努力的事情——但我们还没有结果。然而我们可以展望未来。想象一下,你正在用大脑控制的光标做一个动作,我知道你现在在哪里……但也许我也知道你马上要去哪里。如果我知道,我可以做一些技巧,我可以把你传送到那里,让你更快地到达那里。
老实说,实践是一个组成部分。这些神经修复技能必须由用户学习,就像学习打字或任何其他技能一样。我们已经在非人类灵长类动物身上看到了这一点,我听说BrainGate试验中的人类参与者也是如此。所以我们想要一个不会造成太多学习负担的解码器。
除此之外,我可以推测可以做的很酷的事情。例如,您用两根手指打字比用一根手指快,或者用两个拇指比用一根食指打字更快。所以想象一下解码两个拇指的运动意图来控制你的大脑控制的键盘和鼠标。这可能是提高性能的一种方式。
IEEE Spectrum : 目前的 BMI 率世界纪录是多少?
O'Doherty: 斯坦福大学的Krishna Shenoy一直在BCI 表现的一些表格中记录这一点,其中包括他的小组最近发表的论文。那篇论文以每秒 6.18 位的最大比特率创下了人类参与者的记录。对于非人类灵长类动物,记录为每秒 6.49 位。
IEEE Spectrum:你能用非人类灵长类动物证明世界上最好的 BMI,还是你需要为此进入人类?
O'Doherty:这是个好问题。非人类灵长类动物不会说英语,也不会读英语,所以在某种程度上我们必须做出推断。对于人类参与者,您可能会说,这是我们希望您复制的句子,请尽可能输入。然后我们可以看看那里的表现。对于猴子,我们可以创建一串序列并要求它们快速完成并以这种方式计算性能。猴子有动力,他们会完成这些任务。因此,原则上,我看不出有任何理由说明为什么一个人在这方面优于另一个人。当然,对于语言和语义任务,例如直接从您的大脑解码语音或解码文本,我们必须在人类中进行原型设计。但在我们达到这一点之前,甚至在那之后,非人类灵长类动物和其他动物模型对于证明这项技术非常重要。
IEEE Spectrum:你之前说过你的团队要么创造新的世界纪录,要么找出你不能的原因。您是否有理由认为它可能不起作用?
O'Doherty: 2D 光标控制不是一项非常高维的任务。可能存在与意图和速度有关的限制。考虑一下移动光标并击中目标需要多长时间:这是用户从 A 点移动到 B 点所需的时间,以及他们在 B 点进行选择所需的时间。此外,如果他们使一个错误并点击了错误的按钮,这真的很糟糕。所以他们必须在 A 和 B 之间走得更快,他们必须更可靠地点击那里,而且他们不能犯错误。
在某些时候,我们会达到极限,因为大脑跟不上。如果光标移动得太快,用户甚至不会看到它在移动。我认为这就是限制的来源——不是神经接口,而是移动光标的意义。那么我们将不得不考虑其他有趣的方式来与大脑进行交互以超越这一点。还有其他可能更好的交流方式——也许它会涉及十指打字。我认为天花板在哪里是一个悬而未决的问题。
IEEE Spectrum:猴子玩的两个游戏基本上都只是光标控制:寻找目标并使用光标在 Pong 中移动桨。你能想象有任何超越非人类灵长类动物的测试吗?
O'Doherty:非人类灵长类动物可以学习其他更复杂的任务。训练可能会很长,因为我们无法告诉他们该做什么;我们必须向他们展示并朝着更复杂的事情迈出一小步。从帽子里挑一个游戏:现在我们知道猴子会打乒乓球,但他们能玩水果忍者吗?这有训练负担,但我认为这是在他们的能力范围内。
IEEE Spectrum:关于技术、你正在做的工作或你是如何做的,你还有什么要强调的吗?
O'Doherty: 我首先开始在学术环境中研究 BMI。我们在 Neuralink 的担忧不同于为学术演示制作 BMI 所涉及的担忧。我们对产品、用户体验、稳健性以及让该设备在很长一段时间内有用处非常感兴趣。这些优先级必然会导致与我认为我们选择的优化略有不同,如果我们这样做是为了一次性演示。我们真的很喜欢 Pong 演示,但我们不是来制作 Pong 演示的。这只是我们将产品推向市场时可能发生的事情的预告。