在当今大模型蓬勃发展的时代,Transformer作为其中关键的技术架构,发挥着举足轻重的作用。深入理解Transformer,不仅有助于把握当下人工智能技术的核心脉络,对于探索未来技术发展方向也具有重要意义。
Transformer最初是作为一种语言模型被提出的,但如今其应用范畴早已超越了语言领域。在现代行业中,Transformer被广泛应用于处理各种涉及高维关系的任务,涵盖空间、时间等各个维度。在自动驾驶领域,驾驶员的驾驶控制序列与ChatGPT处理的语言序列具有相似性。借助大模型,利用大量无需标注的驾驶行为数据进行无监督训练,能够构建回归自动驾驶的大语言模型,进而实现对复杂驾驶场景的理解和决策。在这个过程中,道路上的车道信息、车辆行驶轨迹等都可以类比为语言模型中的“字”,模型通过学习这些元素之间的关系,下一个车道ID或车辆的移动位置,就如同语言模型预测下一个字一样。不仅如此,在蛋白质结构分析、基因序列研究等领域,Transformer同样展现出强大的能力,这些领域中的数据在高维特征上存在复杂的关联性,而Transformer能够有效捕捉和学习这些关系,为解决相关问题提供了有力的工具。
Transformer之所以具有如此广泛的适用性,源于其独特的结构设计。它融合了过去如CNN(卷积神经网络)、RNN(循环神经网络)和记忆网络等简单思维的抽象概念,并在此基础上进行了综合与升级,赋予了自身强大的高维映射能力,这成为其后续发展的核心优势。
CNN作为早期常用的模型,主要应用于图片分类任务。其结构设计灵感来源于人类视觉系统,与眼球后部神经及接入眼球信号的初始大脑生物结构相似,具有感受野的特性。从信息处理的角度来看,CNN本质上是一个信息压缩的过程。在处理图像时,一幅图片中往往包含大量冗余信息,就像一张50兆的照片,使用压缩软件可以无损压缩到5兆,而这5兆数据中隐含了原始数据的关键信息。大脑在处理视觉信息时,也会进行类似的信息压缩,将注意力聚焦在关键信息上,以便进行后续的决策和预测。CNN通过层层卷积操作,将图像中的空间信息进行压缩,从大量的原始像素信息中提取出具有代表性的特征,这一过程虽然有效,但也存在一定的局限性。
RNN则主要侧重于处理时间序列问题,它是一种递归结构,自身的输出会作为下一轮输入。在时间序列预测任务中,RNN根据当前状态预测下一个状态,如已知当前时刻的状态和上一时刻的状态,进而预测再下一个时刻的状态。这种结构对于处理具有持续性的业务表现出较强的能力,能够较好地捕捉时间序列中的动态变化规律。在一些涉及时间序列数据的场景,如股票价格预测、语音信号处理等方面,RNN都能发挥重要作用。然而,RNN也存在一些问题,比如在处理长序列数据时,容易出现梯度消失或梯度爆炸的问题,导致模型难以学习到长距离的依赖关系。
记忆网络主要用于处理人类创造的、缺乏自然规律的信息。在现实生活中,像工号与名字之间,从自然属性角度看不存在明显的关联,这类信息属于非自然性信息。对于此类信息,需要通过记忆和检索的方式来建立映射关系。记忆网络提出的QKV(查询-键-值)机制,正是用于学习这种没有自然性规律的逻辑。在记忆网络中,将模型设计成查询与键值对的关系,通过查询特定的键来获取相应的值,从而实现对复杂信息的处理和理解。
Transformer巧妙地整合了CNN、RNN和记忆网络的优势,对时间、空间和高维信息都具有一定的兼容性。其核心是一个特征提取器,即Attention机制(注意力机制)。以简历筛选为例,假设将简历输入给带有偏向性的HR,输入的是完整的简历信息,但HR在查看时会根据自身的关注点,即注意力方向,对简历内容进行有侧重的处理。在这个过程中,Q可以理解为HR关注的重点,比如学历或工作经历;K则是简历中与Q相关联的部分,例如与学历相关的毕业院校、专业等信息;V代表简历中实际被关注的内容实体。最终,HR对简历的理解和记忆会受到其注意力方向的影响,对关注部分的信息进行强化,而忽略其他部分,这就类似于Transformer中Attention机制对输入特征进行局部强化的过程。
从数据库的角度理解,Q就像是一个查询语句,用于提出问题;K相当于数据库中对数据的编号,通过它可以快速定位到相关信息;V则是实际需要获取的数据内容。在Transformer中,通过训练建立Q和K之间的关系,确定问题与要牵引的编号之间的重要性程度。当Q和K之间的匹配度较高时,对应的V在输出信息中的权重就会增加,对下游模块产生更重要的影响,从而形成一个注意力链条。在自注意力网络中,以“我是因为”这几个字为例,通过计算“我”与其他字之间的关系权重,模型可以学习到这些字在语言空间中的合理逻辑关系。当出现“我”这个词时,后续跟随“是”和“因”的概率会相应提高,这就是Transformer内部Attention机制的核心工作原理。
在实际的网络模型中,Transformer的结构更为复杂。它在学术上分为编码器(Encoder)和解码器(Decoder)两种。在不同的应用场景中,会根据需求选择使用不同的结构。在许多语言模型中,BERT主要使用Encoder结构,它类似于完形填空的过程,在已知全部信息的基础上,补全缺失的信息,或者将固定的全文本全维度信息映射到另一个维度,这一过程通常与微调相关。而GPT则强调使用Decoder结构,侧重于语言性的自由生成,在语言模型中,这种结构在生成文本方面表现出较高的可靠性。
与传统模型相比,Transformer在处理问题的思维范式上具有显著优势。以处理时间序列数据为例,以前使用CNN和LSTM(长短期记忆网络,属于RNN的一种变体)结合的方式,通常是先在空间维度上使用CNN进行信息压缩和特征提取,然后在时间维度上使用LSTM进行时间序列的推移和预测。这种方式将空间和时间分开处理,虽然在一定程度上能够解决问题,但存在缺陷。在实际生活中,这种处理方式并不完全符合人类的认知和世界的运行规律。
在处理人类走过柱子这样的场景时,LSTM存在遗忘性,当人走进柱子后面,在没有新输入的情况下,随着时间推移,LSTM可能会逐渐忘记这一信息,导致难以准确预测人从柱子后面走出来的情况。而Transformer则将时间维度上的所有信息等权重地作为一个整体输入给模型,不区分信息的新旧优先级,更加关注在整个时空或更高维信息中,将注意力放在何处能够做出更准确的预测。它突破了固定的思维范式,从更全面、更灵活的角度处理信息,更贴近真实世界的客观规律,因此在性能上表现更优。
除了Self-attention(自注意力机制),Transformer中还涉及Cross-attention(交叉注意力机制)。Self-attention主要用于识别输入信息内部元素之间的关系,当Q、K、V都来自同一输入时,模型寻找的是输入内部子片段之间的映射关系。而Cross-attention则用于处理Q和K、V来源于不同输入的情况,此时模型寻找的是两种不同类型数据之间的关联性。在图像与文本的联合处理任务中,可以将图像特征作为一组输入,文本特征作为另一组输入,通过Cross-attention机制来建立图像和文本之间的联系,从而实现更复杂的多模态信息处理。
在自动驾驶技术的发展历程中,感知、融合、预测、规控是四个关键的模块。感知作为自动驾驶的基础环节,承担着从环境中获取信息的重要任务。传统的感知任务包括对2D图片中物体的分类和定位,例如为小猫画像分类、识别图像中多个物体并绘制边界框等。但实际上,从一张图像中可提取的信息远不止这些。人类视觉系统能够从图像中获取丰富的信息,包括物体的三维纵深位置。即使在没有激光雷达的情况下,仅通过双目视觉,人类也能实现对纵深位置的识别。双目相机就如同人类的双眼,利用双眼之间的视差,可以直接进行测距。单眼也具备一定的测距能力,但由于缺乏双目视差的信息,对焦速度较慢且容易出现虚焦问题。
在实际应用中,通过对图像的处理和分析,不仅可以获取物体的位置信息,还能进行功能推理,判断椅子是否能坐;也可以根据图像中的线索,推断出水面等不可见物体的存在。这一系列复杂的感知任务,对于自动驾驶系统准确理解周围环境至关重要。
特斯拉在自动驾驶技术研发方面展现出了前瞻性。早期,特斯拉的模型就朝着端到端的方向发展,将所有相机的输入整合到一个综合模型中,形成了端到端模型的雏形。与传统的多模型独立处理方式不同,特斯拉的这种端到端模型能够将所有视觉相机的数据统一输入并处理,最终输出各种矢量信号、拓扑信号,涵盖可见与不可见的信息。在自动驾驶的发展过程中,数据处理和模型迭代经历了多个阶段。最初,主要依赖人工标注单张图片,使用分立的模型结构,除感知部分外,大多采用规则算法,严重依赖工程师的经验。随着技术的发展,采集数据的方式发生了变革,从采集单张图片转变为采集时序数据,例如采集五秒或十秒的数据,这使得数据具备了时间维度的信息。
通过对时序数据的处理,可以实现自动标注未来发生的事件,为模型训练提供更丰富的数据。此后,BEV(鸟瞰视图)类模型开始出现,众包地图技术参与到云端训练中。BEV模型需要地图数据的支持,而众包技术通过收集大量车辆的感知数据,利用SLAM(同步定位与地图构建)算法进行递归重建,从而获取地图数据。有了地图数据后,可以进一步训练BEV模型,提高其对环境的感知能力。同时,4D标注技术也逐渐兴起,不仅要建立矢量地图,还要构建点云地图,并将地图与仿真软件相结合,构建仿真系统和4D标注系统,最终形成了当前自动驾驶技术的复杂而高效的状态。
在模型训练方面,规则算法、传统监督式学习和大模型训练各有特点。规则算法在时间维度上的提升具有线性优势,在软件架构的初期,规则算法能够快速实现一定的功能提升。但随着技术的发展,其局限性也逐渐显现,后期提升过程中波动性较大。传统的监督式学习在构建数据闭环时面临挑战,并且需要投入大量的人力资源进行数据标注,走到一定阶段后,由于标注成本等问题,其发展也会受到限制。而大模型采用半监督半自主的训练逻辑,通过生成模型来训练鉴别模型。
在大模型的训练过程中,会使用仿真软件、众包地图等工具,构建不可观测的理论框架。一些在现实生活中难以大规模采集的数据,如人在高速路上裸奔这样的罕见场景,通过大模型的生成能力可以模拟出来,用于训练和提升模型的泛化能力。小模型在大模型和端到端模型之间扮演着重要的角色,是一种常用的合作模式,通过与大模型的协同工作,小模型可以在特定任务上发挥更高效的作用。
融合算法在自动驾驶中是一个关键环节,它的主要任务是将来自不同传感器的数据进行整合,以形成对环境的统一理解。在实际的自动驾驶场景中,雷达和相机等传感器会同时采集数据,但从原始数据中无法直接判断哪些数据表征同一个物体。融合算法需要通过一系列复杂的操作,例如计算几何距离关联,来确定哪些雷达点和相机点能够证明某个物体的存在,哪些点是离散的、不能完整证明物体的存在。这个过程就像是在处理复杂的证据信息,将各种相互冲突又相互佐证的证据进行拼合,最终得出一个明确的结论,在自动驾驶中,就是确定周围环境中物体的状态和位置。
当融合算法确定了物体的存在后,预测环节就显得尤为重要。预测是基于对当前世界状态的理解,推测物体在下一时刻的位置。在传统的规则算法中,常用的方法包括深度学习、机器视觉方法,以及卡尔曼滤波、匈牙利匹配等算法。这些算法相互配合,实现对物体位置的预测和跟踪。定位算法也是基于类似的逻辑,通过不断地观测和预测,确定车辆当前的位置以及未来可能的位置,并通过新的观测数据,如GPS信号,对预测结果进行确认和修正,从而实现对车辆行驶轨迹的准确把握。
Transformer在大模型时代占据着重要的地位,其独特的结构和强大的能力为众多领域的发展提供了有力支持。在自动驾驶领域,Transformer与其他技术相互融合,共同推动着自动驾驶技术不断向前发展,从感知到融合、预测和规控,每一个环节都离不开这些技术的协同作用。随着技术的不断进步,相信Transformer以及相关技术将在未来发挥更加重要的作用,为人工智能领域带来更多的突破和创新。
推荐阅读:
小智一周要闻 | 四部委发布智能网联汽车试点通知;特斯拉正推进FSD国内落地
专题推荐: