TransitLM:无地图公交路线生成的大规模数据集与基准
TransitLM 收录四座中国城市 1300 万条规划记录,让语言模型脱离地图引擎直接规划公交路线,4B 模型在最优路线上达 97.0% 连通性、71.0% 完全匹配。
快速答案
TransitLM 是一个数据集与基准,用来检验语言模型能否在没有路由引擎、没有结构化地图的情况下,仅凭起点和终点文本就逐站给出一条公交路线。它包含来自四座中国城市的 1300 万条以上规划记录,覆盖 120,845 个站点、13,666 条线路。经过领域自适应的持续预训练加监督微调,一个 4B 的 Qwen3 模型在最优路线任务上达到 97.0% 连通性和 71.0% 路线完全匹配,远超直接被提示去解同一问题的通用大模型。
问题:公交规划被锁死在地图基础设施上
今天每个出行 App 都建在一套路由引擎和站点、线路、时刻表的结构化图之上。这套系统造价高、维护难,而且根本不存在可供语言模型直接学习的形态。作者的切入点比”拿大模型试试地图”更尖锐:目前没有任何公开数据集能训练模型去绕开路由引擎。TransitLM 就是为填这个空白而生,而”无地图”正是核心——模型从不被喂入显式的图,它必须从原始规划记录中吸收整座城市的拓扑。
数据集里有什么
语料是 1300 万条以上记录,取自北京、上海、深圳、成都——合计 120,845 个站点、13,666 条线路。它以两种身份发布:一份持续预训练语料,以及面向三类评测任务的带标注基准数据:
- 最优路线生成——为一对起终点给出唯一最优路线。
- 偏好感知规划——满足明确偏好,如地铁优先、公交优先、少换乘或最短时间。
- 多路线生成——为同一对起终点返回三条有差异的路线。
有一个设计选择比表面更关键:站点 ID 被注册为专用 token。这阻止了模型逐字拼写站名、进而”幻觉”出不存在的站点——这正是大模型把路线当自由文本输出时最常见的失败模式。
评测究竟怎么做
一条路线不只靠字符串匹配来打分,这是这个基准最诚实的地方。指标体系分五类:连通性(相邻站点是否真能到达)、可达性(站点对齐与距离合理性)、路线重叠(线路重叠、站序重叠、完全匹配)、数值字段准确性(时间/距离等量的估计准确率与 MAPE)、以及任务特定指标(偏好遵循、路线多样性)。这很重要,因为模型可能完全匹配得分很高、却仍输出物理上不可能的跳转,正是连通性和站点对齐这两个指标能抓住被幻觉出来的地理。
关键结果
- 最优路线(4B Qwen3): 97.0% 连通性、98.5% 站点对齐、71.0% 路线完全匹配、98.5% 估计准确率、1.33% MAPE。
- 偏好感知规划: 93.2% 连通性、50.4% 完全匹配、89.8% 偏好遵循——即便路线与参考答案不同,模型通常仍会满足所请求的偏好。
- 多路线生成: 96.3% 连通性、64.5% 完全匹配、0.545 路线多样性。
- 规模与基线: 作者训练了 0.6B、1.7B、4B 三档 Qwen3,并与六个通用大模型对比,包括 GPT-5.4-pro、DeepSeek-V4-Pro、Gemini-3.1-Pro、Claude-Opus-4.6。这里更强的是微调后的小模型——开箱即用的前沿大模型在这些任务上比不过领域训练的 4B。
最值得玩味的数字,是最优路线上连通性(97.0%)与完全匹配(71.0%)之间的差距:模型几乎总能给出一条合法、可走通的路线,但只有约七成与参考路线一致。对一个规划系统而言,“合法但与标准答案不同”往往没问题——好路线本就不止一条——所以完全匹配低估了真实可用性。
为什么现在值得关注
它干净地检验了一件事:空间拓扑能否住进模型权重,而不是靠外部图。如果一个 4B 模型能仅凭文本在 12 万多个站点上重建出可达路线,这就是大模型把结构化地理隐式记到了可用精度的证据,也暗示了一种更轻的端侧路由可能——在难以塞进整套地图引擎的场景里。更大的贡献是这个基准:它给了这一方向一个共享、指标丰富的衡量方式,而不必各做各的自定义分数。
局限与存疑
诚实的限制由作者自己点明。数据集只覆盖单一平台的四座城市,因此对其他地理、其他数据源、或站点稀疏的小城市的泛化都未经检验。它只刻画静态路线结构——没有实时延误、班次变化或拥挤,而这恰恰是生产级公交路由最难的部分。而且头部分数来自平台自身的参考路线,所以 71.0% 完全匹配衡量的是与某一家”最优”定义的一致度,而非真值最优。想直接砍掉地图引擎的人应把它读作有力的概念验证,而非可部署的替代方案。
常见问题
TransitLM 是什么?
TransitLM 是面向无地图公交路线生成的大规模数据集与基准:1300 万条以上来自四座中国城市的规划记录(120,845 个站点、13,666 条线路),用于训练和评测无需路由引擎、仅凭文本规划公交路线的语言模型。
TransitLM 的模型规划路线有多好?
在 TransitLM 上微调的 4B Qwen3 模型,最优路线任务达到 97.0% 连通性和 71.0% 路线完全匹配,偏好感知规划上偏好遵循达 89.8%,明显优于被提示去解同样任务的通用大模型。
TransitLM 里的”无地图”是什么意思?
无地图指模型从不被给定显式的站点/线路图或路由引擎。它从原始规划记录中隐式学到城市拓扑并直接输出路线,且把站点 ID 注册为专用 token 以防幻觉出虚构站点。
TransitLM 有哪些局限?
TransitLM 只覆盖单一平台的四座中国城市,且只刻画静态路线结构、无实时动态。其完全匹配分数衡量的是与该平台参考路线的一致度而非真值最优,因此它是概念验证,而非生产级路由的替代品。
一句话:TransitLM 证明一个小型微调大模型能仅凭文本在 12 万多个站点上重建出合法公交路线——阅读 arXiv 原文。