近日,全国科学技术名词审定委员会发布公告,推荐将人工智能领域中的“Token”译为“词元”,并面向社会试用。随后,《人民日报》发文《专家解读token中文名为何定为“词元”》,对这一命名从专业角度进行了系统阐释。 文中提到,“token”一词源于古英语 tācen,意为“符号”或“标记”。在语言模型中,token是文本经过切分或字节级编码后得到的最小离散单元,既可以表现为词、子词、词缀或字符等不同形式。模型正是通过对token序列的建模,展...
8
最近,中文互联网掀起了一场关于 Token 翻译的“大辩论”。尤其是当“智元”这个词横空出世,在王小川等大佬和一众学术大咖的背书下,迅速形成了一种“共识幻觉”。很多人觉得:就是它了,这多有逼格,这多符合 AI 时代!但我必须泼一盆冷水:“智元”是一个漂亮的错误。它本质上是一篇逻辑包装极强的“认知提案”,而非一个能真正落地、跨越时代的“标准定义”。当行业忙着给 Token 涂抹“智能”的色彩时,我们似乎忘了,Token 诞生于香农的概率...
13