个人认为很不错,语言的最小单元,和字节这个翻译类似。有没有人去注册一家词元跳动的公司?🤣
1
youngteam99 21 小时 57 分钟前
这公司名 25 年就有了
|
2
passive 21 小时 54 分钟前 via Android
国内的编译原理课上你们把 token 叫什么?
|
3
axuadm19 21 小时 43 分钟前
支持!应该把 web\http\com\这些洋文都换成中文,体现文化自信,大国的遥遥领先。同时还要注意,用洋文的都是潜在的行走五十万,要列入重点观察名单里。
|
4
letwewell 21 小时 37 分钟前 一进来就看见小丑在表演,一天的心情都好了
|
5
loveqianool 21 小时 26 分钟前 via Android
不是 兔啃 吗?
|
6
alect 21 小时 17 分钟前
我觉得好,信达雅。
|
7
askfilm 21 小时 14 分钟前
很好, 比 token 好理解多了
|
8
meetyuan 21 小时 9 分钟前
就读 "掏啃" ,大家都能理解啊!
|
9
akorn 21 小时 9 分钟前
|
11
dcdlove 20 小时 59 分钟前
编程
语言解析器语法树中几十年前就有词元的定义了 |
12
kfpenn 20 小时 55 分钟前 我也觉得还不错,上面抵制的没必要这么暴躁,以前 token 只在程序员圈子里用,这种专业词不翻译没什么,但随着 ai 技术的普及,这个词肯定要被大众所知所用,如果不找个合适的翻译,以后想要和日语一样在日常用语中参杂大量的英文?
|
13
dajj 20 小时 52 分钟前
我觉得不如叫数字粮票
|
15
hash 20 小时 42 分钟前
个人觉得既然因为大语言模型导致很多普通人需要开始理解 token 那么进行中文化翻译完全没问题
但是翻译成词元...我说实话普通人也很难理解的 |
16
JiafuYuan 20 小时 39 分钟前 http 请求时的 token 也是词元吗,一帮专家闲着没事干
|
18
saranz 20 小时 37 分钟前 说实话,不是很明白为什么像 token 、Ai 这类的单词为什么非要翻译出一个中文词汇。
|
20
chandlerbing9317 20 小时 33 分钟前
@dajj 叫话费吧
|
22
break 20 小时 18 分钟前 @saranz 如果 token 可以用英文名这个逻辑成立,外来文化直接用他们原文,那我们说其它国家名称的时候是不是学的美国就是 America 、日本就是にほん呢?那对于新生代来讲,会需要学会全世界语言来接受外来文化的基础教育。
一个国家不是所有人都学了英语,站在更高的高度去看 14 亿人,考虑的问题需要更全面。也许新知识的推广,后期新生代的教育,有些东西需要编入文档,编入教材,转化成一个中国知识结构里面的内容,最终融汇到“文化”里面去。 |
23
break 20 小时 15 分钟前
token 在都理解的人群里面沟通交流,完全可以继续使用 token 。但是给它翻译成汉字也很重要,有它使用的场景
|
24
Chicagoake 20 小时 8 分钟前
我在多邻国学一些简单的日语想着以后万一出国了能用,结果被假名整崩溃了。
|
25
liu731 PRO 「 An Inquiry into the Nature and Causes of the Wealth of Nations 」
「国民财富的性质和原因的研究」 「国富论」 |
26
Dispatcher 20 小时 0 分钟前
@alect 信达雅个锤子。
token 就是 token ,强行命名适得其反,我给完全不懂这个 it 技术的老婆说这个词,反而我还要解释什么叫分词,为什么要消耗 token ,生成视频又怎么计算的等等。然后和我说一句,不明所以。 @Chicagoake 日本人也很苦恼片假名,所以你不用太担心。true 、false 都有片假名谁敢信…… |
27
wudaye 20 小时 0 分钟前
虽然但是,大模型流行之前,我一直以为 token 是临时会话密钥的意思啊
|
28
dajj 19 小时 58 分钟前
@chandlerbing9317 话费不震撼。 今天我用了 1 亿数字粮票, 听起来就有钱
|
29
zli 19 小时 57 分钟前
那
OAuth Token 就是“经国家网信办等有关部门官方认证的词元”了吧 可以安全调用(手动狗头) |
33
TUTOO 19 小时 52 分钟前
翻译成词元个人感觉挺好,又不是说写入法条强制规定要用,正式的翻译为正式的文件提供了参考、统一标准。习惯用 token 、掏坑、花费、粮票的继续用就好了,又不会被出警。
|
34
NewYear 19 小时 30 分钟前
“词元”可以接受
我印象中最近有一个翻译成“新 XX”( xx 忘记是什么了),就不太行。 |
35
18bili 19 小时 4 分钟前 偷啃
|
36
lujiaxing 18 小时 59 分钟前
这东西为什么非要翻译呢? 就叫 token 不行吗????? 不翻译就叫 token 统一叫 token 会死吗
|
38
yuzii 18 小时 48 分钟前
词元 token
图元 primitive 片元 fragment 体元 voxel |
39
Procumbens 18 小时 46 分钟前
@NewYear 新智元
|
40
cmdOptionKana 18 小时 42 分钟前 我看有人建议翻译为“偷啃”就挺好的,偷啃你的钱包
|
43
cmdOptionKana 18 小时 33 分钟前 @lujiaxing 程序员思维、精英主义思维不利于赚钱。对于很多 AI 潜在消费者来说,token 这个英语单词确实不太友好。
你会反对 browser 翻译为浏览器吗,你会反对 programming 翻译成“编程”吗,你会反对 computer 翻译为电脑吗?如果不反对,为什么偏偏要反对 token 呢。 |
44
NO9527 18 小时 33 分钟前
token 指代东西太多了
|
46
wowawesome 18 小时 29 分钟前 不如 话费
|
47
lujiaxing 18 小时 28 分钟前
@cmdOptionKana 因为 Programming, Computer, Web-Brow-ser 这些词又长读起来又拗口. Pro-gram-ming, Com-pu-ter 读起来都很麻烦, 不如 "编程", "电脑", "浏览器" 读起来简洁明了. 写起来也不如中文简洁
|
50
cdwyd 18 小时 9 分钟前 via Android
token 这个词本身就挺模糊的,词元比 token 好理解。
|
52
ChineseTeacher 17 小时 39 分钟前 我都不知道上面这么多人在应激什么。“词元”这个翻译明明很好啊,让我想到把“byte”翻译成“字节”。
每个 byte 能承载一个 ASCII 字母,所以翻译成“字节”。token 翻译成词元,“元”引申单元,也指最基础的、小的处理单位,我觉得很好听。 其他领域内 token 翻译成令牌、代币,那是其他领域的事。你如果能认为 LLM 的 token 跟翻译成令牌、代币的 token 是一回事,那证明你对这些概念的理解有重大错误。 维基百科“token”在电脑领域下给了七八个不同的词条,都可以叫 token 。session token (网页会话)、security token (指 yubikey 这种东西)、access token (这种情况下翻译成令牌),还有虚拟货币的 token (翻译成代币)全都是不同的词条,LLM 的 token 的词条叫 tokenization ,这几个概念差别很大,英语里却只有一个词。搞一个新词出来方便一般公众理解,合适得不得了。 我还是觉得最适合跟词元这个翻译类比的是字节。字节和 byte 也没关系,但纯意译就搞了这么个翻译出来。mouse 英文就是老鼠,但计算机领域给翻译成鼠标。switch 在生活里可以指墙上的开关,动词可以指开关的动作,也可以指切换;专业领域里可以指铁路铁轨的道岔,还能指任天堂的游戏机;但是计算机领域里就给翻译成“交换机”。在实际可行的时候,根据实际含义来细化英文词汇的中文翻译,是理所当然的。如 switch 一样,一个英文单词对应多个中文含义的情况是非常多见的,token 能有 3 个中文翻译,分别对应不同情况,反倒对公众的理解是好事。 在日本人四处往语言里塞片假名的时候,我跟着一起喷。在微软把 sit back and relax 翻译成“坐和放宽”的时候,我也跟着一起喷。但词元这个翻译既不是片假名,也不是坐和放宽这种垃圾翻译,我无法理解为什么还会有人喷。你爱用 token 就用,就像你用 byte 一样。 |
53
PrinceofInj 17 小时 26 分钟前 via Android @JiafuYuan http 请求的时候叫令牌啊,中文现在这种是最好的,我是想不明白为什么同样是 token ,在两个环境下有两个完全不同的意思。英语简直是…
|
54
vasto 17 小时 18 分钟前
难以理解
|
55
zyzdxb 17 小时 18 分钟前 2 token 就是二次元了
|
56
micean 17 小时 12 分钟前
@PrinceofInj 英语造词能力太弱了
|
57
TimG 17 小时 10 分钟前 via Android 日文假名的含金量飙升 hhhh
|
58
tinydancer 16 小时 43 分钟前 @axuadm19 这也能上来阴阳两句😅
|
59
zachary99 16 小时 42 分钟前 via Android
确实比 token 更加贴切和容易理解
|
60
tangping 16 小时 40 分钟前
点卡
|
61
fredweili 16 小时 14 分钟前
无所谓,我就用英文说,简单无歧义
|
62
mangmaimu 16 小时 10 分钟前 via iPhone
问了下 ai ,词元都还是缩写,全称是词法单元,早就有了
|
63
answeryou 15 小时 57 分钟前
辞猿
|
64
woodfizky 15 小时 44 分钟前
|
65
back0893 15 小时 42 分钟前
也不错
|
66
sddyzm 15 小时 41 分钟前
好像是早就有了
|
67
usVexMownCzar 15 小时 36 分钟前 via iPhone
叫什么都行,关键要给出词语的解释。
|
68
Quik 15 小时 30 分钟前
感觉不太合适,毕竟 token 里面也有不是词,或者是标点符号等部分,但我也没有想到更好的翻译。
这就像 Transformer 在毕业论文里总不能硬翻译成“变压器”和“变形金刚”之外,最后只能继续写英文。 |
70
herewego 15 小时 26 分钟前 我感觉不少 v2er 有点儿高高在上的。。。。
|
71
zsqduke 15 小时 24 分钟前 via iPhone 我主张直接音译,叫透肯或者投肯。
你试图信达雅,今天你说叫这个,明天我说叫那个,一千个人一千个想法 其实具体叫什么不重要、重要的是共识。比如像日语音译。有一个固定规则,可以翻译所有外来词,这样任何新词所有人都可以直接知道别人会怎么说 这就是音译的好处 而中文引入外来词的体系,每次都需要这个词进入大众视野以后等大家都需要用它了,然后再憋出来一个所谓“信达雅”的正式翻译,然后这个翻译又要一段时间被大众接受,最终才能成为中文自己的词汇。这个过程所花的时间、菜都凉了。 因为在没有语言能表达这个概念的时候这个概念只能在小范围内传播、这阻碍阻碍了各种概念的引入,阻碍了思想的交流 |
73
zsqduke 15 小时 11 分钟前 via iPhone
@PrinceofInj
怎么会想不明白呢 英语思维的视角其实都是同一个意思,token 就是 token 的意思。brother 就是 brother 的意思。 中文思维去理解不得不拆成不同词汇 举个简单反面例子,打:打人,打电话,打水,打针,打球 分别是,hit ,call ,fill ,inject ,play 的意思,都是完全不相干的 看,看书,看电视 是 read 和 watch ,也是不同的 可以想象写汉语的外国人的崩溃程度吗 |
75
wupher 15 小时 6 分钟前
还是新加坡聪明
|
79
jetsung 14 小时 58 分钟前
想当初,Google 中文定名为 “谷歌” 时,也一堆人反对。然并...
官方翻译的主要是给它官方公文使用而已。不会影响什么。 |
80
artiga033 14 小时 56 分钟前 via Android
上面一堆说 access token 的真是闹麻了,把多义词 token 拆成几个不同的表述(词元、令牌)不是天大的好事吗。
为意识形态和民族主义站队就没必要了。 因为相反,我还支持把“内存”和“外存”叫回 memory 和 storage ,或者记忆体和存储😅 |
81
zsqduke 14 小时 56 分钟前 via iPhone
@Leeeeex 音译,意译本来就是各有利弊,音译的弊端我就不赘述了。刚才说了一下音译的好处就是快速造词
你觉得现在非专业人士在用这些 ai 领域的名词的时候有几个人真的知道这些词是什么意思的?不影响人们需要用这些词啊。语言只是一个标签,本身没有含义,重要的是这个标签和指代物的对应关系 不管是汉字还是表音文字的单词,最终其实都只是一个标签 |
82
Inn0Vat10n 14 小时 55 分钟前
如果我遇到一个程序说今天又消耗了一百万的词元,我会觉得他是傻逼
|
83
asAnotherJack 14 小时 54 分钟前
叫什么中文名都会有人不满意的
先不谈能不能普及开这个叫法,至少从语义上我觉得还不错。 直接提到 token 这个单词我最先想到的是令牌,鉴权那些东西,而不是大模型里那个 token |
84
Leeeeex PRO |
85
skydcnmana 14 小时 44 分钟前
@asAnotherJack 其实不如就叫代币,令牌含义本质也是源自地铁票这种使用场景,也是代替货币在一定范围内使用的
|
86
hellozzh 14 小时 42 分钟前
支持,从根本上防范被西化
|
87
zsqduke 14 小时 42 分钟前 via iPhone
@Leeeeex
那一长串假名,看过去都不知道是啥东西,还得脑内转换一遍英语真的方便吗? 我学过日语,在学日语的时候确实是这样的感觉。但是我觉得不能把我们日语学习者的经历直接代入到日本人自己是这样。因为假名是他们原生文字 从我们对我们自己的原生文字汉字的经历来推导,日常常用的词就不说了。举个例子,阿玛尼,我觉得我们中国人看到阿玛尼这三个字,是要脑子里转化成 armani ,然后再理解到是那个品牌吗,听到阿玛尼就直接反应出来啦,不需要想到英文的 再来讨论碰到不认识的假名的情况。比如有个人没听说过阿玛尼。他认识的过程也不是去查阿玛尼的英文是什么呀。当然是直接去把阿玛尼和阿玛尼这家店关联在一起呀,不需要通过英文的 通过英文是中国的日语学习者臆想的 |
88
murmur 14 小时 42 分钟前
|
89
chairuosen 14 小时 38 分钟前
信达雅
|
90
murmur 14 小时 37 分钟前 @Leeeeex 鲁棒性是个凑合的翻译,喷这个词说明你就没仔细考虑过,都是跟风的,首先他以性结尾,说明这个是特性,虽然不知道,但是肯定是个术语,毕竟是表示某种特性,而且表音,这就是合格线水平了
类似得翻译很多,吞拿<鱼>,士多<店>,萨姆<导弹>,奇异<果>,卡布奇诺<咖啡>,你别管是什么音译,表意的部分不能丢 反倒是一些常用的音译词,马达没有马,麦克风没有风,镭射没有雷,而且我们有电动机、话筒这种更接底气的翻译,然而前面的词是港台搞得他就牛逼 鲁棒性是我们自己搞得就 low 这不还是崇洋媚外 |
91
guagusi 14 小时 34 分钟前
说 token 简单没歧义的,是没用过一个叫“令牌”的东西么
|
92
zsqduke 14 小时 34 分钟前 via iPhone
@Leeeeex #84
语言最重要的是共识,就是我知道这东西叫 a ,我也知道你知道这东西叫 a ,所以我说 a 的时候我就是知道你知道我在说什么 信达雅固然好,的代价是,达成这个共识需要的时间更长,代价更高。对于我们已经在用的词汇,信达雅当然是好的,那是因为历史上已经承担了时间代价。 其实不仅仅是时间代价,还有翻译门槛被提高。比如 token 是因为现在 llm 进入大众视野所以翻译被提上日程。但是还有几万个小众领域亚文化的词汇,可能永远都不会被央视提及,这些词汇永远不会被正式翻译。 就比如游戏词汇,buff ,debuff 。事实上已经出圈了。如果中文有标准音译系统的话,这些词就可以更方便地被传播 我个人受到困扰的是心理学和其他社会科学的很多词汇,意译过来模棱两可,很多概念用中文无法表达 |
93
lukesy 14 小时 26 分钟前
v2 也这么无聊了么,
|
94
oisadfo 14 小时 23 分钟前
贴切又精妙
|
95
fpure 14 小时 23 分钟前
我觉得完全没有必要把常见单词翻译为中文,这种反而会让中文语言演化越来越排外,中英文混合表达本已成为生活中的习惯
|
96
Leeeeex PRO |
97
Leeeeex PRO @zsqduke #92
我觉得你说的对 我们共识的一个词就可以用来代称某样东西,但是问题是现在不止是程序员群体需要这个词 AI 爆火,现在需要对不同领域不同年龄的人宣传,那这时候还是只站在自己的角度去考虑就不负责任了 至于时间代价,我觉得是因为之前压根没考虑过需要翻译这个词,没想到 ai 现在爆火到这种程度,已经需要到了普通民众也会去了解的程度,实际上真的想要去做到信达雅的翻译,单从技术上来说我觉得是不需要很长的时间。 像你说的 buff 这种词,就是邻居二大爷一辈子都不需要、也不想知道的词。 |
99
murmur 14 小时 3 分钟前
@Leeeeex 当然我针对的不是你,我说的是这个大环境,音译词里,大众使用的音译词里,翻的拉跨的一大把,尤其是像,盖世太保,歇斯底里,可口可乐,这种你得单独背才能找出几个信达雅的
|
100
Nuttertoo1s 14 小时 2 分钟前
这个翻译也还好吧,程序员之间用 token 大家都懂,如果 ai 要大众推广的话,用词元也没毛病
|