网站首页 全球最实用的IT互联网站!

人工智能P2P分享Wind搜索发布信息网站地图标签大全

当前位置:诺佳网 > 人工智能 > 大模型 >

AI 数学的秘密花园:02.词怎么变成数字?(Toke

时间:2026-03-03 14:09

人气:

作者:admin

标签:

导读:文章浏览阅读1.4k次,点赞41次,收藏13次。摘要: AI无法直接理解人类语言,需通过Tokenization将文本切分为数字化的语言积木。这一过程如同将一锅语言粥切成AI可消化的小块,常用子词...

第2章:词怎么变成数字?(Tokenization:把一锅语言粥切成能下嘴的小积木)**

上一章咱们刚把AI数学比作搭乐高,是不是已经有点手痒想动手拼了?今天继续往前走,先解决一个最基础、最接地气的问题:那些五颜六色的乐高积木,到底是从哪儿来的?

在这里插入图片描述

(瞧这张厨房图,孩子做饭要切菜——把里面的菜换成“语言粥”,小机器人拿着菜刀笑眯眯地切,就完美了!)

AI不是天生就会说话,它其实是个超级挑食的数字星人——只吃数字,不吃汉字!


很多人以为AI直接读懂“你好,世界”,其实不然。它眼里只有0和1,像个只吃数字饭的小朋友,根本不认识那些弯弯曲曲的字。所以,第一步就是把人类的语言——那锅热腾腾、黏糊糊的语言粥——切成一块块大小能直接下嘴的小积木块。这道工序,就叫 Tokenization(分词 / Token化)。

我最爱这个比喻:一锅语言粥,切成乐高小积木。粥里混着中英文、标点、表情、网络热梗……乱七八糟热气腾腾。AI胃口小,吃不了整锅,得切成均匀小块才行!


为什么一定要切?

想象你端一整锅粥给AI,它直接傻眼:这玩意儿怎么吃啊?
必须切成小块,它才能一块一块慢慢嚼,找出里面的模式、统计规律和几何关系。

比如你敲一句:
“今天天气真不错,想出去浪~”

后台可能被切成:
[“今天”, “天气”, “真”, “不错”, “,”, “想”, “出去”, “浪”, “~”]

每个小积木再对应一个数字ID,比如 3456、7890……
这样AI就能用数字算

温馨提示:以上内容整理于网络,仅供参考,如果对您有帮助,留下您的阅读感言吧!
相关阅读
本类排行
相关标签
本类推荐

CPU | 内存 | 硬盘 | 显卡 | 显示器 | 主板 | 电源 | 键鼠 | 网站地图

Copyright © 2025-2035 诺佳网 版权所有 备案号:赣ICP备2025066733号
本站资料均来源互联网收集整理,作品版权归作者所有,如果侵犯了您的版权,请跟我们联系。

关注微信