找文章 / 找答案
精选问答 更多内容

[Chatgpt] Chatgpt必备基础原理

喝酸奶不舔盖青铜四 显示全部楼层 发表于 2024-3-12 21:35:03 |阅读模式 打印 上一主题 下一主题

每当用户与 ChatGPT 进行交互时,是GPT 模型负责理解用户的问题并生成相应的答案
所以我们要区分ChatGPT和GPT,它们是两个不同的东西。
ChatGPT的开发会采用不同版本的GPT模型,比如GPT-3.5或GPT-4.0。
而在GPT的背后,令牌起着关键的作用。
640.png
令牌(Token)是什么?
"令牌"通常指的是文本中的基本单位。
在自然语言处理中,无论是我们向ChatGPT提问,还是用于训练GPT模型的数据,这些文本内容都会被切割成令牌。
而切割文本的过程,我们就称为令牌化。
在英语文本中,通常以空格,标点符号,以及每个单词作为一个令牌进行切割。
例如, "Hello, how are you?" 可以被分割成令牌:["Hello", ",", "how", "are", "you", "?"]。
而在汉语中,一个令牌通常对应一个汉字。
例如, "你好吗?" 可以被分割成令牌:["你", "好", "吗", "?"]。
生成内容的过程
令牌化是GPT生成内容过程中的一个关键步骤,但不是全部过程。
现在我们来看看完整的步骤,以中文为例。
输入内容
首先,在对话框中,用户通过提问输入一段文本。
"太阳刚升起,天空呈现出美丽的"。
令牌化 GPT模型首先接收到这段文本,然后,它将汉字逐个切分成令牌序列:
【“太”、“阳”、“刚”、“升”、“起”、“,”、“天”、“空”、“呈”、“现”、“出”、“美”、“丽”、“的”】。
令牌ID转换
每个令牌都被转换成一个唯一的数字ID
但具体的ID值是模型内部的表示,不一定是123、456这样的具体数字。
所以,“太”的令牌ID可能被转换为X,而“阳”的令牌ID可能被转换为Y。”。
生成预测
当输入的内容被分配好令牌ID后,GPT模型就要开始预测接下来的令牌ID了。
它会基于当前令牌序列(即“太阳刚升起,天空呈现出美丽的”对应的ID序列)预测并生成下一个令牌ID。
预测的结果可能会是“红色”这个令牌的ID,或其他与上下文相关的令牌ID。
在GPT模型进行令牌预测时,采用了注意力机制
这使得GPT不仅能考虑当前令牌,还会关注上下文里与当前位置相关的令牌。
这种注意力机制使得模型能够更精准地把握语境和语义,从而生成连贯的句子。
令牌ID转换回文本
生成的令牌ID(例如“红色”的ID)随后会被GPT转换回相应的文本令牌“红色”。
接着,GPT模型更新令牌序列(太阳刚升起,天空呈现出美丽的【红色】)。
然后,它以更新后的序列为基础,继续预测下一个令牌,生成文本,直至完成一个逻辑通顺句子。
输入肉容.png

总结
ChatGPT输出的每一个令牌,都是基于前面已生成的令牌进行预测的,它不断地查看已经输出的令牌序列,然后生成下一个令牌。
所以,它并不是真的在明白我们说什么。
实际上它是基于已生成的令牌序列,通过对语言模式和上下文关系的学习,进行下一个令牌的预测,从而产生内容。



回复

使用道具 举报

高级模式
您需要登录后才可以回帖 登录 | 免费注册

  • 官方微信

    欢迎关注永洪服务号!收费为0,价值无限

    扫码关注
  • 新浪微博

    让每位用户轻松挖掘数据价值!

    访问新浪微博
  • 智能客服
50W

会员等你来哦

Copyright   ©2012-2024  北京永洪商智科技有限公司  (京ICP备12050607) 京公网安备110110802011451号 |《永洪社区协议》
返回顶部