大模型概述(方便不懂技术的人入门)

news/2025/2/3 2:21:54 标签: 大模型, gpt

1 大模型的价值

LLM模型对人类的作用,就是一个百科全书级的助手。有多么地百科全书,则用参数的量来描述,
一般地,大模型的参数越多,则该模型越好。例如,GPT-3有1750亿个参数,GPT-4可能有超过1万亿个参数。

2 大模型的在OS上的表现形式

大模型包含一个参数文件(二进制文件)和一个代码文件。
在这里插入图片描述

3 大模型的主流架构

在这里插入图片描述
transformer架构是当前大模型的主流架构,transformer的左边是encoder、右边是decoder。但实际的大模型的架构是only decoder的transformer架构,也就是只有图的右边部分。

4 预训练、微调和强化学习对大模型的作用

完成预训练的大模型,属于文档完善型大模型,只能续写或改写用户的输入。这是基础形态。
文档完善型大模型经过了微调,可以变成生成型助手型大模型(有能力回答用户的问题)。这是进阶形态。
生成型助手型大模型对于有些问题回答得不好或产生幻觉,就可以通过人类反馈的强化学习来提升大模型的回答质量。这是高阶形态。

在这里插入图片描述



http://www.niftyadmin.cn/n/5840431.html

相关文章

2412. 完成所有交易的初始最少钱数

2412. 完成所有交易的初始最少钱数 题目链接:2412. 完成所有交易的初始最少钱数 代码如下: //参考链接:https://leetcode.cn/problems/minimum-money-required-before-transactions/solutions/1830862/by-endlesscheng-lvym class Solution…

即梦(Dreamina)技术浅析(四):生成对抗网络

即梦(Dreamina) 的生成对抗网络(GAN,Generative Adversarial Network)技术是其核心功能之一,用于生成高质量的图像、文本和视频内容。GAN 是一种深度学习模型,由生成器(Generator)和判别器(Discriminator)两部分组成,通过对抗训练的方式不断提升生成内容的质量。 …

Spring AOP 入门教程:基础概念与实现

目录 第一章:AOP概念的引入 第二章:AOP相关的概念 1. AOP概述 2. AOP的优势 3. AOP的底层原理 第三章:Spring的AOP技术 - 配置文件方式 1. AOP相关的术语 2. AOP配置文件方式入门 3. 切入点的表达式 4. AOP的通知类型 第四章&#x…

Java小白入门教程:LinkedList

目录 一、定义 二、作用 1、存储数据 2、动态扩容 3、提供方便的操作方法 三、使用场景 1.当你需要频繁地在列表的开头或结尾添加或删除元素时。 2.当你不需要按索引快速访问元素时,因为LinkedList访问元素需要从头开始遍历 3.当你不需要线程安全的数据结构…

Games104——引擎工具链高级概念与应用

世界编辑器 其实是一个平台(hub),集合了所有能够制作地形世界的逻辑 editor viewport:可以说是游戏引擎的特殊视角,会有部分editor only的代码(不小心开放就会变成外挂入口)Editable Object&…

如何选择Spring AOP的动态代理?JDK与CGLIB的适用场景

Spring AOP在默认情况下使用的动态代理方式,可以比作是餐厅里的“智能服务员助手”。 Spring AOP默认提供了两种动态代理方式:JDK动态代理和CGLIB代理。其选择取决于被代理的对象是否实现了接口,以及配置的代理模式。默认情况下,…

2.攻防世界PHP2及知识点

进入题目页面如下 意思是你能访问这个网站吗? ctrlu、F12查看源码,什么都没有发现 用kali中的dirsearch扫描根目录 命令如下,根据题目提示以及需要查看源码,扫描以php、phps、html为后缀的文件 dirsearch -u http://61.147.17…

C#属性和字段(访问修饰符)

不同点逻辑性/灵活性存储性访问性使用范围安全性属性(Property)源于字段,对字段的扩展,逻辑字段并不占用实际的内存可以被其他类访问对接收的数据范围做限定,外部使用增加了数据的安全性字段(Field)不经过逻辑处理占用内存的空间及位置大部分字段不能直接被访问内存使用不安全 …