大模型从零入门：定义、起源、计量单位与分类详解

时间：2026-06-08 15:33

大模型是最近绕不开的话题，不管你是打算搞技术、找机会，还是单纯想跟得上趋势，第一件事就是系统搞懂它到底是什么。刚入门那会儿，我也只会跟着念叨GPT、通义千问、DeepSeek这些名字，但对什么是大模型、为什么突然火了、模型规模怎么衡量，其实完全没概念。今天咱们就用大白话，把大模型入门的基础知识完整

大模型是最近绕不开的话题，不管你是打算搞技术、找机会，还是单纯想跟得上趋势，第一件事就是系统搞懂它到底是什么。刚入门那会儿，我也只会跟着念叨GPT、通义千问、DeepSeek这些名字，但对什么是大模型、为什么突然火了、模型规模怎么衡量，其实完全没概念。

今天咱们就用大白话，把大模型入门的基础知识完整梳理一遍，帮你建立一个最底层的全局认知。有了这个底子，后面再学微调、RAG、智能体这些东西，效果会翻倍。

一、到底什么是大模型？

行业内其实没有统一的官方定义，但我们完全不用纠结那些学术拗口的表达。记住一个核心特质就够了：大模型就是训练数据海量、参数规模巨大、综合能力极强的深度神经网络模型。

这里有一个硬核的划分标准，记住了就不会混淆：

小模型：参数量小于10亿
大模型：参数量10亿以上

目前主流的模型规模有多夸张？放几个数直观感受一下：

BERT大约3亿参数
GPT-3做到了1750亿参数
DeepSeek-V3更是冲到了6710亿级别
顶尖模型已经迈入万亿参数时代

我们日常用的通义千问Qwen3系列，从0.6B、1.7B、4B、8B、14B一直覆盖到235B全梯度版本，本地部署、线上调用、私有化场景全能覆盖，不同尺寸对应不同的硬件配置和业务需求。

二、大模型为什么会横空出世？不是偶然，是三方合力

很多人好奇：为什么最近几年大模型突然爆发？其实完全不是凭空出现的，而是数据、算力、模型架构三者长期发展，刚好走到了爆发节点。

1. 数据够多：从人工标注到自监督学习

传统机器学习最大的痛点是什么？高度依赖人工标注数据。不管是图像分类、命名实体识别、情感分析还是语音转写，都要花钱花人力手动打标签，成本高、数据规模做不大，天花板一眼就能看到头。

而大模型彻底换了一套训练范式——自监督学习。说白了就是：不用人工打标签，模型自己从海量原始数据里挖掘内在规律，自动生成伪标签来训练。最典型的方式就是「预测下一个token」。

这个转变直接打破了数据瓶颈：

拿Qwen3来说，预训练直接用了36万亿token的语料，这是传统机器学习完全不敢想象的体量。

2. 算力够强：硬件迭代+分布式训练成熟

深度学习本质上就是大规模矩阵运算，天生适配GPU、TPU这类并行计算芯片。

一方面，英伟达GPU架构几乎年年迭代，从Kepler、Maxwell一路跑到最新的Blackwell，旗舰B200的半精度峰值算力达到了5PFLOPS（每秒5千万亿次浮点运算），单卡算力直接拉满。

另一方面，分布式训练技术也已经彻底成熟，三种并行方式撑起了超大规模模型的训练：

数据并行：每块显卡存完整模型副本，各自处理不同数据子集，最后聚合梯度同步更新参数
张量并行：把模型权重矩阵按维度切分到多卡，各设备只计算部分张量，再通过通信合并结果
流水线并行：将模型按层拆分成多个阶段，分配到不同设备，数据以流水线方式依次传递计算

有了高端硬件加分布式训练体系，千亿、万亿参数的大模型才从理论落地为现实。

3. 架构合理：Transformer成为底层基石

大模型能做这么大还能保持性能不掉线，最大的功臣就是Transformer架构。

它有两个核心优势：

原生支持并行计算，训练效率吊打传统的RNN、LSTM序列模型
具备极佳的可扩展性：模型参数、训练数据、训练步数越大，模型效果稳定收益越高，损失函数持续优化下降

毫不夸张地说，没有Transformer架构，就没有今天百花齐放的大模型时代。

简单小结

数据提供训练原料，算力提供硬件动力，Transformer提供架构底座。三者协同演进、完美契合，共同催生了全民大模型时代。

三、大模型三大计量单位，入门必懂避坑

聊大模型永远绕不开各种专业单位，新手很容易被B、T、PFLOPS绕晕。这里整理成极简易懂版本，看完直接上手无压力。

1. 参数规模：B为单位

B是Billion的缩写，代表10亿参数
7B模型 = 70亿参数
14B模型 = 140亿参数

2. 训练数据集规模：Token为核心

大模型训练前会把文本切分为最小的语义单元——Token，这也是衡量语料规模的标准：

实用小常识：

1个英文字符约等于0.3个Token
1个中文字符约等于0.6个Token

简单理解：Token就是大模型听懂人类语言的基础最小单位。

3. 计算规模：FLOPS浮点运算

用来衡量大模型训练消耗的计算量：

以后再看到论文或者模型参数海报，遇到这些单位就能一眼看懂模型的体量和训练成本了。

四、大模型完整分类体系

日常我们随口说的「大模型」，默认特指大语言模型。行业里有两套标准分类维度：按模态划分、按功能划分。

1. 按模态分类

「模态」这个词指的是人和机器感知世界的方式：文本、图像、音频、视频都属于不同模态。

类别	核心特点	输入输出	典型代表
大语言模型 LLM	仅处理文本，大模型生态核心	文本输入→文本输出	Qwen3、DeepSeek-V3、GPT-5语言模块
多模态理解模型	融合图文音视频，统一语义空间	多模态输入→文本理解输出	Qwen3-VL、GPT-5、Gemini-3
多模态生成模型	不仅能理解，还能跨模态创作	文本/图像输入→图/音/视频输出	Stable Diffusion、DALL·E、Sora

2. 按功能与输出形态分类

做工程落地、RAG、Agent开发，这套分类更具实战价值。

生成式大模型
自回归逐Token生成内容，从无到有创作文本、图像、音视频。

核心任务：内容生成
适用场景：对话、写作、推理、代码生成、RAG最终回答
特点：参数规模大、计算成本极高

嵌入模型
不生成文本，而是将文本/图像转为高维向量，语义相近的内容向量空间距离更近。

核心任务：语义编码表征
适用场景：知识库检索、语义搜索、推荐系统
代表模型：BGE、E5、GTE

重排序模型
对粗检索结果做精细化的语义打分，把高相关内容置顶。

核心任务：相关性排序
适用场景：RAG精排、搜索引擎排序优化

分类模型
输出离散的类别标签或概率分布，主要用于判别类任务。

核心任务：类别预测
适用场景：情感分析、垃圾邮件识别、意图分类
特点：多为微调后的小模型，成本低、落地快

3. 四类模型协同工作流程

在实际的企业项目中，这四类模型是配合使用的，这也是目前工业级RAG系统的标准架构。

五、大模型开源vs闭源，深度对比

入门必须搞懂开源与闭源模型的区别、商业逻辑和行业现状。

大模型四要素

模型权重、推理代码、训练代码、训练数据集。

开源大模型：主要开源权重加推理代码，训练代码和核心数据集基本保密
闭源大模型：权重、代码、内部实现全保密，纯黑盒模式

开源vs闭源对比

维度	开源大模型	闭源大模型
透明度	代码算法透明，可审计可二次开发	内部机制黑盒，无法溯源
可访问性	免费开源，无使用门槛	需授权，多为API付费调用
定制能力	支持私有化部署、深度微调	仅可调整API参数，定制受限
迭代速度	社区协同开发，迭代快	依赖厂商团队，迭代节奏慢
成本结构	免费使用，需自备硬件运维	按Token计费，前期轻、长期成本高
技术支持	依赖社区交流，无官方专属支持	提供企业级专属运维与技术服务

商业逻辑与主流混合模式

开源逻辑：用免费模型做技术扩散，吸引开发者共建生态，靠云服务、行业解决方案、企业定制变&现。
闭源逻辑：技术垄断构建护城河，通过API订阅、企业定制、专利授权直接盈利。
行业主流：开源引流，闭源变&现。Gemini+Gemma、Meta Llama、阿里通义千问、百度文心均采用这套模式——开源拉新做生态，闭源承接高端企业付费业务。

写在最后

这篇文章是大模型入门的地基，核心要点再复盘一下：

大模型判定标准：参数超过10亿，由数据、算力、Transformer架构三方合力催生。
掌握参数、Token、FLOPS三大核心计量单位。
分清模态分类、功能分类，理解四类模型协同落地的逻辑。
吃透开源与闭源的差异、商业逻辑以及行业主流策略。

来源：https://bbs.huaweicloud.com/blogs/478154

大模型

上一篇内容自动化工具汇创鸭AI工作原理与实操教程详解 下一篇小程序打开背后的运行全生命周期管理机制

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。