AI入门指南·第二章：AI模型概述

本文是「AI入门指南」系列的第三篇文章。

引言：AI模型不只是”ChatGPT”#

当你和朋友聊起 AI，他们可能会问：“你用的是 ChatGPT 吗？”

这个问题背后有一个常见的误解：AI = ChatGPT。

但实际上，ChatGPT 只是众多 AI 模型中的一个。AI 的世界远比这丰富多彩：

写文章用 GPT-5，回答用 Claude，代码用 DeepSeek
生图片用 Midjourney，拍视频用可灵 AI
语音克隆用 ElevenLabs，搜资料用 Perplexity

本章目标：给你一张 AI 模型的完整地图，让你在需要时能找到最合适的工具。

前置知识：本文是序章《术语讲解》的进阶篇。在开始之前，请确保你已了解 LLM、Token、RAG、Agent、MCP 等基本概念。

一、文本模型：最核心的AI能力#

1.1 基座模型 vs 推理模型#

文本模型是 AI 最核心的能力。根据”思考方式”不同，分为两类：

基座模型（Base Model）：

特点：下一个 token 预测，反应快
适用：写作、聊天、代码生成、翻译
代表：GPT-5、Claude Sonnet 4.6、Gemini、DeepSeek-V3

推理模型（Reasoning Model）：

特点：会”先思考再回答”，输出包含思维链
适用：数学推导、逻辑分析、复杂问题求解
代表：o1/o3、DeepSeek-R1、o1-pro

特性	基座模型	推理模型
响应速度	快（毫秒级）	慢（可能需几十秒）
思考过程	不展示	展示（可见）
适用场景	写作、聊天、代码	数学、推理、分析
价格	中等	较高

选哪个？

日常写作聊天 → 基座模型
解数学题、分析法律合同 → 推理模型

1.2 主要厂商背景介绍#

了解各公司的背景，有助于理解其模型的定位和专长。

国际厂商#

OpenAI — 行业标杆成立于 2015 年，总部位于旧金山。ChatGPT 的创造者，也是 GPT 系列的缔造者。专注通用人工智能（AGI），模型覆盖文本、代码、图像理解。生态最完善，API 文档最规范，是大多数开发者的首选。

Anthropic — 安全对齐成立于 2021 年，由前 OpenAI 研究人员创立。专注于 AI 安全和对齐，Claude 系列以长对话记忆和严格的指令遵循著称。适合企业级应用和对安全性要求高的场景。

Google DeepMind — 多模态领先 Google 的 AI 研究部门，融合了 DeepMind（游戏/强化学习出身）和 Google Brain（Transformer 诞生之地）。Gemini 系列主打多模态和超长上下文，与 Google 搜索生态深度集成。

Meta — 开源标杆 Facebook 的母公司，以开放著称。Llama 系列是开源模型的标杆，商用免费，社区生态活跃。适合需要自有部署和数据隐私的场景。

xAI — 实时数据马斯克创办的 AI 公司，Grok 系列与 X（原 Twitter）深度集成，优先获取实时信息。风格偏幽默，适合需要最新新闻和社交数据的场景。

Mistral AI — 欧洲合规总部位于巴黎，专注高效开源模型。适合需要欧洲数据中心、合规 GDPR 的企业用户。

Cohere — 企业搜索专注于企业级 RAG 和搜索场景，Command 系列在检索和引用方面表现突出。

国内厂商#

DeepSeek — 性价比之王中国 AI 公司，以开源和低成本著称。V3 和 R1 模型性能对标闭源旗舰，价格却只有几分之一。开发者生态活跃，是国产模型出海的代表。

阿里巴巴（通义千问） — 开源生态阿里云的 Qwen 系列是开源最积极的国内厂商，生态完善，支持大量第三方工具。Qwen3-TTS 语音开源中文友好。

字节跳动（豆包） — 中文第一旗下豆包 App 拥有 1.55 亿周活跃用户（据公开报道为中国第一）。Seed 2.0 在 SuperCLUE 中文评测中多次排名第一，多模态和 Agent 能力突出。

月之暗面（Kimi） — 长上下文由清华大学团队创立，Kimi 系列以超长上下文著称，核心优势在于 200K+ 上下文窗口的稳定性，适合长文档处理。

小米 — 万亿参数 2026 年 3 月发布的 MiMo-V2 系列性能强劲，万亿参数、1M 上下文、Claw-Eval 全球前三。TTS 支持多种中文方言。

MiniMax — 多模态矩阵稀宇科技，产品矩阵最全：文本（M2/M2.7）、语音（Speech 2.6）、视频（Hailuo AI）、音乐（Music 2.5+）。全球前五开源模型。

智谱 AI — 学术背景清华大学技术背景，GLM 系列在学术圈使用广泛。ChatGLM 是最早的国产开源大模型之一。

阶跃星辰 — 多模态新锐 Step 系列开源，Step 3.5 Flash 在 Agent 场景表现突出。与上海 AI 实验室合作密切。

百度 — 高并发文心一言是最早的国产大模型之一，ERNIE 系列在中文 NLP 任务上积累深厚。高并发支持好（100 RPM），适合企业大规模调用。

讯飞 — 语音交互以语音识别起家，星火系列在语音合成、方言识别等交互场景有独特优势。

1.3 国内外厂商速览#

阵营	代表厂商	一句话特点
国际旗舰	OpenAI、Anthropic、Google	技术领先，生态完善
国际开源	Meta、Mistral	开放免费，可自部署
国际特色	xAI（实时）、Cohere（企业）	差异化定位
国内第一梯队	DeepSeek、阿里、字节	性价比/生态/中文
国内新锐	小米、智谱、阶跃星辰、MiniMax	技术突破，各有专长

1.4 国际厂商与代表模型#

公司	Logo	代表模型	上下文窗口	特点
OpenAI		GPT-5 Ultra	128K	行业标杆，生态完善
OpenAI	—	GPT-5.2	200K	新代旗舰，代码能力强
OpenAI	—	GPT-5 Mini	200K	轻量快速，性价比高
OpenAI	—	GPT-5 Nano	128K	最低成本，简单任务专用
OpenAI	—	o3	200K	推理能力强
OpenAI	—	o4-mini	200K	推理性价之王
Anthropic		Claude Opus 4.6	200K	超长上下文，安全对齐
Anthropic	—	Claude Sonnet 4.6	200K	性价比旗舰
Anthropic	—	Claude Haiku 4.5	200K	轻量级，低成本
Google		Gemini 3 Pro	1M+	最新旗舰，多模态最强
Google	—	Gemini 2.0 Ultra	1M+	多模态最强，搜索集成
Google	—	Gemini 2.0 Flash	1M	性价比之选
Google	—	Gemini 2.0 Flash-Lite	1M	最便宜主流模型
Meta		Llama 4 Scout	10M	开源标杆，超大上下文
Meta	—	Llama 4 Maverick	10M	开源最强性能
xAI		Grok 4	2M	实时数据，幽默风格
Mistral		Mistral Large 3	256K	欧洲合规，开源
Cohere		Command A	256K	企业 RAG 专用

1.5 国内厂商与代表模型#

文本模型：

公司	Logo	代表模型	上下文窗口	特点
DeepSeek		DeepSeek-V3	128K	性价比之王
DeepSeek	—	DeepSeek-R1	128K	推理能力强，开源免费
阿里		通义千问 Qwen3	128K+	开源生态好
月之暗面		Kimi 系列	128K+	长上下文友好
字节		Doubao-Seed 2.0 Pro	256K	中文综合第一，代码强
字节	—	Doubao-Seed 2.0 Lite	256K	性价比之选
字节	—	Doubao-Seed 2.0 Mini	256K	最低成本
小米	—	MiMo-V2-Pro	1M	万亿参数，全球前三
小米	—	MiMo-V2-Omni	262K	全模态统一架构
智谱		GLM-5 / GLM-4-Plus	128K	学术背景
阶跃星辰	—	Step 系列	128K	开源，多模态
MiniMax		M2 系列	128K	自我进化，Coding 能力强
百度	—	ERNIE 4.5	128K	高并发，中文优化
讯飞	—	星火 4.0 Ultra	128K	语音交互

1.6 价格对比（截至2026年3月）#

国际市场（美元/百万tokens）：

模型	输入	输出	缓存输入	免费额度
GPT-5 Nano	$0.05	$0.40	$0.005	无
GPT-5 Mini	$0.25	$2.00	$0.025	无
GPT-5 Ultra	$1.25	$10.00	$0.125	无
GPT-5.2	$1.75	$14.00	$0.175	无
Claude Haiku 4.5	$1.00	$5.00	$0.10	无
Claude Sonnet 4.6	$3.00	$15.00	$0.30	无
Claude Opus 4.6	$5.00	$25.00	$0.50	无
Gemini 2.0 Flash-Lite	$0.10	$0.40	-	有
Gemini 2.0 Flash	$0.10	$0.40	$0.025	有
Gemini 2.0 Ultra	$1.25	$10.00	$0.125	有
o4-mini	$1.10	$4.40	$0.275	无
o3	$2.00	$8.00	$1.00	无
DeepSeek-V3	$0.25	$1.10	$0.028	有
DeepSeek-R1	$0.55	$2.19	$0.028	有
Llama 4 Scout	$0.11	$0.34	-	免费权重
Mistral Large 3	$0.50	$1.50	-	开源
Grok 4	$3.00	$15.00	-	有

国内市场（元/百万tokens）：

模型	输入	输出	缓存输入	免费额度
DeepSeek-V3	¥1	¥2	¥0.028	500万tokens
DeepSeek-R1	¥2	¥8	¥0.028	有
Doubao-Seed 2.0 Pro (≤32K)	¥3.2	¥16	—	有
Doubao-Seed 2.0 Lite	¥0.8	¥2	—	有
Doubao-Seed 2.0 Mini	¥0.3	¥1	—	有
通义千问 Qwen3	¥2	¥6	—	有
Kimi K2	¥2	¥6	—	有
Kimi K2.5	¥2	¥6	—	有
GLM-4-Plus	¥5	¥5	—	2500万tokens
ERNIE 4.5	¥4	¥8	—	部分限免
星火 4.0 Ultra	¥6	¥6	—	200万tokens
MiMo-V2-Pro (≤256K)	¥7.3	¥21.9	¥1.46	有
MiMo-V2-Pro (≤1M)	¥14.6	¥43.8	¥1.46	有
MiMo-V2-Omni	¥2.92	¥14.6	¥0.58	有
Step 3.5 Flash	¥2.5	¥8	¥0.5	有
MiniMax M2.5	¥1	¥4	—	有

1.7 Benchmark 评分参考#

除了价格，模型的基准测试得分也是选型重要依据。以下数据来源于各厂商官方技术报告及第三方评测（数据截至 2026 年 Q1）。

模型	MMLU	HumanEval	MATH	MT-Bench	首 token 延迟	吞吐量
o3	87.5	95.2	96.7	—	~3-15s	20-50 TPS
o4-mini	83.2	93.4	96.7	—	~2-10s	30-60 TPS
DeepSeek R1	90.8	85.3	97.3	—	~2-15s	20-50 TPS
Claude Sonnet 4.6	89.0	93.0	78.5	9.2	~400ms	70-90 TPS
Claude Opus 4.6	89.5	91.0	76.0	9.3	~600ms	40-60 TPS
Claude Haiku 4.5	80.0	89.5	72.0	8.6	~200ms	120-150 TPS
GPT-5 Ultra	86.5	90.2	80.4	9.2	~400ms	80-190 TPS
DeepSeek-V3	88.5	82.6	90.2	8.8	~300-1000ms	50-100 TPS
Gemini 2.0 Ultra	87.2	84.0	78.0	9.0	~500ms	60-80 TPS
Gemini 2.0 Flash	83.6	82.0	73.1	8.6	~150ms	150-200 TPS
Llama 4 Maverick	85.5	88.0	78.5	8.7	~300-1000ms	50-560 TPS
Llama 4 Scout	79.6	82.0	70.5	8.3	~200-600ms	100-600 TPS
Mistral Small 3.2	72.2	75.0	60.0	8.1	~100ms	150-200 TPS

注：Mistral Small 3.2 是 Mistral Small 系列的最新版本，与前文模型表格中的 Mistral Large 3 属于不同定位的产品线。 ⚠️ 数据说明：部分国产模型（如豆包、小米）的评测数据来源复杂，不同榜单口径不一。部分标注（如 * MMLU-Pro）表示该数据来自其他榜单而非标题榜单。如需精确选型，建议参考各厂商官方技术报告。

评分说明：

MMLU：大规模多任务语言理解（0-100），衡量通用知识
HumanEval：代码生成准确率（0-100）
MATH：数学问题解决能力（0-100）
MT-Bench：多轮指令遵循（0-10）
TPS：每秒输出 token 数

1.7.1 主流 Benchmark 详解#

不同榜单衡量模型的不同能力，选型时应关注与你的场景匹配的榜单。

榜单	衡量内容	权威性	适用场景
MMLU	通用知识（57个学科）	⭐⭐⭐⭐⭐	通用选型参考
HumanEval	代码生成	⭐⭐⭐⭐	编程场景
MATH	数学推理	⭐⭐⭐⭐	科研/教育
GPQA	PhD级科学问题	⭐⭐⭐⭐⭐	高难度推理
SWE-bench	真实代码修复	⭐⭐⭐⭐	软件工程
GPQA Diamond	博士级科学	⭐⭐⭐⭐⭐	精确推理
Chatbot Arena	人类偏好投票	⭐⭐⭐⭐⭐	真实体验

1.7.2 2026年各榜单Top 5#

数据来源：LM Council AI Benchmarks (2026-04)

Humanity’s Last Exam（HLE）#

排名	模型	得分
1	Gemini 3 Pro Preview	37.52%
2	Claude Opus 4.6 (max)	34.44%
3	GPT-5 Pro	31.64%
4	GPT-5.2	27.80%
5	GPT-5 (August ‘25)	25.32%

SWE-bench Verified（代码修复）#

排名	模型	得分
1	Claude Opus 4.6	78.7%
2	GPT-5.4 (high)	76.9%
3	Claude Opus 4.5	76.7%
4	Gemini 3.1 Pro Preview	75.6%
5	Gemini 3 Flash	75.4%

GPQA Diamond（博士级科学）#

排名	模型	得分
1	Gemini 3.1 Pro Preview	94.1%
2	Gemini 3 Pro Preview	92.6%
3	GPT-5.2 (xhigh)	91.4%
4	Claude Opus 4.6 (32k thinking)	90.5%
5	Claude Opus 4.6 (64k thinking)	88.8%

Chatbot Arena（人类偏好）#

排名	模型	ELO
1	Claude Opus 4.6	~1400
2	GPT-5 Pro	~1380
3	Gemini 3 Pro	~1370

注：Chatbot Arena 完整榜单较长，此处仅列出前三名。数据来源 Chatbot Arena (LMSYS)。

1.8 订阅计划（Coding Plan）#

除了 API 按量付费，很多用户更偏好订阅制。以下是主流 AI 订阅方案：

ChatGPT 订阅#

方案	价格	功能
Free	$0	有限使用 GPT-4o
Plus	$20/月	无限 GPT-4o/5，o3，o4-mini，高峰优先
Pro	$200/月	无限 GPT-5，o1-pro，最强模型

⚠️ ChatGPT 在中国大陆无法直接访问，需使用 VPN 或镜像站。使用 VPN 时建议选择静态住宅 IP（Residential Proxy），共享 IP 容易被平台识别为可疑流量而导致封号。

Claude 订阅#

方案	价格	功能
Free	$0	30-100条/天，Sonnet 4.6
Pro	$20/月	5倍用量，Claude Code，优先访问
Max 5x	$100/月	25倍 Free，Max 优先
Max 20x	$200/月	100倍 Free，最低延迟

⚠️ Claude 在中国大陆无法直接访问，需使用 VPN 或镜像站。使用 VPN 时建议选择静态住宅 IP（Residential Proxy），共享 IP 容易被平台识别为可疑流量而导致封号。

GitHub Copilot#

方案	价格	功能
Free	$0	2000次补全/月，50次高级请求
Pro	$10/月	无限补全，300次高级请求
Pro+	$39/月	1500次高级请求，全模型
Business	$19/用户/月	300次/用户，IP赔偿，SSO
Enterprise	$39/用户/月	1000次/用户，知识库，自定义模型

注：需额外订阅 GitHub Pro（ $4/月）或 GitHub Enterprise（$ 21/月）

Cursor（AI 代码编辑器）#

方案	价格	功能
Hobby	$0	有限补全，高级模型试用
Pro	$20/月	无限补全，$20额度，Auto 无限
Pro+	$60/月	$60额度（3x）
Ultra	$200/月	$200额度（20x）
Business	$40/座位/月	Pro功能+团队管理，SSO

Windsurf#

方案	价格	功能
Free	$0	有限使用
Pro	$15/月	无限补全，高级模型
Enterprise	定制	团队协作，安全合规

Claude Code#

方案	价格	功能
Free	$0	通过 Claude Web 使用
Pro	$20/月	Claude Code 使用权
Max	$100-200/月	超大用量

Gemini / Google AI#

方案	价格	功能
Free	$0	Gemini 基础功能
Advanced	$20/月	无限 Ultra 1M，全模型

⚠️ Google AI 服务在中国大陆无法直接访问，需使用 VPN。使用 VPN 时建议选择静态住宅 IP（Residential Proxy），共享 IP 容易被平台识别为可疑流量而导致封号。

1.9 API 功能对比#

选型时还需考虑 API 功能支持：

模型	Function Calling	JSON Mode	Streaming	Fine-tuning	企业级支持
GPT-5 Ultra	✅	✅	✅	✅	✅
o3	✅	✅	✅	❌	✅
Claude Opus 4.6	✅	✅	✅	❌	✅
Claude Sonnet 4.6	✅	✅	✅	❌	✅
Gemini 2.0 Ultra	✅	✅	✅	✅	✅
DeepSeek-V3	✅	✅	✅	✅	❌
DeepSeek-R1	❌	❌	✅	❌	❌
Llama 4	✅	✅	✅	✅	❌
Mistral Large 3	✅	✅	✅	✅	✅

1.10 选型建议#

场景	推荐模型	理由
预算优先	DeepSeek-V3 / 豆包	价格最低，性能不差
追求质量	GPT-5 Ultra / Claude Opus	行业最强
中文场景	通义千问 / Kimi	中文优化更好
推理任务	DeepSeek-R1 / o3	专门训练推理能力
超长文档	Claude Opus 4.6 (1M)	上下文最长

1.11 成本优化技巧#

同样的任务，用对策略可以节省 50-90% 的费用：

1.11.1 Prompt Caching（节省 75-90%）#

如果你的系统提示词或 few-shot 示例在多次请求中保持不变，缓存后的 token 费用大幅降低：

平台	缓存节省比例	缓存后费用示例
OpenAI	90%	GPT-5.2 缓存后 $0.175/M
Anthropic	90%	Opus 4.6 缓存后 $0.50/M
Google	75%	Gemini 2.0 Ultra 缓存后 $0.31/M
DeepSeek	90%	DeepSeek-V3 缓存后 $0.028/M

1.11.2 Batch API（节省 50%）#

非实时任务使用批处理 API，价格半折。适合：夜间数据处理、内容批量生成、评估流水线。

1.11.3 模型路由#

不要所有请求都用最强模型。按复杂度路由：

1
简单查询 → GPT-5 Nano ($0.05/M)
2
中等查询 → GPT-5 Mini ($0.25/M)
3
复杂查询 → GPT-5.2 ($1.75/M)

如果 70% 流量是简单任务，综合成本从 $1.75/M 降到$ 0.27/M。

1.11.4 输出管理#

输出 token 通常比输入贵 4-8 倍。减少输出的方法：

要求结构化 JSON 而非冗长描述
设置 max_tokens 限制
要求简洁格式（“be concise”）

1.12 实际任务成本示例#

任务类型	输入+输出	推荐模型	单次成本	1万次/月
文档摘要	4000+500 tokens	Gemini 2.0 Flash	$0.0006	$60
客服聊天	800+400 tokens	Gemini 2.0 Flash	$0.00024	$72
代码生成	2000+1500 tokens	GPT-5 Nano	$0.0007	$105
RAG 查询	8000+800 tokens	DeepSeek-V3	$0.0029	$290
复杂推理	2000+2000 tokens	o4-mini	$0.011	$1100

二、多模态模型：不止于文字#

2.1 图像理解#

让 AI”看懂”图片的能力。

模型	厂商	特点
GPT-5 Ultra	OpenAI	文档 OCR 与视觉推理强，物体计数稍弱
Claude Sonnet 4.6	Anthropic	速度与智能平衡佳，图表理解准确
Gemini 2.0 Ultra	Google	多模态综合能力强，支持视频帧理解

2.2 图像生成#

模型	厂商	价格	特点
DALL-E 3	OpenAI	按次计费	文字渲染最准，API 集成便捷
Midjourney	-	$10/月起	艺术风格最强，社区成熟
Stable Diffusion	Stability AI	开源免费	本地部署，完全可控
FLUX.1	-	开源免费	生成速度最快（<2秒），照片级真实感强
Nano Banana 2	Google	API付费	基于Gemini 3 Pro，文字渲染强
Imagen 4	Google	API付费	超高清晰度，2K分辨率
即梦	字节（即梦）	订阅制	中文提示词友好，字节生态

选哪个？

追求艺术风格 → Midjourney
文字渲染 → DALL-E 3 / Nano Banana 2
照片真实感/开源首选 → FLUX.1
国产首选 → 即梦
预算有限/可控 → Stable Diffusion
企业级/安全合规 → Adobe Firefly
品牌设计/Logo → Ideogram
游戏/创意资产 → Leonardo AI

2.3 视频生成#

模型	厂商	价格	特点
Seedance 2.0	字节（即梦）	订阅制	多镜头叙事，4K/1080p，60秒时长，音画同步，据报道”地表最强”
Runway Gen-4.5	Runway	$12/月起	Motion Brush 精准控制，运动感强
可灵 AI 3.0	快手	免费额度	电影级画质，音视频同步，最长2分钟
Veo 3.1	Google	$0.05/秒	生成速度快，成本低
Vidu Q3	生图AI	免费试用	多镜头叙事，7天无限制
Wan 2.2	阿里万兴	企业API	高速，文本/图片/音频/视频控制，企业级
Pika 2.5	-	$8/月	性价比高，动画风格
HeyGen	-	免费3个/月	AI数字人，商务视频，720p
Sora 2	OpenAI	已停服	—

注意：据公开报道，OpenAI Sora 已于 2026 年初停止服务。

2.4 语音相关#

语音识别（ASR）—— 让 AI 听懂你说的话：

模型	厂商	特点
Whisper	OpenAI	开源，100+语言
讯飞星火	科大讯飞	中文优化
百度 ASR	百度	实时性好

语音合成（TTS）—— 让 AI 说话：

模型	厂商	特点
ElevenLabs	-	情感表达最丰富，商业应用广泛
Voxtral	Mistral	评测超越 ElevenLabs，9语言，3秒克隆，开源
通义百聆	阿里	多粒度情感控制，方言与歌声支持
MiniMax Speech 2.6	MiniMax	Agent场景专用，超低延迟
MiMo-TTS	小米	支持方言（四川/河南/粤语）
OpenAI TTS	OpenAI	集成最简便，57语言支持
Qwen3-TTS	阿里	开源可商用，中文发音自然
Fish Speech	-	开源免费，中文优化佳

选哪个？

追求品质 → ElevenLabs
需要最新技术/开源 → Voxtral（评测超越 ElevenLabs）
中文语音/Agent → MiniMax Speech 2.6
中文方言 → MiMo-TTS（四川/河南/粤语）
中文商用开源 → Qwen3-TTS / 通义百聆
预算有限/中文开源 → Fish Speech

三、Embedding 模型：语义搜索的基石#

3.1 什么是 Embedding#

一句话解释：把文本变成一串数字（向量），语义相似的文本在向量空间中距离更近。

应用场景：

RAG（检索增强生成）的语义检索
知识库的相似文档匹配
推荐系统的物品相似度计算

3.2 主流 Embedding 模型#

开源模型：

模型	开发者	特点
BGE-M3	智源研究院	多语言第一，开源免费
GTE	阿里巴巴	中文优化，开源
M3E	-	中文场景专用
Nomic-Embed	Nomic	超长上下文

商业模型：

模型	厂商	特点
text-embedding-3	OpenAI	性能优异，维度可调
Voyage-3-large	Voyage AI	代码/长文档专用
Cohere	Cohere	多语言支持

3.3 选型建议#

场景	推荐模型
预算优先	BGE-M3（开源免费）
中文首选	GTE-Qwen2-7B
追求精度	OpenAI text-embedding-3
代码检索	Voyage-3-large

四、AI 搜索：实时信息的窗口#

4.1 什么是 AI 搜索#

普通搜索：输入关键词，返回网页列表

AI 搜索：输入问题，AI 返回整理好的答案，并附参考来源

核心价值：让 AI 能获取实时信息，而不是只靠训练数据

4.2 主流 AI 搜索工具对比#

工具	索引规模	速度	特点	价格
Perplexity	2000亿+ URL	较慢(~11秒)	AI 回答+引用，学术强	$20/月(Pro)
Tavily	未公开	极快(~1秒)	专为 Agent 优化，结构化	1000次/月免费
Brave Search	300亿+ 页面	快	独立索引，隐私优先	API付费
Exa	-	快	语义搜索强	API付费

4.3 选型建议#

场景	推荐工具
日常使用	Perplexity（回答质量最高）
开发集成	Tavily（速度快，AI 友好）
隐私优先	Brave Search（独立索引）
语义搜索	Exa（专为 AI 设计）

五、模型选择决策树#

1
需要处理什么任务？
2
│
3
├── 纯文本对话/写作
4
│   ├── 预算有限 → DeepSeek-V3 / 豆包
5
│   ├── 追求质量 → GPT-5 / Claude Opus
6
│   └── 中文场景 → 通义千问 / Kimi
7
│
8
├── 需要推理（数学/逻辑/分析）
9
│   ├── 预算优先 → DeepSeek-R1（开源免费）
10
│   └── 不差钱 → o3 / GPT-5 Pro
11
│
12
├── 生成图片
13
│   ├── 追求艺术风格 → Midjourney
14
│   ├── 文字渲染 → DALL-E 3 / Nano Banana 2
15
│   ├── 照片真实感 → FLUX.1
16
│   ├── 国产首选 → 即梦
17
│   └── 预算有限/可控 → Stable Diffusion
18
│
19
├── 生成视频
20
│   ├── 追求质量/国产首选 → Seedance 2.0（即梦）
21
│   ├── 追求艺术风格 → Runway Gen-4.5
22
│   ├── 性价比优先 → 可灵 AI / Pika
23
│   ├── 数字人/商务 → HeyGen
24
│   └── 企业级批量 → Wan 2.2
25
│
26
├── 语音克隆/合成
27
│   ├── 追求品质 → ElevenLabs
28
│   └── 中文/开源 → Qwen3-TTS / Fish Speech
29
│
30
└── 需要语义搜索（Embedding）
31
    ├── 预算优先 → BGE-M3（开源免费）
32
    └── 不差钱 → OpenAI text-embedding-3

六、2026 年 AI 模型趋势#

6.1 主要趋势#

趋势	说明
推理模型爆发	o1、DeepSeek-R1 带起的”慢思考”模式成为标配
多模态融合	GPT-5 Ultra、Gemini 3 实现原生多模态，不再是”拼接”
价格战	DeepSeek 逼得国际厂商降价，Gemini 2.0 Flash 输入价仅 $0.10/M
开源崛起	Llama 4、DeepSeek-V3/R1 开源性能逼近闭源

6.2 各厂商动态#

OpenAI：GPT-5 Ultra 主打原生多模态，o3 系列统治推理场景 Anthropic：Claude Opus 4.6 主打超长上下文（1M）和安全对齐 Google：Gemini 3 百万上下文商业化，Veo 视频加入战局 DeepSeek：性价比之王，开源模型性能对齐闭源 Meta：Llama 4 开源继续，生态扩大

七、下一步#

本系列目录：

✅ 序章：术语讲解
✅ 第一章：AI的思考模式
✅ 第二章：AI模型概述（本文）
📖 第三章：CLI Agent 与平台介绍

预告：了解了模型全景，下一章我们将介绍多模型聚合、CLI Agent 等平台，如何快速上手使用 AI。

参考文献#

[1] Anthropic. “Anthropic Pricing” https://www.anthropic.com/pricing

[2] Google AI. “Google AI API Pricing” https://ai.google.dev/pricing

[3] CrazyRouter. “AI API Pricing Comparison 2026” https://crazyrouter.com/en/blog/ai-api-pricing-comparison-developers-2026

[4] Reintech. “Embedding Models Comparison 2026” https://reintech.io/blog/embedding-models-comparison-2026-openai-cohere-voyage-bge

[5] PremAI. “Best Embedding Models for RAG 2026” https://blog.premai.io/best-embedding-models-for-rag-2026-ranked-by-mteb-score-cost-and-self-hosting/

[6] Pinggy. “Best Video Generation AI Models 2026” https://pinggy.io/blog/best_video_generation_ai_models/

[7] Digital Applied. “AI Video Market After Sora” https://www.digitalapplied.com/blog/ai-video-market-after-sora-runway-kling-veo-2026

[8] TeamDay. “Best AI Voice Models 2026” https://www.teamday.ai/blog/best-ai-voice-models-2026

[9] AI Multiple. “Agentic Search in 2026” https://aimultiple.com/agentic-search

[10] WebSearchAPI. “Tavily Alternatives 2026” https://websearchapi.ai/blog/tavily-alternatives

[11] TwiML AI. “AI Trends 2026” https://twimlai.com/podcast/twimlai/ai-trends-2026-openclaw-agents-reasoning-llms

[12] ByteByteGo. “What’s Next in AI 2026” https://blog.bytebytego.com/p/whats-next-in-ai-five-trends-to-watch

[13] LM Council. “AI Model Benchmarks Apr 2026” https://lmcouncil.ai/benchmarks

[14] Salt Technologies AI. “LLM Model Comparison 2026” https://www.salttechno.ai/datasets/llm-model-comparison-2026/

[15] TLDL. “LLM API Pricing 2026” https://www.tldl.io/resources/llm-api-pricing-2026

[16] Botpress. “2026年十大最佳大型语言模型(LLM)” https://botpress.com/tw/blog/best-large-language-models

[17] ScreenApp. “Claude AI Pricing 2026” https://screenapp.io/blog/claude-ai-pricing

[18] NxCode. “Cursor AI Pricing 2026” https://www.nxcode.io/resources/news/cursor-ai-pricing-plans-guide-2026

[19] UserJot. “GitHub Copilot Pricing” https://userjot.com/blog/github-copilot-pricing-guide

[20] cnblogs. “小米 MiMo-V2 系列完全指南 2026” https://www.cnblogs.com/sing1ee/p/19737250

[21] EvoLink. “豆包 Seed 2.0 深度评测” https://evolink.ai/zh/blog/doubao-seed-2-0-review-benchmarks-pricing

[22] 掘金. “2026 国产大模型 API 价格一览表” https://juejin.cn/post/7618239540529479734

关于本系列：本文是「AI入门指南」系列的第三篇。这个系列面向零基础读者，先讲原理后讲使用。

引言：AI模型不只是”ChatGPT”#

一、文本模型：最核心的AI能力#

1.1 基座模型 vs 推理模型#

1.2 主要厂商背景介绍#

国际厂商#

国内厂商#

1.3 国内外厂商速览#

1.4 国际厂商与代表模型#

1.5 国内厂商与代表模型#

1.6 价格对比（截至2026年3月）#

1.7 Benchmark 评分参考#

1.7.1 主流 Benchmark 详解#

1.7.2 2026年各榜单Top 5#

Humanity’s Last Exam（HLE）#

SWE-bench Verified（代码修复）#

GPQA Diamond（博士级科学）#

Chatbot Arena（人类偏好）#

1.8 订阅计划（Coding Plan）#

ChatGPT 订阅#

Claude 订阅#

GitHub Copilot#

Cursor（AI 代码编辑器）#

Windsurf#

Claude Code#

Gemini / Google AI#

1.9 API 功能对比#

1.10 选型建议#

1.11 成本优化技巧#

1.11.1 Prompt Caching（节省 75-90%）#

1.11.2 Batch API（节省 50%）#

1.11.3 模型路由#

1.11.4 输出管理#

1.12 实际任务成本示例#

二、多模态模型：不止于文字#

2.1 图像理解#

2.2 图像生成#

2.3 视频生成#

2.4 语音相关#

三、Embedding 模型：语义搜索的基石#

3.1 什么是 Embedding#

3.2 主流 Embedding 模型#

3.3 选型建议#

四、AI 搜索：实时信息的窗口#

4.1 什么是 AI 搜索#

4.2 主流 AI 搜索工具对比#

4.3 选型建议#

五、模型选择决策树#

六、2026 年 AI 模型趋势#

6.1 主要趋势#

6.2 各厂商动态#

七、下一步#

参考文献#

博客

博客