本文是「AI入门指南」系列的第三篇文章。
引言:AI模型不只是”ChatGPT”
当你和朋友聊起 AI,他们可能会问:“你用的是 ChatGPT 吗?”
这个问题背后有一个常见的误解:AI = ChatGPT。
但实际上,ChatGPT 只是众多 AI 模型中的一个。AI 的世界远比这丰富多彩:
- 写文章用 GPT-5,回答用 Claude,代码用 DeepSeek
- 生图片用 Midjourney,拍视频用可灵 AI
- 语音克隆用 ElevenLabs,搜资料用 Perplexity
本章目标:给你一张 AI 模型的完整地图,让你在需要时能找到最合适的工具。
前置知识:本文是序章《术语讲解》的进阶篇。在开始之前,请确保你已了解 LLM、Token、RAG、Agent、MCP 等基本概念。
一、文本模型:最核心的AI能力
1.1 基座模型 vs 推理模型
文本模型是 AI 最核心的能力。根据”思考方式”不同,分为两类:
基座模型(Base Model):
- 特点:下一个 token 预测,反应快
- 适用:写作、聊天、代码生成、翻译
- 代表:GPT-5、Claude Sonnet 4.6、Gemini、DeepSeek-V3
推理模型(Reasoning Model):
- 特点:会”先思考再回答”,输出包含思维链
- 适用:数学推导、逻辑分析、复杂问题求解
- 代表:o1/o3、DeepSeek-R1、o1-pro
| 特性 | 基座模型 | 推理模型 |
|---|---|---|
| 响应速度 | 快(毫秒级) | 慢(可能需几十秒) |
| 思考过程 | 不展示 | 展示(可见) |
| 适用场景 | 写作、聊天、代码 | 数学、推理、分析 |
| 价格 | 中等 | 较高 |
选哪个?
- 日常写作聊天 → 基座模型
- 解数学题、分析法律合同 → 推理模型
1.2 主要厂商背景介绍
了解各公司的背景,有助于理解其模型的定位和专长。
国际厂商
OpenAI — 行业标杆 成立于 2015 年,总部位于旧金山。ChatGPT 的创造者,也是 GPT 系列的缔造者。专注通用人工智能(AGI),模型覆盖文本、代码、图像理解。生态最完善,API 文档最规范,是大多数开发者的首选。
Anthropic — 安全对齐 成立于 2021 年,由前 OpenAI 研究人员创立。专注于 AI 安全和对齐,Claude 系列以长对话记忆和严格的指令遵循著称。适合企业级应用和对安全性要求高的场景。
Google DeepMind — 多模态领先 Google 的 AI 研究部门,融合了 DeepMind(游戏/强化学习出身)和 Google Brain(Transformer 诞生之地)。Gemini 系列主打多模态和超长上下文,与 Google 搜索生态深度集成。
Meta — 开源标杆 Facebook 的母公司,以开放著称。Llama 系列是开源模型的标杆,商用免费,社区生态活跃。适合需要自有部署和数据隐私的场景。
xAI — 实时数据 马斯克创办的 AI 公司,Grok 系列与 X(原 Twitter)深度集成,优先获取实时信息。风格偏幽默,适合需要最新新闻和社交数据的场景。
Mistral AI — 欧洲合规 总部位于巴黎,专注高效开源模型。适合需要欧洲数据中心、合规 GDPR 的企业用户。
Cohere — 企业搜索 专注于企业级 RAG 和搜索场景,Command 系列在检索和引用方面表现突出。
国内厂商
DeepSeek — 性价比之王 中国 AI 公司,以开源和低成本著称。V3 和 R1 模型性能对标闭源旗舰,价格却只有几分之一。开发者生态活跃,是国产模型出海的代表。
阿里巴巴(通义千问) — 开源生态 阿里云的 Qwen 系列是开源最积极的国内厂商,生态完善,支持大量第三方工具。Qwen3-TTS 语音开源中文友好。
字节跳动(豆包) — 中文第一 旗下豆包 App 拥有 1.55 亿周活跃用户(据公开报道为中国第一)。Seed 2.0 在 SuperCLUE 中文评测中多次排名第一,多模态和 Agent 能力突出。
月之暗面(Kimi) — 长上下文 由清华大学团队创立,Kimi 系列以超长上下文著称,核心优势在于 200K+ 上下文窗口的稳定性,适合长文档处理。
小米 — 万亿参数 2026 年 3 月发布的 MiMo-V2 系列性能强劲,万亿参数、1M 上下文、Claw-Eval 全球前三。TTS 支持多种中文方言。
MiniMax — 多模态矩阵 稀宇科技,产品矩阵最全:文本(M2/M2.7)、语音(Speech 2.6)、视频(Hailuo AI)、音乐(Music 2.5+)。全球前五开源模型。
智谱 AI — 学术背景 清华大学技术背景,GLM 系列在学术圈使用广泛。ChatGLM 是最早的国产开源大模型之一。
阶跃星辰 — 多模态新锐 Step 系列开源,Step 3.5 Flash 在 Agent 场景表现突出。与上海 AI 实验室合作密切。
百度 — 高并发 文心一言是最早的国产大模型之一,ERNIE 系列在中文 NLP 任务上积累深厚。高并发支持好(100 RPM),适合企业大规模调用。
讯飞 — 语音交互 以语音识别起家,星火系列在语音合成、方言识别等交互场景有独特优势。
1.3 国内外厂商速览
| 阵营 | 代表厂商 | 一句话特点 |
|---|---|---|
| 国际旗舰 | OpenAI、Anthropic、Google | 技术领先,生态完善 |
| 国际开源 | Meta、Mistral | 开放免费,可自部署 |
| 国际特色 | xAI(实时)、Cohere(企业) | 差异化定位 |
| 国内第一梯队 | DeepSeek、阿里、字节 | 性价比/生态/中文 |
| 国内新锐 | 小米、智谱、阶跃星辰、MiniMax | 技术突破,各有专长 |
1.4 国际厂商与代表模型
| 公司 | Logo | 代表模型 | 上下文窗口 | 特点 |
|---|---|---|---|---|
| OpenAI | ![]() | GPT-5 Ultra | 128K | 行业标杆,生态完善 |
| OpenAI | — | GPT-5.2 | 200K | 新代旗舰,代码能力强 |
| OpenAI | — | GPT-5 Mini | 200K | 轻量快速,性价比高 |
| OpenAI | — | GPT-5 Nano | 128K | 最低成本,简单任务专用 |
| OpenAI | — | o3 | 200K | 推理能力强 |
| OpenAI | — | o4-mini | 200K | 推理性价之王 |
| Anthropic | ![]() | Claude Opus 4.6 | 200K | 超长上下文,安全对齐 |
| Anthropic | — | Claude Sonnet 4.6 | 200K | 性价比旗舰 |
| Anthropic | — | Claude Haiku 4.5 | 200K | 轻量级,低成本 |
![]() | Gemini 3 Pro | 1M+ | 最新旗舰,多模态最强 | |
| — | Gemini 2.0 Ultra | 1M+ | 多模态最强,搜索集成 | |
| — | Gemini 2.0 Flash | 1M | 性价比之选 | |
| — | Gemini 2.0 Flash-Lite | 1M | 最便宜主流模型 | |
| Meta | ![]() | Llama 4 Scout | 10M | 开源标杆,超大上下文 |
| Meta | — | Llama 4 Maverick | 10M | 开源最强性能 |
| xAI | ![]() | Grok 4 | 2M | 实时数据,幽默风格 |
| Mistral | ![]() | Mistral Large 3 | 256K | 欧洲合规,开源 |
| Cohere | ![]() | Command A | 256K | 企业 RAG 专用 |
1.5 国内厂商与代表模型
文本模型:
| 公司 | Logo | 代表模型 | 上下文窗口 | 特点 |
|---|---|---|---|---|
| DeepSeek | ![]() | DeepSeek-V3 | 128K | 性价比之王 |
| DeepSeek | — | DeepSeek-R1 | 128K | 推理能力强,开源免费 |
| 阿里 | ![]() | 通义千问 Qwen3 | 128K+ | 开源生态好 |
| 月之暗面 | ![]() | Kimi 系列 | 128K+ | 长上下文友好 |
| 字节 | ![]() | Doubao-Seed 2.0 Pro | 256K | 中文综合第一,代码强 |
| 字节 | — | Doubao-Seed 2.0 Lite | 256K | 性价比之选 |
| 字节 | — | Doubao-Seed 2.0 Mini | 256K | 最低成本 |
| 小米 | — | MiMo-V2-Pro | 1M | 万亿参数,全球前三 |
| 小米 | — | MiMo-V2-Omni | 262K | 全模态统一架构 |
| 智谱 | ![]() | GLM-5 / GLM-4-Plus | 128K | 学术背景 |
| 阶跃星辰 | — | Step 系列 | 128K | 开源,多模态 |
| MiniMax | ![]() | M2 系列 | 128K | 自我进化,Coding 能力强 |
| 百度 | — | ERNIE 4.5 | 128K | 高并发,中文优化 |
| 讯飞 | — | 星火 4.0 Ultra | 128K | 语音交互 |
1.6 价格对比(截至2026年3月)
国际市场(美元/百万tokens):
| 模型 | 输入 | 输出 | 缓存输入 | 免费额度 |
|---|---|---|---|---|
| GPT-5 Nano | $0.05 | $0.40 | $0.005 | 无 |
| GPT-5 Mini | $0.25 | $2.00 | $0.025 | 无 |
| GPT-5 Ultra | $1.25 | $10.00 | $0.125 | 无 |
| GPT-5.2 | $1.75 | $14.00 | $0.175 | 无 |
| Claude Haiku 4.5 | $1.00 | $5.00 | $0.10 | 无 |
| Claude Sonnet 4.6 | $3.00 | $15.00 | $0.30 | 无 |
| Claude Opus 4.6 | $5.00 | $25.00 | $0.50 | 无 |
| Gemini 2.0 Flash-Lite | $0.10 | $0.40 | - | 有 |
| Gemini 2.0 Flash | $0.10 | $0.40 | $0.025 | 有 |
| Gemini 2.0 Ultra | $1.25 | $10.00 | $0.125 | 有 |
| o4-mini | $1.10 | $4.40 | $0.275 | 无 |
| o3 | $2.00 | $8.00 | $1.00 | 无 |
| DeepSeek-V3 | $0.25 | $1.10 | $0.028 | 有 |
| DeepSeek-R1 | $0.55 | $2.19 | $0.028 | 有 |
| Llama 4 Scout | $0.11 | $0.34 | - | 免费权重 |
| Mistral Large 3 | $0.50 | $1.50 | - | 开源 |
| Grok 4 | $3.00 | $15.00 | - | 有 |
国内市场(元/百万tokens):
| 模型 | 输入 | 输出 | 缓存输入 | 免费额度 |
|---|---|---|---|---|
| DeepSeek-V3 | ¥1 | ¥2 | ¥0.028 | 500万tokens |
| DeepSeek-R1 | ¥2 | ¥8 | ¥0.028 | 有 |
| Doubao-Seed 2.0 Pro (≤32K) | ¥3.2 | ¥16 | — | 有 |
| Doubao-Seed 2.0 Lite | ¥0.8 | ¥2 | — | 有 |
| Doubao-Seed 2.0 Mini | ¥0.3 | ¥1 | — | 有 |
| 通义千问 Qwen3 | ¥2 | ¥6 | — | 有 |
| Kimi K2 | ¥2 | ¥6 | — | 有 |
| Kimi K2.5 | ¥2 | ¥6 | — | 有 |
| GLM-4-Plus | ¥5 | ¥5 | — | 2500万tokens |
| ERNIE 4.5 | ¥4 | ¥8 | — | 部分限免 |
| 星火 4.0 Ultra | ¥6 | ¥6 | — | 200万tokens |
| MiMo-V2-Pro (≤256K) | ¥7.3 | ¥21.9 | ¥1.46 | 有 |
| MiMo-V2-Pro (≤1M) | ¥14.6 | ¥43.8 | ¥1.46 | 有 |
| MiMo-V2-Omni | ¥2.92 | ¥14.6 | ¥0.58 | 有 |
| Step 3.5 Flash | ¥2.5 | ¥8 | ¥0.5 | 有 |
| MiniMax M2.5 | ¥1 | ¥4 | — | 有 |
1.7 Benchmark 评分参考
除了价格,模型的基准测试得分也是选型重要依据。以下数据来源于各厂商官方技术报告及第三方评测(数据截至 2026 年 Q1)。
| 模型 | MMLU | HumanEval | MATH | MT-Bench | 首 token 延迟 | 吞吐量 |
|---|---|---|---|---|---|---|
| o3 | 87.5 | 95.2 | 96.7 | — | ~3-15s | 20-50 TPS |
| o4-mini | 83.2 | 93.4 | 96.7 | — | ~2-10s | 30-60 TPS |
| DeepSeek R1 | 90.8 | 85.3 | 97.3 | — | ~2-15s | 20-50 TPS |
| Claude Sonnet 4.6 | 89.0 | 93.0 | 78.5 | 9.2 | ~400ms | 70-90 TPS |
| Claude Opus 4.6 | 89.5 | 91.0 | 76.0 | 9.3 | ~600ms | 40-60 TPS |
| Claude Haiku 4.5 | 80.0 | 89.5 | 72.0 | 8.6 | ~200ms | 120-150 TPS |
| GPT-5 Ultra | 86.5 | 90.2 | 80.4 | 9.2 | ~400ms | 80-190 TPS |
| DeepSeek-V3 | 88.5 | 82.6 | 90.2 | 8.8 | ~300-1000ms | 50-100 TPS |
| Gemini 2.0 Ultra | 87.2 | 84.0 | 78.0 | 9.0 | ~500ms | 60-80 TPS |
| Gemini 2.0 Flash | 83.6 | 82.0 | 73.1 | 8.6 | ~150ms | 150-200 TPS |
| Llama 4 Maverick | 85.5 | 88.0 | 78.5 | 8.7 | ~300-1000ms | 50-560 TPS |
| Llama 4 Scout | 79.6 | 82.0 | 70.5 | 8.3 | ~200-600ms | 100-600 TPS |
| Mistral Small 3.2 | 72.2 | 75.0 | 60.0 | 8.1 | ~100ms | 150-200 TPS |
注:Mistral Small 3.2 是 Mistral Small 系列的最新版本,与前文模型表格中的 Mistral Large 3 属于不同定位的产品线。 ⚠️ 数据说明:部分国产模型(如豆包、小米)的评测数据来源复杂,不同榜单口径不一。部分标注(如
* MMLU-Pro)表示该数据来自其他榜单而非标题榜单。如需精确选型,建议参考各厂商官方技术报告。
评分说明:
- MMLU:大规模多任务语言理解(0-100),衡量通用知识
- HumanEval:代码生成准确率(0-100)
- MATH:数学问题解决能力(0-100)
- MT-Bench:多轮指令遵循(0-10)
- TPS:每秒输出 token 数
1.7.1 主流 Benchmark 详解
不同榜单衡量模型的不同能力,选型时应关注与你的场景匹配的榜单。
| 榜单 | 衡量内容 | 权威性 | 适用场景 |
|---|---|---|---|
| MMLU | 通用知识(57个学科) | ⭐⭐⭐⭐⭐ | 通用选型参考 |
| HumanEval | 代码生成 | ⭐⭐⭐⭐ | 编程场景 |
| MATH | 数学推理 | ⭐⭐⭐⭐ | 科研/教育 |
| GPQA | PhD级科学问题 | ⭐⭐⭐⭐⭐ | 高难度推理 |
| SWE-bench | 真实代码修复 | ⭐⭐⭐⭐ | 软件工程 |
| GPQA Diamond | 博士级科学 | ⭐⭐⭐⭐⭐ | 精确推理 |
| Chatbot Arena | 人类偏好投票 | ⭐⭐⭐⭐⭐ | 真实体验 |
1.7.2 2026年各榜单Top 5
Humanity’s Last Exam(HLE)
| 排名 | 模型 | 得分 |
|---|---|---|
| 1 | Gemini 3 Pro Preview | 37.52% |
| 2 | Claude Opus 4.6 (max) | 34.44% |
| 3 | GPT-5 Pro | 31.64% |
| 4 | GPT-5.2 | 27.80% |
| 5 | GPT-5 (August ‘25) | 25.32% |
SWE-bench Verified(代码修复)
| 排名 | 模型 | 得分 |
|---|---|---|
| 1 | Claude Opus 4.6 | 78.7% |
| 2 | GPT-5.4 (high) | 76.9% |
| 3 | Claude Opus 4.5 | 76.7% |
| 4 | Gemini 3.1 Pro Preview | 75.6% |
| 5 | Gemini 3 Flash | 75.4% |
GPQA Diamond(博士级科学)
| 排名 | 模型 | 得分 |
|---|---|---|
| 1 | Gemini 3.1 Pro Preview | 94.1% |
| 2 | Gemini 3 Pro Preview | 92.6% |
| 3 | GPT-5.2 (xhigh) | 91.4% |
| 4 | Claude Opus 4.6 (32k thinking) | 90.5% |
| 5 | Claude Opus 4.6 (64k thinking) | 88.8% |
Chatbot Arena(人类偏好)
| 排名 | 模型 | ELO |
|---|---|---|
| 1 | Claude Opus 4.6 | ~1400 |
| 2 | GPT-5 Pro | ~1380 |
| 3 | Gemini 3 Pro | ~1370 |
注:Chatbot Arena 完整榜单较长,此处仅列出前三名。数据来源 Chatbot Arena (LMSYS)。
1.8 订阅计划(Coding Plan)
除了 API 按量付费,很多用户更偏好订阅制。以下是主流 AI 订阅方案:
ChatGPT 订阅
| 方案 | 价格 | 功能 |
|---|---|---|
| Free | $0 | 有限使用 GPT-4o |
| Plus | $20/月 | 无限 GPT-4o/5,o3,o4-mini,高峰优先 |
| Pro | $200/月 | 无限 GPT-5,o1-pro,最强模型 |
⚠️ ChatGPT 在中国大陆无法直接访问,需使用 VPN 或镜像站。使用 VPN 时建议选择静态住宅 IP(Residential Proxy),共享 IP 容易被平台识别为可疑流量而导致封号。
Claude 订阅
| 方案 | 价格 | 功能 |
|---|---|---|
| Free | $0 | 30-100条/天,Sonnet 4.6 |
| Pro | $20/月 | 5倍用量,Claude Code,优先访问 |
| Max 5x | $100/月 | 25倍 Free,Max 优先 |
| Max 20x | $200/月 | 100倍 Free,最低延迟 |
⚠️ Claude 在中国大陆无法直接访问,需使用 VPN 或镜像站。使用 VPN 时建议选择静态住宅 IP(Residential Proxy),共享 IP 容易被平台识别为可疑流量而导致封号。
GitHub Copilot
| 方案 | 价格 | 功能 |
|---|---|---|
| Free | $0 | 2000次补全/月,50次高级请求 |
| Pro | $10/月 | 无限补全,300次高级请求 |
| Pro+ | $39/月 | 1500次高级请求,全模型 |
| Business | $19/用户/月 | 300次/用户,IP赔偿,SSO |
| Enterprise | $39/用户/月 | 1000次/用户,知识库,自定义模型 |
注:需额外订阅 GitHub Pro(21/月)
Cursor(AI 代码编辑器)
| 方案 | 价格 | 功能 |
|---|---|---|
| Hobby | $0 | 有限补全,高级模型试用 |
| Pro | $20/月 | 无限补全,$20额度,Auto 无限 |
| Pro+ | $60/月 | $60额度(3x) |
| Ultra | $200/月 | $200额度(20x) |
| Business | $40/座位/月 | Pro功能+团队管理,SSO |
Windsurf
| 方案 | 价格 | 功能 |
|---|---|---|
| Free | $0 | 有限使用 |
| Pro | $15/月 | 无限补全,高级模型 |
| Enterprise | 定制 | 团队协作,安全合规 |
Claude Code
| 方案 | 价格 | 功能 |
|---|---|---|
| Free | $0 | 通过 Claude Web 使用 |
| Pro | $20/月 | Claude Code 使用权 |
| Max | $100-200/月 | 超大用量 |
Gemini / Google AI
| 方案 | 价格 | 功能 |
|---|---|---|
| Free | $0 | Gemini 基础功能 |
| Advanced | $20/月 | 无限 Ultra 1M,全模型 |
⚠️ Google AI 服务在中国大陆无法直接访问,需使用 VPN。使用 VPN 时建议选择静态住宅 IP(Residential Proxy),共享 IP 容易被平台识别为可疑流量而导致封号。
1.9 API 功能对比
选型时还需考虑 API 功能支持:
| 模型 | Function Calling | JSON Mode | Streaming | Fine-tuning | 企业级支持 |
|---|---|---|---|---|---|
| GPT-5 Ultra | ✅ | ✅ | ✅ | ✅ | ✅ |
| o3 | ✅ | ✅ | ✅ | ❌ | ✅ |
| Claude Opus 4.6 | ✅ | ✅ | ✅ | ❌ | ✅ |
| Claude Sonnet 4.6 | ✅ | ✅ | ✅ | ❌ | ✅ |
| Gemini 2.0 Ultra | ✅ | ✅ | ✅ | ✅ | ✅ |
| DeepSeek-V3 | ✅ | ✅ | ✅ | ✅ | ❌ |
| DeepSeek-R1 | ❌ | ❌ | ✅ | ❌ | ❌ |
| Llama 4 | ✅ | ✅ | ✅ | ✅ | ❌ |
| Mistral Large 3 | ✅ | ✅ | ✅ | ✅ | ✅ |
1.10 选型建议
| 场景 | 推荐模型 | 理由 |
|---|---|---|
| 预算优先 | DeepSeek-V3 / 豆包 | 价格最低,性能不差 |
| 追求质量 | GPT-5 Ultra / Claude Opus | 行业最强 |
| 中文场景 | 通义千问 / Kimi | 中文优化更好 |
| 推理任务 | DeepSeek-R1 / o3 | 专门训练推理能力 |
| 超长文档 | Claude Opus 4.6 (1M) | 上下文最长 |
1.11 成本优化技巧
同样的任务,用对策略可以节省 50-90% 的费用:
1.11.1 Prompt Caching(节省 75-90%)
如果你的系统提示词或 few-shot 示例在多次请求中保持不变,缓存后的 token 费用大幅降低:
| 平台 | 缓存节省比例 | 缓存后费用示例 |
|---|---|---|
| OpenAI | 90% | GPT-5.2 缓存后 $0.175/M |
| Anthropic | 90% | Opus 4.6 缓存后 $0.50/M |
| 75% | Gemini 2.0 Ultra 缓存后 $0.31/M | |
| DeepSeek | 90% | DeepSeek-V3 缓存后 $0.028/M |
1.11.2 Batch API(节省 50%)
非实时任务使用批处理 API,价格半折。适合:夜间数据处理、内容批量生成、评估流水线。
1.11.3 模型路由
不要所有请求都用最强模型。按复杂度路由:
简单查询 → GPT-5 Nano ($0.05/M)中等查询 → GPT-5 Mini ($0.25/M)复杂查询 → GPT-5.2 ($1.75/M)如果 70% 流量是简单任务,综合成本从 0.27/M。
1.11.4 输出管理
输出 token 通常比输入贵 4-8 倍。减少输出的方法:
- 要求结构化 JSON 而非冗长描述
- 设置 max_tokens 限制
- 要求简洁格式(“be concise”)
1.12 实际任务成本示例
| 任务类型 | 输入+输出 | 推荐模型 | 单次成本 | 1万次/月 |
|---|---|---|---|---|
| 文档摘要 | 4000+500 tokens | Gemini 2.0 Flash | $0.0006 | $60 |
| 客服聊天 | 800+400 tokens | Gemini 2.0 Flash | $0.00024 | $72 |
| 代码生成 | 2000+1500 tokens | GPT-5 Nano | $0.0007 | $105 |
| RAG 查询 | 8000+800 tokens | DeepSeek-V3 | $0.0029 | $290 |
| 复杂推理 | 2000+2000 tokens | o4-mini | $0.011 | $1100 |
二、多模态模型:不止于文字
2.1 图像理解
让 AI”看懂”图片的能力。
| 模型 | 厂商 | 特点 |
|---|---|---|
| GPT-5 Ultra | OpenAI | 文档 OCR 与视觉推理强,物体计数稍弱 |
| Claude Sonnet 4.6 | Anthropic | 速度与智能平衡佳,图表理解准确 |
| Gemini 2.0 Ultra | 多模态综合能力强,支持视频帧理解 |
2.2 图像生成
| 模型 | 厂商 | 价格 | 特点 |
|---|---|---|---|
| DALL-E 3 | OpenAI | 按次计费 | 文字渲染最准,API 集成便捷 |
| Midjourney | - | $10/月起 | 艺术风格最强,社区成熟 |
| Stable Diffusion | Stability AI | 开源免费 | 本地部署,完全可控 |
| FLUX.1 | - | 开源免费 | 生成速度最快(<2秒),照片级真实感强 |
| Nano Banana 2 | API付费 | 基于Gemini 3 Pro,文字渲染强 | |
| Imagen 4 | API付费 | 超高清晰度,2K分辨率 | |
| 即梦 | 字节(即梦) | 订阅制 | 中文提示词友好,字节生态 |
选哪个?
- 追求艺术风格 → Midjourney
- 文字渲染 → DALL-E 3 / Nano Banana 2
- 照片真实感/开源首选 → FLUX.1
- 国产首选 → 即梦
- 预算有限/可控 → Stable Diffusion
- 企业级/安全合规 → Adobe Firefly
- 品牌设计/Logo → Ideogram
- 游戏/创意资产 → Leonardo AI
2.3 视频生成
| 模型 | 厂商 | 价格 | 特点 |
|---|---|---|---|
| Seedance 2.0 | 字节(即梦) | 订阅制 | 多镜头叙事,4K/1080p,60秒时长,音画同步,据报道”地表最强” |
| Runway Gen-4.5 | Runway | $12/月起 | Motion Brush 精准控制,运动感强 |
| 可灵 AI 3.0 | 快手 | 免费额度 | 电影级画质,音视频同步,最长2分钟 |
| Veo 3.1 | $0.05/秒 | 生成速度快,成本低 | |
| Vidu Q3 | 生图AI | 免费试用 | 多镜头叙事,7天无限制 |
| Wan 2.2 | 阿里万兴 | 企业API | 高速,文本/图片/音频/视频控制,企业级 |
| Pika 2.5 | - | $8/月 | 性价比高,动画风格 |
| HeyGen | - | 免费3个/月 | AI数字人,商务视频,720p |
| Sora 2 | OpenAI | 已停服 | — |
注意:据公开报道,OpenAI Sora 已于 2026 年初停止服务。
2.4 语音相关
语音识别(ASR)—— 让 AI 听懂你说的话:
| 模型 | 厂商 | 特点 |
|---|---|---|
| Whisper | OpenAI | 开源,100+语言 |
| 讯飞星火 | 科大讯飞 | 中文优化 |
| 百度 ASR | 百度 | 实时性好 |
语音合成(TTS)—— 让 AI 说话:
| 模型 | 厂商 | 特点 |
|---|---|---|
| ElevenLabs | - | 情感表达最丰富,商业应用广泛 |
| Voxtral | Mistral | 评测超越 ElevenLabs,9语言,3秒克隆,开源 |
| 通义百聆 | 阿里 | 多粒度情感控制,方言与歌声支持 |
| MiniMax Speech 2.6 | MiniMax | Agent场景专用,超低延迟 |
| MiMo-TTS | 小米 | 支持方言(四川/河南/粤语) |
| OpenAI TTS | OpenAI | 集成最简便,57语言支持 |
| Qwen3-TTS | 阿里 | 开源可商用,中文发音自然 |
| Fish Speech | - | 开源免费,中文优化佳 |
选哪个?
- 追求品质 → ElevenLabs
- 需要最新技术/开源 → Voxtral(评测超越 ElevenLabs)
- 中文语音/Agent → MiniMax Speech 2.6
- 中文方言 → MiMo-TTS(四川/河南/粤语)
- 中文商用开源 → Qwen3-TTS / 通义百聆
- 预算有限/中文开源 → Fish Speech
三、Embedding 模型:语义搜索的基石
3.1 什么是 Embedding
一句话解释:把文本变成一串数字(向量),语义相似的文本在向量空间中距离更近。
应用场景:
- RAG(检索增强生成)的语义检索
- 知识库的相似文档匹配
- 推荐系统的物品相似度计算
3.2 主流 Embedding 模型
开源模型:
| 模型 | 开发者 | 特点 |
|---|---|---|
| BGE-M3 | 智源研究院 | 多语言第一,开源免费 |
| GTE | 阿里巴巴 | 中文优化,开源 |
| M3E | - | 中文场景专用 |
| Nomic-Embed | Nomic | 超长上下文 |
商业模型:
| 模型 | 厂商 | 特点 |
|---|---|---|
| text-embedding-3 | OpenAI | 性能优异,维度可调 |
| Voyage-3-large | Voyage AI | 代码/长文档专用 |
| Cohere | Cohere | 多语言支持 |
3.3 选型建议
| 场景 | 推荐模型 |
|---|---|
| 预算优先 | BGE-M3(开源免费) |
| 中文首选 | GTE-Qwen2-7B |
| 追求精度 | OpenAI text-embedding-3 |
| 代码检索 | Voyage-3-large |
四、AI 搜索:实时信息的窗口
4.1 什么是 AI 搜索
普通搜索:输入关键词,返回网页列表
AI 搜索:输入问题,AI 返回整理好的答案,并附参考来源
核心价值:让 AI 能获取实时信息,而不是只靠训练数据
4.2 主流 AI 搜索工具对比
| 工具 | 索引规模 | 速度 | 特点 | 价格 |
|---|---|---|---|---|
| Perplexity | 2000亿+ URL | 较慢(~11秒) | AI 回答+引用,学术强 | $20/月(Pro) |
| Tavily | 未公开 | 极快(~1秒) | 专为 Agent 优化,结构化 | 1000次/月免费 |
| Brave Search | 300亿+ 页面 | 快 | 独立索引,隐私优先 | API付费 |
| Exa | - | 快 | 语义搜索强 | API付费 |
4.3 选型建议
| 场景 | 推荐工具 |
|---|---|
| 日常使用 | Perplexity(回答质量最高) |
| 开发集成 | Tavily(速度快,AI 友好) |
| 隐私优先 | Brave Search(独立索引) |
| 语义搜索 | Exa(专为 AI 设计) |
五、模型选择决策树
需要处理什么任务?│├── 纯文本对话/写作│ ├── 预算有限 → DeepSeek-V3 / 豆包│ ├── 追求质量 → GPT-5 / Claude Opus│ └── 中文场景 → 通义千问 / Kimi│├── 需要推理(数学/逻辑/分析)│ ├── 预算优先 → DeepSeek-R1(开源免费)│ └── 不差钱 → o3 / GPT-5 Pro│├── 生成图片│ ├── 追求艺术风格 → Midjourney│ ├── 文字渲染 → DALL-E 3 / Nano Banana 2│ ├── 照片真实感 → FLUX.1│ ├── 国产首选 → 即梦│ └── 预算有限/可控 → Stable Diffusion│├── 生成视频│ ├── 追求质量/国产首选 → Seedance 2.0(即梦)│ ├── 追求艺术风格 → Runway Gen-4.5│ ├── 性价比优先 → 可灵 AI / Pika│ ├── 数字人/商务 → HeyGen│ └── 企业级批量 → Wan 2.2│├── 语音克隆/合成│ ├── 追求品质 → ElevenLabs│ └── 中文/开源 → Qwen3-TTS / Fish Speech│└── 需要语义搜索(Embedding) ├── 预算优先 → BGE-M3(开源免费) └── 不差钱 → OpenAI text-embedding-3六、2026 年 AI 模型趋势
6.1 主要趋势
| 趋势 | 说明 |
|---|---|
| 推理模型爆发 | o1、DeepSeek-R1 带起的”慢思考”模式成为标配 |
| 多模态融合 | GPT-5 Ultra、Gemini 3 实现原生多模态,不再是”拼接” |
| 价格战 | DeepSeek 逼得国际厂商降价,Gemini 2.0 Flash 输入价仅 $0.10/M |
| 开源崛起 | Llama 4、DeepSeek-V3/R1 开源性能逼近闭源 |
6.2 各厂商动态
OpenAI:GPT-5 Ultra 主打原生多模态,o3 系列统治推理场景 Anthropic:Claude Opus 4.6 主打超长上下文(1M)和安全对齐 Google:Gemini 3 百万上下文商业化,Veo 视频加入战局 DeepSeek:性价比之王,开源模型性能对齐闭源 Meta:Llama 4 开源继续,生态扩大
七、下一步
本系列目录:
- ✅ 序章:术语讲解
- ✅ 第一章:AI的思考模式
- ✅ 第二章:AI模型概述(本文)
- 📖 第三章:CLI Agent 与平台介绍
预告:了解了模型全景,下一章我们将介绍 多模型聚合、CLI Agent 等平台,如何快速上手使用 AI。
参考文献
[1] Anthropic. “Anthropic Pricing” https://www.anthropic.com/pricing
[2] Google AI. “Google AI API Pricing” https://ai.google.dev/pricing
[3] CrazyRouter. “AI API Pricing Comparison 2026” https://crazyrouter.com/en/blog/ai-api-pricing-comparison-developers-2026
[4] Reintech. “Embedding Models Comparison 2026” https://reintech.io/blog/embedding-models-comparison-2026-openai-cohere-voyage-bge
[5] PremAI. “Best Embedding Models for RAG 2026” https://blog.premai.io/best-embedding-models-for-rag-2026-ranked-by-mteb-score-cost-and-self-hosting/
[6] Pinggy. “Best Video Generation AI Models 2026” https://pinggy.io/blog/best_video_generation_ai_models/
[7] Digital Applied. “AI Video Market After Sora” https://www.digitalapplied.com/blog/ai-video-market-after-sora-runway-kling-veo-2026
[8] TeamDay. “Best AI Voice Models 2026” https://www.teamday.ai/blog/best-ai-voice-models-2026
[9] AI Multiple. “Agentic Search in 2026” https://aimultiple.com/agentic-search
[10] WebSearchAPI. “Tavily Alternatives 2026” https://websearchapi.ai/blog/tavily-alternatives
[11] TwiML AI. “AI Trends 2026” https://twimlai.com/podcast/twimlai/ai-trends-2026-openclaw-agents-reasoning-llms
[12] ByteByteGo. “What’s Next in AI 2026” https://blog.bytebytego.com/p/whats-next-in-ai-five-trends-to-watch
[13] LM Council. “AI Model Benchmarks Apr 2026” https://lmcouncil.ai/benchmarks
[14] Salt Technologies AI. “LLM Model Comparison 2026” https://www.salttechno.ai/datasets/llm-model-comparison-2026/
[15] TLDL. “LLM API Pricing 2026” https://www.tldl.io/resources/llm-api-pricing-2026
[16] Botpress. “2026年十大最佳大型语言模型(LLM)” https://botpress.com/tw/blog/best-large-language-models
[17] ScreenApp. “Claude AI Pricing 2026” https://screenapp.io/blog/claude-ai-pricing
[18] NxCode. “Cursor AI Pricing 2026” https://www.nxcode.io/resources/news/cursor-ai-pricing-plans-guide-2026
[19] UserJot. “GitHub Copilot Pricing” https://userjot.com/blog/github-copilot-pricing-guide
[20] cnblogs. “小米 MiMo-V2 系列完全指南 2026” https://www.cnblogs.com/sing1ee/p/19737250
[21] EvoLink. “豆包 Seed 2.0 深度评测” https://evolink.ai/zh/blog/doubao-seed-2-0-review-benchmarks-pricing
[22] 掘金. “2026 国产大模型 API 价格一览表” https://juejin.cn/post/7618239540529479734
关于本系列:本文是「AI入门指南」系列的第三篇。这个系列面向零基础读者,先讲原理后讲使用。
部分信息可能已经过时






















