mobile wallpaper 1mobile wallpaper 2mobile wallpaper 3mobile wallpaper 4mobile wallpaper 5mobile wallpaper 6
6055 字
19 分钟
AI入门指南·第二章:AI模型概述
2026-04-03

本文是「AI入门指南」系列的第三篇文章。

引言:AI模型不只是”ChatGPT”#

当你和朋友聊起 AI,他们可能会问:“你用的是 ChatGPT 吗?”

这个问题背后有一个常见的误解:AI = ChatGPT。

但实际上,ChatGPT 只是众多 AI 模型中的一个。AI 的世界远比这丰富多彩:

  • 写文章用 GPT-5,回答用 Claude,代码用 DeepSeek
  • 生图片用 Midjourney,拍视频用可灵 AI
  • 语音克隆用 ElevenLabs,搜资料用 Perplexity

本章目标:给你一张 AI 模型的完整地图,让你在需要时能找到最合适的工具。

前置知识:本文是序章《术语讲解》的进阶篇。在开始之前,请确保你已了解 LLM、Token、RAG、Agent、MCP 等基本概念。


一、文本模型:最核心的AI能力#

1.1 基座模型 vs 推理模型#

文本模型是 AI 最核心的能力。根据”思考方式”不同,分为两类:

基座模型(Base Model)

  • 特点:下一个 token 预测,反应快
  • 适用:写作、聊天、代码生成、翻译
  • 代表:GPT-5、Claude Sonnet 4.6、Gemini、DeepSeek-V3

推理模型(Reasoning Model)

  • 特点:会”先思考再回答”,输出包含思维链
  • 适用:数学推导、逻辑分析、复杂问题求解
  • 代表:o1/o3、DeepSeek-R1、o1-pro
特性基座模型推理模型
响应速度快(毫秒级)慢(可能需几十秒)
思考过程不展示展示(可见)
适用场景写作、聊天、代码数学、推理、分析
价格中等较高

选哪个?

  • 日常写作聊天 → 基座模型
  • 解数学题、分析法律合同 → 推理模型

1.2 主要厂商背景介绍#

了解各公司的背景,有助于理解其模型的定位和专长。

国际厂商#

OpenAI — 行业标杆 成立于 2015 年,总部位于旧金山。ChatGPT 的创造者,也是 GPT 系列的缔造者。专注通用人工智能(AGI),模型覆盖文本、代码、图像理解。生态最完善,API 文档最规范,是大多数开发者的首选。

Anthropic — 安全对齐 成立于 2021 年,由前 OpenAI 研究人员创立。专注于 AI 安全和对齐,Claude 系列以长对话记忆和严格的指令遵循著称。适合企业级应用和对安全性要求高的场景。

Google DeepMind — 多模态领先 Google 的 AI 研究部门,融合了 DeepMind(游戏/强化学习出身)和 Google Brain(Transformer 诞生之地)。Gemini 系列主打多模态和超长上下文,与 Google 搜索生态深度集成。

Meta — 开源标杆 Facebook 的母公司,以开放著称。Llama 系列是开源模型的标杆,商用免费,社区生态活跃。适合需要自有部署和数据隐私的场景。

xAI — 实时数据 马斯克创办的 AI 公司,Grok 系列与 X(原 Twitter)深度集成,优先获取实时信息。风格偏幽默,适合需要最新新闻和社交数据的场景。

Mistral AI — 欧洲合规 总部位于巴黎,专注高效开源模型。适合需要欧洲数据中心、合规 GDPR 的企业用户。

Cohere — 企业搜索 专注于企业级 RAG 和搜索场景,Command 系列在检索和引用方面表现突出。

国内厂商#

DeepSeek — 性价比之王 中国 AI 公司,以开源和低成本著称。V3 和 R1 模型性能对标闭源旗舰,价格却只有几分之一。开发者生态活跃,是国产模型出海的代表。

阿里巴巴(通义千问) — 开源生态 阿里云的 Qwen 系列是开源最积极的国内厂商,生态完善,支持大量第三方工具。Qwen3-TTS 语音开源中文友好。

字节跳动(豆包) — 中文第一 旗下豆包 App 拥有 1.55 亿周活跃用户(据公开报道为中国第一)。Seed 2.0 在 SuperCLUE 中文评测中多次排名第一,多模态和 Agent 能力突出。

月之暗面(Kimi) — 长上下文 由清华大学团队创立,Kimi 系列以超长上下文著称,核心优势在于 200K+ 上下文窗口的稳定性,适合长文档处理。

小米 — 万亿参数 2026 年 3 月发布的 MiMo-V2 系列性能强劲,万亿参数、1M 上下文、Claw-Eval 全球前三。TTS 支持多种中文方言。

MiniMax — 多模态矩阵 稀宇科技,产品矩阵最全:文本(M2/M2.7)、语音(Speech 2.6)、视频(Hailuo AI)、音乐(Music 2.5+)。全球前五开源模型。

智谱 AI — 学术背景 清华大学技术背景,GLM 系列在学术圈使用广泛。ChatGLM 是最早的国产开源大模型之一。

阶跃星辰 — 多模态新锐 Step 系列开源,Step 3.5 Flash 在 Agent 场景表现突出。与上海 AI 实验室合作密切。

百度 — 高并发 文心一言是最早的国产大模型之一,ERNIE 系列在中文 NLP 任务上积累深厚。高并发支持好(100 RPM),适合企业大规模调用。

讯飞 — 语音交互 以语音识别起家,星火系列在语音合成、方言识别等交互场景有独特优势。

1.3 国内外厂商速览#

阵营代表厂商一句话特点
国际旗舰OpenAI、Anthropic、Google技术领先,生态完善
国际开源Meta、Mistral开放免费,可自部署
国际特色xAI(实时)、Cohere(企业)差异化定位
国内第一梯队DeepSeek、阿里、字节性价比/生态/中文
国内新锐小米、智谱、阶跃星辰、MiniMax技术突破,各有专长

1.4 国际厂商与代表模型#

公司Logo代表模型上下文窗口特点
OpenAIOpenAIGPT-5 Ultra128K行业标杆,生态完善
OpenAIGPT-5.2200K新代旗舰,代码能力强
OpenAIGPT-5 Mini200K轻量快速,性价比高
OpenAIGPT-5 Nano128K最低成本,简单任务专用
OpenAIo3200K推理能力强
OpenAIo4-mini200K推理性价之王
AnthropicAnthropicClaude Opus 4.6200K超长上下文,安全对齐
AnthropicClaude Sonnet 4.6200K性价比旗舰
AnthropicClaude Haiku 4.5200K轻量级,低成本
GoogleGeminiGemini 3 Pro1M+最新旗舰,多模态最强
GoogleGemini 2.0 Ultra1M+多模态最强,搜索集成
GoogleGemini 2.0 Flash1M性价比之选
GoogleGemini 2.0 Flash-Lite1M最便宜主流模型
MetaMetaLlama 4 Scout10M开源标杆,超大上下文
MetaLlama 4 Maverick10M开源最强性能
xAIxAIGrok 42M实时数据,幽默风格
MistralMistralMistral Large 3256K欧洲合规,开源
CohereCohereCommand A256K企业 RAG 专用

1.5 国内厂商与代表模型#

文本模型

公司Logo代表模型上下文窗口特点
DeepSeekDeepSeekDeepSeek-V3128K性价比之王
DeepSeekDeepSeek-R1128K推理能力强,开源免费
阿里Qwen通义千问 Qwen3128K+开源生态好
月之暗面KimiKimi 系列128K+长上下文友好
字节DoubaoDoubao-Seed 2.0 Pro256K中文综合第一,代码强
字节Doubao-Seed 2.0 Lite256K性价比之选
字节Doubao-Seed 2.0 Mini256K最低成本
小米MiMo-V2-Pro1M万亿参数,全球前三
小米MiMo-V2-Omni262K全模态统一架构
智谱ChatGLMGLM-5 / GLM-4-Plus128K学术背景
阶跃星辰Step 系列128K开源,多模态
MiniMaxMiniMaxM2 系列128K自我进化,Coding 能力强
百度ERNIE 4.5128K高并发,中文优化
讯飞星火 4.0 Ultra128K语音交互

1.6 价格对比(截至2026年3月)#

国际市场(美元/百万tokens)

模型输入输出缓存输入免费额度
GPT-5 Nano$0.05$0.40$0.005
GPT-5 Mini$0.25$2.00$0.025
GPT-5 Ultra$1.25$10.00$0.125
GPT-5.2$1.75$14.00$0.175
Claude Haiku 4.5$1.00$5.00$0.10
Claude Sonnet 4.6$3.00$15.00$0.30
Claude Opus 4.6$5.00$25.00$0.50
Gemini 2.0 Flash-Lite$0.10$0.40-
Gemini 2.0 Flash$0.10$0.40$0.025
Gemini 2.0 Ultra$1.25$10.00$0.125
o4-mini$1.10$4.40$0.275
o3$2.00$8.00$1.00
DeepSeek-V3$0.25$1.10$0.028
DeepSeek-R1$0.55$2.19$0.028
Llama 4 Scout$0.11$0.34-免费权重
Mistral Large 3$0.50$1.50-开源
Grok 4$3.00$15.00-

国内市场(元/百万tokens)

模型输入输出缓存输入免费额度
DeepSeek-V3¥1¥2¥0.028500万tokens
DeepSeek-R1¥2¥8¥0.028
Doubao-Seed 2.0 Pro (≤32K)¥3.2¥16
Doubao-Seed 2.0 Lite¥0.8¥2
Doubao-Seed 2.0 Mini¥0.3¥1
通义千问 Qwen3¥2¥6
Kimi K2¥2¥6
Kimi K2.5¥2¥6
GLM-4-Plus¥5¥52500万tokens
ERNIE 4.5¥4¥8部分限免
星火 4.0 Ultra¥6¥6200万tokens
MiMo-V2-Pro (≤256K)¥7.3¥21.9¥1.46
MiMo-V2-Pro (≤1M)¥14.6¥43.8¥1.46
MiMo-V2-Omni¥2.92¥14.6¥0.58
Step 3.5 Flash¥2.5¥8¥0.5
MiniMax M2.5¥1¥4

1.7 Benchmark 评分参考#

除了价格,模型的基准测试得分也是选型重要依据。以下数据来源于各厂商官方技术报告及第三方评测(数据截至 2026 年 Q1)。

模型MMLUHumanEvalMATHMT-Bench首 token 延迟吞吐量
o387.595.296.7~3-15s20-50 TPS
o4-mini83.293.496.7~2-10s30-60 TPS
DeepSeek R190.885.397.3~2-15s20-50 TPS
Claude Sonnet 4.689.093.078.59.2~400ms70-90 TPS
Claude Opus 4.689.591.076.09.3~600ms40-60 TPS
Claude Haiku 4.580.089.572.08.6~200ms120-150 TPS
GPT-5 Ultra86.590.280.49.2~400ms80-190 TPS
DeepSeek-V388.582.690.28.8~300-1000ms50-100 TPS
Gemini 2.0 Ultra87.284.078.09.0~500ms60-80 TPS
Gemini 2.0 Flash83.682.073.18.6~150ms150-200 TPS
Llama 4 Maverick85.588.078.58.7~300-1000ms50-560 TPS
Llama 4 Scout79.682.070.58.3~200-600ms100-600 TPS
Mistral Small 3.272.275.060.08.1~100ms150-200 TPS

注:Mistral Small 3.2 是 Mistral Small 系列的最新版本,与前文模型表格中的 Mistral Large 3 属于不同定位的产品线。 ⚠️ 数据说明:部分国产模型(如豆包、小米)的评测数据来源复杂,不同榜单口径不一。部分标注(如 * MMLU-Pro)表示该数据来自其他榜单而非标题榜单。如需精确选型,建议参考各厂商官方技术报告。

评分说明

  • MMLU:大规模多任务语言理解(0-100),衡量通用知识
  • HumanEval:代码生成准确率(0-100)
  • MATH:数学问题解决能力(0-100)
  • MT-Bench:多轮指令遵循(0-10)
  • TPS:每秒输出 token 数

1.7.1 主流 Benchmark 详解#

不同榜单衡量模型的不同能力,选型时应关注与你的场景匹配的榜单。

榜单衡量内容权威性适用场景
MMLU通用知识(57个学科)⭐⭐⭐⭐⭐通用选型参考
HumanEval代码生成⭐⭐⭐⭐编程场景
MATH数学推理⭐⭐⭐⭐科研/教育
GPQAPhD级科学问题⭐⭐⭐⭐⭐高难度推理
SWE-bench真实代码修复⭐⭐⭐⭐软件工程
GPQA Diamond博士级科学⭐⭐⭐⭐⭐精确推理
Chatbot Arena人类偏好投票⭐⭐⭐⭐⭐真实体验

1.7.2 2026年各榜单Top 5#

数据来源:LM Council AI Benchmarks (2026-04)

Humanity’s Last Exam(HLE)#

排名模型得分
1Gemini 3 Pro Preview37.52%
2Claude Opus 4.6 (max)34.44%
3GPT-5 Pro31.64%
4GPT-5.227.80%
5GPT-5 (August ‘25)25.32%

SWE-bench Verified(代码修复)#

排名模型得分
1Claude Opus 4.678.7%
2GPT-5.4 (high)76.9%
3Claude Opus 4.576.7%
4Gemini 3.1 Pro Preview75.6%
5Gemini 3 Flash75.4%

GPQA Diamond(博士级科学)#

排名模型得分
1Gemini 3.1 Pro Preview94.1%
2Gemini 3 Pro Preview92.6%
3GPT-5.2 (xhigh)91.4%
4Claude Opus 4.6 (32k thinking)90.5%
5Claude Opus 4.6 (64k thinking)88.8%

Chatbot Arena(人类偏好)#

排名模型ELO
1Claude Opus 4.6~1400
2GPT-5 Pro~1380
3Gemini 3 Pro~1370

注:Chatbot Arena 完整榜单较长,此处仅列出前三名。数据来源 Chatbot Arena (LMSYS)

1.8 订阅计划(Coding Plan)#

除了 API 按量付费,很多用户更偏好订阅制。以下是主流 AI 订阅方案:

ChatGPT 订阅#

方案价格功能
Free$0有限使用 GPT-4o
Plus$20/月无限 GPT-4o/5,o3,o4-mini,高峰优先
Pro$200/月无限 GPT-5,o1-pro,最强模型

⚠️ ChatGPT 在中国大陆无法直接访问,需使用 VPN 或镜像站。使用 VPN 时建议选择静态住宅 IP(Residential Proxy),共享 IP 容易被平台识别为可疑流量而导致封号。

Claude 订阅#

方案价格功能
Free$030-100条/天,Sonnet 4.6
Pro$20/月5倍用量,Claude Code,优先访问
Max 5x$100/月25倍 Free,Max 优先
Max 20x$200/月100倍 Free,最低延迟

⚠️ Claude 在中国大陆无法直接访问,需使用 VPN 或镜像站。使用 VPN 时建议选择静态住宅 IP(Residential Proxy),共享 IP 容易被平台识别为可疑流量而导致封号。

GitHub Copilot#

方案价格功能
Free$02000次补全/月,50次高级请求
Pro$10/月无限补全,300次高级请求
Pro+$39/月1500次高级请求,全模型
Business$19/用户/月300次/用户,IP赔偿,SSO
Enterprise$39/用户/月1000次/用户,知识库,自定义模型

注:需额外订阅 GitHub Pro(4/月)或GitHubEnterprise4/月)或 GitHub Enterprise(21/月)

Cursor(AI 代码编辑器)#

方案价格功能
Hobby$0有限补全,高级模型试用
Pro$20/月无限补全,$20额度,Auto 无限
Pro+$60/月$60额度(3x)
Ultra$200/月$200额度(20x)
Business$40/座位/月Pro功能+团队管理,SSO

Windsurf#

方案价格功能
Free$0有限使用
Pro$15/月无限补全,高级模型
Enterprise定制团队协作,安全合规

Claude Code#

方案价格功能
Free$0通过 Claude Web 使用
Pro$20/月Claude Code 使用权
Max$100-200/月超大用量

Gemini / Google AI#

方案价格功能
Free$0Gemini 基础功能
Advanced$20/月无限 Ultra 1M,全模型

⚠️ Google AI 服务在中国大陆无法直接访问,需使用 VPN。使用 VPN 时建议选择静态住宅 IP(Residential Proxy),共享 IP 容易被平台识别为可疑流量而导致封号。

1.9 API 功能对比#

选型时还需考虑 API 功能支持:

模型Function CallingJSON ModeStreamingFine-tuning企业级支持
GPT-5 Ultra
o3
Claude Opus 4.6
Claude Sonnet 4.6
Gemini 2.0 Ultra
DeepSeek-V3
DeepSeek-R1
Llama 4
Mistral Large 3

1.10 选型建议#

场景推荐模型理由
预算优先DeepSeek-V3 / 豆包价格最低,性能不差
追求质量GPT-5 Ultra / Claude Opus行业最强
中文场景通义千问 / Kimi中文优化更好
推理任务DeepSeek-R1 / o3专门训练推理能力
超长文档Claude Opus 4.6 (1M)上下文最长

1.11 成本优化技巧#

同样的任务,用对策略可以节省 50-90% 的费用:

1.11.1 Prompt Caching(节省 75-90%)#

如果你的系统提示词或 few-shot 示例在多次请求中保持不变,缓存后的 token 费用大幅降低:

平台缓存节省比例缓存后费用示例
OpenAI90%GPT-5.2 缓存后 $0.175/M
Anthropic90%Opus 4.6 缓存后 $0.50/M
Google75%Gemini 2.0 Ultra 缓存后 $0.31/M
DeepSeek90%DeepSeek-V3 缓存后 $0.028/M

1.11.2 Batch API(节省 50%)#

非实时任务使用批处理 API,价格半折。适合:夜间数据处理、内容批量生成、评估流水线。

1.11.3 模型路由#

不要所有请求都用最强模型。按复杂度路由:

简单查询 → GPT-5 Nano ($0.05/M)
中等查询 → GPT-5 Mini ($0.25/M)
复杂查询 → GPT-5.2 ($1.75/M)

如果 70% 流量是简单任务,综合成本从 1.75/M降到1.75/M 降到 0.27/M。

1.11.4 输出管理#

输出 token 通常比输入贵 4-8 倍。减少输出的方法:

  • 要求结构化 JSON 而非冗长描述
  • 设置 max_tokens 限制
  • 要求简洁格式(“be concise”)

1.12 实际任务成本示例#

任务类型输入+输出推荐模型单次成本1万次/月
文档摘要4000+500 tokensGemini 2.0 Flash$0.0006$60
客服聊天800+400 tokensGemini 2.0 Flash$0.00024$72
代码生成2000+1500 tokensGPT-5 Nano$0.0007$105
RAG 查询8000+800 tokensDeepSeek-V3$0.0029$290
复杂推理2000+2000 tokenso4-mini$0.011$1100

二、多模态模型:不止于文字#

2.1 图像理解#

让 AI”看懂”图片的能力。

模型厂商特点
GPT-5 UltraOpenAI文档 OCR 与视觉推理强,物体计数稍弱
Claude Sonnet 4.6Anthropic速度与智能平衡佳,图表理解准确
Gemini 2.0 UltraGoogle多模态综合能力强,支持视频帧理解

2.2 图像生成#

模型厂商价格特点
DALL-E 3OpenAI按次计费文字渲染最准,API 集成便捷
Midjourney-$10/月起艺术风格最强,社区成熟
Stable DiffusionStability AI开源免费本地部署,完全可控
FLUX.1-开源免费生成速度最快(<2秒),照片级真实感强
Nano Banana 2GoogleAPI付费基于Gemini 3 Pro,文字渲染强
Imagen 4GoogleAPI付费超高清晰度,2K分辨率
即梦字节(即梦)订阅制中文提示词友好,字节生态

选哪个?

  • 追求艺术风格 → Midjourney
  • 文字渲染 → DALL-E 3 / Nano Banana 2
  • 照片真实感/开源首选 → FLUX.1
  • 国产首选 → 即梦
  • 预算有限/可控 → Stable Diffusion
  • 企业级/安全合规 → Adobe Firefly
  • 品牌设计/Logo → Ideogram
  • 游戏/创意资产 → Leonardo AI

2.3 视频生成#

模型厂商价格特点
Seedance 2.0字节(即梦)订阅制多镜头叙事,4K/1080p,60秒时长,音画同步,据报道”地表最强”
Runway Gen-4.5Runway$12/月起Motion Brush 精准控制,运动感强
可灵 AI 3.0快手免费额度电影级画质,音视频同步,最长2分钟
Veo 3.1Google$0.05/秒生成速度快,成本低
Vidu Q3生图AI免费试用多镜头叙事,7天无限制
Wan 2.2阿里万兴企业API高速,文本/图片/音频/视频控制,企业级
Pika 2.5-$8/月性价比高,动画风格
HeyGen-免费3个/月AI数字人,商务视频,720p
Sora 2OpenAI已停服

注意:据公开报道,OpenAI Sora 已于 2026 年初停止服务。

2.4 语音相关#

语音识别(ASR)—— 让 AI 听懂你说的话:

模型厂商特点
WhisperOpenAI开源,100+语言
讯飞星火科大讯飞中文优化
百度 ASR百度实时性好

语音合成(TTS)—— 让 AI 说话:

模型厂商特点
ElevenLabs-情感表达最丰富,商业应用广泛
VoxtralMistral评测超越 ElevenLabs,9语言,3秒克隆,开源
通义百聆阿里多粒度情感控制,方言与歌声支持
MiniMax Speech 2.6MiniMaxAgent场景专用,超低延迟
MiMo-TTS小米支持方言(四川/河南/粤语)
OpenAI TTSOpenAI集成最简便,57语言支持
Qwen3-TTS阿里开源可商用,中文发音自然
Fish Speech-开源免费,中文优化佳

选哪个?

  • 追求品质 → ElevenLabs
  • 需要最新技术/开源 → Voxtral(评测超越 ElevenLabs)
  • 中文语音/Agent → MiniMax Speech 2.6
  • 中文方言 → MiMo-TTS(四川/河南/粤语)
  • 中文商用开源 → Qwen3-TTS / 通义百聆
  • 预算有限/中文开源 → Fish Speech

三、Embedding 模型:语义搜索的基石#

3.1 什么是 Embedding#

一句话解释:把文本变成一串数字(向量),语义相似的文本在向量空间中距离更近。

应用场景

  • RAG(检索增强生成)的语义检索
  • 知识库的相似文档匹配
  • 推荐系统的物品相似度计算

3.2 主流 Embedding 模型#

开源模型

模型开发者特点
BGE-M3智源研究院多语言第一,开源免费
GTE阿里巴巴中文优化,开源
M3E-中文场景专用
Nomic-EmbedNomic超长上下文

商业模型

模型厂商特点
text-embedding-3OpenAI性能优异,维度可调
Voyage-3-largeVoyage AI代码/长文档专用
CohereCohere多语言支持

3.3 选型建议#

场景推荐模型
预算优先BGE-M3(开源免费)
中文首选GTE-Qwen2-7B
追求精度OpenAI text-embedding-3
代码检索Voyage-3-large

四、AI 搜索:实时信息的窗口#

4.1 什么是 AI 搜索#

普通搜索:输入关键词,返回网页列表

AI 搜索:输入问题,AI 返回整理好的答案,并附参考来源

核心价值:让 AI 能获取实时信息,而不是只靠训练数据

4.2 主流 AI 搜索工具对比#

工具索引规模速度特点价格
Perplexity2000亿+ URL较慢(~11秒)AI 回答+引用,学术强$20/月(Pro)
Tavily未公开极快(~1秒)专为 Agent 优化,结构化1000次/月免费
Brave Search300亿+ 页面独立索引,隐私优先API付费
Exa-语义搜索强API付费

4.3 选型建议#

场景推荐工具
日常使用Perplexity(回答质量最高)
开发集成Tavily(速度快,AI 友好)
隐私优先Brave Search(独立索引)
语义搜索Exa(专为 AI 设计)

五、模型选择决策树#

需要处理什么任务?
├── 纯文本对话/写作
│ ├── 预算有限 → DeepSeek-V3 / 豆包
│ ├── 追求质量 → GPT-5 / Claude Opus
│ └── 中文场景 → 通义千问 / Kimi
├── 需要推理(数学/逻辑/分析)
│ ├── 预算优先 → DeepSeek-R1(开源免费)
│ └── 不差钱 → o3 / GPT-5 Pro
├── 生成图片
│ ├── 追求艺术风格 → Midjourney
│ ├── 文字渲染 → DALL-E 3 / Nano Banana 2
│ ├── 照片真实感 → FLUX.1
│ ├── 国产首选 → 即梦
│ └── 预算有限/可控 → Stable Diffusion
├── 生成视频
│ ├── 追求质量/国产首选 → Seedance 2.0(即梦)
│ ├── 追求艺术风格 → Runway Gen-4.5
│ ├── 性价比优先 → 可灵 AI / Pika
│ ├── 数字人/商务 → HeyGen
│ └── 企业级批量 → Wan 2.2
├── 语音克隆/合成
│ ├── 追求品质 → ElevenLabs
│ └── 中文/开源 → Qwen3-TTS / Fish Speech
└── 需要语义搜索(Embedding)
├── 预算优先 → BGE-M3(开源免费)
└── 不差钱 → OpenAI text-embedding-3

六、2026 年 AI 模型趋势#

6.1 主要趋势#

趋势说明
推理模型爆发o1、DeepSeek-R1 带起的”慢思考”模式成为标配
多模态融合GPT-5 Ultra、Gemini 3 实现原生多模态,不再是”拼接”
价格战DeepSeek 逼得国际厂商降价,Gemini 2.0 Flash 输入价仅 $0.10/M
开源崛起Llama 4、DeepSeek-V3/R1 开源性能逼近闭源

6.2 各厂商动态#

OpenAI:GPT-5 Ultra 主打原生多模态,o3 系列统治推理场景 Anthropic:Claude Opus 4.6 主打超长上下文(1M)和安全对齐 Google:Gemini 3 百万上下文商业化,Veo 视频加入战局 DeepSeek:性价比之王,开源模型性能对齐闭源 Meta:Llama 4 开源继续,生态扩大


七、下一步#

本系列目录

  1. ✅ 序章:术语讲解
  2. ✅ 第一章:AI的思考模式
  3. ✅ 第二章:AI模型概述(本文)
  4. 📖 第三章:CLI Agent 与平台介绍

预告:了解了模型全景,下一章我们将介绍 多模型聚合、CLI Agent 等平台,如何快速上手使用 AI。


参考文献#

[1] Anthropic. “Anthropic Pricing” https://www.anthropic.com/pricing

[2] Google AI. “Google AI API Pricing” https://ai.google.dev/pricing

[3] CrazyRouter. “AI API Pricing Comparison 2026” https://crazyrouter.com/en/blog/ai-api-pricing-comparison-developers-2026

[4] Reintech. “Embedding Models Comparison 2026” https://reintech.io/blog/embedding-models-comparison-2026-openai-cohere-voyage-bge

[5] PremAI. “Best Embedding Models for RAG 2026” https://blog.premai.io/best-embedding-models-for-rag-2026-ranked-by-mteb-score-cost-and-self-hosting/

[6] Pinggy. “Best Video Generation AI Models 2026” https://pinggy.io/blog/best_video_generation_ai_models/

[7] Digital Applied. “AI Video Market After Sora” https://www.digitalapplied.com/blog/ai-video-market-after-sora-runway-kling-veo-2026

[8] TeamDay. “Best AI Voice Models 2026” https://www.teamday.ai/blog/best-ai-voice-models-2026

[9] AI Multiple. “Agentic Search in 2026” https://aimultiple.com/agentic-search

[10] WebSearchAPI. “Tavily Alternatives 2026” https://websearchapi.ai/blog/tavily-alternatives

[11] TwiML AI. “AI Trends 2026” https://twimlai.com/podcast/twimlai/ai-trends-2026-openclaw-agents-reasoning-llms

[12] ByteByteGo. “What’s Next in AI 2026” https://blog.bytebytego.com/p/whats-next-in-ai-five-trends-to-watch

[13] LM Council. “AI Model Benchmarks Apr 2026” https://lmcouncil.ai/benchmarks

[14] Salt Technologies AI. “LLM Model Comparison 2026” https://www.salttechno.ai/datasets/llm-model-comparison-2026/

[15] TLDL. “LLM API Pricing 2026” https://www.tldl.io/resources/llm-api-pricing-2026

[16] Botpress. “2026年十大最佳大型语言模型(LLM)” https://botpress.com/tw/blog/best-large-language-models

[17] ScreenApp. “Claude AI Pricing 2026” https://screenapp.io/blog/claude-ai-pricing

[18] NxCode. “Cursor AI Pricing 2026” https://www.nxcode.io/resources/news/cursor-ai-pricing-plans-guide-2026

[19] UserJot. “GitHub Copilot Pricing” https://userjot.com/blog/github-copilot-pricing-guide

[20] cnblogs. “小米 MiMo-V2 系列完全指南 2026” https://www.cnblogs.com/sing1ee/p/19737250

[21] EvoLink. “豆包 Seed 2.0 深度评测” https://evolink.ai/zh/blog/doubao-seed-2-0-review-benchmarks-pricing

[22] 掘金. “2026 国产大模型 API 价格一览表” https://juejin.cn/post/7618239540529479734


关于本系列:本文是「AI入门指南」系列的第三篇。这个系列面向零基础读者,先讲原理后讲使用。

分享

如果这篇文章对你有帮助,欢迎分享给更多人!

AI入门指南·第二章:AI模型概述
https://bayunmoyu.com/posts/ai-models-overview/
作者
八云墨玉
发布于
2026-04-03
许可协议
CC BY-NC-SA 4.0

部分信息可能已经过时

封面
Sample Song
Sample Artist
封面
Sample Song
Sample Artist
0:00 / 0:00