GPT

关键要点

研究表明，GPT - 4.1在编码、指令遵循和长上下文理解方面表现最佳，上下文窗口达100万个标记。证据显示，o4 - mini专注于推理，擅长数学和视觉任务，上下文窗口为20万个标记，成本较低。看起来，GPT - 4o是通用多模态模型，上下文窗口为12.8万个标记，性能较新模型稍逊。

模型概述

GPT - 4.1、o4 - mini和GPT - 4o是OpenAI开发的先进AI模型，各有不同用途。以下是它们的详细比较，帮助您理解它们之间的差异。

用途和重点

GPT - 4.1：专为开发者设计，擅长编码、指令遵循和处理大上下文（100万个标记），适合需要高精度和长上下文的任务。
o4 - mini：专注于推理，优化速度和成本，擅长数学、视觉推理（如从图像中解数独）和编码，适合高效任务。
GPT - 4o：通用多模态模型，支持文本、图像等输入，但较新模型在编码和长上下文任务上表现稍逊。

上下文窗口

GPT - 4.1：支持100万个标记，处理超大输入。
o4 - mini：20万个标记，介于GPT - 4.1和GPT - 4o之间。
GPT - 4o：12.8万个标记，较小，处理大输入能力有限。

性能

基准测试	GPT - 4.1	o4 - mini	GPT - 4o
编码（SWE - bench Verified）	54.6%	68.1%	33.2%
指令遵循（MultiChallenge）	38.3%	-	27.8%
长上下文（OpenAI - MRCR）	57.2%	-	31.9%
视觉（MMMU）	74.8%	81.6%	68.7%
学术知识（MMLU）	90.2%	-	85.7%

注：o4 - mini的某些基准测试数据未直接与GPT - 4o比较，但根据相关资料，其性能接近o3。

成本

GPT - 4.1：输入每百万标记2美元，输出8美元（综合1.84美元），比GPT - 4o便宜26%，但比o4 - mini贵。
o4 - mini：输入每百万标记1.10美元，输出4.40美元，最具成本效益。
GPT - 4o：比GPT - 4.1贵26%，具体定价未列出。

可用性

GPT - 4.1：仅通过API提供，不在ChatGPT中。
o4 - mini：在ChatGPT（Plus、Pro、Team用户）中可用，作为“o4 - mini”和“o4 - mini - high”，也通过API提供。
GPT - 4o：在ChatGPT和API中可用，作为较旧模型。

详细报告

背景与定义

OpenAI最近发布了多个AI模型，包括GPT系列和o系列。GPT - 4.1是GPT系列的最新迭代，专为开发者设计，强调编码和长上下文处理。o4 - mini是o系列的一部分，专注于推理任务，优化速度和成本。GPT - 4o是之前的通用多模态模型，性能较新模型稍逊。

根据相关资料，GPT - 4.1包括GPT - 4.1、GPT - 4.1 mini和GPT - 4.1 nano，均通过API提供，知识截止日期为2024年6月。o4 - mini强调其推理能力和成本效益。相关资料还提供了对这些模型的比较，补充了性能洞察。

详细比较

用途与重点
- GPT - 4.1：专为开发者设计，擅长处理复杂编码工作流程和长文档。它在指令遵循和长上下文理解方面表现优异，适合需要高精度和大规模输入的任务，是旗舰模型，适用于软件工程和复杂任务。
- o4 - mini：属于o系列，专注于推理任务，优化速度和成本。它在数学、视觉推理和编码方面表现强劲，例如从图像中解数独或解决复杂数学问题，是效率引擎，适合高量请求。
- GPT - 4o：通用多模态模型，支持文本、图像和其他输入。它是之前的模型，性能较新模型稍逊，但仍适用于多种任务，在自然语言处理和多模态任务上表现良好。
上下文窗口
- GPT - 4.1：支持100万个标记，是三个模型中最大的，适合处理超大输入，这是从之前的128,000标记的显著提升。
- o4 - mini：20万个标记，介于GPT - 4.1和GPT - 4o之间，适合中等规模的任务。
- GPT - 4o：12.8万个标记，较小，处理大输入能力有限，这是其主要限制之一。
性能
- GPT - 4.1：在编码（SWE - bench Verified：54.6%）、指令遵循（MultiChallenge：38.3%）和长上下文理解（OpenAI - MRCR：57.2%）方面表现最佳。它在视频 - MME长上下文任务上得分72.0%，比GPT - 4o的65.3%好。
- o4 - mini：在推理和视觉任务上表现强劲，例如AIME 2024（93.4%）、Codeforces ELO（2719）、SWE - Bench（68.1%）、MMMU（81.6%）和MathVista（84.3%）。它接近o3的性能，但在编码和长上下文上不如GPT - 4.1。
- GPT - 4o：性能良好，但在大多数基准测试中被超越，例如SWE - bench Verified（33.2%）、MultiChallenge（27.8%）。它在多模态任务上表现不错，但较新模型更强。
成本
- GPT - 4.1：输入每百万标记2美元，输出8美元，综合1.84美元。它比GPT - 4o便宜26%，适合中位查询。
- o4 - mini：输入每百万标记1.10美元，输出4.40美元，比o3便宜9倍，是最经济的选择。
- GPT - 4o：比GPT - 4.1贵26%，具体定价未列出，但它是三个中最昂贵的。
可用性
- GPT - 4.1：仅通过API提供，不在ChatGPT中，专为开发者设计。
- o4 - mini：在ChatGPT（Plus、Pro、Team用户）中可用，作为“o4 - mini”和“o4 - mini - high”，也通过API提供，有每日消息上限150条。
- GPT - 4o：在ChatGPT和API中可用，作为较旧模型，是通用选择。
其他注意事项
- GPT - 4.1：知识截止日期为2024年6月，较新，适合需要最新信息任务，在长上下文任务上表现优异。
- o4 - mini：是推理和工具使用的新系列，适合逻辑思维和效率任务，在视觉处理上超越o3。
- GPT - 4o：是多模态默认支持，但性能和上下文窗口较小，适合较简单任务。

总结与建议

GPT - 4.1是最先进的选择，适合需要高性能和长上下文的任务；o4 - mini是最经济的，适合推理和效率任务；GPT - 4o适合通用任务，但性能和成本不如新模型。根据您的需求，选择适合的模型至关重要。

作者：admin 创建时间：2025-04-25 20:03
最后编辑：admin 更新时间：2025-04-25 20:03

上一篇： Manim
下一篇： 12.AI + 高德地图MCP + 扣子空间生成旅游出行规划PPT