您当前位置:首页 - 资讯 - 《grok4.1应用程序》操作使用指引

《grok4.1应用程序》操作使用指引

2026-02-17 02:42:12|kindsoft |来源:kindsoft

重磅消息!《Grok 4.1》正式发布!此次更新不仅让它变得更聪明,还赋予了它更浓厚的“人情味”。新版本在情感理解与通用能力方面实现了大幅提升,对话体验彻底告别冰冷生硬,转而能像真人般敏锐感知情绪,并给予温暖贴心的回应。想了解它究竟有多强大?怎样使用才能发挥最佳效果?这份全网最详尽的解析指南已为你精心准备就绪!

grok4.1怎么用

马斯克旗下的人工智能公司xAI几乎毫无预兆地推出了最新模型Grok4.1。刚刚,xAI宣布该模型已向所有用户开放,大家可通过Grok官网、X平台以及iOS和Android应用使用它。

Grok4.1会即刻在Auto模式下进行推送,同时也能在模型选择器里手动选取。

此次发布的Grok4.1在真实场景的实用价值上实现了明显飞跃,特别是在创意生成、情感共鸣与协作互动等维度展现出突出优势。该版本对用户深层需求的捕捉更为精准,对话过程更具吸引力,自身的人格设定也更具一致性,与此同时,前代模型所具备的卓越智能水平与稳定可靠的性能也得到了全面承袭。

为达成这些方面的提升,xAI依托支撑Grok4的同一套大规模强化学习基础设施,对模型的风格、个性、助人性及对齐性展开了进一步优化。同时,针对这些无法直接验证的奖励信号,xAI研发出全新方法,通过运用前沿的智能体式推理模型作为奖励模型,实现了对输出结果的大规模自主评估与迭代。在对比评估中,Grok4.1被用户优先选择的概率达到64.78%,这一表现优于此前的线上生产版本模型。

Grok 4.1功能特点介绍

SOTA通用能力

Grok4.1在盲测的人类偏好评估中创下了新的标杆。在LMArena的TextArena排行榜上,Grok4.1的推理模式(代号:quasarflux)凭借1483的Elo分数位列总榜第一,比排名最高的非xAI模型足足领先31分。Grok4.1的非推理模式(代号:tensor)不用思维token就能快速响应,以1465的Elo分数在排行榜上位居第二。就算不开启推理功能,Grok4.1的表现也超过了其他所有模型启用完整推理配置后的水平。和Grok4相比,Grok4.1的整体表现有了显著提升,而Grok4此前的总排名仅为第33名。

为评估模型在个性与人际互动能力上的发展情况,xAI在EQ-Bench3中对Grok4.1展开了测试。EQ-Bench是一项由大语言模型担任评判的测试,旨在评估主动情绪智能,涵盖情绪理解、洞察力、同理心以及人际交往技能等方面。测试集包含45个具有挑战性的角色扮演场景,其中大部分由预先编写的三轮对话提示构成。该基准借助多项标准对模型的回答质量进行验证,以此评估模型的表现。另外,它还通过成对对比的形式,为排行榜里的每个模型计算归一化的Elo分数。xAI采用官方基准仓库进行测试,并公布评分细则分数与归一化Elo分数。所有分数都是在符合基准要求的条件下计算得出的:采用默认采样参数、指定的评判模型(ClaudeSonnet3.7),且不添加系统提示词。结果表明,Grok4.1的推理模式和非推理模式在榜单中位列前两名。

以下示例展示了Grok4.1对情绪类提示的回应方式:

xAI团队也在CreativeWritingv3基准测试中对4.1系列模型的表现展开了评估。该基准要求模型针对32个不同的写作提示生成回应,并完成3轮迭代。和EQ-Bench的评估方式相似,最终评分结合了评分细则(rubrics)与模型对战得出的归一化Elo分数。评估结果表明,Grok4.1的推理模式和非推理模式在基准测试中分别位列第二和第三,排名仅次于早期版本的GPT5.1。

以下示例展示了Grok4.1在创意写作提示下的回答方式:

减少幻觉

配备搜索工具的Fast(非推理)模型可给出即时答案,不过因其推理深度有限、工具调用次数受限制,所以更易产生事实性错误。在Grok4.1的后训练阶段,xAI重点针对信息查询类提示的事实幻觉问题进行了优化,以降低这类错误的发生。之后,xAI在抽取的生产环境信息查询提示样本中,发现幻觉率有了明显的降低。为评估模型的幻觉率,xAI采用了来自生产流量的真实信息查询请求,并按照类别进行分层抽样。此外,还对FActScore这一公共基准测试展开了评测,该测试包含500个涉及不同人物的传记类问题。