时间:2026-03-24 10:19
人气:
作者:admin
Grok第一有三个基准测试。

记录到的最低幻觉:22%。 在人工分析 AA-Omniscience 基准测试中,Grok 4.20 领先所有测试过的模型。这意味着当它告诉你某件事时,比任何其他人工智能都更可能是真的。
IFBench 分 83%。 当你说“ 引用恰好 8 个来源,包含 Reddit 帖子,禁止猜测 ”时,Grok 确实做到了。它对严格格式、日期筛选和复杂的多部分请求处理得比其他任何人都好。
ELO 1226。 这是一个众包的盲排名,成千上万的真实用户会直接比较搜索结果。

Grok 是怎么做的?主要原因就是 Grok 现在是四个 AI agents 组成的团队合作。

系统会同时启动 4 个代理并行搜索:
四个代理会在后台持续协同工作、交叉验证彼此结论,通过内部“讨论”达成一致后,输出结果,极大程度降低了幻觉率,使信息来源更加多元、指令执行更加精准。

升级订阅之后,你的 Grok 将变成 SuperGrok,而且还可以使用专家模式:

1.左下角进入设置

2.点击自定义,创建新的智能代理

3.现在需要我们创建4个系统提示词
prompts(复制可用):
Create 4 custom SuperGrok agents for a [ROLE].
Follow these rules exactly:
Architecture: 1 orchestrator + 3 specialist researchers. Not 4 equals.
Agent 1 (Captain): A generalist who understands the full scope of the role. Its only job is to break queries into sub-tasks, route them to the 3 specialists by name, resolve contradictions between their findings, and deliver one clear synthesised answer. It does not search.
Agents 2–4 (Specialists): Each one is a researcher defined by a unique search methodology and exclusive set of primary sources — not by topic or domain. Think of it as three people who each walk into a completely different building to find answers. Their source stacks must never overlap.
Prompt style: Ultra-minimal. Each prompt must be under 250 characters. No output templates, no formatting instructions, no disclaimers, no collaboration rules. Just: who you are + what you search + where you search.
Critical constraints:
1. Specialists are defined by HOW they search and WHERE, not by a narrow topic
2. No agent should be locked to one subdomain of the role — every query should activate all three
3. The captain (named "Grok") must reference the 3 specialists by name.
Before writing the prompts, first identify the 3 non-overlapping source categories that matter most for this role. Then write the 4 agents.
4.复制粘贴到**“新建自定义代理”**设置中

5.编排者的名字必须是Grok

6.现在做一个测试,让四个代理搜索正确答案

7.答案详细还细腻,经过了200多个来源搜索

我更喜欢 Grok 的“简洁”模式。没有其他子代理。

相信很多人会感觉自定义体验更好。
只需要你复制、粘贴,然后替换括号内的内容。
请给我一个关于[竞争对手名称]的竞争简报,内容涵盖:最新产品发布(过去 90 天)、领导层变动、资金/收入信号、X 上的公众情绪,以及任何合作或收购。至少有 10 个来源。标记任何未验证的内容。引用每一项声明。
我正在评估进入[REGION]的[市场/行业]。搜索:当前市场规模估计(2025-2026)、前五名企业及其市场份额、监管进入壁垒、业内人士近期 X 讨论及任何警示信号。每个数字都引用 3 个独立来源。如果数据有冲突,就展示双方。
我明天有个和[公司名称]的会议。请简要说明:他们的工作内容、最新消息(过去 30 天)、近期招聘人员、X 用户对他们的评价、他们目前面临的最大挑战,以及竞争对手是谁。字数控制在 500 字以内。全部引用。
查找[职位名称,例如“中型物流公司的运营主管”]在网上讨论的主要痛点。搜索过去 6 个月的 Reddit、X、LinkedIn 讨论区和行业论坛。按主题分组。引用真实的人的话。来源链接。
比较[工具 A]、[工具 B]和[工具 C]在[用例,例如“一个 50 人 B2B SaaS 团队的 CRM”]。包括:价格(当前、已验证)、真实用户评价的优缺点、G2/Capterra 评分、近期的故障或争议,以及 X 上高级用户的推荐。不要猜测——只用经过验证的数据。
当前[法规类型,例如“GDPR 数据传输”]对[你的情况,例如“一家 SaaS 公司在美国服务器上存储欧盟客户数据”]的要求是什么?包括:控制法律、最新执法行动(过去 12 个月)、实际合规步骤以及任何待定变更。官方资料链接。标记任何不确定的地方。
在 [城市/地区],拥有[X]年经验的[职位名称]当前市场薪资范围是多少?至少使用 5 个来源(Glassdoor、Levels.fyi、LinkedIn、Payscale、最近的 X 讨论)。显示范围,而不是平均值。注意数据是自我报告,哪些是核实的。只持续了 6 个月。
目前[行业]最大的招聘趋势是什么?包括:哪些职位最难填补,哪些技能需求量大,过去 60 天的裁员/招聘信号,以及招聘经理在 X 和 LinkedIn 上的说法。至少 8 个资料来源。
总结[公司]最近的财报报告。包括:收入、利润、同比增长、指引、分析师反应、股票走势以及投资者的 X 情绪。字数控制在 400 字以内。引用每一个数字。
给我简要介绍过去 7 天[行业]发生的所有重要事情。包括:交易、产品发布、监管变更、争议以及重要的 X 讨论。按主题分组。引用每一项。标记任何未确认的。