超越谷歌!阿里开源ZeroSearch,大模型搜索开启“自给自足”新纪元
在AI技术狂飙突进的2025年,全球科技巨头正围绕大模型的应用场景展开激烈角逐。从金融领域的智能投顾到医疗行业的诊断辅助,大模型正以"数字大脑"的姿态重塑产业格局。
在这场技术竞赛中,搜索能力的突破成为关键战场——它不仅决定着信息获取的效率,更直接影响着商业决策的精准度。
就在这个关键时刻,阿里巴巴于5月8日开源的ZeroSearch,犹如一颗深水炸弹,在AI搜索领域掀起巨浪。这款无需依赖真实搜索引擎的强化学习框架,不仅以33.97的搜索能力超越谷歌(32.47),更将训练成本骤降至传统方案的。
这场技术突破背后,折射出中国科技公司在AI基础架构层的崛起,也预示着全球搜索市场即将迎来新一轮洗牌。
从“依赖外脑”到“自建知识库”,ZeroSearch如何重构搜索范式?
据港股研究社消息,5月8日,阿里巴巴开源了一种创新大模型搜索引擎——ZeroSearch。
ZeroSearch是一项创新的强化学习框架,它无需与真实搜索引擎进行交互,就能激发大模型的搜索能力。
这一框架充分挖掘大模型在大规模预训练阶段积累的海量知识,将其转化为检索模块。该模块可依据搜索查询生成相关内容,并且能灵活调整生成内容的质量,这是传统搜索引擎所不具备的独特优势。
研究人员选取NQ、TriviaQA、PopQA、HotpotQA等7个问答数据集,对ZeroSearch展开全面评估。结果显示,70亿参数的监督微调模型经ZeroSearch优化后,搜索能力得分达到33.06;140亿参数的模型得分更高,达到33.97,超越了谷歌搜索的32.47分。
在成本控制上,ZeroSearch优势显著。研究人员借助SerpAPI调用谷歌搜索,完成约64,000次搜索查询训练,花费高达586.70美元;而使用四个A100GPU运行140亿参数大模型进行模拟训练,成本仅70.80美元,降幅超过80%。这种模式既强化了大模型的搜索能力,又规避了与真实搜索引擎交互产生的高成本和不可控风险。
技术实现层面,ZeroSearch通过轻量级监督微调,将大模型转变为检索模块。该过程充分利用大模型预训练知识,使其能针对查询生成相关文档或含噪信息。通过调整提示关键词,可精准控制生成文档质量,为后续训练创造多样化检索场景。
其能力源于对真实搜索引擎交互轨迹数据的收集、标注与微调,引导大模型通过多轮交互得出最终答案。此外,ZeroSearch引入“课程学习机制”,在训练中循序渐进地提升任务难度,让模型从简单检索场景起步,逐步适应复杂挑战环境。
AI搜索赛道洗牌,B端与C端的双重攻势
回顾来看,早在2024年,阿里国际便推出B2B领域AI搜索引擎Accio,其界面主体是一个对话框,形态上与OpenAI的SearchGPT、硅谷明星产品Perplexity等AI原生搜索更像。
从功能性来看,Accio能满足很多出海商家的需求,其可以接受用户“白话式”的提问,供应端链接了阿里国际站平台与全球各类独立站、第三方电商网站、线下工厂等,并能够输出专业、具体且有条理的内容。
而ZeroSearch的开源,可视为阿里在B端场景的进一步延伸——通过开源生态吸引更多企业接入其技术栈,强化国际站“半托管”服务(如物流、营销)的黏性,同时为跨境商家提供更低成本的智能工具。
再是C端,阿里利用夸克开启“AI搜索+”战略与流量争夺战。开源ZeroSearch的同一天,夸克升级AI超级框,全新发布“深度搜索”产品,通过深度思考能力、智能检索技术和精准回答功能,为用户“高搜商”地解决多样化复杂问题。
此外,夸克AI超级框同时迭代“图片智能处理”功能。据了解,夸克还将推出思考能力更强、调用Agent更多以及能提供专业报告的新产品。
而ZeroSearch的动态质量控制能力,可进一步优化夸克的搜索体验(如减少错误答案),与豆包、Kimi等竞品形成差异化。但挑战在于,C端用户对搜索质量敏感度更高,如何平衡生成内容的准确性与多样性,将是后续迭代的关键。
整体来看,当前的AI搜索领域呈现两大阵营。闭源派:如谷歌、Perplexity,依赖庞大索引库与商业API盈利;开源派:以ZeroSearch、DeepSeek-R1为代表,通过技术开放构建生态。
目前,阿里的策略显然偏向后者,通过开源降低行业门槛,吸引开发者基于其框架开发垂直应用,最终反哺阿里云的计算资源需求。
未来战争之AI搜索的"三体博弈"
从B端到C端,阿里正以开源为矛、生态为盾,构建起AI搜索的立体化布局。
Accio与ZeroSearch的变迁和协同,标志着其从跨境电商场景向全行业渗透的野心——通过开源技术栈降低企业接入门槛,以动态质量控制实现搜索服务标准化,最终反哺阿里云的计算需求。
而夸克“深度搜索”的升级与创新大模型的开源,则是B端加C端战场的精准卡位:在信息过载时代,用户对“高搜商”工具的需求与日俱增,阿里通过强化推理能力与多模态交互,试图在豆包、Kimi等竞品中撕开差异化缺口。
技术维度:从单一模型到混合架构的范式革命
当ZeroSearch以开源姿态冲击市场时,AI搜索的技术竞赛已进入“混合架构”新阶段。谷歌坚持的索引库+商业API模式,正面临DeepSeek-R1等开源模型的降维打击——后者通过强化学习实现搜索逻辑的内生优化,训练成本迅速降低。
未来竞争焦点将集中在三大方向:一是多模态融合,文本、图像、视频的联合解析能力。二是实时性突破,流式处理技术将响应延迟压缩至毫秒级。三是个性化进化,基于用户行为数据的动态调优。
商业维度:从流量变现到价值共享的生态重构
闭源与开源阵营的商业模式分化日益显著。闭源派,谷歌通过搜索广告获利不菲,但用户对广告干扰的容忍度逼近临界点;开源派,阿里通过ZeroSearch吸引开发者构建垂直应用,反哺阿里云资源消耗,形成“技术-场景-数据”闭环。
这种分化催生出三类新物种:垂直领域寡头、API服务商转型以及寻求突围的硬件厂商。
监管维度:在创新与风险的天平上寻找支点
现阶段,全球监管风暴正在重塑行业格局。2025年3月,随着欧盟《人工智能法案》(AIAct)的全面实施,全球首个系统性AI监管框架正式进入执行阶段。
此前,美国FTC也对搜索算法进行反垄断调查,迫使开源社区公开核心排序代码以证合规。这些挑战要求企业必须在技术创新与社会责任间找到平衡点——正如阿里通过开源生态分散监管风险,同时以动态质量控制规避伦理危机。
结语
在AI技术从"工具革新"迈向"生态重构"的进程中,阿里巴巴开源的ZeroSearch不仅以33.97的搜索能力超越谷歌,更以87%的成本降幅颠覆行业规则。
这一技术突破通过强化学习与课程学习机制,将大模型预训练知识转化为内生检索能力,既解决了传统RAG对商业搜索引擎的依赖,又通过动态质量控制实现生成内容的精准平衡。
从B端国际站生态的深度渗透到C端夸克"深度搜索"的流量争夺,阿里以开源为支点,推动AI搜索从"流量变现"向"价值共享"跃迁。
这场"三体博弈"的终局,或将定义下一代AI基础设施的竞争范式。