
当AI编程器具在职务半途晓谕「完成」时,多数东说念主的第一响应是「模子不够强」。但真相恰巧相背——问题出在系统想象而非算法自己。本文通过真实案例揭示HarnessEngineering怎样通过照应、考据与反馈机制,让统一AI模子的遵循进步25%,并深度拆解这套独霸AI「野马」的当代缰绳体系。

先说一件让我有点狼狈的事
前段时刻我在用一个AI编程器具作念一个功能迭代,任务不算复杂,即是把几个模块串联起来,作念一个数据处理的进程。我把需求描写得厚爱,合计此次AI详情能一把处罚
然后它就运转写了,写得相对知晓,代码一排一排往外蹦,我坐在独揽看着还挺爽的,嗅觉效率升起了
大略二至极钟后,它停驻来,跟我说:任务完成
我点开一看,好家伙,前半部分写得挺好,后半部分接口对不上,有个中枢函数根底没结束,测试一个都没跑,然后它就这样晓谕完成了
我那时第一响应是:这个模子弗成,得换个更好的
这个想法,目下回头看,是完全失实的
其实这不是模子的问题
这个领略变嫌对我来说花了挺万古刻,因为”换更好的模子”这个直观实在太树大根深了
我用AI器具,酿成了一个固定的念念维时势:效率不好,即是模子不够强,等下一代模子出来就好了。逻辑在早期是有一定事理事理的,模子能力确乎是最主要的变量
2026年,这个情况就不一样了
有个团队拿统一个模子以TerminalBench2.0的基准测试上跑了两次,独一的区分是第二次改了模子外面那套系统——照应、考据进程、反馈机制这些。落幕,分数从52.8%跳到了66.5%,众人名次从三十名开外平直进了前五,这个实验数据让我印象巨深。模子一个参数都没变
这件事让我再行念念考了一个问题:花了这样多时刻盯着模子自己,是不是搞错了意见

我踩过的典型失实
在讲HarnessEngineering具体怎样作念之前,先说说我我方踩过的坑,因为这几个失实竟然很典型,信服不少东说念主都有过
第一个失实:把扫数教导塞进一个大文献
我之前的民风是相统一个长篇的AI教导文档,把扫数设施、戒备事项、商定一皆写进去,合计这样AI就能”记取”扫数东西了
落幕是,这个文档越来越长,越来越难一样,AI运转不知说念哪条是的确伏击的,而况这个大文献会占掉大量陡立文窗口,把的确灵验的任务信息挤出去,当扫数事情都被标注为“伏击”的时候,就等于什么都不伏击
试验上即是把阿谁大文献改成一张舆图,惟有一百行傍边,每行都是指向更深层文档的指针。AI从舆图启航,按需真切,而不是被一册百科全书淹没
第二个失实:合计照应会收尾AI的创造力
咱们挂念给AI套太多执法,会让它变成一个只会照本宣科的践诺机器,失去天真性
但试验情况是反过来的。当AI濒临一个完全绽放的解空间(SolutionSpace),它会浮滥大量谋略资源在死巷子里犹豫,每个意见、可能性都试一试,终末给你一个看起来很全面但“范”的落幕
当你给它明确的规模,它反而能更快拘谨到正确的解决有规画。规模不是笼子,规模是跑说念
第三个失实:AI说完成了就以为竟然完成了
这个我一经吃过亏了。AI有一个很树大根深的倾向,即是在职务看起来差未几完成的时候就停驻来,滚球app中国官方网站然后发达完成
AI不会主动去跑测试、考据功能、检讨规模情况。因为莫得东说念主告诉它必须这样作念
我在作念OpenClaw的时候,即是围绕这个问题有益想象了一套践诺逻辑:先框定规模,再进行践诺。也即是说,在AI运转干活之前,先把”什么叫完成”界说澄澈,把考据要求写进去,靠系统强制
其后我的作念法是:需要在系统里强制律例,在AI宣告任务完成之前,必须跑圆善的考据进程。不考据,不允许退出
什么是HarnessEngineering
我第一次别传HarnessEngineering的时候,大略是本年二月,一又友发给我一篇著述Harnessengineering:leveragingCodexinanagent-firstworld,说有个团队用AI写了一百万行代码,全程零东说念主工

娇傲吧这是(我的第一响应)
然后我把著述仔细看了一遍,发现不是娇傲,是竟然。三个工程师,五个月,一百万行代码,委派了一个真实居品,有真实用户在用,能闲居发布、部署、出bug、被树立,一皆由AI在那套系统里完成,效率大略是传统东说念主工的十倍
但我戒备到一个细节,著述里说,工程师不写代码之后,80%的时刻花在了什么上?
不是写Prompt,不是审代码,是构建那套围绕AI的照应系统
这个细节让我停驻来想了一段时刻,这套系统,ued(中国)官方网站入口就叫Harness
它不是一个器具,不是一个框架,更不是一个Prompt模板。它是一套围绕AIAgent运行的系统,包括照应、反馈、考据和抓续清算这几个部分。2026年头,这套作念法有了一个厚爱的名字:HarnessEngineering。
“Harness”这个词来自马具——缰绳、马鞍、嚼子,那一整套用来独霸马的装备。AI模子就像一匹蛮力迷漫但意见感不太行的马,跑得快,但容易跑偏。Harness的作用,即是把它的力气引到正确方朝上。
HarnessEngineering的中枢部分
这套系统大略有四个中枢部分。
第一是学问系统
AI要在一个复杂表情里干活,它得知说念全体架构是什么、各模块的职责是什么、API商定是什么。这些信息不是靠一个大文献给它,而是靠一套分层的文档结构。一个粗陋的进口文献算作舆图,指向各个规模的厚爱文档,AI按需取用。更要津的是,这套文档要跟代码保抓同步,代码变了,文档随着变,以致不错有益跑一个”文档一样Agent”来作念这件事。

第二是架构照应
你要把架构执法写成机器可践诺的检讨,而不是靠东说念主记、靠CodeReview来一样。比如你律例模块之间的依赖意见是单向的,这条执法不是写在文档里的,是写成了自动检讨执法,任何违犯的代码都过不了进程,非论是东说念主写的照旧AI写的。更机灵的作念法是,把失实信息写得很厚爱,不单说”你违犯了执法X”,而是解说”为什么这个执法存在、正确的作念法是什么”。这样AI遭受失实的时候,能我方连结为什么错了,然后我方修正。

第三是强制考据轮回
在AI准备说”完成”之前,系统阻碍它,要求它跑圆善的考据——测试要跑,欺诈要启动,要是有界面变化,要截图检讨。即是这一个改革,让前边提到的阿谁团队基准测试分数从52.8%跳到了66.5%。


第四是熵管理
AI生成代码的时候,有一个很坏的民风,即是复当代码库里已有的时势,包括坏的时势。要是你的代码库里有一段写得很烂的代码,AI在独揽写新功能的时候,可能会效法那种写法,然后坏的时势就扩散了。解法是建设一套按期运行的清算机制,后台有有益的Agent周期性扫描代码库,找到偏离设施的场所,自动提交树立。时候债务不要等积攒到崩溃才还,小额高频抓续偿还,效率比一次性大清算好得多。

HarnessEngineering是不是终极解法
不是。

作念了对比实验:莫得Harness的情况下,AI写得很快,但大略每隔几个功能就会出现一次架构偏移,模块之间的依赖运转乱,文档和代码运转脱节,测试掩盖率运转着落,工程师每周五要花20%的时刻有益清算这些问题。有了Harness之后,AI的单次任务速率稍许慢小数,因为要跑考据,但架构偏移简直隐匿了,文档保抓同步,测试掩盖率安逸,工程师不再需要有益的清算时刻。
但Harness也有它的规模。它对”可考据的任务”效率最佳——代码能跑、测试能过、落幕能量化。关于那些需要主不雅判断的任务,比如内容质料、用户体验,Harness能给你结构,但给不了你谜底。
是以更准确的说法是:HarnessEngineering是一个让AI在复杂系统里永恒可靠运行的前纲领求,而不是让AI变得更机灵的方法。它解决的是”怎样让AI不乱跑”,不是”怎样让AI跑得更快”。
回到最运转的问题
回到最运转那件让我狼狈的事,要是那时我有一套Harness,那件事会怎样发生?
AI照旧会运转写代码。但在它准备说”任务完成”之前,系统会阻碍它,要求它跑测试、检讨接口、考据中枢函数是否结束。它会发现后半部分的问题,然后我方去修。它不会在职务没完成的时候晓谕完成,因为系统不允许。
这即是”照应越多,AI越解放”的事理。不是说照应让AI变得更机灵,而是照应让AI的机灵用在了正确的场所,不会浮滥在无效的犹豫和空幻的完成上。
怎样运转实践
要是你目下想运转作念点什么,不需要一上来就搭一套圆善的Harness,不错从两件小事运转:

最小可行的最先即是两件事:
给你的表情写一个AGENTS.md,把你但愿AI遵从的执法写进去,不必长,一百行以内,每一排对应一个你但愿AI不要再犯的失实;
在你的职责流里加一个考据要领,任何任务在宣告完成之前,必须跑考据,哪怕仅仅最基本的冒烟测试。
从这两件事运转,每次AI犯一个新类型的失实,就回头加一条执法。Harness不是一次性想象好的,它是小数小数长出来的。不需要多复杂,但会让你用AI作念事情的效率昭彰不一样
AI一经是沉马了,这小数不容置疑。但沉马莫得缰绳,跑得再快也到不了方针地
HarnessEngineering即是这个时间最伏击的缰绳,不是用来不休它ued(中国)官方网站入口,是用来让它的力量的确被用到正确的方朝上
开云体育(kaiyun)官网