波音体育官方网站你还在死磕 Prompt? 的确的能手早就不这样玩了

AI编程器具的翻新不仅在于代码生成，更在于全新的工程范式——HarnessEngineering。OpenAI的实验揭示：100万行分娩级代码的背后，工程师们的确在构建的是AI运行的“环境”。本文深度拆解从PromptEngineering到HarnessEngineering的三阶段演进，剖判LangChain、Stripe等实战案例，揭示为何环境诡计才能正成为工程师的新护城河。

最近有不少东说念主问我：当今AI编程器具这样多，到底如何用才算”用对了”？

我想先讲一个数字，你听完可能会有点坐不住。

OpenAI里面有一个实验神色：3到7名工程师，花了5个月时辰，托福了一套逾越100万行代码的分娩级软件系统。

这不是要点。

要点是——这100万行代码里，莫得一溜是工程师手写的。

你的第一响应可能是：那他们在干什么？调Prompt？写需求文档？

王人不是。

他们花了5个月，干了一件在今天看来越来越值钱的事：诡计AI运行的“环境”。

这件事有个还不算广为东说念主知的名字，叫作念HarnessEngineering。

而我今天想聊的，恰是这个正在暗暗重塑软件工程师价值的东西。

01我们是如何走到这一步的

要意会HarnessEngineering是什么，得先回头望望这几年我们王人在折腾什么。

第一站：PromptEngineering

大意是ChatGPT刚出来那会儿，”Prompt工程师”这个词一霎火了。人人运行研究：如何写辅导词才能让模子给出更好的回话？用变装演出？加上”深呼吸再回话”？照旧祭出”你是一位资深众人”这类全能开场白？

哎，说真话，我那时也随着研究了一阵子。那种嗅觉有点像在跟一个忘记又敏锐的共事打交说念——你得堤防措辞，反复布置，还不一定每次王人灵验。

PromptEngineering不是没用，它如实能帮你把单次对话的质料提上去。但它有个根人道的天花板：抗争稳、不可延长、莫得牵挂、莫得系统不雅。你优化了一条Prompt，换个场景可能就失效了。

第二站：ContextEngineering

贤达东说念主很自餍足到，问题不仅仅”如何说”，更是”说之前给它准备什么信息”。于是高下文工程（ContextEngineering）运行被酷爱：RAG检索增强、历史对话治理、器具调用输出的结构化整合……

这一步的进化是真实的。你不再仅仅在跟模子”聊天”，而是在动态地拼装信息，让它在每一个时刻王人能取恰当前任务所需的常识。

但问题来了。

你告诉了AI“知说念什么”，却莫得任何机制收敛它”作念不该作念的事”。

一个Agent不错知说念许多，不错意会许多，但它在扩充当务的经过中，莫得东说念主拦着它走偏。它会解放发扬，会过度操作，会在你出东说念主预想的地方出问题。

这等于ContextEngineering的天花板。

第三站：HarnessEngineering

这一步的焦点，不再是”说什么”或”知说念什么”，而是”在什么样的环境里作念事”。

它要构建的，是一个包含收敛、反馈、可不雅测性的完竣运行时系统。让AIAgent不仅仅”懂得多”，而是”在一个收敛易出错的操场里跑”。

三者不是简便的替代研究，而是嵌套演进的——每一层王人在前一层的基础上，补上了它没解决的问题。但HarnessEngineering是咫尺这个演进链条上，站得最高的那一层。

02“马具”这个譬如，为什么这样准

Harness，汉文直译是”马具”，等于套在马身上的那套缰绳、鞍具、挽具系统。

乍一听有点奇怪。为什么要用这个词来定名一种工程践诺？

但你仔细想想，这个譬如其实精确到有点过分。

我们大多数东说念主对”AI补助开发”的联想，是这样的：让AI这匹马跑得更快。更强的模子、更长的高下文窗口、更复杂的Prompt技能……骨子上王人是在”催马”。

但Harness的逻辑满盈相背。

它不存眷马跑多快，它存眷的是：跑说念诡计得对不合、缰绳有莫得套好、场地有莫得偏。想法是让这匹马在复杂的地形上，既能发扬速率，又不会冲出赛说念、踩进坑里。

这背后有个更陈旧的工程形而上学撑合手，叫领域论（Cybernetics）。

领域论的中枢问题，从来不是”如何让扩充单位更强”，而是”如何诡计一个能够自我援助的系统”。

举个很具体的例子：蒸汽机期间，工东说念主们靠手动援助阀门来领域蒸汽压力——扩充者是东说念主，靠教养和直观操作。其后有东说念主发明了离心调速器，它能凭据转速自动援助进气量，不需要东说念主在傍边盯着。这不是”更强的工东说念主”，这是“更好的系统诡计”。

再往后，Kubernetes的声明式编排作念的亦然合并件事。你不告诉系统”先启动这个容器，再搜检阿谁端口，失败了重试三次”——你只告诉它”我要这个办事保合手三个副本的健康现象”，剩下的事，系统我方处理。

从手动拧阀门，到诡计调速器，到声明式编排，再到今天的HarnessEngineering——工程师的中枢职责，一直在从“扩充”向“诡计系统”迁徙。

此次的迁徙，仅仅比以往任何一次王人透澈一些。

我个东说念主认为，许多工程师对AI期间的焦急，骨子上不是技能跟不上，而是对这种变装更动感到不顺应。写代码这件事给东说念主的掌控感太强了，而”诡计环境”这件事，反馈周期更长，成立感也更隐性。但这不代表它不迫切，开云(中国)恰好相背——

它正在变得比写代码自身更值钱。

03Harness到底长什么样

好，观念聊罢了，来点干货。

一套完竣的Harness系统，大意由四个部分组成。我不想用文档式的阵势逐条列给你，我们换个角度——联想一下，一个AIAgent在你的代码仓库里”上班”，它的一天是如何过的。

第一关：信息如何喂给它

Agent早上”上班”，第一件事是搞明晰今天要干什么、有哪些收敛、神色配景是什么。

许多团队的作念法是：写一个超等长的AGENTS.md文献，把总共法度、配景、在意事项一股脑塞进去，然后扔给Agent。

这个念念路的问题在于：信息太多，等于莫得信息。

更好的作念法叫作念渐进式流露——AGENTS.md仅仅一个精简的目次，指向结构化的常识库（比如docs/目次下比物连类的文档）。Agent在扩充具体任务时，才去按需检索对应的高下文，而不是在运行时就把总共东西王人装进脑子里。

这背后有一个很迫切的原则：Agent看不见的，对它就不存在。

是以高下文工程的中枢，不仅仅”给它更多信息”，而是”在正确的时机，给它正确的那一块信息”。同期，还需要把那些只活在聊天纪录、理论同步、老职工脑子里的团队常识，飘荡为版块化、机器可读的仓库文档。这件事提及来简便，作念起来是竟然很历练团队。

开云体育官方网站 - KAIYUN

第二关：如何让它不作念”出格”的事

Agent运行干活了。它在写代码、改文献、调用器具。这时候问题来了：谁来拦着它别踩红线？

HarnessEngineering的谜底是：把收敛编码成端正，让机器来扩充。

具体如何作念？把你团队的架构分层原则、依赖场地条件、代码立场法度，写成自界说的Linter端正。Agent每次提布置码，Linter自动扫描，违纪就报错，欠亨过就不成合并。

这不是什么簇新事，传统团队也在用Linter。但HarnessEngineering对这件事有一个非凡的条件，细节藏在里面：

Linter的诞妄输出样子，要为AI优化。

传统Linter的报错是给东说念主看的，告诉你哪一溜违背了什么端正。但若是诞妄信息里还包含了开荒建议，Agent就能径直读懂报错，自行开荒，再提交，再搜检——这个”违纪→检测→开荒”的闭环，bbin就在Agent里面自动完成了，根蒂不需要东说念主介入。

更进一步，一些团队还会用基于LLM的语义审计Agent，来处理那些细目性端正遮蔽不到的情况——比如”这段代码逻辑上是否与我们的居品法度一致”这类语义层面的问题。细目性端正兜底，语义Agent补充，两者配合。

第三关：让它能看到我方在作念什么

这一关许多团队容易暴虐，但我认为它可能是总共这个词Harness系统里最能拉开差距的重要。

你有莫得想过：Agent扩充了一堆操作之后，它如何知说念我方作念对了？

若是它只可看到代码文献自身，它无法判断”我写的这段逻辑，在真实运行时是否按预期职责”。

反馈回路要解决的等于这个问题：把系统的运行时现象泄露给Agent。

践诺层面，这意味着：

把日记、方针、跟踪数据通过腹地可不雅测性栈绽开给Agent查询——它不错径直跑LogQL查日记，用PromQL查方针，而不是等东说念主类去Grafana里捞数据再告诉它遣散。

集成浏览器自动化器具，让Agent能翻开它刚写好的前端页面，截图，考证功能是否顺应预期——它我方测我方的代码。

以致建立Agent对Agent的自动化代码评审轮回。一个Agent写代码，另一个Agent审代码，建议意见，轮回迭代，东说念主类只在关键决策节点介入。

这整套机制的中枢念念想，是把蓝本需要东说念主类手动完成的”不雅察→判断→反馈”经过，诡计成系统自动运转的闭环。

第四关：退缩系统我方”沉迷”

这一关是许多东说念主没猜度的。

Harness建好了，是不是就不错安枕而卧？

不是的。

有两个熵增的开头会徐徐腐蚀你的系统：

文档和端正会漂移。你的AGENTS.md写于三个月前，当今神色架构变了，文档还没更新——Agent拿着过期的信息在干活，出了问题你还不知说念从哪查起。

AI生成的代码会复制现存模式，包括坏模式。若是你的代码库里有一段写得很晦气的历史留传代码，Agent在生成新代码时，很可能参照它的立场陆续写。积少成多，“AI技能债”就这样暗暗堆起来了。

解决决策是部署特意的计帐Agent——如期自动扫描文档漂移、检测模式违纪、发起重构PR，像垃圾回收机制一样，合手续看护系统的健康现象。

这个念念路骨子上是把”技能债治理”这件蓝本依赖东说念主的自发和元气心灵的事，酿成了一个系统级的自动化任务。

04四个公司的真实战场

光和缓论不够有劝服力，来望望真实的案例。

OpenAI：最难的事，不是生成代码

前边提到的实验还是阐明了论断，但我想强调一下OpenAI工程师我方回来的那句话：

“最贫苦的挑战，不在于让AI生成代码，而在于诡计环境、反馈回路和领域系统。”

这句话值得反复读。它意味着，AI生成代码这件事自身，还是不是瓶颈了。瓶颈在环境诡计。

LangChain：不换模子，只改环境，排行从第30跳到第5

这个案例是我认为总共这个词HarnessEngineering盘问里，数据最径直、最有冲击力的一个。

LangChain在TerminalBench2.0基准测试上，对他们的Agent系统作念了一次优化——莫得换模子，莫得改Prompt，仅仅优化了Agent的运行环境：完善文档、增强考证、改变跟踪。

遣散？排行从第30位跳到第5位，得分从52.8%进步至66.5%。

你用相同的马，换了一套更好的马具，就跑出了满盈不同的获利。

Stripe：工业级的AIPR活水线

Stripe的Minions体系，是咫尺我见过的最接近”工业分娩”级别的Harness践诺。

每周合并逾越1300个AI编写的PR。撑合手这个数字的，是三个关键诡计：

预热devbox隔断环境：每个AI任务王人在寥寂的预热好的沙箱里运行，互不侵犯，安全可控。

Toolshed中心化器具窥伺：总共Agent通过调和的器具层窥伺外部系统，不允许野门路直连。

细目性节点与Agent节点羼杂的蓝图模式：不是把总共决策王人交给Agent，而是把需要严格可猜测性的法子作念成细目性节点，把需要无邪判断的法子交给Agent——羼杂编排，扬长避短。

Anthropic：16个Claude并行，2周造出C编译器

这个案例考证的是另一个维度：多Agent互助的可行性。

16个Claude代理并行职责，历时2周，耗尽2万好意思元API本钱，构建了一个能编译Linux内核等复杂系统的C编译器。

这不仅仅”AI会写代码”的讲解，更是”在全心诡计的Harness下，多Agent并行互助完成高复杂度工程任务”的可行性考证。

每个案例背后指向的，王人是合并个论断：环境诡计，才是的确的杠杆所在。

05工程师的变装，竟然不一样了

说到这儿，可能有东说念主会问：那我看成一个世俗工程师，应该如何办？

我先说一个让东说念主有点不温顺的不雅察。

当今市面上有一种声息，说AI编程器具会让低级工程师”弯说念超车”——无谓打基础，径直用Agent生成代码，恶果比老工程师还高。

我认为这个判断，短期内可能是对的，但长期来看很危急。

原因很简便：HarnessEngineering需要的那种才能——系统轮廓才能、架构判断力、对代码质料的直观——这些东西，是从广泛手动开发教养里索要出来的。

若是一个工程师从来莫得手动写过一个慎重的系统，莫得踩过那些经典的坑，他凭什么诡计出一套能管住AI的Harness？

这等于所谓的“学徒缺口”——当传授教养的手动开发经过被跳过，年青工程师会丧失建耸立确直观的契机。他们不错用Agent生成代码，但他们莫得才能判断生成的代码是否竟然好，也莫得才能诡计退缩它变坏的系统。

这不是在劝你散伙AI器具。恰好相背，我认为最佳的学习旅途，是把手动作念和用Agent作念这两件事，放在一说念对比：

先手动完竣完毕一个功能，然后用Agent作念相同的事，仔细望望它作念了什么、那边作念对了、那边作念得很晦气。这个对比经过，是建立直观最快的阵势。

关于还是有教养的工程师，有几件事当今不错运行作念：

顾惜一个AGENTS.md文献。不需要一运行就写得很完竣，从最基本的神色结构和法度运行。每次Agent犯了一个你认为不应该犯的错，就把对应的端正补进去。这个文献会越来越好用，同期亦然你在给我方的神色建立”机器可读的牵挂”。

养成用Agent作念探索类任务的习尚。调研新技能、读目生代码库、草拟文档初稿——这些任务的共同特色是：考证本钱相对低，你能快速判断Agent给的东西是不是靠谱。先在这些场景里积蓄对Agent才能和局限的直观。

把”东说念主类什么时候介入”这件事想明晰。不是Agent叫你看你才看，而是你主动诡计搜检点，在关键决策节点介入，其他时候让Agent我方跑。这是”掌舵者”和”被Agent打断者”的骨子差别。

06下一站在那边

HarnessEngineering还在快速演进中，但它指向的下一个场地还是缺乏可见。

当单个Agent的”马具”问题基本解决之后，下一个问题是：多个Agent之间如何互助？

这等于ProtocolEngineering或者说AgentInfrastructure正在试图回话的问题——智能体之间的互操作左券，比如ModelContextProtocol（MCP）；跨Agent的分享现象与器具治理；骨子上是在构建一套AI操作系统。

这个场地距离世俗工程师的肤浅践诺还有一段距离，但它在告诉我们：软件工程的竞争维度，正在从”谁的工程师代码写得更好”，迁徙到“谁能诡计出更好的Agent运行环境”。

我想用一个问题来收尾这篇著述，不是论断，仅仅一个值得崇拜想的问题：

当“诡计环境”的才能比“写代码”的才能更值钱，我们今天培养工程师、评价工程师、招募工程师的阵势——是不是该崇拜想想了？

这个问题莫得圭臬谜底。但你越早运行念念考波音体育官方网站，可能就越不会被它打措手不足。

上一篇：波音体育(bbinSports) 智谱推出针对“龙虾”深度优化的基座模子

下一篇：波音体育官方网站刷走七成待业金 12岁娃网游充值退款难欢太科技被指防千里迷系统形同虚设

波音体育官方网站 你还在死磕 Prompt? 的确的能手早就不这样玩了

波音体育官方网站你还在死磕 Prompt? 的确的能手早就不这样玩了