波音体育官方网站吐槽一下, 找外包采了几百条数据, 能用的剩下一百条!

你的位置：波音(bbin)体育官方网站 > 关于波音 > 波音体育官方网站吐槽一下, 找外包采了几百条数据, 能用的剩下一百条!

关于波音

波音体育官方网站吐槽一下, 找外包采了几百条数据, 能用的剩下一百条!

发布日期：2026-06-12 21:53 点击次数：137

波音体育官方网站吐槽一下，找外包采了几百条数据，能用的剩下一百条!

头图：具身智能行业图片

众人好，我是瓦力，具身算法讨论员。

先说个事情。前一阵咱们找外包采了一批遥操数据，三百多条。临了能进考验集的，一百条出面。剩下的两百条数据，有作为彷徨、末端定位偏差、关节帧被遮盖的。一条条看数据，果真挺熬东说念主。进程都对，东说念主也到位，钱也花了，末端一泰半的数据都没办法用。

我肯定这亦然大部分作念算法的履行感受。模子调到一定进程，瓶颈基本都不在模子自己，是喂进去的数据。何况这个问题还不是费钱堆量就能解决的。你跟外包把需求讲了半天，对方点头说懂了，采出来的东西讲授压根没懂。

卡到其后，我启动四处问东说念主，有莫得靠谱的办法能把数采作念塌实点。问了身边搞具身的同学，发现众人遭遇的问题大差不差，然后有个一又友给我指了条路，说不错问问数采厂。

我一启动是不肯定的。数采厂嘛，无外乎把进程作念表率、把东说念支配好。外包的东说念主也大多是他们提供。履行厂商和标注公司我也战役过，大同小异。

抱着取经的格调，我如故问了下之前天南战役过的几家公司。聊完之后，我才发现我方想的有些窄了。他们想干的，不只单是把网罗进程优化得更好。有些公司甚而想作念更大的事情，把数据和模子这两件事，融在一齐。

这家厂是乐聚，我差未几从他们那里找到了一些有风趣的想路，是以和众人共享一下know how。

1. 采数据这件事，外包只可处理一半

先把问题发挥晰。

当今行业里采数据，大多数是两拨东说念主。一拨在考验端，懂模子、懂算法，知说念一条好数据长什么样；另一拨在网罗端，可能是外包，也可能是数据标注公司，肃肃遥操或者无履行的数采。

这两拨东说念主之间，其实不太相连对方。

考验端的东说念主，往往不会躬行去采几百小时。网罗端的东说念主，又基本碰不到模子考验。末端等于，需求在传递的过程中一层层失真。

比如我想告诉外包的同学说「我想要这个捏取的战役一会儿稳小数」，传到网罗端可能就造成了「很慢的把东西捏起来」。这中间丢掉的信息，其实等于我想要模子学习的东西。

所之外包能处理的，其实惟有一半：量。它能给你堆出几百上千小时的数据。但另一半，质，或者说跟模子需求的对皆，它给不了太多。

这让我想起之前写许华哲那篇时，Pete 抛过的一个问题：全世界的机器东说念主学家，该不该放下讨论一年，挑升去网罗数据。

那时我的判断是不成真这样干，但确乎值得算法的同学试一试。是以我也果真去试了试，就在乐聚那儿。

我那时通过遥操把天平上的砝码放到盒子里的时间，我对了好一会儿才把最大的砝码放进去。但从数据自己的角度，或者从东说念主类的角度，我合计应该很顺利能放进去才对。

但你说数采员能作念的更好么，我合计也不大可能了。

履行体验下来，我最大的感受之一等于：当今其实不是没东说念主采数据，是采回首的数据，和算法想要的还有很大的距离。

想要把数据作念成工业品，前提是采的东说念主得懂模子，懂模子的东说念主也得知说念网罗履行的情状。不然你进程作念得再措施，采的东西不一定是模子需要的。

这等于为什么我说，外包只可处理一半。不是外包不戮力，是这套单干从结构上就注定了数据质地的天花板。

2. 数据和模子分不开，我合计有两层含义

聊到这，得说回乐聚让我合计有风趣的方位。

许多东说念主讲「数据和模子分不开」，聊的都是名义：你得稀有据才能训模子。这层太浅了，谁都懂。我合计真实的分不开，是两层。

第一层是硬件层。你得果真用过各家的履行，才知说念不同构型的履行在采数据时会踩什么坑。轮臂的坑、双足的坑、不同聪慧手的坑，都不一样。一个只作念自家履行的厂商，数据重点可能只会 focus 在自家家具上，他莫得能源、也莫得场景去试水别家履行的坑。乐聚参与开辟宇宙多个东说念主形考验场，他们履行的数目多，数采需求大。自己就在采全身运控、聪慧手操作、轮臂基础运控这些不同构型的数据，它对跨履行的底层各别，相连是更全的。

第二层是组织层，这点更伏击。采数据的东说念主，必须懂算法要什么。前边说的问题，外包搞不定，履行厂商其实也隔着半说念墙，因为模子团队和数据团队经常是两拨东说念主、两个 KPI。

而乐聚此次干的事，是把数据工场和后考验算法库，作念到了一齐。网罗端和考验端，是褪色拨东说念主在对皆需求。采数据的时间，脑子里装着的等于模子要什么。

这两层叠在一齐，才是完好的「数据和模子分不开」。我知说念这里有东说念主要反问：乐聚我方不亦然履行厂吗?夸父等于它的机器东说念主，凭什么说履行厂不行，它就行?

这个问题问得很对，我我方的第一反应亦然这样。

但我周末在他们线下体验完，能嗅觉赢得乐聚正在从一个「卖履行」的公司，转向作念 infra，现阶段在作念的等于「网罗和考验对皆」。

三月份天南和众人聊乐聚，就在说他们也要作念的具身基座，我体验完之后守旧这个成见。

是以他们此次发布的后考验系统，我合计是沿着这个标的再推动。

3. 四款履行里，唯独跑通闭环的是双足

这套后考验系统主若是乐聚我方作念的，测试用的 LingBot-VLA预考验灵验到乐聚的真机数据。

真实让我感敬爱的不是这个，是他们怎样去讲授这套后考验系统。乐聚没只秀「我的履行跑通我的模子」，他们搭了两个标的的对照。

横朝上，以夸父 KUAVO 4 Pro 这台履行，去适配 5 个主流模子，看哪个进展最佳。纵朝上，拿 LingBot-VLA 这一个模子，放到 4 款不同履行上去跑，看各家履行的适配情况。

这种横纵交叉的谋划，是会泄露站位的。

一个纯履行厂，只会秀「我的履行加我协调的模子，颖悟活」。一个纯模子厂，只会秀「我的模子，在常见履行上能跑」。

惟有一个把我方定位成中间层、定位成后考验这一层的玩家，才会云尔去作念这种横纵交叉的对照。因为惟有站在中间，这两个标的才都是你的业务。

更有风趣的是纵向的末端，参与的 4 款履行里，夸父是唯独的双足东说念主形，何况它把整条闭环跑通了。双足是很难的履行，这个无须我多说。轮臂、机械臂底盘稳、作为空间规整，双足光是站着不晃就照旧在糜掷一堆适度余量。

把我方难啃的双足，波音(bbin)体育官方网站放到蚂蚁的模子下面去跑。

我的解读是，乐聚这是把赌注摆明了：模子是谁的不伏击，履行是不是最难的也不伏击，他们押的是中间这套从真机数据到失败归因的闭环，能不成把难的组合跑通。

诚然，这个作为若干是作念给众人看的，咱们暂且不论。但双足这关真跑通了，至少发挥这套闭环能 work。

这条闭环，买通的是真实机数据 → 模子后考验 → 多履行部署 → 真实机评测 → 失败归因回流。它 solid 的不是某一段，是「回流」两个字，失败的案例能自动喂且归驱动下一轮迭代。

站位，等于这样用一个作为摆出来的。

4. 平均不到20%的得胜率，我有些疑问

再聊点现实。

乐聚后考验在 95 个场景的横向测评里，平均得胜率(SR)是 17.59%，平均过程得分(PS)是 36.22%。坦率讲，17.59% 的末端，有点低。我的第一反应等于：这到底是数据不行，如故模子不行?

这个问题我也径直问了乐聚的肃肃东说念主，他们跟我解释的卤莽风趣如下：

第一，任务是果真难。这 95 个场景里，许多不是单步捏放，而是邃密插入、器具使用、擦抹障翳、小主义按压、动态战役、安静搬运、多阶段状态改换。这些任务你换成东说念主手去作念，都得屏住呼吸。

我现场拍的测试过程，好碎裂易得胜的一条。

第二，真机实践难。褪色个模子，换一台机器东说念主，履行结构、末端夹爪、相机视角、作为空间、适度频率全变，末端随着变。这正巧反证了前边说的，跨履行有多难。

第三，SR 体现的并不完好。SR 只看临了有莫得完好作念完，中间任何一步崩了就算 0 分。而 PS 过程分才反馈过程推动到了哪一步。复杂的多阶段任务，只盯着 SR 是抗拒允的，GM-100 论文也挑升说了这点，是以才另外界说了测度子任务完成度的方针。也等于说，PS 的 36.22% 比 SR 更能发挥模子真实的能力。

第四，它考的是长尾泛化，不是精采。LingBot-VLA 论文里提到，测试结合约莫 50% 的作为，压根不在考验集前 100 高频作为里。等于挑升挑模子没怎样见过的组合来考，考的是举一反三，不是背谜底。

讲到这，得直面一个问题，我我方一启动亦然这样问的：就 150 条数据考验，会不会仅仅为了考据一下进程跑得通，拿来比得胜率有点站不住脚? 乐聚的同学跟我强调，他们不是轻便的进程考据，是小样本要求下的压力测试，外加一次和谐预算的横向相比。

给通盘模子雷同 150 条的后考验预算，平允地比谁泛化得更好。在这个和谐预算下，LingBot-VLA 的两项方针都是最优，PS 比强基线 π0.5 跳动近 10 个点。

这个解释倒能说得通，不外倒也算是揭了真机职责的遮羞布。

通盘行业距离可靠的通用操作，差距还很大啊。

乐聚顺遂还作念了垂直场景的落地。雷同这套系统，到了具体的场景，比如汽车制造里的料箱拆垛，轮廓得胜率作念到了 95% 以上，技能成果从最初的 30% 出面，提到了 80% 到 90%。

一个是通才压力测试上的 17.59%，一个是专才落地场景里的 95%。这两个数不矛盾，它恰正是「通才变专才」这条路的笔据。

而把通才逼成专才的，等于中间那套后考验系统。

5. 把通才逼成专才的，是中间那套系统

这套系统的中枢，是一个自研的后考验算法库。细节我不逐个伸开，Github上照旧开源了。

挑两个我合计相比着实的，用东说念主话讲一下。

一个是针对「灾祸性淡忘」的。

VLA 基模微调有个老舛错：新技能学会了，预考验阶段的本钱事却丢了。乐聚用的是基于 LoRA 的轻量微调，你不错相连成，给模子注入新技能的时间，尽量别去动它正本那套雄伟的先验，这样它面临没见过的物体，泛化能力才不会塌。

另一个是和会了生成式世界模子的后考验。

传统 VLA 许多时间是在机械地效法示范作为，并不睬解作为背后的物理因果。加了世界模子之后，特殊于让模子开首之前，先在脑子里预演一下「我这样操作，接下来会发生什么」，再据此选当下合理的作为。说东说念主话等于，从背谜底，造成了边推理边干。

算法库之外，是三条器具链：数据网罗处理平台、后考验器具链、端侧部署测评器具链。

滚球app(中国)官网下载

串起来，等于一条从数据到现场的完好活水线。其中阿谁数据平台很戳我，它把措施化的数据清洗作念成了活水线，采完径直输出干净数据，传闻能把正本 3 到 5 天的清洗工时压到一天。

开源的代码库我周末也用他们数据跑了一下，没什么很大的坑。

这套东西成不纯熟，还有个侧面的笔据：在刚完结的 ICRA 2026 的 REAL-I 挑战赛里，全球高校的学生，依托乐聚敞开的数据集和全栈器具链，一天之内就能从零起步，把模子部署到真机上，跑通金属件翻正、日化瓶取放、快递包裹扫描这三个真实工业场景。

学生一天，从零到真机跑通。

能把上手门槛压到这个进程，发挥这套后考验系统，确乎在往「工业品」的标的作念。

写在后头

回到最启动。我之是以去找乐聚，是因为我我方的数据采得不顺，外包采回首一泰半不成用，根子在于采的东说念主不懂模子需求。

是以乐聚遴选我方买通数据和模子，我合计他们如故有我方的想法。

在我的视角看来，他们想解决的可能是一个结构性问题：当搞数采的东说念主我方就懂算法，那么赢得的每一条数据都是带着模子需求的。

数据和模子，后头可能从数采的起先就走到一齐。

但还有两件事，我还有点疑问。

一是模子用的蚂蚁的，乐聚作念的是后考验和数据，从我的体感上来说，这一层的壁垒是短期如故弥远，当今还说不太准，如故说换个稀有据有算力的玩家也能砸出来。

二是横向测评里低 SR 就摆在那儿，通盘行业对通用具身的预期如故不成太乐不雅，乐聚当今的最初能不成保持，也要看后头的迭代。

从我的不雅感上来看，我仅仅合计数采厂我方作念模子和算法，起点上会有我方的想考。况且本年通盘行业都在喊落地，搞运控的卷舞蹈，搞大脑的找落地场景（进家庭/进工场），产业正在生息渊博的开发需求。

这样大的需求，只靠当今行业的算法团队边界压根吃不用。乐聚这套后考验体系一定进程上缩短了开发门槛，想加入但莫得劝诫的开发团队也能快速参与进来。

-END-波音体育官方网站

上一篇：波音(bbin)体育官方网站波切蒂诺: 好意思国还是准备好和强队进行回击;要带着情感比赛下一篇：波音体育官方网站 2026年空调阛阓太“冷”了：通盘这个词行业走下坡，唯惟一个地区在增长

关于波音

波音体育官方网站 吐槽一下, 找外包采了几百条数据, 能用的剩下一百条!

发布日期：2026-06-12 21:53 点击次数：137

波音体育官方网站吐槽一下, 找外包采了几百条数据, 能用的剩下一百条!