GOOGLE X垃圾分類機(jī)器人來(lái)了 分得清干濕有害垃圾嗎?
歡迎關(guān)注“創(chuàng)事記”微信訂閱號(hào):sinachuangshiji
文/郭一璞
來(lái)源:量子位(ID:QbitAI)
從上海,到北京,每個(gè)城市都在搞垃圾分類。
干垃圾、濕垃圾、有害垃圾,豬不能吃、豬能吃、豬吃了會(huì)死……你是不是還在為這些垃圾分別是什么而苦惱呢?
要是能自動(dòng)給垃圾分類就好了。
Alphabet X,就是之前孵化了無(wú)人車的Google X,終于造出了垃圾分類機(jī)器人。
這些機(jī)器人可以把垃圾分類、把分錯(cuò)類的垃圾放到正確的地方,還能在辦公室里游走撿垃圾。
比如,放錯(cuò)地方的礦泉水瓶,機(jī)器人可以撿起來(lái)放到正確的地方去:
放錯(cuò)地方的易拉罐,也要讓它和別的罐罐在一起:
他們?cè)贏lphabet公司的辦公室測(cè)試后,發(fā)現(xiàn)這臺(tái)機(jī)器人可以顯著降低垃圾造成的污染,將本能回收利用卻被送去垃圾填埋場(chǎng)的垃圾占比從20%降到不到5%。
怎么做到的
想讓機(jī)器人學(xué)會(huì)垃圾分類,需要用到感知、移動(dòng)和操作,借助計(jì)算機(jī)視覺(jué)技術(shù)進(jìn)行感知以及幫助機(jī)器人前行的自動(dòng)駕駛能力都是業(yè)界熟悉的,但如何學(xué)會(huì)在復(fù)雜環(huán)境中用“手”拉開柜子、打開抽屜、撿走垃圾則是必須要讓機(jī)器自行學(xué)會(huì)的操作。
因此,Alphabet X用到了三個(gè)方法來(lái)讓機(jī)器人學(xué)會(huì)靈活用“手”。
跟人類學(xué)習(xí)
第一種是跟人類學(xué)習(xí),模仿人類的動(dòng)作和做法。
這里就用到了Play-LMP算法,它在沒(méi)有特定數(shù)據(jù)集訓(xùn)練的情況下,讓機(jī)器人跟人類的演示學(xué)習(xí),最終實(shí)現(xiàn)平均成功率85.5%。
學(xué)出來(lái)的成績(jī),大概是這樣的,左邊是任務(wù)要求,右邊是執(zhí)行過(guò)程:
跟其他機(jī)器人學(xué)習(xí)
和其他機(jī)器人學(xué)習(xí)是通過(guò)無(wú)模型的強(qiáng)化學(xué)習(xí),讓許多個(gè)機(jī)器人共享經(jīng)驗(yàn)。
具體的實(shí)現(xiàn)方式是這樣的:
讓機(jī)器人學(xué)習(xí)借助門把手開門這個(gè)技巧,一起學(xué)習(xí)的每個(gè)機(jī)器人都裝了一份神經(jīng)網(wǎng)絡(luò),并且他們每臺(tái)機(jī)器人都連到了一個(gè)中央服務(wù)器上。
每個(gè)機(jī)器人開始對(duì)著這個(gè)門和門把手琢磨,摸索著考慮怎么開。
這個(gè)過(guò)程中,每個(gè)機(jī)器人每一步的行動(dòng)和結(jié)果都被傳輸?shù)奖澈蟮闹醒敕?wù)器上,中央服務(wù)器里的神經(jīng)網(wǎng)絡(luò)就開始借助這些傳輸來(lái)的經(jīng)驗(yàn),迭代改進(jìn)神經(jīng)網(wǎng)絡(luò)。
這樣整個(gè)過(guò)程就好像司令部派了幾個(gè)士兵出去偵查,再把每個(gè)士兵送回來(lái)的線索匯總,形成整體的作戰(zhàn)思路,再告訴士兵們應(yīng)該如何如何行動(dòng)。
所以改進(jìn)之后,機(jī)器人們就都學(xué)會(huì)了開門這項(xiàng)技能。
在云端學(xué)習(xí)
機(jī)器人要撿垃圾,必須學(xué)會(huì)靈活的使用自己的“手”來(lái)抓東西,要不斷的練習(xí),有大量數(shù)據(jù)來(lái)訓(xùn)練模型才可以。
現(xiàn)實(shí)世界里,機(jī)器人一天只能練習(xí)5000次抓取,數(shù)據(jù)量是遠(yuǎn)遠(yuǎn)不夠的。
而借助隨機(jī)到規(guī)范適應(yīng)網(wǎng)絡(luò)(Randomized-to-Canonical Adaptation Networks,簡(jiǎn)稱RCANs),在云中模擬訓(xùn)練的數(shù)據(jù)就可以用在模型的實(shí)際訓(xùn)練中,這樣機(jī)器人抓物體的成功率就提升到了70%。
之后,再結(jié)合5000次在現(xiàn)實(shí)世界抓取的數(shù)據(jù),對(duì)模型進(jìn)行微調(diào),成功率就到了91%。
這個(gè)過(guò)程,相當(dāng)于在真實(shí)世界抓了58萬(wàn)次的結(jié)果,一下子省了99%的練習(xí)次數(shù)。
這樣,原來(lái)需要花3個(gè)月的時(shí)間來(lái)訓(xùn)練機(jī)器人學(xué)習(xí)抓取,現(xiàn)在只要不到一天就可以了。
另外,這篇論文也發(fā)了今年的CVPR。
結(jié)構(gòu)化和非結(jié)構(gòu)化環(huán)境里的機(jī)器人
現(xiàn)在的機(jī)器人領(lǐng)域內(nèi),雖然有不少成熟的機(jī)器人,但它們都是技能專精、價(jià)格昂貴的。
他們?cè)诠S流水線上這種單一而結(jié)構(gòu)化環(huán)境里,用非常高的效率處理某一項(xiàng)任務(wù),但無(wú)法在每天情況都不一樣、復(fù)雜而非結(jié)構(gòu)化的生活環(huán)境中解決洗衣做飯這些麻煩的任務(wù)。
Alphabet X的最終目標(biāo)是造出可以在日常生活中使用的機(jī)器人,比如它可以在家里疊疊被子洗洗碗,在辦公室里端茶倒水取外賣……每天都會(huì)用到,所以這個(gè)項(xiàng)目也因此被叫做Everyday Robots。
不過(guò),其難度可想而知。
美國(guó)國(guó)家公路交通安全管理局給出了這張示意圖。
橫軸左側(cè)是執(zhí)行專精的任務(wù),右邊是日常的多種復(fù)雜任務(wù);縱軸下半部分是在結(jié)構(gòu)化的環(huán)境中,上半部分是在非結(jié)構(gòu)化的環(huán)境中。
顯然,右上角那種在各種復(fù)雜環(huán)境都能隨機(jī)應(yīng)變、十八般武藝樣樣都行的機(jī)器人,人類創(chuàng)造它的難度要遠(yuǎn)遠(yuǎn)高于左下角只會(huì)在流水線上固定位置完成固定任務(wù)的工業(yè)機(jī)器人。
而在右上方象限內(nèi),就有正在發(fā)展中的自動(dòng)駕駛汽車,Everyday Robots,要比自動(dòng)駕駛的難度更上一個(gè)量級(jí)。
傳送門
最后,關(guān)于這個(gè)垃圾分類機(jī)器人的三種學(xué)習(xí)方式,相關(guān)的論文、技術(shù)博客鏈接如下。
跟人類學(xué)習(xí)
Learning Latent Plans from Play
作者:Corey Lynch, Mohi Khansari, Ted Xiao, Vikash Kumar, Jonathan Tompson, Sergey Levine, Pierre Sermanet
https://learning-from-play.github.io/
跟其他機(jī)器人學(xué)習(xí)
https://ai.googleblog.com/2016/10/how-robots-can-acquire-new-skills-fro…
在云端學(xué)習(xí)
Sim-to-Real via Sim-to-Sim: Data-efficient Robotic Grasping via Randomized-to-Canonical Adaptation Networks
作者:Stephen James, Paul Wohlhart, Mrinal Kalakrishnan, Dmitry Kalashnikov, Alex Irpan, Julian Ibarz, Sergey Levine, Raia Hadsell, Konstantinos Bousmalis
https://arxiv.org/abs/1812.07252
原文鏈接:http://tech.sina.com.cn/csj/2019-11-22/doc-iihnzahi2589505.shtml
本文系轉(zhuǎn)載,文章版權(quán)歸原作者所有,內(nèi)容為作者個(gè)人觀點(diǎn),轉(zhuǎn)載目的在于傳遞更多信息,如涉及作品內(nèi)容、版權(quán)和其它問(wèn)題,請(qǐng)與我們聯(lián)系,我們將在第一時(shí)間刪除內(nèi)容。