A mélyerősítő tanulásnak nevezett algoritmus-módszer, amely a jutalom felhasználásával motiválja a mesterséges intelligenciát a cél elérésére, nagyon ígéretesnek bizonyul a számítógépes navigáció területén.

A Colorado Egyetem kutatói nemrégiben bebizonyították rendszer, amely lehetővé teszi, hogy a robotok kamerafelvételek alapján irányt találjanak a túraútvonalakon. Ismét az ETH zürichi tudósai dokumentumában olyan gépi tanulási keretet írt le, amely segít a négylábú robotoknak felemelkedni a földről, amikor találkoznak és elesnek.

BAN BEN dokumentumokat a tudományos csapat újonnan megjelent az Arxiv prepress szerveren, egy "hibrid" mélyerősítéses tanulási algoritmust javasol, amely ötvözi a digitális szimuláció és a valós világ adatait, és lehetővé teszi a quadcopter számára, hogy navigáljon az épület folyosóin.

"Ebben a munkában egy algoritmust szeretnénk megtervezni a transzfer tanuláshoz, ahol a robot fizikai viselkedést szerez" - írták a kiadvány szerzői. "A valós tapasztalatokat alapvetően a repülés megtanulásához használják, míg a szimulált tapasztalatokat az általánosítás megtanulásához."

Miért érdemes szimulált adatokat használni? Mint a kutatók megjegyzik, az általánosítás erősen függ az adatkészlet méretétől és változatosságától. Igaz, hogy minél több és többféle adat áll rendelkezésre, annál jobb a teljesítmény. De a valós adatok megszerzése időigényes és drága. A szimulált adatokkal azonban van egy komoly probléma - a repülési adatok gyengébb minőségűek, és a komplex fizika és a légáramok gyakran helytelenül vannak modellezve.

olyan

Ezért a kutatók valós adatok felhasználásával képezték a rendszerdinamikát, és szimulált adatokkal sajátították el az észlelés általánosításának folyamatát. Gépi tanulási architektúrájuk két részből állt: az érzékelés alrendszerből, amely továbbította a szimuláció vizuális elemeit, és a vezérlő alrendszerből, amely a valós adatokat fogadta.

A csapat a képzéshez egy, a Stanford Egyetemhez tartozó Gibson szimulátort használt, amely nagyszámú 3D beolvasott környezetet tartalmaz. Virtuális kvadrokoptert modelleztek kamerákkal úgy, hogy az akciókat közvetlenül a kamera helyzete vezérelte. 17 millió adatpontot nyertek a szimulációból, amelyet a tudósok 14 000 adatponttal egyesítettek, miután egy folyosószimuláció során megtanult eljárást futtattak a kaliforniai Berkeley Egyetem egyik épületében.

Mindössze egy órányi valós adatok felhasználásával a bemutatón lévő felhasználói felület rendszere képes volt vezetni egy 27 grammos Crazyflie 2.0 kvadrokoptert új környezetben, még soha nem látott megvilágítással és konfigurációval, és elkerülni az ütközéseket. Az egyetlen ablaka a való világba egy monokuláris kamera volt; a rendszer rádió-USB eszközön keresztül kommunikált egy közeli laptopdal.

A kutatók megjegyezték, hogy az akadályok és a navigáció elkerülésére kiképzett modelleket jobban átadták, mint egy ismeretlen feladattal rendelkező eljárásokat, amelyeket más módszerrel képeztek ki, például pl. felügyelet nélküli tanulás. Ezen túlmenően, ha a felhasználói felület meghibásodott, gyakran "indokolt" volt - például a hajlított folyosókon végzett tesztek 30% -ában egy kvadrokopter egy üvegajtónak ütközött.

"Munkánk legfőbb előnye az a módszer, hogy nagy mennyiségű szimulált adatot és kis mennyiségű valós tapasztalatot kombinálunk annak előkészítésére, hogy mélyen megerősítő tanulással el lehessen kerülni az ütközéseket az autonóm repülés során" - írták a cikk szerzői.