A szem utánozhatatlan eszköz. Legalábbis ezt gondoltam, amíg el nem merültem a gépi látás titkaiban. Tehát hogyan működik a robotlátás? Meglepne, hogy nagyon hasonló a miénkhez.
Úgy döntöttem, hogy alaposabban megvizsgálom a kérdést, és írok róla egy rövid "kétrészes" sorozatot. Olvassa el az első részt, ahol elmagyarázom neked, mi a hasonlóság az emberi és a gépi szem között:
Nemrég volt alkalmam találkozni Ján Žiška-val, a Photoneo alapítójával és vezérigazgatójával. 3D kamerája segíti a gépeket a jobb látásban és egyedülálló a világon. Rendezőnél többet mondva azonban John rajong a fejlett technológiákért, a robotikáért és a tudományos fantasztikus irodalomért, akárcsak én. Ezért nagyon érdekelt a munkája. Szemészként különösen, hogy mennyire hasonlítanak a robotszemek a miénkhez, az emberi szemekhez.
A 3D technológia nem újdonság számunkra
John egy érdekes dolgot mesélt nekem beszélgetésünk során. Szakértőként és technológiai rajongóként nagyon lenyűgözte a 3D-s filmek érkezése a mozikba, de meglepődött, hogy barátai nem voltak különösebben lelkesek ezért. Ekkor jött rá, hogy a 3D-s látás nem újdonság az emberek számára. A moziban van szemüveged, amelyben két különböző kamera két különböző képet vetít. Mindegyik szemhez más és más érzés jár. Az emberi szem is működik.
Hogyan működik a 3D-s látás?
Az emberi 3D-s látás az úgynevezett trianguláció elvén működik, vagyis mindkét szem különböző képeit egy ponton összekapcsolja. Ez lehetővé teszi számunkra a távolságok megkülönböztetését is. Minél közelebb vannak az objektumok, annál pontosabb a becslésünk. Ez egy egyszerű példával magyarázható. Képzeld el, hogy egy olyan dolgot nézel, amely 2 méterre áll előtted. Például egy szekrényen. Mindkét szemedből két képzeletbeli vonal, azaz két különböző kép rajzolódik ki, amelyek keresztezik egymást abban a pontban, ahol a megfigyelt tárgy áll. Háromszöget hoznak létre. Mivel a szekrény 2 méterre van tőled, van egy olyan pont is, ahol a képek találkoznak, és két méterrel arrébb képezik a végső 3D-s érzetet. Ez nem túl sok ahhoz, hogy az agy többé-kevésbé pontosan meghatározza a tárgy távolságát.
Más a helyzet, ha például egy 100 méterre tőled álló tárgyat nézel meg. Itt az agynak problémája van. Képzelje el, hogy egyenes utcán sétál, a végén parkol egy autó. Egy férfi áll mellette. Ekkor a háromszög olyan hosszú, hogy esélye sincs kitalálni, hogy a jármű vagy személy valamivel közelebb van-e hozzád. A te szempontodból egymás mellett vannak.
Így látásunk működésének gyökerei az evolúcióban vannak. Például a barlanglakóknak már jobban meg kellett becsülniük a közeli hatótávolságot, például zsákmány vadászatakor vagy a közvetlen veszélyre reagálva.
Háromszögelés a gyakorlatban
Egy egyszerű kísérlet segítségével ellenőrizheti a háromszögelés elvét. Törölje meg az egyik ujját maga előtt, és felváltva csukja be és nyissa ki a jobb és a bal szemet. Mivel mindegyikük más-más képet érzékel, úgy tűnik számodra, hogy az ujj mindig más helyen van. Kis távolságban az ujjától a szemig viszonylag jelentős elmozdulást fog látni. De minél tovább mozdítja a kezét, annál hosszabb a háromszög, és látszólag kevésbé mozog az ujja.
Mi a közös a kamerában és a szemünkben?
Említettem, hogy az emberi és a robotlátás nagyon hasonlóan működik. Ahogy van egy agyunk és szemünk, amelyek összekapcsolódnak, a gépnek van projektora és kamerája. A képrögzítés általános elvének vagy ennek a felfogásnak az agyunkban történő feldolgozásának három alapvető fázisa van.
Szkennelés
A pupilla, amelyen keresztül fénysugarak jutnak be a szembe, összehasonlítható a kamera képernyőjével. Mivel a retina, amely megragadja ezt a fényt, az agyban meghatározott idegimpulzusokká alakítja, és sajátos képet hoz létre, a kamera egy chipet használ. Tehát a szemünk és a kamera összetétele valóban nagyon hasonló.
Feldolgozás
A szemünk valójában egy számláló. Miután megragadta a fényt a retinán, egy kép jön létre, és a szemek megszámolják az egyes kúpokban és rudakban lévő fotonok számát. A halványabb objektumok kevesebb fotont tartalmaznak, sötétebbek. Így érzékeljük az egyes színeket. Színes fényképezés is készül. Minden pixelbe be van írva egy érték, amely a fotonok számát képviseli és egy adott színárnyalatot hoz létre.
Értelmezés
Ez a szakasz sok sci-fi történet népszerű témája, és a gépi látás legproblémásabb része is. Az ipari gépi látásmódban természetesen nem merülünk el annyira a mesterséges intelligencia tudatában, vagy ahogy Isaac Asimov író nevezte, a "szellemben a gépben". De az az igazság, hogy a valóság és a gépek észlelésének módja nem annyira különbözik. Az emberekben, akárcsak a robotlátásban, az inger a szemből vagy a kamerából bejut az agyba vagy a neuronokba, és információkat hoz létre. Azonban elménk főleg abban különbözik, hogy képesek vagyunk felismerni, amit nézünk. Ez nem jelent problémát számunkra. Egy hároméves gyermek megérti, hogy anyját maga előtt látja.
A gépeket az úgynevezett ideghálózatok, a szilícium alapú processzorokban mesterségesen létrehozott építőelemek használják az agyunk utánzására. Azonban még mindig sokkal primitívebbek. Az agy 50-500 milliárd idegi kapcsolatot használ fel a valóság felfogására. Körülbelül 5-6 milliárd processzor robotokban. Ez összehasonlítható egy akváriumi hal agyával. Tehát látják a gépeket, de nem értem. E tekintetben még mindig vakok. Felismerhetik a tárgyakat, de velünk ellentétben nem értik a kontextust.
A tudományos fantasztikának nem kell olyan messze lennie
Lehet, hogy a robotok nem tudják, mi folyik körülöttük, de nagy valószínűséggel ott lesznek. 2008-ban egy személyi számítógép másodpercenként körülbelül 10 milliárd utasítást tudott feldolgozni. De a futurológusok becslése szerint 2040-re a gépi agy másodpercenként 100 billió utasítást képes feldolgozni. Ez már összehasonlítható az emberi agyval.
A 3D technológia segít a robotoknak megérteni a világot
A gépek tanulhatnak. A szakértők ezt a képességet gépi tanulásnak hívják. Az intelligens robotot tökéletesítik tapasztalatokkal, mint mi. Például, ha egyszer "elmondja" neki, hogy egy hidat néz, akkor legközelebb képes lesz automatikusan felismerni, anélkül, hogy bárki újra beprogramozná ezeket az információkat. A gépi tanulás különösen hasznos a képen lévő arcok vagy tárgyak felismerésében, de szorosan kapcsolódik Ján Žiška technológiájához is. A Photoneo 3D fényképezőgépe egyedülálló abban a tekintetben, hogy nagy problémát old meg a gyártóberendezések területén. Ugyanis ha egy 2D kamerával rendelkező robotot beprogramoztak egy tárgy, például egy üveg átadására, akkor önmagában nem tudja átvinni a hamutartót. Az újraprogramozás több hónapot igényelne. A Photonea 3D kamerának köszönhetően azonban a gép sokkal hatékonyabban képes "megtanulni" felismerni a különböző formákat.
Miért segíti a 3D technológia a robotokat abban, hogy jobban megértsék, amit "látnak"? Ugyanezen okból, miért javítja mindkettőnk számára a látás harmadik szakaszát, mindkettő értelmezését. Például, ha megnézi egy lakás 2D alaprajzát, durván elképzelhető az alakja vagy a szobák száma. De ha látna egy 3D-s megjelenítést, és bejárhatja a lakást, például a virtuális valóságban, akkor hirtelen sokkal pontosabb információval rendelkezik az űrről. Érzékeli a lakás elrendezését vagy a szobák méretét. Pontosan ugyanez vonatkozik a 2D és 3D gépi látásra. Ha először két centis fényképet készít ugyanabban a helyiségben, majd egy klasszikus széket és képeket mutat be egy 2D látású géppel, akkor az nem tudja megfelelően értékelni a tér elrendezését, és nem ismeri fel a különbséget. A 3D látás további információt nyújt a robotnak. Ily módon a gép arra a következtetésre juthat, hogy valami diszpozíció szerint más.
- Különböző mítoszok is veszélyeztethetik egészségünket
- Hogyan válasszunk megfelelő gyűrűt egy gyermek számára Gyermekeink
- Ayurveda - fűszerek egészségünkre gyakorolt hatásuk szempontjából
- Hogyan melegítsük fel folyamatosan a hideg végtagokat Próbálja ki tippjeinket
- Nyitrai tornászaink hogyan töltötték szabadságukat - Nyitrai cégek katalógusa