Facebook javnosti ponudil tehnologijo za prepoznavanje fotografij

Facebookova tehnologija za segmentacijo fotografij je po novem na voljo javnosti, saj so programe DeepMask, SharpMask in MultiPathNet objavili na platformi GitHub. V podjetju pričakujejo, da bo področje računalniškega vida po zaslugi odprtokodnih rešitev doživelo razcvet.

Facebookova tehnologija za prepoznavanje, analiziranje in segmentacijo fotografij je sedaj na voljo javnosti. (Vir slike: Littlevisuals)

Facebook Tweet LinkedIn

Facebook sicer stalno izboljšuje svojo tehnologijo za segmentacijo in analizo fotografij, omenjene programe pa je že predstavil javnosti, med drugim tudi v znanstvenih revijah. Vendar v podjetju po besedah raziskovalca Piotra Dollarja upajo, da bodo z objavo svojih programskih rešitev spodbudili razvoj področja računalniškega vida in sprožili razcvet tehnologije za avtomatsko prepoznavanje in določanje fotografij.

Facebookovi uporabniki se z omenjeno tehnologijo srečujemo pogosto, čeprav se tega verjetno ne zavedamo. Ko namreč na družabno omrežje naložimo fotografijo in želimo na njej označiti svoje prijatelje, Facebook avtomatično predlaga njihova imena. Ko je bil posameznik označen na dovolj velikem številu fotografij, si program namreč zapomni njegove značilne obrazne poteze in ga na novih fotografijah prepozna avtomatično. Tako moramo uporabniki le potrditi nadaljnje oznake.

Računalniški vid pa ni uporaben le pri prepoznavanju naših prijateljev na fotografijah. Letos je namreč Facebook predstavil tudi novo funkcijo, namenjeno slepim uporabnikom, ki na podlagi podobne tehnološke rešitve na preprost način opiše fotografije, na primer: »Dve osebi, nasmeh, sončna očala, nebo, narava, voda.«

V prihodnosti bo prepoznavanje fotografij izboljšalo tudi naše iskanje posameznih fotografij v zbirki – ne glede na to, kako smo jih označili sami. Google Photos že ponuja podobno storitev, saj lahko na primer poiščemo »fotografije, na katerih se smejim«. Po mnenju predstavnikov Facebooka se v opisani tehnologiji skrivajo tudi poslovne priložnosti. V prihodnosti bomo lahko posneli fotografijo pohištva in ugotovili, kje ga lahko kupimo; ali fotografirali različne jedi, da bi nam tehnologija povedala, katera jed vsebuje največ hranilnih snovi. Morda bo tehnologija znala prepoznati tudi raven melatonina v naši koži in nam svetovala, kdaj moramo obiskati dermatologa.

V prihodnosti bo omenjena tehnologija lahko prepoznavala in analizirala tudi video posnetke, na kateri se posamezni predmeti ali bitja premikajo, se spreminjajo in med seboj komunicirajo. Tudi na tem področju se računalniški vid izboljšuje, tako da že sedaj lahko prepozna sestavne dele videa, na primer mačke ali hrano. Na podlagi sprotne klasifikacije videov bi lahko Facebookovi algoritmi uporabnikom v živo prikazovali relevantne videoposnetke, morda pa bo nekoč tehnologija tako natančna, da bo omogočala tudi sprotno opisovanje dogajanja na posnetku.

Doseganje novega mejnika

Tehnologija za prepoznavanje fotografij temelji na tipu umetne inteligence, ki se imenuje globoko učenje (angl. deep learning). Povedano preprosto, globoko učenje temelji na interpretiranju ogromnih količin podatkov preko niza nevronskih mrež (angl. neural networks), ki lahko tako vedno bolj natančno predvidevajo, kakšne informacije bodo vsebovali novi primeri, s katerimi se bodo srečale. Medtem ko lahko vsaka oseba na fotografiji preprosto prepozna slona, proces za računalnike ni tako preprost. Računalnik mora namreč odgovoriti na osnovno vprašanje: Kaj je bistvo slona? Je slon katerakoli stvar z rilcem? Velikimi ušesi? Štirimi mesenimi nogami, ki bingljajo s telesa? Kaj pa, če se žival valja po blatu? Na takšna in podobna vprašanja mora odgovoriti programska oprema, če želi pravilno prepoznati, kaj je na fotografiji.

Na podlagi tehnologije globokega učenja Facebook uporablja sloje algoritmov, ki analizirajo različne sestavne dele fotografij, da bi jih prepoznali. V blogu Dollar ponudi poenostavljeno razlago procesa:

Za primer vzemimo fotografijo, na kateri so človek, pes in ovce. Tehnologija najprej klasificira fotografijo in ugotovi, da so na njej oseba, ovce in pes. Nato določi osnovne sestavne dele fotografije. Ta del procesa, ki se imenuje segmentacija, je za računalnik izjemno zahtevna: algoritmi se morajo namreč naučiti, kako ločiti posamezne natančno določene sestavne dele fotografije od ozadja ali drugih šumov. Po besedah Facebooka njihova tehnologija pregleda vsako slikovno piko (angl. pixel) na fotografiji in se vpraša, ali je ta pika del ovce. Tako lahko program natančno določi, kaj je na fotografiji, kje se nahajajo določeni elementi fotografije in celo katere slikovne pike pripadajo kateremu elementu.

Etični pomisleki in varnost

Seveda tehnologija prepoznavanja fotografij, predvsem prepoznavanja obrazov posameznikov, s seboj prinaša določene etične pomisleke. V bistvu pravzaprav govorimo o avtomatskem prepoznavanju posameznikov na podlagi njihovih telesnih lastnosti – v času dronov in kaznivih dejanj iz sovraštva si lahko predstavljamo, kako bi se dalo izkoristiti predstavljeno tehnologijo.

Tako Facebook kot Google zato še vedno zahtevata potrditev oznake s strani uporabnika in zagotavljata, da brez izrecnega dovoljenja posameznika ne bosta označila fotografije z njegovim imenom.

Tehnologija za prepoznavanje in segmentiranje fotografij je tako med nami – zdaj pa se bomo morali soočiti z odločitvijo, kdaj in za kakšne namene jo bomo uporabljali.

Viri: Mashable, VentureBeat

Facebook Tweet LinkedIn