Milleks on vaja programmeerijat, kui olemas on Devin?
Üheks märtsi 2024. aasta kõige arutletumaks käivituseks on saanud startupi Cognition Labs loodud tehisnärvivõrk Devin. Devin suudab iseseisvalt luua ja juurutada rakendusi, meenutada konteksti igal sammul ja pidevalt täiustuda. Ettevõte väidab, et Devin oskab täita erineva keerukusastmega ülesandeid, alates vigade otsimisest ja parandamisest koodibaasides kuni suurte keelemudelite (LLM) peenhäälestamiseni. Ta
Üheks märtsi 2024. aasta kõige arutletumaks käivituseks on saanud startupi Cognition Labs loodud tehisnärvivõrk Devin. Devin suudab iseseisvalt luua ja juurutada rakendusi, meenutada konteksti igal sammul ja pidevalt täiustuda.
Ettevõte väidab, et Devin oskab täita erineva keerukusastmega ülesandeid, alates vigade otsimisest ja parandamisest koodibaasides kuni suurte keelemudelite (LLM) peenhäälestamiseni. Ta võib õppida kasutama talle tundmatuid tehnoloogiaid, kui loeb nende kohta artiklit.
Devin töötab umbes nagu reaalne inimene. Kasutaja kirjeldab talle ülesannet vestlusbotis ja tehisintellekt-insener valmistab ette üksikasjaliku samm-sammulise lahendusplaani. Seejärel asub Devin rakendama oma plaani — kirjutab oma koodi, parandab seda, viib läbi teste ja annab projekti edenemisest reaalajas teada. Kui kasutajale midagi ei meeldi, võib ta vestlusesse sisse logida ja anda Devinile käsu olukorda parandada.
Bloombergi ülevaates kirjutatakse, et Devin suutis tõepoolest luua veebisaidi nullist 5-10 minutiga ja umbes sama ajaga taasluua veebiversiooni mängust Pong. Autor pidi paar korda juhendama, kuidas parandada palli liikumise füüsikat mängus, ja paluma teha kosmeetilisi muudatusi. Devin tuli kõigega probleemideta toime.
SWE-bench testis, kus tehisintellekti assistendid peavad lahendama probleeme GitHubi avatud lähtekoodiga projektides, suutis Devin (väidetavalt) õigesti lahendada 13,86% ülesandeid ilma inimese abita. Võrdluseks, Claude 2 lahendas ainult 4,80% probleeme, SWE-Llama-13b 3,97% ja GPT-4 1,74%.
Cognitioni sõnul peitub nende mudeli edu saladus selles, et ta keskendub "arutlemisele". Tavaliselt põhinevad generatiivse tehisintellekti tööriistad tõenäosusel — nad ennustavad, milline sõna kõige tõenäolisemalt järgneb. Kuid Cognition usub, et just tehisintellekti võime arutleda võib "avada uusi võimalusi laias valikus distsipliinides".
Lansseerimine tekitas kohe programmeerijate seas muret. Athagisti agentuuri asutaja ja insener-programmeerija Kyle Shevlin kirjutas X-is, et tööstus "üritab agressiivselt asendada ühte vähestest allesjäänud töökohtadest, mis pakub keskmisele klassile seaduslikku sissetulekut".
Kuid tuleb arvestada, et Devini sõltumatuid teste pole veel läbi viidud — seetõttu on tema tegelik autonoomsus küsitav. Ainsad võrdlusalused saadi arendajate enda läbiviidud uuringutest. Jah, 13,86% on palju kõrgem kui teiste lahenduste näitajad, kuid see on siiski väga väike — eriti võrreldes kogenud programmeerijaga, kes suudab õigesti täita peaaegu 100% ülesannetest.
Devinit saab kasutada lihtsamateks ülesanneteks, kuid isegi siis pole ta suuteline töötama ilma pideva inimjärelevalveta. Pixee.ai tehniline direktor Arshan Dabirsiagi arvates saab Devin hakkama väga kitsaste ülesannete ringiga ja lühiajaliselt ei suuda ta oluliselt mõjutada programmeerijate töökorraldust.
Hiljuti levis võrgus ka video pealkirjaga "Debunking Devin: ‘First AI Software Engineer’ Upwork lie exposed!" Selles öeldakse muu hulgas, et Devini lahendus Upworkile ei vasta tegelikult kliendi nõuetele (kes palus juhiseid seadistamiseks, mitte koodi), et Devin parandab vead mitte võõras lähtekoodis, vaid oma failides ning et ta täidab mõttetuid käske ja teeb koodis halbu muudatusi.
Tundub, et programmeerijad võivad veel mõnda aega rahulikult hingata.