Анализи
Изкуственият интелект между възторга и страха
Главният изпълнителен директор на компанията за изкуствен интелект Anthropic Дарио Амодей прогнозира, че до 2027 г. може да се появи ИИ, „по-умен от носител на Нобелова награда“ в области като биология, математика, инженерство и писане. Той си представя милиони копия на един модел, всяко от които провежда собствени изследвания — „държава от гении в център за данни“. През юни Сам Алтман от OpenAI написа, че индустрията е на прага на създаване на „дигитална свръхинтелигентност“. „2030-те вероятно ще са радикално различни от всичко преди това“, заяви той. Междувременно инструментите за ИИ, с които повечето хора взаимодействат ежедневно, напомнят Clippy — някогашния „асистент“ в Microsoft Office, който по-скоро досаждаше. Инструмент на Zoom предлага да го попитате „Какви са подходящи ледоразбивачи за среща?“ или да му наредите „Напиши кратко съобщение за благодарност“. Siri е добра в задаването на напомняния, но не и в много повече. Приятел видял бутон в Gmail, на който пишело „Благодари и разкажи анекдот“. Когато кликнал, ИИ измислил забавна история за пътуване до Турция, на което той никога не е бил.
Прибързаното и неравномерно внедряване на ИИ създаде мъгла, в която е изкушаващо да заключиш, че няма нищо за гледане — че всичко е хиперболизация. Хайп има предостатъчно: графикът на Амодей е научна фантастика (моделите не се подобряват чак толкова бързо). Но е друг вид пожелателно мислене да приемем, че големите езикови модели просто нареждат думи. И аз някога бях склонен към това виждане. Успокоявах се с мисълта, че ИИ няма много общо с истинската интелигентност или разбиране. Дори празнувах неговите несъвършенства — стискайки палци за „отбора на хората“. После започнах да използвам ИИ в работата си като програмист, страхувайки се, че ако не го направя, ще изостана (работодателят ми — търговска фирма — има няколко инвестиции и партньорства с компании за ИИ, включително Anthropic). Писането на код е, по общо мнение, най-силната страна на ИИ: кодът има повече структура от прозата и често можеш автоматично да валидираш дали програмата работи. Обратът ми настъпи светкавично. Първо питах моделите вместо да търся в документация. После им давах малки, самостоятелни задачи. Накрая — истинска работа, за която се обучавах цялата си кариера. Видях как тези модели за секунди „смилат“ сложни детайли от хиляди редове код. Откриваха фини бъгове и оркестрираха комплексни нови функции. В крайна сметка ме преместиха в бързо растящ екип, който има за цел да извлича повече полза от инструментите на ИИ — и да създава наши собствени.
Научнофантастичният автор Уилям Гибсън е казал, че бъдещето вече е тук — просто не е равномерно разпределено. Това обяснява защо ИИ сякаш е създал две култури: едната пренебрежителна, другата възторжена. В ежедневието „агенти“, които да резервират почивки или да подават данъчни декларации, са провал, но имам колеги, които пишат голяма част от кода си с ИИ и понякога пускат едновременно няколко кодиращи агента. Моделите понякога правят аматьорски грешки или се увличат в безсмислени цикли, но когато се научих да ги използвам ефективно, ми позволиха за една вечер да свърша това, което преди ми отнемаше месец. Неотдавна направих две iOS приложения, без да знам как се прави iOS приложение.
Бивш шеф казваше, че интервюто трябва да търси силните страни, а не липсата на слабости. Големите езикови модели имат много слабости: прочути са с „халюцинациите“, сервилничат дори когато грешиш, объркват се от елементарни загадки. Но помня време, когато очевидните им силни страни — плавност, лекота на изразяване, способност да „схванат“ за какво говориш — бяха свещени граали. Когато ги изпиташ от първо лице, се питаш: колко убедителна трябва да е илюзията за разбиране, за да спрем да я наричаме илюзия?
В един убийствено горещ летен ден приятелят ми Макс се срещна със семейството на детска площадка. По някаква причина детската пръскачка беше изключена, а съпругата му вече беше обещала на всички, че той ще я оправи. Изправен пред зачервени шест- и седемгодишни, Макс влезе в помощно помещение с надеждата да намери голям бутон „On“. Вместо това откри лабиринт от стари тръби и кранове. Тъкмо щеше да се откаже, когато импулсивно извади телефона си, подаде снимка в ChatGPT-4o и описа проблема. ИИ „помисли“ за секунда — или може би не — но така или иначе каза, че гледа обратно-предпазна система, типична за напоителни инсталации. Вижда ли жълтия сферичен кран долу? Вероятно контролира дебита. Макс го завъртя — и възгласите огласиха площадката, щом водата тръгна.
Дали ChatGPT безмислено нареди думи, или разбра проблема? Отговорът може да ни научи на нещо важно за самото разбиране. „Невроучените трябва да приемат една отрезвяваща истина“, каза ми Дорис Цао, професор по невронауки в Калифорнийския университет в Бъркли. „Напредъкът в машинното обучение ни научи повече за същността на интелигентността, отколкото невронауката е открила за последните сто години.“ Цао е известна с това, че „разчете“ как макаците възприемат лица. Екипът ѝ предсказва кои неврони ще се активират при вид на конкретно лице; още по-впечатляващо — по даден шаблон на активност успяват да възстановят самото лице. Работата им стъпва върху изследвания за представянето на лица във вътрешността на ИИ моделите. Днес любимият ѝ въпрос е: „Кое е най-дълбокото прозрение, което сте получили от ChatGPT?“ „Моето е, че то радикално демистифицира мисленето“, каза тя.
Най-елементарният разказ за пътя дотук звучи така. През 80-те малка група когнитивни психолози и компютърни учени — сред най-известните Дейвид Румелхарт, Джефри Хинтън и Джеймс Макклеланд — се опитаха да симулират мисленето в машина, създавайки изследователска група в Калифорнийския университет в Сан Диего. Те виждаха мозъка като огромна мрежа, в която невроните се активират по шаблони и пораждат нови шаблони — този танц е мисленето. Обучението става, като се променя силата на връзките между невроните. Учените имитираха този процес с изкуствена невронна мрежа и прост алгоритъм — градиентен спад — за да увеличат точността на предсказанията ѝ (подобно на турист, който от връх търси долината, правейки на всяка стъпка движение „надолу“). Употребата на такива алгоритми в големи мрежи стана известна като дълбоко обучение.
Мнозина в ИИ бяха скептични, че невронните мрежи са достатъчно изтънчени за реални задачи. Но с нарастването им те започнаха да решават „неразрешими“ проблеми. Дисертации, посветени на разпознаване на ръкописни цифри или лица, бяха обезсмислени от алгоритми, които „смилат“ данните, откриват тънкости и решават задачата. Дълбокото обучение покори разпознаването на реч, превода, описването на изображения, настолните игри и дори предсказването на сгъването на протеини.
Днешните водещи модели се обучават върху огромна част от интернет чрез предсказване на следващ токен. Моделът „учѝ“ като отгатва какво следва и сравнява отговора с реалния текст; грешките водят до промени в силата на връзките — това е градиентният спад. В един момент моделът става толкова добър в предсказването на текст, че изглежда сякаш „знае“ и „разбира“. Група хора търсеха тайната на мозъка; когато моделът им доближи мозъчни мащаби, започна да прави неща, смятани за „мозъчни“. Възможно ли е да са намерили онова, което търсеха?
Съпротивата срещу такава опростена и триумфална история е разбираема. Тезата против нея беше убедително изложена от Тед Чан, който през 2023 г. написа статия „ChatGPT е размазан JPEG на уеба“. Той го казваше в обезценяващ смисъл: това е всичко — храниш програмата с целия интернет и тя го „връща“ несъвършено, като копие на копие на снимка — но достатъчно умело, за да те заблуди, че е интелигентна. Подобен аргумент развиха и Емили М. Бендър и Алекс Хана в книгата „The AI Con“, а Бендър стана известна с израза „стохастични папагали“ за LLM. „Големите езикови модели не разбират и няма да разбират нищо“, написа рецензентът Тайлър Остин Харпър в The Atlantic, допълвайки и морални аргументи: ИИ облагодетелства силните, харчи енергия и засилва климатичните рискове, маргинализира работници — „фундаментът на индустрията за ИИ е измама“.
Но моралният случай срещу ИИ може да е по-силен от техническия. „Някога трябва да престанем с ‘стохастичния папагал’“, каза ми Самюел Дж. Гершман, когнитивен учен от Харвард, който не е „евангелист“ на ИИ. „Само най-твърдоглавите скептици могат да отрекат, че системите правят неща, за които мнозина не вярваха, че ще бъдат постигнати.“ Когнитивният невролог Джонатан Коен от Принстън подчертава ограниченията на ИИ, но твърди, че в някои отношения LLM отразяват най-голямата и важна част от човешкия мозък: „До първо приближение вашият неокортекс е вашият механизъм за дълбоко обучение.“ Хората имат много по-голям неокортекс спрямо тялото от други животни, а видовете с най-големи неокортекси — слонове, делфини, горили, шимпанзета, кучета — са сред най-умните.
През 2003 г. изследователят Ерик Б. Баум публикува „What Is Thought?“ — тезата му е, че разбирането е компресия, а компресията — разбиране. В статистиката, когато искаш да „видиш“ закономерност в точки на графика, правиш линейна регресия — линия на най-доброто приближение. Ако има редовност (например номер обувки срещу ръст), линията я изразява компактно и предсказва нови точки. Неокортексът може да се разбира като дестилиране на океан от преживявания — звуци, образи, усещания — в „линии на най-добро приближение“, с които прави предсказания. Бебето пробва света, греши, коригира връзките; с времето те улавят закономерности — компресиран модел на света.
Изкуствените мрежи компресират опита по сходен начин. Един от най-добрите open-source модели, DeepSeek, пише романи, предлага медицински диагнози и звучи като носител на десетки езици. Обучен е върху терабайти данни, но свален на лаптоп, е шестстотин пъти по-малък — дестилация на интернет. Тед Чан беше прав да нарече ранния ChatGPT „размазан JPEG“ — но именно това, според мен, е причината моделите да стават по-интелигентни. За да компресираш файл с милиони примери по аритметика, не правиш ZIP — пишеш калкулатор. „Най-голяма компресия се постига чрез разбиране на текста“, пише Чан. Може би LLM започват да правят точно това.
Не е естествено, дори е неприятно, да си представим, че програма наистина разбира, наистина мисли. Склонни сме да свързваме мисленето със съзнанието — потока на вътрешния монолог. Или с разсъждение — стъпка по стъпка. В разговорите за ИИ често смесваме тези различни видове мислене. „Очевидно ChatGPT не мисли, защото няма ‘Прустов’ вътрешен живот“ — или: „Очевидно мисли, защото решава логически задачи по-добре от теб.“ Истината е по-фина. Не вярвам, че ChatGPT има вътрешен живот, и все пак изглежда, че знае за какво говори. Разбирането — „ухващането“ на ситуацията — е недооценен вид мислене, защото е предимно несъзнателно. Дъглас Хофстадтер, професор по когнитивистика и сравнителна литература в Индианския университет, обича да казва: „Когницията е разпознаване.“ Неговата теория е, че „виждането като“ е същината на мисленето: виждаш петно цвят като кола, друго — като ключодържател; разпознаваш буквата „А“ във всякакъв шрифт и почерк. Същият процес стои и зад абстрактните възприятия: гросмайсторът „вижда“ с един поглед, че офицерът на белите е слаб; завихряне в реката „значи“ опасност; среща — „царят е гол“. Двегодишният ми син „вижда“, че разходката преди обяд е шанс за кроасан.
Хофстадтер дълго бе дефлационист за ИИ, и моят скептицизъм произтичаше от него. Харесваше групата в UCSD, а и финландско-американския когнитивист Пенти Канерва, който описа необичайни свойства на високомерните пространства. Там всяка две случайни точки са много далеч, но всяка има голям облак „съседи“, така че ако се доближиш достатъчно, лесно стигаш до нея — напомня за паметта. В „Sparse Distributed Memory“ (1988) Канерва твърди, че мисли, възприятия и спомени могат да се представят като координати в такова пространство. Всяко преживяване активира набор неврони — адрес. Близки адреси извикват близки спомени: мирисът на сено — летен лагер; първите три ноти от Пета симфония на Бетховен — четвъртата; нова шахматна позиция — правилните стари партии. Хофстадтер видя в това „машина за виждане като“ — първото изследване, което му даде проблясък как мозъкът работи като цяло.
Книгата на Канерва бе забравена, а и звездата на Хофстадтер помръкна — освен когато критикуваше нови системи. През 2018 г. написа за Google Translate: „Липсва нещо дълбоко — дума: разбиране.“ Но GPT-4 (2023) го „обърна“. „Съсипан съм от удивление“, каза ми. „Немислимо преди десет години.“ Програмата превежда като експерт, прави аналогии, импровизира, генерализира. „Правят неща, много близки до мисленето“, каза той. „Може да се каже, че мислят — просто по някакъв чужд, извънземен начин.“
В сърцевината на LLM сякаш има „машина за виждане като“. Всяка дума е вектор — координати в високомерно пространство. В GPT-4 той има хиляди измерения, описващи прилики и разлики с други думи. При обучение моделът „побутва“ координатите при грешка; думи, които често се срещат заедно, се приближават. Получава се плътно представяне на употреби и значения, където аналогията става геометрия: „Париж“ минус „Франция“ плюс „Италия“ дава „Рим“. Моделите „векторизират“ и изображения — съдържание, настроение, изражения — с такава детайлност, че могат да го прерисуват в стил или да напишат параграф. Когато Макс поиска помощ за пръскачката, снимката и подсказката му се компресираха във вектор, уловил най-важното; той извика „съседни“ думи и концепции, които породиха други — и моделът състави отговор с тези идеи „наум“.
Наскоро четях интервю с изследователя на Anthropic Трентън Брикен, който с колеги „наднича“ във вътрешността на Claude. Те идентифицират ансамбли от изкуствени „неврони“ — „features“ — които се активират, когато Claude се кани да каже едно или друго. Тези „фийчъри“ са като потенциометри за концепции: ако завъртиш докрай „моста Голдън Гейт“, при рецепта за шоколадова торта Claude ще включи „1/4 чаша суха мъгла“ и „1 чаша топла морска вода“. Брикен твърди, че математиката в основата на архитектурата Transformer (буквата „T“ в ChatGPT) силно наподобява модела на Канерва „Sparse Distributed Memory“.
Трябва ли да се изненадваме от съответствията между ИИ и мозъка? В крайна сметка LLM са изкуствени невронни мрежи, вдъхновени от психологията и невронауката. По-неочакваното е, че при рутинно упражнение — предсказване на думи — те започнаха да се държат „мозъчно“. Днес невронауката и ИИ се оплитат: мозъчните учени използват ИИ като „моделен организъм“. Евелина Федоренко от MIT изследва с LLM как мозъкът обработва език: „Не вярвах, че в моя живот ще имаме модели, достатъчно добри за това.“
Казват, че ИИ е „черна кутия“, но може да е обратното: учен може да наблюдава и променя отделни изкуствени неврони. „Да имаш работеща система, която въплъщава теория за човешката интелигентност — това е мечтата на когнитивната невронаука“, каза Кенет Норман от Принстън. Той моделира хипокампа — хранилището на епизодичната памет — но досега с груби приближения; „сега можеш да даваш на моделите точно стимулите, които даваш на човек“.
Братята Райт изучаваха птици и построиха въздушен тунел, преди да полетят. Странно, но истинското разбиране как летят птиците дойде след работещия самолет.
ИИ позволява да поставим самото мислене в „въздушен тунел“. В статия с провокативното заглавие „За биологията на голям езиков модел“ изследователи на Anthropic описват „вериги“ — каскади от фийчъри, които заедно извършват сложни изчисления. (Да извикаш правилните спомени е стъпка към мислене; да ги комбинираш и манипулираш във вериги е друга.) Критика към LLM е, че генерират токен по токен и не могат да планират. Но когато помолиш Claude да довърши римуван двустишен стих, една верига първо обмисля последната дума, за да „заключи“ римата, и после работи обратно — доказателство за планиране. Примижеш ли, сякаш за пръв път виждаш вътрешността на ум.
Но трябва да примижеш здраво. „Опасението ми е, че хората превключиха от ‘много съм скептичен’ към пълно сваляне на гард“, каза Норман. „Остават много неизвестни.“ Аз съм сред тях — може би твърде лесно се развълнувах от „срещата“ между Канерва и модел на Anthropic. Последните години започнах да вярвам на думите на Хинтън (днес нобелов лауреат за изследванията си в ИИ) към журналистката Карън Хао през 2020 г.: „Дълбокото обучение ще може да прави всичко.“ Но видяхме и че по-голямите модели не винаги са по-добри: кривите се „изравняват“, качествени данни не достигат, изчисленията поскъпват. GPT-5 (август) донесе само приращение — толкова сдържано, че заплашва да спука инвестиционния балон. Нужно е „средно“ скептицизиране: приемай сериозно днешните модели, без да вярваш, че няма повече трудни проблеми.
Най-същественият е как да се проектира модел, който учи толкова ефективно, колкото човеците. Оценките са, че GPT-4 е „видял“ трилиони думи; на децата им трябват милиони, за да станат грамотни. Когнитивистите говорят за вродени „индуктивни пристрастия“, които ускоряват ученето: очаквания за обекти, за намерения у други същества. Когато мама каже „банан“, бебето свързва думата с целия жълт обект, а не с кората му. Децата правят миниексперименти, водени от емоции като любопитство и фрустрация; винаги опитват нещо малко над уменията си. Ученето им е ефективно, защото е въплътено, адаптивно, целенасочено и непрекъснато. Може би истинското разбиране на света изисква участие в него.
Опитът на ИИ, сравнително, е толкова беден, че едва ли може да се нарече „опит“. LLM се обучават върху силно рафинирани данни — езикът е „предъвкан опит“. „Затова работят — качват се на гърба на езика“, каза Цао. Другите видове данни са по-слабо наситени със смисъл. „Защо още не сме видели сравнима революция в разсъждението върху видео?“, пита Гершман. Моделите за визия се препъват в физика от здравия разум: стъкло отскача, вместо да се троши; въжета се „мачкат“ в възел. Ида Моменежад (Microsoft Research) дава на LLM виртуално „обхождане“ на сграда и пита за маршрути — тривиално за хората, но ИИ често се проваля или халюцинира коридори. „Планират ли? Не съвсем.“
Мнозина невроучени усещат, че индустрията на ИИ тича напред без нужната рефлексия. „Не тренираме системите по правилния начин“, казва Брендън М. Лейк от Принстън. След обучението „мозъкът“ на модела се замразява; ако му кажеш факти за себе си, той не пренаписва връзките — просто добавя бележка „Потребителят има малко дете и учи френски“ и я има предвид. Човешкият мозък се актуализира непрекъснато, и красивата теория гласи, че насън неокортексът се „обучава“ от преиграни епизодични спомени.
Общността на ИИ — пристрастена и финансово инвестирана в скоростта — понякога се държи сякаш прогресът е неизбежен и наука не остава. Но науката понякога засяда. Силициевата долина нарича компаниите „лаборатории“, а служителите — „изследователи“, ала културата е инженерна: каквото работи. „Забележително е колко малко общността по машинно обучение гледа, камо ли уважава, историята и когнитивната наука преди нея“, казва Коен.
Днешните модели дължат успеха си на стари открития за мозъка, но все още са дълбоко различни. Кое е съществено и кое — детайл? Теориите могат да се тестват както никога преди — но лесни отговори няма. „Проблемите се решават, като внимателно показваме къде моделите не се държат достатъчно интелигентно — и после адресираме това“, казва Норман. „Все още е процес с човешки учен в цикъла.“
През 90-те милиарди долари се изляха в проекта „Човешки геном“ с надеждата, че секвенирането на ДНК ще реши най-трудните проблеми на медицината. Биолозите скоро разбраха, че реалността е по-сложна: не излекувахме рак, не открихме причините за Алцхаймер или аутизъм — научихме, че ДНК е само част от историята. И все пак никой не би казал, че Франсис Крик е грешал, когато през 1953 г. влезе в пъб в Кеймбридж, говорейки, че са открили „тайната на живота“. Десетилетията след това бяха сред най-продуктивните в историята на науката: двойната спирала стана учебникарска.
С ИИ отново сме в момент на фанфари и увереност. Сам Алтман говори за половин трилион долара за „Stargate“ — нови центрове за данни. Хората обсъждат надпреварата към свръхинтелигентност с тежест и спешност, които изглеждат неоснователни. Но вероятно причина за пророчествата на Амодей и Алтман е убеждението им, че базовата картина на интелекта е разбрана; останалото са детайли.
Дори някои невроучени смятат, че прагът е преминат. „Наистина мисля, че това може да е правилният модел за когницията“, казва Ури Хасон от Принстън за невронните мрежи. Това го тревожи, колкото го вълнува: „Страхът ми не е, че моделите са подобни на нас. Страхът ми е, че ние сме подобни на тях.“ Ако прости техники правят програма, държаща се като човек, може би хората не са толкова специални. Може ли да значи, че ИИ ще ни задмине не само в знание, но и в преценка, находчивост, хитрост — и следователно във власт? „Страхувам се, че можем да успеем да разберем как работи мозъкът. Може би този стремеж е колосална грешка за човечеството“, казва Хасон, сравнявайки изследователите на ИИ с ядрените физици от 30-те: „Най-интересното време в живота им — и същевременно знаят, че работата им има тежки последствия. Но не могат да спрат — от любопитство.“
Една от любимите ми книги на Хофстадтер е „Fluid Concepts and Creative Analogies: Computer Models of the Fundamental Mechanisms of Thought“. В университета ме електризираше с идеята, че въпрос като „Какво е мисленето?“ има реален отговор. През 1995 г. той и екипът му можеха само да посочат посока. Днес изследователите на ИИ може би са стигнали до механично обяснение на рудиментите на мисленето. Когато говорихме, Хофстадтер звучеше дълбоко разочарован — и уплашен. „Сегашните изследвания потвърждават много мои идеи, но отнемат от красотата на човечеството“, каза ми. „Когато бях млад, исках да знам механизмите на креативността — свят граал. Сега искам да остане мистерия.“ Може би тайните на мисленето са по-прости, отколкото предполагахме — от онези, които и гимназист, а дори машина, може да разбере.
Изтоичник: Анализ на The New Yorker





