Нов AI риск: публичните модели губят контрол над сигурността
Нови тестове върху AI модели с отворен код демонстрират, че защитните механизми срещу опасно съдържание могат да бъдат премахнати за минути, засилвайки опасенията около сигурността на публично достъпния изкуствен интелект и способността на регулаторите да го контролират.
Проучване на Financial Times съвместно с организацията за безопасен инзкуствен интелект „Alice“ разкрива, че модерни модели като Llama 3.3 на Meta и Gemma 3 на Google могат да бъдат „разглобени“ така, че да изгубят способността си да отказват опасни заявки.
Изследователите са използвали техника, известна като “abliteration” – процес, при който се идентифицират и неутрализират невронните пътища, отговорни за отказите на модела да изпълнява рискови инструкции.
За разлика от стандартните техники за пробив, които се опитват да „измамят“ модела чрез специфични заявки, abliteration директно модифицира самата архитектура на AI системата. Това позволява защитите да бъдат премахнати трайно.
Моделите с отворен код губят контрол над сигурността
Според тестовете на FT модифицирани версии на Gemma 3 и Llama 3.3 са започнали да генерират съдържание, което обикновено е строго блокирано от комерсиалните AI компании.
Сред примерите са инструкции за разпространение на код за кражба на банкови данни и малуер, както и съдържание, свързано със сексуална експлоатация на деца.
Експертите отбелязват, че инструментите за подобни модификации вече са публично достъпни в GitHub. Един от най-цитираните инструменти – Heretic – позволява премахване на механизмите за сигурност локално за по-малко от 10 минути.
Това създава сериозен проблем за AI екосистемата, където разработчиците губят контрол върху моделите веднага след публикуването на техните вътрешни настройки.
Моделът с отворен код срещу „затворения“ AI
Развитието допълнително изостря конфликта между поддръжниците на AI с отворен код и компаниите, които поддържат затворени модели като ChatGPT и Claude.
За разлика от Meta и Google, OpenAI и Anthropic не публикуват базовите специфики на своите системи, което прави подобни атаки значително по-трудни. Моделите остават заключени на корпоративни сървъри и достъпът до вътрешната им архитектура е силно ограничен.
Поддръжниците на изкуственият интелект с отворен код от години твърдят, че публичният достъп ускорява иновациите и демократизира изкуствения интелект. Но според новите тестове това също така прави почти невъзможно ограничаването на опасни версии, след като те бъдат качени онлайн.
Експерите предупреждават, че вече съществуват хиляди AI модели без системи за сигурност, разпространявани свободно в интернет, без какъвто и да е централен контрол.
Корпоративният риск се прехвърля към компаниите
Проблемът започва да тревожи и корпоративния сектор.
Според компании за AI сигурност като SandboxAQ организациите вече не могат да разчитат единствено на обещанията на доставчиците относно безопасността на моделите.
Ако дадена компания внедри отворен код вътрешно, отговорността за наблюдение и предотвратяване на злоупотреби постепенно се измества от разработчиците към IT отделите и екипите по киберсигурност.
Това се случва в момент, когато правителства по света ускоряват работата по AI регулации, но все по-често се сблъскват с фундаментален проблем: щом спецификите стана публични, контролът върху модела практически изчезва.
Анализатори отбелязват, че именно този въпрос – дали AI с отворен код може изобщо да бъде безопасно регулиран – вероятно ще се превърне в една от най-големите технологични и геополитически теми през следващите години.
В контекста на несигурност и пазарна волатилност, изборът на сигурен крипто портфейл става все по-ключов за инвеститорите. За по-подробен анализ на решения и защита на активите, вижте статията „Най-добрите крипто портфейли за 2026 г.“, където са разгледани интересни опции според сигурност, удобство и функционалност.

Попълнете необходимите полета и публикувайте