Колонки

AI – круто і дуже корисно, але є три "але"

Олександр Крамаренко, головред журналу Деньги

Інструменти штучного інтелекту стрімко вдосконалюються. Тому створюється ілюзія, що штучний інтелект може все. Але це не так. Найкраще, що вміє штучний інтелект поки що – створювати ілюзії. Це він робить віртуозно і дуже правдоподібно. В цьому погана новина. Добра новина полягає в тому, що для подолання цієї проблеми все ще потрібна людина.

Ключові два виклики і зараз і на майбутнє – розуміти межі можливостей ШІ(штучний інтелект або AI)  та ризики його використання.

Ті форми ШІ, що зараз доступні для широкого використання – великі мовні моделі(LLM). LLM, як відомо, аналізують великі масиви даних і синтезують дещо нове. І ось тут, на мій погляд, виникають три колосальні проблеми, що створюють ризики не тільки для тих, хто користується ШІ, але ще й для кожного з нас.

Виклики та небезпека

По-перше, масиви даних, на яких пасуться LLM, не є довершеними та дійсно незалежними.

Ці масиви даних можна спотворювати, їх можна забруднювати свідомо створеним фейковим контентом. І наявність такого контенту буде впливати на результати роботи LLM.

Як це працює? Уявіть собі, що у мережі для використання LLM доступний певний обсяг якісних та точних відомостей про російську агресію в Україні. Але російські спецслужби за допомогою ШІ створюють та розміщують хоча б третину по обсягах контенту, який містить брехню та російські наративи. Після цього будь який запит на створення нового контенту буде в результаті давати матеріали, які транслюють брехню та російські наративи. На наступному колі ми будемо бачити вже не третину спотвореного російськими наративами контенту у мережі, а більше – половину приблизно. Ще пара поколінь нового контенту – і забруднено брехнею буде приблизно 80-90% існуючих матеріалів.

Як з цим боротись – мені відповів власне сам ШІ, його відповіді нижче. І ці відповіді мною верифіковані. Власне, верифікація – це і є рецепт.  

По-друге, ШІ, точніше, LLM, не здатний створювати нове, він здатний поки що лише інтерпретувати існуючі знання, наприклад, вже відомі закони природи. Тобто, він круто працює як помічник, референт, секретар, але не як кріейтор нових знань. Власне, про це ще одна відповідь від ШІ – і ця відповідь також верифікована мною. Насправді, роль ШІ як ефективного помічника вже є дуже помічною для дослідників, він здатний багатократно посилити спроможності та прискорити процес створення нового. Але з цього випливає величезна небезпека того, що ШІ буде пропонувати не нові знання, алгоритми чи ще щось таке, а їх імітацію, сформовану на базі існуючої вже інформації.

Крім цих двох обставин є третя: ШІ поки що дуже погано порається із етичними задачами щодо себе самого, щодо оцінки та безпеки власної діяльності. І це є колосальним викликом та дуже небезпечною проблемою. Ось  тут десь в куточку злобно посміхається Skynet із фільму "Термінатор". Але нам поки що щастить – той Skynet поки що у дитячому віці, але незабаром доросте до підліткового. Тож начуваймося.

✅Перед тим, щоб читати детальні відповіді на ключові запитання, познайомтесь із остаточним висновком від ChatGPT, який він згенерував за мотивами цих відповідей. Ці відповіді верифіковані людиною:

"ШІ вже сьогодні може частково вказувати на межі застосування своїх результатів — особливо в математиці, моделюванні або тоді, коли має доступ до структурованих джерел. Але:

його рефлексія переважно — імітаційна, а не глибинна;

визначення спотвореного інформаційного поля наразі потребує участі людини;

перспективи створення рефлексивних ШІ-систем є, але це напрям, що лише формується.

У майбутньому розвиток "прозорого" і "самокритичного" ШІ — одна з ключових умов для його безпечного та надійного використання".

Але перейдемо до запитань, тому що детальні відовіді на них дууууже важливі. Я спеціально залишив розлогі формулювання запитань – бо ChatGPT відповідав саме на них. І це важливо.

І ще важливо, що відповіді верифіковані людиною.

Взагалі, трендом року щодо ШІ має бути фраза "верифіковано людиною".

Як впливає на роботу ШІ інформаційний шум та фальсифікації?

Запитання №1: Як впливає на якість генерованих текстів та відповідей наявність величезної кількості контенту, згенерованого ШІ, та контенту, що фальсифікує реальність - наскільки можливо для ШІ виключати з датасету такий контент? Як ШІ може відфільтровувати фальсифікований чи свідомо спотворений кимось контент?

ChatGPT відповів:

"Наявність великої кількості згенерованого штучним інтелектом (ШІ) контенту та фальсифікованих даних дійсно становить серйозний виклик для якості наступних генерацій тексту. Моделі ШІ, зокрема великі мовні моделі (LLM), як-от GPT, навчаються на величезних масивах текстів з Інтернету, які містять як високоякісну інформацію, так і маніпулятивний або помилковий контент. У міру того як ШІ-тексти заповнюють інформаційний простір, зростає ризик "зациклення" моделей на власних або подібних до себе генераціях, що знижує новизну, точність і варіативність результатів.

Щодо можливості відфільтровувати фальсифікований чи викривлений контент — технічно це можливо, але складно. Компанії, що розробляють ШІ, використовують кілька стратегій:

Фільтрація даних: Перед навчанням моделі застосовуються алгоритми, що виявляють спам, пропаганду, теорії змов, фейки або невідповідність фактам.

Анотація та ручна перевірка: Частина корпусу перевіряється людьми, зокрема для виявлення фейків.

Залучення надійних джерел: Пріоритет надається даним з енциклопедій, наукових публікацій, офіційних баз знань, а не з соцмереж чи сумнівних сайтів.

Однак навіть найскладніші алгоритми не гарантують повного уникнення фальсифікацій. Ба більше, "правда" часто є контекстуальною і політично забарвленою — тому ШІ може або не помітити маніпуляцію, або навпаки — через надмірну цензуру втратити нюанси або альтернативні точки зору.

Проблема загострюється тим, що з кожною новою хвилею згенерованого контенту (включаючи рерайт, переклади, компіляції тощо) дедалі складніше відстежити джерело інформації. Це вимагає нових підходів: наприклад, цифрового маркування текстів, визначення їх походження, створення "антифейкових" моделей чи використання окремих моделей перевірки фактів (fact-checking AI).

У підсумку, ШІ здатен частково відфільтровувати фальсифікований контент, але остаточної універсальної системи виявлення "псевдореальності" поки що не існує. Над цією проблемою активно працюють команди дослідників і компанії у сфері етичного та прозорого ШІ".

В якій мірі ШІ здатний виходити за межі наявних уявлень та бачити ці межі, як такі?

Запитання №2   Як ШІ здатний створювати моделі або програми, які мають працювати в області визначення (в сенсі, який використовується як "область визначення математичної функції"), яка ще не є відомою та обстеженою? В якості прикладу можу навести таке: колись існувала лише теорія течій газу для дозвукових швидкостей, згодом створили теорію течій для надзвукових швидкостей. Чи міг би ШІ створити таку теорію в той момент, коли про надзвукові течії ще не було уявлення?

ChatGPT відповів:

"Це одне з найглибших запитань про потенціал штучного інтелекту — чи здатен він виходити за межі наявного знання і створювати нові наукові теорії про реальність, яка ще не була вивчена. Відповідь — частково так, але з важливими обмеженнями.

Сучасні моделі ШІ (зокрема мовні моделі, як GPT) працюють в межах наявних даних: вони узагальнюють, комбінують, і моделюють знання, які вже були записані, а не "відкривають" абсолютно нові закономірності з нуля. Проте є форми ШІ, зокрема машинне навчання, еволюційне моделювання, символьна регресія та нейронні мережі з самонавчанням, які здатні:

Виявляти приховані закономірності в експериментальних або симуляційних даних;

Створювати нові гіпотези на основі виявлених патернів;

Пропонувати нетривіальні рішення в ситуаціях, де немає готових формул чи моделей.

Однак у випадку, подібному до надзвукових течій, ключове питання — наявність хоч якихось даних або передумов, які можна було б обробити. Якщо людство ще не знало про надзвукові швидкості, ані теоретично, ані експериментально, — навіть найпросунутіший ШІ не зможе "вгадати", що існує нова область. Але якщо є неповне, непряме або суперечливе знання, тоді ШІ може виступити як винахідник або провидець. Наприклад:

Моделюючи аеродинамічні процеси на високих швидкостях і виявляючи аномалії;

Генеруючи гіпотези, які людина могла би проігнорувати як "нереалістичні";

Пропонуючи альтернативні фізичні уявлення через симуляцію нестандартних умов.

У нашому прикладі з дозвуковими й надзвуковими течіями — ШІ, який мав би доступ до точних даних експериментів при граничних швидкостях, міг би виявити нелінійності або нестабільності в моделі й на цій основі побудувати гіпотетичну нову теорію. Такий процес схожий на еволюційне або індуктивне відкриття — коли система пропонує моделі, що виходять за межі наявної теорії.

Крім того, існують приклади вже сьогодні, коли ШІ створює фізичні рівняння з даних. Наприклад, проєкт "AI Feynman" або дослідження з символьної регресії дозволяють ШІ "відкрити" закони Ньютона, рівняння Максвелла або нові моделі складних систем — маючи лише масив вимірювань без знання суті процесу.

Отже:

Так, ШІ може створювати нові моделі, що працюють у новій області визначення, якщо є хоча б натяки на таку область у вигляді даних або непрямих сигналів.

Ні, ШІ не зможе створити теорію абсолютно нового явища, про яке немає жодної інформації в даних, хоча може генерувати спекулятивні гіпотези.

У цьому ШІ схожий на творчу людину: він може синтезувати знання та робити інноваційні припущення, але не в абсолютній інформаційній порожнечі.

І тут важлива роль залишається за людиною — перевіряти, інтерпретувати й формалізовувати те, що ШІ "відкрив"".

В якій мірі ШІ здатний оцінювати точність та неупередженість своїх результатів?

Запитання №3  Чи здатний ШІ одночасно із створенням контенту, проведенню інтелектуального пошуку інформації або створенням математичної моделі повідомляти про межі використання таких результатів?  Тобто "ось це справедливо для таких чи таких умов, а ось тут вже не працює" або "наявні результати спираються на інформаційне поле, яке значним чином спотворено масованим виробництвом фейкового контенту певного(якого саме?) спрямування"? Тобто - в якій мірі ШІ здатний рефлексувати щодо якості власних результатів роботи?

ChatGPT відповів:

"Це запитання торкається одразу кількох важливих тем — надійності, прозорості, саморефлексії та етичного використання ШІ. І хоч сама ідея, щоб ШІ не лише створював щось, а й оцінював обґрунтованість і межі своїх відповідей, здається інтуїтивно очевидною, в реальності така здатність ШІ є обмеженою, контекстною й залежить від типу моделі.

🔍 1. У чому саме ШІ вже здатен повідомляти про межі результатів?

Ймовірнісна оцінка: сучасні мовні моделі, такі як GPT, можуть вбудовано генерувати фрази на кшталт "ця відповідь ґрунтується на публічно доступних даних станом на…" або "це припущення справедливе за умов…". Але така рефлексія — не завжди результат глибокого аналізу, а часто — навчена мовна стратегія. Тобто, модель імітує наукову обережність, але не завжди дійсно розуміє обмеження.

Формальні обмеження в аналітичних моделях — наприклад, якщо ШІ будує математичну модель через регресію чи машинне навчання, він може вказати:

діапазони параметрів, у яких модель була навчена;

похибки, довірчі інтервали, зони недієвості;

ознаки overfitting'у чи недостатньої кількості даних.

Інтерпретація джерел: у випадках, коли ШІ здійснює інформаційний пошук, він може супроводжувати результат поясненням, звідки ця інформація взята, і з якою ймовірністю вона надійна. У деяких архітектурах (наприклад, Retrieval-Augmented Generation) ШІ може посилатися на конкретні джерела і оцінювати їхню репутацію або упередженість.

🚫 2. У чому є обмеження?

ШІ не має власного "розуміння істинності" — він не здатний самостійно визначити, чи є джерело правдивим, якщо воно виглядає стилістично переконливо. Якщо в тренувальних даних домінують фейки або маніпулятивний контент, він може сприймати це як "норму", не виявляючи внутрішнього конфлікту.

Питання спотворення поля даних (наприклад, масовані вкиди фейків певного спрямування) — це складна задача. Хоч сучасні ШІ-системи й мають окремі інструменти для детектування дезінформації, вони ще не навчилися автоматично і надійно ідентифікувати походження викривлень або масштаби їхнього впливу. Це потребує:

фільтрації джерел за ступенем довіри;

виявлення скоординованих вкидів;

порівняння інформації з незалежних систем.

Автоматичне маркування обмеженості контексту — наразі реалізоване частково. Деякі системи (наприклад, для медичної або юридичної інформації) вже мають вбудовані обмежувачі: наприклад, "ця порада не є медичною консультацією". Але це здебільшого застереження за шаблоном, а не результат аналізу якості чи новизни відповіді.

🧠 3. Чи можна говорити про "рефлексію" ШІ щодо власної роботи?

Слово "рефлексія" передбачає самоспостереження, внутрішній моніторинг, сумніви або сумлінну перевірку себе. На сьогодні ШІ не має повноцінної мета-пізнавальної здатності — тобто, він не "знає, що він не знає", і не має усвідомлення обмежень свого мислення.

Але є дослідження і розробки, які йдуть у цьому напрямі:

Self-verification: моделі, які повторно перевіряють власну відповідь;

Chain-of-thought reasoning: логічні ланцюжки, що вбудовують оцінку доцільності висновку;

Model auditing: зовнішні агенти (інші ШІ) перевіряють відповіді на коректність;

Uncertainty estimation: оцінка рівня впевненості у відповіді".

 

Реклама
Реклама

ЩЕ ЗА ТЕМОЮ

ОСТАННЄ