“Чорний ящик” машинного навчання

Неймовірно швидке поширення технологій “штучного інтелекту” та “великих даних”, неоднозначні результати використання цих технологій, очевидно, вплинули на європейських законодавців у процесі розробки та впровадження нового закону під назвою General Data Protection Regulation (GDPR), який вступить у силу з 2018 року. Про парадокси і виклики цих змін читайте у блозі керівника проекту “Етика і технології” Львівької бізнес-школи УКУ (LvBS) Володимира Хіцяка.

2017 рік може виявитися останнім, коли європейські компанії, або ж розробники з інших країн, які працюють на ринку ЄС і використовують програмне забезпечення на основі artificial intelligence (АІ), мають відносну свободу в дослідженнях, розробці і виведенні на ринок систем для опрацювання великих масивів даних і прийняття рішень на основі цих даних. Під “свободою” мається на увазі відсутність якихось вагомих регуляторних обмежень з боку урядів.

Отож, все це може змінитися наступного року, коли набуде чинності нове законодавство ЄС, що регулюватиме Big Data і приватність. Це не означає заборону таких систем. Але вимоги до них, згідно з GDPR, будуть суттєво вищими, і, швидше за все, складними для виконання.

Наприклад, нововведення перебачає: “Суб’єкт, щодо якого опрацьовують його дані (“Data subject”) має право не бути об’єктом рішень, які приймаються виключно за допомогою автоматизованих процесів, включаючи профайлінг, і які генерують правові наслідки стосовно нього чи неї, або ж просто у значній мірі впливають на нього/неї”.

Простіше кажучи, кожен з нас має право не бути “підопічним” алгоритму, який аналізує наші дані та генерує певні рішення на замовлення третьої сторони - рекламодавця, роботодавця, страхової компанії тощо. Більше того, закон практично забороняє “профайлінг” - тобто створення цифрового профілю “клієнта”, базованого на зібраній та опрацьованій інформації і сегментацію таких профайлів за певними категоріями.

Що це означає на практиці? Скажімо, компанія автоматизувала процес збору та опрацювання даних своїх клієнтів - покупки, розмір чеку, біографічні та географічні дані тощо. Опрацьовуючи масиви даних, робот самостійно встановлює “вагу” кожного параметра і відносить клієнта до певної категорії, визначаючи, наприклад, ймовірність неповернення кредиту чи, скажімо, час покупки нового автомобіля. Відповідно, клієнт, який опиниться у першій групі, швидше за все не отримає кредиту в банку, а іншому слід готуватися до нав’язливих дзвінків та емейлів із рекламою автоновинок.

Внесення клієнта у групу, якій пріоритетно будуть розсилати таргетовані рекламні повідомлення, це ще не порушення законодавства, хіба за винятком виразного іґнорування вимог клієнта.

Однак дещо по-іншому виглядає профайлінг, який може спричинити певні обмеження для об’єкта даних - наприклад, відмову у кредиті чи страховому покритті. По-суті, якщо штучний інтелект генерує негативний висновок щодо особи на основі її даних, то, говорячи мовою майбутнього закону, він “створює правові наслідки і в значній мірі впливає на особу”, а, отже підпадає під заборону.

Цей вид “цифрової дискримінації” побудований на глибинному навчанні нейронних мереж (machine/deep learning), і, незважаючи на те, що такі алгоритми є доволі затребуваними у бізнесі, законодавці ЄС пропонують суттєво обмежити автоматизовані процеси прийняття рішень. Більше того, в цьому законі закладена вимога забезпечити “пояснення” дій машини, тобто, особа, дані про яку опрацьовує алгоритм, має право отримати пояснення, які дані та процеси спричинили саме такий результат.

З чим пов’язані такі суворі вимоги? Очевидно, причиною є технологія “machine&deep learning”, яка, попри її інноваційність і корисність, є свого роду “чорним ящиком” навіть для розробників. Мова йде про здатність машини навчатися самостійно, без втручання людини, а також про практичну неспроможність людини з’ясувати, як насправді машина навчається і чому продукує саме такі результати. Простіше кажучи, створюючи програму на основі машинного навчання і надаючи їй стартові дані (inputs) ми відпускаємо машину у вільне плавання, доручаючи їй “гарно вчитися” і продукувати необхідні нам результати (outputs). Однак чому ці результати є такими, а не іншими, чому машина взяла до уваги одні дані, і проігнорувала інші, який зв’язок вона вибудувала між даними - все це є поза межами розуміння “батьків” машини.

Інколи це призводить до кумедних, а інколи - до тривожних результатів. Так, є випадки, коли штучний інтелект дискримінував певні категорії людей, безпідставно відносячи їх потенційних злочинців, або ж рекомендував виписувати з лікарні додому хворих на важкі недуги, вилікувати які можна лише у стаціонарі.

Щоби зрозуміти, чому так відбувається, потрібно зрозуміти “природу” машинного навчання, а це далеко непросто, якщо взагалі можливо. Останні дослідження у цій сфері показали, що закони “глибокого” навчання більше схожі до законів фізики, ніж математики. Дослідники Генрі Лін з Гарвардського університету та Макс Тегмарк з MIT у серпні минулого року опублікували результати дослідження “Чому глибоке і дешеве навчання працює так добре?” (“Why does deep and cheap learning work so well?”) із несподіваними висновками. Вчені демонструють це на прикладі нейронної мережі, яка вміє розпізнавати зображення. Скажімо, щоби класифікувати зображення, нейронна мережа повинна застосувати функцію, яка, отримуючи як вхідні дані мільйон пікселів, як результат виводить ймовірність того чи іншого зображення. Складність є в тому, що для того, аби вивести цю ймовірність, потрібно застосувати таку кількість функцій, обчислення яких виходить поза можливості всіх існуючих нейромереж. І все ж, вони це якось роблять!

Якщо перекласти висновки дослідження з мови математики, то виявляється, що нейронні мережі не “працюють” окремо з кожним параметром даних, а “апроксимують”, тобто вже на вході опрацьовують готові “набори”(sets) інформації. Точно так само закони всесвіту, пояснюють вчені, можуть бути описані функціями з набором відносно простих параметрів.

Зрозуміло, що “чорний ящик” штучного інтелекту хвилює як розробників, так і законодавців. Проблема полягає в тому, що ми все більше покладаємося на рішення “розумних” машин, починаючи від простих рішень, як наприклад, якою дорогою їхати, щоби уникнути заторів, закінчуючи такими складними умовиводами, як передбачення природніх катаклізмів чи аналіз схильності людини до певних захворювань. Хитрість і певна небезпека полягає в тому, що рухаючись далі, частка “машинного” у людських рішеннях зростатиме. Адже машина вчиться на історичних даних і на зворотньому зв’язку від людини. Скажімо, коли ми приймаємо переклад, запропонований нам Google Translate, ми таким чином даємо машині сигнал, що вона все зробила правильно, та інструкцію “роби це далі”.

З часом, машини пропонуватимуть вже не “напівфабрикати”, а готові рішення. Тим часом інші машини навчатимуться на рішеннях своїх “колег”. Враховуючи близьку реальність, коли машини будуть здатні відтворювати самих себе у наступних поколіннях (genetic programming), робимо висновок, що настане час, коли “історичні” дані, на яких начатимуться машини, будуть згенеровані вже не людиною, а попереднім поколінням машин, і частка “людського” у рішеннях людини буде неймовірно малою, якщо взагалі буде.

Ще 17 років тому відомий футуролог та інженер Біл Джой писав у своїй відомій статті “Чому майбутнє нас не потребує”: “Можна досягти такого рівня, коли рішення, необхідні для управління системою, будуть настільки складними, що людство виявиться нездатним їх розумно виконувати. На такій стадії ефективне управління переймуть машини. Люди не зможуть навіть вимкнути їх, тому що будуть настільки залежними від них, що вимкнення буде рівноцінне самогубству”.

По-суті, ми опиняємось перед парадоксом: що загальніші цілі ми ставимо перед машиною, то більший простір для її власних і незбагненних людиною інтерпретацій ми створюємо; і навпаки, що чіткіше ми ставимо завдання і описуємо бажаний результат на всіх рівнях опрацювання інформації, то менше в такої машини залишається інтелекту.

Прагнення європейських законодавців зберегти “останнє слово” за людиною - зрозуміле і передбачуване, особливо враховуючи факт, що алгоритми машинного навчання та нейромережі стають все складнішими, а шанси збагнути, що ж відбувається в “чорному ящику” (а тим більше вплинути на це), не зростають.

Однак наміри європейських парламентарів, попри їх доцільність, все ж ризикують залишитися тільки намірами, враховуючи технічну складність реалізації положень цього закону. Немає об’єктивних передумов для того, аби з наступного року “влізти” всередину нейромережі і відстежити, як вона приймає рішення. Деякі дослідники припускають, що природа інтелекту є такою, що лише невелика його частка може бути раціонально інтерпретована, а все, що поза тим - базоване на інтуїції та інстинктах, а, відповідно, відтворюючи в машині доступний нам зразок інтелекту, ми водночас відтворюємо всі його природні обмеження.

Томмі Яааккола, професор у галузі машинного навчання з Массачусетського технологічного інституту, стверджує: “Якщо ви маєте невелику нейронну мережу, то ще якось можна її зрозуміти. Але щойно ви стикаєтеся з великою мережею, яка містить тисячі штучних нейронів у кожному шарі і сотні шарів, все це стає попросту непояснюваним”.

Попри те, що людський процес прийняття рішень теж повен несподіванок та інколи важко піддається інтерпретації, все в його основі лежать зрозумілі та прийнятні для всіх засновки: інтуїція, атавізми, історичний досвід, цінності, спільний сенс, зрештою - зрозуміла символіка і семантика у вигляді легко інтерпретованих мови, знаків та значень.

Цілком можливо, що машини й далі продукуватимуть помічні для нас “напівфабрикати рішень”, однак логіка європейських законодавців полягає у тому, що коли ви прийдете до представника компанії, яка відмовила вам у працевлаштуванні, він/вона більше не зможе послатися на рішення їх програми із штучним інтелектом. Вони будуть зобов’язані безпосередньо пояснити детально кожну складову такого рішення, а апеляція до програми автоматично зробить з них порушників закону. І, цілком можливо, що у відповідь ви знайдете аргументи, які виявляться прийнятними для згаданих менеджерів, але які не зможе правильно зрозуміти машина.

Звичайно, вони зможуть й далі використовувати розумні машини для допомоги у роботі, але вони не матимуть права казати клієнтам чи замовникам “так вирішила програма”. Навіть, якщо це так, то кожен етап автоматизованого процесу вони зобов’язані відстежити і пояснити. Зайве говорити, що поки це нереально.

Використані публікації: Чому майбутнє нас не потребує?, The Dark Secret at the Heart of AI, General Data Protection Regulation. The Extraordinary Link Between Deep Neural Networks and the Nature of the Universe.

Довідка. 2017 року Львівська бізнес-школа УКУ (LvBS) розпочалам проект «Етика і Технології» із дослідження етичних викликів технологій майбутнього. Ціллю проекту є вивчення етичних перспектив розробки та використання інноваційних технологій, як-от штучний інтелект (AI), людино-машинні інтерфейси, нейромережі, біоніка, big data та інші. Дізнатися більше.

Читайте головні новини LB.ua в соціальних мережах Facebook, Twitter і Telegram