Од каде вештачката интелигенција добива информации

Од каде вештачката интелигенција ги добива своите информации?

Дали некогаш сте седеле таму и се чешате по главата, прашувајќи се… од каде всушност доаѓаат овие работи ? Мислам, вештачката интелигенција не пребарува низ прашливи библиотеки ниту пак тајно гледа кратки видеа од YouTube. Сепак, некако таа извлекува одговори за сè - од трикови за лазањи до физика на црни дупки - како да има некаков кабинет за поднесување без дно внатре. Реалноста е почудна, а можеби и поинтригантна отколку што би претпоставиле. Ајде малку да го разоткриеме (и да, можеби да разбиеме неколку митови по патот).


Дали е тоа Магија? 🌐

Не е магија, иако понекогаш се чини така. Она што се случува под хаубата е во основа предвидување на шеми . Големите јазични модели (LLM) не ги складираат фактите на начинот на кој вашиот мозок го држи рецептот за колачиња на вашата баба; наместо тоа, тие се обучени да го погодат следниот збор (жетон) врз основа на она што се случило претходно [2]. Во пракса, тоа значи дека тие се држат до врските: кои зборови се дружат, како речениците обично се обликуваат, како цели идеи се градат како скеле. Затоа резултатот звучи правилно, иако - целосна искреност - тоа е статистичка имитација, а не разбирање [4].

Па што всушност ги прави информациите генерирани од вештачка интелигенција корисни ? Неколку работи:

  • Разновидност на податоци - црпење од безброј извори, а не од еден тесен поток.

  • Ажурирања - без циклуси на освежување, брзо се застарува.

  • Филтрирање - идеално е да се фати ѓубрето пред да се провлече (иако, да бидеме реални, таа мрежа има дупки).

  • Вкрстена проверка - потпирање на авторитетни извори (на пример, НАСА, СЗО, големи универзитети), што е задолжително во повеќето прирачници за управување со вештачката интелигенција [3].

Сепак, понекогаш измислува - самоуверено. Оние таканаречени халуцинации ? Всушност, дотерани глупости искажани со ригорозен израз на лицето [2][3].

Статии што можеби ќе ве интересираат по оваа:

🔗 Може ли вештачката интелигенција да ги предвиди броевите на лотаријата?
Истражување на митовите и фактите за предвидувањата на лотаријата со вештачка интелигенција.

🔗 Што значи да се има холистички пристап кон вештачката интелигенција
Разбирање на вештачката интелигенција со избалансирани перспективи за етиката и влијанието.

🔗 Што вели Библијата за вештачката интелигенција
Испитување на библиските перспективи за технологијата и создавањето на човекот.


Брза споредба: Од каде црпи вештачката интелигенција 📊

Не секој извор е еднаков, но секој си игра своја улога. Еве еден краток преглед.

Тип на извор Кој го користи (ВИ) Цена/Вредност Зошто функционира (или не функционира...)
Книги и статии Големи јазични модели Бесценето (приближно) Густо, структурирано знаење - едноставно брзо старее.
Веб-страници и блогови Речиси сите вештачки интелигенции Бесплатно (со шум) Дива разновидност; мешавина од брилијантност и апсолутно ѓубре.
Академски трудови Вештачки интелигенции кои се занимаваат со истражувања Понекогаш со платен ѕид Ригор + кредибилитет, но напишани со тежок жаргон.
Кориснички податоци Персонализирани вештачки интелигенции Високо чувствително ⚠️ Остро кроење, но изобилство главоболки поврзани со приватноста.
Веб во реално време Вештачки интелигенции поврзани со пребарување Бесплатно (доколку е онлајн) Ги одржува информациите свежи; недостаток е ризикот од засилување на гласините.

Универзумот на податоци за обука 🌌

Ова е фазата на „учење во детството“. Замислете му да му дадете на дете милиони книги со приказни, исечоци од вести и „зајачки дупки“ од Википедија одеднаш. Така изгледа претходната обука. Во реалниот свет, давателите на услуги спојуваат јавно достапни податоци, лиценцирани извори и текст генериран од обучувач [2].

Слоевито одозгора: курирани човечки примери - добри одговори, лоши одговори, поттурнувања во вистинската насока - пред дури и да започне засилувањето [1].

Предупредување за транспарентност: компаниите не ги откриваат сите детали. Некои заштитни огради се тајни (интелектуална сопственост, безбедносни прашања), така што добивате само делумен увид во вистинската мешавина [2].


Пребарување во реално време: Дополнителен додаток 🍒

Некои модели сега можат да ѕирнат надвор од нивниот меур за обука. Тоа е генерирање со подобрено пребарување (RAG) - во основа извлекување делови од индекс во живо или продавница за документи, а потоа нивно вплетување во одговорот [5]. Идеално за брзо менувачки работи како што се наслови на вести или цени на акции.

Проблемот? Интернетот е подеднакво гениј и ѓубре. Ако филтрите или проверките на потеклото се слаби, ризикувате враќање на несакана информација - токму она за што предупредуваат рамките за ризик [3].

Вообичаено решение: компаниите ги поврзуваат моделите со своите внатрешни бази на податоци, така што одговорите цитираат тековна политика за човечки ресурси или ажурирана документација за производот, наместо да се претеруваат. Размислете: помалку моменти на „ау-ау“, повеќе доверливи одговори.


Фино подесување: Чекор за полирање на вештачката интелигенција 🧪

Суровите претходно обучени модели се несмасни. Затоа се фино подесуваат :

  • Учејќи ги да бидат од помош, безопасни, чесни (преку учење со засилување од човечки повратни информации, RLHF) [1].

  • Шмирглање на небезбедни или токсични рабови (порамнување) [1].

  • Прилагодување на тонот - без разлика дали тој е пријателски, формален или игриво саркастичен.

Не станува збор толку за полирање на дијамант, колку за поттикнување статистичка лавина да се однесува повеќе како партнер за разговор.


Неуспесите и пречките 🚧

Да не се преправаме дека е беспрекорно:

  • Халуцинации - остри одговори кои се апсолутно погрешни [2][3].

  • Пристрасност - ги отсликува шемите вградени во податоците; дури може да ги засили ако не се провери [3][4].

  • Нема искуство од прва рака - може да зборува за рецепти за супи, но никогаш не пробал ниту еден [4].

  • Преголема самодоверба - прозата тече како да знае, дури и кога не знае. Рамките за ризик нагласуваат претпоставки за поништување [3].


Зошто е како да знаеш 🧠

Нема верувања, нема меморија во човечка смисла и секако нема јас. Сепак, бидејќи ги спојува речениците непречено, вашиот мозок го чита како да разбира . Она што се случува е само предвидување на следниот знак во масовно ниво : анализа на трилиони веројатности во дел од секундата [2].

Вибрацијата на „интелигенција“ е евентуално однесување - истражувачите го нарекуваат, малку шеговито, ефект на „стохастички папагал“ [4].


Аналогија погодна за деца 🎨

Замислете папагал кој ги прочитал сите книги во библиотеката. Не ги разбира приказните, но може да ги преработи зборовите во нешто што звучи мудро. Понекогаш е совршено; понекогаш е бесмислено - но со доволно вештина, не можете секогаш да ја забележите разликата.


Заклучок: Од каде доаѓаат информациите за вештачката интелигенција 📌

Едноставно кажано:

  • Масивни податоци за обука (јавни + лиценцирани + генерирани од обучувачи) [2].

  • Фино подесување со човечки повратни информации за обликување на тонот/однесувањето [1].

  • Системи за пребарување кога се поврзани со текови на податоци во живо [5].

Вештачката интелигенција не „знае“ работи - таа предвидува текст . Тоа е и нејзина супермоќ и негова Ахилова пета. Заклучок? Секогаш проверувајте ги важните работи според доверлив извор [3].


Референци

  1. Оујанг, Л. и др. (2022). Обука на јазични модели за следење на инструкции со човечка повратна информација (InstructGPT) . arXiv .

  2. OpenAI (2023). Технички извештај GPT-4 - мешавина од лиценцирани, јавни и човечки создадени податоци; цел и ограничувања за предвидување на следниот токен. arXiv .

  3. NIST (2023). Рамка за управување со ризици од вештачка интелигенција (AI RMF 1.0) - потекло, доверливост и контрола на ризици. PDF .

  4. Бендер, ЕМ, Гебру, Т., Мекмилан-Мејџор, А., Мичел, С. (2021). За опасностите од стохастичките папагали: Дали јазичните модели можат да бидат преголеми? PDF .

  5. Луис, П. и др. (2020). Генерирање со зголемено пребарување за НЛП интензивно базирано на знаење . arXiv .


Пронајдете ја најновата вештачка интелигенција во официјалната продавница за асистенти за вештачка интелигенција

За нас

Назад кон блогот