Што се модели на вештачка интелигенција? Длабоко нурнување.

Дали некогаш сте се нашле себеси како скролате во 2 часот наутро прашувајќи се што, за бога, се модели со вештачка интелигенција и зошто сите зборуваат за нив како да се магични магии? Истото важи и за мене. Овој текст е мој не толку формален, повремено пристрасен водич за да ве однесе од „а, немам поим“ до „опасно самоуверени на вечери“. Ќе навратиме на: што се тие, што ги прави всушност корисни (не само сјајни), како се обучуваат, како да избираат без да запаѓаат во неодлучност и неколку стапици за кои учите дури откако ќе ве боли.

Статии што можеби ќе ве интересираат по оваа:

🔗 Што е арбитража со вештачка интелигенција: Вистината зад популарен збор
Објаснува арбитражата со вештачка интелигенција, нејзината популарност и реалните можности.

🔗 Што е симболична вештачка интелигенција: Сè што треба да знаете
Опфаќа симболична вештачка интелигенција, нејзините методи и модерни апликации.

🔗 Потребни услови за складирање на податоци за вештачка интелигенција: Што треба да знаете
Ги разложува потребите за складирање на податоци од вештачка интелигенција и практичните размислувања.

Па… што се всушност моделите со вештачка интелигенција? 🧠

Наједноставно кажано: моделот на вештачка интелигенција е само функција што се учи . Му давате влезни податоци, тој дава излезни податоци. Проблемот е што тој сфаќа како со анализа на тони примери и прилагодување за да биде „помалку погрешен“ секој пат. Повторувајте го тоа доволно и тој почнува да забележува шеми за кои не сте ни знаеле дека се таму.

Ако сте слушнале имиња како линеарна регресија, дрвја на одлучување, невронски мрежи, трансформатори, дифузиони модели, па дури и k-најблиски соседи - да, сите тие се варијации на истата тема: податоците влегуваат, моделот учи мапирање, резултатот излегува. Различни костими, иста претстава.

Што ги разликува играчките од вистинските алатки ✅

Многу модели изгледаат одлично на демо, но пропаѓаат во производството. Оние што остануваат обично делат краток список на возрасни особини:

Генерализација - обработува податоци што никогаш не се видени без да се распаднат.
Сигурност - не се однесува како фрлање паричка кога влезните податоци стануваат чудни.
Безбедност и сигурност - потешко е да се игра или злоупотреби.
Објаснливост - не секогаш кристално јасна, но барем може да се дебагираат.
Приватност и фер однос - ги почитува границите на податоците и не е проткаено со пристрасност.
Ефикасност - доволно прифатлива цена за да се работи во голем обем.

Тоа е во основа она што регулаторите на списокот за перење алишта и рамките за ризик исто така го сакаат - валидност, безбедност, отчетност, транспарентност, праведност, сите најголеми хитови. Но, искрено, ова не е нешто што е убаво да се има; ако луѓето зависат од вашиот систем, тие се влогови на маса.

Брза проверка на разумноста: модели наспроти алгоритми наспроти податоци 🤷

Еве ја поделбата во три дела:

Модел - наученото „нешто“ што ги трансформира влезните податоци во излезни податоци.
Алгоритам - рецептот што го тренира или извршува моделот (замислете градиентно спуштање, пребарување на зракот).
Податоци - сурови примери што го учат моделот како да се однесува.

Малку несмасна метафора: податоците се вашите состојки, алгоритмот е рецептот, а моделот е тортата. Понекогаш е вкусна, друг пат тоне на средина затоа што сте ѕирнале прерано.

Семејства на модели на вештачка интелигенција што навистина ќе ги сретнете 🧩

Постојат бесконечни категории, но еве ја практичната постава:

Линеарни и логистички модели - едноставни, брзи, лесно интерпретирачки. Сè уште непобедливи основни линии за табеларни податоци.
Дрвја и ансамбли - дрвјата на одлучување се „ако-тогаш“ поделби; комбинирајте шума или засилете ги и тие се шокантно силни.
Конволуциони невронски мрежи (CNN) - основата на препознавањето слики/видео. Филтри → рабови → форми → објекти.
Секвенциски модели: RNN и трансформатори - за текст, говор, протеини, код. Самовниманието на трансформерите беше пресвртница [3].
Дифузиони модели - генеративни, претвораат случаен шум во кохерентни слики чекор по чекор [4].
Графски невронски мрежи (GNN) - изградени за мрежи и врски: молекули, социјални графикони, измамнички прстени.
Засилувачко учење (RL) - агенти за обиди и грешки кои ја оптимизираат наградата. Замислете роботика, игри, секвенцијални одлуки.
Стари сигурни податоци: kNN, Наив Бејс - брзи основни линии, особено за текст, кога ви требаат одговори вчера .

Забелешка: кај табеларните податоци, немојте премногу да ги комплицирате. Логистичката регресија или дрвјата со зголемена моќ честопати се соочуваат со длабоки мрежи. Трансформаторите се одлични, само не насекаде.

Како изгледа тренингот под хаубата 🔧

Повеќето модерни модели учат со минимизирање на функцијата на загуба преку некоја форма на градиентно спуштање . Обратната пропагација ги поместува корекциите наназад, така што секој параметар знае како да се движи. Додадете трикови како рано запирање, регуларизација или паметни оптимизатори за да не се претвори во хаос.

Проверки на реалноста што вреди да се залепат над вашата работна маса:

Квалитет на податоци > избор на модел. Сериозно.
Секогаш поставете ја основната линија со нешто едноставно. Ако линеарниот модел е нестабилен, веројатно и вашиот цевковод за податоци е нестабилен.
Внимавајте на валидацијата. Ако загубата од тренинг се намалува, но загубата од валидација се зголемува - здраво, претерување.

Евалуација на модели: точноста лежи 📏

Точноста звучи убаво, но е ужасен единствен број. Во зависност од вашата задача:

Прецизност - кога велите позитивно, колку често сте во право?
Потсетете се - од сите вистински позитивни страни, колку најдовте?
F1 - балансира прецизност и помнење.
PR криви - особено на неурамнотежени податоци, многу поискрени од ROC [5].

Бонус: проверете ја калибрацијата (дали веројатностите значат нешто?) и отстапувањето (дали вашите влезни податоци се поместуваат под вашите нозе?). Дури и „одличниот“ модел станува застарен.

Управување, ризик, правила на патот 🧭

Откако вашиот модел ќе допре до луѓето, усогласеноста е важна. Две големи сидра:

RMF на вештачката интелигенција на NIST - доброволно, но практично, со чекори од животниот циклус (управување, мапирање, мерење, управување) и граници на доверливост [1].
Закон на ЕУ за вештачка интелигенција - регулатива базирана на ризик, веќе важечка од јули 2024 година, која поставува строги давачки за системи со висок ризик, па дури и за некои модели со општа намена [2].

Прагматичен заклучок: документирајте што сте изградиле, како сте го тестирале и за какви ризици сте провериле. Ви заштедува полноќни итни повици подоцна.

Избор на модел без губење на умот 🧭➡️

Повторлив процес:

Дефинирајте ја одлуката - што е добра грешка наспроти лоша грешка?
Податоци од ревизијата - големина, рамнотежа, чистота.
Поставете ограничувања - објаснување, латентност, буџет.
Извршете ги основните линии - започнете со линеарно/логистичко или мало дрво.
Итерирајте паметно - додајте функции, подесете, а потоа сменете ги семејствата ако добивките се стабилизираат.

Досадно е, но досадното е добро овде.

Снимка за споредба 📋

Тип на модел	Публика	Премногу скапо	Зошто функционира
Линеарни и логистички	аналитичари, научници	низок-среден	интерпретабилен, брз, табеларен центар
Дрва на одлуки	мешани тимови	ниско	човечки читливи поделби, нелинеарно ракување
Случајна шума	тимови за производи	медиум	ансамблите ја намалуваат варијансата, силните генералисти
Дрвја засилени со градиент	научници за податоци	медиум	SOTA на табеларен начин, силен со неуредни карактеристики
CNN-и	луѓе од визија	средно-високо	конволуција → просторни хиерархии
Трансформери	НЛП + мултимодален	висок	самовниманието се мери прекрасно [3]
Дифузиони модели	креативни тимови	висок	отстранувањето на шумови дава генеративна магија [4]
GNN	графички штребери	средно-високо	пренесувањето пораки ги кодира односите
kNN / Наив Бејс	хакери во брзање	многу ниско	едноставни основни линии, моментално распоредување
Засилувачко учење	преокупиран со истражувања	средно-високо	оптимизира секвенцијални дејства, но потешко се скротува

„Специјалитети“ во пракса 🧪

Слики → CNN се истакнуваат со тоа што ги групираат локалните шеми во поголеми.
Јазик → Трансформерите, со самовнимание, се справуваат со долг контекст [3].
Графикони → GNN сјаат кога врските се важни.
Генеративни медиуми → модели на дифузија, постепено отстранување на шум [4].

Податоци: тивкиот MVP 🧰

Моделите не можат да зачувуваат лоши податоци. Основи:

Поделете ги множествата податоци правилно (без протекување, почитувајте го времето).
Справување со нерамнотежа (пресемплирање, тежини, прагови).
Инженерските карактеристики се внимателно изработени - дури и длабоките модели имаат корист.
Вкрстено потврдување за разумност.

Мерење на успехот без да се залажувате себеси 🎯

Усогласете ги метриките со реалните трошоци. Пример: тријажа на билети за поддршка.

Повлекувањето ја зголемува стапката на фаќање на итни билети.
Прецизноста ги спречува агентите да се удават во бучава.
Ф1 ги балансира обете.
Следете го отстапувањето на пратката и калибрацијата за да не се расипе системот тивко.

Ризик, праведност, документи - направете го тоа рано 📝

Не размислувајте за документацијата како за бирократија, туку како за осигурување. Проверки на пристрасност, тестови за робусност, извори на податоци - запишете ги. Рамките како што е RMF за вештачка интелигенција [1] и законите како што е Законот на ЕУ за вештачка интелигенција [2] стануваат проблем на масата.

Брз план за стартување 🚀

Усовршете ја одлуката и метриката.
Соберете чист сет на податоци.
Основна линија со линеарна/дрвена линија.
Скокнете до вистинското семејство за модалитетот.
Евалуирајте со соодветни метрики.
Документирајте ги ризиците пред испорака.

Најчесто поставувани прашања за молња круг ⚡

Чекајте, значи повторно - што е модел на вештачка интелигенција?
Функција обучена на податоци за мапирање на влезните податоци во излезните податоци. Магијата е во генерализацијата, а не во меморирањето.
Дали поголемите модели секогаш победуваат?
Не на табеларни - дрвјата сè уште владеат. На текст/слики, да, големината често помага [3][4].
Објаснливост наспроти точност?
Понекогаш е компромис. Користете хибридни стратегии.
Фино подесување или брзо инженерство?
Зависи - буџетот и обемот на задачите диктираат. И двете имаат свое место.

TL;DR 🌯

Моделите на вештачка интелигенција = функции што учат од податоци. Она што ги прави корисни не е само точноста, туку и довербата, управувањето со ризици и внимателното распоредување. Започнете едноставно, измерете го она што е важно, документирајте ги грдите делови, а потоа (и само тогаш) продолжете со фенси.

Ако задржите само една реченица: моделите на вештачка интелигенција се научени функции, обучени со оптимизација, оценети со метрики специфични за контекстот и распоредени со заштитни огради. Тоа е целата работа.

Референци

NIST - Рамка за управување со ризици од вештачка интелигенција (AI RMF 1.0)
NIST AI RMF 1.0 (PDF)
Закон на ЕУ за вештачка интелигенција - Службен весник (2024/1689, 12 јули 2024 година)
EUR-Lex: Закон за вештачка интелигенција (официјален PDF)
Трансформери / Самовнимание - Васвани и др., Вниманието е сè што ви треба (2017).
arXiv:1706.03762 (PDF)
Дифузиски модели - Хо, Џаин, Абил, Дешумизирачки дифузиски веројатносни модели (2020).
arXiv:2006.11239 (PDF)
PR наспроти ROC за нерамнотежа - Саито и Ремсмаер, PLOS ONE (2015).
DOI: 10.1371/journal.pone.0118432

Пронајдете ја најновата вештачка интелигенција во официјалната продавница за асистенти за вештачка интелигенција

За нас

Назад кон блогот

Земја/регион