Невронските мрежи звучат мистериозно сè додека не престанат да звучат. Ако некогаш сте се запрашале што е невронска мрежа во вештачката интелигенција? и дали е само математика со елегантен шешир, на вистинското место сте. Ќе го задржиме практичното, ќе додадеме мали заобиколувања и да - неколку емотикони. Ќе си заминете знаејќи што се овие системи, зошто функционираат, каде не успеваат и како да зборувате за нив без мавтање со рацете.
Статии што можеби ќе ве интересираат по оваа:
🔗 Што е пристрасност на вештачката интелигенција
Разбирање на пристрасноста во системите и стратегиите на вештачката интелигенција за да се обезбеди праведност.
🔗 Што е предикативна вештачка интелигенција
Како предикативната вештачка интелигенција користи шеми за да ги предвиди идните исходи.
🔗 Што е тренер за вештачка интелигенција
Истражување на улогата и одговорностите на професионалците кои обучуваат вештачка интелигенција.
🔗 Што е компјутерски вид во вештачката интелигенција
Како вештачката интелигенција ги толкува и анализира визуелните податоци преку компјутерски вид.
Што е невронска мрежа во вештачката интелигенција? Одговорот од 10 секунди ⏱️
Невронска мрежа е збир од едноставни пресметковни единици наречени неврони кои пренесуваат броеви напред, ги прилагодуваат своите јачини на поврзување за време на обуката и постепено учат шеми во податоците. Кога слушате длабоко учење , тоа обично значи невронска мрежа со многу наредени слоеви, каде што функциите се учат автоматски, наместо да ги кодирате рачно. Со други зборови: многу мали математички парчиња, паметно распоредени, обучени на податоци сè додека не станат корисни [1].
Што ја прави невронската мрежа корисна? ✅
-
Моќ на претставување : Со соодветна архитектура и големина, мрежите можат да приближат неверојатно сложени функции (видете ја Теоремата за универзална апроксимација) [4].
-
Целосно учење : Наместо рачно инженерски карактеристики, моделот ги открива [1].
-
Генерализација : Добро регулираната мрежа не само што меморира - таа работи на нови, невидени податоци [1].
-
Скалабилност : Поголемите множества податоци плус поголемите модели честопати ги подобруваат резултатите… до практични ограничувања како што се пресметката и квалитетот на податоците [1].
-
Преносливост : Карактеристиките научени во една задача можат да помогнат во друга (трансфер на учење и фино прилагодување) [1].
Мала теренска белешка (пример сценарио): Мал тим за класификација на производи ги заменува рачно изработените функции со компактна CNN, додава едноставни додатоци (превртувања/исечоци) и го гледа падот на грешките во валидацијата - не затоа што мрежата е „магична“, туку затоа што научила покорисни функции директно од пикселите.
„Што е невронска мрежа во вештачката интелигенција?“ на едноставен англиски јазик, со сомнителна метафора 🍞
Замислете линија на пекара. Состојките се внесуваат, работниците го менуваат рецептот, дегустаторите се жалат, а тимот повторно го ажурира рецептот. Во мрежа, влезните податоци течат низ слоеви, функцијата за губење го оценува резултатот, а градиентите ги поттикнуваат тежините да бидат подобри следниот пат. Не е совршено како метафора - лебот не е диференцијабилен - но се лепи [1].
Анатомија на невронска мрежа 🧩
-
Неврони : Мали калкулатори што применуваат пондериран збир и функција на активирање.
-
Тежини и пристрасност : Прилагодливи копчиња што дефинираат како се комбинираат сигналите.
-
Слоеви : Влезниот слој прима податоци, скриените слоеви ги трансформираат, а излезниот слој прави предвидување.
-
Функции за активирање : Нелинеарните пресврти како ReLU, sigmoid, tanh и softmax го прават учењето флексибилно.
-
Функција на губење : Оценка за тоа колку е погрешно предвидувањето (вкрстена ентропија за класификација, MSE за регресија).
-
Оптимизатор : Алгоритмите како SGD или Adam користат градиенти за ажурирање на тежините.
-
Регуларизација : Техники како што се откажување од функција или намалување на тежината за да се спречи преоптоварување на моделот.
Ако сакате формален третман (но сепак читлив), отворениот учебник Deep Learning го опфаќа целиот пакет: математички основи, оптимизација и генерализација [1].
Функции за активирање, накратко, но корисно ⚡
-
ReLU : Нула за негативни, линеарна за позитивни. Едноставно, брзо, ефикасно.
-
Сигмоид : Ги притиска вредностите помеѓу 0 и 1 - корисно, но може да засити.
-
Тан : Како сигмоид, но симетричен околу нулата.
-
Softmax : Ги претвора суровите резултати во веројатности низ класите.
Не треба да ја запомните секоја форма на кривата - само знајте ги компромисите и вообичаените стандардни поставки [1, 2].
Како всушност се одвива учењето: во позадина, но не и страшно 🔁
-
Премин напред : Податоците течат слој по слој за да се произведе предвидување.
-
Пресметај ја загубата : Спореди го предвидувањето со вистината.
-
Обратно размножување : Пресметајте ги градиентите на загубата во однос на секоја тежина користејќи го правилото на синџирот.
-
Ажурирање : Оптимизаторот малку ги менува тежините.
-
Повторување : Многу епохи. Моделот постепено учи.
За практична интуиција со визуелни елементи и објаснувања поврзани со кодот, видете ги класичните белешки на CS231n за backprop и оптимизација [2].
Главните семејства на невронски мрежи, на прв поглед 🏡
-
Мрежи со повратна врска (MLP) : Наједноставниот вид. Податоците се движат само напред.
-
Конволуциони невронски мрежи (CNN) : Одлични за слики благодарение на просторните филтри што детектираат рабови, текстури, форми [2].
-
Рекурентни невронски мрежи (RNN) и варијанти : Изградени за секвенци како текст или временски серии со одржување на чувство за ред [1].
-
Трансформатори : Обрнете внимание на моделирање на односите меѓу позициите во низа одеднаш; доминантно во јазикот и пошироко [3].
-
Графски невронски мрежи (GNN) : Работат на јазли и рабови на граф - корисно за молекули, социјални мрежи, препорака [1].
-
Автоенкодери и VAE : Научете компресирани репрезентации и генерирајте варијации [1].
-
Генеративни модели : Од GAN до дифузиони модели, користени за слики, аудио, па дури и код [1].
Белешките од CS231n се особено погодни за CNN, додека хартијата од Transformer е примарен извор за модели базирани на внимание [2, 3].
Табела за споредба: вообичаени типови на невронски мрежи, за кого се наменети, ценовни вибрации и зошто функционираат 📊
| Алатка / Тип | Публика | Премногу скапо | Зошто функционира |
|---|---|---|---|
| Повратна информација (MLP) | Почетници, аналитичари | Ниско-средно | Едноставни, флексибилни, пристојни основни линии |
| Си-Ен-Ен | Визионерски тимови | Средно | Локални шеми + споделување на параметри |
| RNN / LSTM / GRU | Луѓе од секвенца | Средно | Приближна временска меморија… доловува ред |
| Трансформатор | НЛП, мултимодален | Средно-високо | Вниманието се фокусира на релевантните односи |
| ГНН | Научници, рецисти | Средно | Пренесувањето на пораките преку графиконите открива структура |
| Автокодер / VAE | Истражувачи | Ниско-средно | Учи компресирани репрезентации |
| GAN / Дифузија | Креативни лаборатории | Средно-високо | Адверсаријална или итеративна магија за отстранување на шум |
Белешки: цените се поврзани со пресметување и време; вашата километража варира. Еден или два мобилни телефони се намерно брборливи.
„Што е невронска мрежа во вештачката интелигенција?“ наспроти класичните ML алгоритми ⚖️
-
Инженерство на карактеристики : Класичниот ML често се потпира на рачни карактеристики. Невронските мрежи ги учат карактеристиките автоматски - голема победа за сложените податоци [1].
-
Глад за податоци : Мрежите честопати блескаат со повеќе податоци; малите податоци може да им одат во прилог на поедноставните модели [1].
-
Пресметка : Мрежите ги сакаат забрзувачите како што се графичките процесори [1].
-
Плафон на перформанси : За неструктурирани податоци (слики, аудио, текст), длабоките мрежи имаат тенденција да доминираат [1, 2].
Работниот тек на обуката што всушност функционира во пракса 🛠️
-
Дефинирајте ја целта : Класификација, регресија, рангирање, генерирање - изберете загуба што се совпаѓа.
-
Работење со податоци : Поделување на обука/валидација/тестирање. Нормализирање на карактеристиките. Балансирање на класите. За слики, земете предвид зголемување како што се превртувања, исечоци, мал шум.
-
Избор на архитектура : Започнете едноставно. Додавајте капацитет само кога е потребно.
-
Јамка за обука : Групирање на податоците. Преминување напред. Пресметка на загубата. Назад наназад. Ажурирање. Евидентирање на метрики.
-
Регуларизирање : Отпаѓање од исхрана, губење на тежината, рано прекинување.
-
Евалуирај : Користи го множеството за валидација за хиперпараметри. Остави тест множество за конечната проверка.
-
Внимателно испраќајте : Следете го дрифтот, проверете за пристрасност, планирајте враќања.
За целосни, код-ориентирани туторијали со солидна теорија, отворениот учебник и белешките од CS231n се сигурни сидра [1, 2].
Претерување, генерализација и други гремлини 👀
-
Преоптоварување : Моделот ги меморира карактеристиките на обуката. Поправете со повеќе податоци, посилна регуларизација или поедноставни архитектури.
-
Недоволно прилагодување : Моделот е премногу едноставен или тренирањето е премногу плашливо. Зголемете го капацитетот или тренирајте подолго.
-
Протекување на податоци : Информациите од тест-сетот се провлекуваат во обуката. Проверете ги вашите поделби трипати.
-
Лоша калибрација : Модел кој е самоуверен, но греши е опасен. Размислете за калибрација или различно пондерирање на загубата.
-
Промена на дистрибуцијата : Преместување на податоците во реалниот свет. Следење и прилагодување.
За теоријата зад генерализацијата и регуларизацијата, потпрете се на стандардните референци [1, 2].
Безбедност, леснотија на толкување и одговорно распоредување 🧭
Невронските мрежи можат да донесуваат одлуки со висок ризик. Не е доволно само да се покажат добро на табелата со резултати. Потребни се чекори за управување, мерење и ублажување низ целиот животен циклус. Рамката за управување со ризик од вештачка интелигенција на NIST ги опишува практичните функции - УПРАВУВАЊЕ, МАПИРАЊЕ, МЕРЕЊЕ, УПРАВУВАЊЕ - за да им помогне на тимовите да го интегрираат управувањето со ризик во дизајнот и распоредувањето [5].
Неколку брзи потсетници:
-
Проверки на пристрасност : Евалуација на сите демографски сегменти каде што е соодветно и законско.
-
Интерпретабилност : Користете техники како што се истакнатост или припишување на карактеристики. Тие се несовршени, но корисни.
-
Мониторинг : Поставете предупредувања за ненадејни падови на метричките вредности или отстапувања на податоците.
-
Човечки надзор : Известувајте ги луѓето за одлуки со големо влијание. Без херојство, само хигиена.
Често поставувани прашања што тајно ги имавте 🙋
Дали невронската мрежа е всушност мозок?
Инспирирано од мозоци, да - но поедноставено. Невроните во мрежите се математички функции; биолошките неврони се живи клетки со сложена динамика. Слични вибрации, многу различна физика [1].
Колку слоеви ми требаат?
Започнете со мало. Ако не сте доволно фитнес, додадете ширина или длабочина. Ако сте премногу фитнес, регулирајте го или намалете го капацитетот. Нема магичен број; има само криви на валидација и трпение [1].
Дали секогаш ми е потребен графички процесор?
Не секогаш. Малите модели на скромни податоци можат да се обучуваат на процесори, но за слики, големи текстуални модели или големи збирки податоци, забрзувачите заштедуваат многу време [1].
Зошто луѓето велат дека вниманието е моќно?
Бидејќи вниманието им овозможува на моделите да се фокусираат на најрелевантните делови од влезот без строго да се движат по редослед. Ова ги опфаќа глобалните односи, што е многу важно за јазикот и мултимодалните задачи [3].
Дали „Што е невронска мрежа во вештачката интелигенција?“ е различно од „што е длабинско учење“?
Длабокото учење е поширок пристап што користи длабоки невронски мрежи. Значи, прашањето „ Што е невронска мрежа во вештачката интелигенција?“ е како да прашувате за главниот лик; длабокото учење е целиот филм [1].
Практични, малку наметливи совети 💡
-
претпочитајте едноставни основни линии . Дури и мал повеќеслоен перцептрон може да ви каже дали податоците се погодни за учење.
-
Одржувајте го вашиот цевковод за податоци репродуктивен . Ако не можете да го извршите повторно, не можете да му верувате.
-
Темпото на учење е поважно отколку што мислите. Обидете се со распоред. Загревањето може да помогне.
-
компромиси во големината на серијата . Поголемите серии ги стабилизираат градиентите, но може да генерализираат поинаку.
-
Кога сте збунети, исцртајте ги кривите на губење на тежината и нормите на тежината . Ќе се изненадите колку често одговорот е во графиконите.
-
Документирајте ги претпоставките. Иднината - брзо ги заборавате работите [1, 2].
Длабински заобиколен пат: улогата на податоците, или зошто ѓубрето внатре сè уште значи ѓубре надвор 🗑️➡️✨
Невронските мрежи не ги поправаат магично неисправните податоци. Искривените етикети, грешките во анотацијата или тесното земање примероци ќе се одразат низ моделот. Курирајте, ревидирајте и дополнете. И ако не сте сигурни дали ви требаат повеќе податоци или подобар модел, одговорот е често досадно едноставен: и двете - но почнете со квалитетот на податоците [1].
„Што е невронска мрежа во вештачката интелигенција?“ - кратки дефиниции што можете да ги користите повторно 🧾
-
Невронската мрежа е апроксиматор на слоевити функции кој учи сложени шеми со прилагодување на тежините користејќи градиентни сигнали [1, 2].
-
Тоа е систем кој ги трансформира влезните податоци во излезни податоци преку последователни нелинеарни чекори, обучен да ја минимизира загубата [1].
-
Станува збор за флексибилен пристап за моделирање кој бара многу податоци и кој напредува на неструктурирани влезни податоци како што се слики, текст и аудио [1, 2, 3].
Предолго, не прочитав и завршни забелешки 🎯
Ако некој ве праша Што е невронска мрежа во вештачката интелигенција?, еве го краток опис: невронската мрежа е збир од едноставни единици кои ги трансформираат податоците чекор по чекор, учејќи ја трансформацијата со минимизирање на загубата и следење на градиентите. Тие се моќни бидејќи се скалираат, учат карактеристики автоматски и можат да претставуваат многу сложени функции [1, 4]. Тие се ризични ако го игнорирате квалитетот на податоците, управувањето или следењето [5]. И тие не се магија. Само математика, пресметување и добар инженеринг - со доза на вкус.
Дополнително читање, внимателно одбрано (дополнителни материјали без цитат)
-
Белешки од Стенфорд CS231n - пристапни и практични: https://cs231n.github.io/
-
DeepLearningBook.org - канонска референца: https://www.deeplearningbook.org/
-
NIST Рамка за управување со ризици од вештачка интелигенција - упатства за одговорна вештачка интелигенција: https://www.nist.gov/itl/ai-risk-management-framework
-
„Внимание е сè што ви треба“ - труд за Трансформер: https://arxiv.org/abs/1706.03762
Референци
[1] Гудфелоу, И., Бенџо, Ј. и Курвил, А. Длабоко учење . MIT Press. Бесплатна онлајн верзија: прочитај повеќе
[2] Стенфорд CS231n. Конволуциони невронски мрежи за визуелно препознавање (белешки од курсот): прочитај повеќе
[3] Васвани, А., Шазир, Н., Пармар, Н., и др. (2017). Вниманието е сè што ви треба . NeurIPS. arXiv: прочитај повеќе
[4] Цибенко, Г. (1989). Апроксимација со суперпозиции на сигмоидна функција . Математика на контрола, сигнали и системи , 2, 303–314. Спрингер: прочитај повеќе
[5] NIST. Рамка за управување со ризици од вештачка интелигенција (AI RMF) : прочитај повеќе