Што се основни модели во генеративната вештачка интелигенција?

Што се основни модели во генеративната вештачка интелигенција?

Краток одговор: Основните модели се големи, општонаменски модели на вештачка интелигенција обучени на огромни, широки бази на податоци, а потоа прилагодени на многу задачи (пишување, пребарување, кодирање, слики) преку поттикнување, фино подесување, алатки или пребарување. Доколку ви се потребни сигурни одговори, спарете ги со заземјување (како RAG), јасни ограничувања и проверки, наместо да им дозволувате да импровизираат.

Клучни заклучоци:

Дефиниција : Еден широко обучен основен модел повторно употребен во многу задачи, а не една задача по модел.

Адаптација : Користете поттикнување, фино подесување, LoRA/адаптери, RAG и алатки за насочување на однесувањето.

Генеративно вклопување : Тие овозможуваат генерирање на текст, слика, аудио, код и мултимодална содржина.

Квалитетни сигнали : Дајте приоритет на контролираноста, помалку халуцинации, мултимодална способност и ефикасно изведување заклучоци.

Контроли на ризик : Планирајте халуцинации, пристрасност, протекување на приватноста и брзо инјектирање преку управување и тестирање.

Што се основни модели во генеративната вештачка интелигенција? Инфографик

Статии што можеби ќе ве интересираат по оваа:

🔗 Што е компанија за вештачка интелигенција
Разберете како фирмите со вештачка интелигенција градат производи, тимови и модели на приходи.

🔗 Како изгледа вештачкиот код
Погледнете примери за вештачка интелигенција (AI) код, од Python модели до API-ја.

🔗 Што е алгоритам на вештачка интелигенција
Научете што се алгоритми на вештачка интелигенција и како тие донесуваат одлуки.

🔗 Што е вештачка интелигенција (AI) технологија
Истражете ги основните технологии за вештачка интелигенција што ја напојуваат автоматизацијата, аналитиката и интелигентните апликации.


1) Модели на темели - дефиниција без замаглување 🧠

Основниот модел е голем, општонаменски модел на вештачка интелигенција обучен на широк спектар на податоци (обично многу), така што може да се прилагоди на многу задачи, а не само на една ( NIST , Stanford CRFM ).

Наместо да се изгради посебен модел за:

  • пишување е-пораки

  • одговарање на прашања

  • сумирање на PDF-датотеки

  • генерирање слики

  • класификација на билети за поддршка

  • преведувачки јазици

  • давање предлози за код

...обучувате еден голем основен модел кој „го учи светот“ на нејасен статистички начин, а потоа прилагодувате на специфични задачи со упатства, фино подесување или дополнителни алатки ( Боммасани и др., 2021 ).

Со други зборови: тоа е општ мотор што можете да го управувате.

И да, клучниот збор е „општо“. Тоа е целата финта.


2) Што се основни модели во генеративната вештачка интелигенција? (Како тие се вклопуваат конкретно) 🎨📝

Значи, што се основни модели во генеративната вештачка интелигенција? Тие се основните модели што ги напојуваат системите што можат да генерираат нова содржина - текст, слики, аудио, код, видео и сè повеќе… мешавини од сите овие ( NIST , NIST Generative AI Profile ).

Генеративната вештачка интелигенција не е само за предвидување на етикети како „спам / не е спам“. Станува збор за производство на резултати што изгледаат како да ги направило некое лице.

  • пасуси

  • песни

  • описи на производи

  • илустрации

  • мелодии

  • прототипови на апликации

  • синтетички гласови

  • и понекогаш неверојатно самоуверени глупости 🙃

Моделите на темели се особено добри тука затоа што:

  • тие апсорбирале широки шеми од огромни збирки податоци ( Боммасани и др., 2021 )

  • тие можат да генерализираат на нови поттици (дури и чудни) ( Brown et al., 2020 )

  • тие можат да бидат пренаменети за десетици резултати без преквалификација од нула ( Bommasani et al., 2021 )

Тие се „основен слој“ - како тесто за леб. Можете да го испечете во багет, пица или ролни со цимет… не е совршена метафора, но ме разбирате 😄


3) Зошто тие променија сè (и зошто луѓето не престануваат да зборуваат за нив) 🚀

Пред основните модели, голем дел од вештачката интелигенција беше специфична за задачите:

  • обучи модел за анализа на расположение

  • обучи друг за превод

  • обучи друг за класификација на слики

  • обучи друг за препознавање на именувани ентитети

Тоа функционираше, но беше бавно, скапо и некако… кршливо.

Моделите на фондации го превртеа:

  • претходна обука еднаш (голем напор)

  • повторна употреба насекаде (голема исплата) ( Bommasani et al., 2021 )

Таа повторна употреба е мултипликаторот. Компаниите можат да изградат 20 карактеристики врз основа на едно семејство модели, наместо да го измислуваат тркалото 20 пати.

Исто така, корисничкото искуство стана поприродно:

  • не „користите класификатор“

  • Зборуваш со моделот како да е услужлива колешка која никогаш не спие ☕🤝

Понекогаш е исто како колега кој со сигурност погрешно разбира сè, но еј. Раст.


4) Основна идеја: претходна обука + адаптација 🧩

Речиси сите модели на фондации следат шема ( Стенфорд CRFM , NIST ):

Претходна обука (фаза на „апсорпција на интернет“) 📚

Моделот е обучен на масивни, широки збирки податоци со користење на самонадгледувано учење ( NIST ). За јазичните модели, тоа обично значи предвидување на недостасувачки зборови или следниот токен ( Devlin et al., 2018 , Brown et al., 2020 ).

Поентата не е да го научиме на една задача. Поентата е да го научиме на општи претставувања :

  • граматика

  • факти (некој вид)

  • модели на расудување (понекогаш)

  • стилови на пишување

  • структура на код

  • заедничка човечка намера

Адаптација (фаза на „направи го практично“) 🛠️

Потоа го прилагодувате користејќи едно или повеќе од:

  • поттикнување (инструкции на јасен јазик)

  • подесување на инструкции (обучување да ги следи инструкциите) ( Веи и др., 2021 )

  • фино подесување (обука за податоците од вашиот домен)

  • LoRA / адаптери (лесни методи за подесување) ( Hu et al., 2021 )

  • RAG (генерација со зголемено пребарување - моделот се консултира со вашата документација) ( Луис и др., 2020 )

  • употреба на алатки (повикување функции, прелистување на внатрешни системи итн.)

Затоа истиот основен модел може да напише романтична сцена… а потоа да помогне во дебагирање на SQL барање пет секунди подоцна 😭


5) Што ја прави една верзија на модел на темел добра? ✅

Ова е делот што луѓето го прескокнуваат, а потоа жалат за него.

„Добриот“ модел на темел не е само „поголем“. Поголемиот помага, секако… но тоа не е единственото нешто. Добрата верзија на модел на темел обично има:

Силна генерализација 🧠

Добро извршува многу задачи без потреба од преквалификација специфична за задачата ( Bommasani et al., 2021 ).

Управување и управливост 🎛️

Може сигурно да следи упатства како што се:

  • „биди концизен“

  • „Користете точки за означување“

  • „Пишувај со пријателски тон“

  • „Не откривајте доверливи информации“

Некои модели се паметни, но лизгави. Како обид да се држи сапун под туш. Корисно, но непредвидливо 😅

Ниска тенденција кон халуцинации (или барем искрена несигурност) 🧯

Ниеден модел не е имун на халуцинации, но добрите:

  • халуцинираат помалку

  • почесто признавајте неизвесност

  • останете поблиску до дадениот контекст кога користите пребарување ( Ji et al., 2023 , Lewis et al., 2020 )

Добри мултимодални способности (кога е потребно) 🖼️🎧

Ако креирате асистенти кои читаат слики, толкуваат графикони или разбираат аудио, мултимодалноста е многу важна ( Radford et al., 2021 ).

Ефикасно заклучување ⚡

Латенцијата и цената се важни. Модел кој е силен, но бавен е како спортски автомобил со дупната гума.

Безбедносно и усогласено однесување 🧩

Не само „одбивајте сè“, туку:

  • избегнувајте штетни упатства

  • намалување на пристрасноста

  • справувајте се со чувствителни теми со внимание

  • отпорен на основни обиди за џеилбрејк (донекаде…) ( NIST AI RMF 1.0 , NIST Generative AI Profile )

Документација + екосистем 🌱

Ова звучи сувопарно, но е вистинито:

  • алатки

  • евалуациски појаси

  • опции за распоредување

  • контроли на претпријатието

  • поддршка за фино подесување

Да, „екосистем“ е нејасен збор. И јас го мразам. Но, тој е важен.


6) Табела за споредба - вообичаени опции за модели на темели (и за што се добри) 🧾

Подолу е прикажана практична, малку несовршена споредбена табела. Тоа не е „единствениот вистински список“, туку повеќе е како: што луѓето избираат во дивината.

тип на алатка / модел публика скапоцен зошто функционира
Сопствен LLM (стил на разговор) тимови кои сакаат брзина + дотерување базирано на употреба / претплата Одлично следење на инструкциите, силни општи перформанси, обично најдобро „откако ќе го извадите од кутијата“ 😌
LLM со отворена тежина (самостојно хостирање) градители кои сакаат контрола трошоци за инфраструктура (и главоболки) Прилагодливо, пријателско за приватноста, може да се извршува локално… ако сакате да си играте на полноќ
Генератор на дифузиона слика креативци, дизајнерски тимови од бесплатно до платено Одлична синтеза на слики, разновидност на стилови, итеративни работни процеси (исто така: прстите може да бидат исклучени) ✋😬 ( Хо и др., 2020 , Ромбах и др., 2021 )
Мултимодален модел на „визуелен јазик“ апликации што читаат слики + текст базирано на употреба Ви овозможува да поставувате прашања за слики, снимки на екранот, дијаграми - изненадувачки практично ( Radford et al., 2021 )
Вграден модел на темел пребарување + RAG системи ниска цена по повик Го претвора текстот во вектори за семантичко пребарување, групирање, препорака - тивка MVP енергија ( Карпукин и др., 2020 , Дуз и др., 2024 )
Основен модел за претворање на говор во текст кол-центри, креатори базирано на употреба / локално Брза транскрипција, повеќејазична поддршка, доволно добро за бучен звук (обично) 🎙️ ( Шепот )
Модел на основа за претворање на текст во говор тимови за производи, медиуми базирано на употреба Природно генерирање на глас, стилови на глас, нарација - можат да станат морничави ( Shen et al., 2017 )
LLM фокусиран на код програмери базирано на употреба / претплата Подобар во шеми на код, дебагирање, рефакторирање… сепак не е читач на мисли 😅

Забележете како „основен модел“ не значи само „чатбот“. Вградувањата и говорните модели исто така можат да бидат основни, бидејќи се широки и може да се користат повеќекратно во различни задачи ( Bommasani et al., 2021 , NIST ).


7) Подетален поглед: како учат моделите на основа на јазикот (вибрационата верзија) 🧠🧃

Моделите на основите на јазикот (често наречени LLM) обично се обучуваат на огромни колекции текст. Тие учат преку предвидување на токени ( Brown et al., 2020 ). Тоа е тоа. Нема тајна самовилска прашина.

Но, магијата е во тоа што предвидувањето на токени го принудува моделот да учи структура ( CSET ):

  • граматика и синтакса

  • тематски односи

  • шеми слични на расудување (понекогаш)

  • вообичаени низи на мисли

  • како луѓето објаснуваат работи, се расправаат, се извинуваат, преговараат, поучуваат

Тоа е како да научиш да имитираш милиони разговори без да „разбираш“ како луѓето. Што звучи како да не треба да функционира… а сепак продолжува да функционира.

Едно мало претерување: во основа е како компресирање на човечки текст во огромен веројатносен мозок.
Од друга страна, таа метафора е малку проколната. Но, ние се движиме 😄


8) Подетален поглед: модели на дифузија (зошто сликите функционираат различно) 🎨🌀

Моделите на основа на слики често користат на дифузија ( Ho et al., 2020 , Rombach et al., 2021 ).

Грубата идеја:

  1. додавајте шум на сликите сè додека не станат практично статични како на телевизорот

  2. обучете модел да го поништи тој шум чекор по чекор

  3. во времето на генерирање, започнете со шум и „исклучете го шумот“ во слика водена од потсетник ( Ho et al., 2020 )

Затоа генерирањето слики се чувствува како „развивање“ фотографија, освен што фотографијата е змеј во патики во ходник на супермаркет 🛒🐉

Дифузиските модели се добри затоа што:

  • тие создаваат висококвалитетни визуелни ефекти

  • тие можат силно да бидат водени од текст

  • тие поддржуваат итеративно рафинирање (варијации, вдлабнување, зголемување на резолуцијата) ( Rombach et al., 2021 )

Тие исто така понекогаш се борат со:

  • рендерирање на текст во слики

  • фини анатомски детали

  • конзистентен идентитет на ликовите низ сцените (се подобрува, но сепак)


9) Подетален поглед: мултимодални модели на основа (текст + слики + аудио) 👀🎧📝

Мултимодалните основни модели имаат за цел да разберат и генерираат низ повеќе типови на податоци:

Зошто ова е важно во реалниот живот:

  • Поддршката за корисници може да толкува снимки од екранот

  • алатките за пристапност можат да опишуваат слики

  • Образовните апликации можат да објаснат дијаграми

  • Креаторите можат брзо да ремиксираат формати

  • Деловните алатки можат да „прочитаат“ снимка од екранот на контролната табла и да ја сумираат

Под хаубата, мултимодалните системи често ги усогласуваат репрезентациите:

  • претвори слика во вградувања

  • претвори текст во вградувања

  • Научете заеднички простор каде што „мачка“ се совпаѓа со пикселите на мачката 😺 ( Радфорд и др., 2021 )

Не е секогаш елегантно. Понекогаш е зашиено како ќебе. Но, функционира.


10) Фино подесување наспроти поттикнување наспроти RAG (како го прилагодувате основниот модел) 🧰

Ако се обидувате да направите основен модел практичен за одредена област (правна, медицинска, услуга на клиентите, внатрешно знаење), имате неколку лостови:

Поттикнување 🗣️

Најбрзо и наједноставно.

  • предности: нула обука, моментална итерација

  • недостатоци: може да биде неконзистентно, ограничување на контекстот, предизвикува кршливост

Фино подесување 🎯

Обучете го моделот понатаму врз основа на вашите примери.

  • предности: поконзистентно однесување, подобар јазик на доменот, може да ја намали должината на барањето

  • недостатоци: цена, барања за квалитет на податоци, ризик од преоптоварување, одржување

Лесно подесување (LoRA / адаптери) 🧩

Поефикасна верзија на фино подесување ( Hu et al., 2021 ).

  • предности: поевтино, модуларно, полесно за замена

  • недостатоци: сè уште е потребен процес на обука и евалуација

RAG (генерација со зголемено пребарување) 🔎

Моделот презема релевантни документи од вашата база на знаење и одговара користејќи ги ( Луис и др., 2020 ).

  • предности: ажурирано знаење, интерни цитати (доколку го имплементирате), помалку преквалификација

  • недостатоци: квалитетот на пребарувањето може да го направи или да го уништи, потребно е добро групирање + вградување

Вистински муабет: многу успешни системи комбинираат потсетник + RAG. Финото подесување е моќно, но не секогаш потребно. Луѓето пребрзо се впуштаат во тоа бидејќи звучи импресивно 😅


11) Ризици, ограничувања и делот „ве молам, не го користете ова на слепо“ 🧯😬

Фондациските модели се моќни, но не се стабилни како традиционалниот софтвер. Тие се повеќе како… талентиран практикант со проблем со самодовербата.

Клучни ограничувања за планирање:

Халуцинации 🌀

Моделите можат да измислат:

  • лажни извори

  • неточни факти

  • веродостојни, но погрешни чекори ( Ji et al., 2023 )

Ублажувања:

  • RAG со заснован контекст ( Луис и др., 2020 )

  • ограничени излези (шеми, повици на алатки)

  • експлицитна инструкција „не погодувај“

  • слоеви за верификација (правила, вкрстени проверки, човечки преглед)

Пристрасност и штетни обрасци ⚠️

Бидејќи податоците за обука ги одразуваат луѓето, можете да добиете:

Ублажувања:

Заштита на податоци и протекување 🔒

Ако внесувате доверливи податоци во крајна точка на моделот, треба да знаете:

  • како се складира

  • дали се користи за обука

  • какво евидентирање постои

  • што ги контролира потребите на вашата организација ( NIST AI RMF 1.0 )

Ублажувања:

  • опции за приватно распоредување

  • силно управување

  • минимална изложеност на податоци

  • RAG само за внатрешно користење со строга контрола на пристап ( NIST Generative AI Profile , Carlini et al., 2021 )

Брза инјекција (особено со RAG) 🕳️

Ако моделот чита недоверлив текст, тој текст може да се обиде да го манипулира:

Ублажувања:

  • инструкции за изолирање на системот

  • дезинфицирајте ја преземената содржина

  • користете политики базирани на алатки (не само упатства)

  • тест со контрадикторни влезни податоци ( OWASP Cheat Sheet , NIST Generative AI Profile )

Не се обидувам да те плашам. Само… подобро е да знаеш каде шкрипат подните штици.


12) Како да изберете модел на темел за вашиот случај на употреба 🎛️

Ако избирате модел на темел (или градите врз него), започнете со овие упатства:

Дефинирајте што генерирате 🧾

  • само текст

  • слики

  • аудио

  • мешан мултимодален

Поставете ја вашата граница за фактичност 📌

Доколку ви е потребна висока точност (финансии, здравство, право, безбедност):

  • ќе ви треба RAG ( Луис и др., 2020 )

  • ќе сакаш валидација

  • ќе ви треба човечка проверка во јамката (барем понекогаш) ( NIST AI RMF 1.0 )

Одлучете ја вашата целна латентност ⚡

Разговорот е моментален. Групното сумирање може да биде побавно.
Ако ви е потребен моментален одговор, големината на моделот и хостирањето се важни.

Потреби за приватност и усогласеност со мапите 🔐

На некои тимови им е потребно:

  • распоредување на локација / VPC

  • без задржување на податоци

  • строги ревизорски логови

  • контрола на пристап по документ ( NIST AI RMF 1.0 , NIST Generative AI Profile )

Балансиран буџет - и трпение за операциите 😅

Самостојното хостирање дава контрола, но додава сложеност.
Управуваните API-ја се лесни, но можат да бидат скапи и помалку прилагодливи.

Мал практичен совет: прво направете прототип со нешто лесно, а потоа стврднете. Почнувањето со „совршената“ поставеност обично сè забавува.


13) Што се основни модели во генеративната вештачка интелигенција? (Брз ментален модел) 🧠✨

Да го вратиме. Што се основни модели во генеративната вештачка интелигенција?

Тие се:

  • големи, општи модели обучени на широки податоци ( NIST , Stanford CRFM )

  • способен за генерирање содржина (текст, слики, аудио, итн.) ( NIST Generative AI Profile )

  • прилагодлив на многу задачи преку инструкции, фино подесување и пребарување ( Боммасани и др., 2021 )

  • основниот слој што ги напојува повеќето модерни генеративни производи со вештачка интелигенција

Тие не се една единствена архитектура или бренд. Тие се категорија на модели кои се однесуваат како платформа.

Моделот на темел е помалку како калкулатор, а повеќе како кујна. Во него можете да готвите многу оброци. Можете исто така да го запалите тостот ако не обрнувате внимание… но кујната е сепак доста практична 🍳🔥


14) Резиме и храна за носење ✅🙂

Основните модели се повеќекратно употребливи мотори на генеративната вештачка интелигенција. Тие се обучуваат широко, а потоа се прилагодуваат на специфични задачи преку поттикнување, фино подесување и пребарување ( NIST , Stanford CRFM ). Тие можат да бидат неверојатни, неуредни, моќни, а повремено и смешни - сè одеднаш.

Резиме:

Ако градите нешто со генеративна вештачка интелигенција, разбирањето на моделите на темели не е опционално. Тоа е целиот кат на кој стои зградата… и да, понекогаш подот малку се ниша 😅

Најчесто поставувани прашања

Модели на темели, едноставно кажано

Основниот модел е голем, општонаменски модел со вештачка интелигенција обучен на широки податоци, така што може да се користи повторно за многу задачи. Наместо да градите еден модел по задача, започнувате со силен „основен“ модел и го прилагодувате по потреба. Таа адаптација често се случува преку поттикнување, фино подесување, пребарување (RAG) или алатки. Централната идеја е ширина плус управливост.

Како моделите на темелите се разликуваат од традиционалните модели на вештачка интелигенција специфични за задачите

Традиционалната вештачка интелигенција честопати тренира посебен модел за секоја задача, како што се анализа на расположение или превод. Основните модели го инвертираат тој образец: претходно тренираат еднаш, а потоа повторно користат низ многу функции и производи. Ова може да го намали дуплираниот напор и да го забрза испорачувањето на нови можности. Компромисот е што тие можат да бидат помалку предвидливи од класичниот софтвер, освен ако не додадете ограничувања и тестирање.

Основни модели во генеративна вештачка интелигенција

Во генеративната вештачка интелигенција, основните модели се основните системи што можат да произведат нова содржина како текст, слики, аудио, код или мултимодални излези. Тие не се ограничени на етикетирање или класификација; тие генерираат одговори што личат на човечка работа. Бидејќи учат широки шеми за време на претходната обука, тие можат да се справат со многу типови и формати на потсетници. Тие се „основниот слој“ зад повеќето модерни генеративни искуства.

Како основните модели учат за време на претходната обука

Повеќето модели на јазична основа учат преку предвидување на токени, како што се следниот збор или зборови што недостасуваат во текстот. Таа едноставна цел ги поттикнува да ја интернализираат структурата како што се граматиката, стилот и вообичаените обрасци на објаснување. Тие исто така можат да апсорбираат голем дел од светското знаење, иако не секогаш сигурно. Резултатот е силна општа репрезентација што подоцна можете да ја насочите кон специфична работа.

Разликата помеѓу поттикнување, фино подесување, LoRA и RAG

Поттикнувањето е најбрзиот начин за насочување на однесувањето со користење на инструкции, но може да биде кревко. Финото подесување го обучува моделот понатаму врз основа на вашите примери за поконзистентно однесување, но додава трошоци и одржување. LoRA/адаптерите се полесен пристап за фино подесување кој често е поевтин и помодуларен. RAG ги презема релевантните документи и го има одговорот на моделот користејќи го тој контекст, што помага со свежина и основа.

Кога да се користи RAG наместо фино подесување

RAG е често одличен избор кога ви се потребни одговори засновани на вашите тековни документи или внатрешна база на знаење. Може да го намали „погодувањето“ со тоа што ќе му обезбеди на моделот релевантен контекст во времето на генерирање. Финото подесување е подобро решение кога ви е потребен конзистентен стил, фразирање на доменот или однесување што потсетникот не може сигурно да го произведе. Многу практични системи комбинираат потсетник + RAG пред да посегнат по фино подесување.

Како да ги намалите халуцинациите и да добиете посигурни одговори

Вообичаен пристап е моделот да се заземји со пребарување (RAG) за да остане блиску до дадениот контекст. Исто така, можете да ги ограничите излезите со шеми, да барате повици на алатки за клучни чекори и да додадете експлицитни инструкции „не погодувај“. Слоевите за верификација се исто така важни, како што се проверките на правилата, вкрстената проверка и човечкиот преглед за случаи на употреба со поголем ризик. Третирајте го моделот како веројатносен помагач, а не како извор на вистина по дифолт.

Најголемите ризици со моделите на темели во производството

Вообичаените ризици вклучуваат халуцинации, пристрасни или штетни шеми од податоците за обука и протекување на приватноста ако чувствителните податоци се обработуваат лошо. Системите исто така можат да бидат ранливи на инјектирање на информации, особено кога моделот чита недоверлив текст од документи или веб-содржина. Мерките за ублажување обично вклучуваат управување, црвено здружување, контрола на пристап, побезбедни шеми за потсетување и структурирана евалуација. Планирајте ги овие ризици рано, наместо да ги закрпувате подоцна.

Брзо вбризгување и зошто е важно во RAG системите

Инјектирањето на промпт е кога недоверлив текст се обидува да ги замени инструкциите, како што се „игнорирај претходни упатства“ или „откриј тајни“. Во RAG, преземените документи можат да ги содржат тие злонамерни инструкции, а моделот може да ги следи ако не сте внимателни. Вообичаен пристап е да се изолираат системските инструкции, да се дезинфицира преземената содржина и да се потпирате на политики базирани на алатки, наместо само на потсетници. Тестирањето со контрадикторни влезни податоци помага да се откријат слабите точки.

Како да изберете модел на основа за вашиот случај на употреба

Започнете со дефинирање на она што треба да го генерирате: текст, слики, аудио, код или мултимодални излези. Потоа поставете ја вашата прачка за фактичност - домените со висока точност честопати бараат заземјување (RAG), валидација, а понекогаш и човечка проверка. Размислете за латентност и трошоци, бидејќи силен модел кој е бавен или скап може да биде тешко да се испорача. Конечно, мапирајте ја приватноста и усогласеноста со опциите и контролите за распоредување.

Референци

  1. Национален институт за стандарди и технологија (NIST) - Модел на фондација (термин во речник) - csrc.nist.gov

  2. Национален институт за стандарди и технологија (NIST) - NIST AI 600-1: Генеративен профил на вештачка интелигенција - nvlpubs.nist.gov

  3. Национален институт за стандарди и технологија (NIST) - NIST AI 100-1: Рамка за управување со ризици од вештачка интелигенција (AI RMF 1.0) - nvlpubs.nist.gov

  4. Стенфордски центар за истражување на модели на темели (CRFM) - Извештај - crfm.stanford.edu

  5. arXiv - За можностите и ризиците на моделите на фондацијата (Bommasani et al., 2021) - arxiv.org

  6. arXiv - Јазичните модели се ученици со малку шанси (Brown et al., 2020) - arxiv.org

  7. arXiv - Генерирање со зголемено пребарување за задачи за НЛП интензивно знаење (Луис и др., 2020) - arxiv.org

  8. arXiv - LoRA: Нискорангирана адаптација на големи јазични модели (Hu et al., 2021) - arxiv.org

  9. arXiv - BERT: Претходна обука за длабоки двонасочни трансформатори за разбирање на јазикот (Девлин и др., 2018) - arxiv.org

  10. arXiv - Фино подесените јазични модели се ученици со нулти шанси (Wei et al., 2021) - arxiv.org

  11. Дигитална библиотека на ACM - Истражување на халуцинации во генерирањето на природен јазик (Ji et al., 2023) - dl.acm.org

  12. arXiv - Учење на преносливи визуелни модели од супервизија на природен јазик (Радфорд и др., 2021) - arxiv.org

  13. arXiv - Веројатносни модели на дифузија со отстранување на шум (Ho et al., 2020) - arxiv.org

  14. arXiv - Синтеза на слики со висока резолуција со модели на латентна дифузија (Rombach et al., 2021) - arxiv.org

  15. arXiv - Пребарување на густи пасуси за одговарање на прашања во отворен домен (Karpukhin et al., 2020) - arxiv.org

  16. arXiv - Библиотеката Фаис (Доуз и сор., 2024) - arxiv.org

  17. OpenAI - Претставување на Whisper - openai.com

  18. arXiv - Природна синтеза на TTS со условување на WaveNet врз предвидувањата на спектрограмот на Мел (Shen et al., 2017) - arxiv.org

  19. Центар за безбедност и нови технологии (CSET), Универзитет Џорџтаун - Изненадувачката моќ на предвидувањето на следниот збор: објаснување на големи јазични модели (дел 1) - cset.georgetown.edu

  20. USENIX - Извлекување податоци за обука од големи јазични модели (Carlini et al., 2021) - usenix.org

  21. OWASP - LLM01: Брза инјекција - genai.owasp.org

  22. arXiv - Повеќе отколку што сте побарале: Сеопфатна анализа на заканите од новото брзо вбризгување на податоци за големите јазични модели интегрирани во апликацијата (Greshake et al., 2023) - arxiv.org

  23. Серија совети за OWASP - Шема за превенција на брза инјекција за LLM - cheatsheetseries.owasp.org

Пронајдете ја најновата вештачка интелигенција во официјалната продавница за асистенти за вештачка интелигенција

За нас

Назад кон блогот