како да се измери ефикасноста на вештачката интелигенција

Како да се измери ефикасноста на вештачката интелигенција?

Ако некогаш сте испорачале модел кој блескал во лаптоп, но се сопнал во производството, веќе ја знаете тајната: мерењето на перформансите на вештачката интелигенција не е една магична метрика. Тоа е систем на проверки поврзани со целите од реалниот свет. Точноста е симпатична. Сигурноста, безбедноста и влијанието врз бизнисот се подобри.

Статии што можеби ќе ве интересираат по оваа:

🔗 Како да разговарате со вештачка интелигенција
Водич за ефикасна комуникација со вештачка интелигенција за постојано подобри резултати.

🔗 Што е поттикнување од вештачка интелигенција
Објаснува како инструкциите ги обликуваат одговорите со вештачка интелигенција и квалитетот на излезот.

🔗 Што е означување на податоци со вештачка интелигенција
Преглед на доделувањето точни етикети на податоци за модели за обука.

🔗 Што е етика на вештачката интелигенција
Вовед во етичките принципи што го водат одговорниот развој и распоредување на вештачката интелигенција.


Што прави вештачката интелигенција да работи добро? ✅ Што ја прави вештачката интелигенција добра?

Кратка верзија: добрите перформанси на вештачката интелигенција значат дека вашиот систем е корисен, доверлив и може да се повторува во хаотични, променливи услови. Поточно:

  • Квалитет на задачата - таа ги добива точните одговори од вистинските причини.

  • Калибрација - резултатите од довербата се совпаѓаат со реалноста, за да можете да преземете паметна акција.

  • Робустност - издржува при поместување, рабови и спротивставени влакнести површини.

  • Безбедност и праведност - се избегнува штетно, пристрасно или неусогласено однесување.

  • Ефикасност - доволно е брза, доволно евтина и доволно стабилна за да работи на големо.

  • Влијание врз бизнисот - всушност го поместува KPI-то што ви е важно.

Доколку сакате формална референтна точка за усогласување на метриките и ризиците, NIST AI Risk Management Framework е солидна северна ѕвезда за доверлива евалуација на системот. [1]

 

Мерење на перформансите на вештачката интелигенција

Рецепт од високо ниво за тоа како да се измерат перформансите на вештачката интелигенција 🍳

Размислете во три слоја :

  1. Метрики на задачите - точност за типот на задачата: класификација, регресија, рангирање, генерирање, контрола итн.

  2. Системски метрики - латентност, пропусност, цена по повик, стапки на дефекти, аларми за поместување, SLA-договори за време на работа.

  3. Метрики за резултати - резултатите од бизнисот и корисниците што навистина ги сакате: конверзија, задржување, безбедносни инциденти, оптоварување со рачен преглед, обем на билети.

Одличен план за мерење намерно ги комбинира сите три. Во спротивно, добивате ракета што никогаш не ја напушта лансирната рампа.


Основни метрики според типот на проблем - и кога да се користи кој 🎯

1) Класификација

  • Прецизност, Повикување, F1 - триото од првиот ден. F1 е хармоничната средна вредност на прецизноста и повикувањето; корисно кога класите се неурамнотежени или трошоците се асиметрични. [2]

  • ROC-AUC - рангирање на класификаторите според прагот; кога позитивните резултати се ретки, проверете и PR-AUC . [2]

  • Балансирана точност - просек на помнење низ класите; корисно за искривени етикети. [2]

Набљудување на стапици: самата точност може да биде многу погрешна со нерамнотежа. Ако 99% од корисниците се легитимни, глупав, секогаш легитимен модел постигнува 99% резултат и го разочарува вашиот тим за измами пред ручек.

2) Регресија

  • MAE за човечки читлива грешка; RMSE кога сакате да казните големи промашувања; објаснето за варијанса. Потоа, проверка на разумност на дистрибуциите и графиконите на остатоци. [2]
    (Користете единици погодни за доменот за да можат засегнатите страни всушност да ја почувствуваат грешката.)

3) Рангирање, пребарување, препораки

  • nDCG - се грижи за позицијата и градираната релевантност; стандард за квалитет на пребарување.

  • MRR - се фокусира на тоа колку брзо се појавува првата релевантна ставка (одлично за задачи „најди еден добар одговор“).
    (Референците за имплементација и обработените примери се во мејнстрим метричките библиотеки.) [2]

4) Генерирање и сумирање на текст

  • СИНА и КРУЖЕНА - класични метрики за преклопување; корисни како основни линии.

  • Метриките базирани на вградување (на пр., BERTScore ) честопати подобро корелираат со човековата проценка; секогаш се поврзуваат со човечките оценки за стил, верност и безбедност. [4]

5) Одговорување на прашања

  • Точното совпаѓање и F1 на ниво на токен се вообичаени за екстрактивното обезбедување на квалитет; ако одговорите мора да цитираат извори, измерете ја и основата (проверки на поддршката на одговорите).


Калибрација, доверба и објективот Brier 🎚️

Резултатите од довербата се она што многу системи тивко го оправдуваат. Потребни ви се веројатности што ја одразуваат реалноста, за да можат операторите да поставуваат прагови, рути до луѓето или да го проценуваат ризикот.

  • Калибрациски криви - визуелизирајте ја предвидената веројатност наспроти емпириската фреквенција.

  • Бриеров резултат - соодветно правило за бодување за веројатносна точност; колку пониско толку подобро. Особено е корисно кога се грижите за квалитетот на веројатноста, а не само за рангирањето. [3]

Забелешка од терен: малку „полоша“ F1, но многу подобра калибрација може значително да ја подобри тријажата - бидејќи луѓето конечно можат да им веруваат на резултатите.


Безбедност, пристрасност и праведност - мерете што е важно 🛡️⚖️

Системот може да биде точен во целина, а сепак да им наштети на одредени групи. Следете ги групираните метрики и критериумите за праведност:

  • Демографски паритет - еднакви позитивни стапки низ групите.

  • Изедначени шанси / Еднакви можности - еднакви стапки на грешки или стапки на вистински позитивни вредности меѓу групите; користете ги овие за откривање и управување со компромиси, а не како еднократни печати за поминување-неуспех. [5]

Практичен совет: започнете со контролни табли што ги делат основните метрики според клучни атрибути, а потоа додадете специфични метрики за праведност според барањата на вашите политики. Звучи претрупано, но е поевтино од инцидент.


LLM и RAG - прирачник за мерење кој навистина функционира 📚🔍

Мерењето на генеративните системи е… тешко. Направете го ова:

  1. Дефинирајте ги резултатите по случај на употреба: точност, услужливост, безопасност, придржување кон стилот, тон на брендот, основа на цитат, квалитет на одбивање.

  2. Автоматизирајте ги евалуациите на основната линија со робусни рамки (на пр., алатки за евалуација во вашиот стек) и одржувајте ги версионирани со вашите бази на податоци.

  3. Додадете семантички метрики (базирани на вградување) плус преклопувачки метрики (СИНА/РУЖЕНА) за разумност. [4]

  4. Заземјување на инструменти во RAG: стапка на погодоци при пребарување, прецизност/потсетување на контекстот, преклопување на одговорот и поддршката.

  5. Човечки преглед со согласност - измерете ја конзистентноста на оценувачот (на пр., Коенов κ или Флајсов κ) за вашите етикети да не бидат вибрации.

Бонус: евидентирајте ги процентите на латентност и токените или пресметајте ги трошоците по задача. Никој не сака поетски одговор што пристигнува следниот вторник.


Табелата за споредба - алатки што ви помагаат да ги измерите перформансите на вештачката интелигенција 🛠️📊

(Да, намерно е малку неуредно - вистинските ноти се неуредно.)

Алатка Најдобра публика Цена Зошто функционира - брз преглед
метрики на scikit-learn Практичари за машинско учење Бесплатно Канонски имплементации за класификација, регресија, рангирање; лесно се вградуваат во тестовите. [2]
MLflow Evaluate / GenAI Научници за податоци, MLOps Бесплатно + платено Централизирани бодови, автоматизирани метрики, судии за LLM, прилагодени бодери; чисто евидентирање на артефактите.
Очигледно Тимови кои сакаат брзи контролни табли OSS + облак Над 100 метрики, извештаи за дрифт и квалитет, додатоци за следење - убави визуелни елементи во краен случај.
Тежини и пристрасности Организации кои се занимаваат со експерименти Слободен степен Споредби една до друга, евалуациски множества податоци, оценувања; табелите и трагите се прилично уредни.
ЛангСмит Креатори на апликации за LLM Платено Следете го секој чекор, комбинирајте го човечкиот преглед со евалуатори на правила или LLM; одлично за RAG.
TruLens Љубители на LLM евалуација со отворен код Софтверски софтвер Функции за повратна информација за оценување на токсичност, заземјеност, релевантност; интегрирајте се насекаде.
Големи очекувања Организации кои се на прво место во квалитетот на податоците Софтверски софтвер Формализирајте ги очекувањата за податоците - бидејќи лошите податоци секако ја уништуваат секоја метрика.
Длабоки проверки Тестирање и CI/CD за ML OSS + облак Тестирање со вклучени батерии за отстапување на податоци, проблеми со моделот и следење; добри заштитни огради.

Цените се менуваат - проверете ја документацијата. И да, можете да ги мешате овие без да се појави полицијата за алатки.


Прагови, трошоци и криви на одлучување - тајниот рецепт 🧪

Чудна, но вистинита работа: два модели со ист ROC-AUC можат да имаат многу различна деловна вредност во зависност од вашиот праг и коефициенти на трошоци .

Брз лист за изработка:

  • Одредете ја цената на лажно позитивен наспроти лажно негативен резултат во пари или време.

  • Пресметајте ги праговите и пресметајте ги очекуваните трошоци по 1000 одлуки.

  • Изберете го минималниот очекуван праг на трошоци, а потоа заклучете го со мониторинг.

Користете PR криви кога позитивните резултати се ретки, ROC криви за општа форма и калибрациски криви кога одлуките се потпираат на веројатности. [2][3]

Мини-случај: модел на тријажа со поддршка со скромен F1, но одлична калибрација, кој ги намали рачните пренасочувања откако операциите се префрлија од тврд праг на повеќеслојно насочување (на пр., „автоматско решавање“, „човечки преглед“, „ескалирање“) поврзани со калибрирани опсези на бодови.


Онлајн следење, дрифт и известување 🚨

Офлајн евалуациите се почеток, а не крај. Во производство:

  • Следете го поместувањето на влезот , поместувањето на излезот и опаѓањето на перформансите по сегмент.

  • Поставете проверки на заштитната ограда - максимална стапка на халуцинации, прагови на токсичност, делти на праведност.

  • Додајте контролни табли на Canary за латентност на p95, истекување на време и цена по барање.

  • Користете наменски изградени библиотеки за да го забрзате ова; тие нудат отстапување, квалитет и примитиви за следење веднаш.

Мала метафора со недостатоци: замислете го вашиот модел како предјадење од квасец - не печете само еднаш и си одите; храните, гледате, шмркате, а понекогаш и повторно започнувате.


Човечка евалуација што не се распаѓа 🍪

Кога луѓето ги оценуваат резултатите, процесот е поважен отколку што мислите.

  • Напишете строги рубрики со примери за положен наспроти гранично наспроти неуспешен.

  • Рандомизирајте и слепо земајте примероци кога можете.

  • Измерете го совпаѓањето меѓу оценувачите (на пр., Коеново κ за двајца оценувачи, Флајсово κ за многу) и освежете ги рубриките ако совпаѓањето не е во ред.

Ова ги спречува вашите човечки етикети да се менуваат со расположението или залихата на кафе.


Длабоко нурнување: како да се измерат перформансите на вештачката интелигенција за LLM во RAG 🧩

  • Квалитет на пребарување - recall@k, precision@k, nDCG; покриеност на златни факти. [2]

  • Верност на одговорите - проверки со цитирање и проверка, оценки за основаност, контрадикторни истраги.

  • Задоволство на корисниците - оценки, завршување на задачата, растојание помеѓу уредувањето и предложените нацрти.

  • Безбедност - токсичност, протекување на PII, усогласеност со политиките.

  • Трошок и латенција - токени, погодоци во кешот, латенции на p95 и p99.

Поврзете ги овие со деловните активности: ако заземјеноста падне под линијата, автоматски префрлете се во строг режим или човечки преглед.


Едноставен прирачник за почеток денес 🪄

  1. Дефинирајте ја работата - напишете една реченица: што мора да прави вештачката интелигенција и за кого.

  2. Изберете 2–3 метрики за задачи - плус калибрација и барем еден дел за праведност. [2][3][5]

  3. Одлучете ги праговите користејќи ги трошоците - не нагаѓајте.

  4. Создадете мал сет за евалуација - 100–500 означени примери што го одразуваат продукцискиот микс.

  5. Автоматизирајте ги вашите евалуации - префрлете ја евалуацијата/мониторингот во CI, така што секоја промена ќе ги извршува истите проверки.

  6. Монитор во продукција - дрифт, латенција, трошок, знамиња за инциденти.

  7. Прегледајте ги месечните метрики - изостријте ги метриките што никој не ги користи; додадете ги оние што одговараат на вистински прашања.

  8. Документирајте ги одлуките - жива табела со резултати што вашиот тим всушност ја чита.

Да, тоа е буквално сè. И функционира.


Чести загатки и како да ги избегнете 🕳️🐇

  • Преклопување на една метрика - користете кошничка со метрики што одговара на контекстот на одлуката. [1][2]

  • Игнорирање на калибрацијата - довербата без калибрација е само дрскост. [3]

  • Без сегментирање - секогаш сечете по кориснички групи, географија, уред, јазик. [5]

  • Недефинирани трошоци - ако не направите грешки во цената, ќе изберете погрешен праг.

  • Отстапување од човечката евалуација - мерење на согласност, освежување на рубриките, преквалификација на рецензенти.

  • Без безбедносни инструменти - додадете проверки на праведноста, токсичноста и политиката сега, не подоцна. [1][5]


Фразата за која дојдовте: како да се измерат перформансите на вештачката интелигенција - „Предолго, не ја прочитав“ 🧾

  • Започнете со јасни резултати , а потоа натрупете ги за задачи , систем и бизнис . [1]

  • Користете ги вистинските метрики за работата - F1 и ROC-AUC за класификација; nDCG/MRR за рангирање; преклопување + семантички метрики за генерирање (споени со луѓе). [2][4]

  • Калибрирајте ги вашите веројатности и одредете цена на вашите грешки за да ги изберете праговите. [2][3]

  • Додајте за праведност со групни делови и експлицитно управувајте со компромисите. [5]

  • Автоматизирајте ги евалуациите и мониторингот за да можете да итерирате без страв.

Знаеш како е - мери го она што е важно, или ќе завршиш со подобрување на она што не е важно.


Референци

[1] NIST. Рамка за управување со ризик од вештачка интелигенција (AI RMF). прочитај повеќе
[2] scikit-learn. Евалуација на модел: квантифицирање на квалитетот на предвидувањата (Упатство за корисникот). прочитај повеќе
[3] scikit-learn. Калибрација на веројатност (криви на калибрација, Brier скор). прочитај повеќе
[4] Папинени и др. (2002). BLEU: метод за автоматска евалуација на машинско преведување. ACL. прочитај повеќе
[5] Хардт, Прајс, Сребро (2016). Еднаквост на можностите во надгледувано учење. NeurIPS. прочитај повеќе

Пронајдете ја најновата вештачка интелигенција во официјалната продавница за асистенти за вештачка интелигенција

За нас

Назад кон блогот