Дали детекторите со вештачка интелигенција се сигурни?

Краток одговор: Детекторите за текст со вештачка интелигенција можат да послужат како брз сигнал за „поблиску поглед“, особено кога имате подолги примероци, но тие не се сигурен доказ за авторство. Со кратко, многу уредено, формално или ненативно пишување, лажните позитиви и промашувањата стануваат вообичаени, па затоа одлуките никогаш не треба да зависат од еден единствен резултат.

Тие можат да бидат корисни како навестување - поттурнување, сигнал „можеби погледни поблиску“. Но, тие не се сигурни како доказ . Дури ни блиску. Дури и компаниите што градат детектори имаат тенденција да го кажат ова на еден или друг начин (понекогаш гласно, понекогаш со ситни букви). На пример, OpenAI изјави дека е невозможно сигурно да се детектира целиот текст напишан од вештачка интелигенција , па дури и објави евалуациски бројки што покажуваат значајни стапки на промашување и лажни позитиви. [1]

Клучни заклучоци:

Сигурност : Третирајте ги резултатите од детекторот како навестувања, а не како докази, особено во случаи со висок ризик.

Лажни позитиви : Формалното, шаблонирано, кратко или многу дотерано човечко пишување честопати е погрешно етикетирано.

Лажно негативности : Лесното парафразирање или мешаните нацрти од човек и вештачка интелигенција можат лесно да не бидат откриени.

Верификација : Претпочитано е доказ за процесот - историја на нацрти, белешки, извори и траги од ревизии.

Управување : Потребни се транспарентни ограничувања, човечка проверка и пат за жалби пред последиците.

Статии што можеби ќе ве интересираат по оваа:

🔗 Како функционира детекцијата со вештачка интелигенција
Погледнете како алатките го забележуваат пишувањето со вештачка интелигенција користејќи шеми и веројатности.

🔗 Како вештачката интелигенција ги предвидува трендовите
Разберете како алгоритмите ја предвидуваат побарувачката од податоци и сигнали.

🔗 Како да користите вештачка интелигенција на вашиот телефон
Практични начини за користење на апликации со вештачка интелигенција за секојдневни задачи.

🔗 Дали претворањето на текст во говор е вештачка интелигенција?
Научете како TTS системите генерираат природни гласови од пишан текст.

Зошто луѓето постојано прашуваат дали детекторите со вештачка интелигенција се сигурни 😅

Бидејќи влоговите станаа чудно високи, брзо.

Наставниците сакаат да го заштитат академскиот интегритет 🎓
Уредниците сакаат да ги спречат спам статиите што бараат малку напор 📰
Менаџерите за вработување сакаат автентични примери за пишување 💼
Студентите сакаат да избегнат лажно обвинување 😬
Брендовите сакаат конзистентен глас, а не фабрика за копирање и лепење содржини 📣

И, на интуитивно ниво, постои желба за удобноста на машина која со сигурност може да каже „ова е вистинско“ или „ова е лажно“. Како детектор за метал на аеродром.

Освен… јазикот не е метал. Јазикот е повеќе како магла. Можеш да насочиш фенерче во него, но луѓето сепак се расправаат за тоа што виделе.

Сигурност во пракса наспроти демонстрации 🎭

Во контролирани услови, детекторите можат да изгледаат импресивно. Во секојдневната употреба, станува помалку уредно - бидејќи детекторите не „гледаат авторство“, тие гледаат шеми .

Дури и страницата за класификатор на текст на OpenAI, која сега е прекината, е директна во врска со основниот проблем: сигурното откривање не е загарантирано, а перформансите варираат во зависност од работите како што е должината на текстот (краткиот текст е потежок). Тие исто така споделија конкретен пример за компромисот: фаќање само на дел од текстот со вештачка интелигенција, а сепак понекогаш погрешно означување на човечкиот текст. [1]

Секојдневното пишување е полно со збунувачки работи:

интензивно уредување
шаблони
технички тон
немајчин израз
кратки одговори
ригидно академско форматирање
Енергија „Го напишав ова во 2 часот наутро и мозокот ми беше препечен“

Значи, детекторот може да реагира на стил , а не на потекло. Тоа е како да се обидувате да идентификувате кој испекол торта гледајќи ги трошките. Понекогаш можете да претпоставите. Понекогаш само ги проценувате вибрациите на трошките.

Како функционираат детекторите со вештачка интелигенција (и зошто се расипуваат) 🧠🔧

Повеќето „детектори со вештачка интелигенција“ што ќе ги сретнете во дивината спаѓаат во два широки режима:

1) Детекција базирана на стил (погодување од текстуални шеми)

Ова ги вклучува класичните пристапи на „класификатор“ и пристапите што значат предвидливост/збунетост. Алатката учи статистички сигнали што имаат тенденција да се појават во одредени излезни податоци од моделот… а потоа генерализира.

Зошто се расипува:

Човечкото пишување може да изгледа и „статистички“ (особено формално, пишување водено од рубрики или пишување засновано на шаблони).
Современото пишување е често мешано (човечки + уредувања + предлози од вештачка интелигенција + граматички алатки).
Алатките можат да станат претерано самоуверени надвор од нивната зона на удобност при тестирање. [1]

2) Потекло / воден печат (верификација, не претпоставка)

Наместо да се обидуваат да заклучат авторство од „вибрации од трошки“, системите за потекло се обидуваат да прикачат за доказ за потекло или да вградат сигнали што подоцна можат да се проверат.

Работата на NIST на синтетичка содржина нагласува една клучна реалност овде: дури и детекторите за водени жигови имаат ненулти лажни позитивни и лажни негативни резултати - а сигурноста зависи од тоа дали водениот жиг ќе го преживее патувањето од креирањето → уредувањата → повторно објавувањата → снимките на екранот → обработката на платформата. [2]

Значи да, потеклото е почисто во принцип ... но само кога екосистемот го поддржува целосно.

Големите начини на неуспех: лажно позитивни и лажно негативни резултати 😬🫥

Ова е суштината. Ако сакате да знаете дали детекторите со вештачка интелигенција се сигурни, треба да се запрашате: сигурни по која цена ?

Лажно позитивни резултати (човек означен како вештачка интелигенција) 😟

Ова е кошмарно сценарио во училиштата и на работните места: човек пишува нешто, добива ознака и одеднаш се брани од бројка на екранот.

Еве еден болно чест образец:

Студент поднесува кратка рефлексија (да речеме, неколку стотици зборови).
Детекторот дава самоуверена оценка.
Сите паничат.
Потоа учите дека самата алатка предупредува дека кратките поднесоци можат да бидат помалку сигурни - и дека оценката не треба да се користи како единствена основа за негативна акција. [3]

Во упатствата на Turnitin (во нивните белешки за објавување / документација) експлицитно се предупредува дека поднесоците под 300 зборови може да бидат помалку точни и се потсетуваат институциите да не го користат резултатот од вештачката интелигенција како единствена основа за негативни дејствија против студент. [3]

Лажните позитиви исто така имаат тенденција да се појават кога пишувањето е:

премногу формален
повторувачки по дизајн (рубрики, извештаи, шаблони за брендови)
кратко (помалку сигнал, повеќе претпоставки)
темелно лектуриран и дотеран

Детекторот во основа може да каже: „Ова изгледа како текст што сум го видел од вештачка интелигенција“ дури и ако не е. Тоа не е злоба. Тоа е само усогласување на шеми со лизгач на доверба.

Лажно негативни резултати (AI не е означена) 🫥

Ако некој користи вештачка интелигенција и лесно уредува - преуредува, парафразира, вметнува некои човечки грешки - детекторите можат да го пропуштат тоа. Исто така, алатките подесени да избегнуваат лажни обвинувања честопати ќе пропуштат повеќе текст со вештачка интелигенција по дизајн (тоа е прагот на компромис). [1]

Значи, можете да завршите со најлошата комбинација:

Искрените писатели понекогаш се критикуваат
решителните измамници честопати не го прават тоа

Не секогаш. Но, доволно често што користењето детектори како „доказ“ е ризично.

Што го прави еден детектор „добар“ (дури и ако детекторите не се совршени) ✅🧪

Ако сепак ќе користите еден (бидејќи институциите работат како институции), добрата поставеност изгледа помалку како „судија + порота“ и повеќе како „тријажа + докази“

Одговорното поставување вклучува:

Транспарентни ограничувања (кратки текстуални предупредувања, ограничувања на доменот, опсези на доверба) [1][3]
Јасни прагови + неизвесност како валиден исход („не знаеме“ не треба да биде табу)
Човечки преглед и докази за процесот (нацрти, скици, историја на ревизии, цитирани извори)
Политики кои експлицитно ги обесхрабруваат казнените одлуки само врз основа на бодови [3]
Заштита на приватноста (не пренасочувајте чувствителни текстови кон нејасни контролни табли)

Табела за споредба: пристапи за откривање наспроти верификација 📊🧩

Оваа маса намерно има мали необичности, бидејќи така изгледаат масите кога ги направил човек додека пие ладен чај ☕.

Алатка / Пристап	Публика	Типична употреба	Зошто функционира (и зошто не)
Детектори со вештачка интелигенција базирани на стил (генерички алатки за „AI score“)	Секој	Брза тријажа	Брзо и лесно, но може да го помеша стилот со потеклото - и има тенденција да биде понесигурно на краток или многу изменет текст. [1]
Институционални детектори (интегрирани со LMS)	Училишта, универзитети	Означување на работниот процес	Практично за скрининг, но ризично кога се третира како доказ; многу алатки експлицитно предупредуваат против исходи само врз основа на бодови. [3]
Стандарди за потекло (акредитиви за содржина / C2PA-стил)	Платформи, редакции	Потекло на трагата + измени	Посилно кога се усвојува од почеток до крај; се потпира на метаподатоци кои преживуваат во поширокиот екосистем. [4]
Екосистеми за воден печат (на пр., специфични за добавувачот)	Продавачи на алатки, платформи	Верификација базирана на сигнал	Работи кога содржината доаѓа од алатки за воден печат и може да се открие подоцна; не е универзално, а детекторите сè уште имаат стапки на грешки. [2][5]

Детектори во образованието 🎓📚

Образованието е најтешката средина за детекторите бидејќи штетите се лични и непосредни.

Учениците често се учат да пишуваат на начини што изгледаат „формуларно“ бидејќи буквално се оценуваат според структурата:

тези
шаблони за пасуси
конзистентен тон
формални транзиции

Значи, детекторите можат да ги казнуваат учениците затоа што… ги почитуваат правилата.

Ако училиштето користи детектори, најодбранливиот пристап обично вклучува:

детектори само како тријажа
нема казни без човечка проверка
можности за учениците да го објаснат својот процес
нацрт-историја / нацрти / извори како дел од евалуацијата
усни контроли каде што е соодветно

И да, усните дополнителни испитувања можат да се чувствуваат како испрашување. Но, тие можат да бидат пофер од „роботот вели дека сте измамиле“, особено кога самиот детектор предупредува против одлуки само врз основа на поени. [3]

Детектори за вработување и пишување на работното место 💼✍️

Пишувањето на работното место често е:

шаблонизирано
полиран
повторувачки
изменето од повеќе луѓе

Со други зборови: може да изгледа алгоритамски дури и кога е човечко.

Ако вработувате, подобар пристап отколку да се потпирате на детекторски резултат е:

побарајте пишување поврзано со вистински работни задачи
додадете кратко следење во живо (дури и 5 минути)
оценувајте го расудувањето и јасноста, а не само „стилот“
им дозволуваат на кандидатите однапред да ги откријат правилата за помош со вештачка интелигенција

Обидот да се „открие вештачка интелигенција“ во современите работни процеси е како обид да се открие дали некој користел проверка на правопис. На крајот сфаќате дека светот се променил додека не сте гледале. [1]

Детектори за издавачи, SEO и модерација 📰📈

Детекторите можат да бидат корисни за групна тријажа : означување на сомнителни купови содржина за човечки преглед.

Но, внимателен човечки уредник честопати ги открива проблемите со вештачка интелигенција побрзо од детекторот, бидејќи уредниците забележуваат:

нејасни тврдења без специфики
самоуверен тон без докази
недостасува текстура на бетон
„склопена“ фраза што не звучи како да е жива

И еве го пресвртот: тоа не е магична супермоќ. Тоа е само уреднички инстинкт за сигнали на доверба .

Подобри алтернативи од чиста детекција: потекло, процес и „покажете ја вашата работа“ 🧾🔍

Ако детекторите се несигурни како доказ, подобрите опции имаат тенденција да изгледаат помалку како единечен резултат, а повеќе како слоевити докази.

1) Процес на докази (негламурозен херој) 😮💨✅

нацрти
историја на ревизии
белешки и контури
цитати и извори
контрола на верзии за професионално пишување

2) Проверки за автентичност кои не се „фатени“ 🗣️

„Зошто ја одбравте оваа структура?“
„Која алтернатива ја отфрливте и зошто?“
„Објасни го овој пасус на некој помлад.“

3) Стандарди за потекло + воден печат каде што е можно 🧷💧

Акредитациите за содржина на C2PA се дизајнирани да им помогнат на публиката да го проследи потеклото и историјата на уредување на дигиталната содржина (замислете: концепт на „етикета за исхрана“ за медиуми). [4]
Во меѓувреме, екосистемот SynthID на Google се фокусира на воден печат и подоцнежно откривање на содржина генерирана со поддржани алатки на Google (и портал за детектор кој ги скенира поставените содржини и ги истакнува веројатно регионите со воден печат). [5]

Ова се кои наликуваат на верификација - не се совршени, не се универзални, но се насочени кон појасна насока од „погодување од вибрации“. [2]

4) Јасни политики што одговараат на реалноста 📜

„Вештачката интелигенција е забранета“ е едноставно… и честопати нереално. Многу организации се движат кон:

„Вештачката интелигенција овозможи размена на идеи, а не конечно изготвување на нацрт-документи“
„Вештачката интелигенција е дозволена ако е откриена“
„Вештачката интелигенција дозволува граматика и јасност, но оригиналното расудување мора да биде ваше“

Одговорен начин за користење на детектори со вештачка интелигенција (доколку морате) ⚖️🧠

Користете детектори само како знаме.
Не е пресуда. Не е причина за казна. [3]
Проверете го типот на текст
Краток одговор? Список со точки? Претежно изменет? Очекувајте погласни резултати. [1][3]
Барајте основани докази:
нацрти, референци, конзистентен глас низ времето и способноста на авторот да ги објасни изборите.
Да претпоставиме дека мешаното авторство е нормално сега.
Луѓе + уредници + граматички алатки + предлози за вештачка интелигенција + шаблони е… вторник.
Никогаш не потпирајте се на еден број.
Единечните резултати поттикнуваат мрзеливи одлуки - а мрзеливите одлуки се причина за лажните обвинувања. [3]

Заклучок ✨

Значи, сликата за сигурност изгледа вака:

Сигурно како груба индикација: понекогаш ✅
Сигурно како доказ: не ❌
Безбедно како единствена основа за казна или отстранување: апсолутно не 😬

Третирајте ги детекторите како детектор за чад:

може да сугерира дека треба да погледнете подетално
не може да ти каже точно што се случило
не може да ги замени доказите од истрагата, контекстот и процесот

Машините за откривање на вистината со еден клик се користат претежно за научна фантастика. Или информативни реклами.

Најчесто поставувани прашања

Дали детекторите за текст со вештачка интелигенција се сигурни за докажување дека некој користел вештачка интелигенција?

Детекторите за текст со вештачка интелигенција не се сигурен доказ за авторство. Тие можат да послужат како брз сигнал дека нешто може да заслужува преглед, особено со подолги примероци, но истиот резултат може да биде погрешен во двата правци. Во ситуации со висок ризик, статијата препорачува да се третира излезот на детекторот како навестување, а не како доказ, и да се избегнува каква било одлука што зависи од еден број.

Зошто детекторите со вештачка интелигенција го означуваат човечкото пишување како вештачка интелигенција?

Лажно позитивни резултати се случуваат кога детекторите реагираат на стилот, а не на потеклото. Формалното, шаблонизираното, високо дотераното или краткото пишување може да се чита како „статистичко“ и да предизвика сигурни резултати дури и ако е целосно човечко. Во статијата се забележува дека ова е особено честа појава во средини како училиште или работа каде што се наградуваат структурата, конзистентноста и јасноста, што може ненамерно да личи на шемите што детекторите ги поврзуваат со резултатите од вештачката интелигенција.

Какво пишување ја прави детекцијата со вештачка интелигенција помалку прецизна?

Кратките примероци, силно изменетиот текст, техничкото или ригидното академско форматирање и ненативното фразирање имаат тенденција да произведат погласни резултати. Статијата нагласува дека секојдневното пишување вклучува многу збунувачки фактори - шаблони, лектура и мешани алатки за цртање - кои ги збунуваат системите базирани на шаблони. Во овие случаи, „резултатот на вештачката интелигенција“ е поблиску до несигурна претпоставка отколку до сигурна мерка.

Може ли некој да ги заобиколи детекторите за текст со вештачка интелигенција со парафразирање?

Да, лажните негативни резултати се вообичаени кога текстот со вештачка интелигенција е лесно изменет. Статијата објаснува дека преуредувањето на речениците, парафразирањето или мешањето на човечки и вештачки текст може да ја намали довербата на детекторот и да дозволи работата со помош на вештачка интелигенција да се пропушти. Детекторите подесени да избегнуваат лажни обвинувања честопати пропуштаат повеќе содржина со вештачка интелигенција по дизајн, па затоа „не е означено“ не значи „дефинитивно човечко“

Која е побезбедна алтернатива од потпирањето на резултатите од детекторот за вештачка интелигенција?

Статијата препорачува доказ за процесот наместо погодување на шаблони. Историјата на нацрти, контурите, белешките, цитираните извори и трагите на ревизија даваат поконкретни докази за авторството отколку резултатот од детекторот. Во многу работни процеси, „покажете ја вашата работа“ е и пофер и потешко за измамување. Слоевитите докази, исто така, го намалуваат ризикот од казнување на вистински автор поради погрешно автоматизирана класификација.

Како училиштата треба да користат детектори со вештачка интелигенција без да им наштетат на учениците?

Образованието е високоризична средина бидејќи последиците се лични и непосредни. Во статијата се тврди дека детекторите треба да бидат само тријажа, а никогаш да не бидат основа за казни без човечка проверка. Одбранлив пристап вклучува да им се дозволи на учениците да го објаснат својот процес, да разгледуваат нацрти и скици и да користат дополнителни информации кога е потребно - наместо да се третира оценката како пресуда, особено за кратки поднесоци.

Дали детекторите со вештачка интелигенција се погодни за вработување и пишување примероци на работното место?

Тие се ризични како алатка за контрола на пристапот бидејќи пишувањето на работното место често е дотерувано, шаблонизирано и уредувано од повеќе луѓе, што може да изгледа „алгоритамски“ дури и кога е човечко. Статијата предлага подобри алтернативи: задачи за пишување релевантни за работата, кратки последователни прегледи во живо и евалуација на расудувањето и јасноста. Исто така, се забележува дека мешаното авторство е сè понормално во современите работни процеси.

Која е разликата помеѓу откривање со вештачка интелигенција и потекло или воден печат?

Детекцијата се обидува да го утврди авторството од текстуалните шеми, што може да го помеша стилот со потеклото. Потеклото и водените печати имаат за цел да потврдат од каде потекнува содржината користејќи метаподатоци или вградени сигнали што подоцна можат да се проверат. Статијата истакнува дека дури и овие пристапи за верификација не се совршени - сигналите може да се изгубат преку уредувања или повторно објавување - но тие се концептуално почисти кога се поддржани од крај до крај.

Како изгледа „одговорна“ поставеност на детектор со вештачка интелигенција?

Статијата ја дефинира одговорната употреба како „тријажа + докази“, а не како „судија + порота“. Тоа значи транспарентни ограничувања, прифаќање на неизвесноста, човечка проверка и пат на жалба пред последиците. Исто така, повикува на проверка на типот на текст (краток наспроти долг, уреден наспроти суров), давање приоритет на основани докази како што се нацрти и извори и избегнување на казнени исходи само врз основа на бодови што можат да доведат до лажни обвинувања.

Референци

[1] OpenAI - Нов класификатор на вештачка интелигенција за означување на текст напишан од вештачка интелигенција (вклучува ограничувања + дискусија за евалуација) - прочитај повеќе
[2] NIST - Намалување на ризиците што ги носи синтетичката содржина (NIST AI 100-4) - прочитај повеќе
[3] Turnitin - Модел за детекција на пишување со вештачка интелигенција (вклучува предупредувања за краток текст + некористење на резултатот како единствена основа за негативна акција) - прочитај повеќе
[4] C2PA - C2PA / Преглед на акредитиви за содржина - прочитај повеќе
[5] Google - SynthID детектор - портал за помош при идентификување на содржина генерирана од вештачка интелигенција - прочитај повеќе

Пронајдете ја најновата вештачка интелигенција во официјалната продавница за асистенти за вештачка интелигенција

За нас

Назад кон блогот

Земја/регион