Ако градите, купувате или дури само оценувате системи со вештачка интелигенција, ќе наидете на едно измамнички едноставно прашање: што е збир на податоци со вештачка интелигенција и зошто е толку важен? Кратка верзија: тоа е горивото, готвачот, а понекогаш и компасот за вашиот модел.
Статии што можеби ќе ве интересираат по оваа:
🔗 Како вештачката интелигенција ги предвидува трендовите
Истражува како вештачката интелигенција анализира шеми за да предвиди идни настани и однесувања.
🔗 Како да се измери ефикасноста на вештачката интелигенција
Метрики и методи за проценка на точноста, ефикасноста и сигурноста на моделот.
🔗 Како да разговарате со вештачка интелигенција
Упатство за креирање подобри интеракции за подобрување на одговорите генерирани од вештачка интелигенција.
🔗 Што е поттикнување од вештачка интелигенција
Преглед на тоа како потсетниците ги обликуваат резултатите од вештачката интелигенција и целокупниот квалитет на комуникацијата.
Што е збир на податоци за вештачка интелигенција? Кратка дефиниција 🧩
Што е збир на податоци од вештачка интелигенција? Тоа е збирка примери од кои вашиот модел учи или врз кои се оценува. Секој пример има:
-
Влезни податоци - карактеристики што моделот ги гледа, како што се фрагменти од текст, слики, аудио, табеларни редови, отчитувања на сензори, графикони.
-
Цели - етикети или резултати што моделот треба да ги предвиди, како што се категории, броеви, текстуални распони, дејства или понекогаш ништо.
-
Метаподатоци - контекст како што се извор, метод на собирање, временски ознаки, лиценци, информации за согласност и забелешки за квалитетот.
Замислете го како внимателно спакувана кутија за ручек за вашиот модел: состојки, етикети, нутритивни факти и да, лепливата белешка на која пишува „не јадете го овој дел“. 🍱
За надгледувани задачи, ќе видите влезни податоци спарени со експлицитни етикети. За ненадгледувани задачи, ќе видите влезни податоци без етикети. За учење со засилување, податоците често изгледаат како епизоди или траектории со состојби, дејства, награди. За мултимодална работа, примерите можат да комбинираат текст + слика + аудио во еден запис. Звучи фенси; претежно е водоводџиско.
Корисни воведи и практики: за листови со податоци за множества податоци им помага на тимовите да објаснат што има внатре и како треба да се користи [1], а картичките со модели ја надополнуваат документацијата за податоци од страната на моделот [2].

Што прави еден сет на податоци од вештачка интелигенција да биде добар ✅
Да бидеме искрени, многу модели успеваат затоа што збирот на податоци не беше ужасен. „Добар“ збир на податоци е:
-
Претставник на реални случаи на употреба, не само на лабораториски услови.
-
Точно означено , со јасни упатства и периодично оценување. Метриките за согласност (на пр., мерки во стилот на капа) помагаат во проверката на конзистентноста.
-
комплетно и избалансирано за да се избегне тивок неуспех на долги опашки. Нерамнотежата е нормална; небрежноста не е.
-
Чисто потекло , со документирана согласност, лиценца и дозволи. Досадната документација ги спречува возбудливите тужби.
-
Добро документирано со користење на картички со податоци или листови со податоци што ја наведуваат наменетата употреба, ограничувањата и познатите начини на дефект [1]
-
Управувано со верзии, дневници на промени и одобрувања. Ако не можете да го репродуцирате множеството податоци, не можете да го репродуцирате ниту моделот. Упатствата од Рамката за управување со ризици од вештачка интелигенција на NIST го третираат квалитетот на податоците и документацијата како проблеми од прва класа [3].
Видови на податоци од вештачка интелигенција, според тоа што правите 🧰
Според задачата
-
Класификација - на пр., спам наспроти неспам, категории на слики.
-
Регресија - предвидување на континуирана вредност како што се цена или температура.
-
Означување на секвенци - именувани ентитети, делови од говорот.
-
Генерација - сумирање, превод, титлување на слики.
-
Препорака - корисник, ставка, интеракции, контекст.
-
Детекција на аномалии - ретки настани во временски серии или логови.
-
Засилувачко учење - состојба, акција, награда, низи од следната состојба.
-
Пребарување - документи, барања, проценки за релевантност.
Според модалитетот
-
Табеларни - колони како возраст, приход, одлив на вработени. Потценети, брутално ефикасни.
-
Текст - документи, разговори, код, објави на форуми, описи на производи.
-
Слики - фотографии, медицински скенирања, сателитски плочки; со или без маски, кутии, клучни точки.
-
Аудио - бранови форми, транскрипти, ознаки на звучници.
-
Видео - рамки, временски анотации, етикети на дејства.
-
Графи - јазли, рабови, атрибути.
-
Временски серии - сензори, финансии, телеметрија.
Со надзор
-
Означено (златно, сребро, автоматско обележано), слабо обележано , неозначено , синтетичко . Смесата за торта купена од продавница може да биде пристојна - ако го прочитате упатството на кутијата.
Внатре во кутијата: структура, поделби и метаподатоци 📦
Робусниот збир на податоци обично вклучува:
-
Шема - типизирани полиња, единици, дозволени вредности, ракување со null.
-
Поделби - обука, валидација, тестирање. Чувајте ги податоците од тестот запечатени - третирајте ги како последно парче чоколадо.
-
План за земање примероци - како сте извлекле примери од популацијата; избегнувајте погодни примероци од еден регион или уред.
-
Аугментации - превртувања, исечоци, бучава, парафрази, маски. Добро кога е искрено; штетно кога измислуваат шеми што никогаш не се случуваат во дивината.
-
Верзионирање - податочен сет v0.1, v0.2… со дневници на промени што ги опишуваат делтите.
-
Лиценци и согласност - права на користење, прераспределба и текови на бришење. Националните регулатори за заштита на податоци (на пр., ICO на Велика Британија) обезбедуваат практични контролни листи за законска обработка [4].
Животниот циклус на множеството податоци, чекор по чекор 🔁
-
Дефинирајте ја одлуката - што ќе одлучи моделот и што ќе се случи ако е погрешна.
-
Карактеристики и етикети на опсегот - мерливи, видливи, етички за собирање.
-
Изворни податоци - инструменти, логови, анкети, јавни корпуси, партнери.
-
Согласност и правни информации - известувања за приватност, откажувања од договори, минимизирање на податоци. Видете ги упатствата на регулаторот за „зошто“ и „како“ [4].
-
Собирај и складирај - безбедно складирање, пристап базиран на улоги, ракување со PII.
-
Ознака - внатрешни анотатори, краудсорсинг, експерти; управувајте со квалитетот со златни задачи, ревизии и метрики за договори.
-
Чистење и нормализирање - отстранување на дупликати, справување со недостатоци, стандардизирање на единици, поправка на кодирање. Досадна, херојска работа.
-
Поделете и валидирајте - спречете протекување; стратификувајте каде што е релевантно; претпочитајте временски поделби за временски податоци; и внимателно користете вкрстена валидација за робусни проценки [5].
-
Документ - лист со податоци или картичка со податоци; наменета употреба, предупредувања, ограничувања [1].
-
Мониторинг и ажурирање - откривање на отстапувања, каденца на освежување, планови за застој. RMF на вештачката интелигенција на NIST ја обликува оваа тековна јамка на управување [3].
Брз совет обликуван од реалниот свет: тимовите често „победуваат на демонстрацијата“, но се сопнуваат во производството бидејќи нивниот збир на податоци тивко се менува - нови производни линии, преименувано поле или променета политика. Едноставен дневник на промени + периодично повторно внесување на информации го спречува поголемиот дел од таа мака.
Квалитет на податоци и евалуација - не е толку досадно како што звучи 🧪
Квалитетот е повеќедимензионален:
-
Точност - дали етикетите се точни? Користете метрики за договор и периодично оценување.
-
Комплетност - покријте ги областите и класите што ви се навистина потребни.
-
Доследност - избегнувајте контрадикторни етикети за слични влезни податоци.
-
Актуелност - застарените податоци ги фосилизираат претпоставките.
-
Праведност и пристрасност - покриеност низ демографските податоци, јазиците, уредите, средини; започнете со описни ревизии, а потоа стрес тестови. Практиките што се ставаат на прво место во документацијата (листови со податоци, картички со модели) ги прават овие проверки видливи [1], а рамките за управување ги нагласуваат како контроли на ризик [3].
За евалуација на моделот, користете соодветни поделби и следете ги и просечните метрики и метриките на најлошата група. Сјајниот просек може да скрие кратер. Основите на вкрстената валидација се добро опфатени во стандардните документи за алатки за машинско учење [5].
Етика, приватност и лиценцирање - заштитните огради 🛡️
Етичките податоци не се вибрации, туку процес:
-
Согласност и ограничување на намената - бидете експлицитни за употребата и правните основи [4].
-
Ракување со лични податоци - минимизирајте, псевдонимизирајте или анонимизирајте по потреба; размислете за технологија за подобрување на приватноста кога ризиците се високи.
-
Атрибуција и лиценци - почитувајте ги ограничувањата за исто споделување и комерцијална употреба.
-
Пристрасност и штета - проверка за лажни корелации („дневна светлина = безбедно“ ќе биде многу збунувачко ноќе).
-
Корекција - знајте како да отстраните податоци по барање и како да вратите модели обучени за нив (документирајте го ова во вашиот лист со податоци) [1].
Колку е доволно големо? Димензионирање и однос сигнал-шум 📏
Општо правило: повеќе примери обично помагаат ако се релевантни, а не речиси дупликати. Но, понекогаш е подобро со помалку, почисти, подобро етикетирани примероци отколку со купишта неуредни.
Внимавајте на:
-
Криви на учење - прикажи ги перформансите наспроти големината на примерокот за да видиш дали си врзан за податоци или за модел.
-
Долгоопашеста покриеност - ретките, но критичните класи честопати бараат целно собирање, а не само поголемо количество.
-
Означете го шумот - измерете, потоа намалете; малку е подносливо, плима и осека не е.
-
Промена на дистрибуцијата - податоците за обука од еден регион или канал може да не се генерализираат во друг; валидирајте на податоци од тест слични на цел [5].
Кога се сомневате, стартувајте мали пилот-експлозии и проширете ги. Тоа е како зачинување - додадете, пробајте, прилагодете, повторете.
Каде да најдете и управувате со множества податоци 🗂️
Популарни ресурси и алатки (нема потреба да меморирате URL-адреси во моментов):
-
Збирки на податоци за прегрнување на лице - програмско вчитување, обработка, споделување.
-
Пребарување на податоци на Google - мета-пребарување низ целиот веб.
-
UCI ML репозиториум - курирани класици за основни линии и настава.
-
OpenML - задачи + податочни множества + извршувања со потекло.
-
AWS Open Data / Google Cloud Public Datasets - хостирани, големи корпуси.
Професионален совет: не преземајте само. Прочитајте ја лиценцата и техничкиот лист , а потоа документирајте ја вашата сопствена копија со броеви на верзии и потекло [1].
Етикетирање и анотирање - каде што се преговара за вистината ✍️
Анотацијата е местото каде што вашиот теоретски водич за етикети се бори со реалноста:
-
Дизајн на задачата - напишете јасни инструкции со примери и контрапримери.
-
Обука за анотатори - зачини со златни одговори, изврши рунди за калибрација.
-
Контрола на квалитет - користете метрики за договор, механизми за консензус и периодични ревизии.
-
Алатки - изберете алатки што наметнуваат валидација на шемата и редови за преглед; дури и табеларните пресметки можат да работат со правила и проверки.
-
Јамки за повратни информации - запишувајте ги белешките на анотаторите и моделирајте ги грешките за да го подобрите водичот.
Ако ви се чини како да уредувате речник со тројца пријатели кои не се согласуваат за запирките… тоа е нормално. 🙃
Документација на податоци - правење имплицитно знаење експлицитно 📒
Лесен лист со податоци или картичка со податоци треба да опфаќа:
-
Кој го собрал, како и зошто.
-
Наменети употреби и употреби надвор од опсегот.
-
Познати празнини, пристрасности и начини на дефекти.
-
Протокол за етикетирање, чекори за контрола на квалитетот и статистика за договор.
-
Лиценца, согласност, контакт за проблеми, процес на отстранување.
Шаблони и примери: Листовите со податоци за множества податоци и картички со модели се широко користени почетни точки [1].
Напиши го додека градиш, а не потоа. Меморијата е нестабилен медиум за складирање.
Табела за споредба - места за наоѓање или хостирање на бази на податоци од вештачка интелигенција 📊
Да, ова е малку наметливо. А формулацијата е намерно малку нерамномерна. Во ред е.
| Алатка / Репозиториум | Публика | Цена | Зошто функционира во пракса |
|---|---|---|---|
| Збирки на податоци за прегрнување на лице | Истражувачи, инженери | Слободен ред | Брзо вчитување, стриминг, скрипти од заедницата; одлични документи; версионирани бази на податоци |
| Пребарување на збирови податоци на Google | Секој | Бесплатно | Широка површина; одлично за откривање; понекогаш неконзистентни метаподатоци |
| UCI ML репозиториум | Студенти, едукатори | Бесплатно | Курирани класици; мали, но уредни; добри за основни линии и настава |
| OpenML | Истражувачи на репродукција | Бесплатно | Задачи + податочни множества + извршувања заедно; убави траги од потекло |
| Регистар на отворени податоци на AWS | Инженери за податоци | Претежно бесплатно | Хостинг на ниво на петабајти; пристап во облак; трошоци за излез од часовникот |
| Kaggle збирки на податоци | Практичари | Бесплатно | Лесно споделување, скрипти, натпревари; сигналите од заедницата помагаат во филтрирање на бучавата |
| Јавни збирки податоци на Google Cloud | Аналитичари, тимови | Бесплатно + облак | Хостирано во близина на компјутер; интеграција со BigQuery; внимателно со фактурирањето |
| Академски портали, лаборатории | Нишни експерти | Варира | Високо специјализирано; понекогаш недоволно документирано - сепак вреди да се бара |
(Ако ќелијата изгледа разговорливо, тоа е намерно.)
Изработка на вашиот прв - практичен почетен комплет 🛠️
Сакате да преминете од „што е збир на податоци од вештачка интелигенција“ на „Јас направив еден, работи“. Обидете се со оваа минимална патека:
-
Напишете ја одлуката и метриката - на пр., намалете ги погрешните рути на дојдовната поддршка со предвидување на вистинскиот тим. Метрика: макро-F1.
-
Наведете 5 позитивни и 5 негативни примери - земете примероци од вистински билети; не измислувајте.
-
Нацртајте водич за етикети - една страница; експлицитни правила за вклучување/исклучување.
-
Соберете мал, вистински примерок - неколку стотици билети низ категориите; отстранете ги личните податоци што не ви се потребни.
-
Поделете со проверки за протекување - чувајте ги сите пораки од истиот клиент во едно поделување; користете вкрстена валидација за да ја процените варијансата [5].
-
Анотирајте со QA - два анотатори на подмножество; решете ги несогласувањата; ажурирајте го упатството.
-
Обучете едноставна основна линија - прво логистика (на пр., линеарни модели или компактни трансформатори). Поентата е да се тестираат податоците, а не да се освојуваат медали.
-
Преглед на грешките - каде не успева и зошто; ажурирајте го множеството податоци, не само моделот.
-
Документ - мал лист со податоци: извор, линк до водич за етикети, поделби, познати ограничувања, лиценца [1].
-
Планирајте освежување - пристигнуваат нови категории, нов сленг, нови домени; закажете мали, чести ажурирања [3].
Ќе научиш повеќе од оваа јамка отколку од илјада брзи обиди. Исто така, чувај резервни копии. Те молам.
Чести стапици што им се прикрадуваат на тимовите 🪤
-
Протекување на податоци - одговорот се провлекува во функциите (на пр., користење полиња по решавањето на проблемот за предвидување на резултатите). Се чини како измама бидејќи е така.
-
Плитка разновидност - една географија или уред се маскира како глобална. Тестовите ќе го откријат пресвртот во заплетот.
-
Отстапување од етикетата - критериумите се менуваат со текот на времето, но упатството за етикетата не. Документирајте ја и верификувајте ја вашата онтологија.
-
Недоволно одредени цели - ако не можете да дефинирате лошо предвидување, ниту вашите податоци нема да го сторат тоа.
-
Неуредни лиценци - стружење сега, извинување подоцна, не е стратегија.
-
Прекумерно зголемување - синтетички податоци што учат нереални артефакти, како што е обука на готвач на пластично овошје.
Брзи често поставувани прашања за самата фраза ❓
-
Дали „Што е збир на податоци од вештачка интелигенција?“ е само прашање на дефиниција? Најчесто, но тоа е и сигнал дека ви е грижа за здодевните делови што ги прават моделите сигурни.
-
Дали секогаш ми требаат етикети? Не. Ненадгледуваните, самонадгледуваните и RL поставувањата честопати ги прескокнуваат експлицитните етикети, но курацијата сè уште е важна.
-
Може ли да користам јавни податоци за било што? Не. Почитувајте ги лиценците, условите на платформата и обврските за приватност [4].
-
Поголемо или подобро? Идеално, и двете. Ако мора да изберете, прво изберете подобро.
Заклучни забелешки - Што можете да снимите од екранот 📌
Ако некој ве праша што е збир на податоци за вештачка интелигенција , кажете: тоа е курирана, документирана колекција од примери што учат и тестираат модел, завиткани во управување за луѓето да можат да им веруваат на резултатите. Најдобрите збирки на податоци се репрезентативни, добро етикетирани, правно чисти и континуирано одржувани. Останатото се детали - важни детали - за структурата, поделбите и сите оние мали заштитни огради што ги спречуваат моделите да талкаат во сообраќајот. Понекогаш процесот се чувствува како градинарство со табели; понекогаш како групирање пиксели. Во секој случај, инвестирајте во податоците и вашите модели ќе се однесуваат помалку чудно. 🌱🤖
Референци
[1] Листови со податоци за множества податоци - Gebru et al., arXiv. Линк
[2] Модел картички за известување за модели - Mitchell et al., arXiv. Линк
[3] NIST Рамка за управување со ризици од вештачка интелигенција (AI RMF 1.0) . Линк
[4] Упатства и ресурси за GDPR во Велика Британија - Канцеларија на комесарот за информации (ICO). Линк
[5] Вкрстена валидација: евалуација на перформансите на проценувачот - Упатство за корисникот на scikit-learn. Линк