Вештачката интелигенција не е само впечатливи модели или зборувачки асистенти кои имитираат луѓе. Зад сето тоа, стои планина - понекогаш и океан - од податоци. И искрено, складирањето на тие податоци? Тука работите обично стануваат незгодни. Без разлика дали зборувате за цевководи за препознавање слики или обука на гигантски јазични модели, барањата за складирање податоци за вештачката интелигенција можат брзо да излезат од контрола ако не размислите добро. Ајде да објасниме зошто складирањето е толку важно, кои опции се на маса и како можете да жонглирате со трошоците, брзината и обемот без да се прегорите.
Статии што можеби ќе ве интересираат по оваа:
🔗 Наука за податоци и вештачка интелигенција: Иднината на иновациите
Истражување како вештачката интелигенција и науката за податоци ги поттикнуваат модерните иновации.
🔗 Вештачка течна интелигенција: Иднината на вештачката интелигенција и децентрализираните податоци
Поглед во децентрализираните податоци од вештачката интелигенција и новите иновации.
🔗 Управување со податоци за алатки за вештачка интелигенција што треба да ги разгледате
Клучни стратегии за подобрување на складирањето и ефикасноста на податоците со вештачка интелигенција.
🔗 Најдобри алатки за вештачка интелигенција за аналитичари на податоци: Подобрување на донесувањето одлуки за анализа
Врвни алатки за вештачка интелигенција кои ја подобруваат анализата на податоци и донесувањето одлуки.
Значи… Што го прави складирањето на податоци со вештачка интелигенција корисно? ✅
Не станува збор само за „повеќе терабајти“. Вистинскиот простор за складирање, кој е пријателски настроен кон вештачката интелигенција, се однесува на тоа да биде употреблив, сигурен и доволно брз и за обуки и за работни оптоварувања со инференција.
Неколку карактеристични карактеристики што вреди да се забележат:
-
Скалабилност : Скокнување од GB на PB без препишување на вашата архитектура.
-
Перформанси : Високата латентност ќе ги осиромаши графичките процесори; тие не простуваат тесни грла.
-
Редундантност : Снимки, репликација, версионирање - бидејќи експериментите не успеваат, а и луѓето не успеваат.
-
Економичност : Вистинско ниво, вистински момент; во спротивно, сметката се прикрадува како даночна ревизија.
-
Близина до пресметување : Ставете го складиштето веднаш до графичките процесори/температурните процесори или гледајте го пригушувањето за испорака на податоци.
Инаку, тоа е како да се обидувате да возите Ферари на гориво од косачка за трева - технички се движи, но не долго.
Табела за споредба: Вообичаени избори за складирање за вештачка интелигенција
Тип на складирање | Најдобро одговара | Кост Бејлпарк | Зошто функционира (или не) |
---|---|---|---|
Складирање на објекти во облак | Стартапи и средни претпријатија | $$ (променлива) | Флексибилно, издржливо, совршено за езера со податоци; внимавајте на надоместоците за излез + резултатите од барањата. |
NAS на лице место | Поголеми организации со ИТ тимови | $$$$ | Предвидлива латентност, целосна контрола; однапред капитални трошоци + тековни оперативни трошоци. |
Хибриден облак | Поставувања со високи барања за усогласеност | $$$ | Комбинира локална брзина со еластичен облак; оркестрацијата додава главоболка. |
Целосни флеш низи | Истражувачи опседнати со перформанс | $$$$$ | Неверојатно брз IOPS/проточен капацитет; но TCO не е шега. |
Дистрибуирани датотечни системи | Развивачи на вештачка интелигенција / HPC кластери | $$–$$$ | Паралелен влез/излез на сериозна скала (Lustre, Spectrum Scale); оптоварувањето на оперативниот систем е реално. |
Зошто потребите за податоци од вештачка интелигенција експлодираат 🚀
Вештачката интелигенција не само што собира селфиња. Таа е гладна.
-
Обучувачки сетови : Само ILSVRC на ImageNet содржи ~1,2 милиони обележани слики, а корпусите специфични за доменот одат многу подалеку од тоа [1].
-
Верзионирање : Секое прилагодување - етикети, поделби, дополнувања - создава друга „вистина“.
-
Влезови за стриминг : Визија во живо, телеметрија, сигнали од сензори… тоа е постојана работа со противпожарна заштита.
-
Неструктурирани формати : Текст, видео, аудио, логови - многу пообемни од уредните SQL табели.
Тоа е шведска маса каде што можеш да јадеш колку што можеш, а моделот секогаш се враќа за десерт.
Облак наспроти локални услуги: бескрајната дебата 🌩️🏢
Облакот изгледа примамливо: речиси бесконечен, глобален, плаќај колку што користиш. Сè додека вашата фактура не покаже трошоци за излез - и одеднаш вашите „евтини“ трошоци за складирање се конкурентски трошоци за пресметување [2].
Од друга страна, инсталирањето во фабриката дава контрола и солидни перформанси, но исто така плаќате за хардвер, напојување, ладење и луѓето што ќе ги чуваат полиците.
Повеќето тимови се сместуваат во неуредна средина: хибридни поставувања. Чувајте ги топлите, чувствителни, високопроточни податоци блиску до графичките процесори, а остатокот архивирајте го во облачни нивоа.
Трошоци за складирање што се зголемуваат 💸
Капацитетот е само површинскиот слој. Скриените трошоци се натрупуваат:
-
Движење на податоци : Копии меѓу региони, трансфери меѓу облаци, дури и излез на корисници [2].
-
Редундантност : Следењето на 3-2-1 (три копии, две медиуми, една надвор од локацијата) одзема простор, но го спасува денот [3].
-
Напојување и ладење : Ако е проблемот со вашиот решетка, тогаш проблемот е со топлината.
-
Компромиси со латенцијата : Поевтините нивоа обично значат брзини на ледено обновување.
Безбедност и усогласеност: Тивки прекршувачи на договори 🔒
Прописите буквално можат да диктираат каде ќе се сместат бајтите. Според GDPR на Обединетото Кралство , преместувањето на лични податоци надвор од Обединетото Кралство бара законски патишта за пренос (SCC, IDTA или правила за адекватност). Превод: вашиот дизајн за складирање мора да „знае“ географија [5].
Основи за печење од првиот ден:
-
Шифрирање - и во мирување и во патување.
-
Најмалку привилегиран пристап + ревизорски траги.
-
Избришете ги заштитите како што се непроменливоста или заклучувањата на објекти.
Тесни грла во перформансите: Латентноста е тивок убиец ⚡
Графичките процесори не сакаат да чекаат. Ако складирањето доцни, тие се преправаат дека се „грејачи“. Алатки како NVIDIA GPUDirect Storage го елиминираат посредникот на процесорот, префрлајќи ги податоците директно од NVMe во графичката меморија - токму она што го бара обуката за големи серии [4].
Вообичаени поправки:
-
NVMe all-flash за жешки шардови за тренинг.
-
Паралелни датотечни системи (Lustre, Spectrum Scale) за проток со повеќе јазли.
-
Асинхронизирани вчитувачи со сечење + претходно преземање за да се спречи стагнација на графичките процесори.
Практични потези за управување со складирањето на вештачка интелигенција 🛠️
-
Нивоа : Топли шардови на NVMe/SSD; архивирајте ги застарените сетови во објектни или ладни нивоа.
-
Dedup + delta : Зачувајте ги основните линии еднаш, чувајте ги само разликите + манифестите.
-
Правила за животен циклус : Автоматско ниво и истекување на старите излези [2].
-
3-2-1 отпорност : Секогаш чувајте повеќе копии, на различни медиуми, со една изолирана [3].
-
Инструментација : Проток на трагата, латенции на p95/p99, неуспешни читања, исход според работното оптоварување.
Брз (измислен, но типичен) случај 📚
Тим за визија започнува со ~20 TB во складиште за објекти во облак. Подоцна, тие почнуваат да клонираат множества податоци низ региони за експерименти. Нивните трошоци растат - не од самото складиште, туку од излезниот сообраќај . Тие ги префрлаат hot shards во NVMe блиску до кластерот на графичката картичка, чуваат канонска копија во складиштето за објекти (со правила за животен циклус) и ги прикачуваат само примероците што им се потребни. Резултат: Графичките процесори се позафатени, сметките се поекономични, а хигиената на податоците се подобрува.
Планирање на капацитетот одзади на пликот 🧮
Приближна формула за проценка:
Капацитет ≈ (Сурови податоци) × (Фактор на репликација) + (Претходно обработени / зголемени податоци) + (Контролни точки + логови) + (Маргина на безбедност ~15–30%)
Потоа, Sanity го проверува во однос на пропусноста. Ако на вчитувачите по јазол им е потребно одржливо ~2–4 GB/s, гледате NVMe или паралелен FS за брзи патеки, со складирање на објекти како основна вистина.
Не станува збор само за вселена 📊
Кога луѓето велат барања за складирање со вештачка интелигенција , тие замислуваат терабајти или петабајти. Но, вистинскиот трик е рамнотежата: цена наспроти перформанси, флексибилност наспроти усогласеност, иновација наспроти стабилност. Податоците со вештачка интелигенција нема да се намалат наскоро. Тимовите што рано го вклучуваат складирањето во дизајнот на моделот избегнуваат давење во мочуришта со податоци - а на крајот и побрзо се обучуваат.
Референци
[1] Русаковски и др. ImageNet Large Scale Visual Recognition Challenge (IJCV) — обем и предизвик на множеството податоци. Линк
[2] AWS — Цени и трошоци на Amazon S3 (пренос на податоци, излез, нивоа на животниот циклус). Линк
[3] CISA — советување за правилата за резервна копија 3-2-1. Линк
[4] NVIDIA Docs — Преглед на складирањето GPUDirect. Линк
[5] ICO — Правила на GDPR на Велика Британија за меѓународни трансфери на податоци. Линк