Кога повеќето луѓе ќе го слушнат зборот „вештачка интелигенција“, тие си замислуваат невронски мрежи, фенси алгоритми или можеби оние малку мистериозни хуманоидни роботи. Она што ретко се споменува директно е следново: вештачката интелигенција го троши просторот за складирање речиси исто толку ненаситно колку што пресметува . И не било кој објект за складирање стои тивко во позадина, извршувајќи ја негламурозната, но апсолутно суштинска работа на хранење на моделите со податоците што им се потребни.
Да разгледаме што го прави складирањето на објекти толку клучно за вештачката интелигенција, како се разликува од „старата гарда“ на системи за складирање и зошто на крајот станува една од клучните лостови за скалабилност и перформанси.
Статии што можеби ќе ве интересираат по оваа:
🔗 Кои технологии мора да бидат воспоставени за да се користи генеративна вештачка интелигенција на големи размери за бизнисот
Клучните технологии што им се потребни на бизнисите за ефикасно скалирање на генеративната вештачка интелигенција.
🔗 Управување со податоци за алатки за вештачка интелигенција што треба да ги разгледате
Најдобри практики за ракување со податоци за оптимизирање на перформансите на вештачката интелигенција.
🔗 Импликации од вештачката интелигенција за деловната стратегија
Како вештачката интелигенција влијае врз деловните стратегии и долгорочното донесување одлуки.
Што го прави складирањето на објекти функционално за вештачката интелигенција? 🌟
Главната идеја: складирањето на објекти не се замара со папки или ригидни распореди на блокови. Ги дели податоците на „објекти“, секој означен со метаподатоци. Тие метаподатоци можат да бидат работи на системско ниво (големина, временски ознаки, класа на складирање) и кориснички дефинирани ознаки key:value [1]. Замислете го како секоја датотека што носи куп лепливи белешки што ви кажуваат точно што е, како е креирана и каде се вклопува во вашиот процес на обработка.
За тимовите со вештачка интелигенција, таа флексибилност е пресвртница:
-
Скалирање без проблеми - Езерата со податоци се протегаат во петабајти, а складиштата на објекти се справуваат со нив со леснотија. Тие се дизајнирани за речиси неограничен раст и издржливост на повеќе AZ (Amazon S3 се фали со „11 деветки“ и репликација во повеќе зони по дифолт) [2].
-
Богатство на метаподатоци - Побрзи пребарувања, почисти филтри и попаметни канали бидејќи контекстот се менува со секој објект [1].
-
Cloud-native - Податоците пристигнуваат преку HTTP(S), што значи дека можете да ги паралелизирате повлекувањата и да го одржувате дистрибуираното зуење на обуката.
-
Вградена отпорност - Кога тренирате со денови, не можете да ризикувате епоха 12 со уништување на оштетени шардови. Складирањето на објекти го избегнува тоа по својата природа [2].
Всушност, тоа е ранец без дно: можеби е неуреден внатре, но сè е сепак можно да се најде кога ќе посегнете по него.
Брза споредбена табела за складирање објекти со вештачка интелигенција 🗂️
Алатка / Сервис | Најдобро за (публика) | Ценовен опсег | Зошто функционира (белешки на маргините) |
---|---|---|---|
Амазон S3 | Претпријатија + тимови кои се фокусираат на облакот | Плаќање по употреба | Исклучително издржлив, регионално отпорен [2] |
Складирање во облак на Google | Научници за податоци и развивачи на машинско учење | Флексибилни нивоа | Силни ML интеграции, целосно cloud-native |
Azure Blob складирање | Продавници со големи продажби на „Мајкрософт“ | Скалесто (топло/ладно) | Беспрекорно со алатките за податоци + ML на Azure |
МиниО | Поставки со отворен код / „Направи сам“ | Бесплатно/самостојно домаќинство | Компатибилен со S3, лесен, распоредлив насекаде 🚀 |
Васаби Жежок Облак | Организации чувствителни на трошоци | Фиксна ниска стапка $ | Без такси за излез или барање за API (според полисата) [3] |
IBM Облачно складирање на објекти | Големи претпријатија | Варира | Зрел стек со силни опции за безбедност на претпријатијата |
Секогаш проверувајте ги цените во однос на вашата потрошувачка во реалниот свет - особено излезот, обемот на барања и мешавината на класа на складирање.
Зошто обуката за вештачка интелигенција го сака складирањето објекти 🧠
Обуката не е „неколку датотеки“. Тоа се милиони и милиони записи разбиени паралелно. Хиерархиските датотечни системи се поклопуваат под силна конкурентност. Складирањето на објекти го заобиколува тоа со рамни именски простори и чисти API-ја. Секој објект има уникатен клуч; работниците се распоредуваат и преземаат паралелно. Разделени множества податоци + паралелни влезно-излезни процесори = графичките процесори остануваат зафатени наместо да чекаат наоколу.
Совет од почетниците: чувајте ги „hot shards“ во близина на кластерот за пресметки (ист регион или зона) и кеширајте агресивно на SSD. Ако ви требаат речиси директни доводи во графичките процесори, NVIDIA GPUDirect Storage - ги намалува баферите за отскокнување на процесорот, ја намалува латенцијата и го зголемува пропусниот опсег директно на акцелераторите [4].
Метаподатоци: Потценетата супермоќ 🪄
Еве каде складирањето објекти блеснува на помалку очигледни начини. При прикачувањето, можете да прикачите прилагодени метаподатоци (како x-amz-meta-…
за S3). На пример, збир на податоци за визија може да ги означи сликите со lighting=low
или blur=high
. Тоа им овозможува на цевководите да филтрираат, балансираат или стратификуваат без повторно скенирање на сурови датотеки [1].
А потоа тука е и версионирањето . Многу складишта на објекти чуваат повеќе верзии на објектот една до друга - совршено за репродуктивни експерименти или политики за управување на кои им се потребни поништувања [5].
Објект наспроти Блок наспроти Складирање на датотеки ⚔️
-
Складирање на блокови : Одлично за трансакциски бази на податоци - брзо и прецизно - но премногу скапо за неструктурирани податоци со петабајтска големина.
-
Складирање на датотеки : Познато, пријателско за POSIX, но директориумите се задушуваат под масивни паралелни оптоварувања.
-
Складирање објекти : Дизајнирано од темел за скалирање, паралелизам и пристап управуван од метаподатоци [1].
Ако сакате несмасна метафора: складирањето на блокови е кабинет за поднесување, складирањето датотеки е папка на работната површина, а складирањето на објекти е… јама без дно со лепливи белешки што некако го прават употребливо.
Хибридни работни процеси со вештачка интелигенција 🔀
Не е секогаш само во облак. Вообичаена комбинација изгледа вака:
-
Складирање на објекти на лице место (MinIO, Dell ECS) за чувствителни или регулирани податоци.
-
Складирање објекти во облак за рафални работни оптоварувања, експерименти или соработка.
Оваа рамнотежа влијае на трошоците, усогласеноста и агилноста. Видов тимови како буквално фрлаат терабајти преку ноќ во S3 кофа само за да го запалат привремениот GPU кластер - а потоа да го активираат сето тоа кога ќе заврши спринтот. За потесни буџети, моделот со фиксна стапка/без излез на Wasabi [3] го олеснува предвидувањето.
Делот со кој никој не се фали 😅
Проверка на реалноста: не е беспрекорно.
-
Латентност - Ставете ги компјутерските и складишните уреди премногу оддалечени еден од друг и вашите графички процесори ќе „лазат“. GDS помага, но архитектурата сè уште е важна [4].
-
Трошочни изненадувања - Трошоците за излез и барања за API се прикрадуваат кај луѓето. Некои провајдери ги откажуваат (Wasabi го прави тоа; други не) [3].
-
Хаос во метаподатоци на големо - Кој ја дефинира „вистината“ во ознаките и верзиите? Ќе ви бидат потребни договори, политики и одредена моќ на управување [5].
Складирањето предмети е инфраструктурно водоводџиство: клучно, но не и гламурозно.
Каде се упатува 🚀
-
Попаметно складирање, свесно за вештачката интелигенција, кое автоматски означува и изложува податоци преку слоеви слични на SQL за барања [1].
-
Поблиска интеграција на хардверот (DMA патеки, растоварување на NIC) за да не се лишат од I/O графичките процесори [4].
-
Транспарентно, предвидливо одредување цени (поедноставени модели, ослободени од надоместоци за излез) [3].
Луѓето зборуваат за компјутерската технологија како за иднината на вештачката интелигенција. Но, реално? Тесното грло е исто толку во брзото внесување податоци во моделите без да се преоптовари буџетот . Затоа улогата на складирањето објекти само расте.
Заклучок 📝
Складирањето објекти не е впечатливо, но е фундаментално. Без скалабилно, метаподатоци-свесно и отпорно складирање, тренирањето големи модели се чувствува како трчање маратон во сандали.
Значи да - графичките процесори се важни, рамките се важни. Но, ако сериозно се занимавате со вештачката интелигенција, не игнорирајте каде се наоѓаат вашите податоци . Веројатно е дека складирањето на објекти веќе тивко ја одржува целата операција.
Референци
[1] AWS S3 – Метаподатоци за објекти - системски и прилагодени метаподатоци
https://docs.aws.amazon.com/AmazonS3/latest/userguide/UsingMetadata.html
[2] AWS S3 – Класи на складирање - издржливост („11 деветки“) + отпорност
https://aws.amazon.com/s3/storage-classes/
[3] Wasabi Hot Cloud – Цени - фиксна цена, без такси за излез/API
https://wasabi.com/pricing
[4] NVIDIA GPUDirect Storage – Документација - DMA патеки до графичките процесори
https://docs.nvidia.com/gpudirect-storage/
[5] AWS S3 – Верзионирање - повеќе верзии за управување/репродуктивност
https://docs.aws.amazon.com/AmazonS3/latest/userguide/Versioning.html