Како вештачката интелигенција ќе влијае на улогата на инженерите за податоци?

Вештачката интелигенција е подготвена да ги трансформира улогите во инженерството на податоци преку автоматизирање на повторувачки задачи како што се SQL цртање и документација. Сепак, одговорностите со висок степен на одговорност, како што се дефинирање договори за податоци и управување со квалитетот на податоците, сè уште ќе бараат човечка експертиза.

Кои делови од инженерството на податоци може да ги автоматизира вештачката интелигенција?

Вештачката интелигенција е одлична во автоматизирање на задачи како што се генерирање SQL код, креирање скелиња на dbt модели и изготвување нацрти на документација. Ова им помага на инженерите поефикасно да започнуваат проекти, но човечката валидација е сè уште неопходна за да се обезбеди точност.

Дали инженерите за податоци ќе станат застарени со подемот на вештачката интелигенција?

Иако одредени задачи може да се автоматизираат, улогата на инженерите за податоци еволуира, наместо да исчезнува. Инженерите ќе се фокусираат повеќе на дизајнот на системот, одговорноста и управувањето, што ќе ги направи повредни бидејќи вештачката интелигенција помага во поедноставувањето на основните задачи.

Зошто човечкиот надзор е сè уште важен со вештачката интелигенција во инженерството на податоци?

Човечкиот надзор е клучен бидејќи инженерството на податоци честопати вклучува двосмислена деловна логика и одговорност за резултатите. Вештачката интелигенција може да помогне во изготвувањето решенија, но не може целосно да управува со сложеноста на управувањето со податоци и усогласеноста.

Кои вештини ќе бидат неопходни за инженерите за податоци како што алатките за вештачка интелигенција ќе созреваат?

Клучните вештини ќе вклучуваат дизајн на системи, инженерство за квалитет на податоци, дефинирање договори за податоци и ефикасна комуникација. Овие области се критични за обезбедување сигурност и усогласеност, бидејќи вештачката интелигенција извршува порутински задачи.

Како вештачката интелигенција може да ја подобри соработката помеѓу инженерите за податоци и другите тимови?

Вештачката интелигенција може да ги поедностави техничките резултати, дозволувајќи им на инженерите за податоци поефикасно да соработуваат со тимовите за производи, безбедност и финансии. Оваа промена им овозможува на инженерите за податоци да се фокусираат на дискутирање на стандардите за квалитет и очекувањата, а не само на кодирање.

Со какви предизвици се соочува вештачката интелигенција во инженерството на податоци?

Вештачката интелигенција се бори со справување со двосмислени дефиниции и управување со сложени односи во деловната логика. Нејзината неспособност да врши критичко размислување или да преговара за дефиниции значи дека човечките инженери остануваат неопходни.

Како треба да пристапат инженерите за податоци кон користењето на алатки за вештачка интелигенција како што е GitHub Copilot?

Инженерите за податоци треба да користат алатки за вештачка интелигенција како нацрти за да ја подобрат својата работа, а воедно да одржуваат силни конвенции за валидација и управување. Ова вклучува осигурување дека резултатите ги исполнуваат стандардите за квалитет и се усогласени со организациските политики.

Дали вештачката интелигенција ќе ги замени инженерите за податоци? [Видео и квиз]

Краток одговор: Вештачката интелигенција нема целосно да ги замени инженерите за податоци; таа ќе автоматизира повторувачка работа како што се нацртување на SQL, скеле на цевководи, тестови и документација. Ако вашата улога е претежно работа со ниска сопственост, управувана од билети, таа е поизложена; ако поседувате сигурност, дефиниции, управување и одговор на инциденти, вештачката интелигенција главно ве прави побрзи.

Клучни заклучоци:

Сопственост: Дајте приоритет на одговорноста за резултатите, а не само брзото производство на код.

Квалитет: Изградете тестови, набљудување и договори за да останат доверливи цевководите.

Управување: Чувајте ја приватноста, контролата на пристапот, задржувањето и ревизорските траги во сопственост на човекот.

Отпорност на злоупотреба: Третирајте ги излезните податоци од вештачката интелигенција како нацрти; прегледајте ги за да избегнете сигурни грешки.

Промена на улогите: Поминете помалку време пишувајќи стандардни текстови, а повеќе време дизајнирајќи издржливи системи.

Дали вештачката интелигенција ќе ги замени инженерите за податоци? Инфографик

Ако сте поминале повеќе од пет минути околу тимовите за податоци, сте го слушнале рефренот - понекогаш шепотен, понекогаш лансиран на состанок како пресврт на заплетот: Дали вештачката интелигенција ќе ги замени инженерите за податоци?

И… разбирам. Вештачката интелигенција може да генерира SQL, да гради цевководи, да објаснува траги на стек, да црта dbt модели, дури и да предлага шеми на магацини со вознемирувачка самодоверба. GitHub копилот за SQL За dbt моделите GitHub копилот
Се чувствува како да гледате виљушкар како учи да жонглира. Импресивно, малку алармантно, а не сте целосно сигурни што тоа значи за вашата работа 😅

Но вистината е помалку уредна од насловот. Вештачката интелигенција апсолутно го менува инженерството на податоци. Ги автоматизира досадните, повторувачки делови. Ги забрзува моментите „Знам што сакам, но не можам да се сетам на синтаксата“. Исто така, создава сосема нови видови хаос.

Па, да го поставиме како што треба, без оптимизам што се бранува со рацете или паника од пропаст.

Статии што можеби ќе ве интересираат по оваа:

🔗 Дали вештачката интелигенција ќе ги замени радиолозите?
Како вештачката интелигенција за снимање го менува работниот тек, точноста и идните улоги.

🔗 Дали вештачката интелигенција ќе ги замени сметководителите?
Погледнете кои сметководствени задачи ги автоматизира вештачката интелигенција, а што останува човечко.

🔗 Дали вештачката интелигенција ќе ги замени инвестициските банкери?
Разберете го влијанието на вештачката интелигенција врз зделките, истражувањата и односите со клиентите.

🔗 Дали вештачката интелигенција ќе ги замени агентите за осигурување?
Дознајте како вештачката интелигенција ги трансформира андеррајтингот, продажбата и поддршката на клиентите.

Зошто прашањето „Вештачката интелигенција ги заменува инженерите за податоци“ постојано се појавува 😬

Стравот доаѓа од многу специфично место: инженерството на податоци има многу повторувачка работа.

Пишување и рефакторирање на SQL
Градење скрипти за внесување
Мапирање на полиња од една шема во друга
Креирање тестови и основна документација
Отстранување на грешки во дефектите на цевководите кои се… некако предвидливи

Вештачката интелигенција е невообичаено добра во повторувачките шеми. А еден дел од инженерството на податоци е токму тоа - шеми наредени врз шеми. Предлози за код од GitHub Copilot.

Исто така, екосистемот на алатки веќе ја „крие“ комплексноста:

за управувани ELT конектори Fivetran
Пресметка без сервер AWS Lambda (пресметка без сервер)
Обезбедување на магацин со еден клик
Документи за автоматско скалирање на оркестрацијата на Apache Airflow
Декларативни трансформациски рамки Што е dbt?

Значи, кога ќе се појави вештачката интелигенција, може да се чувствува како последно парче. Ако стекот е веќе апстрахиран, а вештачката интелигенција може да го напише кодот за лепење… што останува? 🤷

Но, еве што луѓето прескокнуваат: инженерството на податоци не е главно пишување. Пишувањето е лесниот дел. Тешкиот дел е да се направи матната, политичка, променлива деловна реалност да се однесува како сигурен систем.

И вештачката интелигенција сè уште се бори со таа темнина. Луѓето исто така се борат - тие едноставно импровизираат подобро.

Што всушност прават инженерите за податоци по цел ден (негламурозната вистина) 🧱

Да бидеме искрени - работното место „Инженер за податоци“ звучи како да градите ракетни мотори од чиста математика. Во пракса, градите доверба.

Типичен ден е помалку „измислување нови алгоритми“ и повеќе:

Преговори со тимови од горниот сектор за дефиниции на податоци (болно, но неопходно)
Истражување зошто се променила метриката (и дали е реална)
Ракувањето со шемите што се менуваат и изненадувањата „некој додаде колона на полноќ“
Обезбедување дека цевководите се идемпотентни, обновливи, видливи
Создавање заштитни огради за аналитичарите од долната страна случајно да не градат бесмислени контролни табли
Управување со трошоци за вашиот магацин да не се претвори во оган за пари 🔥
Обезбедување на пристап, ревизија, усогласеност, политики за задржување Принципи на GDPR (Европска комисија) Ограничување на складирањето (ICO)
Создавање производи за податоци што луѓето всушност можат да ги користат без да ви праќаат директна порака - 20 прашања

Голем дел од работата е социјален и оперативен:

„Кој е сопственик на оваа маса?“
„Дали оваа дефиниција е сè уште валидна?“
„Зошто CRM извезува дупликати?“
„Можеме ли да ја испратиме оваа метрика до раководителите без срам?“ 😭

Вештачката интелигенција може да помогне со делови од ова, секако. Но, нејзината целосна замена е… претерана.

Што ја прави една верзија на улога во инженерството на податоци силна? ✅

Овој дел е важен бидејќи разговорите за замена обично претпоставуваат дека инженерите за податоци се главно „градители на цевководи“. Тоа е како да претпоставиме дека готвачите главно „сечкаат зеленчук“. Тоа е дел од работата, но не е работата.

Силна верзија на инженер за податоци обично значи дека може да ги прави повеќето од овие:

Дизајн за промени
Податоците се менуваат. Тимовите се менуваат. Алатките се менуваат. Добриот инженер гради системи кои не се уриваат секој пат кога реалноста ќе се влоши 🤧
Дефинирајте договори и очекувања
Што значи „клиент“? Што значи „активен“? Што се случува кога редот пристигнува доцна? Договорите го спречуваат хаосот повеќе од фенси кодот. Стандард за договори за отворени податоци (ODCS) ODCS (GitHub)
Вградете ја видливоста во сè.
Не само „дали се извршуваше“, туку „дали се извршуваше правилно“. Свежина, аномалии на волуменот, нулти експлозии, промени во распределбата. Набљудливост на податоците (Dynatrace) Што е видливост на податоците?
Направете компромиси како возрасен:
Брзина наспроти точност, цена наспроти латентност, флексибилност наспроти едноставност. Не постои совршен цевковод, само цевководи со кои можете да живеете.
Преведете ги деловните потреби во трајни системи.
Луѓето бараат метрики, но она што им е потребно е производ со податоци. Вештачката интелигенција може да го изготви кодот, но не може магично да ги знае деловните нагазни мини.
Чувајте ги податоците во тајност.
Најголемиот комплимент за платформата за податоци е тоа што никој не зборува за нив. Податоците без никакви настани се добри податоци. Како водовод. Ги забележувате само кога ќе откажат 🚽

Ако ги правите овие работи, прашањето „Дали вештачката интелигенција ќе ги замени инженерите за податоци?“ почнува да звучи… малку погрешно. Вештачката интелигенција може да ги замени задачите, а не сопственоста.

Каде што вештачката интелигенција веќе им помага на инженерите за податоци (и тоа е навистина одлично) 🤖✨

Вештачката интелигенција не е само маркетинг. Кога е добро употребена, таа е легитимен мултипликатор на сила.

1) Побрза SQL и трансформациска работа

Изработка на сложени спојувања
Пишување функции на прозорци за кои не би сакале да размислувате
Претворање на логиката на обичен јазик во скелети на барања
Рефакторирање на грди барања во читливи CTE-ја GitHub Copilot за SQL

Ова е огромно бидејќи го намалува ефектот на „празна страница“. Сè уште треба да валидирате, но почнувате од 70% наместо од 0%.

2) Дебагирање и трошки од леб од коренот

Вештачката интелигенција е добра во:

Објаснување на пораките за грешки
Предлог каде да се погледне
Препорачани чекори од типот „проверка на несовпаѓање на шемата“ GitHub Copilot
Тоа е како да имате неуморен помлад инженер кој никогаш не спие, а понекогаш самоуверено лаже 😅

3) Документација и збогатување на каталогот на податоци

Автоматски генерирано:

Описи на колони
Резимеа на модели
Објаснувања за лозата
„За што се користи оваа табела?“ нацртува dbt документација

Не е совршено, но го крши проклетството на недокументираните цевководи.

4) Тестирање на скеле и проверки

Вештачката интелигенција може да предложи:

Основни нулти тестови
Проверки на уникатност
Идеи за референтен интегритет
Тврдења во стилот „Оваа метрика никогаш не треба да се намалува“ тестови за податоци на dbt Големи очекувања: Очекувања

Повторно - вие сепак одлучувате што е важно, но тоа ги забрзува рутинските делови.

5) Код за „лепак“ на цевководот

Шаблони за конфигурација, YAML скелиња, оркестрациски DAG нацрти. Тоа е повторувачко, а вештачката интелигенција јаде повторувачки за појадок 🥣 Apache Airflow DAG-ови

Каде вештачката интелигенција сè уште се бори (а ова е нејзината суштина) 🧠🧩

Ова е делот што е најважен, бидејќи одговара на прашањето за замена со вистинска текстура.

1) Двосмисленост и променливи дефиниции

Деловната логика ретко е јасна. Луѓето се предомислуваат на средина од реченицата. „Активен корисник“ станува „активен корисник што плаќа“ станува „активен корисник што плаќа, освен повремено враќање на средства“... знаете како е.

Вештачката интелигенција не може да ја поседува таа двосмисленост. Може само да претпоставува.

2) Одговорност и ризик

Кога цевководот ќе се расипе и контролната табла на извршната власт покажува глупости, некој мора да:

тријажа
комуницирање на влијанието
поправете го
спречување на повторување
напишете го постморталниот извештај
да одлучи дали бизнисот сè уште може да им верува на бројките од минатата недела

Вештачката интелигенција може да помогне, но не може да биде одговорна на значаен начин. Организациите не работат според вибрации - тие работат според одговорност.

3) Системско размислување

Платформите за податоци се екосистеми: внесување податоци, складирање, трансформации, оркестрација, управување, контрола на трошоци, SLA-договори. Промена во еден слој се бранува. Концепти на Apache Airflow

Вештачката интелигенција може да предложи локални оптимизации што создаваат глобална штета. Тоа е како да поправите крцкава врата со отстранување на вратата 😬

4) Безбедност, приватност, усогласеност

Тука умираат фантазиите за замена.

Контроли за пристап
Безбедност на ниво на редови Политики за пристап до редови Snowflake Безбедност на ниво на редови BigQuery
Ракување со лични податоци (PII) NIST Privacy Framework
Правила за чување Ограничување на складирањето (ICO) Упатство на ЕУ за чување
Ревизорски траги NIST SP 800-92 (управување со логови) CIS Control 8 (Управување со логови за ревизија)
Ограничувања за задржување на податоци

Вештачката интелигенција може да изготвува политики, но нивното безбедно спроведување е вистински инженеринг.

5) „Непознатите непознати“

Инцидентите со податоци често се непредвидливи:

API-то на добавувачот тивко ја менува семантиката
Претпоставката за временската зона се менува
Пополнувањето ја дуплира партицијата
Механизмот за повторен обид предизвикува двојно пишување
Новата карактеристика на производот воведува нови шеми на настани

Вештачката интелигенција е послаба кога ситуацијата не е познат шаблон.

Табела за споредба: што што намалува, во пракса 🧾🤔

Подолу е даден практичен поглед. Не „алатки што ги заменуваат луѓето“, туку алатки и пристапи што ги намалуваат одредени задачи.

Алатка / пристап	Публика	Ценовниот амбиент	Зошто функционира
Копилоти за вештачка интелигенција (помошници за SQL + Python) GitHub копилот	Инженери кои пишуваат многу код	Од бесплатен до платен	Одлично во скелеирање, рефакторирање, синтакса… понекогаш самодоволно на многу специфичен начин
Управувани ELT конектори Fivetran	Тимовите се уморни од градење на ингестијата	Претплата-y	Ги отстранува болките при прилагодено голтање, но се распаѓаат на забавни нови начини
Платформи за набљудување на податоци Набљудување на податоци (Dynatrace)	Секој што поседува SLA-и е сопственик на SLA-и	Средно до претпријатие	Рано ги открива аномалиите - како аларми за чад за цевководи 🔔
Рамки за трансформација (декларативно моделирање) dbt	Аналитика + DE хибриди	Обично алатка + пресметување	Ја прави логиката модуларна и тестирана, помалку шпагети
Каталози на податоци + семантички слоеви dbt Семантички слој	Организации со метричка конфузија	Зависи, во пракса	Го дефинира „вистината“ еднаш - ги намалува бескрајните метрички дебати
Оркестрација со шаблони Apache Airflow	Тимови ориентирани кон платформа	Цена на отворени операции	Стандардизира работни процеси; помалку DAG-ови со снежни зраци
Генерирање на dbt документи со помош на вештачка интелигенција	Тимови кои мразат да пишуваат документи	Евтино до умерено	Прави „доволно добри“ документи за да не исчезне знаењето
Политики за автоматизирано управување NIST Privacy Framework	Регулирани средини	Претпријатие-y	Помага во спроведувањето на правилата - но сепак се потребни луѓе за да ги дизајнираат правилата

Забележете што недостасува: ред на кој пишува „притиснете го копчето за да ги отстраните инженерите за податоци“. Да… тој ред не постои 🙃

Значи… дали вештачката интелигенција ќе ги замени инженерите за податоци или само ќе ја промени улогата? 🛠️

Еве го недраматичниот одговор: вештачката интелигенција ќе замени делови од работниот процес, а не професијата.

Но, тоа ќе ја реконфигурира улогата. И ако го игнорирате тоа, ќе почувствувате притисок.

Што се менува:

Помалку време за пишување стандардни текстови
Помалку време за пребарување документи
Повеќе време за преглед, валидација, дизајнирање
Повеќе време за дефинирање на договорите и очекувањата за квалитет Стандард за договори за отворени податоци (ODCS)
Повеќе време за партнерство со производи, безбедност, финансии

Ова е суптилната промена: инженерството на податоци станува помалку за „градење цевководи“ а повеќе за „градење сигурен систем на производи за податоци“

И во тивок пресврт, тоа е повредно, а не помалку.

Исто така - и ќе го кажам ова дури и ако звучи драматично - вештачката интелигенција го зголемува бројот на луѓе кои можат да создадат артефакти од податоци, што ја зголемува потребата некој да ја одржува целата работа здраво за готово. Повеќе излез значи поголема потенцијална конфузија. GitHub копилот

Тоа е како да им дадете на сите дупчалка. Одлично! Сега некој треба да го спроведе правилото „ве молам не дупчете во водоводната цевка“ 🪠

Новиот стек на вештини што останува вреден (дури и со вештачка интелигенција насекаде) 🧠⚙️

Ако сакате практична листа за проверка „откриена за иднината“, таа изгледа вака:

Размислување за дизајн на систем

Моделирање на податоци што преживува промени
Компромиси помеѓу групно и стриминг
Латентност, цена, размислување за сигурност

Инженерство за квалитет на податоци

Договори, валидации, откривање на аномалии Стандард за договори за отворени податоци (ODCS) Набљудливост на податоци (Dynatrace)
SLA, SLO, навики за реагирање на инциденти
Анализа на основната причина со дисциплина (не со вибрации)

Управување и архитектура на доверба

Модели за пристап
Редитливост NIST SP 800-92 (управување со логови)
Приватност по дизајн NIST рамка за приватност
Управување со животниот циклус на податоци Упатство на ЕУ за задржување

Платформско размислување

Шаблони за повеќекратна употреба, златни патеки
Стандардизирани шеми за внесување, трансформации, тестирање на Fivetran dbt тестови на податоци
Алатки за самостојно користење кои не се топат

Комуникација (да, навистина)

Пишување јасни документи
Усогласување на дефинициите
Кажување „не“ учтиво, но цврсто
Објаснување на компромисите без да звучам како робот 🤖

Ако можете да ги направите овие работи, прашањето „Дали вештачката интелигенција ќе ги замени инженерите за податоци?“ станува помалку заканувачко. Вештачката интелигенција станува ваш егзоскелет, а не ваша замена.

Реални сценарија каде што некои улоги во инженерството на податоци се намалуваат 📉

Во ред, брза проверка на реалноста, бидејќи не е сè само сончево време и емоџи конфети 🎉

Некои улоги се повеќе изложени:

Чисти улоги само за ингестија каде што сè е стандардни конектори Fivetran конектори
Тимови кои работат претежно со повторувачки процеси на известување со минимални нијанси на доменот
Организации каде што инженерството на податоци се третира како „SQL мајмуни“ (сурово, но вистинито)
Улоги со ниска сопственост каде што работата е само билети и копирање-лепење

Вештачката интелигенција плус управуваното алатирање можат да ги намалат тие потреби.

Но, дури и таму, замената обично изгледа вака:

Помалку луѓе ја работат истата повторувачка работа
Поголем акцент на сопственоста и сигурноста на платформата
Промена кон „едно лице може да поддржува повеќе цевководи“

Значи да - шемите на бројот на вработени можат да се променат. Улогите еволуираат. Титулите се менуваат. Тој дел е реален.

Сепак, верзијата на улогата со висока одговорност и доверба останува.

Заклучок 🧾✅

Дали вештачката интелигенција ќе ги замени инженерите за податоци? Не на чистиот, целосен начин на кој луѓето го замислуваат.

Вештачката интелигенција ќе:

автоматизирајте повторувачки задачи
забрзување на кодирањето, дебагирањето и документацијата GitHub Copilot за SQL dbt документација
намалување на трошоците за производство на цевководи

Но, инженерството на податоци е фундаментално за:

одговорност
дизајн на системот
доверба, квалитет и управување Стандард за договори за отворени податоци (ODCS) NIST рамка за приватност
преведување на мрачната деловна реалност во сигурни производи за податоци

Вештачката интелигенција може да помогне со тоа… но не го „поседува“.

Ако сте инженер за податоци, преселбата е едноставна (не лесна, но едноставна):
потпрете се на сопственост, квалитет, платформско размислување и комуникација. Дозволете вештачката интелигенција да се справи со стандардните работи, додека вие се справувате со важните делови.

И да - понекогаш тоа значи да се биде возрасниот во собата. Не е гламурозно. Сепак, тивко моќно 😄

Дали вештачката интелигенција ќе ги замени инженерите за податоци?
Ќе замени некои задачи, ќе ја прераспредели скалата на вработени и ќе ги направи најдобрите инженери за податоци уште повредни. Тоа е вистинската приказна.

Пример од реалниот свет: Градење работен тек за преглед на цевковод за податоци со помош на вештачка интелигенција 🛠️

Сценарио

Замислете мала компанија за е-трговија со еден инженер за податоци, двајца аналитичари и многу познат проблем: финансиската контролна табла постојано се расипува секогаш кога давателот на услуги за плаќања го менува името на полето.

Тимот не сака вештачката интелигенција да го „поседува“ цевководот. Тоа би било ризично. Наместо тоа, тие ја користат вештачката интелигенција како прв асистент во нацрт-верзијата за рутинска, но важна работа: пишување скелети на dbt модели, предлагање тестови, изготвување документација и креирање листа за проверка за преглед на кодот.

Инженерот за човечки податоци сè уште го поседува конечниот дизајн, дефинициите на податоците, правилата за пристап и распоредувањето во производството. Вештачката интелигенција едноставно го забрзува сложениот среден дел.

Што е потребно за работниот тек

Пред да користи вештачка интелигенција, тимот ѝ дава доволно контекст за да биде корисна:

Постоечката шема на табелата за плаќања
Дефинициите за целните финансиски метрики, како што се „нето приход“, „износ на поврат“ и „намирено плаќање“
Конвенции за именување за dbt модели
Примери за одобрени тестови
Краток договор за податоци за каналот за плаќања
Правила за ракување со лични податоци, неуспешни плаќања, дупликати и доцнење со пристигнување на записи
Пример од минати инциденти, вклучувајќи што тргнало наопаку и како било поправено

Клучот не е „да се побара од вештачката интелигенција да изгради цевковод“. Тоа е премногу нејасно.

Посилниот пристап е: „Еве ги нашите правила, еве ја шемата, еве го очекуваното однесување. Нацртајте нешто што можеме да го разгледаме.“

Пример за упатство

Вие помагате во изготвувањето на dbt модел за нашите податоци за плаќања. Користете ја шемата и правилата подолу за да креирате модел од прв премин, предложени dbt тестови и документациски белешки.

Моделот мора да пресметува дневен намирен приход според order_id и payment_provider. Исклучете ги неуспешните плаќања, исклучете ги тест трансакциите и одземете ги повратните средства само кога refund_status = „потврдено“.

Не измислувајте колони. Ако недостасува задолжителна колона, наведете ја под „Прашања за човечки преглед“ наместо да нагаѓате.

Исто така, предложете тестови за уникатност, нулти вредности, прифатени вредности и разумност на приходите. Означете ја секоја логика што би можела да влијае на финансиското известување.

Како да го тестирате

Разумниот тест е мал и намерно обичен:

Дајте му на вештачката интелигенција една позната и добра шема за плаќање и проверете дали избегнува измислување полиња.
Дајте му една шема со недостасувачка колона refund_status и видете дали поставува прашање наместо да нагаѓа.
Извршете го генерираниот SQL на сет на податоци за поставување во фаза, а не на продукција.
Споредете го резултатот со 20 рачно проверени записи за плаќање.
Побарајте од аналитичар и инженер за податоци да ги разгледаат дефинициите пред спојувањето.
Додадете ги прифатените тестови во CI, така што цевководот ќе продолжи да се проверува по распоредувањето.

Важно е да се тестира вештачката интелигенција на начините на неуспех од кои најмногу се плашите: измислени колони, погрешна логика на приходите, недостаток на обработка на поврат на средствата и тивки дупликати редови.

Резултат

Илустративен резултат: врз основа на тајминг на три примерочни задачи за промена на цевководот пред и по користењето на овој работен тек.

Пред да користи вештачка интелигенција, инженерот поминувал околу 5 часа и 30 минути по промена: приближно 2 часа пишувајќи SQL, 1 час креирајќи тестови, 45 минути пишувајќи документи, а остатокот проверувајќи ги најсовремените случаи со финансии.

Со оглед на тоа што вештачката интелигенција се користеше само за првите нацрти, истиот тип на промена траеше околу 2 часа и 10 минути. Најголемата заштеда дојде од тестирањето и нацртите на документацијата, кои се намалија од 1 час и 45 минути на околу 25 минути.

Чекорот на човечки преглед сепак траеше околу 45 минути и не треба да се отстрани.

Во тестот со три задачи, вештачката интелигенција предложи 18 проверки. Инженерот прифати 11, измени 5 и отфрли 2 бидејќи претпостави деловни правила кои не се вистинити. Тој број на одбивања е важен: докажува дека работниот тек треба да се прегледа, а не да има слепа доверба.

Што може да тргне наопаку

Вештачката интелигенција може да направи еден цевковод да изгледа покомплетен отколку што е.

Вообичаени точки на дефект вклучуваат:

Измислување колумни што звучат веродостојно
Третирање на поврат на средства, вратени средства и неуспешни плаќања како иста работа
Проблеми со временските зони што недостасуваат во дневните приходи
Предлагање на генерички тестови кои не ги откриваат финансиските грешки
Пишување документација што звучи самоуверено, но крие несигурност
Заборавање на правилата за приватност кога примероците на податоци содржат детали за клиентот

Добро правило: вештачката интелигенција може да го нацрта моделот, но човекот мора да ги потпише дефинициите, логиката на парите, контролата на пристап и објавувањето во продукција.

Практичен оброк за носење

Вредната верзија на вештачката интелигенција во инженерството на податоци не е „замена на инженерот за податоци“. Тоа е „отстранете ја празната страница, а потоа внимателно разгледајте“.

Тоа значи побрз SQL, побрзи тестови и подобра документација од прв пат, додека инженерот сè уште го поседува најважниот дел: дали податоците се точни, доверливи, безбедни и објаснети.

Најчесто поставувани прашања

Дали вештачката интелигенција ќе ги замени целосно инженерите за податоци?

Во повеќето организации, вештачката интелигенција е поверојатно да преземе специфични задачи отколку целосно да ја избрише улогата. Може да го забрза нацртот на SQL, скелето на цевководот, првите поминувања на документацијата и основното креирање тестови. Но, инженерството на податоци исто така носи сопственост и одговорност, плус негламурозната работа на правење хаотичната деловна реалност да се однесува како сигурен систем. На тие делови сè уште им се потребни луѓе за да одлучат како изгледа „правилно“ и да преземат одговорност кога работите ќе се расипат.

Кои делови од инженерството на податоци веќе ги автоматизира вештачката интелигенција?

Вештачката интелигенција најдобро функционира на повторувачка работа: цртање и рефакторирање на SQL, генерирање скелети на модели на dbt, објаснување на вообичаени грешки и креирање скици на документација. Исто така, може да користи тестови како што се проверки на нула или уникатност и да генерира код за „лепење“ на шаблонот за алатки за оркестрација. Победата е моментумот - почнувате поблиску до функционално решение - но сепак треба да ја потврдите точноста и да се осигурате дека одговара на вашата околина.

Ако вештачката интелигенција може да пишува SQL и цевководи, што им останува на инженерите за податоци?

Многу: дефинирање договори за податоци, справување со шемски отстапувања и обезбедување дека цевководите се идемпотентни, видливи и обновливи. Инженерите за податоци поминуваат време истражувајќи метрички промени, градејќи заштитни огради за корисниците понатамошни процеси и управувајќи со компромисите помеѓу трошоците и сигурноста. Работата често се сведува на градење доверба и одржување на платформата за податоци „тивка“, што значи доволно стабилна за никој да не мора да размислува за тоа секој ден.

Како вештачката интелигенција ја менува секојдневната работа на еден инженер за податоци?

Обично ги намалува стандардните текстури и „времето за пребарување“, така што поминувате помалку време во пишување, а повеќе време во прегледување, валидација и дизајнирање. Тоа поместување ја насочува улогата кон дефинирање на очекувањата, стандардите за квалитет и шемите за повеќекратна употреба, наместо рачно кодирање на сè. Во пракса, веројатно ќе работите повеќе во партнерство со производи, безбедност и финансии - бидејќи техничкиот резултат станува полесен за креирање, но потежок за управување.

Зошто вештачката интелигенција се мачи со двосмислени деловни дефиниции како „активен корисник“?

Бидејќи деловната логика не е статична или прецизна - таа се менува во средината на проектот и варира во зависност од засегнатите страни. Вештачката интелигенција може да изготви толкување, но не може да ја преземе одлуката кога дефинициите еволуираат или се појавуваат конфликти. Инженерството на податоци често бара преговори, документирање на претпоставки и претворање на нејасните барања во трајни договори. Таа работа со „човечко усогласување“ е основна причина зошто улогата не исчезнува дури и кога се подобруваат алатките.

Може ли вештачката интелигенција безбедно да се справи со управувањето со податоци, приватноста и усогласеноста?

Вештачката интелигенција може да помогне во изготвувањето политики или да предложи пристапи, но безбедното спроведување сè уште бара вистински инженеринг и внимателен надзор. Управувањето вклучува контрола на пристап, ракување со лични податоци, правила за задржување, ревизорски траги, а понекогаш и ограничувања за живеалиште. Ова се области со висок ризик каде што „речиси точно“ не е прифатливо. Луѓето мора да ги дизајнираат правилата, да ја потврдат имплементацијата и да останат одговорни за резултатите од усогласеноста.

Кои вештини остануваат вредни за инженерите за податоци како што се подобрува вештачката интелигенција?

Вештини што ги прават системите отпорни: размислување за дизајн на системи, инженерство за квалитет на податоци и стандардизација ориентирана кон платформа. Договорите, видливоста, навиките за одговор на инциденти и дисциплинираната анализа на основните причини стануваат уште поважни кога повеќе луѓе можат брзо да генерираат артефакти од податоци. Комуникацијата, исто така, станува диференцијатор - усогласувањето на дефинициите, пишувањето јасни документи и објаснувањето на компромисите без драма е голем дел од одржувањето на доверливоста на податоците.

Кои улоги во инженерството на податоци се најмногу изложени на ризик од вештачката интелигенција и управуваните алатки?

Улогите фокусирани тесно на повторувачко внесување или стандардни канали за известување се поизложени, особено кога управуваните ELT конектори ги покриваат повеќето извори. Работата со ниска одговорност и тикети може да се намали бидејќи вештачката интелигенција и апстракцијата го намалуваат напорот по канал. Но, ова обично изгледа како помалку луѓе да извршуваат повторувачки задачи, а не „без инженери за податоци“. Улогите со висока одговорност центрирани на сигурност, квалитет и доверба остануваат трајни.

Како треба да користам алатки како GitHub Copilot или dbt со вештачка интелигенција без да создадам хаос?

Третирајте го излезниот резултат од вештачката интелигенција како нацрт, а не како одлука. Користете го за генерирање скелети на барања, подобрување на читливоста или поврзување на dbt тестови и документи, а потоа валидирајте го во однос на реални податоци и рабни случаи. Спојте го со силни конвенции: договори, стандарди за именување, проверки на набљудување и практики за преглед. Целта е побрза испорака без жртвување на сигурноста, контролата на трошоците или управувањето.

Референци

Европска комисија - Објаснување на заштитата на податоците: Принципи на GDPR - commission.europa.eu
Канцеларија на комесарот за информации (ICO) - Ограничување на складирањето - ico.org.uk
Европска комисија - Колку долго можат да се чуваат податоците и дали е потребно да се ажурираат? - commission.europa.eu
Национален институт за стандарди и технологија (NIST) - Рамка за приватност - nist.gov
Центар за ресурси за компјутерска безбедност на NIST (CSRC) - SP 800-92: Водич за управување со логови за компјутерска безбедност - csrc.nist.gov
Центар за интернет безбедност (CIS) - Управување со дневници за ревизии (CIS контроли) - cisecurity.org
Документација за Snowflake - Политики за пристап до редови - docs.snowflake.com
Документација за Google Cloud - Безбедност на ниво на редови на BigQuery - docs.cloud.google.com
БИТОЛ - Стандард за договори за отворени податоци (ODCS) v3.1.0 - bitol-io.github.io
БИТОЛ (GitHub) - Стандард за договори за отворени податоци - github.com
Apache Airflow - Документација (стабилна) - airflow.apache.org
Apache Airflow - DAG (основни концепти) - airflow.apache.org
Документација за dbt Labs - Што е dbt? - docs.getdbt.com
Документација за dbt Labs - За dbt моделите - docs.getdbt.com
Документација за dbt Labs - Документација - docs.getdbt.com
Документација за dbt Labs - Тестови на податоци - docs.getdbt.com
Документација за dbt Labs - dbt семантички слој - docs.getdbt.com
Документација за Fivetran - Започнување - fivetran.com
Fivetran - Конектори - fivetran.com
AWS документација - Водич за програмери на AWS Lambda - docs.aws.amazon.com
GitHub - GitHub копилот - github.com
Документација за GitHub - Добивање предлози за код во вашиот IDE со GitHub Copilot - docs.github.com
Microsoft Learn - GitHub копилот за SQL (проширување на VS Code) - learn.microsoft.com
Документација за Dynatrace - Набљудување на податоци - docs.dynatrace.com
DataGalaxy - Што е набљудување на податоци? - datagalaxy.com
Документација за „Големи очекувања“ - Преглед на очекувањата - docs.greatexpectations.io

Пронајдете ја најновата вештачка интелигенција во официјалната продавница за асистенти за вештачка интелигенција

За нас

Назад кон блогот

Дополнителни често поставувани прашања

Како вештачката интелигенција ќе влијае на улогата на инженерите за податоци?

Вештачката интелигенција е подготвена да ги трансформира улогите во инженерството на податоци преку автоматизирање на повторувачки задачи како што се SQL цртање и документација. Сепак, одговорностите со висок степен на одговорност, како што се дефинирање договори за податоци и управување со квалитетот на податоците, сè уште ќе бараат човечка експертиза.
Кои делови од инженерството на податоци може да ги автоматизира вештачката интелигенција?

Вештачката интелигенција е одлична во автоматизирање на задачи како што се генерирање SQL код, креирање скелиња на dbt модели и изготвување нацрти на документација. Ова им помага на инженерите поефикасно да започнуваат проекти, но човечката валидација е сè уште неопходна за да се обезбеди точност.
Дали инженерите за податоци ќе станат застарени со подемот на вештачката интелигенција?

Иако одредени задачи може да се автоматизираат, улогата на инженерите за податоци еволуира, наместо да исчезнува. Инженерите ќе се фокусираат повеќе на дизајнот на системот, одговорноста и управувањето, што ќе ги направи повредни бидејќи вештачката интелигенција помага во поедноставувањето на основните задачи.
Зошто човечкиот надзор е сè уште важен со вештачката интелигенција во инженерството на податоци?

Човечкиот надзор е клучен бидејќи инженерството на податоци честопати вклучува двосмислена деловна логика и одговорност за резултатите. Вештачката интелигенција може да помогне во изготвувањето решенија, но не може целосно да управува со сложеноста на управувањето со податоци и усогласеноста.
Кои вештини ќе бидат неопходни за инженерите за податоци како што алатките за вештачка интелигенција ќе созреваат?

Клучните вештини ќе вклучуваат дизајн на системи, инженерство за квалитет на податоци, дефинирање договори за податоци и ефикасна комуникација. Овие области се критични за обезбедување сигурност и усогласеност, бидејќи вештачката интелигенција извршува порутински задачи.
Како вештачката интелигенција може да ја подобри соработката помеѓу инженерите за податоци и другите тимови?

Вештачката интелигенција може да ги поедностави техничките резултати, дозволувајќи им на инженерите за податоци поефикасно да соработуваат со тимовите за производи, безбедност и финансии. Оваа промена им овозможува на инженерите за податоци да се фокусираат на дискутирање на стандардите за квалитет и очекувањата, а не само на кодирање.
Со какви предизвици се соочува вештачката интелигенција во инженерството на податоци?

Вештачката интелигенција се бори со справување со двосмислени дефиниции и управување со сложени односи во деловната логика. Нејзината неспособност да врши критичко размислување или да преговара за дефиниции значи дека човечките инженери остануваат неопходни.
Како треба да пристапат инженерите за податоци кон користењето на алатки за вештачка интелигенција како што е GitHub Copilot?

Инженерите за податоци треба да користат алатки за вештачка интелигенција како нацрти за да ја подобрат својата работа, а воедно да одржуваат силни конвенции за валидација и управување. Ова вклучува осигурување дека резултатите ги исполнуваат стандардите за квалитет и се усогласени со организациските политики.