הכלי Rivery קונספט ותכונות:

מאמר זה נכתב ע"י שטינברג איתמר – מנכ"ל Inflow – מומחה Rivery וכן ELT,ETL,BI בכלים מגוונים

הכלי Rivery הינו מוצר SAAS – תוכנה כשירות שמטרתו להוות כלי ELT. (Extract Load Transform) – יישום בעזרת מומחה Rivery – ELT

לצפייה בסרטון מהו Rivery – כלי ELT:  Play Video

הכלי Rivery מאפשר לבצע פעולות EL ממקורות רבים וכן להעתיק את הנתונים אל היעד במגוון שיטות שיפורטו בהמשך.
הייחוד של הכלי הוא שניתן לבצע באמצעותו גם את ה T הטרנספורמציות.
זאת ע"י כתיבת שאילתות SQL שרצון בתורן על מחסן הנתונים ישירות.
כמו כן פעולת ה T מאפשרת גם שימוש במשתנים, לולאות, API ובכך מיוצר Workflow / Pipeline
מבלי שיש צורך להפעיל כלי אחר כגון DBT
אשרנפוץ מאוד ככלי לביצוע T לאחר ה EL  בכלים המתחרים כגון: fivetran ו airbyte

למאמר והרצאה על הכלי DBT data build tool לחץ כאן

בשנים האחרונות ישנה מגמה של מעבר משימוש במחסני נתונים Data warehouse בשרתים מקומיים
אל הענן.
כחלק מהמגמה פותחו כלי מחסני נתונים (DWH) שגם הם SAAS
חלק מהאקו סיסטם של ספקי הענן כגון: אמזון AWS, GCP (הענן של גוגל) ו Azure.
מחסני נתונים כגון:Redshift (AWS), BigQuery(google)
בנוסף נוצרו בסיסי נתונים שניתן לרכוש כ SAAS וניתן לבחור באיזו סביבה של ספק ענן נרצה ליישמם כגון:
Snowflake ,Exasol  ואחרים

כיוון שמחסני הנתונים הנ"ל הינם בעלי משאבים רבים וניתן לרכוש עוד משאבי זיכרון, Nodes, CPU
ובסיסם הינם אופטימליים לביצוע תחקור.
המגמה היא שאת ה Heavy lifting – את הטרספורמציות של חיבור נתונים שונים, מיון, חישובים והעברה למבנה אנליטי
נעדיף לבצע במחסן הנתונים מכאן שהעדפה למשתמשי מחסני נתונים אלו היא לבצע ELT ולא ETL.

למאמר והרצאה בנושא ETL vs ELT לחץ כאן.

כיוון שכך, החלק של העתקת המידע אל היעד הוא יחסית גנרי וניתן למחשבו בקלות יחסית.
על כן נוצרו כלי SAAS שמאפשרים העתקת מידע באופן קל ונוח כאשר התשלום מבוסס צריכה בפועל,
כל כלי ושיטת החישוב שלו. כחלק מאותה מגמה נוצר ריברי Rivery.

אז בוא נסקור את התכונות של ריברי ( Rivery ) :

מקורות: Connections

הכלי ריברי (  Rivery ) מגיע עם 180 ויותר חיבורים למקורות מידע, החל מבסיסי נתונים רלציוניים
כגון: MySQL, Postgres, Oracle, SQL server   ואחרים, דרך אפליקציות שונות כגון: CRM, תשלומים, מודעותSocial  ועד קבצים, מחסני נתונים (S3, drive…) , ‏e commerce,  , אפליקציות לשליחת אימייל, בסיסי נתונים לא רלציונים ועוד.

יעדים: Targets

הכלי ריברי ( Rivery ) מאפשר Load העתקת מידע אל מגוון יעדים
כגון: ‏snowflake, Redshift, ‏big query, S3, Databricks ועוד. עם הזמן נוספים עוד ועוד.

ריברז: ‏Rivers

זוהי אבן הבניין המרכזית בכלי ריברי ( Rivery ) היא זו המחברת בין המקור ליעד
כאשר אנו יכולים לבחור מספר שיטות להעתקה ליעד.

השיטות הן:

דריסה: overwrite – מחיקת הטבלה ביעד ויצירתה תוך כדי העתקת הנתונים מחדש

‏אינקרמנטל: incremental – הבאת נתונים תוך כדי עדכונם של רשומות קיימות והוספת חדשות בהתאם למפתח ושדה מוביל ל ‏increment.
אופציה זו מתאפשרת במגוון שיטות בהתאם למחסן הנתונים היעד כגון: Merge, Delete insert Merge switch

לוגים (CDC) – change data capture – שימוש בלוג של בסיסי הנתונים המאפשרים אופציה זו.
בשיטה זו ישנו תיעוד של כל שינוי בבסיס הנתונים וניתן לבצע עקיבות כך שכל פעולה כזו תבוצע גם ביעד.
באופן זה ניתן לייצר רפליקה של המקור גם כאשר אין לנו עמודות מתאימות לביצוע Increment .

טרנספורמציות: Logic

הכלי מאפשר לבצע מספר פונקציות בעזרת Logic.

ניתן ליישם SQL כשאילתת Select אשר ימומש לטבלה ביעד.
הטבלה תיווצר במידה ואינה קיימת.
ניתן אף להשתמש במשתנים על מנת להפוך את התהליך לורסטילי.
בעזרת ‏Logic ניתן להפעיל Rivers קיימים,לבצע לולאות ותנאים. לקבוע את סדר הפעולות וליישם מקביליות.

קריאות APIactions

בתוך Logic ניתן להפעיל Action זוהי קריאה ל API חיצוני בעזרת Rest API כאשר את המשתנים של הקריאה ניתן להעביר כחלק מהקריאה. מאוד שימושי כאשר רוצים לגשת למקורות חיצוניים שהגישה אליהם היא ב API בלבד. רבים ממקורות המידע בשנים האחרונות מאפשרים קריאות מעין אלו.

תזמון schedule :

הכלי ריברי ( Rivery ) מגיע עם מנוע תזמון פנימי המאפשר להריץ Rivers ו Logic, כחלק מכך הכלי מגיע עם היסטוריית תזמונים, ריצות, נפילות וסיבות נפילה – אין צורך בכלי תזמון חיצוני כגון: Crontab, Prefect, airflow, Jenkins וכו'

הכלי מגיע עם דשבורד מלא שניתן לפלטר על בסיס זמן ולקבל תובנות על תזמונים שבוצעו

סביבות Environment:

הכלי ריברי ( Rivery ) מאפשר לבצע Deploy מסביבת פיתוח לייצור באמצעות GUI, כאשר נוכל לבחור מרכיבים שונים להעבירם לסביבה הבאה. כמו כן ניתן לעשות שימוש במשתנים על מנת להבדיל בין סביבה לסביבה ללא צורך בקוד או הגדרות שונות.

ממשק משתמש:

ממשק המשתמש נוח וידידותי קל לתפעל את המערכת גם כאשר לומדים אותה, עקומת לימוד מהירה. הכלי אינטואיטיבי והיכולת לבצע בקרה טובה מאוד.

לסיכום:

הכלי ריברי ( Rivery ) הוא אחד הכלים המועדפים עלינו בביצוע ELT עבור לקוחותינו.
אנו כמובן עושים שימוש גם בכלים אחרים כגון  Pentaho PDI, Python, Airbyte, Fivetran ואנו מומחים ב DBT.
נשמח שתפנו אלינו לקבלת הדגמה והצעת מחיר לתהליכי ETL,ELT, DWH, BI ועוד.

ויקיפדיה ELT