pentwr data ffynhonnell agored modern ar gyfer blockchain

1.Yr her ar gyfer pentwr data blockchain modern

Mae sawl her y gall cwmni newydd mynegeio blockchain eu hwynebu, gan gynnwys:

  • Swm enfawr o ddata. Wrth i faint o ddata ar y blockchain gynyddu, bydd angen i'r mynegai data gynyddu i drin y llwyth cynyddol a darparu mynediad effeithlon i'r data. O ganlyniad, mae'n arwain at gostau storio uwch, cyfrifo metrigau araf, a llwyth cynyddol ar weinydd y gronfa ddata.
  • Piblinell prosesu data cymhleth. Mae technoleg Blockchain yn gymhleth, ac mae adeiladu mynegai data cynhwysfawr a dibynadwy yn gofyn am ddealltwriaeth ddofn o'r strwythurau data a'r algorithmau sylfaenol. Mae amrywiaeth gweithrediadau blockchain yn ei etifeddu. O ystyried enghreifftiau penodol, mae NFTs yn Ethereum fel arfer yn cael eu creu o fewn contractau smart yn dilyn y fformatau ERC721 ac ERC1155. Mewn cyferbyniad, mae gweithredu'r rhai ar Polkadot, er enghraifft, fel arfer yn cael ei adeiladu'n uniongyrchol o fewn amser rhedeg blockchain. Dylid ystyried y rheini yn NFTs a dylid eu harbed fel y rheini.
  • Galluoedd integreiddio. Er mwyn darparu'r gwerth mwyaf posibl i ddefnyddwyr, efallai y bydd angen i ddatrysiad mynegeio blockchain integreiddio ei fynegai data â systemau eraill, megis llwyfannau dadansoddi neu APIs. Mae hyn yn heriol ac yn gofyn am ymdrech sylweddol yn y dyluniad pensaernïaeth.

Wrth i dechnoleg blockchain ddod yn fwy eang, mae faint o ddata sy'n cael ei storio ar y blockchain wedi cynyddu. Mae hyn oherwydd bod mwy o bobl yn defnyddio'r dechnoleg, ac mae pob trafodiad yn ychwanegu data newydd i'r blockchain. Yn ogystal, mae technoleg blockchain wedi esblygu o gymwysiadau trosglwyddo arian syml, megis y rhai sy'n ymwneud â defnyddio Bitcoin, i gymwysiadau mwy cymhleth sy'n ymwneud â gweithredu rhesymeg busnes o fewn contractau smart. Gall y contractau smart hyn gynhyrchu llawer iawn o ddata, gan gyfrannu at gymhlethdod a maint cynyddol y blockchain. Dros amser, mae hyn wedi arwain at blockchain mwy a mwy cymhleth.

Yn yr erthygl hon, rydym yn adolygu esblygiad pensaernïaeth dechnoleg Footprint Analytics fesul cam fel astudiaeth achos i archwilio sut mae pentwr technoleg Iceberg-Trino yn mynd i'r afael â heriau data ar gadwyn.

Mae Footprint Analytics wedi mynegeio tua 22 o ddata blockchain cyhoeddus, a 17 o farchnadoedd NFT, 1900 o brosiectau GameFi, a dros 100,000 o gasgliadau NFT i mewn i haen ddata tynnu semantig. Dyma'r datrysiad warws data blockchain mwyaf cynhwysfawr yn y byd.

Waeth beth fo data blockchain, sy'n cynnwys dros 20 biliynau o resi o gofnodion o drafodion ariannol, y mae dadansoddwyr data yn eu holi'n aml. mae'n wahanol i logiau mewnlifiad mewn warysau data traddodiadol.

Rydym wedi profi 3 uwchraddiad mawr yn ystod y misoedd diwethaf i fodloni'r gofynion busnes cynyddol:

2. Pensaernïaeth 1.0 Bigquery

Ar ddechrau Footprint Analytics, fe wnaethon ni ddefnyddio Google Bigquery fel ein peiriant storio ac ymholiad; Mae Bigquery yn gynnyrch gwych. Mae'n syfrdanol o gyflym, yn hawdd ei ddefnyddio, ac mae'n darparu pŵer rhifyddeg deinamig a chystrawen UDF hyblyg sy'n ein helpu i gyflawni'r gwaith yn gyflym.

Fodd bynnag, mae gan Bigquery nifer o broblemau hefyd.

  • Nid yw data yn cael ei gywasgu, gan arwain at gostau uchel, yn enwedig wrth storio data crai o dros 22 blockchains o Footprint Analytics.
  • Arian cyfred annigonol: Dim ond 100 o ymholiadau cydamserol y mae Bigquery yn eu cefnogi, sy'n anaddas ar gyfer senarios arian cyfred uchel ar gyfer Footprint Analytics wrth wasanaethu llawer o ddadansoddwyr a defnyddwyr.
  • Clowch i mewn gyda Google Bigquery, sy'n gynnyrch ffynhonnell gaeedig.

Felly fe benderfynon ni archwilio pensaernïaeth amgen eraill.

3. Pensaernïaeth 2.0 OLAP

Roedd gennym ddiddordeb mawr mewn rhai o'r cynhyrchion OLAP a oedd wedi dod yn boblogaidd iawn. Mantais fwyaf deniadol OLAP yw ei amser ymateb i ymholiad, sydd fel arfer yn cymryd is-eiliadau i ddychwelyd canlyniadau ymholiad am symiau enfawr o ddata, a gall hefyd gefnogi miloedd o ymholiadau cydamserol.

Fe wnaethon ni ddewis un o'r cronfeydd data OLAP gorau, Doris, i roi cynnig arni. Mae'r injan hon yn perfformio'n dda. Fodd bynnag, ar ryw adeg fe wnaethom drafod rhai materion eraill yn fuan:

  • Nid yw mathau o ddata fel Array neu JSON yn cael eu cefnogi eto (Tach, 2022). Mae araeau yn fath cyffredin o ddata mewn rhai cadwyni bloc. Er enghraifft, mae'r maes pwnc mewn logiau evm. Mae methu â chyfrifo ar Array yn effeithio'n uniongyrchol ar ein gallu i gyfrifo llawer o fetrigau busnes.
  • Cefnogaeth gyfyngedig i DBT, ac ar gyfer datganiadau uno. Mae'r rhain yn ofynion cyffredin ar gyfer peirianwyr data ar gyfer senarios ETL/ELT lle mae angen i ni ddiweddaru rhywfaint o ddata sydd newydd ei fynegeio.

Wedi dweud hynny, ni allem ddefnyddio Doris ar gyfer ein piblinell ddata gyfan ar gynhyrchu, felly fe wnaethom geisio defnyddio Doris fel cronfa ddata OLAP i ddatrys rhan o'n problem ar y gweill cynhyrchu data, gan weithredu fel peiriant ymholiad a darparu cyflym a hynod galluoedd ymholiad cydamserol.

Yn anffodus, ni allem ddisodli Bigquery â Doris, felly roedd yn rhaid i ni gysoni data o Bigquery i Doris o bryd i'w gilydd gan ei ddefnyddio fel peiriant ymholiad. Roedd gan y broses gydamseru hon nifer o faterion, ac un o'r rhain oedd bod yr ysgrifeniadau diweddaraf wedi'u pentyrru'n gyflym pan oedd injan OLAP yn brysur yn gwasanaethu ymholiadau i'r cleientiaid pen blaen. Yn dilyn hynny, effeithiwyd ar gyflymder y broses ysgrifennu, a chymerodd cydamseru lawer mwy o amser ac weithiau daeth yn amhosibl hyd yn oed i'w orffen.

Sylweddolom y gallai'r OLAP ddatrys nifer o faterion yr ydym yn eu hwynebu ac na allai ddod yn ddatrysiad un contractwr o Footprint Analytics, yn enwedig ar gyfer y biblinell prosesu data. Mae ein problem yn fwy ac yn fwy cymhleth, a gallem ddweud nad oedd OLAP fel peiriant ymholiad yn unig yn ddigon i ni.

4. Pensaernïaeth 3.0 Iceberg + Trino

Croeso i bensaernïaeth Footprint Analytics 3.0, sef ailwampiad llwyr o'r bensaernïaeth waelodol. Rydym wedi ailgynllunio'r bensaernïaeth gyfan o'r gwaelod i fyny i wahanu storio, cyfrifiant ac ymholiad data yn dri darn gwahanol. Cymryd gwersi o'r ddwy saernïaeth gynharach o Footprint Analytics a dysgu o brofiad prosiectau data mawr llwyddiannus eraill fel Uber, Netflix, a Databricks.

4.1. Cyflwyno'r llyn data

Yn gyntaf fe wnaethom droi ein sylw at lyn data, math newydd o storio data ar gyfer data strwythuredig ac anstrwythuredig. Mae data lake yn berffaith ar gyfer storio data ar-gadwyn gan fod fformatau data ar gadwyn yn amrywio'n eang o ddata crai anstrwythuredig i ddata echdynnu strwythuredig y mae Footprint Analytics yn adnabyddus amdano. Roeddem yn disgwyl defnyddio llyn data i ddatrys y broblem o storio data, ac yn ddelfrydol byddai hefyd yn cefnogi peiriannau cyfrifiadurol prif ffrwd fel Spark a Flink, fel na fyddai'n boen integreiddio â gwahanol fathau o beiriannau prosesu wrth i Footprint Analytics ddatblygu .

Mae Iceberg yn integreiddio'n dda iawn â Spark, Flink, Trino a pheiriannau cyfrifiadurol eraill, a gallwn ddewis y cyfrifiant mwyaf priodol ar gyfer pob un o'n metrigau. Er enghraifft:

  • I'r rhai sydd angen rhesymeg gyfrifiadol gymhleth, Spark fydd y dewis.
  • Flink ar gyfer cyfrifiant amser real.
  • Ar gyfer tasgau ETL syml y gellir eu perfformio gan ddefnyddio SQL, rydym yn defnyddio Trino.

4.2. Peiriant ymholiad

Gyda Iceberg yn datrys y problemau storio a chyfrifiannu, roedd yn rhaid i ni feddwl am ddewis injan ymholiad. Nid oes llawer o opsiynau ar gael. Y dewisiadau eraill a ystyriwyd gennym oedd

Y peth pwysicaf i ni ei ystyried cyn mynd yn ddyfnach oedd bod yn rhaid i injan ymholiad y dyfodol fod yn gydnaws â'n pensaernïaeth gyfredol.

  • Cefnogi Bigquery fel Ffynhonnell Data
  • I gefnogi DBT, yr ydym yn dibynnu arno i gynhyrchu llawer o fetrigau
  • I gefnogi cronfa feta offer BI

Yn seiliedig ar yr uchod, fe ddewison ni Trino, sydd â chefnogaeth dda iawn i Iceberg ac roedd y tîm mor ymatebol nes i ni godi byg, a gafodd ei osod y diwrnod wedyn a'i ryddhau i'r fersiwn ddiweddaraf yr wythnos ganlynol. Hwn oedd y dewis gorau i'r tîm Ôl Troed, sydd hefyd angen ymatebolrwydd gweithredu uchel.

4.3. Profi perfformiad

Ar ôl i ni benderfynu ar ein cyfeiriad, gwnaethom brawf perfformiad ar y cyfuniad Trino + Iceberg i weld a allai ddiwallu ein hanghenion ac er mawr syndod i ni, roedd yr ymholiadau'n hynod o gyflym.

Gan wybod mai Presto + Hive yw'r cymharydd gwaethaf ers blynyddoedd yn holl hype OLAP, fe chwythodd y cyfuniad o Trino + Iceberg ein meddyliau yn llwyr.

Dyma ganlyniadau ein profion.

achos 1: ymuno â set ddata fawr

Mae tabl 800 GB1 yn ymuno â thabl 50 GB arall2 ac yn gwneud cyfrifiadau busnes cymhleth

cas2: defnyddiwch fwrdd sengl mawr i wneud ymholiad penodol

Prawf sql: dewiswch wahanol (cyfeiriad) o'r grŵp bwrdd fesul dydd

Mae'r cyfuniad Trino + Iceberg tua 3 gwaith yn gyflymach na Doris yn yr un ffurfwedd.

Yn ogystal, mae syndod arall oherwydd gall Iceberg ddefnyddio fformatau data fel Parquet, ORC, ac ati, a fydd yn cywasgu ac yn storio'r data. Dim ond tua 1/5 o ofod warysau data eraill y mae storfa bwrdd Iceberg yn ei gymryd Mae maint storio'r un tabl yn y tair cronfa ddata fel a ganlyn:

Nodyn: Mae'r profion uchod yn enghreifftiau yr ydym wedi dod ar eu traws mewn cynhyrchiad gwirioneddol ac maent ar gyfer cyfeirio yn unig.

4.4. Effaith uwchraddio

Rhoddodd yr adroddiadau prawf perfformiad ddigon o berfformiad i ni y cymerodd ein tîm tua 2 fis i gwblhau'r mudo, ac mae hwn yn ddiagram o'n pensaernïaeth ar ôl yr uwchraddio.

  • Mae peiriannau cyfrifiadurol lluosog yn cyfateb i'n hanghenion amrywiol.
  • Mae Trino yn cefnogi DBT, a gall gwestiynu Iceberg yn uniongyrchol, felly nid oes yn rhaid i ni ddelio â chydamseru data mwyach.
  • Mae perfformiad anhygoel Trino + Iceberg yn ein galluogi i agor yr holl ddata Efydd (data crai) i'n defnyddwyr.

5. Crynodeb

Ers ei lansio ym mis Awst 2021, mae tîm Footprint Analytics wedi cwblhau tri uwchraddiad pensaernïol mewn llai na blwyddyn a hanner, diolch i'w awydd a'i benderfyniad cryf i ddod â buddion y dechnoleg cronfa ddata orau i'w ddefnyddwyr crypto a chyflawniad cadarn ar weithredu a uwchraddio ei seilwaith a phensaernïaeth sylfaenol.

Mae uwchraddio pensaernïaeth Footprint Analytics 3.0 wedi prynu profiad newydd i'w ddefnyddwyr, gan ganiatáu i ddefnyddwyr o wahanol gefndiroedd gael mewnwelediad mewn defnydd a chymwysiadau mwy amrywiol:

  • Wedi'i adeiladu gyda'r offeryn Metabase BI, mae Footprint yn hwyluso dadansoddwyr i gael mynediad at ddata ar-gadwyn wedi'i ddatgodio, archwilio gyda rhyddid llwyr i ddewis offer (dim cod neu gortyn caled), cwestiynu hanes cyfan, a chroesholi setiau data, i gael mewnwelediadau yn dim-amser.
  • Integreiddio data ar gadwyn ac oddi ar y gadwyn i ddadansoddi ar draws gwe2 + gwe3;
  • Trwy adeiladu / holi metrigau ar ben tynnu busnes Footprint, mae dadansoddwyr neu ddatblygwyr yn arbed amser ar 80% o waith prosesu data ailadroddus ac yn canolbwyntio ar fetrigau ystyrlon, ymchwil, ac atebion cynnyrch yn seiliedig ar eu busnes.
  • Profiad di-dor o Footprint Web i alwadau REST API, i gyd yn seiliedig ar SQL
  • Rhybuddion amser real a hysbysiadau gweithredadwy ar arwyddion allweddol i gefnogi penderfyniadau buddsoddi

Ffynhonnell: https://cryptoslate.com/iceberg-spark-trino-a-modern-open-source-data-stack-for-blockchain/