Laat uw contactgegevens achter, dan sturen we u onze whitepaper per e-mail toe.
Ik geef toestemming voor het verwerken van mijn persoonlijke gegevens om gepersonaliseerd marketingmateriaal te sturen in overeenstemming met de Privacybeleid. Door de inzending te bevestigen, gaat u akkoord met het ontvangen van marketingmateriaal
Bedankt.

Het formulier is succesvol verzonden.
Meer informatie vindt u in uw mailbox.

Innowise is een internationaal full-cycle softwareontwikkelingsbedrijf bedrijf opgericht in 2007. Wij zijn een team van 1600+ IT professionals die software ontwikkelen voor andere professionals wereldwijd.
Over ons
Innowise is een internationaal full-cycle softwareontwikkelingsbedrijf bedrijf opgericht in 2007. Wij zijn een team van 1600+ IT professionals die software ontwikkelen voor andere professionals wereldwijd.

De ultieme gids voor Apache Airflow

Wat is Apache Airflow?

Apache Airflow is een hulpmiddel om visueel werkstromen te creëren, organiseren en controleren en taakketens (pipelines) te starten om gegevens te verwerken, op te slaan en te visualiseren. Apache Software Foundation is eigenaar van het platform dat nog steeds de incubatorfase doorloopt met 1000 medewerkers op GitHub en 13 000 sterren.

Apache Airflow introductie

Apache Airflow is een robuuste, open-source, in Python geschreven dienst die wordt gebruikt door Data Engineers om werkstromen en pijpelijnen te orkestreren door de afhankelijkheden van pijpelijnen, code, logs, triggertaken, voortgang en successtatus te markeren om zo nodig problemen op te lossen.

Als de taak is voltooid of mislukt, kan deze flexibele, schaalbare en compatibele oplossing met externe gegevens waarschuwingen en berichten sturen via Slack of e-mail. Apache legt geen beperkingen op aan hoe de werkstroom eruit moet zien en heeft een gebruiksvriendelijke interface om taken te volgen en opnieuw uit te voeren.

Hoe werkt Apache Airflow?

Pijpelijnen worden beschreven aan de hand van kernelementen in Apache:

DAG

De hoeksteen van de technologie wordt beschreven door directed acyclic graphs (DAG's). Dit model is een grafiek die geen cycli kent, maar parallelle paden die uit dezelfde partij komen. In eenvoudige woorden, DAG is een entiteit die taken combineert afhankelijk van de datapijplijn waar de afhankelijkheid tussen toepassingen duidelijk tot uiting komt.
Gerichte Acyclische Grafiek (DAG)
Gerichte Acyclische Grafiek (DAG)
Taak E is de laatste taak in de DAG die afhankelijk is van de succesvolle uitvoering van de voorgaande taken links daarvan.

Operator

Een operator is een afzonderlijk element in de taakketen (pijplijn). Met behulp van deze elementen beschrijven ontwikkelaars welke taak moet worden uitgevoerd. Apache Airflow heeft een lijst van voorgedefinieerde operatoren, waaronder:
  • PythonOperator voert Python-code uit
  • BashOperator voert bash scripts/commando's uit
  • PostgresOperator roept SQL-queries aan in PostgreSQL
  • RedshiftToS3Transfer voert UNLOAD commando's uit van Redshift naar S3
  • EmailOperator verstuurt e-mails
Taken en operatoren worden soms door elkaar gebruikt, maar wij gaan ervan uit dat het verschillende concepten zijn, waarbij operatoren dienen als patronen voor het genereren van taken.

Sensor

De sensor is een variant van een operator die toepassing vindt in gebeurtenisgestuurde pijplijnen. Voorbeelden:
  • PythonSensor wacht tot de functie True teruggeeft.
  • S3Sensor controleert de beschikbaarheid van het object door de sleutel in de S3 emmer

Haak

Hooks zijn diensten van derden die interageren met externe platforms (databases en API-bronnen). Hooks mogen geen kwetsbare informatie bezitten om gegevenslekken te voorkomen.

Scheduler

Het bewaakt alle DAG's, handelt werkstromen af, en dient opdrachten in bij Executor.

Webserver

De webserver speelt de rol van Apache Airflow gebruikersinterface. Hij helpt de status en voortgang van de taken te volgen en gegevens van externe depots te loggen.

Database

Alle relevante informatie wordt daar opgeslagen (taken, planningstermijnen, statistieken van elke sprint, enz.)

Executeur

De Executor voert taken uit en pusht ze naar werkers.

Laten we tot slot demonstreren hoe Apache werkt aan de hand van een eenvoudig voorbeeld. Eerst herziet Apache alle DAG's op de achtergrond. Dringende taken die voltooid moeten worden krijgen het merkteken SCHEDULED in de database. De Scheduler haalt taken uit de database en verdeelt ze over Executors. Daarna krijgen de taken de status QUEUED, en zodra de werkers ze gaan uitvoeren, wordt de status RUNNING aan de taak toegekend. Wanneer de taak is voltooid, geeft de werker deze aan als voltooid/gefaald, afhankelijk van het eindresultaat, en de Scheduler werkt de status in de database bij.

Apache Luchtstroom Architectuur
Apache Luchtstroom Architectuur

Apache Airflow kenmerken

Hieronder zetten we de spannendste kenmerken van Apache Airflow op een rij.

Gemakkelijk te bedienen

Basiskennis van Python is de enige vereiste om oplossingen op het platform te bouwen.

Open bron

De dienst is gratis, met vele actieve gebruikers wereldwijd.

Eenvoudige integratie

Je kunt naadloos samenwerken met aanvullende producten van Microsoft AzureGoogle Cloud Platform, Amazon AWS, enz.

Vriendelijke gebruikersinterface

U kunt de status van geplande en lopende taken in real-time volgen.

Apache Luchtstroom Principes

Hieronder vindt u meer informatie over de basisprincipes van Apache Airflow.

Dynamisch

Luchtstroompijpleidingen zijn geconfigureerd als Python code om pijpleidingen ’ generatie dynamisch te maken.

Uitbreidbaar

Gebruikers kunnen gedefinieerde operatoren, uitvoerders en bibliotheken creëren die geschikt zijn voor hun specifieke bedrijfsomgeving.

Schaalbaar

De dienst crasht niet omdat hij een modulaire architectuur heeft en tot in het oneindige kan worden opgeschaald.

Wat zijn de voordelen van Apache Airflow?

Ze omvatten automatisering, gemeenschap, visualisatie van bedrijfsprocessen, en een goede bewaking en controle. We zullen ze allemaal kort bespreken.

Gemeenschap

Er zijn meer dan 1000 bijdragers aan de open-source dienst. Zij werken regelmatig mee aan de upgrade ervan.

Visualisatie van bedrijfsprocessen

Apache is een perfect hulpmiddel om een "groter beeld" van iemands werkstroom beheer systeem te genereren.

Automatisering

Automatisering maakt het werk van Data Engineers soepeler en verbetert de algemene prestaties.

Toezicht en controle

Het ingebouwde waarschuwings- en meldingssysteem maakt het mogelijk verantwoordelijkheden vast te stellen en correcties door te voeren.

Apache Airflow

Apache Airflow gebruikscases

De praktische doeltreffendheid van de dienst blijkt uit de volgende gebruikcases:
  • Batch opdrachten;
  • Het plannen en orkestreren van data pijplijnen werkstromen met Airflow voor een specifiek tijdsinterval;
  • ETL/ELT pijplijnen die werken op batch gegevens;
  • pijplijnen die gegevens uit externe bronnen ontvangen of gegevens transformeren;
  • Apache Airflow voor machine learning trainingsmodellen en het triggeren van jobs in SageMaker;
  • Rapporten genereren;
  • Back-ups van DevOps jobs en het opslaan van de resultaten in een Hadoop cluster na het uitvoeren van een Spark job.

Apache Airflow als dienst

Veel data engineering platforms die gebruik maken van Airflow gebruiken de basis logica en voordelen van de dienst en voegen nieuwe functies toe om specifieke uitdagingen op te lossen. Ze kunnen Apache Airflow alternatieven worden genoemd, omdat ze vrijwel dezelfde functionaliteit hebben:

  • Astro - een data-orkestratieplatform om pipelines te creëren, uit te voeren en te observeren.
  • Google Cloud Composer - een data-orkestratieplatform om pipelines te bouwen, te plannen en te controleren.
  • Qubole - een open data lake platform voor machine learning, streaming en ad-hoc analytics.

Amazon Beheerde Werkstromen for Apache Airflow - een beheerde Airflow werkstroom orkestratiedienst om datapijplijnen op Amazon Web Diensten (AWS) op te zetten en te beheren.

Conclusie

Apache is een krachtig hulpmiddel voor data engineering dat compatibel is met diensten en platforms van derden. Migratie naar Airflow verloopt soepel en probleemloos, ongeacht de omvang en specificaties van het bedrijf.

Innowise levert diepgaande Apache expertise van elke complexiteit en omvang. Apache Airflow is een perfecte keuze om orde op zaken te stellen als een klant last heeft van slechte communicatie tussen afdelingen en op zoek is naar meer transparantie in werkstromen.

Onze deskundige ontwikkelaars zullen een modulair systeem op maat implementeren dat de werking met big data verbetert en Airflow-processen volledig beheert en aanpasbaar aan de bijzonderheden van uw bedrijfsomgeving.

Bedankt voor de beoordeling!
Bedankt voor het commentaar!

Inhoudsopgave

Beoordeel dit artikel:

4/5

4.8/5 (45 beoordelingen)

Gerelateerde inhoud

Bracht ons een uitdaging?

    Voeg projectgegevens alsjeblieft, duur, technische stapel, IT-professionals nodig en andere relevante informatie toe
    Neem een spraakbericht over uw
    project op om het ons beter te helpen begrijpen
    Voeg indien nodig aanvullende documenten bij
    Bestand uploaden

    Je kunt maximaal 1 bestand van 2MB bijvoegen. Geldige bestanden: pdf, jpg, jpeg, png

    Wij wijzen u erop dat wanneer u op de verzendknop klikt, Innowise uw persoonsgegevens verwerkt in overeenstemming met ons Privacybeleid om u van de juiste informatie te voorzien.

    Wat gebeurt er nu?

    1

    Na ontvangst en verwerking van uw aanvraag, nemen wij binnenkort contact met u op om uw projectbehoeften in detail te beschrijven en een NDA te ondertekenen om de vertrouwelijkheid van informatie te garanderen.

    2

    Na het bestuderen van de vereisten, stellen onze analisten en ontwikkelaars een projectvoorstel met de omvang van de werkzaamheden, teamgrootte, tijd en kosten schattingen.

    3

    Wij regelen een ontmoeting met u om het aanbod te bespreken en tot een overeenkomst.

    4

    We tekenen een contract en beginnen zo snel mogelijk aan uw project te werken mogelijk.

    Bedankt.

    Uw bericht is verzonden.
    Wij verwerken uw aanvraag en nemen zo spoedig mogelijk contact met u op.

    Bedankt.

    Uw bericht is verzonden.
    Wij verwerken uw aanvraag en nemen zo spoedig mogelijk contact met u op.

    pijl