Apache Spark, Kafka, & Flink Showcase Innovation met Hadoop voor "Big data" Toepassingen

De Apache Software Foundation is een van de oudste en meest gerespecteerde van de open source software die organisaties bestuurt, gedreven door de massale acceptatie door de industrie van Apache HTTP-webservers in de afgelopen 20 jaar. De Apache Software Foundation is opgericht door de programmeurs van het oorspronkelijke webserverplatform in 1999 met een bredere missie om de ontwikkeling van gratis open source softwareprojecten en hun gemeenschappen te ondersteunen om de volgende generatie webstandaarden te bouwen. De Apache-licentie is vergelijkbaar met de GNU GPL, MIT, & BSD-softwarelicenties voor het publiceren van open source-code die kan worden gebruikt, gekopieerd, gewijzigd, gekloond en doorverkocht door andere ontwikkelaars of bedrijven zonder beperking anders dan voortdurende openheid & toeschrijving. Er zijn momenteel meer dan 300 projecten in ontwikkeling binnen het ecosysteem van de Apache Software Foundation, waaronder een Labs, Incubator, Attic en Infrastructure Team. Enkele van de huidige ASF-projecten die in 2017 naar een bredere acceptatie door de industrie neigen, zijn Apache Spark, Kafka, & Flink, elk implementeert aspecten van CQRS op nieuwe manieren voor het optimaliseren van reactieve datastromen in de architectuur van een cloudplatform om een ​​nieuwe generatie webapplicaties te ondersteunen.


Apache Spark, Kafka en Flink Showcase Innovation met Hadoop voor

Trends in softwareontwikkeling in het Apache Software Foundation Ecosystem

De brede acceptatie door de industrie van het Apache HTTP Server-framework in webhosting, dat op zowel Linux kan worden uitgevoerd & Windows-besturingssystemen omvatten ook de installatie van Apache op miljoenen webservers waar de broncode op grote schaal wordt bekeken door deskundige programmeurs in de academische, overheids-, & zakelijke organisaties gericht op gegevensbeveiliging en optimalisatie van hardwareprestaties. Een recente blogpost van IBM bespreekt "wat open source eigenlijk betekent" legde de nadruk op de voortdurende bijdrage van het bedrijf aan projecten in het Apache-ecosysteem, zoals Apache Atlas, HBase, Ambari, Spark, Kafka, Knox, & Flink voor cloudgegevensanalyse.

Van de meer dan 300 projecten die door ASF worden ontwikkeld, is slechts 8,8% netwerkservergerelateerd, met nog eens 8,6% "big data" toepassingen. Kaders en databases voor webontwikkeling omvatten elk ongeveer 7% van de totale ASF-projecten. Hoewel gebruikt in meer dan 80% van alle websites, is PHP niet een van de belangrijkste programmeertalen die te vinden zijn in de meeste code die onder de Apache-licentie is gepubliceerd. Ongeveer 60% is Java-code, met C, Python, C ++, JavaScript, Scala, C #, & Perl ook populaire standaarden. Voor het volgen van de verschillende FOSS-projecten die onder de Apache-licentie zijn gepubliceerd, is de Battery Index interessant en heeft Datamation onderzoek samengesteld om een "ultieme lijst" van meer dan 1250 FOSS-projecten onder actieve huidige ontwikkeling in een breed scala van sectoren (waaronder Apache, GPL, MIT, BSD, & andere softwarelicenties).

Enkele van de trending-projecten die momenteel worden georganiseerd onder de Apache Software Foundation zijn:

  • Apache HTTP-server – de meest populaire webserverplatformsoftware ter wereld
  • Apache Tomcat – een webserverplatform voor Java Servlet & WebSocket-toepassingen
  • Apache Hadoop – schaalbaar, gedistribueerd computerplatform met MapReduce
  • Apache Cassandra – schaalbare database met meerdere clusters voor gebruik met Hadoop
  • Apache Spark – biedt een rekenmachine voor Hadoop met machine learning & grafieken
  • Apache Kafka – een gedistribueerd streamingplatform voor datapijplijnen met horizontale schaal
  • Apache HBase – een nieuwe database voor Hadoop, geoptimaliseerd voor schaal tot miljarden tabellen
  • Apache Flink – datastroomraamwerk voor batchverwerking in meer dan 1000 knooppuntclusters
  • Apache Atlas – data governance en semantische taxonomie meta-framework voor Hadoop
  • Apache Knox – Rest API & webtoepassingsgateway voor Hadoop-servers
  • Apache Ambari – voorziening, bewaken, & Hadoop-clusters beheren met Ambari-tools
  • Lucene / Solr – bevat Java-zoekkern met XML / HTTP & JSON / Python / Ruby API’s
  • CouchDB – uniek databaseprotocol voor replicatie & synchronisatie tussen clusters op schaal
  • Apache Mesos – een framework voor cloudorkestratiebeheer voor het schalen van elastische VM’s
  • CloudStack – een clouddatacenterbeheersysteem dat vanuit een bedrijf aan Apache is geschonken
  • SpamAssassin – geavanceerde antispamfiltering voor e-mail met machine learning-mogelijkheden
  • Subversion / Maven – industriestandaard versiebeheer & projectbeheersoftware
  • Open kantoor – software voor tekstverwerking, spreadsheets en desktop publishing
  • Apache Cordova – een platformonafhankelijke toolkit voor het ontwikkelen van mobiele applicaties
  • Golf – het beruchte Google Wave-platform, gedoneerd aan Apache-licentie voor ontwikkelaars

Een van de meest interessante aspecten van het Apache Software Foundation-ecosysteem is dat IT-majors kunnen samenwerken aan infrastructuursoftware die platformonafhankelijke standaarden bouwt in de webhostingmarkt. Uit de Apache Incubator- en Labs-divisies ontwikkelen zich baanbrekende nieuwe projecten uit het collectieve werk van gedistribueerde internationale programmeerteams, terwijl verouderde bedrijfsstandaarden zoals Java en Wave worden gehandhaafd onder Apache-licentie die neigt naar de zolder. Het Hadoop-platform integreert een aantal nieuwe Apache-projecten binnen een enkel interoperabel raamwerk naarmate industriestandaarden in elastische computing voor webservers en clusterdatabases evolueren.

De Apache Software Foundation houdt ook toezicht op de ontwikkeling van een aantal essentiële programmeerprogramma’s zoals Subversion voor versiebeheer en Maven voor projectbeheer, evenals OpenOffice, een volledige tekstverwerkings-, spreadsheet- en desktop publishing-suite die de Microsoft Office-functionaliteit repliceert op FOSS-stichtingen. Apache Mesos en CloudStack bieden vergelijkbare functionaliteit als OpenStack, waarbij elk platform verschillende virtualisatietools biedt gericht op particulier cloudnetwerkbeheer, hybride cloudorkestratie en datacenterbeheer. SpamAssassin wordt nu aangeboden op de meeste cPanel-installaties en maakt het mogelijk machine learning toe te passen om antispamfilters op inkomende e-mail te verbeteren. Apache Solr & Lucene is populair geworden als alternatieve zoekkaders voor Drupal. Apache Spark, Kafka, & Flink zijn allemaal sterk in de DevOps-gemeenschap met nieuwe adoptie in bedrijfstoepassingen voor het optimaliseren van grootschalige e-commerce & websites voor sociale netwerken.

Cloudera – "Wat is Apache Spark?" (2015)

Open source cloudsoftware – "Mike Olson, Chief Strategy Officer en medeoprichter van Cloudera, geeft een overzicht van Apache Spark, de toenemende populariteit in de open source-gemeenschap en hoe Spark klaar is om MapReduce te vervangen als de algemene verwerkingsengine in Hadoop." Kom meer te weten.

Trends in softwareontwikkeling in het Apache Software Foundation Ecosystem

CQRS met Event Sourcing – "Met het op CQRS en Event Sourcing gebaseerde model is aan integratie gedacht sinds de allereerste use case. De leeszijde moet integreren en representeren wat er aan de schrijfzijde gebeurt, het is een integratiepunt." Meer informatie over CQRS.


CQRS: Command Query Responsibility Segregation

Command Query Responsibility Segregation (CQRS) werkt als een middel voor database-optimalisatie, in plaats van dat een webserver specifiek moet bepalen of een inkomend verzoek een lees- (commando) of schrijf- (query) bewerking is, wordt dit onderscheid vooraf specifiek gemaakt als onderdeel van de databaseplatformcode. Dit leidt tot een efficiëntere databaseverwerking op grote schaal voor ‘big data’-toepassingen en betere caching in het geheugen voor grote websites met veel gelijktijdige gebruikers. CQRS biedt ook mogelijkheden voor datastreaming en gebeurtenisverwerking in e-commerce die database-intensief zijn voor het bijhouden van meerdere variabelen over grote gemeenschappen van gebruikers in realtime, zoals Amazon.com, eBay of Uber. Database-optimalisatie met behulp van CQRS op grote schaal leidt tot de ontwikkeling van een nieuwe categorie cloudwebserver-applicaties gebouwd rond Apache Spark, Kafka, & Fink op het Hadoop-platform.

  • Apache Spark – omvat webserverclusterbeheerders voor CQRS-processynchronisatie
  • Apache Kafka – biedt een eventmanager voor CQRS-datastromen met interactieve queries
  • Apache Flink – past data-analyse toe op Kafka-streams voor het beheer van architectuurbronnen

CQRS wordt gebruikt in grote e-commerce websites om realtime feedback te geven aan klanten waar verkoop, voorraad, verzending, korting en fraudebestrijding analyse afzonderlijk moeten worden geleverd aan elke bestelling op basis van lokale parameters op schaal. CQRS opent ook een middel om zoekinteresse van klanten of browsepatronen te volgen en te relateren aan eerder opgeslagen geschiedenis met behulp van machine learning-algoritmen. Op deze manier, de Apache Hadoop, Cassandra, Kafka, Spark, & Flink-frameworks kunnen samen in stapelarchitectuur worden geïnstalleerd voor het programmeren van een nieuwe generatie bedrijfssoftwaretoepassingen.
Trends in softwareontwikkeling in het Apache Software Foundation Ecosystem

Apache Spark – "Om specifiek op een cluster te draaien, kan de SparkContext verbinding maken met verschillende soorten clusterbeheerders (ofwel Spark’eigen stand-alone clusterbeheerder, Mesos of YARN), die middelen toewijst aan applicaties." Lees meer over Apache Spark.
Trends in softwareontwikkeling in het Apache Software Foundation Ecosystem
Apache Kafka – Apache Kafka heeft een snelle, schaalbare, duurzame, & zeer beschikbaar Message Bus-systeem voor gedistribueerde gerepliceerde logboeken, wat leidt tot betere databasecaching & herhaalde responsverwerking voor grote websites voor meerdere gebruikers met veel vaak bijgewerkte individuele variabelen. Commit-logservice omvat partitiesynchronisatie tussen meerdere gelijktijdige databaseversies met tijdstempel & kenmerkwaarden om de verwerking te verbeteren & analyse van realtime gegevensstromen in e-commerce.

Trends in softwareontwikkeling in het Apache Software Foundation Ecosystem

Apache Flink – "Apache Flink is een open source framework voor streamverwerking voor gedistribueerde, goed presterende, altijd beschikbare en nauwkeurige datastreamtoepassingen." Lees meer over Apache Flink.

Centraal: "Reactieve Kafka" (2017)

Reactieve stromen – "Apache Kafka is een gedistribueerde, schaalbare berichtenbus met hoge doorvoer. De afgelopen jaren is Kafka naar voren gekomen als een belangrijke bouwsteen voor data-intensieve gedistribueerde applicaties. Als een hoogwaardige berichtenbus maakt Kafka de ontwikkeling mogelijk van gedistribueerde applicaties met behulp van de microservices-architectuur." Meer informatie over Apache Kafka.

Google Trends – Apache Software Foundation-projecten

Deze grafieken bevatten samenvattende gegevens van Google Trends om de populariteit te schatten van verschillende projecten die door de Apache Software Foundation worden ontwikkeld:

Trends in softwareontwikkeling in het Apache Software Foundation Ecosystem

Database Frameworks – "Apache Hadoop & Cassandra is aanzienlijk populairder dan Apache Tomcat, terwijl er weinig is & afnemende interesse in het CouchDB-raamwerk." Apache Database-projecten.

Trends in softwareontwikkeling in het Apache Software Foundation Ecosystem

CQRS-toepassingen – "Apache Spark en Kafka tonen beide een stijgende recente interesse met ongeveer 25% -30% van de totale zoekactiviteit voor Apache HTTPS Server-software." Apache Spark, Kafka, & Flink-projecten.

Trends in softwareontwikkeling in het Apache Software Foundation Ecosystem

"Big data" Zoekplatforms – "Lucene is een van de meest populaire projecten in de Apache Software Foundation met ongeveer 3-4x de zoekinteresse in vergelijking met CloudStack." Apache-zoekplatforms.

Trends in softwareontwikkeling in het Apache Software Foundation Ecosystem

Gratis Open Source Software (FOSS) – "OpenOffice, Subversion, & Maven behoren tot de meest bekende projecten in het algemeen in het Apache-ecosysteem." Vergelijk Trends voor OpenOffice, Subversion, & Maven.

Jeffrey Wilson Administrator
Sorry! The Author has not filled his profile.
follow me