Die größte Sammlung von Tutorials und Referenzen

Hadoop

Hadoop-Version 3.0 – Was ist neu?

Hadoop ist ein in Java geschriebenes Framework zur Lösung von Big-Data-Problemen. Die erste Version von Hadoop wurde im April 2006 veröffentlicht. Die Apache-Community hat seit dem Tag der ersten Veröffentlichung von Hadoop auf dem Markt viele Änderungen vorgenommen. Die Reise von Hadoop begann 2005 von Doug Cutting und Mike Cafarella. Der Grund für die Entwicklung von Hadoop....

Wie erstelle ich eine Tabelle in Hive?

In Apache Hive können wir Tabellen erstellen, um strukturierte Daten zu speichern, damit wir sie später verarbeiten können. Die Tabelle im Hive besteht aus mehreren Spalten und Datensätzen. Die Tabelle, die wir in einer beliebigen Datenbank erstellen, wird im Unterverzeichnis dieser Datenbank gespeichert. Der Standardspeicherort, an dem die Datenbank auf HDFS gespeichert wird, ist /user/hive/warehouse. Die Art....

Was ist Schema beim Lesen und Schema beim Schreiben in Hadoop?

Schema on-Read ist der neue Datenuntersuchungsansatz in neuen Tools wie Hadoop und anderen Datenverarbeitungstechnologien. In diesem Schema muss der Analyst jeden Datensatz identifizieren, was ihn vielseitiger macht. Dieses Schema wird verwendet, wenn die Datenorganisation nicht das optimale Ziel ist, aber die Datensammlung Priorität hat. Dadurch ist es einfacher, zwei Ansichten für dieselben Daten zu erstellen. Die Verwendung....

Hadoop – Reducer in Map-Reduce

Map-Reduce ist ein Programmiermodell, das hauptsächlich in zwei Phasen unterteilt ist, dh Map-Phase und Reduce-Phase. Es ist für die parallele Verarbeitung von Daten ausgelegt, die auf verschiedene Maschinen (Node) verteilt sind. Die Hadoop - Java -Programme bestehen aus der Mapper-Klasse und der Reducer-Klasse zusammen mit der Treiberklasse. Reducer ist der zweite Teil des Programmiermodells Map-Reduce. Der Mapper....

Verschiedene Dateisysteme in Hadoop

Hadoop ist ein in Java geschriebenes Open-Source-Software-Framework mit einigen Shell-Skripten und C -Code zur Durchführung von Berechnungen über sehr große Datenmengen. Hadoop wird für die Batch-/Offline-Verarbeitung über das Netzwerk von so vielen Maschinen verwendet, die einen physischen Cluster bilden. Das Framework funktioniert so, dass es in der Lage ist, verteilte Speicherung und Verarbeitung über denselben Cluster bereitzustellen.....