La science des données et le big data hadoop sont-ils les mêmes? Y a-t-il une différence entre eux ou les deux signifient-ils la même chose?


Réponse 1:

Non, absolument pas.

Permet de discuter de ce problème en trois parties:

La science des données est une spécialisation pour résoudre différents problèmes en utilisant différentes méthodes de la statistique, de la combinatoire, des mathématiques et de l'informatique, etc.)

Big Data: Le Big Data dans une vue large est un concept de traitement des données volumineuses (le terme énorme est relatif) en dehors des méthodes traditionnelles.

Hadoop: Hadoop est un cadre ou on peut dire un environnement qui peut être utilisé pour gérer et analyser d'énormes ensembles de données en utilisant différents outils (PIG, HIVE, Scoop, Fume etc.)

Les références :

Tutoriel Hadoop

Science des données

Big Data


Réponse 2:

Je suppose que vous pensiez que la «science des données» et le «Big Data Hadoop» étaient deux choses différentes, mais ce sont en fait trois. La science des données, le Big Data et Hadoop ont des significations différentes.

Supposons que vous êtes un étudiant en 10e classe. Vous avez été chargé de trouver la moyenne des notes dans chaque matière notées par vos camarades de classe. Vous avez 50 élèves dans votre classe qui étudient 5 matières chacun. Trouver la moyenne n'est pas sorcier, alors vous faites tout cela dans une feuille Excel. Maintenant, votre professeur vous demande de faire le même calcul pour toutes les sections A, B et C, d'environ 150 élèves. La feuille Excel est de nouveau suffisante. Maintenant, vous voulez savoir quelles seraient les notes moyennes pour les sciences obtenues par les élèves de 10e classe dans tout le pays, soit environ 14 311 861 élèves en 2016. Vous ne pouvez peut-être pas stocker autant de données dans une feuille Excel afin de les stocker dans une base de données comme MySQL ou Oracle. Vous exécutez une requête SQL pour trouver la moyenne. Maintenant, vous êtes curieux de savoir comment les moyennes ont évolué depuis les 20 dernières années en sciences pour la classe 10, soit environ 3000000 enregistrements. Si vous deviez trouver la moyenne des 5 sujets et pas seulement la science, vous manipuleriez 30000000 x 5 enregistrements. Les données sont désormais volumineuses, ce que l'on appelle également les «Big Data».

Big Data - des ensembles de données extrêmement volumineux qui peuvent être analysés par ordinateur pour révéler des modèles, des tendances et des associations, en particulier concernant le comportement humain et les interactions.

Vous ne devriez probablement pas stocker autant de données dans votre MySQL ou Oracle et exécuter votre requête SQL sur des millions d'enregistrements. Je n'ai jamais traité autant de données dans une base de données SQL, je ne commenterai donc pas ses performances, mais j'ai utilisé Hadoop pour gérer une quantité massive d'ensembles de données, beaucoup plus grande que la base de données des étudiants dont nous parlons. Hadoop est un framework qui distribue les données sur plusieurs systèmes afin que tous les systèmes puissent effectuer des calculs en parallèle, augmentant ainsi la vitesse globale de calcul, également appelée calcul distribué. Hadoop a son propre système de fichiers qui est un système de stockage de données pour les Big Data.

La science des données en termes simples est une science qui consiste à comprendre quoi faire avec les données, grandes ou petites. Jusqu'à présent, nous essayions seulement de trouver la moyenne des scores, mais un scientifique des données irait au-delà et chercherait des moyens de trouver ce qui peut être fait avec la moyenne. Pour une organisation, il les aidera à prendre des décisions commerciales et à trouver des modèles qui aideraient les patrons à prendre de meilleures décisions et à allouer des ressources pour augmenter les bénéfices. La plupart des spécialistes des données peuvent même ne pas utiliser Hadoop s'ils ne traitent pas de Big Data, ils utilisent généralement R lang ou Python pour leurs calculs.

Le Big Data est un concept, Hadoop est un outil, la science des données est un domaine de l'informatique.


Réponse 3:

Je suppose que vous pensiez que la «science des données» et le «Big Data Hadoop» étaient deux choses différentes, mais ce sont en fait trois. La science des données, le Big Data et Hadoop ont des significations différentes.

Supposons que vous êtes un étudiant en 10e classe. Vous avez été chargé de trouver la moyenne des notes dans chaque matière notées par vos camarades de classe. Vous avez 50 élèves dans votre classe qui étudient 5 matières chacun. Trouver la moyenne n'est pas sorcier, alors vous faites tout cela dans une feuille Excel. Maintenant, votre professeur vous demande de faire le même calcul pour toutes les sections A, B et C, d'environ 150 élèves. La feuille Excel est de nouveau suffisante. Maintenant, vous voulez savoir quelles seraient les notes moyennes pour les sciences obtenues par les élèves de 10e classe dans tout le pays, soit environ 14 311 861 élèves en 2016. Vous ne pouvez peut-être pas stocker autant de données dans une feuille Excel afin de les stocker dans une base de données comme MySQL ou Oracle. Vous exécutez une requête SQL pour trouver la moyenne. Maintenant, vous êtes curieux de savoir comment les moyennes ont évolué depuis les 20 dernières années en sciences pour la classe 10, soit environ 3000000 enregistrements. Si vous deviez trouver la moyenne des 5 sujets et pas seulement la science, vous manipuleriez 30000000 x 5 enregistrements. Les données sont désormais volumineuses, ce que l'on appelle également les «Big Data».

Big Data - des ensembles de données extrêmement volumineux qui peuvent être analysés par ordinateur pour révéler des modèles, des tendances et des associations, en particulier concernant le comportement humain et les interactions.

Vous ne devriez probablement pas stocker autant de données dans votre MySQL ou Oracle et exécuter votre requête SQL sur des millions d'enregistrements. Je n'ai jamais traité autant de données dans une base de données SQL, je ne commenterai donc pas ses performances, mais j'ai utilisé Hadoop pour gérer une quantité massive d'ensembles de données, beaucoup plus grande que la base de données des étudiants dont nous parlons. Hadoop est un framework qui distribue les données sur plusieurs systèmes afin que tous les systèmes puissent effectuer des calculs en parallèle, augmentant ainsi la vitesse globale de calcul, également appelée calcul distribué. Hadoop a son propre système de fichiers qui est un système de stockage de données pour les Big Data.

La science des données en termes simples est une science qui consiste à comprendre quoi faire avec les données, grandes ou petites. Jusqu'à présent, nous essayions seulement de trouver la moyenne des scores, mais un scientifique des données irait au-delà et chercherait des moyens de trouver ce qui peut être fait avec la moyenne. Pour une organisation, il les aidera à prendre des décisions commerciales et à trouver des modèles qui aideraient les patrons à prendre de meilleures décisions et à allouer des ressources pour augmenter les bénéfices. La plupart des spécialistes des données peuvent même ne pas utiliser Hadoop s'ils ne traitent pas de Big Data, ils utilisent généralement R lang ou Python pour leurs calculs.

Le Big Data est un concept, Hadoop est un outil, la science des données est un domaine de l'informatique.