Quelle est la différence entre le Big Data, un grand ensemble de données, un flux de données et des données en streaming?


Réponse 1:
  • "Big data" est un mot à la mode utilisé pour désigner les applications et les contextes qui produisent ou consomment de grands ensembles de données. Une bonne définition d'un "grand ensemble de données" est: si vous essayez de traiter un petit ensemble de données naïvement, cela fonctionnera toujours . Si vous essayez de traiter naïvement un ensemble de données volumineux, cela prendra des ordres de grandeur plus long que acceptable (et épuisera peut-être également vos ressources informatiques). Par exemple, l'un des concepts de base des «mégadonnées» est connu sous le nom de MapReduce - un modèle de programmation parallèle dans lequel vous divisez votre ensemble de données en plus petits morceaux, puis vous avez des tâches / «travailleurs» distincts traitant vos données et les reconstituant ensemble. Si vous devez le faire pour que votre application s'exécute dans des délais acceptables, vous disposez d'un grand ensemble de données. Si un seul travail monolithique peut passer à travers votre ensemble de données dans un délai raisonnable, ce n'est pas si grand. La définition de ce qui est «raisonnable» ou «acceptable» dépend donc des exigences de votre application. Les «données en continu» sont des données qui continuent de vous accompagner même lorsque vous les traitez - l'opposé de l'approche «plus facile» où vous attendez d'abord. jusqu'à ce que vous ayez l'ensemble de données (disons, stocké dans un fichier ou une base de données) et que vous le traitiez. Un "flux de données" est une abstraction pour une telle donnée qui circule en continu. Par exemple, disons que vous surveillez les appels téléphoniques et que vous avez développé un réseau de neurones pour identifier chaque fois que quelqu'un a prononcé le mot «Al Qaeda». C'est une chose que d'exécuter cette application d'analyse sur un tas d'appels préenregistrés, et tout autre chose de la connecter avec le "flux de données" de tous les appels en cours actuellement. Cette dernière approche pourra vous avertir "en temps réel" lorsque quelqu'un prononce le mot magique (par exemple, vous pouvez commencer à écouter la conversation), mais elle est beaucoup plus sujette à des problèmes tels que: et si les mots viennent à travers séparés en deux morceaux? Et si les données arrivent plus rapidement que je ne peux les traiter? Etc.

Réponse 2:

Salut,

Voici ma compréhension.

Big Data - une quantité massive de données structurées, non structurées et semi-structurées, qui sont issues du commerce numérique. Le Big Data est très volumineux, élevé à la vitesse et divers types.

Grand ensemble de données - il peut s'agir d'un ensemble de données à un niveau gérable pour le traiter. Dans un environnement Big Data, lorsque nous parlons de Large Data Set, cela fait référence à un ensemble complexe de données structurées et non structurées. Les applications traditionnelles ne sont pas adéquates pour traiter de tels ensembles de données.

Streaming de données - est le transfert de données à une vitesse très élevée mais régulière. Dans les mégadonnées, nous référons le streaming de données à un processus où les données non structurées en temps réel doivent être traitées. Le meilleur exemple ici est le traitement des vidéos et des photos dans des scénarios en temps réel.

Tous les commentaires sont les bienvenus.