流日志数据

通常,大多数要分析的数据将由各种数据源(如应用程序服务器,社交网站,云服务器和企业服务器)生成。此数据将采用日志文件和事件的形式。

日志文件 - 通常,日志文件是列出操作系统中发生的事件/操作的文件。例如,Web 服务器列出日志文件中对服务器发出的每个请求。

在收集此类日志数据时,我们可以获得有关的信息 -

应用程序性能和定位各种软件和硬件故障。用户行为并获得更好的业务洞察力。将数据传输到 HDFS 系统的传统方法是使用 put 命令。让我们看看如何使用 put 命令。