从在线数据集中将数据加载到Hive表后，获取NULL值

问题描述

我正在尝试使用hue接口将在线数据集中的数据加载到我的蜂巢表中，但是我得到的是NULL值。

这是我的数据集：

https://www.kaggle.com/psparks/instacart-market-basket-analysis?select=aisles.csv

这是我的代码：

CREATE TABLE IF NOT EXISTS AISLES (aisles_id INT,aisles STRING)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
LInes TERMINATED BY '\n'
STORED AS TEXTFILE
tblproperties("skip.header.line.count"="1");

这是我加载数据的方式：

LOAD DATA LOCAL INPATH '/home/hadoop/aisles.csv' INTO TABLE aisles;

我的解决方法，但不可行：

FIELDS TERMINATED BY ','
FIELDS TERMINATED BY '\t'
FIELDS TERMINATED BY ''
FIELDS TERMINATED BY ' '

还尝试删除LInes TERMINATED BY '\n'

这是我下载数据的方式：

[hadoop@ip-172-31-76-58 ~]$ wget -O aisles.csv "https://www.kaggle.com/psparks/instacart-market-basket-analysis?select=aisles.csv"
--2020-10-14 23:50:06--  https://www.kaggle.com/psparks/instacart-market-basket-analysis?select=aisles.csv
Resolving www.kaggle.com (www.kaggle.com)... 35.244.233.98
Connecting to www.kaggle.com (www.kaggle.com)|35.244.233.98|:443... connected.
HTTP request sent,awaiting response... 200 OK
Length: unspecified [text/html]
Saving to: ‘aisles.csv’

我检查了我创建的表的位置，这就是它说的；

hdfs://ip-172-31-76-58.ec2.internal:8020/user/hive/warehouse/aisles

我尝试浏览目录，查看文件的保存位置：

[hadoop@ip-172-31-76-58 ~]$ hdfs dfs -ls /user/hive/warehouse
Found 1 items
drwxrwxrwt   - arjieSAEnz hadoop          0 2020-10-15 00:57 /user/hive/warehouse/aisles

因此，我试图像这样更改加载脚本；

LOAD DATA INPATH '/user/hive/warehouse/aisles.csv' INTO TABLE aisles;

但是我得到一个错误：

Error while compiling statement: Failed: SemanticException line 6:61 Invalid path ''/user/hive/warehouse/aisles.csv'': No files matching path hdfs://ip-172-31-76-58.ec2.internal:8020/user/hive/warehouse/aisles.csv

希望有人可以帮助我找出我的代码中的问题。

谢谢。

解决方法

我在hadoop集群上尝试了相同的方法。该代码可以正常工作。这是我的执行片段：

    hive> CREATE TABLE IF NOT EXISTS AISLES (aisles_id INT,aisles STRING)
    > ROW FORMAT DELIMITED
    > FIELDS TERMINATED BY ','
    > LINES TERMINATED BY '\n'
    > STORED AS TEXTFILE
    > tblproperties("skip.header.line.count"="1");
OK
Time taken: 0.034 seconds
hive> load data inpath '/user/hirwuser1448/aisles.csv' into table AISLES;
Loading data to table revisit.aisles
Table revisit.aisles stats: [numFiles=1,totalSize=2603]
OK
Time taken: 0.183 seconds
hive> select * from AISLES limit 10;
OK
1       prepared soups salads
2       specialty cheeses
3       energy granola bars
4       instant foods
5       marinades meat preparation
6       other
7       packaged meat
8       bakery desserts
9       pasta sauce
10      kitchen supplies
Time taken: 0.038 seconds,Fetched: 10 row(s)

我认为您需要交叉检查您的数据集 aisles.csv 是否位于hdfs位置，而不是存储在本地目录中。

问题出在您的负载cmd。

LOAD DATA INPATH '/user/hive/warehouse/aisles.csv' INTO TABLE aisles;

我看到您尝试浏览目录以查看保存的文件。您在该目录下看到aisles.csv吗？如果文件存在，则说明您在加载cmd中输入的路径错误，否则文件根本不存在。

我找到了一种解决方法，方法是下载数据集并将其上传到Amazon S3存储桶，并在LOAD命令中使用S3路径。

hdfs hive hiveql null null null