尝试在SSIS中使用平面文件源加载UTF-8 CSV文件时,不断收到错误消息,指出它是ANSI文件格式

问题描述

我有一个SSIS数据流任务,该任务从CSV文件读取并将结果存储在表中。

我只是按行加载CSV文件(甚至不分隔列),并将整个行转储到数据库中,这非常简单。

该文件包含UTF-8字符,并且在我对此进行验证时,该文件也已经具有UTF BOM。

现在,当我使用平面文件连接加载文件时,当前具有以下设置:

  1. 已检查Unicode
  2. 高级编辑器将该列显示为“ Unicode文本流DT_NTEXT”。

运行程序包时,出现此错误:

[平面文件源[16]]错误:“平面文件的数据类型 Source.Outputs [平面文件源输出] .Columns [DataRow]“是DT_NTEXT, ANSI文件不支持。改用DT_TEXT和 使用数据转换组件将数据转换为DT_NTEXT。

[平面文件源[16]]错误:无法检索列信息 来自平面文件连接管理器。

它告诉我使用DT_TEXT,但是我的文件是UTF-8,它将丢失其编码,对吗?对我来说毫无意义。

我还尝试了未选中Unicode复选框,并将代码页设置为“ 65001 UTF-8”,但是仍然出现上述错误。

为什么说我的文件是ANSI文件?

我已经打开了文件,并将其保存为带有BOM的UTF-8。我对平面文件的预览确实正确显示了其他语言,例如中文和英文的组合。

当我不检查Unicode时,也会收到此错误消息,提示平面文件错误输出列为DT_TEXT,并且当我尝试将其更改为Unicode文本流时,它给了我一个弹出错误,并且不允许我执行做到这一点。

非常沮丧,希望有人可以指导我解决问题。

解决方法

多年来我一直面临同样的问题,在我看来这可能是 SQL Server 集成服务 (SSIS) 中平面文件连接提供程序的错误。我没有直接回答你的问题,但我有一个解决方法。在加载数据之前,我将所有 UTF-8 编码的文本文件转换为 UTF-16LE(Little Endian)。这很麻烦,文件占用的空间大约是未压缩空间的两倍,但是当将 Unicode 加载到 MS-SQL 中时,UTF-16LE 就可以了!

关于实际的转换步骤,我想说的是由您决定什么最适合您的工作流程。当我只有几个文件时,我会在文本编辑器中将它们一一转换,但是当我有很多文件时,我会使用 PowerShell。例如,

Powershell -c "Get-Content -Encoding UTF8 'C:\Source.csv' | Set-Content -Encoding Unicode 'C:\UTF16\Source.csv'"

相关问答

错误1:Request method ‘DELETE‘ not supported 错误还原:...
错误1:启动docker镜像时报错:Error response from daemon:...
错误1:private field ‘xxx‘ is never assigned 按Alt...
报错如下,通过源不能下载,最后警告pip需升级版本 Requirem...