programing

"UTF8" 인코딩에 대한 바이트 시퀀스가 잘못되었습니다.

starjava 2023. 5. 17. 22:17
반응형

"UTF8" 인코딩에 대한 바이트 시퀀스가 잘못되었습니다.

데이터베이스로 데이터를 가져오려고 합니다.그래서 제가 임시 테이블을 만들었는데,

create temporary table tmp(pc varchar(10), lat decimal(18,12), lon decimal(18,12), city varchar(100), prov varchar(2));

이제 자료를 가져오려고 하는데,

 copy tmp from '/home/mark/Desktop/Canada.csv' delimiter ',' csv

하지만 그 다음에 오류가 발생합니다.

ERROR:  invalid byte sequence for encoding "UTF8": 0xc92c

어떻게 고칠까요?데이터베이스의 요? 할 수 요? 아니면 인코딩만 변경할 수 있습니까?tmp테이블? 아니면 파일의 인코딩을 변경해야 합니까?

UTF8 데이터를 데이터베이스에 저장해야 하는 경우, UTF8을 허용하는 데이터베이스가 필요합니다.pgAdmin에서 데이터베이스의 인코딩을 확인할 수 있습니다.데이터베이스를 마우스 오른쪽 단추로 클릭하고 "속성"을 선택합니다.

그러나 이 오류는 원본 파일에 잘못된 UTF8 데이터가 있음을 알려주는 것 같습니다.은 즉이copy유틸리티가 UTF8 파일을 제공하는 것을 감지하거나 추측했습니다.

일부 유닉스 버전에서 실행 중인 경우 유틸리티를 사용하여 인코딩을 확인할 수 있습니다.

$ file yourfilename
yourfilename: UTF-8 Unicode English text

(단말기의 Mac에서도 작동할 것으로 생각합니다.)Windows에서 이 작업을 수행하는 방법을 잘 모르겠습니다.

Windows 시스템에서 가져온 파일(즉, UTF8로 인코딩되지 않은 파일)에 동일한 유틸리티를 사용하면 다음과 같은 내용이 표시됩니다.

$ file yourfilename
yourfilename: ASCII text, with CRLF line terminators

이상한 상태가 계속되면 입력 데이터를 알려진 인코딩으로 변환하거나 클라이언트의 인코딩을 변경하거나 둘 다 변경하려고 할 수 있습니다.(우리는 인코딩에 대한 제 지식의 한계를 정말 넓히고 있습니다.)

유틸리티를 사용하여 입력 데이터의 인코딩을 변경할 수 있습니다.

iconv -f original_charset -t utf-8 originalfile > newfile

문자 집합 지원의 지침에 따라 psql(클라이언트) 인코딩을 변경할 수 있습니다.이 페이지에서 "자동 문자 집합 변환을 사용하려면" 구문을 검색합니다.

psql=# copy tmp from '/path/to/file.csv' with delimiter ',' csv header encoding 'windows-1251';

추가하기encoding내 경우에는 옵션이 작동했습니다.

변환할 수 없는 문자를 삭제해도 문제가 없으면 다음을 사용할 수 있습니다.-c

iconv -c -t utf8 filename.csv > filename.utf8.csv

그리고 나서 그것들을 당신의 테이블에 복사합니다.

암호화를 즉석에서 설정할 수 있을 것 같은데,

 set client_encoding to 'latin1'

그런 다음 쿼리를 다시 실행합니다.하지만 어떤 인코딩을 사용해야 할지 잘 모르겠습니다.


latin1글자들을 읽기 쉽게 만들었지만, 대부분의 악센트가 있는 글자들은 대문자여서는 안 되는 곳에 있었습니다.저는 이것이 잘못된 인코딩으로 인한 것이라고 생각했지만, 사실은 데이터가 나빴다고 생각합니다.저는 latin1 인코딩은 유지했지만 데이터를 전처리하고 케이스 문제를 해결했습니다.

이 오류는 파일의 레코드 인코딩이 연결과 관련하여 다르다는 것을 의미합니다.이 경우 iconv가 //IGNORE 플래그에도 불구하고 오류를 반환할 수 있습니다.

iconv -f ASCII -tutf-8//IGNORE < b.txt > /a.txt

iconv: 위치의 잘못된 입력 시퀀스(일부 숫자)

비결은 잘못된 문자를 찾아 교체하는 것입니다.Linux에서 이 작업을 수행하려면 "vim" 편집기를 사용합니다.

vim(문자 파일), "ESC": 버튼을 누르고 ":goto(아이콘v에서 반환된 번호)"를 입력합니다.

ASCII가 아닌 문자를 찾으려면 다음 명령을 사용할 수 있습니다.

grep --color='auto' -P "[\x80-\xFF]"

잘못된 문자를 제거한 경우 파일을 변환해야 하는지 확인하십시오. 문제는 이미 해결되었을 수 있습니다.

저도 같은 문제가 있었습니다: 제 파일이 UTF-8로 인코딩되지 않았습니다. 저는 메모장++로 파일을 열고 파일의 인코딩을 변경하여 해결했습니다.

"인코딩"으로 이동하여 "UTF-8로 변환"을 선택합니다. 변경 내용을 저장하면 끝입니다!

pgadmin에서 이 문제를 해결하려면 다음 단계를 수행합니다.

  1. SET client_encoding = 'ISO_8859_5';

  2. COPY tablename(column names) FROM 'D:/DB_BAK/csvfilename.csv' WITH DELIMITER ',' CSV ;

가져오기 파일을 생성한 컴퓨터/인코딩 유형에 따라 다릅니다.

영어 또는 서유럽 버전의 Windows(윈도우)에서 다운로드한 경우 'WIN1252'로 설정하는 것이 가장 좋습니다.다른 소스에서 가져온 경우 여기에서 문자 인코딩 목록을 참조하십시오.

http://www.postgresql.org/docs/8.3/static/multibyte.html

Mac에서 사용하는 경우 MacRoman에서 UTF-8로 변환하기 위해 먼저 "iconv" 유틸리티를 통해 사용해야 할 수도 있습니다.

저도 같은 문제에 직면했습니다.그리고 제 문제를 해결한 것은 다음과 같습니다.

Excel에서 다른 이름으로 저장을 클릭합니다.유형으로 저장에서 .csv 도구 클릭 선택합니다.그런 다음 드롭다운 목록에서 웹 옵션을 선택합니다.[인코딩] 에서 문서를 유니코드(UTF-8)로 저장합니다.확인을 클릭합니다.파일을 저장합니다.

copy tablename from 'filepath\filename' DELIMITERS '=' ENCODING 'WIN1252';

UTF8 인코딩을 처리할 수 있습니다.

PHP에서 이 문제를 해결하기 위한 간단한 예

$val = "E'\377'";
iconv(mb_detect_encoding($val, mb_detect_order(), true), "UTF-8", $val);

오류 세부 정보:POSTGRES 데이터베이스는 UTF-8 문자 이외의 다른 문자를 처리하지 않기 때문에 위의 입력을 열에 전달하려고 하면 "UTF8: 0xab 인코딩을 위한 잘못된 바이트 시퀀스" 오류가 발생합니다.

따라서 POSTGRES 데이터베이스에 삽입하기 전에 해당 값을 UTF-8로 변환하기만 하면 됩니다.

psql(그래픽 도구 없음)만을 사용하여 작업하던 중 Windows에서 이 문제가 발생했습니다.이 문제를 해결하려면 psql(클라이언트)의 기본 인코딩을 Postgre의 기본 인코딩과 일치하도록 영구적으로 변경합니다.SQL 서버.CMD 또는 Powershell에서 다음 명령을 실행합니다.

setx PGCLIENTENCODING UTF8

변경 내용을 적용하려면 명령 프롬프트/Powershell을 닫았다가 다시 엽니다.

메모장에서 백업 파일을 열고 파일 -> 다른 이름으로 저장으로 이동하여 백업 파일의 인코딩을 유니코드에서 UTF8로 변경합니다.Encoding 드롭다운을 Unicode에서 UTF8로 변경합니다. 백업 파일 이름에 .txt 확장자가 추가되지 않도록 Save as type을 Text Documents(.txt)에서 All Files(모든 파일)로 변경하십시오.이제 백업을 복원할 수 있습니다.

csv 파일을 excel로 열고 utf8-csv 형식으로 저장합니다.

저도 같은 문제가 있었는데 여기서 좋은 해결책을 찾았습니다. http://blog.e-shell.org/134

이는 데이터베이스 인코딩의 불일치로 인해 발생합니다. SQL 덤프를 가져온 데이터베이스는 SQL_ASCII로 인코딩되었지만 새 데이터베이스는 UTF8로 인코딩되었기 때문입니다.Recode는 GNU 프로젝트의 작은 도구로 지정된 파일의 인코딩을 즉시 변경할 수 있습니다.

그래서 저는 덤프 파일을 재생하기 전에 녹음했습니다.

postgres> gunzip -c /var/backups/pgall_b1.zip | recode iso-8859-1..u8 | psql test

데비안 또는 Ubuntu 시스템에서는 패키지를 통해 재코드를 설치할 수 있습니다.

입력 데이터에 이스케이프 문자 자체가 포함된 경우 이 오류가 발생할 수 있습니다.기본적으로 이스케이프 문자는 "\" 기호이므로 입력 텍스트에 "\" 문자가 포함된 경우 이스케이프 옵션을 사용하여 기본값을 변경해 보십시오.

백슬래시 문자를 파이프 문자와 같이 sed로 바꿀 수 있습니다.

sed -i -- 's/\\/|/g' filename.txt

Python의 경우 다음을 사용해야 합니다.

클래스 pg8000.types.Byta(str) Byta는 Postgre에 매핑된 str 파생 클래스입니다.SQL 바이트 배열입니다.

또는

페이지8000.이진(값) 이진 데이터를 보유한 개체를 구성합니다.

노트패드++로 CSV 파일 열기 메뉴 선택Encoding\Encoding in UTF-8그런 다음 몇 개의 셀을 수동으로 수정합니다.

그런 다음 가져오기를 다시 시도합니다.

pgadmin v4.4가 설치된 윈도우즈의 대체 원인:

ASCII가 아닌 문자가 포함된 열 이름은 어떤 식으로든 다음을 엉망으로 만듭니다.psql명령을 가져오면 이 직관적이지 않은 오류 메시지가 표시됩니다.UTF8 csv 데이터는 아마 정상일 것입니다.

솔루션:

필드 이름을 변경합니다.

예:

"Résultat" -> resultat

다음 명령을 사용하여 문제 라인을 식별하는 것이 좋습니다.

grep -naxv '.*' source_data.txt

이 오류로 인해 필드가 제자리에서 암호화될 수도 있습니다.올바른 표를 보고 있는지 확인하십시오. 경우에 따라 관리자가 암호화되지 않은 보기를 작성하여 대신 사용할 수 있습니다.저는 최근에 매우 비슷한 문제에 직면했습니다.

Excel에서 생성한 CSV를 Postgres 테이블(모두 Mac)에 복사하려고 할 때 동일한 오류가 발생했습니다.이렇게 해결했습니다.

Atom(사용하는 IDE)에서 파일 열기

파일을 중요하게 변경합니다.파일을 저장합니다.변경 내용을 취소합니다.다시 저장합니다.

Presto! 복사 명령이 작동합니다.

(아톰이 작동하는 형식으로 저장한 것 같습니다.)

Server에서 유니코드가 있는 을 CSV " SQL Server "로 수 .UTF-8:

Right-Click DB > Tasks > Export > 'SQL Server Native Client 11.0' >> 'Flat File Destination > File name: ... > Code page: UTF-8 >> ...

다음 페이지에서는 테이블에서 데이터를 복사할지 쿼리를 쓸지 묻습니다.가지고 계신다면,char또는varchar한 후 을 "" "" "" "" "" "" "" ""로합니다.nvarchar(max)예를 들어myTable첫 번째 열이 있는 두 개의 열이 있습니다.varchar 두 는 고두리번째그번째.int내가 첫 번째를 캐스팅했습니다.nvarchar:

select cast (col1 as nvarchar(max)) col1
       , col2
from myTable

일부 롤랑은 매우 샘플일 수 있습니다.

이 문제 때문에 commun 이름에 공백이 있으면 됩니다.

를 들어 열 합니다."colum_name "#>rong #>rong #>right

언급URL : https://stackoverflow.com/questions/4867272/invalid-byte-sequence-for-encoding-utf8

반응형