본문 바로가기
PHP

[인코딩] 유니코드 인코딩 처리 (특히 json 입출력 시)

by 씨엔아이소프트 2021. 10. 22.
반응형

출처 :  https://hayjo.tistory.com/75

 

 

파이썬에서 데이터를 json으로 저장하면 유니코드 16진수로 저장된다.

딕셔너리를 json.dump() 메소드로 저장하면

import json 

before = {"테스트1": "test1", "테스트2": "test2", "테스트3": ["테스트3-1", "테스트3-2", "테스트3-3"], "테스트4": {"테스트4-1": "테스트4-1-1"}}

with open('sample.json', 'a+') as fp:
    json.dump(before, fp)

아래처럼 유니코드 16진수로 표현된다.

# sample.json
{"\ud14c\uc2a4\ud2b81": "test1", "\ud14c\uc2a4\ud2b82": "test2", "\ud14c\uc2a4\ud2b83": ["\ud14c\uc2a4\ud2b83-1", "\ud14c\uc2a4\ud2b83-2", "\ud14c\uc2a4\ud2b83-3"], "\ud14c\uc2a4\ud2b84": {"\ud14c\uc2a4\ud2b84-1": "\ud14c\uc2a4\ud2b84-1-1"}}

이대로 json.load() 메소드로 읽어오면 문제없이 저장한대로 출력된다.

with open('sample.json', 'r') as fp:
    after = json.load(fp)

print(after)
# {'테스트1': 'test1', '테스트2': 'test2', '테스트3': ['테스트3-1', '테스트3-2', '테스트3-3'], '테스트4': {'테스트4-
1': '테스트4-1-1'}}

데이터를 한글로 저장하고 싶다면, 저장시에 ensure_ascii=False 옵션을 넣어주면 된다.

[참조] 파이썬 JSON 저장시 유니코드 문자열 표시하기

import json 

before = {"테스트1": "test1", "테스트2": "test2", "테스트3": ["테스트3-1", "테스트3-2", "테스트3-3"], "테스트4": {"테스트4-1": "테스트4-1-1"}}

with open('sample2.json', 'a+', encoding="UTF-8") as fp:
    json.dump(before, fp, ensure_ascii=False)

저장시에 한글로 저장된 것을 확인할 수 있다.

# sample2.json
{"테스트1": "test1", "테스트2": "test2", "테스트3": ["테스트3-1", "테스트3-2", "테스트3-3"], "테스트4": {"테스트4-1": "테스트4-1-1"}}

 

 

만약 json 데이터를 dictonary가 아니라 str 타입으로 가져와야 하는데, 인코딩을 바꿔야 한다면

일단 json.load()로 받고 json.dumps()로 변환하는 게 이상적이다.

물론 ensure_ascii=False 옵션을 넣어줘야 한다. 생략할 경우 유니코드 문자열로 저장된다.

with open('sample.json', 'r', encoding="UTF-8") as fp:
    after = json.load(fp)

print(type(json.dumps(after, ensure_ascii=False))) # <class 'str'>
print(json.dumps(after, ensure_ascii=False)) # ensure_ascii 옵션을 잊지 말자
'''{"테스트1": "test1", "테스트2": "test2", "테스트3": ["테스트3-1", "테스트3-2", "테스트3-3"], "테스트4": {"테스트4-
1": "테스트4-1-1"}}'''

print(type(json.dumps(after))) # <class 'str'>
print(json.dumps(after))
'''{"\ud14c\uc2a4\ud2b81": "test1", "\ud14c\uc2a4\ud2b82": "test2", "\ud14c\uc2a4\ud2b83": ["\ud14c\uc2a4\ud2b83-1",
"\ud14c\uc2a4\ud2b83-2", "\ud14c\uc2a4\ud2b83-3"], "\ud14c\uc2a4\ud2b84": {"\ud14c\uc2a4\ud2b84-1": "\ud14c\uc2a4\
ud2b84-1-1"}}'''

 

그런데 어떤 이유로 인해 json.load()로 읽을 수가 없고 다른 기호들과 유니코드가 섞여버린 경우,

유니코드 16진수로 저장된 데이터를 그냥 인코딩 옵션만 주고 read()로 읽는 건 소용이 없기 때문에

with open('sample.json', 'r', encoding="ascii") as fp:
    noJson = fp.read()

print(noJson)
'''
{"\ud14c\uc2a4\ud2b81": "test1", "\ud14c\uc2a4\ud2b82": "test2", "\ud14c\uc2a4\ud2b83": ["\ud14c\uc2a4\ud2b83-1",
"\ud14c\uc2a4\ud2b83-2", "\ud14c\uc2a4\ud2b83-3"], "\ud14c\uc2a4\ud2b84": {"\ud14c\uc2a4\ud2b84-1": "\ud14c\uc2a4\
ud2b84-1-1"}}
'''

 

decode('unicode-escape') 메소드를 이용해야한다.

[참조] Convert a Unicode string to a string in Python (containing extra symbols)

with open('sample.json', 'r', encoding="UTF-8") as fp:
    noJson = fp.read()

print(noJson.encode().decode('unicode-escape'))

'''
{"테스트1": "test1", "테스트2": "test2", "테스트3": ["테스트3-1", "테스트3-2", "테스트3-3"], "테스트4": {"테스트4-
1": "테스트4-1-1"}}
'''

이 경우 encoding 설정은 유니코드 텍스트에 섞여있는 다른 기호들 기준으로 따라가면 된다.

나머지 기호에 인코딩 이슈가 없는 경우, 유니코드 문자열은 텍스트파일 출력시의 인코딩에 영향을 받지 않는다.

(latin1 이런 걸로 해도 잘 읽힌다. 어차피 유니코드기 때문에 상관없는듯하다.)

 

위의 'unicode-escape'는 str을 bytes로 인코딩할 때나, bytes-like object를 str으로 디코딩할 때 쓰인다. [공식문서는 이쪽]

데이터를 데이터.encode('unicode-escape').decode() 처리하면

json.dump(ensure_ascii=True)로 저장한 파일과 같은 결과를 얻을 수 있다.

beforeSTR = '{"테스트1": "test1", "테스트2": "test2", "테스트3": ["테스트3-1", "테스트3-2", "테스트3-3"], "테스트4": {"테스트4-1": "테스트4-1-1"}}'
print(beforeSTR.encode('unicode-escape'))
'''
b'{"\\ud14c\\uc2a4\\ud2b81": "test1", "\\ud14c\\uc2a4\\ud2b82": "test2", "\\ud14c\\uc2a4\\ud2b83": ["\\ud14c\\uc2a
4\\ud2b83-1", "\\ud14c\\uc2a4\\ud2b83-2", "\\ud14c\\uc2a4\\ud2b83-3"], "\\ud14c\\uc2a4\\ud2b84": {"\\ud14c\\uc2a4\
\ud2b84-1": "\\ud14c\\uc2a4\\ud2b84-1-1"}}'
'''

print(beforeSTR.encode('unicode-escape').decode())
'''
'{"\ud14c\uc2a4\ud2b81": "test1", "\ud14c\uc2a4\ud2b82": "test2", "\ud14c\uc2a4\ud2b83": ["\ud14c\uc2a4\ud2b83-1",
"\ud14c\uc2a4\ud2b83-2", "\ud14c\uc2a4\ud2b83-3"], "\ud14c\uc2a4\ud2b84": {"\ud14c\uc2a4\ud2b84-1": "\ud14c\uc2a4\
ud2b84-1-1"}}'
'''
반응형

댓글0