출처 : https://hayjo.tistory.com/75
파이썬에서 데이터를 json으로 저장하면 유니코드 16진수로 저장된다.
딕셔너리를 json.dump() 메소드로 저장하면
import json
before = {"테스트1": "test1", "테스트2": "test2", "테스트3": ["테스트3-1", "테스트3-2", "테스트3-3"], "테스트4": {"테스트4-1": "테스트4-1-1"}}
with open('sample.json', 'a+') as fp:
json.dump(before, fp)
아래처럼 유니코드 16진수로 표현된다.
# sample.json
{"\ud14c\uc2a4\ud2b81": "test1", "\ud14c\uc2a4\ud2b82": "test2", "\ud14c\uc2a4\ud2b83": ["\ud14c\uc2a4\ud2b83-1", "\ud14c\uc2a4\ud2b83-2", "\ud14c\uc2a4\ud2b83-3"], "\ud14c\uc2a4\ud2b84": {"\ud14c\uc2a4\ud2b84-1": "\ud14c\uc2a4\ud2b84-1-1"}}
이대로 json.load() 메소드로 읽어오면 문제없이 저장한대로 출력된다.
with open('sample.json', 'r') as fp:
after = json.load(fp)
print(after)
# {'테스트1': 'test1', '테스트2': 'test2', '테스트3': ['테스트3-1', '테스트3-2', '테스트3-3'], '테스트4': {'테스트4-
1': '테스트4-1-1'}}
데이터를 한글로 저장하고 싶다면, 저장시에 ensure_ascii=False 옵션을 넣어주면 된다.
[참조] 파이썬 JSON 저장시 유니코드 문자열 표시하기
import json
before = {"테스트1": "test1", "테스트2": "test2", "테스트3": ["테스트3-1", "테스트3-2", "테스트3-3"], "테스트4": {"테스트4-1": "테스트4-1-1"}}
with open('sample2.json', 'a+', encoding="UTF-8") as fp:
json.dump(before, fp, ensure_ascii=False)
저장시에 한글로 저장된 것을 확인할 수 있다.
# sample2.json
{"테스트1": "test1", "테스트2": "test2", "테스트3": ["테스트3-1", "테스트3-2", "테스트3-3"], "테스트4": {"테스트4-1": "테스트4-1-1"}}
만약 json 데이터를 dictonary가 아니라 str 타입으로 가져와야 하는데, 인코딩을 바꿔야 한다면
일단 json.load()로 받고 json.dumps()로 변환하는 게 이상적이다.
물론 ensure_ascii=False 옵션을 넣어줘야 한다. 생략할 경우 유니코드 문자열로 저장된다.
with open('sample.json', 'r', encoding="UTF-8") as fp:
after = json.load(fp)
print(type(json.dumps(after, ensure_ascii=False))) # <class 'str'>
print(json.dumps(after, ensure_ascii=False)) # ensure_ascii 옵션을 잊지 말자
'''{"테스트1": "test1", "테스트2": "test2", "테스트3": ["테스트3-1", "테스트3-2", "테스트3-3"], "테스트4": {"테스트4-
1": "테스트4-1-1"}}'''
print(type(json.dumps(after))) # <class 'str'>
print(json.dumps(after))
'''{"\ud14c\uc2a4\ud2b81": "test1", "\ud14c\uc2a4\ud2b82": "test2", "\ud14c\uc2a4\ud2b83": ["\ud14c\uc2a4\ud2b83-1",
"\ud14c\uc2a4\ud2b83-2", "\ud14c\uc2a4\ud2b83-3"], "\ud14c\uc2a4\ud2b84": {"\ud14c\uc2a4\ud2b84-1": "\ud14c\uc2a4\
ud2b84-1-1"}}'''
그런데 어떤 이유로 인해 json.load()로 읽을 수가 없고 다른 기호들과 유니코드가 섞여버린 경우,
유니코드 16진수로 저장된 데이터를 그냥 인코딩 옵션만 주고 read()로 읽는 건 소용이 없기 때문에
with open('sample.json', 'r', encoding="ascii") as fp:
noJson = fp.read()
print(noJson)
'''
{"\ud14c\uc2a4\ud2b81": "test1", "\ud14c\uc2a4\ud2b82": "test2", "\ud14c\uc2a4\ud2b83": ["\ud14c\uc2a4\ud2b83-1",
"\ud14c\uc2a4\ud2b83-2", "\ud14c\uc2a4\ud2b83-3"], "\ud14c\uc2a4\ud2b84": {"\ud14c\uc2a4\ud2b84-1": "\ud14c\uc2a4\
ud2b84-1-1"}}
'''
decode('unicode-escape') 메소드를 이용해야한다.
[참조] Convert a Unicode string to a string in Python (containing extra symbols)
with open('sample.json', 'r', encoding="UTF-8") as fp:
noJson = fp.read()
print(noJson.encode().decode('unicode-escape'))
'''
{"테스트1": "test1", "테스트2": "test2", "테스트3": ["테스트3-1", "테스트3-2", "테스트3-3"], "테스트4": {"테스트4-
1": "테스트4-1-1"}}
'''
이 경우 encoding 설정은 유니코드 텍스트에 섞여있는 다른 기호들 기준으로 따라가면 된다.
나머지 기호에 인코딩 이슈가 없는 경우, 유니코드 문자열은 텍스트파일 출력시의 인코딩에 영향을 받지 않는다.
(latin1 이런 걸로 해도 잘 읽힌다. 어차피 유니코드기 때문에 상관없는듯하다.)
위의 'unicode-escape'는 str을 bytes로 인코딩할 때나, bytes-like object를 str으로 디코딩할 때 쓰인다. [공식문서는 이쪽]
데이터를 데이터.encode('unicode-escape').decode() 처리하면
json.dump(ensure_ascii=True)로 저장한 파일과 같은 결과를 얻을 수 있다.
beforeSTR = '{"테스트1": "test1", "테스트2": "test2", "테스트3": ["테스트3-1", "테스트3-2", "테스트3-3"], "테스트4": {"테스트4-1": "테스트4-1-1"}}'
print(beforeSTR.encode('unicode-escape'))
'''
b'{"\\ud14c\\uc2a4\\ud2b81": "test1", "\\ud14c\\uc2a4\\ud2b82": "test2", "\\ud14c\\uc2a4\\ud2b83": ["\\ud14c\\uc2a
4\\ud2b83-1", "\\ud14c\\uc2a4\\ud2b83-2", "\\ud14c\\uc2a4\\ud2b83-3"], "\\ud14c\\uc2a4\\ud2b84": {"\\ud14c\\uc2a4\
\ud2b84-1": "\\ud14c\\uc2a4\\ud2b84-1-1"}}'
'''
print(beforeSTR.encode('unicode-escape').decode())
'''
'{"\ud14c\uc2a4\ud2b81": "test1", "\ud14c\uc2a4\ud2b82": "test2", "\ud14c\uc2a4\ud2b83": ["\ud14c\uc2a4\ud2b83-1",
"\ud14c\uc2a4\ud2b83-2", "\ud14c\uc2a4\ud2b83-3"], "\ud14c\uc2a4\ud2b84": {"\ud14c\uc2a4\ud2b84-1": "\ud14c\uc2a4\
ud2b84-1-1"}}'
'''
'PHP' 카테고리의 다른 글
php 간단 심플한 달력만들기 (0) | 2021.11.21 |
---|---|
간단한 캡차파일 만들기 captcha (0) | 2021.11.21 |
str_replace php 문자열치환 (0) | 2021.08.25 |
phpmyadmin 이제 설정 파일은 암호화 문자열(blowfish_scret) 을 필요로 합니다. (0) | 2021.08.12 |
php 컴파일시 make: *** [ext/dom/node.lo] 오류시 (0) | 2021.08.03 |
댓글