помогите со скриптом

redeyex · 26.04.2021

Есть множество sql файлов, где есть вот такие данные
"..\\u043f\\u043e\\u0434\\u043f\\u0438\\u0441\\u0447\\u0438\\u043a\\u0430.."

это uncode escape последовательность (только с двойным \)

помогите со скриптом, которые поможет всё данные такого вида внутри файлов преобразовать в обычный текст (utf-8)..

чтобы работало

script.py input.sql output.sql

можно и не на питоне

KERNELRW · 26.04.2021

redeyex сказал(а):

Есть множество sql файлов, где есть вот такие данные
"..\\u043f\\u043e\\u0434\\u043f\\u0438\\u0441\\u0447\\u0438\\u043a\\u0430.."

это uncode escape последовательность (только с двойным \)

помогите со скриптом, которые поможет всё данные такого вида внутри файлов преобразовать в обычный текст (utf-8)..

чтобы работало

script.py input.sql output.sql

можно и не на питоне

https://letmegooglethat.com/?q=unicode+unescape+online

lordTK · 27.04.2021

line = '\\u043f\\u043e\\u0434\\u043f\\u0438\\u0441\\u0447\\u0438\\u043a\\u0430'
print(line.encode('utf-8').decode('unicode-escape'))

>>> подписчика

redeyex · 27.04.2021

нужен готовый скрипт куда загружаешь input кучу файлов (txt sql неважно), а на выходе он декодит unicode-escape которые встретит в файлах и сохраняет...

lordTK · 28.04.2021

Python:

#!/usr/bin/python3
# -*- coding: utf-8 -*-
import re
import sys

for line in sys.stdin:
    s = re.sub(r'(\\u[0-9A-Fa-f]+)', lambda matchobj: chr(int(matchobj.group(0)[2:], 16)), line.strip())
    print(re.sub(r'(\\)', '', s))

Запуск:

cat input.sql | script.py > output.sql

Осторожно, алгоритм жаден до символа '\'

Ещё можно дамп открывать EmEditor'ом, ctrl+a --> Правка --> Кодировать/декодировать выделенный фрагмент --> Универсальные имена символов в Юникод

Guron_18 · 28.04.2021

Python:

print(b'\\u043f\\u043e\\u0434\\u043f\\u0438\\u0441\\u0447\\u0438\\u043a\\u0430'.decode('unicode-escape'))

redeyex · 29.04.2021

а как поменять скрипт чтобы запуск был
script.py input.sql output.sql
?

lordTK сказал(а):
Python:
#!/usr/bin/python3
# -*- coding: utf-8 -*-
import re
import sys

for line in sys.stdin:
    s = re.sub(r'(\\u[0-9A-Fa-f]+)', lambda matchobj: chr(int(matchobj.group(0)[2:], 16)), line.strip())
    print(re.sub(r'(\\)', '', s))
Запуск:

cat input.sql | script.py > output.sql

Осторожно, алгоритм жаден до символа '\'

Ещё можно дамп открывать EmEditor'ом, ctrl+a --> Правка --> Кодировать/декодировать выделенный фрагмент --> Универсальные имена символов в Юникод

lordTK · 30.04.2021

Python:

#!/usr/bin/python3
# -*- coding: utf-8 -*-
import re
import sys

with open('input.sql', 'r', encoding='utf-8') as file, open('output.sql', 'w', encoding='utf-8') as fl:
    for line in file:
        if len(line) > 0:
            s = re.sub(r'(\\u[0-9A-Fa-f]+)', lambda matchobj: chr(int(matchobj.group(0)[2:], 16)), line.strip())
            fl.write(str(re.sub(r'(\\)', '', s)+'\n'))
            print(str(re.sub(r'(\\)', '', s)))

redeyex · 30.04.2021

не, я имею ввиду чтобы имена input.sql output.sql брались из параметров
script.py input.sql output.sql
а не были прописали в теле скрипта

script.py файл1 файл2

lordTK сказал(а):

Python:

#!/usr/bin/python3
# -*- coding: utf-8 -*-
import re
import sys

with open('input.sql', 'r', encoding='utf-8') as file, open('output.sql', 'w', encoding='utf-8') as fl:
    for line in file:
        if len(line) > 0:
            s = re.sub(r'(\\u[0-9A-Fa-f]+)', lambda matchobj: chr(int(matchobj.group(0)[2:], 16)), line.strip())
            fl.write(str(re.sub(r'(\\)', '', s)+'\n'))
            print(str(re.sub(r'(\\)', '', s)))

corax · 08.05.2021

redeyex сказал(а):

не, я имею ввиду чтобы имена input.sql output.sql брались из параметров
script.py input.sql output.sql
а не были прописали в теле скрипта

script.py файл1 файл2

Python:

#!/usr/bin/python3
# -*- coding: utf-8 -*-
import re
import sys

for arg in sys.argv[1:]:
    with open(arg, 'r', encoding='utf-8') as file, open('out_'+arg, 'w', encoding='utf-8') as fl:
        for line in file:
            if len(line) > 0:
                s = re.sub(r'(\\u[0-9A-Fa-f]+)', lambda matchobj: chr(int(matchobj.group(0)[2:], 16)), line.strip())
                fl.write(str(re.sub(r'(\\)', '', s)+'\n'))
                print(str(re.sub(r'(\\)', '', s)))

помогите со скриптом

redeyex

(L3) cache

KERNELRW

RAM

lordTK

CD-диск

redeyex

(L3) cache

lordTK

CD-диск

Guron_18

floppy-диск

redeyex

(L3) cache

lordTK

CD-диск

redeyex

(L3) cache

corax

Премиум