Как улучшить код чтения текста с фото ?

Undergrowth · 20.02.2025

Менял в readtext методы и оставил такой вариант. Читает 2 из 5 капч. Капчи прикрепил

# Найденный текст: 8om5b5, Уверенность: 0.69
# Найденный текст: sg6xap, Уверенность: 0.40
# Найденный текст: 2ndbo5, Уверенность: 0.96
# Найденный текст: g01p2z4, Уверенность: 0.58
# Найденный текст: ggbeeo, Уверенность: 0.48

Код:

import os
import easyocr
import cv2


reader = easyocr.Reader(['en'], gpu=False)

for root, dir, files in os.walk('img'):
    for file in files:
        file = os.path.join(root, file)
        image = cv2.imread(file)

        result = reader.readtext(image)

        for detection in result:
            text = detection[1]
            confidence = detection[2]
            print(f"Найденный текст: {text}, Уверенность: {confidence:.2f}")

Exited3n · 20.02.2025

Undergrowth сказал(а):
Менял в readtext методы и оставил такой вариант. Читает 2 из 5 капч. Капчи прикрепил

# Найденный текст: 8om5b5, Уверенность: 0.69
# Найденный текст: sg6xap, Уверенность: 0.40
# Найденный текст: 2ndbo5, Уверенность: 0.96
# Найденный текст: g01p2z4, Уверенность: 0.58
# Найденный текст: ggbeeo, Уверенность: 0.48
Код:
import os
import easyocr
import cv2


reader = easyocr.Reader(['en'], gpu=False)

for root, dir, files in os.walk('img'):
    for file in files:
        file = os.path.join(root, file)
        image = cv2.imread(file)

        result = reader.readtext(image)

        for detection in result:
            text = detection[1]
            confidence = detection[2]
            print(f"Найденный текст: {text}, Уверенность: {confidence:.2f}")

Попробуй pytesseract

Код:

import cv2
import pytesseract
import time

pytesseract.pytesseract.tesseract_cmd = 'C:\\Program Files\\Tesseract-OCR\\tesseract.exe'

with open("image.png", "wb") as file:
    file.write(img.content)

captcha = cv2.imread("image.png")
text = pytesseract.image_to_string(captcha)
decoded = text.strip()
print(decoded)

Undergrowth · 20.02.2025

Exited3n сказал(а):

Попробуй pytesseract

Код:

import cv2
import pytesseract
import time

pytesseract.pytesseract.tesseract_cmd = 'C:\\Program Files\\Tesseract-OCR\\tesseract.exe'

with open("image.png", "wb") as file:
    file.write(img.content)

captcha = cv2.imread("image.png")
text = pytesseract.image_to_string(captcha)
decoded = text.strip()
print(decoded)

пробовал результат хуже

LongNight · 20.02.2025

НА самом деле, лучше всего для меня справился тессеракт, у него на удивление хорошо получается распознавать даже сильно замытые капчи

GitHub - tesseract-ocr/tesseract: Tesseract Open Source OCR Engine (main repository)

Tesseract Open Source OCR Engine (main repository) - tesseract-ocr/tesseract

github.com

а, только сейчас увидел про Pytesseract.

Undergrowth · 20.02.2025

LongNight сказал(а):

НА самом деле, лучше всего для меня справился тессеракт, у него на удивление хорошо получается распознавать даже сильно замытые капчи

GitHub - tesseract-ocr/tesseract: Tesseract Open Source OCR Engine (main repository)

Tesseract Open Source OCR Engine (main repository) - tesseract-ocr/tesseract

github.com

а, только сейчас увидел про Pytesseract.

а какой конфиг был ?

LongNight · 20.02.2025

Undergrowth сказал(а):

а какой конфиг был ?

даже приблизительно не скажу, это был 21 год

Exited3n · 20.02.2025

Undergrowth сказал(а):

пробовал результат хуже

У меня тессеракт подобные капчи, 85-90 из 100 делал

Undergrowth · 20.02.2025

Exited3n сказал(а):

У меня тессеракт подобные капчи, 85-90 из 100 делал

можешь попробовать решить мои ? Прикрепил 5 фоток если что баксов 50 кину за решение

Как улучшить код чтения текста с фото ?

Undergrowth

(L3) cache

Вложения

Exited3n

RAID-массив

Undergrowth

(L3) cache

LongNight

Премиум

GitHub - tesseract-ocr/tesseract: Tesseract Open Source OCR Engine (main repository)

Undergrowth

(L3) cache

GitHub - tesseract-ocr/tesseract: Tesseract Open Source OCR Engine (main repository)

LongNight

Премиум

Exited3n

RAID-массив

Undergrowth

(L3) cache