• XSS.stack #1 – первый литературный журнал от юзеров форума

Как извлечь фулл нейм, дата рождение и телефон номер из pdf, text, xlsx и другие форматы

SamuelD

HDD-drive
Пользователь
Регистрация
30.04.2023
Сообщения
27
Реакции
2
Ребята, подскажите пожалуйста, как извлечь фулл нейм, дата рождение, телефон номер и другие нужные данные из pdf, text, csv, json. Я в этой сфере новичок, и нуждаюсь совете от знающих людей. Я искал во многих форумах, возможно плохо искал, и фри софты некорректно работают или у меня кривая рука. Посоветуйте пожалуйста через какие софты можно извлечь, можно и платные софты и бесплатные тоже приветствуется.
 
Пожалуйста, обратите внимание, что пользователь заблокирован
Tabula, PDFTables, Pandas (библиотека для питона). Есть мнго всего, надо знать как выглядит документ, чтобы понять как извлекать
 
ну так пишешь csv, json. HR как из разведки, пассатижами информацию тянем (
я написал pdf, text, csv, json))) я только устроился на работу, когда дали мне задачу, я сказал что знаю))) но самом деле нет, и тут сижу и ищу информацию и прошу помощи 😄
 
я написал pdf, text, csv, json))) я только устроился на работу, когда дали мне задачу, я сказал что знаю))) но самом деле нет, и тут сижу и ищу информацию и прошу помощи 😄
Для полного понимания проблемы лучше выложить пдф

А так, 315 файлов не так и много, чтобы копипастом из пдфа в текст вставить. Это бытсрее будет, если очень начинающий программист
 
В ручную я так и сдела, но если в следующий раз отправят мне 1500 резюме, то я даже не представляю как в ручную все это делать))) вот таком виде, но у всех резюме разные.
 

Вложения

  • ResumeKirtiK.pdf
    106.2 КБ · Просмотры: 9
Они в формате csv?
Понятно, хочешь сюда pdf скинуть, чтобы мы посмотрели?
Tabula, PDFTables, Pandas (библиотека для питона). Есть мнго всего, надо знать как выглядит документ, чтобы понять как извлекать
Ребята, подскажите, как оставить только фулл нейм и номера, остальное удалить)) формат sql
 
Ребята, подскажите, как оставить только фулл нейм и номера, остальное удалить)) формат sql
Для тебя наверное будет самое простое скачать этот триал https://www.fullconvert.com/
Дальше качнуть xampp
И то и другое - кнопочки да, согласен, да форматнуть винт, да принять все соглашения.
Потом сконвертить этой прогой SQL в CSV и удалить там столбцы.

Все остальное сложнее
 
Для тебя наверное будет самое простое скачать этот триал https://www.fullconvert.com/
Дальше качнуть xampp
И то и другое - кнопочки да, согласен, да форматнуть винт, да принять все соглашения.
Потом сконвертить этой прогой SQL в CSV и удалить там столбцы.

Все остальное сложнее
каждый раз сносить винду?)) выглядит вот так какое регулярное выражение можно использовать в notepad++, что бы только фулл нейм и тел номер вытащить(плюс почту)
12.png
 
каждый раз сносить винду?)) выглядит вот так какое регулярное выражение можно использовать в notepad++, что бы только фулл нейм и тел номер вытащить(плюс почту)Посмотреть вложение 56346
Нет, не каждый раз сносить.
За пару дней освоить реально как работать с SQL и без этой программы, которую я привел в качестве простейшего варианта.
Но если ты даже вот этот файл не можешь обработать обычным текстовым редактором, то тут уже, думаю в ближайший год тебе ничем не поможешь.
 
ТС 0.5 Битка закидывай и все тебе расскажем, даже с картинками сделаем, что даже ребенок поймет)))
 
<k
Для тебя наверное будет самое простое скачать этот триал https://www.fullconvert.com/
Дальше качнуть xampp
И то и другое - кнопочки да, согласен, да форматнуть винт, да принять все соглашения.
Потом сконвертить этой прогой SQL в CSV и удалить там столбцы.

Все остальное сложнее
Благодарю))) что уделил время 😊 сейчас буду пробовать
ТС 0.5 Битка закидывай и все тебе расскажем, даже с картинками сделаем, что даже ребенок поймет)))
хахахахахахахха, а че мелочиться то, го сразу одну битку скину 😁


вопрос остается еще открытым, какие еще методы есть, прошу поделится
 
<k

Благодарю))) что уделил время 😊 сейчас буду пробовать

хахахахахахахха, а че мелочиться то, го сразу одну битку скину 😁


вопрос остается еще открытым, какие еще методы есть, прошу поделится
Я как бы не против))жду.... Но придется два раза все расписывать))
А так вот что тебе ИИ ответил:
Извлечение данных из разных форматов файлов может быть выполнено различными способами, в зависимости от того, какую информацию вы хотите получить и в каком формате находится исходный файл. Ниже приведены некоторые общие методы извлечения данных из разных типов файлов:

  1. PDF: Для извлечения данных из PDF-файла можно использовать библиотеку PyPDF2 в Python. Например, следующий код показывает, как извлечь текст из PDF-файла:
    Код:
    import PyPDF2
    # Открываем файл PDF
    pdf_file = open('example.pdf', 'rb')
    
    # Создаем объект PDF-документа
    pdf_reader = PyPDF2.PdfReader(pdf_file)
    
    # Получаем количество страниц в документе
    num_pages = pdf_reader.numPages
    
    # Извлекаем текст со всех страниц
    text = ''
    for page in range(num_pages):
        page_obj = pdf_reader.getPage(page)
        text += page_obj.extractText()
    
    # Закрываем файл PDF
    pdf_file.close()
    Если вы хотите извлечь конкретные данные, например, имена, даты рождения и номера телефонов, вам может потребоваться использовать регулярные выражения или другие методы анализа текста для поиска соответствующих шаблонов.
  2. Text: Для извлечения данных из текстового файла можно использовать стандартные методы чтения файла в Python, например, следующий код показывает, как прочитать содержимое текстового файла и разделить его на строки:
    Код:
    # Открываем файл текстаtext_file = open('example.txt', 'r')
    
    # Читаем содержимое файла
    text = text_file.read()
    
    # Разделяем содержимое на строки
    lines = text.split('\n')
    
    # Закрываем файл текста
    text_file.close()


    Если вы знаете, какие данные вы ищете, вы можете использовать методы анализа текста для поиска соответствующих шаблонов.
  3. CSV: Для извлечения данных из CSV-файла можно использовать библиотеку Pandas в Python. Например, следующий код показывает, как прочитать содержимое CSV-файла и создать объект DataFrame:
    Код:
    import pandas as pd
    # Читаем содержимое CSV-файла
    df = pd.read_csv('example.csv')
    
    # Получаем нужные данные из DataFrame
    full_name = df['full_name']
    date_of_birth = df['date_of_birth']
    phone_number = df['phone_number']
  4. JSON: Для извлечения данных из файла JSON можно использовать стандартную библиотеку json в Python. Например, следующий код показывает, как прочитать содержимое файла JSON и получить нужные данные:
    Код:
    import json
    # Открываем файл JSON
    json_file = open('example.json', 'r')
    
    # Читаем содержимое файла JSON
    json_data = json_file.read()
    
    # Преобразуем JSON-данные в объект Python
    data = json.loads(json_data)
    
    # Получаем нужные данные из объекта Python
    full_name = data['full_name']
    date_of_birth = data['date_of_birth']
    phone_number = data['phone_number']
    
    # Закрываем файл JSON
    json_file.close()
    Здесь мы открываем файл JSON, читаем его содержимое, используя метод read(), затем преобразуем JSON-данные в объект Python, используя метод json.loads(), и получаем нужные данные из объекта Python.
    Обратите внимание, что для всех типов файлов вам может потребоваться применять различные методы обработки данных, в зависимости от формата данных в файле.
 
Я как бы не против))жду.... Но придется два раза все расписывать))
А так вот что тебе ИИ ответил:
Извлечение данных из разных форматов файлов может быть выполнено различными способами, в зависимости от того, какую информацию вы хотите получить и в каком формате находится исходный файл. Ниже приведены некоторые общие методы извлечения данных из разных типов файлов:

  1. PDF: Для извлечения данных из PDF-файла можно использовать библиотеку PyPDF2 в Python. Например, следующий код показывает, как извлечь текст из PDF-файла:
    Код:
    import PyPDF2
    # Открываем файл PDF
    pdf_file = open('example.pdf', 'rb')
    
    # Создаем объект PDF-документа
    pdf_reader = PyPDF2.PdfReader(pdf_file)
    
    # Получаем количество страниц в документе
    num_pages = pdf_reader.numPages
    
    # Извлекаем текст со всех страниц
    text = ''
    for page in range(num_pages):
        page_obj = pdf_reader.getPage(page)
        text += page_obj.extractText()
    
    # Закрываем файл PDF
    pdf_file.close()
    Если вы хотите извлечь конкретные данные, например, имена, даты рождения и номера телефонов, вам может потребоваться использовать регулярные выражения или другие методы анализа текста для поиска соответствующих шаблонов.
  2. Text: Для извлечения данных из текстового файла можно использовать стандартные методы чтения файла в Python, например, следующий код показывает, как прочитать содержимое текстового файла и разделить его на строки:
    Код:
    # Открываем файл текстаtext_file = open('example.txt', 'r')
    
    # Читаем содержимое файла
    text = text_file.read()
    
    # Разделяем содержимое на строки
    lines = text.split('\n')
    
    # Закрываем файл текста
    text_file.close()


    Если вы знаете, какие данные вы ищете, вы можете использовать методы анализа текста для поиска соответствующих шаблонов.
  3. CSV: Для извлечения данных из CSV-файла можно использовать библиотеку Pandas в Python. Например, следующий код показывает, как прочитать содержимое CSV-файла и создать объект DataFrame:
    Код:
    import pandas as pd
    # Читаем содержимое CSV-файла
    df = pd.read_csv('example.csv')
    
    # Получаем нужные данные из DataFrame
    full_name = df['full_name']
    date_of_birth = df['date_of_birth']
    phone_number = df['phone_number']
  4. JSON: Для извлечения данных из файла JSON можно использовать стандартную библиотеку json в Python. Например, следующий код показывает, как прочитать содержимое файла JSON и получить нужные данные:
    Код:
    import json
    # Открываем файл JSON
    json_file = open('example.json', 'r')
    
    # Читаем содержимое файла JSON
    json_data = json_file.read()
    
    # Преобразуем JSON-данные в объект Python
    data = json.loads(json_data)
    
    # Получаем нужные данные из объекта Python
    full_name = data['full_name']
    date_of_birth = data['date_of_birth']
    phone_number = data['phone_number']
    
    # Закрываем файл JSON
    json_file.close()
    Здесь мы открываем файл JSON, читаем его содержимое, используя метод read(), затем преобразуем JSON-данные в объект Python, используя метод json.loads(), и получаем нужные данные из объекта Python.
    Обратите внимание, что для всех типов файлов вам может потребоваться применять различные методы обработки данных, в зависимости от формата данных в файле.
Благодарю броооо за потраченное для меня время ;)
 


Напишите ответ...
  • Вставить:
Прикрепить файлы
Верх