Всем привет.
Я хочу сделать для своих личных нужд базу данных утечек. За последние несколько лет я накопила утечки в разных форматах: SQL, txt, Cronos, JSON. Искать вручную в каждой из них неудобно. Я хочу сделать единый интерфейс запроса, и единый формат хранения. И в этом посте я прошу совета по архитектуре.
Я, время от времени, программирую на Python, так что реализовывать буду на нём. Имею опыт с SQLlite, поэтому в качестве СУБД буду использовать его. Я планирую сковертировать все базы в SQLLite и написать простенький ГУЙ для итеративного поиска по базам. ОС - Linux.
В проектировании баз я плохо разбираюсь и имела мало опыта.
Что мы имеем на входе: базы в разных форматах, с похожими полями, но со своими особенностями.
Что надо получить на выходе: универсальный формат хранения в базе SQLlite чтобы переконвертировать в него все имеющиеся базы.
Вопросов у меня много. Но для начала такие?
1. Как сконвертировать Cronos в SQLlite? Есть ли готовые решения, открытый код?
2. Хранить ли разные утечки поотдельности, или делать одну большую базу, обогащая исходную базу новыми данными из других утечек?
3. Поиск по каким данных сделать в этой системе? Например, ФИО, Адрес, Дата рождения, номер авто, идентификаторы мессенжеров, телефоны, кадастровый номер, IP адреса, ИНН, СНИЛС, Паспорт и тп.?
4. Какие есть инструменты и алгоритмы удаления дублей и выявления сгенерированных данных?
5. Есть ли opensource реализации семантического поиска? Например, я ищу Марию, а в какой-то БД нужный мне человек записан как "Маруся". Хотело бы прикрутить такую семантику.
Отдельно стоят вопросы добавления новых утечек. Как проверять новую утечку на новизну и принимать решение о добавлении в базу?
Уверена, что у некоторых пользователей нашего форума уже есть своя собственная реализация того, что я хочу сделать. Поделитесь, пожалуйста, опытом. Киньте ссылок на мануалы как делать такие системы, пожалуйста. А так же на мануалы по архитектуре подобных систем.
Большие книжки по БД читать нет времени: слишко долгий старт и слишком много лишнего/общего.
Я хочу сделать для своих личных нужд базу данных утечек. За последние несколько лет я накопила утечки в разных форматах: SQL, txt, Cronos, JSON. Искать вручную в каждой из них неудобно. Я хочу сделать единый интерфейс запроса, и единый формат хранения. И в этом посте я прошу совета по архитектуре.
Я, время от времени, программирую на Python, так что реализовывать буду на нём. Имею опыт с SQLlite, поэтому в качестве СУБД буду использовать его. Я планирую сковертировать все базы в SQLLite и написать простенький ГУЙ для итеративного поиска по базам. ОС - Linux.
В проектировании баз я плохо разбираюсь и имела мало опыта.
Что мы имеем на входе: базы в разных форматах, с похожими полями, но со своими особенностями.
Что надо получить на выходе: универсальный формат хранения в базе SQLlite чтобы переконвертировать в него все имеющиеся базы.
Вопросов у меня много. Но для начала такие?
1. Как сконвертировать Cronos в SQLlite? Есть ли готовые решения, открытый код?
2. Хранить ли разные утечки поотдельности, или делать одну большую базу, обогащая исходную базу новыми данными из других утечек?
3. Поиск по каким данных сделать в этой системе? Например, ФИО, Адрес, Дата рождения, номер авто, идентификаторы мессенжеров, телефоны, кадастровый номер, IP адреса, ИНН, СНИЛС, Паспорт и тп.?
4. Какие есть инструменты и алгоритмы удаления дублей и выявления сгенерированных данных?
5. Есть ли opensource реализации семантического поиска? Например, я ищу Марию, а в какой-то БД нужный мне человек записан как "Маруся". Хотело бы прикрутить такую семантику.
Отдельно стоят вопросы добавления новых утечек. Как проверять новую утечку на новизну и принимать решение о добавлении в базу?
Уверена, что у некоторых пользователей нашего форума уже есть своя собственная реализация того, что я хочу сделать. Поделитесь, пожалуйста, опытом. Киньте ссылок на мануалы как делать такие системы, пожалуйста. А так же на мануалы по архитектуре подобных систем.
Большие книжки по БД читать нет времени: слишко долгий старт и слишком много лишнего/общего.
Последнее редактирование: