• XSS.stack #1 – первый литературный журнал от юзеров форума

извлечение текста и стилевой разметки из doc на с+

valid

floppy-диск
Пользователь
Регистрация
05.04.2009
Сообщения
5
Реакции
0
Задача.

Извлечение из документа MS Word текста и разметки. Результаты
помещаются в два отдельных файла. C++. Работа с форматов
скрывается в библиотеке (стат. или динам.). Консольное приложение
получает на вход имя файла с MS Word документом, на выходе два
файла (текст и разметка).
 
Вы хотите что бы Вам написали программу или помогли решить конкретные проблемы ? Если первое то думаю не тот раздел, а если второе что конкретно не выходит ?
P.S. Авообще формат doc официально является закрытым форматом, и работать с ним лутчше через COM компоненты Office
 
я хотел бы, чтобы мне показали как работать с файловой структурой msword!
Насчет того, что doc является закрытым, то они на официальном сайте выложили внутреннее устройство msword, но тут есть проблема, я не смогу прочитать это pdf документ, так как он на англ, а я с англ "не дружу" :( .
Ну так вот я думал может кто сталкивался с внутренним устройством msword и помог бы мне разобраться........
 
есть этот код на VBA
Как результат - конвертация doc- html
с полной чисткой "вордова глюкала".
оттуда можете почерпнуть алгоритм для С
 
по просьбе ТС в приват
- ссылка на макрос
http://businesssite.ru/docs/WordToWeb.zip

учти, он запаролен, но ломается довольно легко
Полностью убирает ВСЮ разметку самого ворда.
Уверена, что то же самое делают и другое скрипты на пхп -конвертеры в гипертекст.

Смотри, анпример, здесь.
http://www.internet-technologies.ru/scripts/script_446.html
(я не оценивала)
Т.е. покопай с точки зрения конвертеров, а не программ просто очищающих внутренний код ворда
 


Напишите ответ...
  • Вставить:
Прикрепить файлы
Верх