Основни формати за съхранение на текстови документи. Текстови формати и текстови файлови редактори

Софтуер за обработка на текстови и графични данни.

Една от най-често срещаните функции на съвременния персонален компютъре подготовката на различни текстови документи.

Има две основни групи програми за подготовка на текстови документи: текстови редактори и текстови процесори.

Текстови редактори, по принцип се наричат ​​програми, които създават текстови файлове без елементи за форматиране (тоест не позволяват да се подчертават части от текста с различни шрифтове и шрифтове). Редактори от този вид са незаменими при създаване на текстове за компютърни програми.

Текстови процесоризнаят как да форматират текст, да вмъкват графики и други обекти в документа, които не са свързани с класическата концепция за "текст". Трябва да се отбележи, че това разделение е произволно - разнообразието от програми за текстообработка ви позволява да намерите редактор с произволен набор от функции.

Някои текстови процесори са така наречените WYSIWYG редактори. Името произлиза от първите букви на фразата What You See Is What You Get - това, което виждате, е това, което получавате. Когато казват, че това е WYSIWYG редактор, те гарантират, че външният вид на документа на екрана на компютъра и неговото отпечатано копие са напълно съвместими. Тези видове редактори включват Word и StarWriter.

Някои съвременни редактори поддържат "почти" WYSIWYG концепцията. В същото време външният вид на документа на екрана е малко по-различен от това как ще изглежда отпечатаният документ, но това се прави нарочно с цел повече ефективно използванеработен прозорец на документа. Примери за "почти" WYSIWYG редактори са Netscape Composer и KLyX.

Формати текстови файлове

Текстови файловее най-често срещаният тип данни в компютърен свят... Има няколко проблема с текстовите файлове. Първият е изключително големият брой знаци, необходими за поддържане на различни езици. Американските програмисти използват американския набор от ASCII символи за работа със 128 знака. стандартен кодза обмен на информация). За да се поддържат други езици, 256 знака често не са достатъчни, така че сега има постепенен преход към кодирането на Unicode, в което вече са разпределени два байта за съхраняване на един знак (тоест е възможно да се кодират 65 536 различни знака).

Вторият проблем е, че хората искат отпечатаните документи да съдържат графики, диаграми, бележки, заглавия и да използват различни шрифтове... Документите, разпространявани в Интернет (онлайн документи) могат да съдържат анимации, връзки към различни мрежови ресурсии саундтрак.

Много текстови файлове се предават като обикновен текст(обикновен текст). Трудно е да се направи обикновен текст привлекателен и лесен за четене, тъй като не съдържа шрифтове с различна тежест, графики, заглавия, подзаглавия и т.н. допълнителни функциисе наричат ​​маркиране.

Говорейки за текстово маркиране, се разграничават понятията за физическо и логическо маркиране. При използване на физическо текстово маркиране се посочва точният външен вид на всеки фрагмент. Например "центриран текст, 14 точки, получер, Times". С булевото маркиране се посочва булевото значение на дадения фрагмент, например „това е заглавието на главата“. Тези два метода за маркиране обикновено са предназначени за използване в различни ситуации... За да отпечатате текст на принтер, трябва да използвате физическо маркиране. Трябва да се вземат решения относно размера на полетата и абзац тире. Ранни версии текстови процесорисамо използвани физически типмаркиране. В същото време шрифтът, размерът и стилът бяха посочени за всеки фрагмент.

При обмен на информация с други хора, физическото оформление на текста налага редица ограничения, особено за онлайн документи. Размерът на екрана, разделителната способност, шрифтовете са различни за различни системи... Поради тези причини логическият дизайн на текст се използва все по-често. В някои случаи логическият дизайн е практически необходим: при създаване електронни документиТип WWW странициили при създаване и публикуване на обемни произведения като книги.

За запазване на маркирането на документи по време на предаване текстова информацияот кола до кола се прилага различни начини... Текстовите процесори и системите за публикуване използват специално разработени файлови формати, които съдържат не само текст, но и информация за това как трябва да бъде форматиран. Основният проблем тук е несъвместимостта на подобни формати, макар и най-много сложни програмиобикновено може да чете файлове в конкурентни софтуерни формати. Примери за този подход са текстообработващите програми Word и StarWriter.

При друг подход се вмъкват директно в текста на документа специални екипимаркиране. Дори и да нямате софтуеркойто поддържа този формат, все пак ще можете да го разберете. Има много начини за представяне на текстовото маркиране по този начин, включително:

HyperText Markup Language (HTML), използван в В световен мащабуеб;

TeX и LaTeX, популярни сред много академични публикации, както и математици, физици, химици и дори музиканти.

Примери за програми, които могат да маркират текст по този начин, са Netscape Composer и LyX (KLyX).

Създадени файлове от различни редактори, често имат уникални разширения, които позволяват, без да се гледа вътре в документа, да се гадае за начините за маркиране на текст. Например файловете, създадени от редактори за подготовка на обикновен текст, често имат разширението .txt, а тези, подготвени в Lyx - .lyx. Word процесорът създава файлове във формат MS Word по подразбиране (разширение .doc), но поддържа и други формати, като RTF (разширение .rtf). Документите, съдържащи команди за HTML маркиране, имат разширението .html или .htm.

Очевидно е невъзможно да се изброят всички текстови редактори. Много от тях са „наточени” за една или друга конкретна дейност. Списъкът по-долу показва само малка селекция от текстови редактори.

Редактори на обикновен текст

NotePad - вграден в операционната система Windows, лесен за разбиране и използване;

McEdit - наподобява MS DOS Edit, компонент файлов мениджър mc ( Среднощен командир) ОС Linux;

KEdit е най-простият текстов редактор, включен в KDE Linux;

KWrite е текстов редактор, който има няколко допълнителни настройкив сравнение с други протозои текстови редактори;

Emacs – съчетава функциите на файлов мениджър и текстов редактор; един от отличителни чертие възможността за създаване на макроси (макроси); е наличен във всички клонинги на Unix, включително Linux; Emacs може да се използва и в MS Windows.

Редактори, които създават текст с елементи за маркиране

Word - служи за създаване на различни печатни документи, е компонент офис приложенияв MS Windows;

StarWriter - включен в програмата StarOffice, по външен вид и функционалност е подобен на Word, работи еднакво добре както в MS Windows, така и в Linux;

LyX (KLyX в KDE) е модерен текстов редактор, предназначен за хора, които искат да получат документ, който изглежда професионален, но отделят минимум време за създаването му; редакторът вмъква TeX и LaTeX команди за маркиране в текста;

Netscape Composer - вмъква HTML команди за маркиране в текста; има версии както за Linux, така и за MS Windows.

При обработката на информация, свързана с изображение на монитор, е обичайно да се разграничават три основни области: разпознаване на образи, обработка на изображения и компютърна графика.

Основната задача на разпознаването на моделиОсновното е да се трансформира съществуващ образ в официален разбираем езиксимволи. Системата за разпознаване на изображения или компютърно зрение (COMPUTER VISION) е набор от методи, които ви позволяват да получите описание на изображение, подадено на входа, или да класифицирате дадено изображение (това се прави например при сортиране на поща). Една от задачите на COMPUTER VISION е т. нар. скелетизиране на обекти, при което се възстановява определена основа на обекта, неговият "скелет".

Обработка на изображение(ОБРАБОТКА НА ИЗОБРАЖЕНИЯ) се занимава със задачи, при които както входът, така и изходът са изображения. Например пренос на изображение с намаляване на шума и компресиране на данни, преход от един тип изображение към друг (от цветно към черно-бяло) и т.н. По този начин обработката на изображения се разбира като дейност върху изображенията (трансформация на изображение). Задачата за обработка на изображението може да бъде или подобрение в зависимост от определен критерий (възстановяване, възстановяване), или специална трансформация, която коренно променя изображението.

При обработката на изображения има следните групи задачи:

Ще се ограничим да работим само с цифрово изображение. Дигитална трансформацияПреобразуванията могат да бъдат разделени на два типа по предназначение:

Възстановяване на изображението - компенсиране на съществуващите изкривявания (например лоши условия на фотография);

Подобряването на изображението е изкривяване на изображение с цел подобряване на визуалното възприятие или превръщането му във форма, удобна за по-нататъшна обработка.

Компютърна (машинна) графика(КОМПЮТЪРНА ГРАФИКА) възпроизвежда изображение, когато оригиналната информация е от невизуален характер. Например, визуализация на експериментални данни под формата на графики, хистограми или диаграми, показващи информация на екрана компютърни игри, синтез на сцени на симулатори.

Компютърната графика сега еволюира като наука за хардуера и софтуера за изображения, вариращи от прости чертежи до реалистични изображения на природни обекти. Компютърната графика се използва в почти всички научни и инженерни дисциплини за яснота и възприятие, пренос на информация. Приложимо в медицината, рекламния бизнес, развлекателната индустрия и др. Без компютърна графиканито един съвременна програма... Работата върху графика отнема до 90% от работното време на програмните екипи, които пускат програми за масово използване.

Крайният продукт на компютърната графика е изображение.Това изображение може да се използва в различни областинапример, това може да бъде технически чертеж, илюстрация, изобразяваща част от ръководството с инструкции, проста диаграма, архитектурен изглед на предложена структура или проектно задание, рекламна илюстрация или карикатура.

Компютърната графика е наука, чийто предмет е създаването, съхранението и обработката на модели и техните изображения с помощта на компютър, т.е. това е клон на информатиката, който се занимава с проблемите за получаване на различни изображения (рисунки, рисунки, анимация) на компютър.

В компютърната графика се разглеждат следните задачи:

Представяне на изображения в компютърна графика;

Подготовка на изображение за рендиране;

Създаване на изображение;

Извършване на действия с изображението.

Компютърната графика обикновено се разбира като автоматизация на процесите на подготовка, преобразуване, съхранение и възпроизвеждане на графична информация с помощта на компютър. Под графична информацияразбират се моделите на обектите и техните изображения.

Ако потребителят може да контролира характеристиките на обектите, тогава те говорят за интерактивна компютърна графика, т.е. способност компютърна системасъздавайте графики и водете диалог с човек. В днешно време почти всяка програма може да се счита за интерактивна компютърна графична система.

Интерактивна компютърна графика- това е и използването на компютри за подготовка и възпроизвеждане на изображения, но в същото време потребителят има възможността бързо да прави промени в изображението директно по време на неговото възпроизвеждане, т.е. предполага се, че е възможно да се работи с графики в режим на диалог в реален мащабвреме.

Интерактивна графикае важен раздел от компютърната графика, когато потребителят има възможност да контролира динамично съдържанието на изображението, неговата форма, размер и цвят върху повърхността на дисплея с помощта на интерактивни контролни устройства.

Исторически, първите интерактивни системи са системи компютърно подпомагано проектиране(CAD), който се появява през 60-те години. Те представляват важен крайъгълен камък в еволюцията на компютрите и софтуера. В интерактивна компютърна графична система потребителят възприема на дисплея изображение, представляващо някои сложен обект, и може да прави промени в описанието (модела) на обекта. Такива промени могат да бъдат както въвеждане, така и редактиране. отделни елементии задаване на числови стойности за всякакви параметри, както и други операции за въвеждане на информация въз основа на възприемането на изображения.

растерна графика, Главна информация

Компютърно растерно изображение се представя като правоъгълна матрица, всяка клетка на която е представена с цветна точка.

Основата на растерното представяне на графиката е пиксел(точка), указваща цвета му. Когато описвате, например, червена елипса на бял фон, трябва да посочите цвета на всяка точка от елипсата и фона. Изображението е представено като Голям бройточки - колкото повече има, толкова визуално по-добро изображениеи по-голям размерфайл. Тези. една и дори една картина може да бъде представена с най-добрите или най-лошо качествоспоред броя на точките на единица дължина - резолюция (обикновено точки на инч - dpi или пиксели на инч - ppi).

Растерни изображенияприличат на лист карирана хартия, върху която всяка клетка е боядисана в черно или бяло, образувайки модел в съвкупността. Пикселът е основният елемент на растерните изображения. Именно от такива елементи се състои растерното изображение, т.е. растерна графикаописва изображения с помощта на цветни точки (пиксели), разположени върху мрежа.

Когато редактирате растерни графики, вие редактирате пиксели, а не линии. Растерната графика зависи от разделителната способност, тъй като информацията, описваща изображението, е прикрепена към мрежата определен размер... Когато редактирате растерна графика, качеството на нейното представяне може да се промени. По-специално, преоразмеряването на растерната графика може да доведе до това, че краищата на изображението изглеждат „пухкави“, тъй като пикселите се преразпределят в мрежата. Извеждането на растерни графики на устройства с по-ниска разделителна способност от разделителната способност на самото изображение ще намали качеството на изображението.

Освен това качеството се характеризира и с броя на цветовете и нюансите, които всяка точка от изображението може да приеме. Как голяма суманюансите се характеризират с изображения, толкова повече битове са необходими за тяхното описание. Червеното може да бъде номерът на цвета 001 или може да бъде 00000001. По този начин, колкото по-добро е изображението, толкова по-голям е размерът на файла.

Растерното изображение обикновено се използва за изображения от фотографски тип с много детайли или нюанси. За съжаление, мащабирането на такива снимки във всяка посока обикновено влошава качеството. С намаляване на броя на точките се губят малки детайли и надписите се деформират (въпреки че това може да не е толкова забележимо, когато визуалният размер на самата картина е намален - тоест разделителната способност се запазва). Добавянето на пиксели води до влошаване на остротата и яркостта на изображението, т.к новите точки трябва да получат нюанси между два или повече граничещи цвята.

С помощта на растерна графика можете да отразите и предадете цялата гама от нюанси и фини ефекти, присъщи на реален образ... Растерното изображение е по-близо до снимката, позволява по-точно да възпроизвеждате основните характеристики на снимката: осветеност, прозрачност и дълбочина на полето.

Най-често растерните изображения се получават чрез сканиране на снимки и други изображения, с помощта на цифров фотоапарат или чрез "заснемане" на кадър от видео. Растерни изображения могат да бъдат получени директно в растерни програми или векторна графикачрез конвертиране на векторни изображения.

Често срещаните формати са .tif, .gif, .jpg, .png, .bmp, .pcx и др.

Векторна графика, обща информация

Векторните графики описват изображения, използвайки прави и извити линии, наречени вектори, и параметри, които описват цветове и позиции. Например, изображението на лист на дърво (виж фиг. 1) се описва от точките, през които минава линията, като по този начин се създава очертанието на листа. Цветът на листа се определя от цвета на контура и областта в рамките на този контур.

За разлика от растерната графика във векторната графика, изображението се изгражда с помощта на математически описания на обекти, кръгове и линии. Въпреки че това може да изглежда по-сложно на пръв поглед от използването на растерни масиви, за някои видове изображения използването на математически описания е по-лесно.

Ключът към векторната графика е, че тя използва комбинация от компютърни екипии математически формули за обекта. Това позволява компютърни устройстваизчисляване и поставяне на реални точки на правилното място, когато рисувате тези обекти. Тази особеност на векторната графика й дава редица предимства пред растерната графика, но в същото време е причината за нейните недостатъци.

Често се наричат ​​векторни графики обектно-ориентирана графикаили рисуване на графики. Прости обектикато кръгове, линии, сфери, кубове и други подобни се наричат ​​примитиви и се използват за създаване на повече сложни обекти... Във векторната графика обектите се създават чрез комбиниране на различни обекти.

За създаване векторни рисункитрябва да използвате един от многото пакети за илюстрации. Предимството на векторната графика е, че описанието е просто и заема малко компютърна памет. Недостатъкът обаче е, че подробният векторен обект може да бъде твърде сложен, може да не бъде отпечатан, както се очаква от потребителя, или изобщо да не се отпечата, ако принтерът тълкува погрешно или не разбира векторните команди.

Редактирането на векторни графични елементи променя параметрите на прави и извити линии, които описват формата на тези елементи. Можете да прехвърляте елементи, да променяте техния размер, форма и цвят, но това няма да повлияе на тяхното качество визуално представяне... Векторните графики са независими от разделителната способност, т.е. може да се показва в различни изходни устройства при различни разделителни способности без загуба на качество.

Векторното представяне се състои в описание на елементите на изображението чрез математически криви, показващи техните цветове и заетост.

Друго предимство е висококачественото мащабиране във всяка посока. Увеличаването или намаляването на обектите се извършва чрез увеличаване или намаляване на съответните коефициенти в математическите формули. За жалост, векторен форматстава неизгодно при прехвърляне на изображения с много нюанси или малки детайли (например снимки). В крайна сметка всеки най-малък отблясък в този случай ще бъде представен не от колекция от едноцветни точки, а от най-сложните математическа формулаили колекция от графични примитиви, всеки от които е формула. Това прави файла по-тежък. Освен това, преобразуването на изображение от растер във векторен формат (например с помощта на Adobe Strime Line или Corel OCR-TRACE) води до наследяване на последното от невъзможността за правилно мащабиране. Увеличаването на линейните размери не увеличава броя на детайлите или нюансите на единица площ. Това ограничение се налага от разделителната способност на входните устройства (скенери, цифрови фотоапаратии т.н.).

Елементи (обекти) на векторна графика. Обекти и техните атрибути

Основното логически елементвекторната графика е геометричен обект. Като обекти се приемат прости геометрични фигури (т.нар. примитиви – правоъгълник, кръг, елипса, линия), съставни форми или форми, изградени от примитиви, цветни запълвания, включително градиенти.

Важният обект на векторната графика е сплайнът. Сплайнът е крива, през която едни или други геометрична фигура... Сплайновете са изградени модерни шрифтове TryeType и PostScript.

Обектите с векторна графика лесно се трансформират и модифицират, което почти не влияе върху качеството на изображението. Мащабирането, въртенето, кривината могат да бъдат намалени до няколко три елементарни трансформациинад вектори.

Ако в растерна графика основен елементизображението е точка, след това във векторната графика - линия. Линията се описва математически като един обект и следователно количеството данни за показване на обект с помощта на векторна графика е значително по-малко, отколкото в растерната графика.

Линията е елементарен обект на векторната графика. Както всеки обект, линията има свойства: форма (права, извита), дебелина, цвят, стил (плътна, пунктирана). Затворените линии придобиват свойството на запълване. Пространството, което покриват, може да бъде запълнено с други обекти (текстури, карти) или избран цвят. Най-простата отворена линия е ограничена от две точки, наречени възли. Възлите също имат свойства, чиито параметри влияят върху формата на края на линията и естеството на филето с други обекти. Всички други векторни графични обекти са съставени от линии. Например, един куб може да бъде съставен от шест свързани правоъгълника, всеки от които от своя страна е образуван от четири свързани линии.

Едно време текстовите данни са били поставяни само в един вид контейнер – TXT. Нямаше други. В днешно време техният брой може да наближи петдесет. Някои от тях използваме постоянно, рядко срещаме други. Ние дори не подозираме за съществуването на третия. Нека разгледаме най-често срещаните хранилища за текстови данни от гледна точка на удобството визползване.
<<>>

TXT („обикновен текст“)

Основателят на "жанра". Използва се активно и до днес. Тъй като текстът се съхранява като последователност от знаци, размерът на файла в байтове е равен на броя на знаците плюс непечатаеми знаци(интервал, табулатор, край на абзаца и други - наричат ​​се още знаци за форматиране). Така се постига малък размер на файла. Въпреки това, опциите за форматиране на такива документи са силно ограничени. По същество това е просто текст. Текстовите данни могат да се съхраняват не само в контейнери с разширението TXT. Всъщност тези разширения не са задължителни. Преименувайте TXT на DOC, нищо няма да се промени. Вътрешната структура ще остане същата. По същия начин, променяйки се DOC разширениена TXT, ще получите същия файл "Word". Тогава за какво са тези три букви след точката? За правилна интерпретация от програми, които ги отварят по подразбиране.

RTF („Разширен текстов формат“)

Безплатен, междуплатформен формат за съхранение на текстови документи, създаден от Microsoft през 1987 г. Сега е широко разпространен, така че повечето съвременни текстови редактори го поддържат. Чрез създаване на RTF на Windows платформа, той перфектно ще чете и редактира на други платформи (Apple, Linux и други). Де факто стандартът в печатарската индустрия. Въпреки това, не всички програми го създават еднакво правилно. Беше забелязано, че в документ, създаден в OpenOffice, форматирането понякога мига и част от текста се превръща в нечетими знаци.

RTF ви позволява да създавате и запазвате доста сложно форматиране, да вмъквате бележки под линия, горни и долни колонтитули, фигури, таблици и формули, въпреки че по това все още е по-нисък от DOC формата. Той е по-нисък от DOC по обем на файловете: сложни документипо-компактно съхранявани в DOC файлове (прости - обратно). RTF обаче печели дебата за сигурността с DOC, защото не използва макроси. Следователно, тези, заразени с макровируси Word файловеможе да бъде "излекуван" чрез записване във формат RTF. Освен това, RTF форматустойчиви на повреда на файл. Ако промените поне един байт в DOC файл, той вече няма да се отваря в Word. Повреден RTF файл може да доведе само до загуба на повредената част от текст.

DOC (от английското "документ")

Първоначално това разширение се използва за обозначаване на обикновени текстови файлове без форматиране, но в началото на 90-те Microsoft всъщност го „приватизира“. Следователно, сега DOC се свързва само с продуктите на тази компания. Този формат предоставя големи възможности за форматиране на текст (включени са скриптове, макроси). Поради това съвместимостта с текстовите редактори се е влошила. разработчици на трети страни... Този файл съдържа богата информация за шрифтове, стил на знаци, отстъпи на абзаци и разстояние, дори ако не се нуждаете от всичко това. Това е заради това Допълнителна информациятекстовият файл е по-голям от RTF файла. Въпреки това, когато са включени в документа различни графични елементии DOC изображенията печелят по размер и осигуряват по-голяма съвместимост. За разлика от TXT и RTF, DOC е двоичен формат, което го прави нечетим в прости текстови редактори. Например бележникът може да преглежда някои RTF файлове. Популярен с RTF.

DOCX

С появата на Office 2007, Microsoft премина към нови формати, базирани на Отворен офис XML (визуално различен по това, че буквата "x" в края е добавена към разширенията). Форматът е zip архив, съдържащ XML текст, графики и други данни. ZiP компресията се използва за намаляване на размера на файла. Документите са обратно съвместими с Office 2000 / XP / 2003 само ако са инсталирани Microsoft OfficeПакет за съвместимост (можете да го намерите и изтеглите от официалния уебсайт на Microsoft, размер на файла 27,8 MB). Ако трябва спешно да конвертирате DOCX в друг формат, използвайте услугите на сайта http://docx-converter.com/. Ако използвате последна версияОфис и планирайте да прехвърлите файлове на някого, да запазите документи в RTF или DOC.

ODT / ODF (" Отворете документаФормат")

ODF - родово име отворен форматдокументи за офис приложения (текст, таблици, фигури, бази данни, презентации). Текстовите данни се съхраняват във файлове с разширение ODT... Стандартът е разработен от индустриалната общност на OASIS и е базиран на XML формат. На 1 май 2006 г. е приет като международен стандарт ISO/IEC 26300. ODF е достъпен за всеки и може да се използва без ограничения. Вид безплатна алтернативазатворен Формати на Microsoft... За да четете и записвате ODF формат в продукти на Microsoft, беше пусната приставката Sun ODF за Microsoft Office. Поддръжката на ODF в Microsoft Office 2007 трябва да бъде въведена с версия със Service Pack 2. За съжаление, тя все още е по-ниска по разпространение на RTF и DOC.

HTML

(от английския език за маркиране на хипертекст - "език за маркиране на хипертекст")

Стандартният език за маркиране за документи в Интернет (разширение .htm / html). Уеб страниците се създават с помощта на HTML (или XHTML). HTML е разработен от британския учен Тим Бърнърс-Лий през 1991 г. като език за обмен на научни и техническа документация, подходящ за използване от хора, които не са специалисти в областта на оформлението. Текст с HTML маркиранетрябваше да бъде възпроизведена без стилистични и структурни изкривявания различни устройства... По-късно обаче активното въвеждане на мултимедия и графичен дизайннаруши тези планове. Не се нуждаете от специални редактори, за да преглеждате HTML документи, просто стандартни инструментивградена в ОС. По отношение на откритост, индексируемост, конвертируемост и четливост той превъзхожда всички други формати. За съжаление, графиките са запазени отделна папка. Internet Explorerви позволява да запазвате текст и графики в един MNT документ, но други браузъри може да не отварят подобен файл.

СНМ (компилиран HTML)

SNM по същество е колекция от компилирани HTML документи, нещо като архив от уеб страници, поради което размерът му е по-малък. За преглед се използва помощна програма, вградена в Windows 98 / NT и по-нови версии. Има и зрители от трети страни. За да създадете SNM файлове, можете да използвате безплатен инструмент HTML помощна работилница. Сега той се използва активно като справка за различни приложения.

PDF

(Формат за преносим документ)

Междуплатформен формат на електронен документ, създаден от Adobe Systems, използващ редица функции на езика PostScript. Предназначен основно за представяне в в електронен форматпечатарски продукти. За да видите, можете да използвате официалния безплатен програма Adobe Reader, както и програми на трети страни. Удобно с това, че проблемът с прелетялото форматиране е решен, неправилен дисплейвградени графични елементи, липса на определени шрифтове. Файлът на всяка платформа ще бъде показан в същата форма, в която е създаден. По традиционния начинСъздаването на PDF документи е както следва: документът като такъв се подготвя в своята програма и след това се експортира в PDF. Някои програми имат възможност да експортират директно (без да използват виртуален принтер). Например OpenOffice.org. Все още няма такава опция в MS Word. Де факто стандартът за повечето документи.

DjVu ("дежа вю")

Технология за компресиране на изображения със загуба, създадена специално за съхранение на сканирани документи - книги, списания, ръкописи и др., където наличието на формули, диаграми, чертежи и ръкописни символи прави пълноценното им разпознаване изключително трудоемко. Също така е ефективно решение, ако е необходимо да се предадат всички нюанси на регистрация, например исторически документи. Много често, много библиотеки го използват за съхранение на сканирани научни книги. DjVu понякога се нарича "текст-графичен" формат. Същността на технологията DjVu е автоматичното разделяне на изображението на няколко секции (например текст, лого на компанията и растерна фотография), за всяка от които се избира оптималният алгоритъм за компресиране. В допълнение, DjVu файлът може да съдържа вградено интерактивно съдържание и горещи точки - връзки, което прави възможно реализирането на удобна навигация. Дава печалба в размера на файла в сравнение с GIF-формата, средно една и половина до две дузини пъти.

XML-формати

(„Разширяем език за маркиране“)

Има доста текстови формати, създадени за един конкретно устройствоили програми. Например електронни книги. Те включват електронна книга на Rocket (.rb), Microsoft Reader (.lit), PalmDoc, MobiPocket (.pro) и др. Обикновено всички те са създадени с XML език... Най-успешният и най-разпространеният от тях е форматът FictionBook (FB2). На този моменттова е най-прогресивният и обещаващ формат за електронни книги... Единственият му недостатък е отнемащата време подготовка на първоначалния текст. Което се отплаща с лекота на четене. Във FictionBook акцентът е върху структурирането на документа: с помощта на етикети можете да подчертавате различни областитекст (глави, заглавия, цитати, странични ленти). Как ще изглежда всичко на екрана зависи от програмата за четене. Ако трябва да подредите документа по определен начин, има възможност за прикачване на стилова таблица.

Почти всеки ден се натъкваме на текстови файлове (документи). Въпреки това, в този въпросне бъркайте разширението на текстовия файл и текстовия формат на данните, това са различни неща. Нека се опитаме да определим какви са файловете от този тип и какви са те.

Разширение на текстов файл: какво е това?

Нека започнем с факта, че като правило повечето файлове от този тип имат разширение от три букви след разделителя (точката). Най-простият и често срещан тип са файлове с разширение .txt, отворени в същото Windows системис помощта на стандартен "Бележник".

Въпреки общоприетите правила обаче, разширенията на файлове за текстови документи могат да съдържат не три букви, а повече (броят им може да бъде до дванадесет, но не повече), например файлове за електронни книги.djvu. Освен това в разширението може да присъстват числа.

Какво ни дава да разгледаме класификацията на текстов файл (документ) по отношение на тяхната идентификация? И фактът, че един поглед ви позволява незабавно да вземете решение важен въпрос: какво разширение имат текстовите файлове, така е и програмата, свързана с тях за отваряне или редактиране. В много случаи почти винаги можете да идентифицирате оригиналното приложение, в което е създаден такъв файл.


Въпреки това, не забравяйте, че днес можете да намерите доста голям брой файлове със същите разширения, но създадени в други приложения или свързани различни програми... Изглежда, че обикновен файл с разширение .doc (.docx) първоначално съответства на текст Редактор на Microsoft Word. Но можете да го отворите или да го запишете в този вид в друг, дори на "ябълкови" компютри. Това може също да включва, така да се каже, смесен тип- .pdf файлове, съдържащи не само текст, но и графики. Но все пак Word документиможе да съдържа вмъкнати изображения.

Именно това служи като индикатор, че разширението на текстов файл свидетелства за универсалността на самия формат, който е най-„четлив“ дори независимо от използваната операционна система. Същото важи и за всеки тип.

Типове разширения на файлове: текст

Като цяло днес е известен толкова огромен брой текстови формати и техните разширения, че вероятно практически никой специалист няма да се заеме да преброи пълния им брой.


Да, разбира се, универсалността на такива документи е извън съмнение, особено ако те използват най-простите.Но понякога проблемът може да е, че не всяко кодиране се поддържа от определена система или програма. Ето защо на екрана се появява набор от символи вместо обичайните букви.

Що се отнася до разновидностите на текстови файлове, не можете да ги изброите всички. Най-често срещаните са .txt, .doc, .tex, .text, .pdf, .log, .apt, .ttf, .err, .sub, .djvu, .odt, .rtf и много други. Списъкът е безкраен.

Най-интересното е, че много от тези типове файлове имат различни роли в системата. Например, освен обикновен файл subtitles.sub, обикновен текстов документ.txt може да бъде отговорен за гледането им при отваряне на видеоклип и в това отношение много формати са взаимозаменяеми.


Забележете дори изпълними файловеможе да има текст като съдържание. Най-простият пример- .bat файл, създаден в обикновен "Notepad" и съдържащ текст под формата на набор от команди. При стартиране командите се изпълняват и менюто "Отваряне с..." се използва за редактиране, освен ако този процес първоначално не е свързан с друго действие.


Подобна ситуация се наблюдава и при документи, които използват езици за маркиране или програмиране, например .html, .htm, .xml файлове и т.н. Дори уеб страниците могат да се отварят естествено в много редактори като текстови файлове, съдържащи елементи на трети страни.

Промяна на разширенията на текстови файлове

Що се отнася до промяната на разширението, понякога то може да бъде променено, например, .txt на .doc и обратно. Word редакторще отвори всякакъв тип. Същото важи и за двойката .txt - .bat при отваряне в Notepad. Но в други случаи е по-добре да не извършвате такива манипулации, това просто няма да доведе до нищо и друго приложение няма да може да отвори преименувания файл. Промяната на формата ще трябва да се извърши с помощта на специални програми за конвертиране.

Вместо послеслов

Както вече е ясно, разширението на текстов файл може да има много вариации, в зависимост от програмата, в която е създаден документът. Но, както и в други случаи, чрез самото разширение почти винаги е възможно да се определи първоначално свързаното приложение, в екстремни случаи да го отворите с всяка друга програма, която поддържа работа с този тип данни, дори ако оригиналното приложение е отсъства на компютъра. И както вероятно вече е ясно, текстовите файлове всъщност са най-разпространените и универсални в компютърния свят, независимо от използваните софтуерни пакетии операционни системи.

Наборът от правила, по които данните се съхраняват във файл, се нарича файлов формат. Различни видовефайлове като текстови файлове, растерни графики и др., използвайте различни формати... Като цяло, няколко типа файлове могат да бъдат дефинирани за един файлов тип. различни формативъпреки че типът и форматът на файла често се разбират като едно и също нещо. Форматът на файла се идентифицира чрез разширението на името на файла, което се добавя към името на файла, когато се записва в определен формат, като DOC, GIF и т.н.

Обикновено файловите формати се създават за използване в добре дефинирани приложна програма... Например, графики, създадени с добре познатия пакет за векторна графика CorelDRAW, се записват като файлове с CDR разширениедокато изображенията, изобразени от друг графичен пакет, CorelXara, се записват на диск като XAR файлове. Някои формати не са свързани с специфични приложения, тоест те са универсални. Един от най-известните универсални форматие TXT формат(DOS текстов файлов формат).

Компресирането на компютърни файлове често се използва за спестяване на място за съхранение. Има много начини за компресиране на файлове. Тези методи зависят от оригинален форматфайлове. Като цяло, колкото по-висок е коефициентът на компресия, толкова по-бавни са операциите за четене и запис.

Що се отнася до алгоритмите за компресия, има както алгоритми за компресиране без загуби, така и алгоритми, които могат да причинят загуба на данни.



Компресирането без загуби гарантира, че всички данни, които са били във файла преди компресирането, са налице след декомпресирането на файла. Механизмите за компресиране без загуби се използват при съхраняване на текстови или цифрови данни, като напр електронни таблициили файлове с документи. Примери за алгоритми за компресиране без загуби са добре познатите ZIP, ARJ и други.

Да дадем Кратко описаниеосновните използвани формати:

§ Американски стандартКод за обмен на информация ASCII (TXT). Формат на текстов файл, разработен от Американския национален институт по стандарти. Подкрепен от всички операционна системаи всички програми. Това е текстов файл в DOS-кодиране, няма функция за вмъкване на картина, няма форматиране, работи на всички машини, възможно е да се създават само малки файлове.

§ ANSI (TXT). Формат на текстови файлове в ANSI кодиране(за код страници на Microsoft Windows)

§ MsWord за DOS, Windows (.DOC). Разработен формат на документа Корпорация Майкрософт, се поддържа от MS-DOS програми и повечето текстови процесори. Той запазва оригиналното форматиране на документа, както и стиловете на знаците. Освен текстова информация, файловете от този формат могат да съдържат графични снимкис различни параметри... Поддържа 256 цвята. Не поддържа компресия. Използва се главно за обмен на форматирани текстови данни между различни платформи и приложения.

Hypertext Markup Language HTML (HTM, HTML). Маркиращ език хипертекстови документи... Всички страници в Интернет се създават с помощта на това специален език... HTML документите са ASCII файлове, които могат да се разглеждат и редактират с всеки текстов редактор. Разликата от обикновения текстов файл е, че HTML документите съдържат специални команди за етикети, които определят правилото за форматиране на документа. Ако сте успели да овладеете HTML езикслед това можете да създавате страници за Интернет. Чрез добавяне на етикети (етикети) към обикновен текст, вие принуждавате зрителя да покаже този текст по определен начин и да постави изображения на страницата. Ако сте научили Java и JavaScript, знаете как да разширите силата на HTML, като поставите скриптови команди вътре в тагове.

§ Преносим формат на документ PDF (.PDF). Този формат за съхранение на документи, разработен от Adobe, твърди, че е отворен типографски стандарт за мрежата. Той се разглежда като алтернатива на HTML. Недостатъкът на HTML е, че документите, преведени в HTML, обикновено не запазват оригиналния си формат, а HTML предлага много ограничен брой шрифтове при гледане. Напротив, потребителите Acrobat програмии PDF инструменти за създаване, разпространение и преглед на документи в техния роден формат, знаят, че читателите ще видят публикацията точно такава, каквато е направена. PDF форматът е незаменим, ако трябва да получите точно копие изискуем документ... Като пример за успешен PDF приложенияза документи на руски език даваме сървъра "Московски новини" в Интернет. Представените на него материали в електронен вид напълно повтарят хартиения оригинал, отпечатан по типографски метод.

§ Стандартен генерализиран език за маркиране (SGML). HTML разработкасе превежда на стандартен общ език за маркиране. Това е инструментариум от механизми за създаване на структурирани документи, маркирани с дескриптори (тагове). В сравнение с HTML, той предоставя по-гъвкави и гъвкави опции за форматиране в мрежата. SGML обаче е различен и повишена скорост, така че PDF се използва като по-опростен инструмент. Силата на SGML се крие в неговия междуплатформен структуриран подход за описание на съдържанието на документите. SGML всъщност е метаезик, т.е. има за цел да опише езиците за маркиране, използвани при създаване на документи.

Най-често използваният тип данни в компютърния свят и в Интернет е текстът. Видеото и графиката са много по-цветни и като цяло е по-добре да видите веднъж, отколкото да чуете сто пъти. Е, също е хубаво да се чуе – за този случай има формати за аудио данни. Въпреки това, непретенциозни и скромни букви и цифри управляват компютърната топка. Без тях дори не можете да дадете име на друг файл. Текстовите данни са важни и разнообразни - това са и книги, и документи, и програмен код... И има различни опции за формат за всяка цел. Именно за тях ще говорим в тази статия. Вярно е, че трябва незабавно да направите една резервация - в този прегледформатите на електронните книги няма да бъдат засегнати, те заслужават отделна дискусия. Тук ще говорим за форматите на документите.

Текстов формат - TXT (PlainText)

Така че - възможно най-простият, TXT формат. Това е текстът в неговата по същество чиста и неусложнена форма. Съдържа само съдържанието на текста и абсолютния минимум от служебни данни - знаци за началото и края на текста, връщане на карета и други подобни.

Въпреки почти спартанската си простота, форматът не е лишен от вариации и разлики. Първо, има някои разлики между Windows, Unix и Версии на MacOSкоито използват различни символикрай на реда. Също така разликите може да се дължат на използването на 8-битови (ASCII) или 16-битови (UNICODE) кодови страници.

Въпреки това, TXT форматът е изключително гъвкав, за което е много популярен сред програмисти и системни администратори.

Документни формати и аналози на MS Office - DOC, DOCX, RTF, ODT

При цялата си гъвкавост и простота, TXT е абсолютно неподходящ за създаване на действителните документи - текстове, предназначени за печат при спазване на определени правила и разпоредби. Тъй като такива документи, освен самия текст, трябва да съдържат и много информация за дизайна и форматирането на текста. А също и за формата и размера на листа хартия, където трябва да бъдат поставени.

За тези цели са създадени доста множество формати на различни офис пакети. Най-популярните и всъщност близки до универсалните могат да се считат форматите на MS Word - doc и docx. Първият е специален затворен формат, създаден от Microsoft за своя текстов редактор (по-точно цяла линия от формати - по време на своето съществуване той е подобряван няколко пъти). Заедно с него в зората на развитието на компанията е създаден форматът RTF (Rich Text Format) в сътрудничество с корпорацията Adobe. За разлика от DOC, структурата на този формат е налична и се поддържа успешно от почти всички съществуващи текстови редактори. Въпреки че е малко по-нисък от DOC по отношение на набора от налични функции.

Затвореният характер на разработките на Microsoft доведе до създаването на отворен офис пакетОтворете Office. За което е разработен собствен ODT (OpenDocument Text Format). Форматът не се поддържа добре от търговските редактори, включително MS Wordи може да се отвори с грешки.

Най-накрая през 2007 г година Microsoftреши да се откаже от залога DOC формати разработи семейството формати Office Отворете XMLкойто включва DOCX, който се превърна в основен формат на новите версии на MS Word.

PDF формат

Отказвайки да си сътрудничи с Microsoft, Adobe тръгна по собствен път. Тя се развила PDF форматкойто беше формат не толкова за разработване на документи, колкото за разглеждането и отпечатването им. За разлика от предишната група, които представляват форматиран текст, чийто външен вид все пак може да се промени в зависимост от това на коя конкретна машина се показва или отпечатва, PDF е формат на документ, който е основно непроменен и запазва външен види оформление при всякакви условия. Той също така поддържа доста широка гама от печатни елементи и допълнителна услуга(например защита с парола на документ от редактиране или отпечатване и т.н.). Всичко това прави PDF по-скоро формат за разпространение на сложни и професионално изпълнени документи и дори книги.