Hovedformatene for lagring av tekstdokumenter. Tekstformater og tekstfilredigerere

Programvare for behandling av tekst og grafiske data.

En av de vanligste funksjonene til moderne personlig datamaskin er utarbeidelse av ulike tekstdokumenter.

Det er to hovedgrupper av programmer for utarbeidelse av tekstdokumenter: tekstredigerere og tekstbehandlere.

Tekstredaktører, i utgangspunktet refererer til programmer som lager tekstfiler uten formateringselementer (det vil si at de ikke tillater å fremheve deler av teksten med forskjellige fonter og skrifttyper). Redaktører av denne typen er uunnværlige når man lager tekster til dataprogrammer.

Skriveprogrammer vite hvordan du formaterer tekst, setter inn grafikk og andre objekter som ikke er relatert til det klassiske konseptet "tekst" i et dokument. Det skal bemerkes at denne inndelingen er vilkårlig - mangfoldet av programmer for tekstbehandling lar deg finne en redaktør med ethvert sett med funksjoner.

Noen tekstbehandlere er såkalte WYSIWYG-redigerere. Navnet er avledet fra de første bokstavene i frasen What You See Is What You Get - what you see is what you get. Når de sier at dette er et WYSIWYG-redigeringsprogram, garanterer de at utseendet til dokumentet på dataskjermen og dets trykte kopi er helt konsistent. Disse typer redaktører inkluderer Word og StarWriter.

Noen moderne redaktører støtter "nesten" WYSIWYG-konseptet. Samtidig er utseendet til dokumentet på skjermen litt forskjellig fra hvordan det trykte dokumentet vil se ut, men dette gjøres med vilje for mer effektiv bruk arbeidsvinduet til dokumentet. Eksempler på "nesten" WYSIWYG-redigerere er Netscape Composer og KLyX.

Formater tekstfiler

Tekstfiler er den vanligste datatypen i datamaskinverden... Det er flere problemer med tekstfiler. Den første er det ekstremt store antallet tegn som kreves for å støtte ulike språk. Amerikanske programmerere bruker det amerikanske ASCII-tegnsettet for å fungere med 128 tegn. standard kode for informasjonsutveksling). For å støtte andre språk er 256 tegn ofte ikke nok, så nå er det en gradvis overgang til Unicode-koding, der to byte allerede er tildelt for å lagre ett tegn (det vil si at det er mulig å kode 65 536 forskjellige tegn).

Det andre problemet er at folk vil at trykte dokumenter skal inneholde grafer, diagrammer, notater, overskrifter og å bruke ulike fonter... Dokumenter som distribueres på Internett (online dokumenter) kan inneholde animasjoner, lenker til diverse nettverksressurser og lydspor.

Mange tekstfiler overføres som ren tekst(ren tekst). Det er vanskelig å gjøre ren tekst attraktiv og lett å lese, siden den ikke inneholder fonter med ulik vekt, grafikk, overskrifter, underoverskrifter osv. ekstra funksjoner kalles markup.

Når vi snakker om tekstmarkering, skilles begrepene fysisk og logisk markup. Når du bruker fysisk tekstmarkering, er det nøyaktige utseendet til hvert fragment angitt. For eksempel "sentrert tekst, 14 punkter, fet skrift, Times-skrifttype." Med logisk markering er den logiske betydningen av dette fragmentet angitt, for eksempel "dette er kapitteltittelen". Disse to markeringsmetodene er vanligvis ment for bruk i ulike situasjoner... For å skrive ut tekst på en skriver, må du bruke fysisk markering. Det skal tas stilling til størrelsen på feltene og avsnittsinnrykk. Tidlige versjoner Skriveprogrammer kun brukt fysisk type markering. Samtidig ble skrifttype, størrelse og stil angitt for hvert fragment.

Når du kommuniserer med andre mennesker, pålegger den fysiske utformingen av teksten en rekke begrensninger, spesielt for elektroniske dokumenter. Skjermstørrelse, oppløsning, fonter er forskjellige for ulike systemer... Av disse grunnene brukes mer og mer logisk tekst. I noen tilfeller er logisk design praktisk talt nødvendig: når du lager elektroniske dokumenter type WWW sider eller når du lager og publiserer omfangsrike verk som bøker.

For å bevare markeringen av dokumenter under overføring tekstinformasjon fra bil til bil gjelder forskjellige måter... Tekstbehandlere og publiseringssystemer bruker spesialdesignede filformater som inneholder ikke bare tekst, men også informasjon om hvordan den skal formateres. Hovedproblemet her er inkompatibiliteten til slike formater, selv om det er mest komplekse programmer kan vanligvis lese filer i konkurrerende programvareformater. Eksempler på denne tilnærmingen er Word- og StarWriter-tekstbehandlere.

I en annen tilnærming, direkte inn i teksten til dokumentet er satt inn spesiallag markering. Selv om du ikke har programvare som støtter dette formatet, vil du fortsatt kunne finne ut av det. Det er mange måter å representere tekstmarkering på denne måten, inkludert:

HyperText Markup Language (HTML) brukt i Verdensomspennende Web;

TeX og LaTeX, populær blant mange akademiske publikasjoner så vel som matematikere, fysikere, kjemikere og til og med musikere.

Eksempler på programmer som kan merke tekst på denne måten er Netscape Composer og LyX (KLyX).

Filer opprettet av forskjellige redaktører, har ofte unike utvidelser som gjør det mulig, uten å se inne i dokumentet, å gjette hvordan tekst skal merkes. For eksempel har filer som er opprettet av redaktører for å klargjøre ren tekst ofte filtypen .txt, og de som er utarbeidet i Lyx - .lyx. Word-tekstbehandleren lager filer i MS Word-format som standard (utvidelse .doc), men den støtter også andre formater, for eksempel RTF (utvidelse .rtf). Dokumenter som inneholder HTML-markeringskommandoer har filtypen .html eller .htm.

Det er åpenbart umulig å liste opp alle tekstredigerere. Mange av dem er «skjerpet» for en eller annen spesifikk aktivitet. Listen nedenfor viser bare et lite utvalg tekstredigerere.

Ren tekstredigerere

Notisblokk - innebygd i Windows-operativsystemet, lett å forstå og bruke;

McEdit - ligner MS DOS Edit, komponent filbehandler mc ( Midnattssjef) Linux OS;

KEdit er den enkleste tekstredigereren som følger med KDE Linux;

KWrite er et tekstredigeringsprogram som har en rekke tilleggsinnstillinger sammenlignet med andre protozoer tekstredigerere;

Emacs - kombinerer funksjonene til en filbehandler og en tekstredigerer; en av særegne trekk er muligheten til å lage makroer (makroer); er tilgjengelig i alle kloner av Unix, inkludert Linux; Emacs kan også brukes på MS Windows.

Redaktører som lager tekst med markup-elementer

Word - tjener til å lage en rekke trykte dokumenter, er en komponent kontorapplikasjoner i MS Windows;

StarWriter - inkludert i StarOffice-programmet, det ser ut og fungerer som Word, fungerer like godt i både MS Windows og Linux;

LyX (KLyX i KDE) er et moderne tekstredigeringsprogram designet for folk som ønsker å få et dokument som ser profesjonelt ut, men bruker et minimum av tid på å lage det; editoren setter inn TeX- og LaTeX-markeringskommandoer i teksten;

Netscape Composer - setter inn HTML-markeringskommandoer i teksten; det finnes versjoner for både Linux og MS Windows.

Når du behandler informasjon knyttet til et bilde på en skjerm, er det vanlig å skille mellom tre hovedområder: mønstergjenkjenning, bildebehandling og datagrafikk.

Hovedoppgaven med mønstergjenkjenning det grunnleggende er å forvandle et eksisterende bilde til et formelt forståelig språk tegn. Bildegjenkjenning eller et datasynssystem (COMPUTER VISION) er et sett med metoder som lar deg få en beskrivelse av et bilde som sendes inn til input, eller klassifisere et gitt bilde (dette gjøres for eksempel ved sortering av post). En av oppgavene til COMPUTER VISION er såkalt skjelettisering av objekter, der et visst grunnlag for objektet, dets "skjelett", gjenopprettes.

Bildebehandling(BILDEBEHANDLING) omhandler oppgaver der både inndata og utdata er bilder. For eksempel bildeoverføring med støyreduksjon og datakomprimering, overgang fra en type bilde til en annen (fra farge til svart-hvitt) etc. Dermed forstås bildebehandling som en aktivitet på bilder (bildetransformasjon). Oppgaven med bildebehandling kan enten være forbedring, avhengig av et bestemt kriterium (restaurering, restaurering), eller en spesiell transformasjon som radikalt endrer bildet.

Når du behandler bilder, er det følgende grupper med oppgaver:

Vi vil begrense oss til å kun jobbe med digitalt bilde. Digital transformasjon konverteringer kan deles inn i to typer etter formål:

Bilderestaurering - kompensasjon for eksisterende forvrengning (for eksempel dårlige fotograferingsforhold);

Bildeforbedring er forvrengning av et bilde for å forbedre visuell persepsjon eller for å transformere det til en form som er praktisk for videre behandling.

Datamaskin (maskin) grafikk(COMPUTER GRAPHICS) gjengir et bilde når den opprinnelige informasjonen er av ikke-visuell natur. For eksempel visualisering av eksperimentelle data i form av grafer, histogrammer eller diagrammer, visning av informasjon på skjermen dataspill, syntese av scener på simulatorer.

Datagrafikk har nå dukket opp som vitenskapen om maskinvare og programvare for bilder, alt fra enkle tegninger til realistiske bilder av naturlige objekter. Datagrafikk brukes i nesten alle vitenskapelige og ingeniørfaglige disipliner for klarhet, persepsjon og informasjonsoverføring. Gjelder innen medisin, reklamevirksomhet, underholdningsindustri, etc. Uten data-grafikk ikke en eneste moderne program... Å jobbe med grafikk tar opptil 90 % av arbeidstiden til programmeringsteam som gir ut programmer for massebruk.

Sluttproduktet av datagrafikk er et bilde. Dette bildet kan brukes i ulike områder for eksempel kan det være en teknisk tegning, en illustrasjon som viser en del i en bruksanvisning, et enkelt diagram, en arkitektonisk visning av en foreslått struktur eller prosjektoppgave, en reklameillustrasjon eller en tegneseriestillbilde.

Datagrafikk er en vitenskap, hvor emnet er å lage, lagre og behandle modeller og deres bilder ved hjelp av en datamaskin, dvs. dette er en gren av informatikk som omhandler problemene med å få ulike bilder (tegninger, tegninger, animasjon) på en datamaskin.

I datagrafikk vurderes følgende oppgaver:

Representasjon av bilder i datagrafikk;

Forberede et bilde for gjengivelse;

Oppretting av bilder;

Utføre handlinger med bildet.

Datagrafikk er vanligvis forstått som automatisering av prosessene med forberedelse, transformasjon, lagring og reproduksjon av grafisk informasjon ved hjelp av en datamaskin. Under grafisk informasjon modellene av objekter og deres bilder er forstått.

Hvis brukeren kan kontrollere egenskapene til objekter, så snakker de om interaktiv datagrafikk, dvs. evnen datasystem lage grafikk og føre en dialog med en person. I dag kan nesten alle programmer betraktes som et interaktivt datagrafikksystem.

Interaktiv datagrafikk- dette er også bruk av datamaskiner for klargjøring og reproduksjon av bilder, men samtidig har brukeren muligheten til raskt å gjøre endringer i bildet direkte under reproduksjonen, d.v.s. det forutsettes at det er mulig å arbeide med grafikk i dialogmodus i ekte skala tid.

Interaktiv grafikk representerer en viktig del av datagrafikk, når brukeren har muligheten til dynamisk å kontrollere innholdet i bildet, dets form, størrelse og farge på skjermoverflaten ved hjelp av interaktive kontrollenheter.

Historisk sett er de første interaktive systemene systemer datastyrt design(CAD) som dukket opp på 60-tallet. De representerer en betydelig milepæl i utviklingen av datamaskiner og programvare. I et interaktivt datagrafikksystem oppfatter brukeren på skjermen et bilde som representerer noen komplekst objekt, og kan gjøre endringer i beskrivelsen (modellen) av objektet. Slike endringer kan være både input og redigering. individuelle elementer og angi numeriske verdier for alle parametere, samt andre operasjoner for å legge inn informasjon basert på oppfatningen av bilder.

Raster grafikk, generell informasjon

Et datamaskinrasterbilde er representert som rektangulær matrise, hvor hver celle er representert med en farget prikk.

Grunnlaget for bitmap-representasjonen av grafikk er piksel(punkt) som indikerer fargen. Når du for eksempel beskriver en rød ellipse på hvit bakgrunn, må du angi fargen på hvert punkt på ellipsen og bakgrunnen. Bildet er presentert som et stort antall prikker - jo flere det er, jo visuelt bedre bilde og større størrelse fil. De. ett og til og med et bilde kan presenteres med de beste eller dårligste kvalitet i henhold til antall punkter per lengdeenhet - oppløsning (vanligvis punkter per tomme - dpi eller piksler per tomme - ppi).

Punktgrafikk ligne et ark med rutete papir, hvor en hvilken som helst celle er malt over med enten svart eller hvit, og danner et mønster i aggregatet. Piksel er hovedelementet i punktgrafikk. Det er fra slike elementer et rasterbilde består, dvs. rastergrafikk beskriver bilder ved hjelp av fargede prikker (piksler) plassert på et rutenett.

Når du redigerer punktgrafikk, redigerer du piksler, ikke linjer. Bitmap-grafikk er oppløsningsavhengig ettersom informasjonen som beskriver bildet er knyttet til rutenettet en viss størrelse... Når du redigerer punktgrafikk, kan kvaliteten på presentasjonen endres. Spesielt kan endring av størrelse på bitmap-grafikk føre til at kantene på bildet "fladder" når piksler omfordeles på rutenettet. Utgang av punktgrafikk til enheter med lavere oppløsning enn oppløsningen til selve bildet vil redusere kvaliteten på bildet.

I tillegg er kvaliteten også preget av antall farger og nyanser som hvert punkt i bildet kan ta. Hvordan stort beløp nyanser er preget av bilder, jo flere biter kreves for å beskrive dem. Rød kan være fargenummeret 001, eller det kan være 00000001. Jo bedre bildet er, jo større er filstørrelsen.

Bitmap brukes vanligvis for fotografiske bilder med mye detaljer eller fargetone. Dessverre forringer en skalering av slike bilder i alle retninger vanligvis kvaliteten. Med en reduksjon i antall punkter går små detaljer tapt og inskripsjonene deformeres (selv om dette kanskje ikke er så merkbart når den visuelle størrelsen på selve bildet reduseres - det vil si at oppløsningen bevares). Å legge til piksler fører til en forringelse av skarpheten og lysstyrken til bildet. nye punkter må gis nyanser mellom to eller flere kantfarger.

Ved hjelp av rastergrafikk kan du reflektere og formidle hele spekteret av nyanser og subtile effekter som ligger i ekte bilde... Et rasterbilde er nærmere et fotografi, det lar deg gjengi hovedkarakteristikkene til et fotografi mer nøyaktig: belysning, gjennomsiktighet og dybdeskarphet.

Oftest oppnås rasterbilder ved å skanne fotografier og andre bilder, bruke et digitalkamera eller ved å "fange" en videoramme. Rasterbilder kan hentes direkte i rasterprogrammer eller vektorgrafikk ved å konvertere vektorbilder.

Vanlige formater er .tif, .gif, .jpg, .png, .bmp, .pcx osv.

Vektorgrafikk, generell informasjon

Vektorgrafikk beskriver bilder ved hjelp av rette og buede linjer, kalt vektorer, og parametere som beskriver farger og posisjoner. For eksempel er et bilde av et treblad (se fig. 1) beskrevet av punktene som linjen går gjennom, og skaper derved omrisset av bladet. Fargen på bladet er satt av fargen på omrisset og området innenfor den omrisset.

I motsetning til rastergrafikk i vektorgrafikk, er bildet bygget ved hjelp av matematiske beskrivelser av objekter, sirkler og linjer. Selv om dette kan virke mer komplisert ved første øyekast enn å bruke bitmap-matriser, er det enklere for noen typer bilder å bruke matematiske beskrivelser.

Nøkkelen til vektorgrafikk er at de bruker en kombinasjon av datateam og matematiske formler for objektet. Dette tillater datamaskinenheter beregne og plasser reelle poeng på rett sted når du tegner disse objektene. Denne funksjonen til vektorgrafikk gir den en rekke fordeler fremfor rastergrafikk, men er samtidig årsaken til dens ulemper.

Vektorgrafikk kalles ofte objektorientert grafikk eller tegne grafikk. Enkle gjenstander som sirkler, linjer, kuler, kuber og lignende kalles primitiver, og brukes til å skape flere komplekse gjenstander... I vektorgrafikk lages objekter ved å kombinere forskjellige objekter.

For å skape vektor tegninger du må bruke en av de mange illustrasjonspakkene. Fordelen med vektorgrafikk er at beskrivelsen er enkel og tar lite dataminne. Ulempen er imidlertid at det detaljerte vektorobjektet kan være for komplekst, det kan ikke skrives ut som forventet av brukeren, eller ikke skrives ut i det hele tatt hvis skriveren feiltolker eller ikke forstår vektorkommandoer.

Når du redigerer vektorgrafikkelementer, endres parametrene til de rette og buede linjene som beskriver formen til disse elementene. Du kan overføre elementer, endre størrelse, form og farge, men dette vil ikke påvirke kvaliteten visuell presentasjon... Vektorgrafikk er oppløsningsuavhengig, dvs. kan vises i en rekke utgangsenheter med forskjellige oppløsninger uten tap av kvalitet.

Vektorrepresentasjon består i beskrivelsen av bildeelementer ved hjelp av matematiske kurver som indikerer deres farger og belegg.

En annen fordel er høykvalitets skalering i alle retninger. En økning eller reduksjon i objekter utføres ved å øke eller redusere de tilsvarende koeffisientene i matematiske formler. Dessverre, vektorformat blir ufordelaktig når du overfører bilder med mange nyanser eller små detaljer (for eksempel fotografier). Tross alt vil hvert minste gjenskinn i dette tilfellet ikke representeres av et sett med ensfargede prikker, men av de mest komplekse matematisk formel eller en samling av grafiske primitiver, som hver er en formel. Dette gjør filen tyngre. I tillegg fører konvertering av et bilde fra et raster til et vektorformat (for eksempel ved å bruke Adobe Strime Line eller Corel OCR-TRACE) til at sistnevnte arver umuligheten av å skalere opp riktig. Økningen i lineære dimensjoner øker ikke antall detaljer eller nyanser per arealenhet. Denne begrensningen pålegges av oppløsningen til inndataenheter (skannere, digitale kameraer og så videre.).

Elementer (objekter) av vektorgrafikk. Objekter og deres egenskaper

Hoved logisk element vektorgrafikk er et geometrisk objekt. Enkle geometriske former (såkalte primitiver - rektangel, sirkel, ellipse, linje), sammensatte former eller former bygget av primitiver, fargefyll, inkludert gradienter, aksepteres som objekter.

Det viktige objektet med vektorgrafikk er spline. En spline er en kurve gjennom hvilken en eller annen geometrisk figur... Splines er bygget moderne fonter TryeType og PostScript.

Vektorgrafikkobjekter kan enkelt transformeres og modifiseres, noe som nesten ikke har noen effekt på bildekvaliteten. Skalering, rotasjon, krumning kan reduseres til et par tre elementære transformasjoner over vektorer.

Hvis i rastergrafikk grunnleggende element bildet er et punkt, deretter i vektorgrafikk - en linje. Linjen beskrives matematisk som et enkelt objekt, og derfor er datamengden for å vise et objekt ved hjelp av vektorgrafikk betydelig mindre enn i rastergrafikk.

Line er et elementært objekt for vektorgrafikk. Som ethvert objekt har en linje egenskaper: form (rett, buet), tykkelse, farge, stil (heltrukken, stiplet). Lukkede linjer får egenskapen til fylling. Plassen de dekker kan fylles med andre objekter (teksturer, kart) eller en valgt farge. Den enkleste åpne linjen er avgrenset av to punkter kalt noder. Noder har også egenskaper, hvis parametere påvirker formen på slutten av linjen og arten av fileten med andre objekter. Alle andre vektorgrafikkobjekter er sammensatt av linjer. For eksempel kan en kube være sammensatt av seks sammenkoblede rektangler, som hver på sin side er dannet av fire sammenkoblede linjer.

En gang i tiden ble tekstdata plassert i bare én type container - TXT. Det var ingen andre. I dag kan antallet nærme seg femti. Vi bruker noen av dem hele tiden, vi møter sjelden andre. Vi mistenker ikke engang eksistensen av den tredje. La oss vurdere de vanligste tekstdatalagrene fra et bekvemmelighetssynspunkt i bruk.
<<>>

TXT ("ren tekst")

Grunnleggeren av "sjangeren". Den brukes aktivt den dag i dag. Siden teksten er lagret som en sekvens av tegn, er filstørrelsen i byte lik antall tegn pluss tegn som ikke kan skrives ut(mellomromsmerke, tabulatorstopp, avsnittsluttmerke og andre - de kalles også formateringsmerker). Dette oppnår en liten filstørrelse. Formateringsalternativene for slike dokumenter er imidlertid sterkt begrenset. I hovedsak er det bare tekst. Tekstdata kan ikke bare lagres i beholdere med TXT-utvidelsen. Faktisk er disse utvidelsene valgfrie. Gi nytt navn til TXT til DOC, ingenting vil endre seg. Den interne strukturen vil forbli den samme. På samme måte endres DOC-utvidelse på TXT vil du motta den samme "Word"-filen. Hva er da disse tre bokstavene etter punktum for? For korrekt tolkning av programmer som åpner dem som standard.

RTF ("rik tekstformat")

Et gratis lagringsformat for tekstdokumenter på tvers av plattformer laget av Microsoft i 1987. Det er nå utbredt, så de fleste moderne tekstredigerere støtter det. Ved å opprette RTF på Windows-plattform, vil den perfekt lese og redigere på andre plattformer (Apple, Linux og andre). De facto-standarden i trykkeribransjen. Det er imidlertid ikke alle programmer som lager det like riktig. Det ble lagt merke til at i et dokument opprettet i OpenOffice, blinket formatering noen ganger, og noe av teksten ble til uleselige tegn.

RTF lar deg produsere og lagre ganske kompleks formatering, sette inn fotnoter, topptekster og bunntekster, figurer, tabeller og formler, selv om det i dette fortsatt er dårligere enn DOC-formatet. Det er dårligere enn DOC i volumet av filer: komplekse dokumenter mer kompakt lagret i DOC-filer (enkle - omvendt). RTF vinner imidlertid sikkerhetsdebatten med DOC fordi den ikke bruker makroer. Derfor de som er infisert med makrovirus Word-filer kan "kureres" ved å lagre til RTF-format. I tillegg, RTF-format motstandsdyktig mot filskader. Hvis du endrer minst én byte i en DOC-fil, åpnes den ikke lenger i Word. En skadet RTF-fil kan bare føre til tap av det skadede tekststykket.

DOC (fra det engelske "dokumentet")

Opprinnelig ble denne utvidelsen brukt for å betegne rene tekstfiler uten formatering, men tidlig på 90-tallet "privatiserte" Microsoft den faktisk. Derfor er DOC nå kun knyttet til produktene til dette selskapet. Dette formatet gir store muligheter for formatering av tekst (skript, makroer er inkludert). På grunn av dette har kompatibiliteten med tekstredigerere blitt dårligere. tredjeparts utviklere... En fil med dette formatet inneholder et vell av informasjon om fonter, tegnstil, avsnittsinnrykk og mellomrom, selv om du ikke trenger alt dette i det hele tatt. Det er på grunn av dette tilleggsinformasjon tekstfilen er større enn RTF-filen. Men når inkludert i dokumentet ulike grafiske elementer og DOC-bilder vinner i størrelse og gir større kompatibilitet. I motsetning til TXT og RTF, er DOC et binært format, som gjør det uleselig i enkle tekstredigerere. Notisblokk kan for eksempel vise noen RTF-filer. Populært hos RTF.

DOCX

Med bruken av Office 2007, flyttet Microsoft til nye formater basert på Kontor åpent XML (visuelt forskjellig ved at bokstaven "x" på slutten legges til utvidelsene). Formatet er et zip-arkiv som inneholder XML-tekst, grafikk og andre data. ZiP-komprimering brukes til å redusere filstørrelsen. Dokumenter er bakoverkompatible med Office 2000 / XP / 2003 bare hvis installert Microsoft Office Kompatibilitetspakke (du kan finne og laste den ned fra det offisielle Microsoft-nettstedet, filstørrelse 27,8 MB). Hvis du presserende trenger å konvertere DOCX til et annet format, bruk tjenestene til nettstedet http://docx-converter.com/. Hvis du bruker siste versjon Office og planlegger å overføre filer til noen, lagre dokumenter i RTF eller DOC.

ODT / ODF (" Åpne dokument Format ")

ODF - generisk navn åpent format dokumenter for kontorapplikasjoner (tekst, tabeller, figurer, databaser, presentasjoner). Tekstdata lagres i filer med utvidelse ODT... Standarden er utviklet av OASIS industrifellesskap og er basert på XML-format. 1. mai 2006 ble den tatt i bruk som en internasjonal standard ISO / IEC 26300. ODF er tilgjengelig for alle og kan brukes uten begrensninger. En slags gratis alternativ lukket Microsoft-formater... For å lese og skrive ODF-formatet i Microsoft-produkter, Sun ODF Plugin for Microsoft Office har blitt utgitt. ODF-støtte i Microsoft Office 2007 bør introduseres med utgivelsen med Service Pack 2. Dessverre er den fortsatt dårligere enn RTF og DOC.

Html

(fra det engelske Hypertext Markup Language - "hypertext markup language")

Standard markup-språk for dokumenter på Internett (utvidelsen .htm / html). Nettsider lages ved hjelp av HTML (eller XHTML). HTML ble utviklet av den britiske forskeren Tim Berners-Lee i 1991 som et språk for utveksling av vitenskapelig og teknisk dokumentasjon, egnet for bruk av personer som ikke er spesialister innen layout. Tekst med HTML-oppmerking var ment å være gjengitt uten stilistiske og strukturelle forvrengninger på forskjellige enheter... Men senere den aktive introduksjonen av multimedia og grafisk design brøt disse planene. Du trenger ikke noen spesielle redaktører for å se HTML-dokumenter, bare standard verktøy innebygd i OS. Når det gjelder åpenhet, indekserbarhet, konvertibilitet og lesbarhet, overgår den alle andre formater. Dessverre er grafikken lagret i egen mappe. Internet Explorer lar deg lagre tekst og grafikk i ett MNT-dokument, men andre nettlesere åpner kanskje ikke en lignende fil.

СНМ (Kompilert HTML)

SNM er egentlig en samling av kompilerte HTML-dokumenter, noe som et arkiv fra nettsider, på grunn av hvilket størrelsen er mindre. Et verktøy innebygd i Windows 98 / NT og høyere brukes for visning. Det er også tredjeparts seere. For å lage CHM-filer kan du bruke gratis verktøy HTML-hjelpeverksted. Nå brukes den aktivt som referanse for ulike applikasjoner.

PDF

(Portable Document Format)

Et elektronisk dokumentformat på tvers av plattformer laget av Adobe Systems ved hjelp av en rekke PostScript-språkfunksjoner. Primært beregnet for presentasjon i i elektronisk format utskriftsprodukter. For å se, kan du bruke den offisielle gratis Adobe-programmet Reader, samt tredjepartsprogrammer. Praktisk ved at problemet med fløyet formatering er løst, feil visning innebygde grafiske elementer, mangel på visse fonter. Filen på en hvilken som helst plattform vil vises i samme form som den ble opprettet. På tradisjonell måte Opprettelsen av PDF-dokumenter er som følger: dokumentet som sådan forberedes i programmet og eksporteres deretter til PDF. Noen programmer har muligheten til å eksportere direkte (uten å bruke virtuell skriver). For eksempel OpenOffice.org. Det er ikke noe slikt alternativ i MS Word ennå. De facto-standarden for det meste av dokumentasjon.

DjVu ("deja vu")

Tapsbasert bildekomprimeringsteknologi utviklet spesielt for lagring av skannede dokumenter - bøker, magasiner, manuskripter osv., hvor tilstedeværelsen av formler, diagrammer, tegninger og håndskrevne tegn gjør det ekstremt arbeidskrevende å gjenkjenne dem fullt ut. Er også effektiv løsning, hvis det er nødvendig å formidle alle nyansene ved registrering, for eksempel historiske dokumenter. Veldig vanlig, mange biblioteker bruker det til å lagre skannede vitenskapelige bøker. DjVu blir noen ganger referert til som et "tekstgrafisk" format. Essensen av DjVu-teknologi er å automatisk dele bildet i flere seksjoner (for eksempel tekst, firmalogo og rasterfotografering), for hver av disse er den optimale komprimeringsalgoritmen valgt. I tillegg kan DjVu-filen inneholde en innebygd interaktiv innholdsfortegnelse og hotspots - lenker, som gjør det mulig å implementere praktisk navigering. Gir en gevinst i filstørrelse sammenlignet med GIF-formatet med gjennomsnittlig halvannet til to dusin ganger.

XML-formater

("Extensible Markup Language")

Det er ganske mange tekstformater laget for en bestemt enhet eller programmer. For eksempel e-bøker. Disse inkluderer Rocket e-bok (.rb), Microsoft Reader (.lit), PalmDoc, MobiPocket (.pro), etc. Vanligvis er de alle skapt med XML-språk... Det mest vellykkede og vanligste av disse er FictionBook-formatet (FB2). På dette øyeblikket det er det mest progressive og lovende formatet for e-bøker... Den eneste ulempen er den tidkrevende forberedelsen av den første teksten. Noe som lønner seg i lesing. I FictionBook er det lagt vekt på dokumentstrukturering: ved å bruke tagger kan du fremheve ulike områder tekst (kapitler, overskrifter, sitater, sidefelt). Hvordan alt vil se ut på skjermen avhenger av leserprogrammet. Hvis du trenger å ordne dokumentet på en bestemt måte, er det mulighet for å legge ved et stilark.

Vi kommer over tekstfiler (dokumenter) nesten hver dag. Imidlertid, i dette problemet ikke forveksle utvidelsen av tekstfilen og tekstformatet til dataene, det er forskjellige ting. La oss prøve å finne ut hvilke filer av denne typen er, og hva de er.

Tekstfiltype: hva er det?

La oss starte med det faktum at de fleste filer av denne typen som regel har en utvidelse på tre bokstaver etter skilletegn (punktum). Den enkleste og vanligste typen er filer med filtypen .txt, åpnet i samme Windows-systemer ved hjelp av en standard "notisblokk".

Men til tross for de generelt aksepterte reglene, kan filtypene til tekstdokumenter ikke inneholde tre bokstaver, men flere (deres antall kan være opptil tolv, men ikke mer), for eksempel e-bokfiler.djvu. I tillegg kan nummer være tilstede i utvidelsen.

Hva gir oss vurdering av klassifiseringen av en tekstfil (dokument) når det gjelder deres identifikasjon? Og det faktum at ett blikk lar deg bestemme umiddelbart viktig spørsmål: hvilken filtype tekstfiler har, så er programmet knyttet til dem for åpning eller redigering. I mange tilfeller kan du nesten alltid identifisere den opprinnelige applikasjonen der en slik fil ble opprettet.


Men ikke glem at du i dag kan finne et ganske stort antall filer med de samme utvidelsene, men opprettet i andre applikasjoner eller tilknyttet forskjellige programmer... Det ser ut til at en vanlig fil med filtypen .doc (.docx) i utgangspunktet tilsvarer en tekst Microsoft redaktør Ord. Men du kan åpne den eller lagre den i denne formen i en annen, selv på "eple"-datamaskiner. Dette kan også inkludere så å si blandet type- pdf-filer som inneholder ikke bare tekst, men også grafikk. Men tross alt Word-dokumenter kan inneholde innsatte bilder.

Dette er det som fungerer som en indikator på at utvidelsen av en tekstfil indikerer allsidigheten til selve formatet, som er det mest "lesbare" uavhengig av til og med operativsystemet som brukes. Det samme gjelder for enhver type.

Filtypetyper: tekst

Generelt er i dag et så stort antall tekstformater og deres utvidelser kjent at praktisk talt ingen spesialist vil forplikte seg til å telle hele antallet.


Ja, selvfølgelig, universaliteten til slike dokumenter er hevet over tvil, spesielt hvis de bruker de enkleste.Men noen ganger kan problemet være at ikke hver koding støttes av et bestemt system eller program. Det er derfor et sett med symboler vises på skjermen i stedet for de vanlige bokstavene.

Når det gjelder varianter av tekstfiler, kan du ikke liste dem alle. De vanligste er .txt, .doc, .tex, .text, .pdf, .log, .apt, .ttf, .err, .sub, .djvu, .odt, .rtf og mange andre. Listen er uendelig.

Mest interessant er det at mange av disse filtypene har forskjellige roller i systemet. For eksempel bortsett fra vanlig fil subtitles.sub, en vanlig tekst document.txt kan være ansvarlig for å se dem når du åpner en video, og i denne forbindelse er mange formater utskiftbare.


Legg merke til og med kjørbare filer kan ha tekst som innhold. Det enkleste eksempelet- en .bat-fil opprettet i en vanlig "notisblokk" og inneholder tekst i form av et sett med kommandoer. Ved oppstart utføres kommandoene, og "Åpne med ..."-menyen brukes til redigering, med mindre denne prosessen i utgangspunktet er knyttet til en annen handling.


En lignende situasjon er observert med dokumenter som bruker markup- eller programmeringsspråk, for eksempel .html-, .htm-, .xml-filer osv. Selv nettsider kan åpnes naturlig i mange redaktører som tekstfiler som inneholder tredjepartselementer.

Endre filtypene til tekstfiler

Når det gjelder å endre utvidelsen, kan den noen ganger endres, for eksempel .txt til .doc og omvendt. Word editor vil åpne hvilken som helst type. Det samme gjelder for .txt - .bat-paret når det åpnes i Notisblokk. Men i andre tilfeller er det bedre å ikke utføre slike manipulasjoner, det vil ganske enkelt ikke føre til noe, og et annet program vil ikke kunne åpne den omdøpte filen. Endre formatet må gjøres ved hjelp av spesielle konverteringsprogrammer.

I stedet for et etterord

Som det allerede er klart, kan utvidelsen av en tekstfil ha mange variasjoner, avhengig av programmet der dokumentet ble opprettet. Men, så vel som i andre tilfeller, ved selve utvidelsen er det nesten alltid mulig å bestemme applikasjonen som opprinnelig er knyttet til den, i ekstreme tilfeller åpne den med et hvilket som helst annet program som støtter arbeid med denne typen data, selv om den opprinnelige applikasjonen er fraværende på datamaskinen. Og som det sikkert allerede er klart, er det tekstfiler som faktisk er de mest utbredte og universelle i dataverdenen, uavhengig av hva som brukes programvarepakker og operativsystemer.

Settet med regler for lagring av data i en fil kalles filformatet. Forskjellige typer filer som tekstfiler, punktgrafikk, etc., bruke ulike formater... Generelt kan flere typer filer defineres for én filtype. forskjellige formater selv om filtype og format ofte oppfattes som det samme. Filformatet identifiseres av filtypen som legges til filnavnet når det lagres i et bestemt format, for eksempel DOC, GIF og så videre.

Vanligvis er filformater opprettet for bruk i en strengt definert søknadsprogram... For eksempel lagres grafikk laget med den velkjente vektorgrafikkpakken CorelDRAW som filer med CDR-utvidelse mens bilder gjengis av en annen grafikkpakke, CorelXara, skrives til disken som XAR-filer. Noen formater er ikke knyttet til spesifikke applikasjoner, det vil si at de er universelle. En av de mest kjente universelle formater er en TXT-format(DOS-tekstfilformat).

Komprimering av datafiler brukes ofte for å spare lagringsplass. Det er mange måter å komprimere filer på. Disse metodene avhenger av originalformat filer. Generelt, jo høyere komprimeringsforhold, desto tregere blir lese- og skriveoperasjonene.

Når det gjelder komprimeringsalgoritmene, er det både komprimeringsalgoritmer uten tap av data, og algoritmer, når du bruker, hvilke datatap er mulig.



Tapsfri komprimering sikrer at all data som var i filen før komprimering er tilstede etter at filen er dekomprimert. Tapsfrie komprimeringsmekanismer brukes ved lagring av tekst eller numeriske data som f.eks regneark eller dokumentfiler. Eksempler på tapsfrie komprimeringsalgoritmer er den velkjente ZIP, ARJ og andre.

La oss gi Kort beskrivelse hovedformater som brukes:

§ Amerikansk standard Kode for informasjonsutveksling ASCII (TXT). Et tekstfilformat utviklet av American National Standards Institute. Støttes av alle operativsystemer og alle programmer. Det er en tekstfil i DOS-koding, det er ingen funksjon for å sette inn et bilde, ingen formatering, det fungerer på alle maskiner, det er mulig å lage kun små filer.

§ ANSI (TXT). Format på tekstfiler i ANSI-koding(for kode Microsoft-sider Windows)

§ MsWord for DOS, Windows (.DOC). Dokumentformat utviklet Microsoft Corporation, støttes av MS-DOS-programmer og de fleste tekstbehandlere. Den bevarer den originale dokumentformateringen så vel som tegnstiler. I tillegg til tekstinformasjon kan filer av dette formatet inneholde grafiske bilder med forskjellige parametere... Støtter 256 farger. Støtter ikke kompresjon. Den brukes hovedsakelig til å utveksle formaterte tekstdata mellom ulike plattformer og applikasjoner.

Hypertext Markup Language HTML (HTM, HTML). Markup language hypertekstdokumenter... Alle sider som ligger på Internett er opprettet ved hjelp av dette spesielt språk... HTML-dokumenter er ASCII-filer som kan vises og redigeres med et hvilket som helst tekstredigeringsprogram. Forskjellen fra en vanlig tekstfil er at HTML-dokumenter inneholder spesielle tag-kommandoer som definerer regelen for formatering av dokumentet. Hvis du klarte å mestre HTML-språk så kan du lage sider for Internett. Ved å legge til tagger (etiketter) i ren tekst tvinger du seeren til å vise den teksten på en bestemt måte og plassere bilder på siden. Hvis du har lært Java og JavaScript, vet du hvordan du kan utvide kraften til HTML ved å sette skriptkommandoer i tagger.

§ Portable Document Format PDF (.PDF). Dette dokumentlagringsformatet, utviklet av Adobe, hevder å være en åpen typografisk standard for nettet. Det blir sett på som et alternativ til HTML. Ulempen med HTML er at dokumenter oversatt til HTML vanligvis ikke beholder sitt originale format, med HTML som tilbyr et svært begrenset antall skrifttyper når de vises. Tvert imot, brukere Acrobat-programmer og PDF-verktøy for å lage, distribuere og vise dokumenter i deres opprinnelige format, vet at leserne vil se publikasjonen nøyaktig slik den ble laget. PDF-format er uerstattelig hvis du trenger en nøyaktig kopi nødvendig dokument... Som et eksempel på en vellykket PDF-applikasjoner for dokumenter på russisk, vil vi gi serveren til "Moscow News" på Internett. Materialene som presenteres på den i elektronisk form, gjentar papiroriginalen fullstendig, skrevet ut med typografisk metode.

§ Standard Generalized Markup Language (SGML). HTML utvikling oversettes til standard generisk markup language. Det er et verktøysett med mekanismer for å lage strukturerte dokumenter, merket med deskriptorer (tags). Sammenlignet med HTML gir den mer fleksible og allsidige formateringsalternativer på nettet. Imidlertid er SGML annerledes og økt hastighet, så PDF brukes som et enklere verktøy. Kraften til SGML ligger i dens strukturerte tilnærming på tvers av plattformer for å beskrive innholdet i dokumenter. SGML er egentlig et metaspråk, dvs. er ment å beskrive markup-språkene som brukes når du oppretter dokumenter.

Den mest brukte typen data i dataverdenen og på Internett er tekst. Video og grafikk er mye mer fargerik, og generelt er det bedre å se én gang enn å høre hundre ganger. Vel, det er også godt å høre – for dette tilfellet finnes det lyddataformater. Imidlertid er det upretensiøse og beskjedne bokstaver og tall som styrer databallen. Uten dem kan du ikke engang gi navn til en annen fil. Tekstdata er viktig og variert – dette er bøker, og dokumenter, og programkode... Og det er forskjellige formatalternativer for hvert formål. Det handler om dem som vil bli diskutert i denne artikkelen. Riktignok bør man umiddelbart gjøre en reservasjon - inn denne anmeldelsen formater på e-bøker vil ikke bli påvirket, de fortjener en egen diskusjon. Her vil det bli sagt om formatene til dokumentene.

Tekstformat – TXT (PlainText)

Så – det enkleste mulig, TXT-formatet. Dette er teksten i sin i hovedsak rene og ukompliserte form. Inneholder kun innholdet i teksten og det absolutte minimum av tjenestedata - tegn i begynnelsen og slutten av teksten, vognretur og lignende.

Til tross for sin nesten spartanske enkelhet, er ikke formatet blottet for variasjoner og forskjeller. For det første er det noen forskjeller mellom Windows, Unix og MacOS-versjoner som bruker forskjellige symboler slutten av linjen. Forskjeller kan også skyldes bruken av 8-biters (ASCII) eller 16-biters (UNICODE) kodesider.

Til tross for dette er TXT-formatet ekstremt allsidig, som det er veldig elsket av programmerere og systemadministratorer for.

MS Office dokumentformater og analoger - DOC, DOCX, RTF, ODT

For all sin allsidighet og enkelhet er TXT absolutt uegnet for å lage de faktiske dokumentene - tekster beregnet for utskrift i samsvar med visse regler og forskrifter. Siden slike dokumenter i tillegg til selve teksten også må inneholde mye informasjon om utforming og formatering av teksten. Og også om formatet og størrelsen på papirarket der de skal plasseres.

For disse formålene er det laget ganske mange formater av forskjellige kontorpakker. De mest populære og faktisk nær universelle kan betraktes som MS Word-formatene - doc og docx. Det første er et spesielt lukket format laget av Microsoft for tekstredigeringsprogrammet (mer presist, en hel linje med formater - i løpet av dets eksistens har det blitt forbedret flere ganger). Sammen med det, ved begynnelsen av selskapets utvikling, ble RTF-formatet (Rich Text Format) laget i samarbeid med Adobe-selskapet. I motsetning til DOC, er strukturen til dette formatet tilgjengelig, og det støttes med hell av nesten alle eksisterende tekstredigerere. Selv om det er noe dårligere enn DOC når det gjelder settet med tilgjengelige funksjoner.

Den lukkede karakteren til Microsofts utvikling har ført til opprettelsen av en åpen kontorpakkeÅpent kontor. Som en proprietær ODT (OpenDocument Text Format) ble utviklet for. Formatet er ikke godt støttet av kommersielle redaktører, inkludert MS Word og kan åpne med feil.

Endelig i 2007 år Microsoft bestemte seg for å forlate innsatsen på DOC-format og utviklet Office-formatfamilien Åpne XML som inkluderer DOCX, som har blitt hovedformatet for nye versjoner av MS Word.

PDF-format

Ved å nekte å samarbeide med Microsoft gikk Adobe sine egne veier. Hun utviklet seg PDF-format som var et format ikke så mye for å utvikle dokumenter som for å se og skrive dem ut. I motsetning til den forrige gruppen, som er formatert tekst, hvis utseende likevel kan endre seg avhengig av hvilken maskin den vises eller skrives ut på, er PDF et dokumentformat som er fundamentalt uendret og bevarer utseende og layout under alle forhold. Den støtter også et ganske bredt utvalg av både utskriftselementer og Tilleggstjeneste(for eksempel passordbeskyttelse av et dokument fra redigering eller utskrift, og så videre). Alt dette gjør PDF til et mer et format for distribusjon av komplekse og profesjonelt utførte dokumenter og til og med bøker.