Basisformaten voor het opslaan van tekstdocumenten. Tekstformaten en tekstbestandseditors

Software voor het verwerken van tekst en grafische gegevens.

Een van de meest voorkomende functies van modern persoonlijke computer is de voorbereiding van verschillende tekstdocumenten.

Er zijn twee hoofdgroepen van programma's voor het voorbereiden van tekstdocumenten: tekstverwerkers en tekstverwerkers.

Teksteditors, worden in feite programma's genoemd die tekstbestanden maken zonder opmaakelementen (dat wil zeggen, ze staan ​​niet toe om delen van de tekst met verschillende lettertypen en lettertypen te markeren). Dit soort editors zijn onmisbaar bij het maken van teksten voor computerprogramma's.

tekstverwerkers weet hoe u tekst moet opmaken, afbeeldingen en andere objecten in het document moet invoegen die niet gerelateerd zijn aan het klassieke concept van "tekst". Opgemerkt moet worden dat deze verdeling willekeurig is - de verscheidenheid aan programma's voor tekstverwerking stelt u in staat een editor te vinden met elke reeks functies.

Sommige tekstverwerkers zijn zogenaamde WYSIWYG-editors. De naam is afgeleid van de eerste letters van de zin What You See Is What You Get - what you see is what you get. Als ze zeggen dat dit een WYSIWYG-editor is, garanderen ze dat het uiterlijk van het document op het computerscherm en de afgedrukte kopie volledig consistent is. Dit soort editors zijn onder meer Word en StarWriter.

Sommige moderne editors ondersteunen het "bijna" WYSIWYG-concept. Tegelijkertijd is het uiterlijk van het document op het scherm iets anders dan hoe het afgedrukte document eruit zal zien, maar dit is met opzet gedaan om meer effectief gebruik werkvenster van het document. Voorbeelden van "bijna" WYSIWYG-editors zijn Netscape Composer en KLyX.

formaten tekstbestanden

Tekstbestanden is het meest voorkomende gegevenstype in computer wereld... Er zijn verschillende problemen met tekstbestanden. De eerste is het extreem grote aantal tekens dat nodig is om verschillende talen te ondersteunen. Amerikaanse programmeurs gebruiken de Amerikaanse ASCII-tekenset om met 128 tekens te werken. standaardcode: voor informatie-uitwisseling). Om andere talen te ondersteunen, zijn 256 tekens vaak niet genoeg, dus nu is er een geleidelijke overgang naar de Unicode-codering, waarbij al twee bytes zijn toegewezen om één teken op te slaan (dat wil zeggen, het is mogelijk om 65.536 verschillende tekens te coderen).

Het tweede probleem is dat mensen willen dat afgedrukte documenten grafieken, diagrammen, notities en koppen bevatten, en om te gebruiken verschillende lettertypen... Documenten die op internet worden verspreid (online documenten) kunnen animaties, links naar verschillende netwerkbronnen en geluidsband.

Veel tekstbestanden worden verzonden als platte tekst(platte tekst). Het is moeilijk om platte tekst aantrekkelijk en gemakkelijk leesbaar te maken, omdat deze geen lettertypen met verschillende gewichten, afbeeldingen, koppen, subkoppen, enz. bevat. extra kenmerken worden opmaak genoemd.

Over tekstopmaak gesproken, de concepten van fysieke en logische opmaak worden onderscheiden. Bij gebruik van fysieke tekstopmaak wordt het exacte uiterlijk van elk fragment aangegeven. Bijvoorbeeld "gecentreerde tekst, 14 punten, vet, Times". Met booleaanse opmaak wordt de booleaanse betekenis van het gegeven fragment aangegeven, bijvoorbeeld "dit is de kop van het hoofdstuk". Deze twee opmaakmethoden zijn meestal bedoeld voor gebruik in verschillende situaties... Om tekst op een printer af te drukken, moet u fysieke opmaak gebruiken. Er moeten beslissingen worden genomen over de grootte van de velden en alinea-inspringingen. vroege versies tekstverwerkers alleen gebruikt fysiek type opmaak. Tegelijkertijd werden voor elk fragment het lettertype, de grootte en de stijl aangegeven.

Bij het uitwisselen van informatie met anderen legt de fysieke opmaak van de tekst een aantal beperkingen op, vooral voor online documenten. Schermgrootte, resolutie, lettertypen zijn verschillend voor verschillende systemen... Om deze redenen wordt steeds vaker gebruik gemaakt van logisch tekstontwerp. In sommige gevallen is logisch ontwerpen praktisch noodzakelijk: bij het maken elektronische documenten type WWW-pagina's of bij het maken en publiceren van omvangrijke werken zoals boeken.

Om de opmaak van documenten tijdens verzending te behouden tekst informatie van auto naar auto solliciteren verschillende manieren... Tekstverwerkers en publicatiesystemen gebruiken speciaal ontworpen bestandsindelingen die niet alleen tekst bevatten, maar ook informatie over hoe deze moet worden opgemaakt. Het grootste probleem hier is de incompatibiliteit van dergelijke formaten, hoewel de meest complexe programma's kan meestal bestanden in concurrerende softwareformaten lezen. Voorbeelden van deze aanpak zijn de tekstverwerkers Word en StarWriter.

In een andere benadering worden rechtstreeks in de tekst van het document ingevoegd speciale teams opmaak. Ook als je dat niet hebt software die dit formaat ondersteunt, kunt u er nog steeds achter komen. Er zijn veel manieren om tekstopmaak op deze manier weer te geven, waaronder:

HyperText Markup Language (HTML) gebruikt in Wereldwijd Web;

TeX en LaTeX, populair bij veel academische publicaties, maar ook bij wiskundigen, natuurkundigen, scheikundigen en zelfs muzikanten.

Voorbeelden van programma's die op deze manier tekst kunnen markeren zijn Netscape Composer en LyX (KLyX).

Bestanden aangemaakt door verschillende redacteuren, hebben vaak unieke extensies die het mogelijk maken, zonder in het document te kijken, te raden naar manieren om tekst te markeren. Bestanden die door redacteuren zijn gemaakt voor het voorbereiden van platte tekst hebben bijvoorbeeld vaak de extensie .txt en bestanden die zijn voorbereid in Lyx - .lyx. De tekstverwerker maakt bestanden standaard in MS Word-formaat (extensie .doc), maar ondersteunt ook andere formaten, zoals RTF (extensie .rtf). Documenten die HTML-opmaakopdrachten bevatten, hebben de extensie .html of .htm.

Het is natuurlijk onmogelijk om alle tekstverwerkers op te sommen. Velen van hen zijn "geslepen" voor een of andere specifieke activiteit. De onderstaande lijst toont slechts een kleine selectie van teksteditors.

Bewerkers van platte tekst

NotePad - ingebouwd in het Windows-besturingssysteem, gemakkelijk te begrijpen en te gebruiken;

McEdit - lijkt op MS DOS Edit, component bestandsbeheer mc ( middernacht commandant) Linux-besturingssysteem;

KEdit is de eenvoudigste teksteditor die bij KDE Linux wordt geleverd;

KWrite is een teksteditor met een aantal: aanvullende instellingen vergeleken met andere protozoa tekstverwerkers;

Emacs - combineert de functies van een bestandsbeheerder en een teksteditor; een van de onderscheidende kenmerken is de mogelijkheid om macro's (macro's) te maken; is beschikbaar in alle klonen van Unix, inclusief Linux; Emacs kan ook op MS Windows worden gebruikt.

Editors die tekst maken met opmaakelementen

Word - dient om een ​​verscheidenheid aan gedrukte documenten te maken, is een onderdeel kantoortoepassingen in MS-Windows;

StarWriter - opgenomen in het StarOffice-programma, qua uiterlijk en functionaliteit vergelijkbaar met Word, werkt even goed in zowel MS Windows als Linux;

LyX (KLyX in KDE) is een moderne teksteditor die is ontworpen voor mensen die een document willen dat er professioneel uitziet, maar er een minimum aan tijd aan besteden; de editor voegt TeX- en LaTeX-opmaakopdrachten in de tekst in;

Netscape Composer - voegt HTML-opmaakopdrachten in de tekst in; er zijn versies voor zowel Linux als MS Windows.

Bij het verwerken van informatie met betrekking tot een afbeelding op een monitor is het gebruikelijk om drie hoofdgebieden te onderscheiden: patroonherkenning, beeldverwerking en computergraphics.

De belangrijkste taak van patroonherkenning de basis is om een ​​bestaand beeld om te zetten in een formeel begrijpelijke taal karakters. Beeldherkenning of een computervisiesysteem (COMPUTER VISION) is een reeks methoden waarmee u een beschrijving kunt verkrijgen van een afbeelding die naar de invoer is verzonden, of een bepaalde afbeelding kunt classificeren (dit wordt bijvoorbeeld gedaan bij het sorteren van post). Een van de taken van COMPUTER VISION is het zogenaamde skeletoniseren van objecten, waarbij een bepaalde basis van het object, zijn "skelet", wordt hersteld.

Afbeelding verwerken(BEELDVERWERKING) houdt zich bezig met taken waarbij zowel de invoer als de uitvoer afbeeldingen zijn. Bijvoorbeeld beeldoverdracht met ruisonderdrukking en datacompressie, overgang van het ene type beeld naar het andere (van kleur naar zwart-wit), etc. Beeldverwerking wordt dus opgevat als een activiteit op beelden (beeldtransformatie). De taak van beeldverwerking kan ofwel een verbetering zijn, afhankelijk van een bepaald criterium (restauratie, restauratie), ofwel een speciale transformatie die het beeld radicaal verandert.

Bij het verwerken van afbeeldingen zijn er de volgende groepen taken:

We zullen ons beperken tot het werken met alleen digitale afbeelding. Digitale transformatie conversies kunnen per doel in twee typen worden verdeeld:

Beeldherstel - compenseren van bestaande vervorming (bijvoorbeeld slechte fotografieomstandigheden);

Beeldverbetering is de vervorming van een afbeelding om de visuele waarneming te verbeteren of om te zetten in een vorm die geschikt is voor verdere verwerking.

Computer (machine) graphics(COMPUTER GRAPHICS) reproduceert een afbeelding wanneer de oorspronkelijke informatie van niet-visuele aard is. Bijvoorbeeld visualisatie van experimentele gegevens in de vorm van grafieken, histogrammen of diagrammen, weergave van informatie op het scherm computer spelletjes, synthese van scènes op simulatoren.

Computergraphics zijn nu geëvolueerd als de wetenschap van hardware en software voor afbeeldingen, variërend van eenvoudige blauwdrukken tot realistische afbeeldingen van natuurlijke objecten. Computergraphics worden in bijna alle wetenschappelijke en technische disciplines gebruikt voor duidelijkheid en perceptie, informatieoverdracht. Toepasbaar in de geneeskunde, reclame, entertainmentindustrie, enz. Zonder: computer beelden niet een modern programma... Het werken aan grafische afbeeldingen neemt tot 90% van de werktijd in beslag van programmeerteams die programma's vrijgeven voor massaal gebruik.

Het eindproduct van computergraphics is een afbeelding. Deze afbeelding kan worden gebruikt in verschillende gebieden het kan bijvoorbeeld een technische tekening zijn, een illustratie van een onderdeel in een handleiding, een eenvoudig diagram, een architectonisch aanzicht van een voorgestelde constructie of projectopdracht, een promotionele illustratie of een cartoonstill.

Computergraphics is een wetenschap waarvan het onderwerp het creëren, opslaan en verwerken van modellen en hun afbeeldingen is met behulp van een computer, d.w.z. dit is een tak van informatica die zich bezighoudt met de problemen van het verkrijgen van verschillende afbeeldingen (tekeningen, tekeningen, animatie) op een computer.

In computergraphics worden de volgende taken overwogen:

Weergave van afbeeldingen in computergraphics;

Een afbeelding voorbereiden voor weergave;

Beeldcreatie;

Acties uitvoeren met de afbeelding.

Computergraphics worden meestal begrepen als de automatisering van de processen van voorbereiding, transformatie, opslag en reproductie van grafische informatie met behulp van een computer. Onder grafische informatie de modellen van objecten en hun afbeeldingen worden begrepen.

Als de gebruiker de kenmerken van objecten kan beheersen, dan hebben ze het over interactieve computergraphics, d.w.z. vaardigheid computer systeem maak afbeeldingen en voer een dialoog met een persoon. Tegenwoordig kan bijna elk programma worden beschouwd als een interactief grafisch computersysteem.

Interactieve computergraphics- dit is ook het gebruik van computers voor de voorbereiding en reproductie van afbeeldingen, maar tegelijkertijd heeft de gebruiker de mogelijkheid om snel wijzigingen in de afbeelding aan te brengen direct tijdens de reproductie, d.w.z. er wordt aangenomen dat het mogelijk is om met afbeeldingen in dialoogmodus te werken in echte schaal tijd.

Interactieve afbeeldingen is een belangrijk onderdeel van computergraphics, wanneer de gebruiker de mogelijkheid heeft om de inhoud van het beeld, de vorm, grootte en kleur op het weergaveoppervlak dynamisch te regelen met behulp van interactieve bedieningsapparatuur.

Historisch gezien zijn de eerste interactieve systemen systemen computerondersteund ontwerp(CAD) die in de jaren 60 verscheen. Ze vertegenwoordigen een belangrijke mijlpaal in de evolutie van computers en software. In een interactief grafisch computersysteem ziet de gebruiker op het scherm een ​​afbeelding die een bepaalde complex object, en kan wijzigingen aanbrengen in de beschrijving (model) van het object. Dergelijke wijzigingen kunnen zowel invoer als bewerking zijn. individuele elementen en het instellen van numerieke waarden voor alle parameters, evenals andere bewerkingen voor het invoeren van informatie op basis van de perceptie van afbeeldingen.

Rasterafbeeldingen, algemene informatie

Een computerrasterafbeelding wordt weergegeven als rechthoekige matrix, waarvan elke cel wordt weergegeven door een gekleurde stip.

De basis van de bitmapweergave van afbeeldingen is: pixel(punt) die de kleur aangeeft. Wanneer u bijvoorbeeld een rode ellips op een witte achtergrond beschrijft, moet u de kleur van elk punt van de ellips en de achtergrond specificeren. De afbeelding wordt gepresenteerd als een groot aantal stippen - hoe meer er zijn, hoe visueel beter beeld en grotere maat het dossier. Die. een en zelfs een foto kan worden gepresenteerd met de beste of slechtste kwaliteit volgens het aantal punten per lengte-eenheid - resolutie (meestal punten per inch - dpi of pixels per inch - ppi).

Bitmaps lijken op een vel geruit papier, waarop elke cel is geverfd, hetzij zwart of wit, en vormt een patroon in het geheel. Pixel is het belangrijkste element van bitmaps. Het is uit dergelijke elementen dat de rasterafbeelding bestaat, d.w.z. rasterafbeeldingen beschrijft afbeeldingen met behulp van gekleurde stippen (pixels) die zich op een raster bevinden.

Wanneer u bitmapafbeeldingen bewerkt, bewerkt u pixels, geen lijnen. Bitmapafbeeldingen zijn resolutieafhankelijk omdat de informatie die de afbeelding beschrijft, aan het raster is gekoppeld een bepaalde maat... Bij het bewerken van bitmapafbeeldingen kan de kwaliteit van de presentatie veranderen. Met name het wijzigen van het formaat van bitmapafbeeldingen kan ervoor zorgen dat de randen van de afbeelding "pluizig" lijken als pixels opnieuw worden verdeeld over het raster. Het uitvoeren van rasterafbeeldingen naar apparaten met een lagere resolutie dan de resolutie van de afbeelding zelf zal de kwaliteit van de afbeelding verminderen.

Daarnaast wordt kwaliteit ook gekenmerkt door het aantal kleuren en tinten dat elk punt van de afbeelding kan aannemen. Hoe grote hoeveelheid tinten worden gekenmerkt door afbeeldingen, hoe meer bits er nodig zijn om ze te beschrijven. Rood kan het kleurnummer 001 zijn, of het kan 00000001 zijn. Dus hoe beter de afbeelding, hoe groter de bestandsgrootte.

Bitmap wordt meestal gebruikt voor afbeeldingen van het fotografische type met veel detail of tint. Helaas verslechtert het schalen van dergelijke afbeeldingen in elke richting meestal de kwaliteit. Met een afname van het aantal punten gaan kleine details verloren en worden de inscripties vervormd (hoewel dit misschien niet zo opvalt wanneer de visuele grootte van de afbeelding zelf wordt verkleind - dat wil zeggen, de resolutie blijft behouden). Het toevoegen van pixels leidt tot een verslechtering van de scherpte en helderheid van het beeld. nieuwe punten moeten tinten krijgen tussen twee of meer aangrenzende kleuren.

Met behulp van rasterafbeeldingen kunt u het hele scala aan tinten en subtiele effecten die inherent zijn aan echte afbeelding... Een rasterafbeelding staat dichter bij een foto, het stelt u in staat om de belangrijkste kenmerken van een foto nauwkeuriger weer te geven: verlichting, transparantie en scherptediepte.

Meestal worden rasterafbeeldingen verkregen door foto's en andere afbeeldingen te scannen, een digitale camera te gebruiken of door een videoframe te "vastleggen". Rasterafbeeldingen kunnen direct worden verkregen in rasterprogramma's of vectorafbeeldingen door vectorafbeeldingen te converteren.

Veelgebruikte formaten zijn .tif, .gif, .jpg, .png, .bmp, .pcx, enz.

Vectorafbeeldingen, algemene informatie

Vectorafbeeldingen beschrijven afbeeldingen met rechte en gebogen lijnen, vectoren genoemd, en parameters die kleuren en posities beschrijven. Het beeld van een boomblad (zie Fig. 1) wordt bijvoorbeeld beschreven door de punten waar de lijn doorheen gaat, waardoor de omtrek van het blad ontstaat. De kleur van het blad wordt bepaald door de kleur van de omtrek en het gebied binnen die omtrek.

In tegenstelling tot rasterafbeeldingen in vectorafbeeldingen, is de afbeelding opgebouwd met behulp van wiskundige beschrijvingen van objecten, cirkels en lijnen. Hoewel dit op het eerste gezicht misschien ingewikkelder lijkt dan het gebruik van bitmap-arrays, is het voor sommige soorten afbeeldingen gemakkelijker om wiskundige beschrijvingen te gebruiken.

De sleutel tot vectorafbeeldingen is dat het een combinatie gebruikt van: computerteams en wiskundige formules voor het object. Dit maakt het mogelijk computer apparaten bereken en plaats echte punten op de juiste plaats bij het tekenen van deze objecten. Deze eigenschap van vectorafbeeldingen geeft het een aantal voordelen ten opzichte van rasterafbeeldingen, maar is tegelijkertijd de reden voor de nadelen.

Vectorafbeeldingen worden vaak objectgeoriënteerde afbeeldingen of grafische afbeeldingen tekenen. Eenvoudige objecten zoals cirkels, lijnen, bollen, kubussen en dergelijke, worden primitieven genoemd en worden gebruikt om meer complexe objecten... In vectorafbeeldingen worden objecten gemaakt door verschillende objecten te combineren.

Voor het maken van vector tekeningen je moet een van de vele illustratiepakketten gebruiken. Het voordeel van vectorafbeeldingen is dat de beschrijving eenvoudig is en weinig computergeheugen in beslag neemt. Het nadeel is echter dat het gedetailleerde vectorobject te complex kan zijn, mogelijk niet wordt afgedrukt zoals verwacht door de gebruiker, of helemaal niet wordt afgedrukt als de printer vectoropdrachten verkeerd interpreteert of niet begrijpt.

Het bewerken van vector grafische elementen verandert de parameters van rechte en gebogen lijnen die de vorm van deze elementen beschrijven. U kunt elementen overbrengen, hun grootte, vorm en kleur wijzigen, maar dit heeft geen invloed op hun kwaliteit visuele presentatie... Vectorafbeeldingen zijn resolutie-onafhankelijk, d.w.z. kan worden weergegeven op verschillende uitvoerapparaten met verschillende resoluties zonder kwaliteitsverlies.

Vectorrepresentatie bestaat uit de beschrijving van beeldelementen door wiskundige krommen die hun kleuren en bezetting aangeven.

Een ander voordeel is schaalbaarheid van hoge kwaliteit in elke richting. Een toename of afname van objecten wordt uitgevoerd door de overeenkomstige coëfficiënten in wiskundige formules te verhogen of te verlagen. Helaas, vectorformaat wordt nadelig bij het overbrengen van afbeeldingen met veel tinten of kleine details (bijvoorbeeld foto's). Elke kleinste schittering wordt in dit geval immers niet weergegeven door een verzameling eenkleurige stippen, maar door de meest complexe wiskundige formule of een verzameling grafische primitieven, die elk een formule zijn. Dit maakt het bestand zwaarder. Bovendien leidt het converteren van een afbeelding van een raster naar een vectorformaat (bijvoorbeeld met Adobe Strime Line of Corel OCR-TRACE) tot de erfenis van de laatste in de onmogelijkheid van correcte opschaling. De toename van lineaire afmetingen vergroot niet het aantal details of tinten per oppervlakte-eenheid. Deze beperking wordt opgelegd door de resolutie van invoerapparaten (scanners, digitale fototoestellen en etc.).

Elementen (objecten) van vectorafbeeldingen. Objecten en hun attributen

de belangrijkste logisch element vectorafbeeldingen is een geometrisch object. Eenvoudige geometrische vormen (zogenaamde primitieven - rechthoek, cirkel, ellips, lijn), samengestelde vormen of vormen opgebouwd uit primitieven, kleurvullingen, inclusief verlopen, worden als objecten geaccepteerd.

Het belangrijkste object van vectorafbeeldingen is de spline. Een spline is een kromme waardoor de een of de ander geometrische figuur... De splines zijn gebouwd moderne lettertypen TryeType en PostScript.

Vector grafische objecten kunnen gemakkelijk worden getransformeerd en gewijzigd, wat bijna geen effect heeft op de beeldkwaliteit. Schalen, rotatie, kromming kan worden teruggebracht tot een paar drie elementaire transformaties boven vectoren.

Als in rasterafbeeldingen basis element afbeelding is een punt, dan in vectorafbeeldingen - een lijn. De lijn wordt wiskundig beschreven als een enkel object, en daarom is de hoeveelheid gegevens voor het weergeven van een object met vectorafbeeldingen aanzienlijk minder dan bij rasterafbeeldingen.

Een lijn is een elementair object van vectorafbeeldingen. Zoals elk object heeft een lijn eigenschappen: vorm (recht, gebogen), dikte, kleur, stijl (vast, gestreept). Gesloten lijnen krijgen de eigenschap van vullen. De ruimte die ze bedekken kan worden gevuld met andere objecten (texturen, kaarten) of een gekozen kleur. De eenvoudigste open lijn wordt begrensd door twee punten die knooppunten worden genoemd. Knopen hebben ook eigenschappen waarvan de parameters de vorm van het einde van de lijn en de aard van de filet met andere objecten beïnvloeden. Alle andere vectorafbeeldingsobjecten zijn samengesteld uit lijnen. Een kubus kan bijvoorbeeld zijn samengesteld uit zes verbonden rechthoeken, die elk op hun beurt worden gevormd door vier verbonden lijnen.

Er was eens een tijd dat tekstgegevens in slechts één type container werden geplaatst: TXT. Er waren geen anderen. Tegenwoordig kan hun aantal de vijftig naderen. Sommige gebruiken we altijd, andere komen we zelden tegen. We vermoeden zelfs het bestaan ​​van de derde niet. Laten we eens kijken naar de meest voorkomende tekstgegevensopslag vanuit het oogpunt van gemak in gebruik maken van.
<<>>

TXT ("platte tekst")

De grondlegger van het "genre". Het wordt tot op de dag van vandaag actief gebruikt. Aangezien de tekst wordt opgeslagen als een reeks tekens, is de bestandsgrootte in bytes gelijk aan het aantal tekens plus niet-afdrukbare tekens(spatieteken, tabstop, alinea-eindteken en andere - ze worden ook opmaaktekens genoemd). Hierdoor wordt een kleine bestandsgrootte bereikt. De opmaakmogelijkheden voor dergelijke documenten zijn echter zeer beperkt. In wezen is het gewoon tekst. Tekstgegevens kunnen niet alleen worden opgeslagen in containers met de TXT-extensie. In feite zijn deze extensies optioneel. Hernoem TXT naar DOC, er verandert niets. De interne structuur blijft hetzelfde. Op dezelfde manier verandert DOC-extensie op TXT ontvangt u hetzelfde "Word"-bestand. Waar dienen deze drie letters na de punt dan voor? Voor correcte interpretatie door programma's die ze standaard openen.

RTF ("Rich Text Format")

Een gratis, platformonafhankelijke opslagindeling voor tekstdocumenten, gemaakt door Microsoft in 1987. Het is nu wijdverbreid, dus de meeste moderne teksteditors ondersteunen het. Door RTF aan te maken op Windows-platform, het zal perfect lezen en bewerken op andere platforms (Apple, Linux en anderen). De de facto standaard in de grafische industrie. Niet alle programma's maken het echter even correct. Het viel op dat in een document dat in OpenOffice was gemaakt, de opmaak soms flitste en dat een deel van de tekst in onleesbare tekens veranderde.

Met RTF kun je vrij complexe opmaak maken en opslaan, voetnoten, kop- en voetteksten, figuren, tabellen en formules invoegen, hoewel het hierin nog steeds inferieur is aan het DOC-formaat. Het is inferieur aan DOC in het volume van bestanden: complexe documenten compacter opgeslagen in DOC-bestanden (eenvoudige - vice versa). RTF wint echter het veiligheidsdebat met DOC omdat het geen macro's gebruikt. Daarom, degenen die besmet zijn met macrovirussen Word-bestanden kan worden "genezen" door op te slaan in RTF-formaat. Daarnaast, RTF-formaat bestand tegen bestandschade. Als u ten minste één byte in een DOC-bestand wijzigt, wordt het niet langer geopend in Word. Een beschadigd RTF-bestand kan alleen leiden tot het verlies van het beschadigde stuk tekst.

DOC (van het Engelse "document")

Aanvankelijk werd deze extensie gebruikt om platte tekstbestanden aan te duiden zonder opmaak, maar in de vroege jaren 90 "privatiseerde" Microsoft het eigenlijk. Daarom wordt DOC nu alleen geassocieerd met de producten van dit bedrijf. Dit formaat biedt geweldige mogelijkheden voor het opmaken van tekst (scripts, macro's zijn inbegrepen). Hierdoor is de compatibiliteit met teksteditors verslechterd. externe ontwikkelaars... Dit bestand bevat een schat aan informatie over lettertypen, tekenstijlen, alinea-inspringingen en spatiëring, zelfs als u dit niet allemaal nodig heeft. Het is hierdoor Extra informatie het tekstbestand is groter dan het RTF-bestand. Echter, wanneer opgenomen in het document verschillende grafische elementen en DOC-afbeeldingen winnen in grootte en bieden meer compatibiliteit. In tegenstelling tot TXT en RTF is DOC een binair formaat, waardoor het onleesbaar is in eenvoudige teksteditors. Kladblok kan bijvoorbeeld sommige RTF-bestanden bekijken. Populair bij RTF.

DOCX

Met de komst van Office 2007 is Microsoft overgestapt op nieuwe formaten op basis van: Kantoor geopend XML (visueel anders doordat de letter "x" aan het einde aan de extensies is toegevoegd). Het formaat is een zip-archief dat XML-tekst, afbeeldingen en andere gegevens bevat. ZiP-compressie wordt gebruikt om de bestandsgrootte te verkleinen. Documenten zijn alleen achterwaarts compatibel met Office 2000 / XP / 2003 indien geïnstalleerd Microsoft Office Compatibiliteitspakket (u kunt het vinden en downloaden van de officiële Microsoft-website, bestandsgrootte 27,8 MB). Als u DOCX dringend naar een ander formaat moet converteren, gebruik dan de diensten van de site http://docx-converter.com/. Als u gebruik maakt van laatste versie Office en ben van plan om bestanden naar iemand over te dragen, documenten op te slaan in RTF of DOC.

ODT / ODF (" Document openen formaat ")

ODF - generieke naam open formaat documenten voor kantoortoepassingen (tekst, tabellen, figuren, databases, presentaties). Tekstgegevens worden opgeslagen in bestanden met extensie ODT... De standaard is ontwikkeld door de OASIS-industriegemeenschap en is gebaseerd op het XML-formaat. Op 1 mei 2006 werd het aangenomen als een internationale norm ISO / IEC 26300. ODF is voor iedereen beschikbaar en kan zonder beperkingen worden gebruikt. Een soort gratis alternatief gesloten Microsoft-indelingen... Om het ODF-formaat te kunnen lezen en schrijven in: Microsoft-producten, is de Sun ODF-plug-in voor Microsoft Office uitgebracht. ODF-ondersteuning in Microsoft Office 2007 zou moeten worden geïntroduceerd met een release met Service Pack 2. Helaas is het nog steeds inferieur aan RTF en DOC.

HTML

(van de Engelse Hypertext Markup Language - "hypertext markup language")

De standaard opmaaktaal voor documenten op internet (extensie .htm / html). Webpagina's worden gemaakt met HTML (of XHTML). HTML is in 1991 ontwikkeld door de Britse wetenschapper Tim Berners-Lee als een taal voor de uitwisseling van wetenschappelijke en technische documentatie, geschikt voor gebruik door mensen die geen specialist zijn op het gebied van lay-out. Sms met HTML-opmaak had moeten worden gereproduceerd zonder stilistische en structurele vervormingen verschillende apparaten... Later werd echter de actieve introductie van multimedia en grafisch ontwerp deze plannen geschonden. U hebt geen speciale editors nodig om HTML-documenten te bekijken, alleen standaard gereedschap ingebouwd in het besturingssysteem. In termen van openheid, indexeerbaarheid, converteerbaarheid en leesbaarheid overtreft het alle andere formaten. Helaas zijn de afbeeldingen opgeslagen in aparte map. Internet Explorer stelt u in staat om tekst en afbeeldingen in één MNT-document op te slaan, maar andere browsers openen mogelijk geen vergelijkbaar bestand.

СНМ (Gecompileerde HTML)

SNM is in wezen een verzameling gecompileerde HTML-documenten, zoiets als een archief van webpagina's, waardoor het kleiner is. Voor het bekijken wordt een hulpprogramma gebruikt dat is ingebouwd in Windows 98 / NT en hoger. Er zijn ook kijkers van derden. Om SNM-bestanden te maken, kunt u gratis tool HTML Help-workshop. Nu wordt het actief gebruikt als referentie voor verschillende toepassingen.

PDF

(draagbaar documentformaat)

Een platformonafhankelijke elektronische documentindeling gemaakt door Adobe Systems met behulp van een aantal PostScript-taalfuncties. Primair bedoeld voor presentatie in in elektronisch formaat print producten. Om te bekijken, kunt u de officiële gratis Adobe-programma Reader, evenals programma's van derden. Handig omdat het probleem met de gevlogen opmaak is opgelost, onjuiste weergave ingesloten grafische elementen, ontbreken van bepaalde lettertypen. Het bestand op elk platform wordt weergegeven in dezelfde vorm waarin het is gemaakt. Op de traditionele manier Het maken van PDF-documenten gaat als volgt: het document als zodanig wordt voorbereid in zijn programma en vervolgens geëxporteerd naar PDF. Sommige programma's hebben de mogelijkheid om direct te exporteren (zonder gebruik te maken van virtuele printer). Bijvoorbeeld OpenOffice.org. Zo'n optie is er nog niet in MS Word. De de facto standaard voor de meeste documentatie.

DjVu ("deja vu")

Lossy beeldcompressietechnologie speciaal ontworpen voor het opslaan van gescande documenten - boeken, tijdschriften, manuscripten, enz., waarbij de aanwezigheid van formules, diagrammen, tekeningen en handgeschreven symbolen hun volwaardige herkenning uiterst bewerkelijk maakt. Is ook effectieve oplossing, als het nodig is om alle nuances van registratie over te brengen, bijvoorbeeld historische documenten. Heel gebruikelijk, veel bibliotheken gebruiken het om gescande wetenschappelijke boeken op te slaan. DjVu wordt soms een "tekst-grafisch" formaat genoemd. De essentie van DjVu-technologie is om de afbeelding automatisch in verschillende secties te splitsen (bijvoorbeeld tekst, bedrijfslogo en rasterfotografie), voor elk waarvan het optimale compressie-algoritme wordt geselecteerd. Bovendien kan het DjVu-bestand een ingesloten interactieve inhoudsopgave en hotspots - links bevatten, wat het mogelijk maakt om gemakkelijke navigatie te implementeren. Geeft een winst in bestandsgrootte in vergelijking met GIF-formaat, gemiddeld anderhalf tot twee dozijn keer.

XML-formaten

("Uitbreidbare opmaaktaal")

Er zijn nogal wat tekstformaten voor gemaakt specifiek apparaat of programma's. E-boeken bijvoorbeeld. Deze omvatten Rocket e-book (.rb), Microsoft Reader (.lit), PalmDoc, MobiPocket (.pro), enz. Meestal zijn ze allemaal gemaakt met XML-taal... De meest succesvolle en meest verspreide hiervan is het FictionBook (FB2) formaat. Op dit moment het is het meest vooruitstrevende en veelbelovende formaat voor e-boeken... Het enige nadeel is de tijdrovende voorbereiding van de oorspronkelijke tekst. Wat zich terugbetaalt in leesgemak. In FictionBook ligt de nadruk op documentstructurering: met behulp van tags kunt u markeren verschillende gebieden tekst (hoofdstukken, kopjes, aanhalingstekens, zijbalken). Hoe alles er op het scherm uitziet, hangt af van het leesprogramma. Als u het document op een bepaalde manier wilt ordenen, is er de mogelijkheid om een ​​stylesheet bij te voegen.

Bijna dagelijks komen we tekstbestanden (documenten) tegen. Echter, in dit probleem verwar de extensie van het tekstbestand en het tekstformaat van de gegevens niet, het zijn verschillende dingen. Laten we proberen vast te stellen welke bestanden van dit type zijn en wat ze zijn.

Tekstbestandsextensie: wat is het?

Laten we beginnen met het feit dat in de regel de meeste bestanden van dit type een extensie van drie letters hebben na het scheidingsteken (punt). Het eenvoudigste en meest voorkomende type zijn bestanden met de extensie .txt, geopend in dezelfde Windows-systemen met behulp van een standaard "Kladblok".

Ondanks de algemeen aanvaarde regels mogen bestandsextensies voor tekstdocumenten echter niet drie letters bevatten, maar meer (het aantal kan oplopen tot twaalf, maar niet meer), bijvoorbeeld e-book files.djvu. Daarnaast kunnen er nummers in de extensie aanwezig zijn.

Wat geeft ons overweging van de classificatie van een tekstbestand (document) in termen van hun identificatie? En het feit dat u in één oogopslag direct kunt beslissen belangrijke vraag: welke extensie tekstbestanden hebben, net als het programma dat eraan is gekoppeld om te openen of te bewerken. In veel gevallen kunt u bijna altijd de oorspronkelijke toepassing identificeren waarin een dergelijk bestand is gemaakt.


Vergeet echter niet dat u vandaag een vrij groot aantal bestanden kunt vinden met dezelfde extensies, maar gemaakt in andere applicaties of geassocieerde verschillende programma's... Het lijkt erop dat een normaal bestand met de extensie .doc (.docx) in eerste instantie overeenkomt met een tekst Microsoft-editor Woord. Maar je kunt het wel openen of in deze vorm in een andere vorm opslaan, zelfs op 'apple'-computers. Dit kan ook, om zo te zeggen, gemengd type- .pdf-bestanden die niet alleen tekst, maar ook afbeeldingen bevatten. Maar tenslotte Word-documenten kan ingevoegde afbeeldingen bevatten.

Dit is precies wat dient als een indicator dat de extensie van een tekstbestand getuigt van de universaliteit van het formaat zelf, dat het meest "leesbaar" is, zelfs ongeacht het gebruikte besturingssysteem. Hetzelfde geldt voor elk type.

Typen bestandsextensies: tekst

Over het algemeen is er tegenwoordig zo'n groot aantal tekstformaten en hun extensies bekend dat waarschijnlijk vrijwel geen enkele specialist het volledige aantal zal tellen.


Ja, natuurlijk staat de universaliteit van dergelijke documenten buiten twijfel, vooral als ze de eenvoudigste gebruiken, maar soms kan het probleem zijn dat niet elke codering door een bepaald systeem of programma wordt ondersteund. Daarom verschijnt er een set symbolen op het scherm in plaats van de gebruikelijke letters.

Wat betreft de soorten tekstbestanden, je kunt ze niet allemaal opsommen. De meest voorkomende zijn .txt, .doc, .tex, .text, .pdf, .log, .apt, .ttf, .err, .sub, .djvu, .odt, .rtf en vele anderen. De lijst is eindeloos.

Het meest interessante is dat veel van dit soort bestanden verschillende rollen in het systeem hebben. Behalve bijv normaal bestand subtitels.sub, een document met platte tekst.txt kan verantwoordelijk zijn voor het bekijken ervan bij het openen van een video, en in dit opzicht zijn veel formaten uitwisselbaar.


Let op zelfs uitvoerbare bestanden kan tekst als inhoud hebben. Het eenvoudigste voorbeeld- een .bat-bestand gemaakt in een gewoon "Kladblok" en met tekst in de vorm van een reeks opdrachten. Bij het opstarten worden de opdrachten uitgevoerd en wordt het menu "Openen met ..." gebruikt om te bewerken, tenzij dit proces aanvankelijk is gekoppeld aan een andere actie.


Een vergelijkbare situatie wordt waargenomen bij documenten die opmaaktalen of programmeertalen gebruiken, bijvoorbeeld .html-, .htm-, .xml-bestanden, enz. Zelfs webpagina's kunnen in veel editors native worden geopend als tekstbestanden die elementen van derden bevatten.

De extensies van tekstbestanden wijzigen

Wat betreft het wijzigen van de extensie, kan deze soms worden gewijzigd, bijvoorbeeld van .txt naar .doc en vice versa. Word-editor zal elk type openen. Hetzelfde geldt voor het .txt - .bat-paar wanneer geopend in Kladblok. Maar in andere gevallen is het beter om dergelijke manipulaties niet uit te voeren, het leidt gewoon tot niets en een andere toepassing kan het hernoemde bestand niet openen. Het wijzigen van het formaat zal moeten gebeuren met behulp van speciale conversieprogramma's.

In plaats van een nawoord

Zoals al duidelijk is, kan de extensie van een tekstbestand vele variaties hebben, afhankelijk van het programma waarin het document is gemaakt. Maar net als in andere gevallen is het door de extensie zelf bijna altijd mogelijk om de oorspronkelijk gekoppelde toepassing te bepalen, in extreme gevallen kunt u deze openen met een ander programma dat het werken met dit soort gegevens ondersteunt, zelfs als de oorspronkelijke toepassing afwezig op de computer. En zoals waarschijnlijk al duidelijk is, zijn het tekstbestanden die in feite de meest voorkomende en universele zijn in de computerwereld, ongeacht de gebruikte softwarepakketten en besturingssystemen.

De set regels waarmee gegevens in een bestand worden opgeslagen, wordt het bestandsformaat genoemd. Verschillende types bestanden zoals tekstbestanden, bitmapafbeeldingen, enz., gebruik verschillende formaten... In het algemeen kunnen voor één bestandstype meerdere typen bestanden worden gedefinieerd. verschillende formaten hoewel bestandstype en -formaat vaak als hetzelfde worden beschouwd. De bestandsindeling wordt geïdentificeerd door de bestandsnaamextensie die aan de bestandsnaam wordt toegevoegd wanneer deze wordt opgeslagen in een specifieke indeling, zoals DOC, GIF, enzovoort.

Meestal worden bestandsindelingen gemaakt voor gebruik in een goed gedefinieerde toepassingsprogramma... Afbeeldingen die zijn gemaakt met het bekende vectorafbeeldingenpakket CorelDRAW worden bijvoorbeeld opgeslagen als bestanden met: CDR-extensie terwijl afbeeldingen die worden weergegeven door een ander grafisch pakket, CorelXara, naar schijf worden geschreven als XAR-bestanden. Sommige formaten zijn niet geassocieerd met specifieke toepassingen, dat wil zeggen, ze zijn universeel. Een van de beroemdste universele formaten is een TXT-formaat(DOS-tekstbestandsformaat).

Compressie van computerbestanden wordt vaak gebruikt om opslagruimte te besparen. Er zijn veel manieren om bestanden te comprimeren. Deze methoden zijn afhankelijk van: origineel formaat bestanden. Over het algemeen geldt: hoe hoger de compressieverhouding, hoe langzamer de lees- en schrijfbewerkingen.

Wat betreft compressie-algoritmen, er zijn zowel compressie-algoritmen zonder verlies als algoritmen die gegevensverlies kunnen veroorzaken.



Compressie zonder verlies zorgt ervoor dat alle gegevens die vóór de compressie in het bestand stonden, aanwezig zijn nadat het bestand is gedecomprimeerd. Compressiemechanismen zonder verlies worden gebruikt bij het opslaan van tekst of numerieke gegevens zoals: spreadsheets of documentbestanden. Voorbeelden van lossless compressie-algoritmen zijn de bekende ZIP, ARJ en andere.

Laten we het geven korte beschrijving de belangrijkste gebruikte formaten:

§ Amerikaanse standaard Code voor informatie-uitwisseling ASCII (TXT). Een tekstbestandsformaat ontwikkeld door het American National Standards Institute. Ondersteund door iedereen besturingssystemen en alle programma's. Het is een tekstbestand in DOS-codering, er is geen functie om een ​​afbeelding in te voegen, geen opmaak, het werkt op alle machines, het is mogelijk om alleen kleine bestanden aan te maken.

§ ANSI (TXT). Formaat van tekstbestanden in ANSI-codering:(voor code) Microsoft-pagina's Ramen)

§ MsWord voor DOS, Windows (.DOC). Documentformaat ontwikkeld Microsoft Corporation, wordt ondersteund door MS-DOS-programma's en de meeste tekstverwerkers. Het behoudt de originele documentopmaak en tekenstijlen. Naast tekstinformatie kunnen bestanden van dit formaat ook: grafische afbeeldingen met verschillende parameters... Ondersteunt 256 kleuren. Ondersteunt geen compressie. Het wordt voornamelijk gebruikt om geformatteerde tekstgegevens uit te wisselen tussen verschillende platforms en applicaties.

Hypertext Markup Language HTML (HTM, HTML). Opmaaktaal hypertext documenten... Alle pagina's op internet worden hiermee gemaakt speciale taal... HTML-documenten zijn ASCII-bestanden die met elke teksteditor kunnen worden bekeken en bewerkt. Het verschil met een gewoon tekstbestand is dat HTML-documenten speciale tag-opdrachten bevatten die de regel definiëren voor het opmaken van het document. Als je het onder de knie hebt HTML-taal dan kunt u pagina's voor internet maken. Door tags (labels) toe te voegen aan platte tekst, dwing je de kijker om die tekst op een specifieke manier weer te geven en afbeeldingen op de pagina te plaatsen. Als je Java en JavaScript hebt geleerd, weet je hoe je de kracht van HTML kunt uitbreiden door scriptopdrachten in tags te plaatsen.

§ Portable Document Format PDF (.PDF). Dit documentopslagformaat, ontwikkeld door Adobe, beweert een open typografische standaard voor het web te zijn. Het wordt gezien als een alternatief voor HTML. Het nadeel van HTML is dat documenten die naar HTML zijn vertaald, meestal niet hun oorspronkelijke formaat behouden, en HTML biedt een zeer beperkt aantal lettertypen wanneer ze worden bekeken. Integendeel, gebruikers Acrobat-programma's en PDF-tools voor het maken, distribueren en bekijken van documenten in hun oorspronkelijke formaat, weten dat lezers de publicatie precies zullen zien zoals deze is gemaakt. PDF-formaat is onvervangbaar als u een exacte kopie nodig heeft Vereist document... Als voorbeeld van een succesvolle PDF-toepassingen voor documenten in het Russisch geven we de server "Moscow News" op internet. De materialen die erop worden gepresenteerd in elektronische vorm herhalen volledig het papieren origineel, gedrukt door typografische methode.

§ Standaard gegeneraliseerde opmaaktaal (SGML). HTML-ontwikkeling vertaalt naar standaard generieke opmaaktaal. Het is een toolkit met mechanismen voor het maken van gestructureerde documenten, gemarkeerd met descriptors (tags). In vergelijking met HTML biedt het meer flexibele en veelzijdige opmaakopties op het web. SGML is echter anders en verhoogde snelheid, dus PDF wordt gebruikt als een eenvoudiger hulpmiddel. De kracht van SGML ligt in de platformonafhankelijke gestructureerde benadering van het beschrijven van de inhoud van documenten. SGML is eigenlijk een metataal, d.w.z. is bedoeld om de opmaaktalen te beschrijven die worden gebruikt bij het maken van documenten.

Het meest gebruikte type gegevens in de computerwereld en op internet is tekst. Video en graphics zijn veel kleurrijker en over het algemeen is het beter om één keer te zien dan honderd keer te horen. Nou, het is ook goed om te horen - voor dit geval zijn er audiogegevensformaten. Pretentieloze en bescheiden letters en cijfers heersen echter over de computerbal. Zonder hen kun je niet eens een naam geven aan een ander bestand. Tekstgegevens zijn belangrijk en gevarieerd - dit zijn boeken en documenten, en programmacode:... En er zijn verschillende formaatopties voor elk doel. Het gaat over hen die in dit artikel zullen worden besproken. Toegegeven, men moet onmiddellijk één reservering maken - in deze recensie formaten van e-books zullen niet worden aangetast, ze verdienen een aparte discussie. Hier zullen we het hebben over de formaten van de documenten.

Tekstformaat - TXT (PlainText)

Dus - het eenvoudigst mogelijke, het TXT-formaat. Dit is de tekst in zijn in wezen zuivere en ongecompliceerde vorm. Bevat alleen de inhoud van de tekst en het absolute minimum aan servicegegevens - tekens voor het begin en einde van de tekst, regelterugloop en dergelijke.

Ondanks zijn bijna Spartaanse eenvoud is het formaat niet vrij van variaties en verschillen. Ten eerste zijn er enkele verschillen tussen ramen, Unix en MacOS-versies welk gebruik? verschillende symbolen einde van de lijn. Ook kunnen verschillen te wijten zijn aan het gebruik van 8-bit (ASCII) of 16-bit (UNICODE) codetabellen.

Desondanks is het TXT-formaat extreem veelzijdig, waarvoor het erg populair is bij programmeurs en systeembeheerders.

MS Office-documentformaten en analogen - DOC, DOCX, RTF, ODT

Ondanks al zijn veelzijdigheid en eenvoud is TXT absoluut ongeschikt voor het maken van de eigenlijke documenten - teksten die bedoeld zijn om te worden afgedrukt in overeenstemming met bepaalde regels en voorschriften. Dergelijke documenten moeten namelijk, naast de tekst zelf, ook veel informatie bevatten over de vormgeving en opmaak van de tekst. En ook over het formaat en formaat van het vel papier waar ze geplaatst moeten worden.

Voor deze doeleinden zijn nogal wat formaten van verschillende kantoorsuites gemaakt. De meest populaire en in feite bijna universele kunnen worden beschouwd als de MS Word-indelingen - doc en docx. De eerste is een speciaal gesloten formaat dat door Microsoft is gemaakt voor zijn teksteditor (meer precies, een hele reeks formaten - tijdens zijn bestaan ​​​​is het verschillende keren verbeterd). Samen met het, aan het begin van de ontwikkeling van het bedrijf, werd het RTF-formaat (Rich Text Format) gecreëerd in samenwerking met het Adobe-bedrijf. In tegenstelling tot DOC is de structuur van dit formaat beschikbaar en wordt het met succes ondersteund door bijna alle bestaande teksteditors. Hoewel het enigszins inferieur is aan DOC in termen van de reeks beschikbare functies.

Het gesloten karakter van de ontwikkelingen van Microsoft heeft geleid tot het ontstaan ​​van een open kantoor ruimte Open kantoor. Waarvoor een eigen ODT (OpenDocument Text Format) is ontwikkeld. Het formaat wordt niet goed ondersteund door commerciële redacteuren, waaronder: MS Word en kan openen met fouten.

Eindelijk in 2007 jaar Microsoft besloten om de weddenschap op . te verlaten DOC-formaat en ontwikkelde de Office-formaatfamilie XML openen waaronder DOCX, dat het hoofdformaat is geworden van nieuwe versies van MS Word.

PDF-formaat

Adobe weigerde samen te werken met Microsoft en ging zijn eigen weg. Ze ontwikkelde PDF-formaat wat niet zozeer een formaat was om documenten te ontwikkelen, maar om ze te bekijken en af ​​te drukken. In tegenstelling tot de vorige groep, die bestaat uit opgemaakte tekst, waarvan het uiterlijk niettemin kan veranderen afhankelijk van de specifieke machine waarop deze wordt weergegeven of afgedrukt, is PDF een documentindeling die fundamenteel ongewijzigd blijft en behouden blijft. verschijning en lay-out onder alle omstandigheden. Het ondersteunt ook een vrij breed scala aan zowel afdrukelementen als Extra service(bijvoorbeeld wachtwoordbeveiliging van een document van bewerken of afdrukken, enzovoort). Dit alles maakt PDF meer een formaat voor het distribueren van complexe en professioneel uitgevoerde documenten en zelfs boeken.