Расширение текстового документа это

Подготавливая на компьютере текстовые документы, вы не могли не обратить внимание на большое количество форматов текстовых файлов. Давайте попробуем разобраться в этом изобилии форматов и посмотрим, для чего каждый из них предназначен.

Какие бывают текстовые форматы

Данный формат появился вместе с первым компьютером. В *.txt-файле содержится только текстовая информация и ничего больше – данные о форматировании, шрифтах, картинках там сохранить не получится. Формат является наиболее универсальным – он может открыться на всех устройствах с помощью любого приложения.

Расширенный текстовый формат (Rich Text Format) был разработан компанией Microsoft как универсальный кросс-платформенный формат для хранения текстовой информации. Сохраняет данные форматирования, позволяет производить вставку дополнительных объектов:

Основная «фишка» rtf-формата – использование специальных «управляющих» слов, выделенных спецсимволами, что приводит к значительному увеличению объема файла.

Формат *.doc также разработан корпорацией Microsoft и использовался в текстовом редакторе Word. Если быть точным, то doc-файлы на самом деле бинарные, их можно открыть в большинстве современных текстовых редакторов. Имеют возможности сохранения форматирования, стилевого оформления, вложения картинок и других объектов в текст, а также поддержку гиперссылок.

Усовершенствованный и лицензированный формат от Microsoft, появившийся впервые с пакетом Office 2007. Представляет собой следующий этап формата *.doc.

Достаточно популярны сейчас форматы, основанные на Hyper Text Markup Language (HTML) – HTM, CHM, MHT и др. Язык HTML был разработан специально для создания веб-страниц, но благодаря своей универсальности, удобству и небольшому размеру стал широко использоваться для хранения текстовых данных. Любой HTML-документ можно прочитать с помощью стандартных инструментов операционной системы, без использования сторонних программ.

Формат разработан компанией Adobe специально для нужд полиграфии. Впоследствии пользователи оценили удобство использования pdf-файлов, и этот формат стал стандартом для обмена документами.

Формат файлов для документов OpenOffice. Альтернатива закрытому формату docx от Microsoft. Поддерживает большую часть форматирования что и «DOCX», включая вставку изображений, таблиц и гиперссылок.

Форматы для электронных книг

Кроме вышеописанных, существует также много форматов текстовых файлов, разработанных специально для чтения в электронном виде. Такие файлы нельзя отредактировать, а для просмотра необходима специальная программа. К таким форматам можно отнести:

Вместо послесловия

Мы рассмотрели с вами основные типы форматов текстовых файлов. Конечно, со временем некоторые из них могут устареть, уступив место более современным, с расширенными возможностями.
А встречались ли вам текстовые файлы, которые не удалось открыть на компьютере или мобильном гаджете?

Современный пользователь ежедневно сталкивается с текстовыми файлами и документами. Однако не стоит путать в данном вопросе текстовый формат данных и расширение текстового файла – это две совершенно разные вещи. Попробуем разобраться, что же представляют собой файлы такого типа и какими они могут быть.

Что такое расширение текстового файла?

Для начала стоит отметить, что большинство файлов такого типа имеют расширение в виде четырех букв после точки. Наиболее часто встречающийся и простой тип — это файлы .txt. Их можно открыть в операционной системе Windows при помощи стандартной программы «Блокнот». Однако несмотря на общепринятые правила, расширения текстовых файлов вполне могут содержать на три буквы, а больше. Число букв в расширении может достигать двенадцати. Одним из таких форматов является формат электронных книг .djvu.

Читайте также  Почему навигатор неправильно определяет мое местоположение

Также в расширении файла могут присутствовать цифры. Что же дает рассмотрение расширения текстового файла в плане идентификации? Установление расширения текстового файла позволяет моментально решить вопрос, связанный с определением программы для открытия и редактирования того или иного файла. Во многих случаях тут можно определить, какое приложение использовалось изначально для создания файла. Не стоит, однако, забывать и о том, что сегодня можно найти огромное количество файлов, имеющих одинаковое расширение, но созданных в других программах и сопоставленных с другими приложениями.

Так, например, обычный файл с расширением doc или docx: изначально он был создан в текстовом редакторе Microsoft Word. Однако открыть или сохранить его в таком виде можно в другом текстовом процессоре даже на компьютерах компании Apple. К такому же типу можно отнести и файлы формата pdf. Они могут содержать не только текст, но и графику. Документы Word также могут содержать вставленные изображения. Данный факт свидетельствует о том, что расширение текстовых файлов может свидетельствовать об универсальности самого формата, который является наиболее «читабельным» вне зависимости от используемой операционной системы. Это же касается и текстовых редакторов любого типа.

Типы расширения файлов: текст

На сегодняшний день известно огромное число текстовых форматов и их расширений. Ни один специалист не сможет с ходу сказать их точное количество. Универсальность таких документов, конечно, не вызывает сомнений, особенно, если в них используется самая простая кодировка ASCII. Однако в некоторых случаях проблема заключается в том, что определенной программой или системой поддерживается не всякая кодировка. Именно по этой причине вместо привычных нам букв на экране появляется непонятный набор символов.

Если же говорить о разновидностях текстовых файлов, то перечислить их все довольно тяжело. Наибольшее распространение сегодня получили форматы .doc, .txt, .tex, pdf, log, ttf, sub, err, rtf, djvu, odt. Данный список можно продолжить. Интересно то, что многим файлам данного типа отводится разная роль в системе. Так например, помимо обычного файла субтитров с расширением .sub за их просмотр при открытии видео может отвечать обычный текстовый документ в формате .txt. В этом отношении многие форматы файлов взаимозаменяемы.

Даже исполняемые файлы в качестве содержимого могут иметь текст. Простейшим примером может служить файл bat, который создается в обычной программе «Блокнот». Файлы данного типа могут содержать текст в виде набора команд. При запуске данного файла происходит выполнение команд. Для редактирования нужно использовать меню «Открыть с помощью», если изначально данному типу файлов не было сопоставлено другое приложение. Такая же ситуация наблюдается и с документами, которые используют разметку и языки программирования, например, файлы .htm, .html, .xml. Во многих редакторах даже веб-страницы можно открывать как обычные текстовые файлы, которые содержат сторонние элементы.

Изменение расширения текстового файла

Если же речь идет о изменении расширения, то в некоторых случаях его можно поменять с .txt на .doc или наоборот. Текстовый редактор Word откроет любой тип текстового файла. Это же относится и к паре .txt — .bat при открытии в программе «Блокнот». В остальных случаях лучше не выполнять подобные манипуляции. Другое приложение просто не сможет открыть переименованный файл. Изменение формата можно выполнить при помощи специальных конверторов.

Читайте также  Помпа и насос разница

Заключение

Расширение текстового файла может иметь множество вариаций. Все будет зависеть от того, в какой программе был создан документ. Практически всегда по расширению можно определить, какое приложение сопоставлено данному файлу.

Текстовый файл
MIME-тип text/plain
Противоположно двоичный файл и графический файл [d]
Расширение файла .txt или .text
Медиафайлы на Викискладе

Те́кстовый файл — компьютерный файл, содержащий текстовые данные. Текстовым файлам противопоставляются двоичные (бинарные) файлы, в которых содержатся данные, не рассчитанные на интерпретацию в качестве текстовых (например, файлы, хранящие текст в закодированном или сжатом виде, или хранящие не текст, а звук, изображение или иные данные).

В отличие от термина «текстовые данные» (текстовый формат данных), характеризующего содержимое данных, термин «текстовый файл» относится к файлу и характеризует его как контейнер, хранящий такие данные.

Содержание

Описание [ править | править код ]

Текстовый файл содержит последовательность символов (в основном печатных знаков, принадлежащих тому или иному набору символов). Эти символы обычно сгруппированы в строки (англ. lines, rows ). В современных системах строки разделяются разделителями строк, в прошлом же применялось хранение строк в виде записей постоянной или переменной длины (см.: Перфокарта). Иногда конец текстового файла (особенно если в файловой системе не хранится информация о размере файла) также отмечается одним или более специальными знаками, известными как маркеры конца файла.

Преимущества и недостатки [ править | править код ]

  • Универсальность — текстовый файл может быть прочитан (так или иначе) на любой системе илиОС, особенно если речь идёт об однобайтных кодировках вроде ASCII, которые не подвержены проблеме, характерной для других форматов файлов — для них не важна разница в порядке байтов или длине машинного слова на разных платформах.
  • Устойчивость — каждое слово и символ в таком файле самодостаточны и, если случится повреждение байтов в таком файле, то обычно можно восстановить данные или продолжить обработку остального содержимого, в то время как у сжатых или двоичных файлов повреждение нескольких байтов может сделать файл совершенно невосстановимым. Многие системы управления версиями рассчитаны на текстовые файлы и с двоичными файлами могут работать только как с единым целым.
  • Формат текстового файла крайне прост и его можно изменять текстовым редактором — программой, входящей в комплект практически любой ОС.
  • У больших несжатых текстовых файлов низкая информационная энтропия — эти файлы занимают больше места, нежели минимально необходимо. Хотя эта избыточность и определяет повышенную устойчивость к сбоям в каналах передачи данных и при получении данных с носителей, например, с магнитной ленты.
  • Некоторые операции с текстовыми файлами неэффективны. Например, если в файле встретится число, вычислительная система до начала операций с ним должна будет перевести его в свой внутренний формат, применив сравнительно сложную процедуру конвертации числа; чтобы перейти на 1000-ю строку, требуется считать 999 строк, идущих до неё; сложно заменить одну строку другой и т. д. Поэтому при работе с большими объёмами данных текстовые файлы применяют только как промежуточный формат, обеспечивающий интероперабельность.

Форматы, основанные на текстовых файлах [ править | править код ]

В силу своей простоты текстовые файлы нередко используются для хранения служебной информации (например, логов): так как операция добавления в конец текстового файла новых данных не требует сколь-нибудь значительных вычислительных ресурсов независимо от уже имеющегося объёма файла и вида добавляемых текстовых данных, ведение текстовых лог-файлов обычно происходит эффективно и незаметно для пользователя и для других приложений (вплоть до исчерпания дискового пространства).

Читайте также  Сколько существует систем программирования

Текстовый формат служит основой для многих более специализированных форматов (например, .ini, SGML, HTML, XML, TeX, исходных текстов языков программирования). В некоторых из таких форматов определённые сочетания символов могут использоваться как средства разметки текста. В таком случае файл может хранить форматированный текст, в котором для символов дополнительно может быть задан шрифт, начертание, размер и т. п. (например, Rich Text Format, HTML).

Расширения имён файлов [ править | править код ]

В DOS, Mac OS и Windows для файлов с неформатированным текстом обычно используется расширение .txt. Тем не менее, текстовыми могут являться файлы с любым другим расширением или без оного. Например, исходные коды программ обычно хранятся в файлах с расширениями, соответствующими языку программирования, на котором написаны программы (.java, .bas, .pas, .c).

Форматированный текст (текст с разметкой) обычно хранится в файлах с расширением, соответствующим формату или языку разметки — .rtf, .htm, .html.

Кодировки [ править | править код ]

8-битный текст [ править | править код ]

Исторически для кодирования текстовых файлов применялись 7-битный набор символов ASCII, а также 8-битные EBCDIC и различные расширения ASCII. В 8-битных кодовых страницах общепринято использовать в первой половине кодовой таблицы символы, соответствующие ASCII.

Преимуществом 8-битного представления текста является программная простота и независимость от проблемы порядка байтов или длины машинного слова на разных платформах. Недостаток — большое количество различных стандартов, что может приводить к несовместимости.

Unicode в текстовых файлах [ править | править код ]

Применение Unicode в текстовых файлах хотя в основном решает «проблему кодировок» и стандартизирует употребление управляющих символов, но создаёт свои проблемы. В большинстве современных систем неделимой единицей информации в потоке данных является байт (8 бит), которых для кодирования одного символа из Юникода требуется несколько. В качестве решения применяются несовместимые между собой системы UTF-8 и две версии UTF-16 (UTF-16LE и UTF-16BE с противоположным порядком байтов). Иногда в начало файла добавляют специальный символ-маркер (U+FEFF [1] ), позволяющий распознать формат однозначно. UTF-8 имеет преимущество обратной совместимости с ASCII, однако программная обработка текста в UTF-8 усложняется непостоянным размером символа. Также тексты в Юникоде отличаются ещё большей избыточностью, нежели 8-битные.

Управляющие символы [ править | править код ]

Различные операционные системы придерживаются своего представления перевода строки и конца файла. В UNIX перевод строки состоит из одного символа LF (код 0xA), в Mac OS (но не OS X) — из символа CR (код 0xD), а в DOS и Windows перевод строки кодируется последовательностью двух символов: CR и LF.

Такой разнобой продиктован принципами работы пишущих машинок: чтобы перейти на новую строку, надо вернуть каретку в начало строки (carriage return), а затем провернуть барабан на одну строку (line feed). При печати на принтере тот и другой символ мог стоять обособленно (например, чтобы выделить строку, пропечатав её дважды, или прокрутить барабан на несколько строк), но в текстовых файлах в этом нет нужды.

Помимо названных, в текстовых файлах встречаются такие символы, как табуляция (код 9) и перевод страницы (код 0xC). Последний использовался старыми текстовыми редакторами наподобие ЛЕКСИКОН, а также в файлах, предназначенных для распечатки на принтере.

Ссылка на основную публикацию
Adblock
detector