Оцифровка что это такое


Что значит Оцифровка?

Моя студия занимается оцифровкой почти всех существующих аналоговых форматов, так что давайте разберемся что же это значит и зачем это нужно.

Оцифро́вка (англ. digitization) — описание объекта, изображения или аудио- видеосигнала (в аналоговом виде) в виде набора дискретных цифровых замеров (выборок) этого сигнала/объекта, при помощи той или иной аппаратуры, т. е. перевод его в цифровой вид, пригодный для записи на электронные носители. (©Википедия).

Проще говоря процесс оцифровки- это перевод какой-либо аналоговой величины в цифровую форму.

Полученный в результате оцифровки массив данных («цифровое представление» оригинального объекта) может использоваться компьютером для дальнейшей обработки, передачи по цифровым каналам, сохранению на цифровой носитель. Перед передачей или сохранением цифровое представление, как правило, подвергается фильтрации и кодированию для уменьшения объема

Оцифровка бывает нескольких видов:• Оцифровка звука;• Оцифровка видео;• Оцифровка киноплёнки;• Оцифровка изображения;• Оцифровка архивных документов - сканирование, каталогизация и создание электронного архива• Оцифровка книг — как сканирование, так и в дальнейшем распознавание;

• Оцифровка бумажных карт местности — означает сканирование и, как правило, последующую векторизацию (растрово-векторное преобразование, т. е. перевод в формат векторного описания).

Оцифровка данных производится на специальном оборудовании, позволяющем захватить аналоговый сигнал и преобразовать его в цифровой.

С тем что такое оцифровка мы разобрались, но зачем же она нужна?А вот зачем. Информация представленная в аналоговой форме имеет свойство искажаться, портиться, а то и вовсе будет утеряна в результате старения носителя. Так, например, магнитные ленты в видеокассетах со временем размагничиваются, осыпаются, что несомненно отражается на качестве картинки, и спустя какое-то время видео может просто не поддаться восстановлению.

В противовес аналоговому носителю возьмем цифровой DVD диск.

Производители заявляют, что эксплуатационный срок диска составляет 100 лет. Так ли это? Возможно при правильном хранении, но в любом случае, срок хранения увеличивается в разы, а это десятки лет, да и цифровые данные всегда можно залить в интернет и на облако, где они уж точно будут храниться чуть ли не вечно.

Однако срок хранения не единственное преимущество цифрового перед аналоговым, не менее важным фактором является то, что при копировании с цифры на цифру мы абсолютно не теряем качества, в то время как при перезаписи аналоговых данных с каждой новой копией теряется 15% и это число возрастает по экспоненте от копии к копии.

Подведем итоги, цифровая революция свершилась. Аналоговые носители перешли в разряд ретро и используются в основном энтузиастами и художниками.

Для лучшего качества, удобного хранения и быстрого доступа к данным используйте цифровые форматы данных, а если у вас есть что-то старое нуждающееся в оцифровке, то оцифруйте сами или отнесите на студию оцифровки!

Если Вы живете в г.Уфа или недалеко от нас, то приносите к нам, мы знаем что нужно делать!

С Уважением, Гумеров Ильшат.

zen.yandex.ru

Оцифровка - это... Что такое Оцифровка?

Оцифро́вка (англ. digitization) — описание объекта, изображения или аудио- видеосигнала (в аналоговом виде) в виде набора дискретных цифровых замеров (выборок) этого сигнала/объекта, при помощи той или иной аппаратуры, т. е. перевод его в цифровой вид, пригодный для записи на электронные носители.

Для оцифровки объект подвергается дискретизации (в одном или нескольких измерениях, например, в одном измерении для звука, в двух для растрового изображения) и аналогово-цифровому преобразованию конечных уровней.

Полученный в результате оцифровки массив данных («цифровое представление» оригинального объекта) может использоваться компьютером для дальнейшей обработки, передачи по цифровым каналам, сохранению на цифровой носитель. Перед передачей или сохранением цифровое представление, как правило, подвергается фильтрации и кодированию для уменьшения объема.

Иногда термин «оцифровка» используется в переносном смысле, в качестве замены для соответствующего термина[уточнить], при переводе информации из аналогового вида в цифровой. Например:

Дискретизация

При оцифровке сигнала привязанного ко времени, дискретизацию обычно характеризуют частотой дискретизации — частотой снятия замеров.

При сканировании изображения с физических объектов, дискретизация характеризуется количеством результирующих пикселов на единицу длины (например, количеством точек на дюйм — англ. dot per inch, DPI) по каждому из измерений.

В цифровой фотографии дискретизация характеризуется количеством пикселей на кадр.

Аналого-цифровое преобразование

Основная статья: Аналого-цифровой преобразователь

Аналогово-цифровое преобразование характеризуется разрядностью преобразователя в битах.

Ссылки

Литература

dic.academic.ru

Что такое оцифровка?

Существует несколько вариантов организации процессов оцифровки. Они могут производиться самостоятельно или с аутсорсингом услуг, с вывозом документов или выполнением работ на своей территории. При оцифровке могут применяться офисные, профессиональные документные или планетарные сканеры. Данные могут извлекаться в ручном, полуавтоматическом или автоматическом режимах, с проведением предварительной архивной обработки бумажных документов или классификацией информации уже в электронном виде и т.д.

Какой путь выбрать?

Решение зависит от конкретной задачи, потому что каждое из вышеупомянутых «или» определяет качество получаемого результата и стоимость работ. Например, извечен вопрос сшитых документов: выгодней медленно отсканировать в сшитом состоянии или потратиться на расшивку, зато быстро оцифровать на документных сканерах?

Самый простой способ выбрать наиболее подходящий для вас путь – обратиться за экспертизой к специализирующейся на оцифровке организации. Заинтересованные в работах, крупные компании проведут обследование бесплатно, и за вас определят оптимальный подход. Не пренебрегайте этой возможностью и не ждите склонения к заказу услуг: большинство этих компаний также заинтересованы в поставке оборудования и ПО для самостоятельной оцифровки.

Сколько документов нужно сканировать?

Определяющий параметр – объем документов.

Определяющий параметр – объем документов. Для ежедневного сканирования небольших пачек расшитых документов (например, первичной бухгалтерии) подойдет обычный офисный сканер, выдерживающий нагрузку в несколько тысяч страниц в день. Нужно лишь дополнить его удобной программой для индексирования.

Для регулярного сканирования больших объемов необходимо профессиональное оборудование. Это – промышленные сканеры, которые стоят немалых денег (подобное оборудование используют ФНС, ФТС, крупные банки). Поэтому менее дорогой альтернативой может стать рамочное соглашение на оказание периодических услуг оцифровки.

Перевод в электронный вид больших ретроспективных массивов своими силами экономически не обоснован: помимо закупки оборудования и обучения сотрудников, потребуются значительные трудовые и временные затраты. Однозначно эффективнее заказывать услугу, так как крупная компания может выделить большой штат и решить задачу оперативно. 

Где сканировать документы?

Определяющий параметр – востребованность сканируемых документов. Влияет ли на деятельность организации изъятие документов на время сканирования? Особенно это критично при оцифровке документов, к которым регулярно обращаются сотрудники, либо которые могут быть внезапно запрошены контролирующим органом, а также для устранения связанных с документами ЧП. Примеры: финансовые и кадровые документы, техническая и эксплуатационная документация, книги ЗАГС и другие отраслевые фонды.

Участок сканирования, организованный в помещениях компании-заказчика услуг.

Если необходимо оцифровать их достаточно быстро, то традиционным подходом является заказ услуг с выездом бригады сканирования на вашу территорию. Зачастую это оказывается дешевле, чем доставлять документы на производство исполнителя и обратно, но все определяет территориальная удаленность. Регламент выездных работ подразумевает сканирование выданного дела в течение одного-двух  рабочих дней, без длительного изъятия из рабочего процесса. 

Расшивать ли документы?

Определяющие параметры: состояние документов и возможность расшивки. Если есть такая возможность, и бумага пригодна для протяжки документным сканером, то следует расшивать. Дело в том, что сканирование сшитых документов на планетарном (книжном) сканере в несколько десятков раз медленнее потоковой оцифровки. Пропорционально увеличиваются время работ и стоимость труда. Сканирование на документных сканерах, даже с учетом расшивки, оперативнее и дешевле.

Расшивать можно самостоятельно, а можно доверить это исполнителю.

Расшивать можно самостоятельно, а можно доверить это исполнителю: если выбрана авторитетная компания, опасаться утраты документов не стоит. Наоборот, жесткая регламентация всех процессов и качественные материалы позволяют компаниям застраховаться от дополнительных финансовых потерь и ущерба имиджу. Этому подходу доверяют даже российские суды: при организации сканирования обычно внутренним приказом разрешается расшивка и последующая сшивка судебных дел.

К слову, крупные компании параллельно могут провести профессиональную архивную обработку: во-первых, часть работ итак выполняется при подготовке к сканированию, во-вторых, архивная обработка помогает выявить невостребованные документы и сократить объемы сканируемых массивов, что может снизить стоимость работ.

Какое качество выбрать?

Сегодня высококачественно можно отсканировать любой объект: от маленькой библиотечной карточки до карт формата 8А0 и театральных декораций.

Определяющие параметры: вид документа и объем получаемого ресурса в электронной форме. Сегодня сканирующее оборудование позволяет получать образы с разрешением от 200 до 1200 точек на дюйм (dpi). Для художественных произведений обычно применяется разрешение 400–600 dpi, позволяющее создавать высококачественные репродукции. Более высокое качество используется только при необходимости увеличения изображения и детализации мелких предметов, например, монет.

Детализированные и неконтрастные чертежи, часто выполненные на кальке и синьке, нуждаются в сканировании с разрешением 300-400 точек на дюйм и дополнительной обработке изображений в графических редакторах. Остальные документы обычно сканируются с разрешением 300 dpi, достаточным для распечатки копий без потери качества. Необходимая обрезка изображений, геометрическое исправление, цветокоррекция, конвертация в форматы pdf, tiff, jpegи др. может проводиться в полностью автоматическом режиме программами, встроенными в сканирующее оборудование или поставляемыми вместе с ним.

В большинстве случаев используется цветной режим съемки. Это нужно для всех документов, в которые вносились исправления или ставились печати поверх текста, для удостоверения того, что электронная копия снималась с оригинала документа с печатью и подписью, а также для читаемости угасающих текстов и передачи уникальных особенностей оригинала. Необходимость цветного сканирования художественных произведений не обсуждается. Режим «градации серого» применяется лишь в некоторых случаях: когда документы не содержат цветных атрибутов, либо когда необходимо сократить объем получаемого электронного ресурса.

Сканирование может осуществляться самостоятельно. Главной задачей становится обучение сотрудников правильной работе со сложной техникой, так как качество получаемых изображений важно для последующего индексирования: плохо отсканированный документ, тени, засветка и другие дефекты на электронном образе могут сделать нечитаемой важную информацию. Это не позволит применить технологии автоматического извлечения данных и может привести к ошибкам в индексировании. Загрузка ошибочных данных в некоторые системы (государственные реестры, бухгалтерские учетные системы) не позволительна.

Индексирование

Простое сканирование применяется редко, поскольку при последующей работе искать информацию в наборе графических файлов будет лишь немногим проще перелистывания бумаги. Для возможности поиска необходимо выделить в документе несколько атрибутов (индексных полей).

Сотрудники, задействованные в массовом индексировании документов методом ручного ввода.

Выделенные атрибуты можно внести в имя файла. Такая практика сложилась в российских судах: для того чтобы оператор сканирования не имел доступа к внутренним системам суда, при оцифровке все необходимые реквизиты вносятся в имя файла. В последующем эти реквизиты распознаются системой судопроизводства при загрузке каждого документа по отдельности.

Но обычно оцифрованные документы загружаются в информационную систему группой, что требует создания базы данных. Так, если необходимо прикрепить документ к уже существующей карточке в учетной системе, бывает достаточно извлечь пару однозначно определяющих его реквизитов – обычно номер и дату.

Если же нужно сформировать поисковую базу на основании самих документов, то объем извлекаемых данных определяется задачей: от пары реквизитов для поиска файла в электронном архиве до переноса всей значимой информации в аналитическую БД  (ФИО, адресов, ИНН, КПП, дат, номеров документов-приложений и т.д.).

Свои правила индексирования применяются в музеях, библиотеках и архивах при оцифровке единиц хранения и учетных документов. Отдельным направлением услуг также является векторизация, которая применяется, в частности, при оцифровке каротажных лент (автоматическая) и чертежей (ручная отрисовка в CAD-системах).

Сколько данных извлекать?Ответ на этот вопрос также лучше получить, воспользовавшись экспертизой, так как количество извлекаемых реквизитов зависит от функциональной задачи и в значительной мере определяет стоимость оцифровки. В некоторых случаях можно ограничиться подборками документов, когда электронные образы объединяются под эгидой основного документа (например, договора или реестра счетов). В других необходимо извлечение всех содержащихся в документе данных для заполнения карточки информационной системы.

Примеры извлекаемых данных

Анализ размещенных на портале zakupki.gov.ru заказов компаний с государственным участием и госучреждений (44-ФЗ, 223-ФЗ), показывает, что:

– Для привязки электронных копий ОРД к системе электронного документооборота достаточно номера, даты и типа документа.

– Сканирование финансовой документации часто сопровождается извлечением номера, даты, наименований и реквизитов плательщиков, сумм.

– Оцифровка архивных документов муниципалитетов (постановления администраций, горисполкомов, сельсоветов и т.д.) в целях оказания услуг и инвентаризации объектов земельно-имущественных отношений требует извлечения номера и даты документа, всех встречаемых ФИО и адресов. Причем адреса необходимо сопоставлять с текущими справочниками КЛАДР/ФИАС.

– Оцифровка документов Архивного фонда РФ сопровождается строгим заполнением НСА и описанием фондов в соответствии с архивным законодательством.

– Индексирование описей и реестров подразумевает распознаванием всех порядковых записей.

– Для работы с чертежами в электронном виде необходимо извлечь практически все поля штампа.

– Сканирование составных дел требует не только извлечения реквизита каждого документа, но и установления взаимосвязей. Наиболее сложен случай конструкторской документации, где формируемая база данных обладает многоуровневой иерархией и связями документов.

Источник: zakupki.gov.ru, 2015

Какие методы извлечения данных выбрать?

Определяющий параметр – качество текста. Применяемые технологии, скорость и стоимость формирования баз данных зависят от того, как написан и в каком состоянии находится текст документа.

Напечатанный на современном принтере текст может быть автоматически распознан, необходимые данные могут быть извлечены с использованием различных автоматизированных методов: применением шаблонов и автоэкстракцией индексов (алгоритмы определения ключевых слов, семантического анализа и т.д.). Эти методы быстрые, и в большинстве случаев их стоимость ниже цены ручного распознавания.

Напечатанные необычным шрифтом, в низком качестве или поврежденные тексты книг, газет, архивных документов распознаются не всегда или с недостаточной точностью. Поэтому в большинстве случаев требуется ручной ввод или, по крайней мере, ручная проверка сведений. Предварительно для каждого ресурса формируются или подключаются внешние справочники, которые помогают операторам индексирования и значительно ускоряют процесс.

Документы с рукописным текстом индексируются только вручную. Это гораздо более медленный и дорогой процесс. Поэтому крупные компании применяют уникальные технологии, служащие ускорению обработки и, соответственно, снижению цены без потери качества. Показателен пример официальной переписки: в этих документах традиционно реквизиты печатаются, а номер и дата проставляется вручную по факту, что делает невозможным полноценное программное индексирование.

Можно ли провести индексирование самостоятельно?

Альтернативой является технология извлечения данных с помощью анализа текста,  применимая для любых документов, в том числе неструктурированных. Этот метод зачастую более доступен по цене, но предлагается только парой крупных компаний, так как требует накопления серьезной семантическо-морфологической базы для каждой отрасли деятельности.

Самостоятельное индексирование возможно, причем как ручное, так и автоматизированное. Но есть ограничения. Программу распознавания текста приобрести легко. Настроить извлечение данных  сложнее: для формализованных (например, счет-фактура) и условно структурированных документов (например, договор) нужно программирование форм - мест и алгоритмов определения требуемых реквизитов. Однако программы стоят денег: распознавание текста обычно тарифицируется полистно (лицензия), а за создание шаблонов форм придется заплатить отдельно. Поэтому при оцифровке большого количества видов документов (около 40) стоимость этого метода сравнивается со стоимостью ручного индексирования.

Можно также вносить данные напрямую в информационную систему. Однако этот способ связан с высокой вероятностью ошибок, отследить которые в системе крайне сложно. При самостоятельном индексировании рекомендуется сначала создавать определенную базу данных, которую перед загрузкой можно проверить.

Именно так работают специализирующиеся на оцифровке компании: жесткая регламентация процесса, с протоколированием всех действий, и обязательная проверка сформированного массива ОКК позволяет минимизировать количество возможных ошибок. Например, корпорацией ЭЛАР в официальных договорах и контрактах используется стандартный критерий качества ≥99,8%. Теме выборы критериев качества будет посвящена одна из следующих статей.

Короткая ссылка на материал: //cnews.ru/link/a4262

scan.cnews.ru

Оцифровка документов

В век наукоемких технологий и стремительного технического прогресса, когда цифровые технологии охватывают все больше сфер человеческой деятельности, начиная от финансов и кончая космическими путешествиями, абсолютно логично использовать все преимущества цифрового формата и в деловом документообороте. Все больше и больше компаний понимают всю эффективность, которую дает перевод всей документации в цифровой вид.

Что же представляет из себя оцифровка документа?

По сути это перевод документа на твердом носителе (это могут  быть  как бумажные документы, так и аудио видео записи на соответствующих носителях) в некий компьютерный код,  доступный затем для просмотра, редактирования или копирования.

Трудно переоценить преимущества  документов в цифровом виде. В отличие от документов на традиционных носителях, такие документы:

  • практически не подвержены старению, 
  • не занимают места, 
  • легко редактируются, 
  • легко копируются,  
  • и главное они всегда под рукой. 

При правильной организации электронного архива эффективность работы любой компании несомненно возрастет. Отпадает надобность в хранении и обслуживании бумажных архивов и документации, повышается  скорость делопроизводства  и технологических процессов. Получение, редакция и распространение необходимых для работы документов будет занимать существенно меньшее время. Тексты договоров, схемы и чертежи могут быть найдены, отредактированы и распечатаны за время в разы меньшее, если бы это касалось бумажных версий документов. 

Экономя  время, мы получаем огромный выигрыш в эффективности и производительности.

Однако, при всей кажущейся простоте, оцифровка документов не такое уж и простое дело.

Качественная оцифровка документов представляет собой достаточно кропотливый и трудоемкий  процесс, поскольку включает в себя не только, а скорее всего не столько, сам процесс сканирования, сколько дополнительные операции с обрабатываемым документом. 

Это:

  • подготовка документа к оцифровке, 
  • расшивка и последующая сшивка многостраничного документа (если это допустимо), 
  • устранение, насколько это возможно, механических повреждений, замятий и заломов, 
  • сверка результата оцифровки с оригиналом. 

Кроме того ветхие документы, где имеются стертые, плохо читаемые, а так же рукописные или специальные символы,  как следствие трудно распознаваемые компьютерными  программами, особенно важно сверять с результатом оцифровки. И при обнаружении неточностей исправлять их уже вручную. Таким образом, не считая наличия профессионального оборудования и программного обеспечения, качественная оцифровка требует профессиональных навыков и немалого опыта.

Для детального обсуждения условий сотрудничества, получения консультации и оформления заказа на любую из наших услуг:

  • позвоните по номеру +7 (495) 646-26-77
  • вышлите на e-mail: [email protected]

Какие же документы подлежат оцифровке?  

С развитием компьютерных технологий можно с уверенностью заявить, что оцифровать можно практически все.  Любой документ на твердом носителе, будь то бумажный документ, фотография, слайд, книга, журнал и тд. Может быть оцифрован.

Более того оцифровке прекрасно поддаются видео записи на устаревших носителях, как то магнитная или кинопленка. То же касается и аудио записей. Однако для каждого вида документов и стоящей задачи, будь то сканирование книг или чертежей, распознавание текста или оцифровка аудио-видео контента, требуется соответствующее оборудование, программное обеспечение и опытные специалисты.

Основные типы оцифровки которые могут потребоваться в быту и в профессиональной деятельности это сканирование (и при необходимости распознавание) документации (бухгалтерской, офисной, архивной и тп), личных документов (паспортов, удостоверений, сертификатов, дипломов), книг, журналов и других изданий, фотоматериалы (фотографии, пленки, слайды, негативы и тп), чертежи и схемы, картины и репродукции.

Также популярна оцифровка видео (кино и видео пленка) и аудио (магнитная лента и виниловые пластинки) материалов. Однако для получения наилучшего результата нельзя забывать о качественной профессиональной пост обработке оцифрованного материала, включающей в себя, например, цветокоррекцию, устранение искажений, обрезка и (или) вклейка страниц, преобразование в различные форматы, распознавание текста, ретуширование и создание каталогов и электронных архивов.

Страница сгенерирована за 0.02 секунд !

redocs.ru

Оцифровка

Человек сталкивается с технологиями оцифровки каждый раз, когда что-нибудь заправляет в сканер, делает фотографию, снимает видео (если камера не аналоговая, разумеется), разговаривает по сотовому телефону, пользуется Skype или Google Talk.

Определение 1

Оцифро́вка (англ. digitization) - это описание объекта, изображения или аудио- видеосигнала (в аналоговом виде) в виде набора дискретных цифровых замеров (выборок) этого сигнала/объекта, при помощи той или иной аппаратуры, т. е. перевод его в цифровой вид, пригодный для записи на электронные носители.

Для оцифровки объект подвергается дискретизации (в одном или нескольких измерениях, например, в одном измерении для звука, в двух для растрового изображения) и аналогово-цифровому преобразованию конечных уровней.

Полученный в результате оцифровки массив данных («цифровое представление» оригинального объекта) может использоваться компьютером для дальнейшей обработки, передачи по цифровым каналам, сохранению на цифровой носитель. Перед передачей или сохранением цифровое представление, как правило, подвергается фильтрации и кодированию для уменьшения объема.

Ничего непонятно?

Попробуй обратиться за помощью к преподавателям

Замечание 1

Иногда термин «оцифровка» используется в переносном смысле при переводе информации из аналогового вида в цифровой. Например:

  • оцифровка звука;
  • оцифровка видео — перенос видеосигнала из внешнего источника с видеокассетой на цифровое устройство с последующей обработкой (сжатием, перекодировкой) и записью на цифровой носитель (dvd-диск, флеш-носитель, внешний жесткий диск);
  • оцифровка киноплёнки;
  • оцифровка изображения;
  • оцифровка книг — как сканирование, так и (в дальнейшем) распознавание.

То есть оцифровывать можно какой угодно звук, любое изображение, чертёж, фотографию, рисунок, практически любое видео. Процесс представляет собой дискретизацию — разбиение всего на крошечные элементы, кванты или пиксели, описываемые нулями и единицами. В смысле, битами и байтами.

Отдельный вид оцифровки — сканирование с распознаванием текста. То есть, сканер может узнавать буквы и представлять результат не в виде картинки, а как обычный электронный документ, словно его с клавиатуры напечатали, нередко даже с ошибками.

О том, что оцифровывается само (звук в телефоне, изображение в камере), особо заботиться не нужно. Достаточно подобрать качественные товары. Если же в биты и байты информация автоматически не превращается, то необходимо предпринять некоторые действия по самостоятельному осуществлению такого процесса.

Рассмотрим некоторые практические рекомендации, которые не помешают каждому.

Оцифровка звука

В простейшем случае линейный выход аналогового устройства (проигрывателя виниловых пластинок, например) подключается к микрофонному входу звуковой карты компьютера. Там происходит дискретизация — разбивка на кванты.

Каждый квант описывается битами, т.е. вышеупомянутыми нулями и единицами. Считывая эти биты, воспроизводящее устройство понимает, какие именно частоты нужно переводить обратно в аналоговый вид. Соответственно, чем больше битов выделено на каждый квант и каждую секунду, тем точнее описание.

Что касается программного обеспечения, в случае ограниченности бюджета, возможно, подойдёт кросс-платформенный свободный аудиоредактор Audacity.

Микрофоны, встроенные в карманные плееры, ноутбуки, сотовые телефоны, прицепленные к гарнитурам с наушниками, предназначены для передачи речи. Можно записать разговор и потом даже что-то разобрать при прослушивании, но особого качества звука не добьётесь.

Замечание 2

Если вы оборудуете домашнюю студию, и вам требуется микрофон для пения (для по-настоящему качественной передачи частот звукового диапазона), можно приобрести конденсаторный, подключаемый к порту USB. У него на борту есть собственный аналого-цифровой преобразователь. Старайтесь при обработке звука в аудиоредакторе никогда не снижать частоту дискретизации и глубину описания звука (её ещё называют «разрешением»).

То есть, если вы оцифровали музыку с виниловой пластинки с глубиной описания $24$ бита, то при изготовлении CD Audio это значение снизится до стандартных $16$ бит. При этом появится такой паразитный сигнал как шум квантования (если софт не дорогой и не применялось сглаживание — «Dithering»).

Значит, для будущего создания музыкального компакт-диска, во избежание лишних проблем, целесообразнее оцифровывать звук сразу с $16$-битной глубиной.

Оцифровка видео

Завалялись старые видеокассеты с семейным видео? Плёнка ещё не размагнитилась окончательно? Значит, понадобится пишущий DVD-плеер или TV-тюнер — устройство с аналого-цифровым преобразователем, способное осуществлять захват сигнала с аналоговых телевизора, видеомагнитофона, камеры.

TV-тюнер, как правило, даёт более качественный результат и позволяет осуществлять настройки параметров видео. Он может быть:

  • внутренним, т.е. в виде платы, вставляемой в системный блок;
  • внешним, т.е. в виде отдельного устройства (для подключения к ноутбукам).

В комплекте с тюнером предоставляется софт для операционных систем Windows и Mac OS. Устанавливать его можно смело — будут и драйверы, и нужные пользовательские приложения.

Более того, при наличии драйверов оцифровку в разных форматах (используя разные кодеки) можно производить с помощью любого толкового видеоредактора, необязательно «родной» программы.

А вот пользователям Ubuntu повезло не так сильно. По крайней мере, на данном этапе развития свободных ОС.

Замечание 3

Самым продвинутым приложением для GNU/Linux, умеющим осуществлять аудио- и видеозахват, считается TVTime. Однако прежде чем приобретать дополнительное «железо», следует изучить раздел «supported cards» на сайте разработчиков tvtime.sourceforge.net. Там рассказывается, какие платы как работают, какие драйверы в каком ядре Linux есть и хорошо ли они функционируют с теми или иными моделями.

Обладателям портативных устройств (ноутбуков и нетбуков) жить легче. Установили TVTime, отправились с компьютером в магазин — и проверили прямо там, поддерживает ли ядро Linux что-нибудь из предлагаемого ассортимента внешних TV-тюнеров.

В настройках программы желательно указать частую расстановку ключевых кадров (это полноценные картинки, между ними — только информация об их изменении, о движениях.) Пусть файл получится чуть больше, но прокручивать видео (и особенно редактировать) будет удобнее.

Впрочем, только на компьютере. Пишущий DVD-плеер и без дополнительных подсказок изготовит файлы со стандартными параметрами, вполне пригодные к употреблению.

Оцифровка изображений

Недостаточно положить картинку под крышку сканера и нажать на кнопку. Необходимо выставить хорошее разрешение.

Дело в том, что изображения при оцифровке разбиваются на пиксели (цветные точки), при этом изображения становятся зернистыми, как очень мелкая мозаика. И чтобы потом на принтере они отпечатались нормально, требуется как минимум $300$ таких точек на каждый дюйм. Параметр обозначается как «$300$ dpi» («dots per inch»).

Замечание 4

Что касается софта. Для коммерческих операционных систем, как обычно, всё необходимое имеется на лазерных дисках, поставляемых в комплекте со сканером или многофункциональным устройством (МФУ), которое представляет собой гибрид принтера, сканера и ксерокса. Качественные программы есть и для GNU/Linux. В первую очередь, Simple Scan (для дистрибутивов с KDE —SkanLite). Выставили разрешение 300 dpi — и сканируйте сколько угодно.

Множеством параметров можно управлять в более сложной XSane (Sane с графическим интерфейсом). Тоже весьма качественная программа. Для распознавания текста обычно ищут пиратские копии коммерческих изделий. Но почему бы не использовать что-нибудь легальное? С 2008-го года программный комплекс CuneiForm является свободным (исходные коды открыты под лицензией BSD). Правда, это только ядро системы распознавания, нужен ещё и графический интерфейс (например, YAGF).

Итак, оцифровка представляет собой процесс разбиения чего-либо визуального или аудиовизуального на крошечные элементы и описание этих кусочков огромным количеством нулей и единиц.

spravochnick.ru

Оцифровка книг - это... Что такое Оцифровка книг?

Сверхпроизводительный сканер APT BookScan

Оцифровка книг — это процесс перевода бумажных книг в электронный (цифровой) вид. Электронные копии книг могут образовывать электронные библиотеки и распространяться в Сети. Цифровые книги можно легко распространять, воспроизводить и читать на экране. Обычно оцифрованные книги сохраняют в форматах: DjVu, Portable Document Format (PDF), JPG или TIFF. Для преобразования исходного изображения используют оптическое распознавание символов (OCR), оно необходимо для включения страниц книги в цифровой формат, такой как ASCII или другой подобный формат, который уменьшает размер файла и позволяет работать с текстом. Сканирование изображений может происходить вручную или автоматически. В обычных сканерах книга располагается на стекле, на книгу падает свет, и оптический механизм сканирует книгу, двигаясь под стеклом. Другие книжные сканеры используют V-образную раму и фотографируют страницы сверху. Страницы могут переворачиваться вручную или с помощью автоматических устройств подачи бумаги. Специальное массивное стекло, как правило, прижимает страницы, чтобы сгладить недостатки сканирования. После сканирования программа корректирует изображение документа, выравнивая его, обрезая, редактируя и преобразовывая его в текст, и окончательную форму электронной книги. Люди обычно проверяют отсканированное изображение на наличие ошибок.

Сканирование 118 точек/см (300 точек на дюйм) является нормой для преобразования в цифровой вид текста, однако для редких и сложных книг необходимо использование более высокого разрешения. Высокотехнологичные сканеры способны сканировать около тысячи страниц в час, такие устройства могут стоить тысячи долларов. Но можно сделать сканер и самому, например, ручные книжные сканеры, способные оцифровывать около 1200 страниц в час, а стоимость построения около 300 долларов.

В прошлом чаще применялся ручной набор текста книги.

Сегодня процесс оцифровки включает два подхода.

  1. Обязательный: получение копий страниц в виде графических (обычно растровых) изображений, осуществляемое путём сканирования или фотографирования с последующей обработкой и сохранением в одном из форматов графических файлов. В этом случае полностью сохраняется оригинальная вёрстка книги, и исключаются какие-либо ошибки, однако невозможен поиск или извлечение фрагментов текста для, например, целей цитирования.
  2. Опциональный: распознавание текста (технология «оптического распознавания символов» — OCR) с последующим сохранением распознанного текста в одном из форматов электронных книг. В этом случае становится возможен полнотекстовый поиск по книге и индексация больших массивов электронных книг, однако затрудняется воспроизведение оригинальной вёрстки, изображений, схем и формул, практически неизбежны становятся ошибки распознавания.

В последнее время (особенно с появлением форматов PDF и DjVu) всё чаще применяется смешанный подход: текст книги распознаётся в автоматическом режиме и подкладывается под оригинальные растровые изображения страниц, что позволяет совместить преимущества обоих подходов.

Книжные сканеры

К книжным сканерам относятся узкоспециализированные сканеры, предназначенные для максимально быстрого и/или удобного получения растровых копий страниц книги. Условно можно выделить три типа таких сканеров:

  • планшетные — сканеры, ориентированные на домашнего пользователя, но сконструированные именно для облегчения процесса сканирования книг (Plustek и другие)
  • планетарные — профессиональные высокопроизводительные сканеры
  • роботизированные (англ.) — промышленные сверхвысокопроизводительные сканеры, оборудованные устройствами различных конструкций для автоматического переворачивания страниц.

В двух последних типах сканеров обычно применяется не сканирующая линейка, а одна расположенная над сканируемым оригиналом цифровая камера высокого разрешения (30—140 Мпикс.). В некоторых моделях возможно использование двух камер, которые устанавливаются под углом друг относительно друга так, чтобы одновременно делать снимки всего разворота (при этом нет необходимости раскрывать книгу на 180°, что критично при оцифровке старых или находящихся в плохом состоянии оригиналов).

Планетарные и роботизированные сканеры позволяют достичь производительности 500—2000 страниц в час, у лучших моделей — до 2500—3000 страниц в час.

Профессиональные книжные сканеры

Эскиз V-формы книжного сканера ATIZ Эскиз типичного книжного сканера

Профессиональные книжные сканеры не просто обычные сканеры, это книжные сканеры, которые сканируют в высоком качестве с использованием цифровой камеры и источниками света по обе стороны от камеры, обеспечивающие легкий доступ к книге. Преимуществом таких сканеров является то, что это очень быстрые сканеры, по сравнению с производительностью планшетного сканера. Однако цены таких сканеров обычно начинаются с 10 000$..

Сканирование с обрезкой страниц

Для сканирования книг с низким бюджетом, наименее дорогим способом является сканирование книги или журнала с обрезкой страниц от корешка. Это превращает книгу или журнал в стопку документов, которые могут быть загружены в стандартное устройство автоматической подачи документов, Хотя, безусловно, это не является хорошим решением для очень старых и необычных книг, в особенности тогда, когда книга дорогая и коллекционная. В данном сканировании есть две трудности, обрезка страниц и само сканирование.

Обрезка страниц

Одним из способов резки страниц объемом от 500 до 1000 страниц за один раз, выполняется с помощью гильотины для бумаги. Эта конструкция представляет собой большой стальной стол с тисками для бумаги. Разрез выполняется большим заостренным стальным лезвием, которое движется прямо и режет по всей длине каждого листа сразу. Рычаг на лезвии позволяет прикладывать силу в несколько сотен фунтов, которая необходимо для разреза стопки бумаги. Чистый срез невозможно сделать традиционным серповидным ножом, так как он предназначен только для резки нескольких листов, где 10 листов является практически пределом. С течением времени при нарезке большой стопки бумаги, разрез становится все более неточным, а усилие которое нужно прикладывать для нарезки бумаги увеличивать. Процесс при резке гильотиной притупляет лезвие с течением времени, поэтому необходимо затачивать лезвие. Бумага с покрытием, притупляют лезвие быстрее, чем обычная бумага.

Сканирование

Когда бумага освобождена от корешка книги, то можно сканировать с помощью традиционного планшетного сканера или использовать сканер с автоматической подачей документов. Страницы с рифленой декоративной окантовкой или изогнутыми в дугу могут быть трудными для сканирования с помощью автоподатчика. Автоподатчик предназначен для сканирования страниц одинаковой формы и размера, поэтому разный размер или форма страниц может привести к неправильному сканированию. Бумага, которая используется в журналах и учебниках может плохо проходить в устройство автоматической подачи бумаги. Вообще наименьшие проблемы возникают с обычной бумагой. Липкий ролик, который захватывает бумагу, может со временем стереться, поэтому за его работоспособностью необходимо внимательно следить. Если в стопке бумаги находятся различные листы бумаги, например карты, то их необходимо удалить сразу перед сканированием.

Сканирование без вмешательства

Сканер на основе ЦФК. Сканер предназначен для оцифровки как сшитых, так и расшитых изданий. Подходит для оцифровки как относительно новых, так и ветхих изданий за счет специальной V-образной колыбели, позволяющей не раскрывать книгу полностью (на 180 градусов), что сводит к минимуму вредное воздействие на издание. Книга остается в одной и той же позиции. Скорость сканирования (цветной режим) около 500—700 страниц/час. Перелистывание страниц происходит вручную (существуют модели с автоматическим перелистыванием, однако ценные, ветхие книги, составляющие основу библиотечного фонда, не рекомендуется оцифровывать на таком оборудовании во избежание повреждений). Формат сканируемого документа А2-А4. Разрешение получаемых изображений 130—470 dpi (оптическое) . Сканеры подобного типа занимают много рабочего пространства, однако практически не подвержены поломкам, поскольку являются сканирующими платформами. Модернизируется за счет замены фотокамер на более профессиональные варианты. Запускается нажатием одной кнопки. Примером, таких сканеров могут являться сканеры, использующие цифровые фотокамеры.

Крупные проекты по оцифровке книг

Основная статья: Список электронных библиотек

В ходе масштабных проектов по оцифровке книг, как правило, обрабатываются книги, перешедшие в общественное достояние. Хотя Google оцифровывает вообще все книги, однако книги, защищённые авторским правом, предоставляет лишь в виде фрагментов. К крупным проектам по оцифровке на сегодня относятся:

Одной из основных проблем является большой объем книг, которые будут отсканированы. Десятки миллионов книг будут отсканированы, а затем должны находится в свободном доступе и поиске в интернете, в качестве универсальной библиотеки. В настоящее время крупные организации полагаются на аутсорсинг, сканирование дома, используя профессиональные книжные сканеры, и сканирование дома, используя роботизированные сканеры. Что касается аутсорсинга, то книги часто отправляются оцифровываться в Индию или Китай, за счет самых низких цен. Профессиональные сканеры используют цифровые камеры, что значительно ускоряет весь процесс. При использовании роботизированных сканеров традиционно необходимо отделять страницы от корешка книги, чтобы страницы могли автоматически подаваться. Как только страница сканируется, то данные вводятся вручную или с помощью OCR, что является еще одним критерием стоимости сканирования книги. В связи с вопросами авторского права, на большинство отсканированных книг не распространяется авторское право. Однако известно, что Google Book Search сканирует книги, которые защищены авторским правом и может убрать книгу из свободного доступа, только если только издатель специально исключит книгу из поиска.

Оцифровка по желанию

Ряд крупных библиотек предоставляют особые услуги по оцифровке публикаций из своих фондов по желанию читателей. Основные критерии: публикации должны находиться в общественном достоянии и должны быть в достаточной сохранности. Таким образом, появляется источник финансирования процесса оцифровки или же устанавливаются приоритеты при массовой оцифровке. Как правило, отметка о возможности сканирования интегрирована в библиотечный каталог, оцифрованная публикация размещается в электронной библиотеке для всеобщего доступа.

Существующие проекты

  • «Scan-on-demand» (Сканирование по требованию) — бесплатный проект от openlibrary.org, любой желающий может выбрать книгу из списка (фонды Бостонской общественной библиотеки), который содержит большое количество литературы XIX—XX веков на русском языке. Оцифровка проводится средствами некоммерческой организации Архив Интернета. Сроки работ заявлены как 5—8 рабочих дней. На сайте openlibrary.org собрано уже более миллиона оцифрованных публикаций.[1]
  • «DigiWunschbuch» — проект Центра оцифровки и Университетской государственной библиотеки Гёттингена (Германия), сканирование за плату (рассчитывается постранично) заказчик получает цифровую копию на CD-ROMе, кроме того, его имя будет размещено на шмуцтитуле цифровой копии размещённой в открытом доступе.[2]

См. также

  • DjVu
  • PDF
  • ScanKromsator
  • Scan Tailor
  • Deskew
  • Шумопонижение
  • reCAPTCHA

Ссылки

Примечания

  1. ↑ http://openlibrary.org/bpl
  2. ↑ DigiWunschbuch: WUNSCHBÜCHER

dic.academic.ru


Смотрите также