План-конспект урока на тему: Урок МДК "Системы машинного перевода текстов и компьютерные словари". Компьютерные справочные системы

Документы, составленные на иностранных языках, турфирме следует перевести на русский. Иначе расходы по ним нельзя будет принять в целях налогообложения. Однако иногда перевод не нужен. Скажем, если речь идет о закодированных на латинице реквизитах электронного авиабилета (письмо ФНС России от 7 июня 2011 г. № ЕД-4-3/8983).

Необходимость перевода документов
В соответствии с пунктом 1 статьи 16 Закона РФ от 25 октября 1991 г. № 18071 «О языках народов Российской Федерации» официальное делопроизводство в организациях в нашей стране ведется на русском языке.

А как закреплено в пункте 9 Положения по ведению бухгалтерского учета и бухгалтерской отчетности в РФ, утвержденного приказом Минфина России от 29 июля 1998 г. № 34н, бухгалтерский учет имущества, обязательств и хозяйственных операций (фактов хозяйственной деятельности) фиксируется в валюте РФ - в рублях.

При этом документирование имущества, обязательств и иных фактов хозяйственной деятельности, ведение регистров бухгалтерского учета и отчетности осуществляются на русском языке. Далее сказано: первичные учетные документы, составленные на иных языках, должны иметь построчный перевод на русский язык.

На основании указанных норм контролирующие органы делают вывод, что первичные документы, если они оформлены на иностранном языке, обязательно должны быть переведены на русский. Такое мнение выражено, в частности, в письмах Минфина России от 3 ноября 2009 г. № 03-03-06/725, от 14 сентября 2009 г. № 03-03-05/170, от 16 февраля 2009 г. № 03-03-05/23.

Хотя в судах организациям удается отстоять расходы, которые подтверждены документами без перевода (постановления ФАС Московского округа от 21 апреля 2011 г. № КА-А40/2152-11, от 8 октября 2008 г. № КА-А40/8061-08).

Также чаще всего арбитры встают на сторону налогоплательщиков, указывая, что отсутствие перевода документов на русский язык не может служить основанием для отказа в вычете НДС. Пример тому - постановления ФАС Московского округа от 1 апреля 2009 г. № КА-А40/132809, от 16 марта 2009 г. № КА-А40/1450-09, ФАС Западно-Сибирского округа от 5 марта 2007 г. № Ф04-979/2007(31967-А45-14).

Однако если у турфирмы документы не будут иметь перевода, отстаивать возможность налогового учета расходов или права на вычет скорее всего придется в суде. При этом исход судебного спора может быть и не в пользу налогоплательщика.

Как оформить перевод документа
Финансовое ведомство уточняет, что перевод может сделать как профессиональный переводчик, так и сама организации, вернее, ее работник (письма от 14 сентября 2009 г. № 03-03-05/170, от 20 марта 2006 г. № 03-02-07/1-66).

При этом как должен быть оформлен такой документ, законодательство не устанавливает. Поэтому его можно выполнить в виде отдельного документа либо вписать русский текст на ксерокопии иностранного первичного документа.

Надо отметить, что перевод может быть выполнен и организацией, выдавшей первичный документ, например, в виде справки (письмо Минфина России № 03-03-05/170).

Когда можно обойтись без перевода
В некоторых случаях переводить документы не придется.

Этого не нужно делать, во-первых, при регулярном получении от своих контрагентов-иностранцев типовых документов, в которых отличаются только цифровые показатели (номер, дата документа, цена и т. п.), достаточно перевести один раз форму документа на русский. Разъяснения по данному вопросу приведены в письме Минфина России от 3 ноября 2009 г. № 03-03-06/1/725.

Во-вторых, не требуется переводить информацию, не имеющую существенного значения для подтверждения произведенных расходов.

Например, условия применения тарифа, правила авиаперевозки, правила перевозки багажа. На это обратили внимание чиновники главного финансового ведомства в письме от 14 сентября 2009 г. № 03-03-05/170.

В-третьих, не нужен перевод формализованных (закодированных) реквизитов электронного авиабилета, заполненных с использованием символов латиницы (письма ФНС России от 7 июня 2011 г. № ЕД-4-3/8983, от 26 апреля 2010 г. № ШС-37-3/656@).

А вот когда в электронном авиабилете значения фактически обозначены на иностранном языке и не совпадают с формализованными (закодированными) значениями или кодами в соответствии с Едиными международными кодификаторами, то эти показатели (значения) авиабилета подлежат переводу на русский язык.

Учет расходов на перевод
В бухгалтерском учете расходы туристической фирмы на оплату услуг по переводу документов включаются в состав прочих в том месяце, в котором они оказаны. Это отражается записью по дебету счета 91 «Прочие доходы и расходы» (субсчет «Прочие расходы») и кредиту счета 76 «Расчеты с разными дебиторами и кредиторами» (п. 11, 16, 18 ПБУ 10/99 «Расходы организации»).

Принимаются такие расходы и в целях налогообложения прибыли - в составе прочих как оплата за информационные услуги (подп. 14 п. 1 ст. 264 Налогового кодекса РФ) либо как иные прочие траты. Об этом - в письме УФНС России по г. Москве от 26 мая 2008 г. № 20-12/050126. Правда, эта норма касается расходов на сторонний перевод.

Напомним, что для соответствия требованиям статьи 252 Налогового кодекса РФ расходы на перевод документов должны быть документально подтверждены.

При «упрощенке» учесть такие расходы не получится. Поскольку они не предусмотрены в закрытом перечне разрешенных трат (п. 1 ст. 346.16 Налогового кодекса РФ).

Важно запомнить

Расходы на сторонний перевод документов можно учесть в целях налогообложения прибыли. А вот принять их при «упрощенке» нельзя.

Обзор продуктов

С возникновением письменности люди получили мощный инструмент для сохранения знаний и для коммуникации. Первые письмена, дошедшие до нас на стенах храмов и гробниц, повествуют о деяниях царей и полководцев, происшедших много веков назад. Кроме того, люди записывали результаты хозяйственной деятельности, для того чтобы успешно торговать, собирать налоги и т.д.

Чтобы облегчить письменное общение между народами были созданы первые словари. Один из таких словарей был написан шумерскими жрецами на глиняных табличках. Каждая табличка была поделена на две равные части. С одной стороны записывалось шумерское слово, а с другой - аналогичное по значению слово на другом языке, иногда с кратким пояснением. С тех времен до наших дней структура словарей практически не изменилась.

С появлением персонального компьютера стали создаваться электронные словари, облегчившие поиск нужного слова и предложившие множество новых полезных функций (озвучивание слова, поиск синонимов и т.д.).

Технология машинного перевода постепенно совершенствовалась. И если качество и скорость перевода первых систем оставляли желать лучшего, то теперь компьютер действительно может связно переводить текст с одного языка на другой. А более современные системы с приемлемым качеством переводят 1 страницу текста за 1 секунду.

Кому и зачем нужен машинный перевод

В последнее время активно обсуждаются возможности и перспективы технологий машинного перевода (MП). В дискуссиях принимают участие как профессиональные переводчики, так и производители систем МП. Попробуем оценить возможности МП, опираясь на опыт применения реальных систем.

Справедливости ради следует отметить, что в обозримом будущем машинная технология не сможет полностью заменить переводчика-человека. По качеству перевода программы МП не смогут состязаться с человеком. Однако с помощью подобных программ можно существенно повысить эффективность труда переводчика.

Основываясь на формальном описании языков, программа анализирует текст на одном языке, а затем синтезирует фразу на другом. Алгоритмы анализа и синтеза, как правило, довольно сложны и управляются словарной информацией, приписанной лексическим единицам в словарях системы как для языка исходного текста, так и для языка его перевода.

Где же находят применение системы МП? Во-первых, программы-переводчики могут быть использованы для быстрого перевода текста в целях понимания его смысла. Конечно, по качеству машинный перевод не может сравниться с переводом, сделанным человеком, но зато пользователь получает ответ «здесь и сейчас». Кроме того, с помощью систем МП можно читать информацию, размещенную на зарубежных сайтах, а также понять текст присланного письма, написанного на французском, немецком, японском или ином языке.

Помимо этого системы МП могут быть использованы для решения задач профессионального перевода и значительно повысить эффективность работ. Сравним оба способа - традиционный и машинный. Традиционный перевод обычно включает несколько этапов: перевод, редакторская правка, верстка, корректура. При этом в целях ускорения перевод, как правило, выполняют несколько переводчиков. Вследствие этого возникает проблема единой терминологии и единого стиля перевода, что увеличивает затраты на редакторскую правку. Кроме того, значительные усилия приходится тратить на переверстку документа.

Что дает применение систем МП и где оно наиболее целесообразно? Системы МП, используя для перевода общую словарную базу, в значительной степени минимизируют затраты на поддержание единой терминологии, а следовательно, на редакторскую правку. При этом технический редактор получает от системы МП перевод, выполненный в едином стиле. Таким образом, использование систем машинного перевода наиболее эффективно для организации технологического процесса по переводу больших массивов однотипных документов в сжатые сроки с обеспечением единства терминологии и стиля по всему массиву документов.

Возможность применения системы МП определяется ее способностью адаптироваться к переводу документов различной тематики. Качество получаемого перевода в значительной степени зависит от настройки. Помимо общелексического словаря должны использоваться специализированные словари, отражающие как тематику перевода, так и специфику конкретных документов. Кроме того, качество переводов зависит от возможности создания переводчиком собственных пользовательских словарей, которые должны включать терминологию, характерную для данной документации, а также часто встречающиеся обороты/фразы/выражения (микросегменты), перевод которых не может быть формальным. Подобная настройка гарантирует качество, при котором применение МП становится эффективным для решения задач «промышленного» перевода.

Для оценки эффективности использования систем МП компания ПРОМТ предоставила свою систему PROMT 2000 Translation Office центру переводов ЛОНИИС. Эксперимент показал, что использование МП позволяет сократить суммарное время выполнения проекта примерно в 2 раза.

Следует отметить и ряд ограничений на использование систем МП. Не имеет смысла переводить с помощью программы-переводчика художественные тексты, пословицы и поговорки. Небольшие по объему тексты различной тематики также лучше переводить традиционным способом.

PROMT Translation Office 2000

PROMT Translation Office 2000 (далее - PROMT) ценой 300 долл. - это набор профессиональных инструментов, обеспечивающий перевод с основных европейских языков на русский и обратно. С его помощью можно не только переводить, но и редактировать перевод и работать со словарями всех языковых направлений одновременно.

В PROMT входят следующие коллекции словарей:

  • «Легкая промышленность» (180 долл.);
  • «Тяжелая промышленность» (180 долл.);
  • «Коммерция» (99 долл.);
  • «Наука» (120 долл.);
  • «Техника» (199 долл.).

Для обеспечения высокого качества перевода в системе PROMT предусмотрена возможность настройки на перевод конкретного текста - посредством подключения специализированных предметных словарей, поставляемых отдельно, а также создания собственных пользовательских словарей. Удобным средством настройки системы является также возможность выбора тематики документа: какие словари подключать, какие слова оставить без перевода и как обрабатывать специальные конструкции типа электронного адреса, даты и времени.

Система PROMT включает следующие модули:

  • PROMT- профессиональная среда для перевода;
  • Dictionary Editor - средство для пополнения и редактирования словарей систем машинного перевода семейства PROMT;
  • PROMT Electronic Dictionary - электронный словарь, предоставляющий пользователю широкие возможности доступа к лексико-грамматической информации, собранной в специализированных словарях семейства PROMT. Может быть использован при любой работе с текстами (например, для быстрого получения информации о переводных эквивалентах данного слова или словосочетания);
  • WebView - браузер, позволяющий получить синхронный перевод HTML-страниц при навигации в Интернете. WebView содержит два окна для отображения HTML-страниц: верхнее отображает исходную страницу, полученную из Интернета, нижнее - ее перевод с сохранением ссылок, картинок, вставленных объектов и т.д. Осуществлять переход по ссылкам можно как в верхнем окне, содержащем исходный текст, так и в нижнем, содержащем перевод;
  • SmarTool - инструмент, реализующий функции перевода в приложениях Microsoft Office 97 (Word, Excel) и Microsoft Office 2000 (Word, Excel, PowerPoint, FrontPage, Outlook). Меню и инструментальная панель перевода встраиваются во все основные приложения Microsoft Office 2000 и Microsoft Office 97, что позволяет получить перевод открытого документа непосредственно в этих приложениях;
  • QTrans - программа, предназначенная для быстрого перевода неформатированного текста. С ее помощью можно легко и быстро перевести текст, текстовый файл или буфер обмена (Clipboard). Для улучшения качества перевода можно выбрать подходящую тематику, подключить специализированные словари и зарезервировать слова;
  • Clipboard Translator - программа, предназначенная для быстрого перевода текста, предварительно скопированного в буфер обмена. Текст может быть скопирован из любого Windows-приложения (Help, Notepad, Word, Word Perfect, PageMaker и др.);
  • «Интегратор» - средство доступа ко всем приложениям пакета.

Перевод документа в системе PROMT

Меткой отмечен текущий абзац исходного текста и перевод этого абзаца (текущим из них является тот, в котором в данный момент установлен курсор).

Все документы, с которыми работает программа PROMT, появляются в окнах документов. Одновременно могут быть открыты несколько документов - каждый в своем окне (рис. 4 , ).

Выполненный перевод можно уточнить, воспользовавшись электронными словарями, разработанными другими фирмами (если они, конечно, установлены на вашем компьютере). Могут быть использованы электронные словари:

  • Lingvo 6.0 (программа фирмы ABBYY);
  • «Контекст 3.0» (программа фирмы «Информатик»);
  • «МультиЛекс 1.0, 2.0, 3.0» (программа фирмы «МедиаЛингва»);
  • PROMT Electronic Dictionary 1.0 (программа фирмы ПРОМТ).

При переводе система PROMT не использует электронные словари других производителей. Поэтому, если какого-либо слова нет в словарях системы PROMT или вас не устраивает перевод какого-либо слова или словосочетания, можно вызвать электронный словарь и воспользоваться им как справочным.

Для перевода HTML-документов в комплект поставки входит браузер WebView.

Последовательность действий при выполнении перевода

  1. Откройте файл с исходным текстом или создайте новый документ (новый текст можно набрать непосредственно в окне PROMT).
  2. Проверьте разбивку текста на абзацы (после перевода форматирование по абзацам сохранится).
  3. Проверьте орфографию и отредактируйте исходный текст, если это необходимо.
  4. Выберите шаблон тематики, подходящий для перевода данного текста (шаблон тематики для данного направления перевода - это набор словарей и список зарезервированных слов; он устанавливается для повышения качества перевода).
  5. Уточните тематику документа, настроив ее компоненты:
    • подключите словари, которые будут использоваться при переводе текста. Если не подключен ни один словарь, при переводе будет использоваться только общелексический генеральный словарь;
    • зарезервируйте слова, которые в тексте перевода должны оставаться на языке исходного текста;
    • подключите препроцессор, если хотите отменить перевод некоторых конструкций, например адресов электронной почты, имен файлов, а также выбрать форму представления даты и времени в тексте перевода;
    • отметьте абзацы, не требующие перевода.
  6. Переведите текст (сразу весь документ или по абзацам).
  7. Введите незнакомые слова в свой пользовательский словарь, если хотите, чтобы они в дальнейшем переводились.
  8. Воспользуйтесь электронным словарем для уточнения значений слов.
  9. Сохраните результаты перевода.

Системные требования

  • IBM PC-совместимый компьютер с процессором P166 или выше;
  • 32 Мбайт оперативной памяти;
  • примерно 160 Мбайт на жестком диске (для системы со всеми компонентами);
  • видеоадаптер SVGA или лучшего разрешения;
  • устройство для чтения компакт-дисков CD-ROM (для инсталляции);
  • мышь или совместимое устройство;
  • ОС: Windows 98 (русская версия или панъевропейская с поддержкой русского языка и русскими региональными установками), или Windows NT 4.0 SP3 (или выше) с поддержкой русского языка и русскими региональными установками, или Windows 2000 Professional (с поддержкой русского языка и русскими региональными установками);
  • Microsoft Internet Explorer 5.x (входит в поставку).
  • IBM PC-совместимый компьютер с процессором PII-300 или выше;
  • 64 Мбайт оперативной памяти

Перевод документа в системе «Сократ Персональный»

Вид главного окна программы показан на рис. 6 .

При первом запуске основное окно программы по умолчанию открывается на закладке «Переводчик». Перевод текста, набранного в окне программы: набрав текст в верхнем окне закладки «Переводчик» и нажав кнопку кнопку «Перевести» на панели инструментов или в меню «Перевод», в нижнем окне закладки вы получите перевод текста.

Для того чтобы воспользоваться словарем (рис. 7), достаточно щелкнуть мышью на соответствующей закладке. Кроме того, окно словаря может быть вызвано при помощи горячих клавиш.

С помощью словаря вы можете получить перевод искомого слова следующими способами:

  • набрать слово в поле ввода, расположенном в верхнем правом окне словаря. Перемещение по словарной базе осуществляется по мере ввода букв, до тех пор пока не будет получено максимально возможное совпадение;
  • вставить слово в поле ввода из буфера обмена. В этом случае будет осуществлен быстрый переход к слову, максимально совпадающему с введенным;
  • выбрать ранее переведенное слово из окна истории поля ввода, после чего будет осуществлен быстрый переход к тому слову, которое имеет максимально возможное совпадение с введенным;
  • выделить слово в другом приложении и, удерживая клавишу Shift, щелкнуть по выделению правой кнопкой мыши. Во всплывающем окне появится перевод выделенного слова;
  • использовать сочетание горячих клавиш, предварительно поместив необходимое слово в буфер обмена.

Перевод слов или текста из других приложений

В системе «Сократ Персональный 4.0» предусмотрена возможность работы с переводчиком и словарем в других приложениях без выхода из них. Перевод осуществляется во всплывающем окне.

Для того чтобы получить перевод текста из другого приложения (например, текстового редактора), необходимо выделить подлежащий переводу текст и, удерживая клавишу Shift, щелкнуть по выделению правой кнопкой мыши. Появится всплывающее окно, содержащее перевод выделенного фрагмента.

Для того чтобы получить перевод слова из другого приложения, необходимо выделить интересующее вас слово и, удерживая клавишу Shift, щелкнуть по выделению правой кнопкой мыши. Появившееся всплывающее окно будет содержать перевод выделенного слова.

При необходимости из этого окна можно перейти непосредственно на закладку «Словарь», воспользовавшись гиперссылкой всплывающего окна.

Системные требования

Минимальная конфигурация компьютера:

  • IBM PC-совместимый компьютер с процессором Pentium 90 или выше;
  • Операционная система Windows 98/Me или Windows NT/2000;
  • 32 Мбайт оперативной памяти;
  • 16 Мбайт свободного места на жестком диске.

Результаты тестирования PROMT Translation Office 2000 и «Сократ Персональный 4.0»

Для сравнения качества и скорости перевода двух систем были выбраны несколько фрагментов текстов на русском и английском языках: отдельные фразы, новости от компаний, отрывки из Библии, «законы Мерфи», технический, медицинский, юридический тексты. Оценки выставлялись по 10-балльной шкале. После этого было проведено сравнение результатов перевода с английского языка на русский и наоборот (табл. 1).

Следует отметить, что PROMT Translation Office 2000 и «Сократ Персональный 4.0» - продукты, предназначенные для решения разных задач. PROMT Translation Office 2000 - это профессиональная система МП, с помощью которой гораздо эффективнее переводить большие объемы информации. Кроме того, в системе PROMT грамотно реализованы грамматические правила того или иного языка. Поэтому качество перевода весьма высокое. Недостатками системы PROMT являются высокие требования к аппаратным ресурсам и значительное время перевода при подключении нескольких дополнительных словарей.

«Сократ Персональный 4.0» - это система автоматического перевода, которая помогает быстро и легко получить перевод непонятной фразы или термина. Ее основное назначение - быть всегда под рукой.

Перевести с помощью «Сократ Персональный 4.0» короткое письмо или фразу из текста гораздо проще и быстрее, чем с помощью системы PROMT. Однако для перевода большого объема текста целесообразно воспользоваться PROMT Translation Office 2000.

Lingvo 7.0

Lingvo 7.0 - это мощный профессиональный словарь, очень удобный для пользователя. Нажмите горячую клавишу в любом Windows-приложении - и на экране появится самый полный перевод слова из всех словарей, подключенных к системе. Грамматические комментарии на любое слово, озвучивание наиболее важных слов, проверка правильности написания, возможность создания собственных словарей - всё это предлагает ABBYY Lingvo 7.0 (рис. 9). Lingvo 7.0 содержит более 1,2 млн. слов и словосочетаний в 18 общих и специализированных словарях.

При запуске Lingvo на экране появляется главное окно (рис. 10). В строке ввода пользователь может набрать нужное слово. По мере набора программа будет искать наиболее подходящее слово. Нажав клавишу ввода или пиктограммку «Перевести текст», пользователь увидит окно карточки, в которой находится словарная статья выбранного (найденного при поиске) слова (рис. 11).

Если вы читаете справочный раздел какой-либо программы, работаете с текстовым редактором, браузером или любым другим Windows-приложением, выделите слово или несколько слов в тексте и нажмите клавиши Ctrl+Ins+Ins. Или просто перетащите (drag-and-drop) слово в строку ввода. При этом активизируется главное окно Lingvo и откроется карточка с переводом выделенного слова. Если таких карточек много, появится окно «Перевод», содержащее слова и словосочетания из запроса.

Для того чтобы вставить перевод в редактируемый текст, выделите перевод в карточке и нажмите Ctrl+Ins. Переключитесь на окно текстового редактора и проделайте операцию «Вставить». Также можно перетащить перевод на окно вашего текстового редактора.

При переводе с английского языка на русский не всегда очевидно, имеем мы дело со словами, которые можно переводить независимо, или со словосочетанием, которое переводится как целое. В решении этой проблемы помогает функция «Перевести текст из строки», позволяющая найти в переводимом фрагменте устойчивые словосочетания, для которых есть отдельные словарные статьи. Оставшиеся непереведенными фрагменты можно попытаться отыскать в примерах с помощью функции полнотекстового поиска, устанавливая нужные опции (и/или, с учетом порядка или без учета и т.д.)

При переводе с русского языка на английский выделение сочетаний и грамматических конструкций не представляет труда, и если данных сочетаний нет в словаре, можно сразу же обратиться к функции полнотекстового поиска. Результаты поиска позволяют оценить, как переводится интересующее вас выражение в реальных примерах.

Основные особенности Lingvo:

  • перевод 1,2 млн. слов и словосочетаний;
  • 18 общих и специализированных словарей (2 медицинских и 2 юридических словаря в Lingvo 7.0 - новые);
  • современная лексика;
  • вызов словаря из любого Windows-приложения;
  • совершенная система поиска;
  • 5 тыс. английских слов озвучено диктором из Оксфорда;
  • возможность создания собственных пользовательских словарей;
  • 23 бесплатных пользовательских словаря на http://www.lingvo.ru/ ;
  • подробные толкования и объяснения употребления слов;
  • современные лингвистические технологии;
  • новые дополненные версии общих и специализированных словарей.

Системные требования

Минимальная конфигурация компьютера:

  • IBM PC-совместимый компьютер с процессором Pentium 133 или выше;
  • операционная система Windows 95/98/Mе, Windows 2000/Windows NT 4.0 (SP3 или выше);
  • 16 Mбайт оперативной памяти для Windows 95/98/Mе, 32 Mбайт оперативной памяти для Windows 2000/Windows NT 4.0;
  • от 85 до 265 Мбайт свободного пространства на жестком диске;
  • дисковод 3.5” и CD-ROM-устройство, мышь;
  • Microsoft Internet Explorer 5.0 и выше (дистрибутив ABBYY Lingvo 7.0 включает в себя Microsoft Internet Explorer 5.5 - при его установке потребуется дополнительно от 27 до 80 Мбайт);
  • звуковая плата, совместимая с операционной системой; наушники или колонки (рекомендуется).

Контекст 4.0

«Контекст 4.0» - это система электронных словарей, включающая в себя развитую программную оболочку и обширный набор словарей - как общей лексики, так и специализированных. Уникальное свойство «Контекста» - учет морфологии поддерживаемых языков. Благодаря этому «Контекст» переводит слова и словосочетания в любой грамматической форме. Наиболее полно в «Контексте» представлены англо-русские и русско-английские словари. Библиотека «Контекста» новой версии расширена англо-французским, англо-немецким, англо-испанским, англо-итальянским, англо-португальским, англо-сербским и англо-хорватским словарями.

Словари «Контекста» являются двусторонними. Программа осуществляет перевод с одного языка на другой и обратно без какой-либо специальной настройки. Поиск перевода может быть осуществлен как по всем словарям, входящим в комплект, так и по конкретному словарю. При этом набор активных (участвующих в поиске) словарей, а также порядок поиска по ним можно легко изменять.

Работать с «Контекстом» можно набирая в специальное поле ввода интересующее пользователя слово или словосочетание (рис. 12).

Удобно работать с «Контекстом» и из приложений Windows. Перевод осуществляется методом drag-and-drop или через буфер обмена. В настройках можно указать горячую клавишу или включить опцию запуска перевода при помещении текста в буфер обмена.

Для пользователей, работающих в редакторе MS Word, реализована возможность вызова «Контекста» из самого редактора. Для этого следует нажать на иконку «Контекста», находящуюся на панели инструментов MS Word, причем пользователю не нужно выделять слово или словосочетание в тексте. «Контекст» переведет слово, на котором стоит курсор и заодно проверит несколько слов справа и слева, не входят ли они в состав словосочетания.

«Контекст» комплектуется словарями по заказу пользователя. Если пользователь купил оболочку и некоторые словари, он может докупить любые другие понадобившиеся ему словари.

4-я версия «Контекста» обладает рядом интересных возможностей, которых не было в предыдущих версиях. Например, словарь осуществляет поиск в частичных словосочетаниях. При этом все словосочетания, коэффициент релевантности которых по отношению к строке поиска больше заданного порогового значения, выдаются в окно перевода (рис. 13 , ).

Появилась новая функция быстрого набора (Fast Typing). При вводе слова пользователь получает подсказки близких слов из текущего словаря с учетом уже введенных символов (рис. 15). Далее пользователь может выбрать из списка или продолжить набор самостоятельно.

Для совместной работы словарей на разных языках наряду с автоматическим определением добавлена функция выбора языка (рис. 16).

В новой версии появилась возможность добавления и редактирования словарных статей, что делает работу системы словарей более гибкой. В предыдущей версии «Контекста» была реализована возможность работы со словарем пользователя. Новая версия программы «Контекст» позволяет заводить несколько словарей и редактировать их. Словари пользователя и стандартные словари, и словари пользователя являются равноправными в системе словарей «Контекста». Формат статьи словаря пользователя приближен к формату стандартного словаря, то есть к обычному книжному формату. В статью могут входить как слова и выражения, так и примеры использования слов в составе устойчивых выражений и толкования (

МультиЛекс 3.5

«МультиЛекс 3.5» - это электронный словарь, в состав которого входят электронные версии известных печатных словарей. В оболочке «МультиЛекс 3.5 Английский» выпускаются самые разные англо-русские и русско-английские словари (Новый англо-русский словарь В.К. Мюллера, англо-русский/русско-английский словарь О.С.Ахмановой, русско-английский словарь под ред. А.И.Смирницкого). Планируется выпуск технической, медико-биологической, экономико-юридической и других коллекций.

«МультиЛекс 3.5 Английский» позволяет пользователю постепенно подобрать для себя оптимальный набор словарей, которые и будут работать вместе.

Особенности словаря «МультиЛекс»:

  • удобство и простота в использовании;
  • озвучивание большого количества словарных статей;
  • быстрый доступ к важным статьям: при помощи закладок можно отметить важные для вас словарные статьи, а затем обращаться к ним напрямую;
  • функция «быстрого набора» - при наборе слова возникает список похожих слов, из которых пользователь может выбрать слово для перевода, не набирая его целиком;
  • перевод слова или фразы и перенос результатов перевода в Windows-приложение через буфер обмена или drag-and-drop;
  • ввод примечаний: при коллективной работе важно соблюдать единство терминологии. Здесь придет на помощь механизм примечаний - к любой словарной статье вы можете написать свои примечания;
  • словарь пользователя.

Окно «МультиЛекс» содержит рамку окна, строку меню, под которой расположены панель словарей, панель инструментов и строка поиска. Под строкой поиска находится собственно рабочая область окна «МультиЛекса» .

Рабочая область по вертикали разделена на две части: панель заголовков статей (левая) и панель текста словарной статьи (правая). Границу между панелями можно передвигать вправо-влево.

Левая панель содержит список заголовков статей того словаря, который показывается в панели словарей при помощи пиктограммы в виде открытой книги (используется для просмотра заголовков словарных статей). Правая панель всегда показывает словарную статью, соответствующую заголовку, выделенному в правой панели. Словарная статья начинается с заголовка, за которым следует его транскрипция. Далее указывается часть речи, даются возможные переводы, пояснения, примеры.

Панель словарей позволяет выбрать нужный словарь. Каждому словарю соответствует своя пиктограмма, принимающая три различных состояния: закрытая книга, полуоткрытая книга или открытая книга. Форма значков показывает, какой из словарей сейчас открыт и в каких словарях в результате последнего поиска было что-либо найдено.

Если значок словаря изображает открытую книгу (блокнот) - данный словарь сейчас открыт, полуоткрытую книгу (блокнот) - данный словарь сейчас не открыт, но в нем содержится информация, соответствующая вашему запросу, а если пиктограмма изображает закрытую книгу (блокнот) - данный словарь закрыт и нужной вам информации в нем нет.

В июле 2001 года вышла новая версия словаря «МультиЛекс 3.5 Английский Популярный» (англо-русский, русско-английский словарь общей лексики под редакцией О.С. Ахмановой и Е.А.М.Уилсон). Он содержит более 40 тыс. словарных статей.

Версия 3.5 обладает рядом достоинств, которые вы не найдете в предыдущей версии:

  • возможность доустановки словарей. Купив любой английский словарь (версии не ниже 3.5), вы сможете легко встроить его в ваш «МультиЛекс». Планируется выпуск технической, медико-биологической, экономико-юридической и других коллекций;
  • всплывающий перевод. В «МультиЛекс 3.5» предусмотрена поддержка перевода по горячим клавишам из любого приложения, поддерживающего Clipboard. Для этого просто выделите слово, нажмите соответствующую функциональную клавишу (по умолчанию F10) - и на экране появится окно с переводом. Перевод в окне является гиперссылкой. Если необходима более полная информация по интересующему вас слову, нажатием на левую кнопку мыши вызовите «МультиЛекс» с уже готовыми вариантами перевода запрашиваемого слова. Окно всплывающего перевода можно установить поверх всех окон, выбрав соответствующий пункт в контекстном меню, которое становится доступным при нажатии на правую кнопку мыши по иконке «МультиЛекс» (в правом нижнем углу экрана). Подобную же функцию выполняет кнопка в левой части окна «всплывающего перевода». С помощью этой кнопки вы можете «прикрепить» полученный перевод в любом месте своего экрана;
  • звуковая плата, совместимая с операционной системой, наушники или колонки (рекомендуется).

Резюме

В заключение несколько слов о личном опыте использования систем машинного перевода и словарями.

Три года назад я использовал систему машинного перевода для подготовки отчета западному работодателю. Несколько человек, которые занимались офшорным программированием, писали программу навигационного приемника. К сожалению, мало кто из группы владел английским настолько, чтобы описать результаты своей работы на языке заказчика. В связи с этим возникла необходимость перевода отчетов, составленных на русском языке. Именно тогда мне в голову пришла идея опробовать систему машинного перевода Stylus (первые версии систем компании ПРОМТ назывались именно так). Эта попытка оказалась очень удачной: я перевел 140-страничный документ раза в три быстрее, чем планировал. Конечно, перевод, выполненный программой, был не идеален. Мне пришлось много и долго его редактировать. Но выигрыш налицо.

С того времени при переводе текстов объемом более 10 страниц я всегда пользуюсь системами машинного перевода.

Эту историю я рассказал своему другу-предпринимателю. Тогда он начинал торговать обувью и налаживал связи с немецкими поставщиками. Он также купил подобную систему и до сих пор успешно переписывается с немцами по электронной почте (ни английского, ни немецкого он не знает). Написав письмо по-русски, он переводит его на немецкий и отсылает, а полученный ответ переводит на русский. И все довольны. В итоге мой друг на днях открывает уже пятый обувной магазин в Москве.

С электронными словарями я ознакомился еще раньше, когда у меня возникла необходимость читать зарубежные книги и журналы по техническим дисциплинам со специфической лексикой. Технические электронные словари, словари по телекоммуникациям и информатике позволили мне сохранить много времени и сил. Спасибо Lingvo!

Надеемся, что мой рассказ о новых системах машинного перевода и словарях поможет вам эффективно организовать свою работу и в конечном итоге добиться успеха.

Редакция благодарит за помощь в подготовке статьи: Александра Андреева, компания ПРОМТ; Андрея Соколова, компания «Информатика»; Анастасию Савину, компания ABBYY; Константина Конина и Наталью Талпы, компания «МедиаЛингва»; Алексея Буханова, компания «Арсеналъ».

КомпьютерПресс 9"2001

    Перевести предложения на русский язык:

    Операционная система обычно хранится во внешней памяти компьютера .

    Словари необходимы для перевода текстов с одного языка на другой.

    Информация должна быть достоверной, актуальной и полезной.

    The teacher’s computer is placed on the table in the corner of the classroom.

    Instrumental system programs facilitate process of creation of new programs for a computer.

    Universal arrangement of processing of the information is the computer.

1.Перевести предложения на английский язык:

    Операционная система обычно хранится во внешней памяти компьютера .

    Словари необходимы для перевода текстов с одного языка на другой.

    Информация должна быть достоверной, актуальной и полезной.

2.Перевести предложения на русский язык:

    The teacher’s computer is placed on the table in the corner of the classroom.

    Instrumental system programs facilitate process of creation of new programs for a computer.

    Universal arrangement of processing of the information is the computer.

1.Перевести предложения на английский язык:

    Операционная система обычно хранится во внешней памяти компьютера .

    Словари необходимы для перевода текстов с одного языка на другой.

    Информация должна быть достоверной, актуальной и полезной.

2.Перевести предложения на русский язык:

    The teacher’s computer is placed on the table in the corner of the classroom.

    Instrumental system programs facilitate process of creation of new programs for a computer.

    Universal arrangement of processing of the information is the computer.

1.Перевести предложения на английский язык:

    Операционная система обычно хранится во внешней памяти компьютера .

    Словари необходимы для перевода текстов с одного языка на другой.

    Информация должна быть достоверной, актуальной и полезной.

2.Перевести предложения на русский язык:

    The teacher’s computer is placed on the table in the corner of the classroom.

    Instrumental system programs facilitate process of creation of new programs for a computer.

    Universal arrangement of processing of the information is the computer.

1.Перевести предложения на английский язык:

    Операционная система обычно хранится во внешней памяти компьютера .

    Словари необходимы для перевода текстов с одного языка на другой.

    Информация должна быть достоверной, актуальной и полезной.

2.Перевести предложения на русский язык:

    The teacher’s computer is placed on the table in the corner of the classroom.

    Instrumental system programs facilitate process of creation of new programs for a computer.

    Universal arrangement of processing of the information is the computer.

1.Перевести предложения на английский язык:

    Словари необходимы для перевода текстов с одного языка на другой.

2.Перевести предложения на русский язык:

    The teacher’s computer is placed on the table in the corner of the classroom.

1.Перевести предложения на английский язык:

    Универсальным устройством обработки информации является компьютер.

    Словари необходимы для перевода текстов с одного языка на другой.

    Инструментальные системные программы облегчают процесс создания новых программ для компьютера.

2.Перевести предложения на русский язык:

    The information should be authentic, actual and useful.

    The teacher’s computer is placed on the table in the corner of the classroom.

1.Перевести предложения на английский язык:

    Универсальным устройством обработки информации является компьютер.

    Словари необходимы для перевода текстов с одного языка на другой.

    Инструментальные системные программы облегчают процесс создания новых программ для компьютера.

2.Перевести предложения на русский язык:

    1)The operation system is usually stored in external memory of a computer.

    The information should be authentic, actual and useful.

    The teacher’s computer is placed on the table in the corner of the classroom.

1.Перевести предложения на английский язык:

    Универсальным устройством обработки информации является компьютер.

    Словари необходимы для перевода текстов с одного языка на другой.

    Инструментальные системные программы облегчают процесс создания новых программ для компьютера.

2.Перевести предложения на русский язык:

    1)The operation system is usually stored in external memory of a computer.

    The information should be authentic, actual and useful.

    The teacher’s computer is placed on the table in the corner of the classroom.

1.Перевести предложения на английский язык:

    Универсальным устройством обработки информации является компьютер.

    Словари необходимы для перевода текстов с одного языка на другой.

    Инструментальные системные программы облегчают процесс создания новых программ для компьютера.

2.Перевести предложения на русский язык:

    The operation system is usually stored in external memory of a computer.

    The information should be authentic, actual and useful.

    The teacher’s computer is placed on the table in the corner of the classroom.

1.Перевести предложения на английский язык:

    Универсальным устройством обработки информации является компьютер.

    Словари необходимы для перевода текстов с одного языка на другой.

    Инструментальные системные программы облегчают процесс создания новых программ для компьютера.

2.Перевести предложения на русский язык:

    The operation system is usually stored in external memory of a computer.

    The information should be authentic, actual and useful.

    The teacher’s computer is placed on the table in the corner of the classroom.

В настоящее время различают три вида систем машинного перевода:

Системы на основе грамматических правил (Rule-Based Machine Translation, RBMT);

Статистические системы (Statistical Machine Translation, SMT);

Гибридные системы;

Системы на основе грамматических правил производят анализ текста, который используется в процессе перевода. Перевод производится на основе встроенных словарей для данной языковой пары, а так же грамматик, охватывающих семантические, морфологические, синтаксические закономерности обоих языков. На основе всех этих данных исходный текст последовательно, предложение за предложением, преобразуется в текст на требуемом языке. Основной принцип работы таких систем - связь структур исходного и конечного текстов.

Системы на основе грамматических правил часто разделяют еще на три подгруппы - системы пословного перевода, трансфертные системы и интерлингвистические системы.

Преимуществами систем на основе грамматических правил являются грамматическая и синтаксическая точность, стабильность результата, возможность настройки на специфическую предметную область. К недостаткам систем на основе грамматических правил относят необходимость создания, поддержки и обновления лингвистических баз данных, трудоемкость создания такой системы, а так же ее высокая стоимость.

Статистические системы при своей работе используют статистический анализ. В систему загружается двуязычный корпус текстов (содержащий большое количество текста на исходном языке и его «ручной» перевод на требуемый язык), после чего система анализирует статистику межъязыковых соответствий, синтаксических конструкций и т. д. Система является самообучаемой - при выборе варианта перевода она опирается на полученную ранее статистику. Чем больший словарь внутри языковой пары и чем точнее он составлен, тем лучше результат статистического машинного перевода. С каждым новым переведенным текстом улучшается качество последующих переводов.

Статистические системы отличаются быстротой настройки и легкостью добавления новых направлений перевода. Среди недостатков наиболее значительными являются наличие многочисленных грамматических ошибок и нестабильность перевода.

Гибридные системы сочетают в себе подходы, описанные ранее. Ожидается, что гибридные системы машинного перевода позволят объединить все преимущества, которыми обладают статистические системы и системы, основанные на правилах.

1.3 Классификация систем машинного перевода

Системы машинного перевода - программы, осуществляющие полностью автоматизированный перевод. Главным критерием программы является качество перевода. Кроме этого, для пользователя важными моментами является удобство интерфейса, лёгкость интеграции программы с другими средствами обработки документов, выбор тематики, утилита пополнения словаря. С появлением Internet основные поставщики систем машинного перевода включили в свои продукты Web-интерфейсы, обеспечив при этом их интеграцию с остальным программным обеспечением и электронной почтой, что позволило применять механизмы МП для перевода Web-страниц, электронной корреспонденции и онлайновых разговорных сеансов.

Новые члены форума по иностранным языкам компании CompuServe зачастую задают вопрос о том, не мог ли бы кто-нибудь посоветовать им хорошую программу машинного перевода за умеренную цену.

Ответом на этот вопрос неизменно является "нет". В зависимости от отвечающего, ответ может содержать два основных аргумента: либо о том, что машинам перевод не под силу, либо, что машинный перевод стоит слишком дорого.

Оба эти аргумента в определенной степени справедливы. Однако ответ далеко не так прост. Изучая проблему машинного перевода (МП), следует рассмотреть отдельно различные подразделы этой проблемы. Следующее разделение основано на лекциях Лари Чайлдса, проведенных в рамках Международной Конференции по Техническим Коммуникациям 1990 года:

Полностью автоматический перевод;

Автоматизированный машинный перевод при участии человека;

Перевод, осуществляемый человеком с использованием компьютера.

Полностью автоматизированный машинный перевод. Этот вид машинного перевода и подразумевается большинством людей, когда они говорят о машинном переводе. Смысл здесь прост: в компьютер вводится текст на одном языке, этот текст обрабатывается и компьютер выводит этот же текст на другом языке. К сожалению, реализация такого вида автоматического перевода сталкивается с определенными препятствиями, которые еще предстоит преодолеть.

Основной проблемой является сложность языка как такового. Возьмем, к примеру, значения слова "can". Помимо основного значения модального вспомогательного глагола, у слова "can" имеется несколько официальных и жаргонных значений в качестве существительного: "банка", "отхожее место", "тюрьма". Кроме этого, существует архаичное значение этого слова - "знать или понимать". Если предположить, что у выходного языка для каждого из этих значений имеется отдельное слово, каким образом может компьютер их различить?

Как оказалось, определенные успехи были достигнуты в сфере разработки программ перевода, различающих смысл основываясь на контексте. Более поздние исследования при анализе текстов опираются больше на теории вероятности. Тем не менее, полностью автоматизированный машинный перевод текстов с обширной тематикой все еще является невыполнимой задачей.

Автоматизированный машинный перевод при участии человека. Этот вид машинного перевода теперь вполне осуществим. Говоря о машинном переводе при участии человека, обычно подразумевают редактирование текстов как до, так и после их обработки компьютером. Люди-переводчики изменяют тексты так, чтобы они были понятны машинам. После того, как компьютер сделал перевод, люди опять-таки редактируют грубый машинный перевод, делая текст на выходном языке правильным. Помимо такого порядка работы, существуют системы МП, во время перевода требующие постоянного присутствия человека-переводчика, помогающего компьютеру делать перевод особенно сложных или неоднозначных конструкций.

Машинный перевод с помощью человека применим в большей степени к текстам с ограниченным вокабуляром узко-ограниченной тематики.

Экономичность использования машинного перевода с помощью человека - вопрос все еще спорный. Сами программы обычно достаточно дорогостоящи, а для работы некоторых из них требуется специальное оборудование. Предварительному и последующему редактированию необходимо обучаться, да и работа эта не из приятных. Создание и поддержание в рабочем состоянии баз данных слов - процесс трудоемкий и зачастую требует специальных навыков. Однако для организации, переводящей большие объемы текстов в четко-определенной тематической сфере, машинный перевод с помощью человека может оказаться достаточно экономичной альтернативой традиционному человеческому переводу.

Перевод, осуществляемый человеком с использованием компьютера. При этом подходе человек-переводчик ставится в центр процесса перевода, в то время как программа компьютера расценивается в качестве инструмента, делающего процесс перевода более эффективным, а перевод - точным. Это обычные электронные словари, которые обеспечивают перевод требуемого слова, возлагая на человека ответственность за выбор нужного варианта и смысл переведенного текста. Такие словари значительно облегчают процесс перевода, но требуют от пользователя определенного знания языка и затрат времени на его осуществление. И все же сам процесс перевода значительно ускоряется и облегчается.

Среди систем, помогающих переводчику в работе, важнейшее место занимают так называемые системы Translation Memory (TM).Системы ТМ представляют собой интерактивный инструмент для накопления в базе данных пар эквивалентных сегментов текста на языке оригинала и перевода с возможностью их последующего поиска и редактирования. Эти программные продукты не имеют целью применение высокоинтеллектуальных информационных технологий, а наоборот, основаны на использовании творческого потенциала переводчика. Переводчик в процессе работы сам формирует базу данных (или же получает ее от других переводчиков или от заказчика), и чем больше единиц она содержит, тем больше отдача от ее использования.

Вот список наиболее известных систем ТМ:

Transit швейцарской фирмы Star,

Trados (США),

Translation Manager от IBM,

Eurolang Optimizer французской фирмы LANT,

DejaVu от ATRIL (США),

WordFisher (Венгрия).

Системы ТМ позволяют исключить повторный перевод идентичных фрагментов текста. Перевод сегмента осуществляется переводчиком только один раз, а затем каждый следующий сегмент проверяется на совпадение (полное или нечеткое) с базой данных, и, если найден идентичный или похожий сегмент, то он предлагается в качестве варианта перевода.

В настоящее время ведутся разработки по усовершенствованию систем ТМ. Например, ядро системы Transit фирмы Star реализовано на основе технологии нейронных сетей.

Несмотря на широкий ассортимент систем TM, они имеют несколько общих функций:

Функция сопоставления (Alignment). Одно из преимуществ систем ТМ – это возможность использования уже переведенных материалов по данной тематике. База данных ТМ может быть получена путем посегментного сопоставления файлов оригинала и перевода.

Наличие фильтров импорта – экспорта. Это свойство обеспечивает совместимость систем ТМ с множеством текстовых процессоров и издательских систем и дает переводчику относительную независимость от заказчика.

Механизм поиска нечетких или полных совпадений. Именно этот механизм и представляет собой основное достоинство систем ТМ. Если при переводе текста система встречает сегмент, идентичный или близкий к переведенному ранее, то уже переведенный сегмент предлагается переводчику как вариант перевода текущего сегмента, который может быть подкорректирован. Степень нечеткого совпадения задается пользователем.

Поддержка тематических словарей. Эта функция помогает переводчику придерживаться глоссария. Как правило, если в переводимом сегменте встречается слово или словосочетание из тематического словаря, то оно выделяется цветом и предлагается его перевод, который можно вставить в переводимый текст автоматически.

Средства поиска фрагментов текста. Этот инструмент очень удобен при редактировании перевода. Если в процессе работы был найден более удачный вариант перевода какого-либо фрагмента текста, то этот фрагмент может быть найден во всех сегментах ТМ, после чего в сегменты ТМ последовательно вносятся необходимые изменения.

Конечно, как и любой программный продукт, системы ТМ имеют свои достоинства и недостатки, и свою область применения. Однако в отношении систем TM,основным недостатком является их дороговизна.

Особенно удобно использовать системы ТМ при переводе таких документов, как руководства пользователя, инструкции по эксплуатации, конструкторская и деловая документация, каталоги продукции и другой однотипной документации с большим количеством совпадений.

Тема: «Компьютерные переводчики. Системы распознавания текста».

Цели урока:

    помочь учащимся получить представление об компьютерных словарях и системах машинного перевода текста, познакомиться с возможностями данных программ, научить использовать эти программы. помочь учащимся получить представление об OCR – программах распознавания текста, познакомиться с возможностями данных программы, научить распознавать отсканированный текст, передавать и редактировать его в Word. воспитание информационной культуры учащихся, внимательности, аккуратности, дисциплинированности, усидчивости. развитие познавательных интересов, навыков работы на компьютере, самоконтроля, умения конспектировать.

Оборудование:
доска, компьютер, компьютерная презентация.

План урока:

1) Организационный момент. (1 мин)

2) Актуализация знаний. (5 мин)

3) Теоретическая часть. (10 мин)

4) Практическая часть. (15 мин)

5) Домашнее задание (2 мин)

6) Вопросы учеников. (5 мин)

7) Итог урока. (2 мин)

Ход урока:

I. Организационный момент.

Приветствие, проверка присутствующих. Объяснение хода урока.

II. Актуализация знаний.

Как видим, для того, чтобы получить электронную, готовую к редактированию копию любого печатного текста, программе OCR необходимо выполнить «цепочку» из множества отдельных операций.

Сначала необходимо распознать структуру размещения текста на странице: выделить колонки, таблицы, изображения и так далее. Далее выделенные текстовые фрагменты графического изображения страницы необходимо преобразовать в текст.

Если исходный документ имеет типографское качество (достаточно крупный шрифт, отсутствие плохо напечатанных символов или исправлений), то задача распознавания решается методом сравнения с растровым шаблоном. Сначала растровое изображение страницы разделяется на изображения отдельных символов. Затем каждый из них последовательно накладывается на шаблоны символов, имеющихся в памяти системы, и выбирается шаблон с наименьшим количеством отличных от входного изображения точек.

При распознавании документов с низким качеством печати (машинописный текст, факс и так далее) используется метод распознавания символов по наличию в них определенных структурных элементов (отрезков, колец, дуг и др.).

Любой символ можно описать через набор значений параметров, определяющих взаимное расположение его элементов. Например, буква «Н» и буква «И» состоят из трех отрезков, два из которых расположены параллельно друг другу, а третий соединяет эти отрезки. Различие между данными буквами - в величине углов, которые образует третий отрезок с двумя другими.

При распознавании структурным методом в искаженном символьном изображении выделяются характерные детали и сравниваются со структурными шаблонами символов. В результате выбирается тот символ, для которого совокупность всех структурных элементов и их расположение больше всего соответствует распознаваемому символу.

Наиболее распространенные системы оптического распознавания символов, например, ABBYY FineReader и CuneiForm от Cognitive, используют как растровый, так и структурный методы распознавания. Кроме того, эти системы являются «самообучающимися» (для каждого конкретного документа они создают соответствующий набор шаблонов символов) и поэтому скорость и качество распознавания многостраничного документа постепенно возрастают.

Программы для распознавания текста вы можете приобрети отдельно или получить бесплатно вместе с купленным вами сканером.

Возможно, самая известная программа для распознавания текстов – это FineReader от компании ABBYY. Именно эту программу чаще всего вспоминают, когда речь заходит о системах распознавания.

FineReader позволяет распознавать тексты, набранные практически любыми шрифтами, без предварительного обучения. Особенностью программы FineReader является высокая точность распознавания и малая чувствительность к дефектам печати, что достигается благодаря применению технологии "целостного целенаправленного адаптивного распознавания".

FineReader имеет массы дополнительных функций, которые простому пользователю, возможно, и без надобности, но зато производят впечатление на определенные группы покупателей. Так, одним из козырей FineReader является поддержка неимоверного количества языков распознавания - 176, в числе которых вы найдете экзотические и древние языки, и даже популярные языки программирования.

Но далеко не все возможности включены в самую простую модификацию программы, которую вы можете получить бесплатно вместе со сканером. Пакетное сканирование, грамотная обработка таблиц и изображений - для всего этого стоит приобрести профессиональную версию программы.

Все версии FineReader, от самой простой до самой мощной, объединяет удобный интерфейс. Для запуска процесса распознавания вам достаточно просто положить документ в сканер и нажать единственную кнопку (мастер Scan & Read) на панели инструментов программы. Все дальнейшие операции - сканирование, разбивку изображения на «блоки» и, наконец, собственно распознавание программа выполнит автоматически. Пользователю останется только установить нужные параметры сканирования.

Качество распознавания во многом зависит от того, насколько хорошее изображение получено при сканировании. Качество изображения регулируется установкой основных параметров сканирования: типа изображения, разрешения и яркости.

Сканирование в сером является оптимальным режимом для системы распознавания. В случае сканирования в сером режиме осуществляется автоматический подбор яркости. Если Вы хотите, чтобы содержащиеся в документе цветные элементы (картинки, цвет букв и фона) были переданы в электронный документ с сохранением цвета, необходимо выбрать цветной тип изображения. В других случаях используйте серый тип изображения.

Оптимальным разрешением для обычных текстов является - 300 dpi и 400-600 dpi для текстов, набранных мелким шрифтом (9 и менее пунктов).

После завершения распознавания страницы FineReader предложит пользователю выбор: сканировать и распознавать дальше (для многостраничного документа) или сохранить полученный текст в одном из множества популярных форматов - от документов Microsoft Office до HTML или PDF. Можно, впрочем, сразу же перебросить документ в Word или Excel, и уже там исправить все огрехи распознавания (без ни обойтись просто невозможно). При этом FineReader полностью сохраняет все особенности форматирования документа и его графическое оформление.

    Зачем нужны программы распознавания текста? Как происходит распознавание текста? Какие программы распознания текста вы знаете? Какими пользовались? Какое разрешение является оптимальным для сканирования текста, изображений?

III. Практическая часть.
1. Работа с переводчиком текста (по катрочкам)
2. Теперь потренируемся работать с программой ABBYY FineReader. Будем использовать упрощенную версию программы, поставляемую со сканером.

IV. Домашнее задание
Знать, что такое программы автоматического перевода текста, уметь работать с этими программами. Дополнительное задание: соединиться с Интернетом и используя какой-либо on-line переводчик перевести текст.
Знать, что такое программы распознавания текста, уметь работать с этими программами. Дополнительное задание: установить дома программу OCR и подготовить реферат по какому-либо предмету. Текст распознать в OCR, редактирование и форматирование провести в Word.

V. Вопросы учеников.
Ответы на вопросы учащихся.

VI. Итог урока.
Подведение итога урока. Выставление оценок.

На уроке мы познакомились с программами компьютерного перевода текстов, научились переводить слова и текст с помощью программы-переводчика.

На уроке мы познакомились с программами OCR, научились распознавать отсканированное изображение с помощью программы ABBYY FineReader 5.0.