Язык роботов

Материал из Викитропов
Перейти к навигации Перейти к поиску

(link)

Заяц-волк! — не первопример и не кодификатор, но один из знаковых для нас.

В визуальных медиа существуют три языка роботов, андроидов и прочих искусственных интеллектов, призванные подчеркнуть, что они не совсем люди.

1. Плохой синтезатор речи. Причём плохой по всем параметрам.

  • По синтезу фонем — голос получается железным. Имитируется просто: проводится Фурье-анализ голоса, и околонулевые коэффициенты зануляют. В аналоговых системах — жёстко искажают любым доступным методом (эквалайзером, гитарной примочкой), стараясь не обогатить, а обеднить тембр.
  • По соединению фонем в предложения — речь робота монотонная, лишённая эмоций. Меж-ду … сло-ва-ми … ко-рот-ка-я … па-у-за.
  • По генерации фраз — речь полна шаблонных компьютерных фраз вроде «запрос не может быть обработан». Если в языке много сокращений, приемлемых даже в «воспитанной» речи (английский that is → that’s) — слова проговариваются полностью. Роботы могут не иметь «личности» и говорят о себе или в третьем лице («Устройство готово к работе»), или в безличной форме («Запускается резервная цепь»).
    • В английском языке любят affirmative/negative — это аналог наших «так точно/никак нет», но если от наших пахнет замшелостью, то от их — канцелярщиной и они просятся в уста динамики робота.
  • По алгоритмам работы — робот запомнил имя с ошибкой и не хочет переходить на другое, или буквально выполняет иносказательную фразу. Часто роботы объясняют, что они собираются делать дальше, даже если ситуация не располагает. Например, когда киборг-убийца говорит: «УБИТЬ ВСЕХ ЧЕЛОВЕКОВ»,— что ему это сделает, как не помешает?

Откуда взялось? Прежде чем появились хорошие синтезаторы, были и плохие, верно? Железный голос связан с аналоговыми цепями и нехваткой памяти — то и другое позволяет синтезировать волну из небольшого количества цифр-параметров, тут особо не разгуляешься. Научились хранить цифровую звукозапись без особых потерь — железо сразу же ушло. Шаблонные фразы взяты не столько из синтезаторов, сколько просто из плохих интерфейсов. Интерфейс — и хороший тоже — по быстро сложившейся договорённости тоже не имеет лица. Объяснение своих действий — это отладочные сообщения, чтобы конструктор мог нажать на красную кнопку раньше, чем робот натворит делов. К тому же в системах реального времени вроде игр и многозадачности, которые нельзя прогнать по шагам[1], отладка часто происходит звуком.

Как осовременить? Сделано до нашего рождения, гуглите «HAL 9000». Эта няшка современна и сейчас, так ведь? — а ведь новеллизацию переводила на русский покойная Нора Галь.

И что уж совсем нонсенс — роботы разговаривают как плохой синтезатор друг с другом или даже сами с собой. Для этого больше годится второй метод.

2. Модулированные бипы (свисты, трески, щелчки, синусоидальные ноты и прочие техногенные звуки), которые кто-то объясняет: персонаж, который эти бипы понимает, субтитры, небольшой комикс в пузыре реплики. Или не объясняет, но по звуку понятно, что «внутри» у робота.

Откуда взялось? Есть много методов связи роботов между собой, простейший — ИК-порт, который был в старых телефонах[2], посложнее — радиоканал вроде нашего Bluetooth. Но если именно звук, то есть колебания воздуха[3] — то цифровой код с какой-то модуляцией. Это должна быть жуткая какофония на манер телефонного модема[4], и по скорости тоже модем, но почему бы не пофантазировать?

Часто наладчику не важно, что точно творится в цифровом канале, но по форме осциллограммы примерно понимает, компьютер или тестируется, или подвис, или работает, или в простое — переведя эти импульсы в звук, можно ориентироваться и на слух, на этом основан несложный девайс звуковой пробник логических схем. Динамик модема служит именно для этого: то ли в линии шум, то ли звонок не идёт, то ли коннект не получается, то ли ответили голосом. Взяв «землю» с компьютерного корпуса рядом с видеоплатой, можно поймать на наушники помехи от неё[5] и по звуку понять, насколько она загружена и на какой частоте кадров работает.

Синусоида — самая естественная форма колебаний[6], в электронике использовалась для радио и измерений, слышится как скучный тон, например, в заставке «не забудьте выключить телевизор». В синтезаторах есть три способа сделать музыкальное звучание. Совсем сложный — предзаписанные сэмплы, о них не будем. Сложный — взять несколько скучных синусоидальных волн ⏦ и сложить, так поступают в синтезаторных чипах вроде OPL2. Простой — взять любую подходящую волну, даже квадратный меандр ⎍⎍, зашакалить по вкусу[7], используется в синтезаторах попроще, автоматах, старых приставках и компьютерах. Опыт показывает, что условный контрабас лучше имитировать не квадратной формой, а треугольной, и такой синтезатор есть, например, в Dendy. А ударную секцию — белым шумом[8].

Как осовременить? Просто ни у кого не драть и придумать своё звучание, штамп ещё не затёрт.

Распространённые роботские стили шрифтов
• пиксельный
• OCR-A
• MICR (для сравнения, поддерживал только числа)
• поддельный MICR
• сегментный
• поддельный сегментный
• матричный принтер

3. А в субтитрах — компьютерный шрифт: просто моноширинный, пиксельный, сегментный, OCR-A, MICR. В японских версиях — даже исконно японские слова передаются катáканой (カタカナ). На худой конец — ПРОСТО КАПС. Пузырь реплики 💬 прямоугольный.

Откуда взялось? Частично из реальных упрощений и ограничений, присущих компьютерам. Частично из типографики: моноширинный шрифт для компьютерного текста оказался настолько удобен, что им пишут даже то, что моноширинным отродясь не было — например, что вводить в окошко. Частично из кино — «компьютерные» шрифты оказались привлекательными для фильмов вроде «Электронных жучков».

Из устройств отображения на масскульт повлияли текстовый режим, плохая графика, сегментный индикатор, матрично-знакоместный индикатор, с натяжкой матричный принтер. Не повлияли — барабанное АЦПУ со скачущими буквами, буквопечатающая ЭЛТ, векторная ЭЛТ.

OCR (оптическое распознавание символов) и MICR (магнитное) нужно для тех документов, которые читают и человек, и машина, причём заведомо одинаково: билетный автомат должен пропустить пассажира, а контролёр — убедиться, что он не перепрыгнул через калитку. Ныне устарело везде, кроме взаимодействия с государством[9]: у контролёра есть валидатор, альфой и омегой стал цифровой код, а остальное — для удобства пассажиров. На Западе банк — куда более важное заведение, чем в СССР, и там MICR-чеки внедрили уже к началу 1960-х, и этот квадратный шрифт стал верхом футуристичности. MICR понимало десять цифр и четыре спецсимвола, но дизайнеры быстро нарисовали и похожие буквы (пример — коробка от приставки Magnavox Odyssey). Есть два стандартных шрифта для OCR, оба моноширинные, включают полный ASCII[10] и ещё несколько символов, и если OCR-B используется и поныне (например, в машиночитаемом паспорте), то OCR-A сейчас выглядит компьютерно и архаично. А тогда — видимо, компьютерно и футуристично.

Чтобы нарисовать все буквы латиницы, нужно минимум 14 сегментов (и то выглядит ужос-ужос)[11], так что дизайнеры часто стилизуют, не заботясь о сегментном устройстве. В японском языке иероглифы и два алфавита по 46 символов. Иероглифы можно без вопросов заменить хирáганой ひらがな, алфавиты не взаимозаменяемы (катакана на заимствованные слова и хирагана на исконные), но если на 92 позиции места нет, берут катакану, как более читаемую на низких разрешениях. Да и в телеграфе был только один регистр. Вписывать текст в прямоугольники технически проще, чем в круги.

Как осовременить? Если он тупой ботяра — пусть остаётся! Иначе, в зависимости от характера робота, использовать менее заезженные шрифты — ГОСТовский чертёжный, другие рубленые штрихом одной толщины, ломаный MICR-подобный, старомодный книжный. А чтобы показать, что робот совсем передовой — обычный как у людей, каллиграфический, книжный…

Сходный штамп: Глазами робота.

Не путать: Голосовой помощник.

Примеры

Литература

  • «Космоолухи» — речь боевых киборгов (если не поставить «программу имитации личности») безэмоциональна и состоит из шаблонных фраз. Это сделано намеренно: так солдатам легче помнить, что «это всего лишь машина», которую не следует слишком очеловечивать (в частности, спасать, рискуя собой).
  • «Тик-Ток из страны Оз» Ф. Баума, 1914 — заглавный механический человек с говорящим именем. Он заводной, с тремя пружинами: для действий, для речи и для мышления; при этом речь у него также «механическая», отрывистая.
  • «Я, робот» А. Азимова — у старых моделей голос «металлический», невыразительный, лишённый эмоций. Что, впрочем, сделано нарочно, чтобы подчеркнуть отличие от человека. И вполне можно создать «андроида», внешне и по голосу от человека неотличимого.

Музыка

(link)

Я твой слуга, я твой работник.
  • Dee D. Jackson, «Automatic Lover» — голос как раз этого «автоматического любовника», подчёркнуто механичный и безэмоциональный: «I am your automatic lover. Automatic lover»
  • Kraftwerk — The Robots. Тянет на музыкальный кодификатор. В клипе музыканты вовсю изображают из себя роботов, старательно делая морды кирпичом. А на живых выступлениях и вовсе вместо музыкантов выставляют… ВНЕЗАПНО роботов!

Кино

  • «Звёздные войны» — робот R2-D2 общается при помощи звуков, напоминающих бибиканье, гудение, свист и прочее. BB-8 говорит бипами.
  • Дилогия «Москва — Кассиопея» и «Отроки во Вселенной» — вторая планета звезды Шедар (Альфа Кассиопеи) похожа на Землю. Её цивилизация создала человекоподобных роботов, у которых сабжевый голос.
  • «Остров ржавого генерала» — сравните голос современного биоробота (А. Леньков в роли электронной Бабы-Яги) с голосом древних боевых роботов, глухим и гулким.
  • «Тайна железной двери» — железный робот Балбес, разговаривает и поёт в такой же характерной «ведроидной» манере.
  • «Терминатор» — знаменитое «I’ll be back» (37-я позиция в ТОП-100 цитат американских фильмов за XX век), произнесённое роботом-терминатором с характерной «металлической» интонацией — перед тем, как он действительно вернулся и разнёс вдребезги и напополам весь полицейский участок.
  • «Терминатор-2» — помимо штампа «глазами робота» (красный экран с машинным кодом и отладочными сообщениями), видно, как Шварценеггер учится у Джона и отходит от языка роботов.

Телесериалы

  • «Гостья из будущего» — робот Вертер же. Речь-безэмоциональная-медленная-отрывистая-как-будто-псевдосинтезированная-из-звукозаписей-отдельных-слов. А уж как он смеется…

Мультфильмы

  • «Тайна третьей планеты» — робот-официант в космопорту, робот на планете Шелезяка разговаривают, как описано в заголовке. Ровный, лишённый эмоций голос.

Мультсериалы

  • «Ну, погоди!», выпуск 14 («Дом юного техника»). Робо-Заяц только и умеет делать, что говорить «Заяц-Волк» — причём когда Волк обозвал себя зайцем, он ехидно поправляет «Во-олк». И не менее ехидное «Не-а» — типа больше не попадётся на тот же трюк.
  • «Смешарики» — Биби, созданный Пином робот, общается пиликающими электронными звуками.
  • «Южный Парк» — Картман в роли робота ШИКАРН-О всеми силами пытается в такой голос, говоря отрывистым и безэмоциональным голосом. И поскольку это мир сериала с глубоко сатирическим отображением Америки, окружающие безоговорочно ведутся.

Видеоигры

(link)

Star Control 2. We come in, come in peace! WE COME IN PEACE!
  • Fallout 3, New Vegas и 4 — если роботы типа «Протектрон» разговаривают, то «типично-роботским» голосом. Таким же, но очень низким и гулким — роботы-охранники. А вот у остальных роботов голосовые синтезаторы поинтереснее, например, «Мистер Помощник» говорит голосом стереотипного английского дворецкого, «Мистер Храбрец» — не менее стереотипного американского сержанта-инструктора.
  • Fallout: New Vegas — робот ЭД-Э общается попискиванием, но по субтитрам понятно, что он хочет выразить и какие эмоции изображает. А у доктора 8 (мозг в летающей оболочке) из Old World Blues синтезатор речи вообще разбит, он общается вообще никак не распознаваемым кодом РобКо (на слух просто шум), и только по ответным репликам удаётся узнать, что именно он говорит.
  • Planet of Lana — интересным решением было сообщать о состоянии роботов… музыкальными звуками! Только инструмент — это простенький синтезатор.
  • Portal — поскольку игра ретрофутуристичная, то и ГЛэДОС говорит робо-голосом. За ГЛэДОС говорит настоящая оперная певица, и её голос даже прошедший через фильтры очень музыкальный. В русификации 1-й части сохранено плохо, во 2-й сделали нормально.
  • Starbound — на тормозах. Раса глитчей полностью разумна, и разговаривает нормальными фразами, но вероятно они неспособны менять тембр голоса. Поэтому перед каждой произнесённой фразой, глитчи называют нужную эмоцию. например: «*Восхищённо* Эта статуя выглядит впечатляюще». Притом сами они этого не осознают и если пытаться так говорить с ними, то примут за идиота.
  • Star Control 2 — зонды Слайлэндро «говорят» MICR-подобным шрифтом, спрашивая шаблонные фразы. А когда программа сбивается — выдают отладочное сообщение «Раздробить цель на составляющие материалы».
    • Функциональность чисто HD-портов, но вошла как влитая: когда автопереводчик не может перевести слова рыбок-орзов, выводит их *СЕГМЕНТНЫМ* текстом.
  • StarCraft — адъютант людей говорит нормальной человеческой интонацией, но железным голосом.
  • Syberia — железным монотонным языком говорит автомат-машинист Оскар. К тому же он запомнил имя Кейт Уолкер и не хочет переходить на Кейт.
  • Undertale — робот Меттатон говорит капсом, а его «голос» изображают механические шумы, в которых игроки постарше узнают звук флоппи-дисковода.
  • Warhammer 40,000: Mechanicus — действующие лица здесь команда техножрецов, которые (см ниже) общаются меж собой на двоичном коде. Озвучено это как уникальное для каждого персонажа бормотание. Отдельно стоит выделить техноаквизатора Сцеволу, чья речь стилизована под компьютерные алгоритмы («[Анализ выгоды] Мир для сектора. Знание для человечества. +++ потенциал +++ возможность». «Если сбор данных = истина, СЛЕДОВАТЕЛЬНО победа [Поиск афоризма] Битва с неизвестным противником есть битва во тьме».) а голос похож на механические треск и жужжание. Прочие техножрецы (даже сервочереп) строят фразы по человечески, да и голоса у некоторых из них ближе к человеческим.

Настольные игры

  • Warhammer 40,000 — язык техножрецов Адептус Механикус, не роботов (ИИ для них — жесточайшая ересь), а киборгов, поклоняющихся машинам. Между собой они общаются на лигнва технис — языке, основанном на бинарном коде, который со стороны звучит как типичная машинная трескотня, на нём же они отдают команды сервиторам и машинам. Если у техножреца больше нет человеческих голосовых связок, то с посторонними они говорят с помощью синтезатора речи, и их голоса будут если не железными, то монотонными, лишёнными эмоциональной окраски и многозначительных оборотов. Такую манеру говорить они воспитывают в себе осознанно — лишняя эмоциональность служителю Бога-Машины ни к чему.

Сетевое творчество

  • Emmy the Robot (веб-комикс) — Эмми, Франни и другие робоняни говорят обычными «человеческими» буквами, они ведь самые передовые роботы. А outmodes (в одном из переводов «устаряшки») — более простыми шрифтами.

Реальная жизнь

  • Мы и сами иногда превращаемся в роботов, когда разговариваем по цифровой сети, и из-за перегрузки кодек выкидывает особенно много данных.
  • Игрушки Furby общаются смесью обрывков фраз, подслушанных у людей, и собственных модулированных бипов, специально спроектированных быть благозвучными.
  • Военные часто общаются как роботы: «Так точно! Никак нет! Отставить! Есть отставить!» Просто так понятнее в боевой обстановке. В канонаде «да/нет» просто не слышно.
  • Есть два подхода к пилотам пассажирских самолётов: СССР предпочитал слётанные экипажи, не сильно регламентируя их речь, США — «кирпичики», говорящие по стандартным протоколам и совместимые с любым другим пилотом.
  • Всевозможные автоинформаторы, особенно составляющие фразы на лету из наговоренных обрывков. «Три … часа … пятнадцать … минут».
  • С речью-то у современных компьютерных синтезаторов хорошо, но вот с пониманием текста… То ударение не там, то прочтение цифр неверное, то с интонацией ошибки, а то и произношению звуков русского языка их учил непонятно кто: например, одна из версий синтезатора речи от Яндекса букву «ц» почти всегда читает как «цэ», и произносит такие слова, как «немецэ» или «ленцэа». Хотя если сравнить с тем, что было лет пятнадцать назад…
    • У ранних ИИ-голосов (например, 15.ai) была характерная легкая хрипотца.
  • У интерфейсников своё понимание термина «язык роботов» — то неприятное чувство, когда автоматика, отвечающая за текст, 1) не способна строить фразу по человеческим правилам (писем: 3 → 3 письма). 2) не учитывает информацию, которую система знает (был(а) вчера → был вчера или была вчера); 3) слишком технозависима: показывает состояние системы, а не дальнейшие шаги для человека (заказ отправленмы вам перезвоним).
    • Ещё один смешной пример интерфейсного «языка роботов» нашёл Илья Бирман. В Викиданных для каждой страны указано, какой там стандарт телевидения: NTSC, PAL или SÉCAM. Пингвины телевизора ещё не смотрят — а поскольку автоматика Википедии просто накладывает цвета на карту мира, для Антарктиды выводит «Нет информации». Человек просто не рисовал бы Антарктиду.
    • Waze знает русские названия улиц, но почему-то гонит в синтезатор национальные — и вот уже синтезатор говорит «азíровкой».
  • На хакатоне (конференции-соревновании IT-специалистов) ElevenLabs 2025 разработчики представили протокол Gibberlink, основанный на технологии «data-over-audio» (передача данных по звуковому каналу, включая недоступные человеческому уху частоты). В результате два ИИ (выступающий от имени отеля и выступающий от имени клиента-человека), опознав друг друга, дальше пиликали, не расходуя ресурсы на распознавание человеческого (пусть и сымитированного) голоса.

Примечания

  1. Игры настолько сложны, что нужно сначала дойти того места, где глючит, а потом — ещё и как-то перейти в отладчик (игра или отладчик может не выдержать смены видеорежима). Смысл многозадачности именно в том, что две программы работают параллельно и как-то между собой взаимодействуют, так что при пошаговом проходе ошибка просто не проявится.
  2. Офтопик. Именно по ИК синхронизируется большинство студийных фотовспышек: просто, всё совместимо со всем, никак не мешаешь соседней комнате.
  3. Запись игр на магнитофонных кассетах некоторых компьютеров (C64) была значительно более простым методом — прямоугольной волной, при этом биты кодировались длинами верхнего и нижнего состояния. Правда, такая волна — не колебания воздуха, то есть не пройдёт через усилитель или динамик, и не каждый магнитофон мог скопировать такую кассету. В Spectrum — частотная модуляция, пиши хоть на грампластинку! — кстати, так тоже пиратили.
  4. Модем = модулятор-демодулятор
  5. В высокочастотных схемах заземление устроено достаточно сложно, гуглите «мекка заземления». Так что, ошибившись в разводке проводов в самодельном переключателе «колонки/наушники», можно и поймать.
  6. Дифуравнение ÿ=−k2y, сила пропорциональна смещению, имеет решением синусоиду y=A·sin(kt+B). Цифра |A| называется амплитудой колебаний, B — фазой.
  7. Типичный недорогой многоголосый синтезатор начала 80-х устроен так: 12 генераторов делают какие попало, часто прямоугольные, звуки на частотах высшей октавы, октавные делители по количеству клавиш превращают их в ноты меньших октав, после этого нужные ноты смешиваются в микшере и «примочками» на манер гитарных преобразуются в слушабельный звук. Лучше, но сложнее: кварцево-стабилизированный генератор очень высокой частоты и 12 цифровых делителей на 12 нот октавы, дальше как обычно. Типичный игрушечный: один генератор или на все клавиши, или на три соседних (самая удачная цифра, не теряются аккорды, начиная с терции), делители не нужны, каждая клавиша выстраивается отдельно потенциометром, улучшайзер опущен (Многоголосье домашнего ЭМИ // Юный техник, 90-04, с.74-78). Микропроцессор позволил более интересную конструкцию: магазин из двух (или более) схем, процессор принимает команды клавиатуры и заведует загрузкой этих схем — так работает любой компьютер вроде Spectrum 128 или Amiga с аппаратным звуком. И наконец, избыточная для простого смертного, но доступная для музыканта звуковая плата Gravis UltraSound (1992), уже для IBM, использовала уже кусочки записанных инструментов, и теперь все синтезаторы, кроме особо ретро-звучащих, программные.
  8. ТТХ нескольких известных компьютеров тех времён. Dendy: 2 квадратных канала, треугольный, шумовой и цифровой 7 бит × до 4000 сэмплов, записанных дельта-кодированием (+1 или −1). ZX Spectrum 128: три треугольных, один шумовой. Amiga: четыре независимых цифровых канала произвольной частоты, с аппаратными эффектами. Super Nintendo: 8 каналов, игравших волну 4 бита×16 сэмплов (интерполированную, чтобы не шумела), и один 16-битный цифровой канал. Sega MegaDrive: 6 каналов аддитивного синтеза (из синусоид), в 6-й можно пустить 8-битный цифровой звук.
  9. Государство, во-первых, всепроникающее и должно работать даже в гребенях, в отличие от автотранспортного предприятия конкретного города. Во-вторых, оно должно выполнять свои функции даже в экстремальных условиях, когда каждый теробороновец получает право проверить документы, а интернета нет — в отличие от тех же автобусов, что переходят на временный режим и возят с живыми кондукторами, на честном слове или вообще бесплатно.
  10. Стандартная 7-битная американская кодировка, состоящая из 33-х спецсимволов и 95-и печатных, в том числе простейшие знаки препинания, деловые символы вроде @, введённые компьютерщиками вроде \. Стала основой для большинства однобайтовых кодировок и Юникода.
  11. Чтобы красиво и сегментно отобразить режимы автокоробки PRNDS и отличить S от пятёрки, Volkswagen’у потребовались 12 сегментов: 7 обычных, два косых для N, два в левых углах для D (включаются синхронно, считаем за один), верхний правый (B) и нижний левый (E) разрезаны для S.
Внешние ссылки
TV Tropes Robo Speak