Бiзнес
8 Червня 2020
2 721

Як китайський AI-гігант iFlytek зробив стеження через голосових помічників легким

Компанія, що починала з автоматизації колл-центру Huawei, тепер більшу частину прибутку отримує від урядових контрактів

Китайський розробник iFlytek з капіталізацією $10 млрд, що починав з автоматизації колл-центру Huawei, тепер обслуговує 700 млн клієнтів і більш ніж половину прибутку отримує від урядових контрактів, пише Wired.

Початок

Джуліан Чен народився в 1937 році в Китаї. У школі хлопчик глибоко зацікавився мовами. Вдома з сім’єю він розмовляв на шанхайському діалекті, але вивчав “мандаринський” китайський, англійський, російський, слідом зайнявся французьким, німецьким та японським.

У 1949 р. до влади прийшов Мао Цзедун, вивчати іноземні мови стало небезпечно. В кінці 1950 р. інтелектуальну еліту Китаю піддавали гонінням, засилали в трудові табори та навіть призначали смертну кару. Чена, який в той час був студентом, відправили працювати на Пекінський скляний завод.

Після смерті Мао керівники партії зрозуміли, що без освічених людей неможливо розвивати економіку, і Чену дозволили продовжити навчання. У віці 42 років, він отримав ступінь магістра та став одним із небагатьох, кому дозволили виїхати за кордон.

Чен відправився до США та отримав PhD з фізики в Колумбійському університеті. Після він влаштувався на роботу в IBM у відділ наукових досліджень. Компанія розробила одну з перших програм для розпізнавання мови, щоб фахівці могли диктувати текст, а не друкувати його.

У 1994 р. її вирішили адаптувати під китайську мову, Чен запропонував свої послуги. Ще працюючи на заводі, він склав брошуру по етнографії пекінського прислівника.

Чен відразу ж усвідомив, наскільки значимою програма буде для його рідної мови в епоху цифрового спілкування. Вмістити 50 тис. символів на клавіатуру неможливо, і в 1980 р. програмісти викручувалися за допомогою стандарту піньїнь — романізованого китайського.

Щоб побудувати систему мовного введення, Чен розбив “мандаринський” китайський на фонеми. Потім він попросив 54 китайців, що живуть у Нью-Йорку, прочитати кілька статей з газети “People’s Daily” і записав їх мову.

Дослідницька лабораторія в Пекіні надала запис ще 300 осіб. У 1996 р. Чен прилетів до Китаю, щоб презентувати програму ViaVoice на конференції з мовної технології. Програму прийняли з захопленням.

Незабаром виробники ПК, навіть конкуренти IBM, попередньо встановлювали ViaVoice на пристрої. У програми були свої мінуси, але серед офісних співробітників вона придбала неймовірну популярність: вводити текст на китайському стало набагато простіше.

Багатьох місцевих вчених засмутило, що перший крок у впровадженні китайського в персональні комп’ютери зробив дослідник, який працює на американську компанію. Їм здавалося: необхідно створити щось рівне по ефективності в рідній країні.

Поява iFlytek

Одним із таких дослідників був Лю Ціньфень, 26-річний аспірант лабораторії розпізнавання мови в Університеті науки й техніки міста Хефей. У 1999 р. він заснував компанію голосових технологій iFlytek.

На фото: Лю Ціньфень

Коли Лю поділився своїми ідеями з Лі Кайфу, тоді директором азійського відділу досліджень Microsoft. Він вважав, що Китаю нізащо не наздогнати американські технології розпізнавання мови. Тим більше коли їй займаються такі гіганти, як IBM і Microsoft. Але амбітний Лю Не послухав Кайфу.

iFlytek починала як компанія, що займалася автоматизацією колл-центру Huawei. Робота оператора замінювалося на меню, кероване голосом (“Щоб оплатити, скажіть “сплатити”).

Компанія вийшла на біржу у 2008 р., у 2010-му представила iFlytek Input, свій перший продукт для широкого кола користувачів. Додаток перетворював мову в текст будь-якої програми смартфона: електронною поштою, браузера, навіть в WeChat.

Як і будь-яка технологія на основі машинного навчання, iFlytek Input спочатку працювала далеко не ідеально. Але чим більше даних надходило, тим краще справлялася система.

Незабаром з’явилися версії Input, які вміли не тільки переводити розмови на 23 діалекти китайського і чотири іноземних мови, а й робити розшифровки телефонних розмов. Ця функція в поєднанні з кількістю жителів дала компанії можливість збирати величезну кількість даних.

Угода про конфіденційність iFlytek Input дозволяє збирати й використовувати особисту інформацію для “забезпечення національної безпеки” без згоди користувача.

У 2017 р. китайський уряд включив компанію в національну групу по розробці штучного інтелекту (ШІ). Також iFlytek домовилася про співпрацю з лабораторією комп’ютерних наук і ШІ Массачусетського технологічного університету.

Компанія також уклала ексклюзивну угоду на автоматичний переклад для зимових Олімпійських ігор в Пекіні у 2022 р. Станом на середину квітня iFlytek оцінюється в $10,8 млрд на Шеньчженьській фондовій біржі. Компанія заявляє, що займає 70% китайського ринку голосового зв’язку і має 700 млн кінцевих користувачів.

Крім цього, iFlytek випускає планшети та цифрові рекордери, автоматично створюють миттєві стенограми. Голосовий помічник компанії встановлений в автомобілях по всій країні.

Всупереч обсягу споживчих продуктів iFlytek, близько 60% прибутку компанія отримує від проектів, які в піврічному звіті за 2019 р. описуються як “урядові”. До них відносяться “інтелектуальна система допомоги кримінальних розслідувань”, а також обробка великих даних для уряду Шанхая.

Такі проекти надають доступ до даних. “Серед даних можуть бути записи судових процесів, колл-центрів, яка завгодно інформація, що належать до забезпечення безпеки”, — зазначає науковий співробітник Інституту майбутнього людства Оксфордського університету і експерт в області регулювання штучного інтелекту в Китаї Джеффрі Дінг.

Кампус iFlytek знаходиться на околиці Хефея, в цьому місті на сході країни розташовується Науково-технічний університет Китаю. Майже половина з 11 тис. співробітників працюють на території, що охороняється площею понад 125 тис. кв. м. Біля входу в офіс — фотографія Сі Цзіньпіна. На стінах, сувенірних товарах і дверях туалетів красується гасло “Покращувати світ за допомогою штучного інтелекту”.

“Вся продукція iFlytek повинна робити життя зручніше і веселіше, і естетика фірми відповідає девізу”, — розповіли виданню у компанії.

Наприклад, дитячий робот-компаньйон Alpha Egg розмовляє мультяшним голосом, віртуальний помічник водія Flying Fish в рекламі виглядає як мила акула в підводній масці. Робот, якого компанія продає лікарням для допомоги з запитами пацієнтів, нагадує щось середнє між C-3PO і Євою, роботом з мультфільму “ВАЛЛ-І”.

Комуністична партія Китаю давно намагається контролювати мову громадян країни, нагадує видання: як-то раз вона навіть заборонила омофон й іншу гру слів у мережі. Тоді незадоволені перейшли на запис відео з телефонів.

Втім, в iFlytek є патент на систему, який може обробляти великі обсяги відео та аудіо і знаходити копії або репости. У патенті зазначено, що така функція “важлива для інформаційної безпеки та моніторингу громадської думки”.

У 2012 р. міністерство громадської безпеки закупило в iFlytek голосові пристрої. У провінції Аньхой з їх допомогою складають базу даних “голосових відбитків” — каталог мовних особливостей кожного жителя, який дозволить владі ідентифікувати по голосу.

За даними організації, технологія iFlytek допомагає контролювати населення регіону Синьцзян, там живуть переважно мусульмани-уйгури. Місцевих жителів змушують встановлювати додатки, які стежать за переміщенням, надавати біометричні дані на контрольно-пропускних пунктах і проходити “культурні інспекції”.

Найсуворіше контролюють місто Кашгар. У 2016 р. поліція міста уклала контракт з “дочкою” iFlytek на покупку 25 спектрограммних терміналів. Згідно з угодою, технологія використовується для збору зразків мови, що включаються в біометричне досьє поряд з фотографіями, відбитками пальців і зразками ДНК.

Більше новин та актуальних матеріалів Investory News у нашому каналі в Telegram

Контекст

Ми у соцмережах

Слідкуйте за нами у Facebook або ж читайте усе найцікавіше у нашому каналі в Telegram