Массивов данных не существует

Технологии

Мои клиенты постоянно мне лгут. Но лгут они не о том, сколько могут себе позволить. И не о том, как много (или мало) услуг им потребуется. И не о том, насколько быстро они смогут оплатить наши услуги.

Они лгут о том, как много у них данных.

Сначала я думал, что этот странный случай — разовый. Заказчик заявил нам, что ему нужно обрабатывать несколько миллиардов звонков каждый месяц, такой «массивный поток данных». Такой масштабный анализ стоит огромных денег. После того, как я ему это сообщил, выяснилась истинное положение дел: они рассчитывали дойти до миллиона звонков в ближайшие несколько месяцев. Даже если они достигнут столь оптимистичной цели, это все равно лишь одна сотая от заявленных первоначально данных.

И это не просто один клиент. Я предположил, что компании на самом деле работают с одной тысячной заявленных данных, и не прогадал.

«Массив данных» на самом деле не массив

Компании так же приукрашивают размер своих массивов данных, как рыбаки приукрашивают размер своего улова. Они утверждают, что имеют доступ к терабайтам информации. И преимущества кажутся очевидными: чем больше ты знаешь, тем лучше.

Основываясь на маркетинговых материалах, кажется, что такое количество данных делает компании почти ясновидящими. Они утверждают, что обладают внутренней информацией обо всем, начиная от того, как выполняют свою работу сотрудники, заканчивая предпочтениями клиентов. Больше данных значит больше понимания того, как люди принимают решения, что они покупают и почему — ведь так?

Но маркетинговые материалы, как и рыбаки, склонны преувеличивать. Большинство компаний обладает только частью той информации, о наличии которой заявляет. И обычно только малая доля этой части полезна для формирования нетривиального представления о ситуации.

Большая часть «массивов данных» на самом деле бесполезна

Почему компании лгут о размере базы данных? Да потому что они хотят чувствовать себя большими. Они слышали об огромных базах данных Amazon, Facebook и Google. И несмотря на то, что иногда им просто недоступны некоторые данные — или не хватает денег на их покупку, — они хотят думать (и чтобы остальные считали также), что они в тренде. Как отметила аналитик Кэти О’Нил в недавнем сообщении в блоге, многие считают, что «когда вы берете обычную IT-компанию и заваливаете ее данными, то получается новый Google».

Но даже большие корпорации используют очень маленькую часть всех собранных ими данных. Twitter обрабатывает порядка 8 терабайтов данных в день. Это звучит устрашающе для маленькой компании, которая пытается извлечь потребительские взгляды и предпочтения из твитов. Но какую часть всех этих данных составляет именно содержательная часть твитов? Пользователи Twitter пишут 500 млн твитов в день и средний твит состоит из 60 знаков. Путем простых арифметических вычислений получаем лишь 30 гигабайт текста в день — примерно 0,5% от 8 терабайтов.

Подобные закономерности встречаются постоянно. Википедия является одним из крупнейших хранилищ текста в Интернете, но все текстовые данные уместятся на одну единственную флешку. Вся музыка мира поместится на жестком диске за $600. Я могу продолжить, но смысл и так ясен: массивы данных не такие уж и массивные, а нужные данные — еще меньше.

Выжимаем максимум из маленького количества данных

Но если большинство массивов данных так бесполезны, зачем о них вообще говорить? Потому что они бесполезны не для всех. Модели, работающие по алгоритму глубокого обучения (набор алгоритмов машинного обучения, которые пытаются моделировать высокоуровневые абстракции в данных, используя архитектуры, состоящие из множества нелинейных трансформаций — прим. Newочём), способны отделить сигнал от информационного шума, обнаруживая закономерности, на нахождение которых у профессионалов уходят месяцы работы. Но эти модели работают только с огромными массивами маркированных данных. А маркировка большой базы данных стоит сотни тысяч долларов и нескольких месяцев времени. Это работа для таких гигантов, как Facebook или Google. Слишком много маленьких компаний не понимают этого и приобретают базы данных, которые они не могут позволить себе использовать.

У этих компаний есть вариант лучше. Они могут получить намного большую отдачу от данных, которые у них уже есть.

Правда, большинству алгоритмов глубокого обучения необходимы огромные базы данных. Но их можно запрограммировать на обработку маленьких баз данных, которой занимаются люди. Используя передаточное обучение, мы можем натренировать алгоритм на больших данных, прежде чем отправлять работать с маленькими. Это делает обучение в от 100 до 1000 раз более эффективным.

Вот всего несколько примеров того, как стартапы начали использовать transfer learning в бизнесе:

  • Платформа GraphLab Create от Dato может использоваться, чтобы идентифицировать и классифицировать огромное количество изображений за доли секунды. Пользователи могут применять существующие функции из предыдущих алгоритмов глубокого обучения — или запрограммировать свою собственную модель на базе данных, вроде ImageNet.
  • В интерфейсе Clarifai, распознающем изображения сервиса, изображения тегируются описательным текстом, что помогает быстро найти нужный фотоархив. Алгоритм глубокого обучения также работает для потокового видео, что позволяет рекламодателям вставлять рекламу, относящуюся к просмотренному пользователем контенту.
  • Платформа MetaMind’s AI может судить о том, положителен или отрицателен твит пользователя о бренде, а также определяет тему развернувшегося в твиттере обсуждения бренда. Для компании, которая изучает мнения своих потребителей, это гораздо полезнее, чем простой анализ данных о возрасте, поле и месте жительства многих тысяч клиентов.

Чтобы пользоваться этими сервисами, не нужно быть программистом. Blockspring позволяет выгружать данные из нескольких приложений в документ Excel, и для этого не надо написать ни одной строчки кода.

С учетом всех этих возможностей, больше нет смысла приобретать массив данных около терабайта. А в том, чтобы хвастаться этим, смысла и того меньше.

Очевидно, что у данных нет большого будущего. Оно очень даже маленькое.

Автор: Слэйтер Викторофф.
Оригинал: TechCrunch.

Перевели: Полина Пилюгина и Мария Гёрке.
Редактировал: Артём Слободчиков.

Оцените статью
Добавить комментарий
  1. Анатолий Лапкин
    Анатолий Лапкин

    Очень интересная статья и хорошо, что ее перевели как “вторую” в голосовании. Достойный поступок.

  2. Иосиф Буковецкий
    Иосиф Буковецкий

    А почему речь только про текст твитов. Метаданные тоже очень важны, иногда они важнее.

  3. Алина Телик
    Алина Телик

    А меня немного смущают некоторые утверждения. Например, про музыку на одном жестком.

  4. Ярослав Мраков
    Ярослав Мраков

    > средний твит состоит из 60 знаков.
    In a sample of a million tweets sent from twitter.com on 3 January 2012, the mean length was 67.9 characters. The median was 60. (http://www.quora.com/What-is-the-average-length-of-a-tweet)
    Тут явно надо учитывать не медиану, а среднее значение — значит, 68 символов. Это на 13% больше так-то.

    Плюс без метаданных они для анализа бесполезны — нужна как минимум дата/время (+4 байта).

    > Википедия является одним из крупнейших хранилищ текста в Интернете, но все текстовые данные уместятся на одну единственную флешку.
    Если имеется в виду английская — да — 11.5 Гигабайт (https://dumps.wikimedia.org/enwiki/20150112/), но все википедии вместе — не думаю.

    Английская имеет объём в 14% от всех статей (https://en.wikipedia.org/wiki/List_of_Wikipedias) — это уже 82 гига.

    > Вся музыка мира поместится на жестком диске за $600.
    Если хранить музыку в мп3 192 кбит/s (возьмём как самый простой кодек) — это 24 кбайта на секунду записи или 1,4 МБайта на минуту.
    600 баксов — это около 18 терабайт (http://www.jcmit.com/diskprice.htm) или 18 000 000 мегабайт. ~214 тысяч часов музыки. При средней длине в три минуты на трек (https://plot.ly/~RhettAllain/131/average-song-length/) — 4 ляма треков.

    При том, что всего в мире выпущено 97 миллионов треков (http://www.marsbands.com/2011/10/97-million-and-counting/).

    1. Владимир Думский
      Владимир Думский

      Ярослав, а тут длина трека как раз средняя или медианная?) Мб десятисекундных больше (почти уверен, что нет, никак нет)

      1. Ярослав Мраков
        Ярослав Мраков

        Владимир, прости, братан, мне теккранч за факт-чекинг не платит, поэтому так глубоко гуглить я не буду.

  5. Ярослав Мраков
    Ярослав Мраков

    Дальше.
    > Заказчик заявил нам, что ему нужно обрабатывать несколько миллиардов звонков
    > они рассчитывали дойти до миллиона звонков в ближайшие несколько месяцев.
    > это все равно лишь одна сотая
    Одна тысячная.

    Вероятно, ошибка при переводе, в следующем предложении уже как надо.

    Да, кстати, вернёмся к твиттеру. Он хранит свой текст в юникоде (ох уж эти пендосы, кроме латинницы и не знают ничего) — это не 30, а 60 гигабайт.

  6. Ярослав Мраков
    Ярослав Мраков

    Аффтар соснул с проглотом, короче.

    1. Алина Телик
      Алина Телик

      А так хорошо пацан начал

      1. Ярослав Мраков
        Ярослав Мраков

        Алина, к успеху шел, не фартануло.

  7. Андрей Ожегов
    Андрей Ожегов

    Ярослав, вы лишь подтвердили то, что сказано в статье. Ваши “уточненные” данные имеют один порядок с данными статьи.

    1. Ярослав Мраков
      Ярослав Мраков

      Андрей, проблема в том, что автор мыслил не порядками, а точными значениями. Которые по факту сильно отличаются от указанных в тексте.

      1. Андрей Ожегов
        Андрей Ожегов

        Ярослав,
        “Википедия является одним из крупнейших хранилищ текста в Интернете, но все текстовые данные уместятся на одну единственную флешку. Вся музыка мира поместится на жестком диске за $600.”
        Где тут “точные значения”?

        1. Ярослав Мраков
          Ярослав Мраков

          Андрей, 600 долларов для вас недостаточно точно?

          С учетом того, что широкому потребителю (могу ошибаться) доступны максимум 64-гиговые флешки, и автор говорит об одной, то с размер вики тоже выходит довольно точно.

          1. Андрей Ожегов
            Андрей Ожегов

            Ярослав, нет, это чисто оценочная, приблизительная величина – причем весьма точная для такой беглой оценки, ошибки нет даже на порядок.

          2. Ярослав Мраков
            Ярослав Мраков

            Андрей, собственно, порядок как раз есть — 97 / 4 = ~25.

            Проблема только в том, что в так нелюбимой автором «бигдате» — один лишний байт — это уже проблема. А он тут ошибается в 2.6 – 23 раза, потому-то я и говорю, что он очень соснул.

  8. Андрей Ожегов
    Андрей Ожегов

    Вы ошибаетесь, оперируя данными, еоторых в статье, собственно, нет. Есть оценка, и она весьма точна.
    >широкому потребителю (могу ошибаться) доступны максимум 64-гиговые флешки
    И тут ошибаетесь. 64 и 128 – доступны везде и всюду, 256 – доступны, бОльшие – пока экзотика. “Точность” остальных ваших утверждений – такая же.
    >соснул
    У вас сексуальные проблемы? Вы явно зациклены на оральном сексе.