Если ваш ответ "ДА," в этой статье я объясню вам самым простым языком, как работает компьютерное зрение на основе этих принципов. Приготовьте колу и чипсы, и мы начнем.

Как человек воспринимает изображение?

Я задам вам очень простой вопрос: какая цифра изображена на этой картинке?

Если вы видите на рисунке цифру 4 (если нет, обратитесь к окулисту), то у меня к вам еще вопрос: откуда вы знаете, что это именно цифра 4?

Дело в том, что еще в школьные годы вы узнали, что это число 4, и в вашем воображении связали его значение с его образом (формой).

Компьютерное зрение работает точно так же: его обучают тому, что это изображение - 4, и в следующий раз, когда оно увидит такое изображение, оно с определенной вероятностью скажет, что это цифра 4.

Из чего состоит компьютерное зрение?

Вернемся к человеческому зрению: мы видим какое-то изображение, и это изображение становится для нас ВХОДНОЙ информацией. В итоге мы делаем вывод об изображении, и этот вывод является для нас ВЫХОДНОЙ информацией. Процессы, происходящие в мозге с момента, когда глаз воспринимает изображение, до момента его распознавания, являются СКРЫТЫМИ СЛОЯМИ.

Рассмотрим вместе, как эти слои работают в компьютерном зрении. Возьмем изображение размером 28х28 пикселей.
Если вам сложно понять, что такое пиксель, вспомните свою тетрадь по математике и представьте, что каждая клетка в ней - это один пиксель. Тогда изображение размером 28х28 пикселей будет состоять из 28 клеток в длину и в ширину.

Каждый пиксель - это один НЕЙРОН, под нейроном мы можем понимать ячейку, содержащую какое-то значение. Теперь, когда вы смотрите на вышеприведенные ячейки, некоторые из них закрашены, а некоторые нет. Мы присваиваем им значения от 0 (черный) до 1 (белый).

Теперь давайте посчитаем, сколько нейронов в нашем изображении размером 28х28 пикселей. Для этого умножим их: 28*28=784, значит, в нашем изображении 784 ячейки (нейрона).

Теперь представьте, что если мы расположим рядом каждую строку этих ячеек, то у нас получится ряд из длинных клеток.
Теперь просто представьте эту строку из ячеек (нейронов) в горизонтальном виде:

И наконец, мы с вами разобрались в том, что такое входная информация.

Как компьютерное зрение анализирует изображение?

Мы поняли, что входная информация - это изображение, а что такое выходная информация? Выходная информация - это результат анализа изображения. Например:

Как вы видите на рисунке, когда на входном изображении цифра 4, в результате тоже получается цифра 4. Следовательно, выходная информация - это непосредственно получаемый нами результат.

Внимание, вопрос: что находится в скрытом слое?
Дело в том, что когда мы смотрим на изображения, мы воспринимаем их по частям (компонентам).

Например, 9 - это круглая верхняя часть и палочка внизу
8 - это круглая верхняя и круглая нижняя части

4 состоит из 3 частей

Таким образом, один из слоев содержит в себе компоненты такого вида.
Следовательно, при идентификации какого-либо изображения результат, содержащий такие компоненты входных данных, отображается нам как желаемый результат.
 

Мы уже разобрались с 3-м слоем, но что представляет собой 2-й слой?

В 3-м слое мы рассматривали части (компоненты) как целое, но мы можем даже разбить компоненты на субкомпоненты, например, округлую форму:

Таким образом, круглый компонент также может состоять из мелких субкомпонентов:
Или возьмем часть в виде палочки:

Именно в таких субкомпонентах может формироваться второй слой.

Следовательно, анализ одной цифры с помощью компьютерного зрения является поэтапным процессом:
В следующих статьях мы обсудим, как создавать подобные модули своими руками. Спасибо за внимание, с вами был Айтичи Жалилов Шамшод, который не оставил врачебную практику.