День 3: Haskell путеводитель по нейронным сетям

~~Now~~После ~~that~~того weкак ~~have~~мы ~~seen~~посмотрели, ~~how~~как ~~neural~~работает ~~networks~~сеть, ~~work,~~стало weясно, ~~realize~~что ~~that~~понимание ~~understanding~~градиента ofжизненно ~~the~~необходимо. ~~gradients~~Отсюда, ~~flow~~пересмотрим isнашу ~~essential~~стратегию ~~for~~на ~~survival.~~уровне ~~Therefore,~~ниже. weОднако, ~~will~~так ~~revise~~как ~~our~~нейронные ~~strategy~~сети onстановятся ~~the~~сложнее, ~~lowest~~вычисления ~~level.~~градиента ~~However,~~в asручном ~~neural~~режиме ~~networks~~становится ~~become~~еще ~~more~~тем ~~complicated,~~делом. ~~calculation~~Но ofвсё ~~gradients~~еще byесть ~~hand~~выход! ~~becomes~~Я aочень ~~murky~~рад, ~~business.~~что ~~Yet,~~сегодня ~~fear~~мы ~~not~~наконец ~~young~~познакомимся ~~padawan,~~автоматической ~~there~~дифференциацией, isестественным aинструментом ~~way~~в ~~out!~~изучении Iарсенала amглубокого ~~very~~обучнеия. ~~excited~~Эта ~~that~~статья ~~today~~написана weпод ~~will~~впечатлением ~~finally get acquainted with automatic differentiation, an essential tool in your deep learning arsenal. This post was largely inspired by~~от Hacker's guide to Neural Networks. ~~For~~Для ~~comparison,~~сравнения ~~see~~так ~~also~~же стоит посмотреть Python ~~version.~~версию.

~~Before~~

Почему jumpingслучайный ahead,локальный youпоиск mayне also want to check the previous posts:

Day 1: Learning Neural Networks The Hard Way

Day 2: What Do Hidden Layers Do? The source code from this guide is available on Github. The guide is written in literate Haskell, so it can be safely compiled.

Why Random Local Search Failsподходит

~~Following~~Следуя ~~Karpathy's~~инструкции ~~guide,~~от weКартпатого, ~~first~~для ~~consider~~начала aрассмотрим ~~simple~~простую ~~multiplication~~цепь ~~circuit. Well,~~умножений. Haskell isне ~~not~~Javascript, ~~JavaScript,~~поэтому soперепишем ~~the~~явным ~~definition is pretty straightforward:~~образом.

forwardMultiplyGate = (*)

Or we could have written

forwardMultiplyGate x y = x * y

toчтобы ~~make~~сделать ~~the~~функцию ~~function~~более ~~look more intuitively~~понятной f(x,y)=x⋅y. ~~Anyway,~~В любом случае,

forwardMultiplyGate (-2) 3

~~returns~~Возвращает -6. ~~Exciting.~~Отлично!

~~Now,~~Теперь ~~the~~вопрос: ~~question:~~есть isли itвозможность ~~possible to change the input~~изменить (x,y) ~~slightly~~чтобы inулучшить ~~order~~вывод? toОдин ~~increase~~из ~~the~~способов ~~output?~~это ~~One~~произвести ~~way~~локальный ~~would~~случайный ~~be to perform local random search.~~поиск.

_search tweakAmount (x, y, bestOut) = do
  x_try <- (x + ). (tweakAmount *) <$> randomDouble
  y_try <- (y + ). (tweakAmount *) <$> randomDouble
  let out = forwardMultiplyGate x_try y_try
  return $ if out > bestOut
               then (x_try, y_try, out)
               else (x, y, bestOut)

~~Not~~Не ~~surprisingly,~~удивительно, ~~the~~функция ~~function~~выше ~~above~~отражает ~~represents~~простую aитерацию ~~single~~цикла ~~iteration~~for. ofЧто aон ~~"for"-loop.~~делает: ~~What~~случайным itобразом ~~does,~~выбирает itточки ~~randomly~~вокруг ~~selects points around initial~~начальных (x,y) ~~and~~и ~~checks~~проверяет ifувеличился ~~the~~ли ~~output~~вывод. ~~has~~Если ~~increased.~~да, Ifтогда ~~yes,~~он ~~then~~обновляет itлучшие ~~updates~~известные ~~the~~входные ~~best~~и ~~known~~максимальные ~~inputs~~выходные ~~and~~данные. ~~the~~Чтобы ~~maximal~~пройтись ~~output.~~по Toзначениям, ~~iterate,~~мы weможем ~~can use~~использовать foldM :: (b -> a -> IO b) -> b -> [a] -> IO b. ~~This~~Эта ~~function~~фукнция isудобна ~~convenient~~так ~~since~~как weожидаем ~~anticipate~~взаимодействие ~~some interaction with the~~с "~~external~~реальным ~~world"~~миром" inв ~~the~~виде ~~form~~случайно ofсгенерированных ~~random numbers generation:~~чисел.

localSearch tweakAmount (x0, y0, out0) =
 foldM (searchStep tweakAmount) (x0, y0, out0) [1..100]

Код говорит нам, что мы наполняем код с какими-то начальными значениями x0, y0 и out0 и проходимся от 1 до 100. Ядро алгоритма - searchStep What the code essentially tells us is that we seed the algorithm with some initial values of x0, y0, and out0 and iterate from 1 till 100. The core of the algorithm is searchStep:

searchStep ta xyz _ = _search ta xyz

~~which~~что isесть aдовольно ~~convenience~~удобная ~~function~~функция, ~~that~~которая ~~glues~~склеивает ~~those~~2 ~~two~~части ~~pieces~~вместе. ~~together.~~Она Itпросто ~~simply~~игнорирует ~~ignores~~итерационные ~~the~~числа ~~iteration~~и ~~number~~вызывает ~~and~~_search. ~~calls~~Теперь, ~~_search.~~нам ~~Now,~~нужно weслучайное ~~would~~число ~~like~~в ~~to have a random number generator within the range of~~промежутке [-1; 1). ~~From~~Из ~~the~~документации, ~~documentation,~~мы weзнаем, ~~know that~~что randomIO ~~produces~~производит aчисла ~~number between~~между 0 ~~and~~и 1. ~~Therefore,~~Проскалируем weего ~~scale~~умножая ~~the value by multiplying by~~на 2 ~~and~~и ~~subtracting~~вычитая 1:1.

randomDouble :: IO Double
randomDouble = subtract 1. (*2) <$> randomIO

~~The~~Функция <$> ~~function~~это ~~is a synonym to~~синоним fmap. ~~What~~Она itприменяет ~~essentially~~чистую ~~does is attaching the pure function~~функцию subtractsubstract 1. (*2) ~~which~~тип ~~has type~~которой Double -> Double-Double, ~~to the~~ко "~~external~~внешнему" ~~world" action~~действию randomIO, ~~which~~тип ~~has type~~которой IO Double (yes, IO = input/output)1.

AХитрость ~~hack~~для ~~for~~числа aминус ~~numerical minus infinity:~~бесконечность:

inf_ = -1.0 / 0

~~Now,~~Теперь weзапускаем ~~run~~ localSearch 0.01 (-2, 3, inf_) ~~several~~несколько ~~times:~~раз:

(-1.7887454910045664,2.910160042416705,-5.205535653974539)
(-1.7912166830200635,2.89808308735154,-5.19109477484237)
(-1.8216809458018006,2.8372869694452523,-5.168631610010152)

InНа ~~fact,~~деле weмы ~~see~~видим ~~that~~как ~~the~~вывод ~~outputs~~изменился ~~have increased from~~с -6 ~~to about~~до -5.2. ~~But~~Но ~~the~~улучшение ~~improvement is only about 0.8/100 =~~только 0.008 ~~units~~едениц ~~per~~на ~~iteration.~~итерацию. ~~That~~Это isочень anне ~~extremely~~эффективный ~~inefficient~~метод. ~~method.~~Проблема ~~The~~со ~~problem~~случайным ~~with~~поиском ~~random~~в ~~search~~том, isчто ~~that~~каждый ~~each~~раз ~~time~~он itпытается ~~attempts~~изменить toвходные ~~change~~данные ~~the~~в ~~inputs~~случайных inнаправлениях. ~~random~~Если ~~directions.~~алгоритм Ifделает ~~the~~ошибку, ~~algorithm~~он ~~makes~~должен aсбросить ~~mistake,~~результат itи ~~has~~начать toс ~~discard~~последней ~~the~~лучшей ~~result~~позиции. ~~and~~Не ~~start~~правда ~~again~~ли ~~from~~лучше ~~the~~было ~~previously~~бы, ~~known~~если ~~best~~вместо ~~position.~~каждой ~~Wouldn't~~итерации itрезультат beулучшался ~~nice~~пусть ifдаже ~~instead~~по ~~each~~чуть ~~iteration~~чуть ~~would~~но ~~improve~~постоянно ~~the~~и ~~result~~не atприходилось ~~least by a little bit?~~откатываться?

AutomaticАвтоматическое Differentiationдифференцирование

~~Instead~~Вместо ofслучайного ~~random~~поиска ~~search~~в inслучайном ~~random~~направлении, ~~direction,~~мы weможем ~~can~~использовать ~~make~~точное ~~use~~направление ofи ~~the~~количество ~~precise~~для ~~direction~~изменения ~~and~~входных ~~amount~~данных toтаким ~~change~~образом, ~~the~~чтобы ~~input~~улучшался soвывод. ~~that~~И ~~the~~это ~~output~~то ~~would~~что ~~improve.~~градиент ~~And~~нам ~~that~~говорит. isВместо ~~exactly~~ручного ~~what~~вычисления ~~the~~градиента ~~gradient~~каждый ~~tells~~раз, ~~us.~~мы ~~Instead~~можем ofиспользовать ~~manually~~умный ~~computing~~алгоритм. ~~the~~Есть ~~gradient~~можноество ~~every~~подходов: ~~time,~~цифровой, weсимволический ~~can~~и ~~employ~~автоматическое ~~some~~дифференцирование. ~~clever~~В ~~algorithm.~~этой ~~There~~статье, ~~exist~~Доминик ~~multiple~~Стейнтц ~~approaches:~~объясняет ~~numerical,~~разницу ~~symbolic,~~между ~~and~~ними. ~~automatic~~Последений ~~differentiation.~~подход, Inавтоматическое ~~his~~дифференцирование, ~~article,~~именно ~~Dominic~~то ~~Steinitz~~что ~~explains~~нам ~~the~~нужно: ~~differences~~точные ~~between~~градиенты ~~them.~~с ~~The~~мнимальным ~~last~~количеством ~~approach,~~переработок. ~~automatic~~Кратко ~~differentiation~~поясним ~~is exactly what we need: accurate gradients with minimal overhead. Here, we will briefly explain the concept.~~идею.

~~The~~За ~~idea~~идеей ~~behind~~автоматического ~~automatic~~дифференцирования ~~differentiation~~стоит isясно ~~that~~определенный weградиент ~~explicitly~~только ~~define~~для ~~gradients~~простых ~~only~~базовых ~~for~~операторов. ~~elementary,~~Затем, ~~basic~~мы ~~operators.~~составляем ~~Then,~~цепь weправил ~~exploit~~комбинируя ~~the~~операторы ~~chain~~в ~~rule~~нейронную ~~combining~~сеть ~~those~~как ~~operators~~хотим. ~~into~~Такая ~~neural~~стратегия ~~networks~~будет orвлиять ~~whatever~~на weсам ~~like.~~градиент. ~~That~~Давайте ~~strategy~~посмотрим ~~will~~на ~~infer~~метод ~~the~~через ~~necessary gradients by itself. Let us illustrate the method with an example.~~пример.

~~Below~~Ниже weможно ~~define~~посмотреть ~~both~~оператор ~~multiplication~~умножения ~~operator~~и ~~and~~его ~~its~~градиент ~~gradient~~используя ~~using~~правило. ~~the chain rule, i.e.~~

(x, x') *. (y, y') = (x * y, x * y' + x' * y)

~~The~~Тоже ~~same~~самое ~~can~~можно beсделать ~~done~~со ~~with~~сложением, ~~addition,~~вычитанием, ~~subtraction,~~делением ~~division,~~и ~~and exponent:~~экспонентой:

(x, x') +. (y, y') = (x + y, x' + y')

x -. y = x +. (negate1 y)

negate1 (x, x') = (negate x, negate x')

(x, x') /. (y, y') = (x / y, (y * x' - x * y') / y^2)

exp1 (x, x') = (exp x, x' * exp x)

WeМы ~~also~~так ~~have~~же имеем constOp ~~for~~для ~~constants:~~констант:

constOp :: Double -> (Double,Double)
constOp x = (x, 0.0)

~~Finally,~~Наконец, weмы ~~can~~можем ~~define~~определить ~~our~~наш ~~favourite~~любимый ~~sigmoid~~сигмоид σ(x) ~~combining~~объединяя ~~the~~те ~~operators~~операторы, ~~above:~~что были выше:

sigmoid1 x = constOp 1 /. (constOp 1 +. exp1 (negate1 x))

~~Now,~~теперь ~~let~~давайте usпосчитаем ~~compute~~нейрон ~~a neuron~~ f(x,y)=σ(ax+by+c), ~~where~~где x ~~and~~и y ~~are~~это ~~inputs~~ввод ~~and~~а a,a, b,b ~~and~~и c ~~are parameters~~паарметры.

neuron1 [a, b, c, x, y] = sigmoid1 ((a *. x) +. (b *. y) +. c)

~~Now,~~Теперь weможно ~~can~~получить ~~obtain~~градиент ~~the~~для ~~gradient~~a ofв aточке ~~in the point where~~ (a=1, b=2, c=−3, x=−1, and y=3:3)

abcxy1 :: [(Double, Double)]
abcxy1 = [(1, 1), (2, 0), (-3, 0), (-1, 0), (3, 0)]

neuron1 abcxy1
(0.8807970779778823,-0.1049935854035065)

~~Here,~~Вотт ~~the~~первый ~~first~~пример ~~number~~результата isвывода ~~the~~нейронно ~~result~~йсети ofи ~~the~~второй ~~neuron's~~градиент ~~output and the second one is the gradient with respect to~~относительно a ~~Let~~Проверим usматематику ~~verify the math behind the result:~~результата: ~~The~~Первое ~~first~~выражение ~~expression~~это isрезультат ~~the~~вычислений ~~result~~нейронов, ofа ~~neuron's~~второй ~~computation~~точное ~~and~~аналитическое ~~the~~выражение ~~second~~Вот ~~one~~и isвся ~~the~~магия ~~exact~~за ~~analytic~~словами ~~expression~~автоматическая ~~for~~

дифференциация. ~~That~~Похожим isобразом, ~~all~~мы ~~the~~можем ~~magic~~получить ~~behind~~остаток ~~automatic differentiation! In a similar way, we can obtain the rest of the gradients:~~градиента:

neuron1 [(1, 0), (2, 1), (-3, 0), (-1, 0), (3, 0)]
(0.8807970779778823,0.3149807562105195)

neuron1 [(1, 0), (2, 0), (-3, 1), (-1, 0), (3, 0)]
(0.8807970779778823,0.1049935854035065)

neuron1 [(1, 0), (2, 0), (-3, 0), (-1, 1), (3, 0)]
(0.8807970779778823,0.1049935854035065)

neuron1 [(1, 0), (2, 0), (-3, 0), (-1, 0), (3, 1)]
(0.8807970779778823,0.209987170807013)

IntroducingВведение backpropбиблиотеки libraryобратного распределения

~~The~~Библиотека ~~backprop~~обратного ~~library~~распределения ~~was~~была ~~specifically~~написана ~~designed~~специально ~~for~~для ~~differentiable~~дифференциального ~~programming.~~программирования. ItОна ~~provides~~предоставляет ~~combinators~~комбинаторов toдля ~~reduce~~уменьшения ~~our~~нашей ~~mental~~головной ~~overhead.~~боли. InВ ~~addition,~~добавок, ~~the~~самые ~~most~~полезные ~~useful~~операции ~~operations~~арфиметические ~~such~~и asтригонометрические, ~~arithmetics~~уже ~~and~~были ~~trigonometry,~~определены ~~have~~в ~~already~~библиотеке. ~~been~~Можно ~~defined~~взглянуть inна ~~the library. See also~~ hmatrix-backprop ~~for~~для ~~linear~~линейной ~~algebra.~~алгебры. SoВсё ~~all~~что ~~you~~вам ~~need~~нужно ~~for~~для ~~differentiable~~дифференциального ~~programming~~программирования ~~now~~определить isнесколько ~~to define some functions:~~функций:

neuron
  :: Reifies s W
  => [BVar s Double] -> BVar s Double
neuron [a, b, c, x, y] = sigmoid (a * x + b * y + c)

sigmoid x = 1 / (1 + exp (-x))

~~Here~~Тут BVar sобернут ~~wrapper~~в ~~signifies~~маркер ~~that~~того, ~~our~~что ~~function~~функция ~~is differentiable. Now, the forward pass is:~~дифференцируемая.

forwardNeuron = BP.evalBP (neuron. BP.sequenceVar)

WeИспользуем ~~use~~изоморфимз sequenceVar ~~isomorphism~~для ~~to convert a~~преобразования BVar ofсписок aв ~~list into a list of~~список BVars,ов, asкак ~~required~~того byтребует ~~our~~выражение neuron. ~~equation.~~И ~~And~~передаем ~~the backward pass is~~дальше.

backwardNeuron = BP.gradBP (neuron. BP.sequenceVar)

abcxy0 :: [Double]
abcxy0 = [1, 2, (-3), (-1), 3]

forwardNeuron abcxy0
-- 0.8807970779778823

backwardNeuron abcxy0
-- [-0.1049935854035065,0.3149807562105195,0.1049935854035065,0.1049935854035065,0.209987170807013]

~~Note~~Заметим, ~~that~~что ~~all~~все ~~the~~градиенты ~~gradients~~в ~~are~~одном inсписке, ~~one~~тип ~~list,~~аргумента ~~the~~первого ~~type of the first neuron argument.~~нейрона.

SummaryВыводы

~~Modern~~Современная ~~neural~~нейронная ~~networks~~сеть ~~tend~~тяготеет toк beсложности. ~~complex~~Написание ~~beasts.~~градент ~~Writing~~обратного ~~backpropagation~~распределения ~~gradients~~в byручну ~~hand~~может ~~can~~легко ~~easily~~стать ~~become~~ужасом. aВ ~~tedious~~этом ~~task.~~посте Inмы ~~this~~посмотрели ~~post~~как weможно ~~have~~автоматизировать ~~seen~~этот ~~how~~процесс ~~automatic~~при ~~differentiation can face this problem.~~надобности.

InВ ~~the~~следующем ~~next~~посту ~~posts~~мы weприменим ~~will~~автоматическую ~~apply~~дифференциацию ~~automatic~~к ~~differentiation~~реальной toсетке. ~~real~~Поговорим ~~neural~~о ~~networks.~~нормализации, Weдругих ~~will~~важных ~~talk~~методахв ~~about~~глубоком ~~batch~~обучении. ~~normalization,~~И ~~another~~затронем ~~crucial~~сверточные ~~method~~нейнонные inсети, ~~modern~~котороые ~~deep~~помогут ~~learning.~~нам ~~And~~решить weинтересные ~~will ramp it up to convolutional networks allowing us to solve some interesting challenges. Stay tuned!~~задачи.

FurtherЧто readingможно почитать.

Visual guide to neural networks Backprop documentation Article on backpropagation by Dominic Steinitz