Искусственный нейрон. Структура искусственного нейрона

Искусственный нейрон

Схема искусственного нейрона
1.Нейроны, выходные сигналы которых поступают на вход данному
2.Сумматор входных сигналов
3.Вычислитель передаточной функции
4.Нейроны, на входы которых подаётся выходной сигнал данного
5. - веса входных сигналов

Иску́сственный нейро́н (Математический нейрон Маккалока - Питтса , Формальный нейрон ) - узел искусственной нейронной сети , являющийся упрощённой моделью естественного нейрона . Математически, искусственный нейрон обычно представляют как некоторую нелинейную функцию от единственного аргумента - линейной комбинации всех входных сигналов. Данную функцию называют функцией активации или функцией срабатывания , передаточной функцией . Полученный результат посылается на единственный выход. Такие искусственные нейроны объединяют в сети - соединяют выходы одних нейронов с входами других. Искусственные нейроны и сети являются основными элементами идеального нейрокомпьютера .

Биологический прототип

Биологический нейрон состоит из тела диаметром от 3 до 100 мкм, содержащего ядро (с большим количеством ядерных пор) и другие органеллы (в том числе сильно развитый шероховатый ЭПР с активными рибосомами , аппарат Гольджи), и отростков. Выделяют два вида отростков. Аксон - обычно длинный отросток, приспособленный для проведения возбуждения от тела нейрона. Дендриты - как правило, короткие и сильно разветвлённые отростки, служащие главным местом образования влияющих на нейрон возбуждающих и тормозных синапсов (разные нейроны имеют различное соотношение длины аксона и дендритов). Нейрон может иметь несколько дендритов и обычно только один аксон. Один нейрон может иметь связи с 20-ю тысячами других нейронов. Кора головного мозга человека содержит 10-20 миллиардов нейронов.

История развития

При этом возможен сдвиг функции по обеим осям (как изображено на рисунке).

Недостатками шаговой и полулинейной активационных функций относительно линейной можно назвать то, что они не являются дифференцируемыми на всей числовой оси, а значит не могут быть использованы при обучении по некоторым алгоритмам.

Пороговая функция активации

Пороговая передаточная функция

Гиперболический тангенс

Здесь - расстояние между центром и вектором входных сигналов . Скалярный параметр определяет скорость спадания функции при удалении вектора от центра и называется шириной окна , параметр определяет сдвиг активационной функции по оси абсцисс. Сети с нейронами, использующими такие функции, называются RBF-сетями. В качестве расстояния между векторами могут быть использованы различные метрики , обычно используется евклидово расстояние:

Здесь - j-я компонента вектора, поданного на вход нейрона, а - j-я компонента вектора, определяющего положение центра передаточной функции. Соответственно, сети с такими нейронами называются вероятностными и регрессионными .

В реальных сетях активационная функция этих нейронов может отражать распределение вероятности какой-либо случайной величины , либо обозначать какие-либо эвристические зависимости между величинами.

Другие функции передачи

Перечисленные выше функции составляют лишь часть от множества передаточных функций, используемых на данный момент. В число других передаточных функций входят такие как :

Стохастический нейрон

Выше описана модель детерминистического искусственного нейрона, то есть состояние на выходе нейрона однозначно определено результатом работы сумматора входных сигналов. Рассматривают также стохастические нейроны, где переключение нейрона происходит с вероятностью, зависящей от индуцированного локального поля, то есть передаточная функция определена как

где распределение вероятности обычно имеет вид сигмоида

a нормировочная константа вводится для условия нормализации распределения вероятности . Таким образом, нейрон активируется с вероятностью P(u). Параметр T - аналог температуры (но не температуры нейрона!) и определяет беспорядок в нейронной сети. Если Т устремить к 0, стохастический нейрон перейдет в обычный нейрон с передаточной функцией Хевисайда (пороговой функцией).

Моделирование формальных логических функций

Нейрон с пороговой передаточной функцией может моделировать различные логические функции. Изображения иллюстрируют, каким образом можно, задав веса входных сигналов и порог чувствительности, заставить нейрон выполнять конъюнкцию (логическое «И») и дизъюнкцию (логическое «ИЛИ») над входными сигналами, а также логическое отрицание входного сигнала . Этих трех операций достаточно, чтобы смоделировать абсолютно любую логическую функцию любого числа аргументов.

Примечания

Литература

  • Терехов В.А., Ефимов Д.В., Тюкин И.Ю. Нейросетевые системы управления. - 1-е. - Высшая школа, 2002. - С. 184. - ISBN 5-06-004094-1
  • Круглов В. В., Борисов В. В.
нейрона . Каждый вход умножается на соответствующий вес , аналогичный синаптической силе, и все произведения суммируются, определяя уровень активации нейрона .


Рис. 1.2.

На рис. 1.2 представлена модель, реализующая эту идею. Множество входных сигналов, обозначенных , поступает на искусственный нейрон . Эти входные сигналы, в совокупности обозначаемые вектором , соответствуют сигналам, приходящим в синапсы биологического нейрона . Каждый сигнал умножается на соответствующий вес , и поступает на суммирующий блок, обозначенный Каждый вес соответствует "силе" одной биологической синаптической связи. (Множество весов в совокупности обозначается вектором ) Суммирующий блок, соответствующий телу биологического элемента, складывает взвешенные входы алгебраически, создавая выход , который мы будем называть В векторных обозначениях это может быть компактно записано следующим образом:

где - константа, пороговой функцией

где - некоторая постоянная пороговая величина, или же функция , более точно моделирующая нелинейную передаточную характеристику биологического нейрона и предоставляющей нейронной сети большие возможности.


Рис. 1.3.

На рис. 1.2 блок, обозначенный , принимает сигнал и выдает сигнал Если блок сужает диапазон изменения величины так, что при любых значениях значения принадлежат некоторому конечному интервалу, то называется "сжимающей" функцией . В качестве "сжимающей" функции часто используется логистическая или "сигмоидальная" (S-образная) функция , показанная на рис. 1.3 . Эта функция математически выражается как Таким образом,

По аналогии с электронными системами активационную функцию можно считать нелинейной усилительной характеристикой искусственного нейрона . Коэффициент усиления вычисляется как отношение приращения величины к вызвавшему его небольшому приращению величины Он выражается наклоном кривой при определенном уровне возбуждения и изменяется от малых значений при больших отрицательных возбуждениях (кривая почти горизонтальна) до максимального значения при нулевом возбуждении и снова уменьшается, когда возбуждение становится большим положительным. С. Гроссберг (1973) обнаружил, что подобная нелинейная характеристика решает поставленную им дилемму шумового насыщения. Каким образом одна и та же сеть может обрабатывать как слабые, так и сильные сигналы? Слабые сигналы нуждаются в большом сетевом усилении, чтобы дать пригодный к использованию выходной сигнал. Однако усилительные каскады с большими коэффициентами усиления могут привести к насыщению выхода шумами усилителей (случайными флуктуациями), которые присутствуют в любой физически реализованной сети. Сильные входные сигналы, в свою очередь , также будут приводить к насыщению усилительных каскадов, исключая возможность полезного использования выхода. Центральная область логистической функции, имеющая большой коэффициент усиления, решает проблему обработки слабых сигналов, в то время как области с падающим усилением на положительном и отрицательном концах подходят для больших возбуждений. Таким образом, нейрон функционирует с большим усилением в широком диапазоне уровня входного сигнала

Другой широко используемой

Искусственный нейрон имитирует в первом приближении свойства биологического нейрона. На вход искусственного нейрона поступает некоторое множество сигналов, каждый из которых является выходом другого нейрона. Каждый вход умножается на соответствующий вес, аналогичный синаптической силе, и все произведения суммируются, определяя уровень активации нейрона. На рис. 1.2 представлена модель, реализующая эту идею. Хотя сетевые парадигмы весьма разнообразны, в основе почти всех их лежит эта конфигурация. Здесь множество входных сигналов, обозначенных x 1 ,x 2 , …, x n , поступает на искусственный нейрон. Эти входные сигналы, в совокупности обозначаемые векторомX , соответствуют сигналам, приходящим в синапсы биологического нейрона. Каждый сигнал умножается на соответствующий вес w 1 , w 2 , , w n , и поступает на суммирующий блок, обозначенный Σ.Каждый вес соответствует «силе» одной биологической синаптической связи. (Множество весов в совокупности обозначается векторомW .) Суммирующий блок, соответствующий телу биологического элемента, складывает взвешенные входы алгебраически, создавая выход, который мы будем называть NET.В векторных обозначениях это может быть компактно записано следующим образом:

NET =XW .

Рис. 1.2. Искусственный нейрон

        1. Активационные функции

OUT= K (NET),

где К – постоянная, пороговой функции

OUT = 1, если NET > T, OUT = 0 в остальных случаях,

где Т – некоторая постоянная пороговая величина, или же функцией, более точно моделирующей нелинейную передаточную характеристику биологического нейрона и представляющей нейронной сети большие возможности.

Рис. 1.3. Искусственный нейрон с активационной функцией

На рис. 1.3 блок, обозначенный F, принимает сигналNETи выдает сигнал OUT.Если блокF сужает диапазон изменения величины NETтак, что при любых значениях NET значения OUTпринадлежат некоторому конечному интервалу, тоF называется«сжимающей» функцией. В качестве «сжимающей» функции часто используется логистическая или «сигмоидальная» (S-образная) функция, показанная на рис. 1.4а. Эта функция математически выражается какF(x) = 1/(1 + е - x). Таким образом,

.

По аналогии с электронными системами активационную функцию можно считать нелинейной усилительной характеристикой искусственного нейрона. Коэффициент усиления вычисляется как отношение приращения величины OUTк вызвавшему его небольшому приращению величины NET.Он выражается наклоном кривой при определенном уровне возбуждения и изменяется от малых значений при больших отрицательных возбуждениях (кривая почти горизонтальна) до максимального значения при нулевом возбуждении и снова уменьшается, когда возбуждение становится большим положительным. Гроссберг (1973) обнаружил, что подобная нелинейная характеристика решает поставленную им дилемму шумового насыщения. Каким образом одна и та же сеть может обрабатывать как слабые, так и сильные сигналы? Слабые сигналы нуждаются в большом сетевом усилении, чтобы дать пригодный к использованию выходной сигнал. Однако усилительные каскады с большими коэффициентами усиления могут привести к насыщению выхода шумами усилителей (случайными флуктуациями), которые присутствуют в любой физически реализованной сети. Сильные входные сигналы в свою очередь также будут приводить к насыщению усилительных каскадов, исключая возможность полезного использования выхода. Центральная область логистической функции, имеющая большой коэффициент усиления, решает проблему обработки слабых сигналов, в то время как области с падающим усилением на положительном и отрицательном концах подходят для больших возбуждений. Таким образом, нейрон функционирует с большим усилением в широком диапазоне уровня входного сигнала.

.

Рис. 1.4а. Сигмоидальная логистическая функция

Другой широко используемой активационной функцией является гиперболический тангенс. По форме она сходна с логистической функцией и часто используется биологами в качестве математической модели активации нервной клетки. В качестве активационной функции искусственной нейронной сети она записывается следующим образом:

Рис. 1.4б. Функция гиперболического тангенса

Подобно логистической функции гиперболический тангенс является S-образной функцией, но он симметричен относительно начала координат, и в точке NET= 0 значение выходного сигнала OUTравно нулю (см. рис. 1.4б). В отличие от логистической функции гиперболический тангенс принимает значения различных знаков, что оказывается выгодным для ряда сетей (см. гл. 3).

Рассмотренная простая модель искусственного нейрона игнорирует многие свойства своего биологического двойника. Например, она не принимает во внимание задержки во времени, которые воздействуют на динамику системы. Входные сигналы сразу же порождают выходной сигнал. И, что более важно, она не учитывает воздействий функции частотной модуляции или синхронизирующей функции биологического нейрона, которые ряд исследователей считают решающими.

Несмотря на эти ограничения, сети, построенные из этих нейронов, обнаруживают свойства, сильно напоминающие биологическую систему. Только время и исследования смогут ответить на вопрос, являются ли подобные совпадения случайными или следствием того, что в модели верно схвачены важнейшие черты биологического нейрона.

Рис. 2.2. Структура искусственного нейрона

Нейрон состоит из элементов трех типов: умножителей (синапсов), сумматора и нелинейного преобразователя . Синапсы осуществляют связь между нейронами, умножают входной сигнал на число, характеризующее силу связи (вес синапса). Сумматор выполняет сложение сигналов, поступающих по синаптическим связям от других нейронов, и внешних входных сигналов. Нелинейный преобразователь реализует нелинейную функцию одного аргумента — выхода сумматора. Эта функция называется функцией активации или передаточной функцией нейрона. Нейрон в целом реализует скалярную функцию векторного аргумента.

Математическая модель нейрона:

, (2.1)

где s - результат суммирования (sum); w i - вес (weight) синапса, ; - компонент входного вектора (входной сигнал), ; b — значение смещения (bias); n - число входов нейрона; у - выходной сигнал нейрона; f — нелинейное преобразование (функция активации).

В общем случае входной сигнал, весовые коэффициенты и смещение могут принимать действительные значения, а во многих практических задачах – лишь некоторые фиксированные значения. Выход y определяется видом функции активации и может быть как действительным, так и целым.

Синаптические связи с положительными весами называют возбуждающими , с отрицательными весами — тормозящими . Описанный вычислительный элемент можно считать упрощенной математической моделью биологических нейронов. Чтобы подчеркнуть различие нейронов биологических и искусственных, вторые иногда называют нейроноподобными элементами или формальными нейронами .

На входной сигнал s нелинейный преобразователь отвечает выходным сигналом f (s ), который представляет собой выход y нейрона. Примеры активационных функций представлены в табл. 2.1, а графики наиболее распространенных активационных функций – на рис. 2.2.

Таблица 2.1

Функции активации нейронов

Название

Область значений

Линейная

Полулинейная

Логистическая (сигмоидальная)

Гиперболический тангенс (сигмоидальная)

Экспоненциальная

Синусоидальная

Сигмоидальная (рациональная)

Шаговая (линейная с насыщением)

Пороговая

Модульная

логистическая функция или сигмоид (функция S -образного вида)(рис.


2.3):

. (2.3)

При уменьшении a сигмоид становится более пологим, в пределе при a = 0 вырождаясь в горизонтальную линию на уровне 0,5, при увеличении а сигмоид приближается к виду функции единичного скачка с порогом T . Из выражения для сигмоида очевидно, что выходное значение нейрона лежит в диапазоне (0, 1). Одно из ценных свойств сигмоидальной функции — простое выражение для ее производной, применение которой будет рассмотрено в дальнейшем:

. (2.4)

Рис. 2.3. Графики активационных функций: а – функция единичного скачка; б – линейный порог (гистерезис); в – сигмоид (логистическая функция), формула (3); г – сигмоид (гиперболический тангенс)

Следует отметить, что сигмоидальная функция дифференцируема на всей оси абсцисс, что используется в некоторых алгоритмах обучения. Кроме того, она обладает свойством усиливать слабые сигналы лучше, чем большие, и предотвращает насыщение от больших сигналов, так как они соответствуют областям аргументов, где сигмоид имеет пологий наклон.

Нейронные сети

Еще в середине 1980-х гг. многие исследователи обратили внимание, что системы искусственного интеллекта ввиду их слабой способности к самообучению, встретившись с ситуацией, не предусмотренной разработчиком, либо формируют сообщение об ошибке, либо дают совершенно неправильные результаты. Для преодоления подобных проблем было предложено использовать искусственные нейронные сети.

Под искусственными НС подразумеваются вычислительные структуры, моделирующие биологические процессы, обычно ассоциируемые с процессами, происходящими в человеческом мозге. НС представляют собой распределенные параллельные системы, способные к адаптивному обучению путем анализа положительных и отрицательных воздействий. Элементарным преобразователем в данных сетях является искусственный нейрон, названный так по аналогии с биологическим прототипом .

Нервная система и мозг человека состоят из нейронов, соединенных между собой нервными волокнами, способными передавать электрические импульсы . Процессы восприятия и передачи сигналов от органов чувств (кожи, ушей, глаз) к мозгу, мышление и управление действиями − все это реализовано в живом организме в виде обмена электрическими импульсами между нейронами. Нервная клетка или нейрон является особой биологической клеткой (рис. 5.7).

Рис. 5.7. Упрощенная структура биологического нейрона

Он состоит из тела или сомы, а также отростков нервных волокон двух типов: дендритов, принимающих импульсы, и единственного аксона, по которому нейрон может передавать импульс. Тело нейрона включает ядро и плазму. Нейрон получает сигналы (импульсы) от аксонов других нейронов через дендриты (приемники) и передает сигналы, сгенерированные телом клетки, вдоль своего аксона (передатчика), который в конце разветвляется на волокна. На окончаниях этих волокон находятся специальные образования − синапсы, влияющие на амплитуду импульсов.

Синапс является элементарной структурой и функциональным узлом между двумя нейронами (волокно аксона одного нейрона и дендрит другого). Под воздействием приходящего импульса в синапсе высвобождаются химические вещества, называемые нейротрансмиттерами. Нейротрансмиттеры диффундируют через синаптическую щель, возбуждая или затормаживая, в зависимости от типа синапса, способность нейрона-приемника генерировать электрические импульсы. Результативность передачи импульса синапсом может настраиваться проходящими через него сигналами так, что синапсы могут обучаться в зависимости от активности процессов, в которых они участвуют. Эта зависимость от предыстории действует как память. Важно отметить, что веса синапсов могут изменяться со временем, а значит, меняется и поведение соответствующих нейронов.



Другими словами, каждый нейрон характеризуется внутренним состоянием и порогом возбудимости, а его входы делятся на возбуждающие и тормозящие. Поступивший на возбуждающий вход сигнал, повышает степень активности нейрона, а на тормозящий − наоборот, снижает ее. Если сумма сигналов на возбуждающих и тормозящих входах превышает порог возбудимости, то нейрон формирует выходной сигнал, поступающий на входы связанных с ним других нейронов, т.е. происходит распространение возбуждения (сигнала) по нейронной сети.

Кора головного мозга человека содержит около 10 11 нейронов и представляет собой протяженную поверхность толщиной 2−3 мм и площадью около 2200 см 2 . Каждый нейрон связан с 10 3 −10 4 другими нейронами. Таким образом, мозг человека в целом содержит приблизительно от 10 14 до 10 15 взаимосвязей.

Нейроны взаимодействуют короткими сериями импульсов продолжительностью, как правило, несколько миллисекунд. Сообщение передается посредством частотно-импульсной модуляции. Частота может изменяться от нескольких единиц до сотен герц, что в миллион раз медленнее, чем в быстродействующих электронных схемах. Тем не менее, сложные задачи распознавания человек решает всего за несколько сотен миллисекунд, что не доступно большинству современных ЭВМ. Процесс принятия решения контролируется сетью нейронов, затрачивающих на выполнение одной операции всего несколько миллисекунд. Единственным объяснением такого феномена стало предположение, что для решения таких сложных задач мозг «запускает» параллельные программы, каждая из которых содержит около 100 шагов. Явление получило название «массовый параллелизм». Основываясь на таком подходе, можно обнаружить, что количество информации, посылаемое от одного нейрона другому, должно быть очень малым (несколько бит). Из чего следует, что основная часть информации не передается непосредственно, а захватывается и распределяется в связях между нейронами .

Искусственный нейрон (далее просто – нейрон) представляет собой искусственную структуру, моделирующую свойства биологического нейрона. Одной из наиболее простых и общих моделей нервной клетки, является так называемая модель МакКаллока-Питса , представленная на рис. 5.8.

Рис. 5.8. Модель нейрона по МакКаллоку-Питсу

Математически модель нейрона можно записать следующим образом:

, (5.8)

где x ji − совокупностью сигналов на входе нейрона,

w i j − совокупностью весов входных сигналов,

s i − суммарный сигнал или функция состояния нейрона,

f i − функция активации нейрона,

y i − выходной сигнал нейрона,

N − количество входов нейрона.

Одной из первых искусственных нейронных сетей, является так называемый персептрон Розенблатта [< лат. perceptio получение, собирание]. Персептроном называют однослойную нейронную сеть, состоящую из нейронов с пороговой функцией активации .

Понятие функции активации является фундаментальным в теории нейронных сетей. Функция активизации f j определяет реакцию нейрона на совокупность внешних воздействий, выраженную величиной выходного сигнала, как функции от его текущего состояния.

В настоящее время при моделировании в нейросетевом базисе используется большое разнообразие функций активации, различающихся, главным образом, видом переходной характеристики . Наиболее часто встречающиеся функции активации приведены в табл. 5.1.