lstm和external memory的区别

2024-05-14

1. lstm和external memory的区别

　　LSTM（Long Short-Term Memory,LSTM）是一种时间递归神经网络，论文首次发表于1997年。由于独特的设计结构，LSTM适合于处理和预测时间序列中间隔和延迟非常长的重要事件。

2. 为什么相比于RNN，LSTM在梯度消失上表现更好

在向量微积分中，标量场的梯度是一个向量场。标量场中某一点上的梯度指向标量场增长最快的方向，梯度的长度是这个最大的变化率。更严格的说，从欧几里得空间Rn到R的函数的梯度是在Rn某一点最佳的线性近似。在这个意义上，梯度是雅可比矩阵的一个特殊情况。

3. lstm和随机森林在时间序列上的区别

间序列建模器 图表选项卡 左勾选 拟合值 我现预测值啊啊啊啊~~

lstm和随机森林在时间序列上的区别

4. lstm dropout值多少

1 cifar10数据库 60000张32*32 彩色图片 共10类 50000张训练 10000张测试 cifar10数据库 这是binary格式的，所以我们要把它转换成leveldb格式。 2 在../caffe-windows/examples/cifar10文件夹中有一个 convert_cifar_data.cpp 将他include

5. lstm和highway networks什么关系

首先，除了 orthogonal initialization 和 uniform initialization，现在常用的还有 Gaussian initialization。不常用的还有 identity initialization 和现在“已经被时代抛弃”的 pretraining with autoencoder。这些方法在不同的场景下都被人选择了。个人感觉，比较复杂的 LSTM 用 orthogonal initialization 的人比较多，而在 research paper 讨论一个小 task 时，我看到的大部分还是说用 uniform/Gaussian。这里可能的直观的原因是后者的 layer 和 magnitude 比较少/小。

说到 layer 比较少，其实我是想说，orthogonal initialization，个人认为对于 LSTM （deep, high-dimensitional, non-convex）比较有效的原因是，（1）可以很方便地减缓 gradient vanishing/exploding problem 和 activation functions 的 saturation。因为 orthogonal matrix 的所有 vectors 都是 orthonormal 的，也就是不仅 orthogonal，还 magnitude 为 1. 这样，在计算时候，乘上这个 matrix，就可以修正 vanishing 也可以重置 saturation。（2）这个问题应该是和 saddle point 有关系，复杂的 LSTM 受 saddle point structures 带来的各种问题更严重，而基于 SVD/QR 的 orthogonal initialization 可以 decouple networks 之间的依赖，消除 non-global minima。（3）当然还有这几种 initialization 都用来破坏 symmetry。

上面这是可被证实的，下面来点个人的猜测：这和 weight variation 也有关系。

综上，有些人觉得这几种方法没区别，有人觉得有，完全是 case-by-case。我个人在实践过程中，即使是小网络，也觉得有区别。

lstm和highway networks什么关系

6. LSTM和NARX模型哪个效果好

　　语言模型主要分为规则模型和统计模型两种。
　　统计语言模型是用概率统计的方法来揭示语言单位内在的统计规律，其中N-Gram简单有效，被广泛使用。
　　N-Gram：该模型基于这样一种假设，第n个词的出现只与前面N-1个词相关，而与其它任何词都不相关，整句的概率就是各个词出现概率的乘积。
　　这些概率可以通过直接从语料中统计N个词同时出现的次数得到。
　　常用的是二元的Bi-Gram和三元的Tri-Gram。
　　语言模型的性能通常用交叉熵和复杂度（Perplexity）来衡量。
　　交叉熵的意义是用该模型对文本识别的难度，或者从压缩的角度来看，每个词平均要用几个位来编码。
　　复杂度的意义是用该模型表示这一文本平均的分支数，其倒数可视为每个词的平均概率。
　　平滑是指对没观察到的N元组合赋予一个概率值，以保证词序列总能通过语言模型得到一个概率值。
　　通常使用的平滑技术有图灵估计、删除插值平滑、Katz平滑和Kneser-Ney平滑。

7. LSTM的C++版本哪个比较好

LSTM是啥，Long Short Term Memory？弄神经网络除非你有绝对自信还是用Python吧。

LSTM的C++版本哪个比较好

8. LSTM神经网络输入输出究竟是怎样的

每个时刻的输入都是一个向量，它的长度是输入层神经元的个数。在你的问题中，这个向量就是embedding向量。它的长度与时间步的个数（即句子的长度）没有关系。
每个时刻的输出是一个概率分布向量，其中最大值的下标决定了输出哪个词。