0%

循环神经网络(Recurrent Nerual Networks,简称RNN)近年来被业界视作处理序列数据以及做自然语言处理的灵丹妙药。其变种LSTM仍是当今最先进的数据处理模型之一。

理解RNN的工作原理,可帮助机器学习人员建立起有效的模型,更好地对数据进行有效的处理。

概念

什么是RNN?首先让我们比较下传统前向神经网络与RNN的网络架构。

Read more »

机器学习的目标是可以让计算机像人一样对事物进行理解,近些年深度学习得到了深入的发展,并有了广泛地产业化应用。一些常见的机器学习应用包括音视频识别、音视频分类、自然语言处理(NPL)等。

卷积神经网络(Convolutional Neural Network,CNN)最早提出于1979年,于今时在机器学习领域得到了广泛地应用,特别是在执行图片分类、识别等任务时,有着绝佳的效果。这是因为其在处理大量数据集时,计算复杂度上有着很大的优势。

Read more »

最近在看一些机器学习资料,发现使用起来真的蛮难。特征工程,如何有效地对数据进行预处理使得学习过程可以有效进行,是其中一个重要的难点。因为任何一个数据模型,都需要你准备相应的数据,错误的数据往往造成训练无法拟合(Fitting)。

在处理特征数据时,独热编码是一种常用的对离散特征进行处理的编码方式。本文根据个人理解,讨论为什么需要独热编码,它的好处是什么

Read more »

前文介绍了Scrapy爬取CL的成人文学区文章列表,本文介绍如何进行一些简单的数据分析。本文为分析过程中记录的交互式笔记。

说明

本文对X榴成人文学区抓取文章标题2000条信息进行分析.抓取的数据格式为:

  • lit_type
  • lit_title
  • lit_url
  • lit_writer
  • lit_submit
  • lit_comments
  • lit_last_comments
Read more »

最近想学习下Python。考虑到一点一点看教程学习过于枯燥,没有时间也没有学习动力。爬虫和Python最常用的功能就是爬虫和数据分析。不如就先从这两样着手做个简单的小项目,爬取一些网站数据,并做一些简单的分析。选定了爬取草榴成人文学的标题列表(不好内容)来作为学术目的。

工具准备

安装Scrapy

Scrapy是一个现行常用的爬虫框架,扩展性强,拥有强大的爬取和分析能力,安装起来也蛮简单。

Read more »

前言

想游 新疆 已久,一直因为某些众所周知的因素不敢出行。终于,趁着这段空档期,恰在X程订到了1500一人的端午开始的8天7晚 北疆 游,便开始这场说走就走的旅行。后来根据一路的住宿游玩等内容算起来,这段行程对旅行社一定是亏本赚吆喝买卖。

行程

动身:
我们是从 成都 出发,由于想(机)多玩(票)地方(贵),真正动身先坐火车卧铺到 兰州 ,从 兰州转机到 乌鲁木齐

Read more »

垃圾回收(Garbage Collection。 注:其实“垃圾回收”比较像是直译,叫“块回收”似乎比较恰当 )机制的主要作用是为了回收空闲或接近空闲的Nand块(Block),供文件系统后续使用(例如,创建文件、扩展文件大小、修改文件内容)。第一章《概述》启动代码分析 yaffs_bg_start函数,其作用就是启用Linux内核线程,专门用来做垃圾回收。因为是内核线程做垃圾回收,后台工作找到可以回收的Flash块就用内核空闲的时间做回收,因此较大程度提升了Yaffs的工作性能。

Read more »

前文对Yaffs文件系统框架Block管理,本文介绍Yaffs的检查点机制。什么是检查点机制?文件系统将目录结构存储在Nand Flash中一个特殊Block内,在Mount时快速加载,加速文件系统的加载。同时,机制也可以一定程度上避免因为突然掉电等因素造成的文件系统破坏。

本章先介绍文件的Tnode Tree,接着介绍Yaffs的checkpoint格式。

Read more »