0%

本文为个人学习机器学习的一些入门级总结,若您是机器学习大神,可以直接留言点赞就好,嘿嘿。

要实现一个机器学习功能,以下要素必不可少:

数据

数据是机器学习的灵魂,万物的基石,女娲造人的泥土。可以说,所有的机器学习都是围绕着数据来进行的。数据的作用:

  • 训练模型
  • 验证模型有效性
  • 分析模型

Tensorflow在学习是,需要先为数据站位(Placeholder),主要作用是预留出学习过程中数据所需要占用的系统资源(内存)。例如下边代码tensorflow处理MINIST数据集的预先占位:

Read more »

循环神经网络(Recurrent Nerual Networks,简称RNN)近年来被业界视作处理序列数据以及做自然语言处理的灵丹妙药。其变种LSTM仍是当今最先进的数据处理模型之一。

理解RNN的工作原理,可帮助机器学习人员建立起有效的模型,更好地对数据进行有效的处理。

概念

什么是RNN?首先让我们比较下传统前向神经网络与RNN的网络架构。

Read more »

机器学习的目标是可以让计算机像人一样对事物进行理解,近些年深度学习得到了深入的发展,并有了广泛地产业化应用。一些常见的机器学习应用包括音视频识别、音视频分类、自然语言处理(NPL)等。

卷积神经网络(Convolutional Neural Network,CNN)最早提出于1979年,于今时在机器学习领域得到了广泛地应用,特别是在执行图片分类、识别等任务时,有着绝佳的效果。这是因为其在处理大量数据集时,计算复杂度上有着很大的优势。

Read more »

最近在看一些机器学习资料,发现使用起来真的蛮难。特征工程,如何有效地对数据进行预处理使得学习过程可以有效进行,是其中一个重要的难点。因为任何一个数据模型,都需要你准备相应的数据,错误的数据往往造成训练无法拟合(Fitting)。

在处理特征数据时,独热编码是一种常用的对离散特征进行处理的编码方式。本文根据个人理解,讨论为什么需要独热编码,它的好处是什么

Read more »

前文介绍了Scrapy爬取CL的成人文学区文章列表,本文介绍如何进行一些简单的数据分析。本文为分析过程中记录的交互式笔记。

说明

本文对X榴成人文学区抓取文章标题2000条信息进行分析.抓取的数据格式为:

  • lit_type
  • lit_title
  • lit_url
  • lit_writer
  • lit_submit
  • lit_comments
  • lit_last_comments
Read more »

最近想学习下Python。考虑到一点一点看教程学习过于枯燥,没有时间也没有学习动力。爬虫和Python最常用的功能就是爬虫和数据分析。不如就先从这两样着手做个简单的小项目,爬取一些网站数据,并做一些简单的分析。选定了爬取草榴成人文学的标题列表(不好内容)来作为学术目的。

工具准备

安装Scrapy

Scrapy是一个现行常用的爬虫框架,扩展性强,拥有强大的爬取和分析能力,安装起来也蛮简单。

Read more »

前言

想游 新疆 已久,一直因为某些众所周知的因素不敢出行。终于,趁着这段空档期,恰在X程订到了1500一人的端午开始的8天7晚 北疆 游,便开始这场说走就走的旅行。后来根据一路的住宿游玩等内容算起来,这段行程对旅行社一定是亏本赚吆喝买卖。

行程

动身:
我们是从 成都 出发,由于想(机)多玩(票)地方(贵),真正动身先坐火车卧铺到 兰州 ,从 兰州转机到 乌鲁木齐

Read more »

垃圾回收(Garbage Collection。 注:其实“垃圾回收”比较像是直译,叫“块回收”似乎比较恰当 )机制的主要作用是为了回收空闲或接近空闲的Nand块(Block),供文件系统后续使用(例如,创建文件、扩展文件大小、修改文件内容)。第一章《概述》启动代码分析 yaffs_bg_start函数,其作用就是启用Linux内核线程,专门用来做垃圾回收。因为是内核线程做垃圾回收,后台工作找到可以回收的Flash块就用内核空闲的时间做回收,因此较大程度提升了Yaffs的工作性能。

Read more »