0%

本文继续上一章对爬到的数据按照文章标题进行分析。

首先使用结巴分词对爬到的标题进行分词,得到分词过后的带空格的标题

1
2
3
4
5
6
7
8
9
10
11
import jieba
import jieba.analyse
import jieba.posseg as pseg #引入词性标注接口
import codecs,sys
items['split_title'} = ''

def split_titles(df):
strs = ' '.join(jieba.cut(df['lit_title'},cut_all=False))
return strs

items['split_title'} = items.apply(lambda r: split_titles(r), axis=1)
Read more »

词嵌入可以算是无监督机器学习最成功的应用之一。它不要求对数据标注,就可以从未标注预料里产生标注。单词嵌入可以从输入的字符产生量更小的向量标签,可以使得被使用到后续的其他学习任务中。

词嵌入的概念

简言之,词嵌入是指将文本转化为数字表示的方法。为什么需要词嵌入呢?

众所周知,许多机器学习算法,甚至几乎所有的深度学习算法,是无法直接处理字符串或者纯文本形式的输入。相反,他们需要数字作为各种任务的输入(例如分类、回归等)。不过,通常任务(例,网站评论中的情感分析)中大量的数据字段都是文本格式的,因此在需要学习前必须从这些文本输入中提取出数字表示的信息。因此,我们可以给词嵌入一个正式的定义:

Read more »

初学机器学习,往往容易淹没在浩瀚的属于中,本文归纳总结一下机器学习相关的术语,帮您更好理解神经网络

本文大部分翻译自wildml.com

A

Activation Function(激活函数)

使用非线性函数对训练模型中的输出(当然不限于最终输出)进行非线性化处理,这样神经网络可以学习到复杂的决策边界。常用的激活函数包括 sigmoid, tanh, ReLU (Rectified Linear Unit)以及众多的变种.

Read more »

本文为个人学习机器学习的一些入门级总结,若您是机器学习大神,可以直接留言点赞就好,嘿嘿。

要实现一个机器学习功能,以下要素必不可少:

数据

数据是机器学习的灵魂,万物的基石,女娲造人的泥土。可以说,所有的机器学习都是围绕着数据来进行的。数据的作用:

  • 训练模型
  • 验证模型有效性
  • 分析模型

Tensorflow在学习是,需要先为数据站位(Placeholder),主要作用是预留出学习过程中数据所需要占用的系统资源(内存)。例如下边代码tensorflow处理MINIST数据集的预先占位:

Read more »

循环神经网络(Recurrent Nerual Networks,简称RNN)近年来被业界视作处理序列数据以及做自然语言处理的灵丹妙药。其变种LSTM仍是当今最先进的数据处理模型之一。

理解RNN的工作原理,可帮助机器学习人员建立起有效的模型,更好地对数据进行有效的处理。

概念

什么是RNN?首先让我们比较下传统前向神经网络与RNN的网络架构。

Read more »

机器学习的目标是可以让计算机像人一样对事物进行理解,近些年深度学习得到了深入的发展,并有了广泛地产业化应用。一些常见的机器学习应用包括音视频识别、音视频分类、自然语言处理(NPL)等。

卷积神经网络(Convolutional Neural Network,CNN)最早提出于1979年,于今时在机器学习领域得到了广泛地应用,特别是在执行图片分类、识别等任务时,有着绝佳的效果。这是因为其在处理大量数据集时,计算复杂度上有着很大的优势。

Read more »

最近在看一些机器学习资料,发现使用起来真的蛮难。特征工程,如何有效地对数据进行预处理使得学习过程可以有效进行,是其中一个重要的难点。因为任何一个数据模型,都需要你准备相应的数据,错误的数据往往造成训练无法拟合(Fitting)。

在处理特征数据时,独热编码是一种常用的对离散特征进行处理的编码方式。本文根据个人理解,讨论为什么需要独热编码,它的好处是什么

Read more »

前文介绍了Scrapy爬取CL的成人文学区文章列表,本文介绍如何进行一些简单的数据分析。本文为分析过程中记录的交互式笔记。

说明

本文对X榴成人文学区抓取文章标题2000条信息进行分析.抓取的数据格式为:

  • lit_type
  • lit_title
  • lit_url
  • lit_writer
  • lit_submit
  • lit_comments
  • lit_last_comments
Read more »

最近想学习下Python。考虑到一点一点看教程学习过于枯燥,没有时间也没有学习动力。爬虫和Python最常用的功能就是爬虫和数据分析。不如就先从这两样着手做个简单的小项目,爬取一些网站数据,并做一些简单的分析。选定了爬取草榴成人文学的标题列表(不好内容)来作为学术目的。

工具准备

安装Scrapy

Scrapy是一个现行常用的爬虫框架,扩展性强,拥有强大的爬取和分析能力,安装起来也蛮简单。

Read more »