CS145 Intro to databases 学习笔记2——Relational Algebra、SQL
前言本文是学习standford CS145 Introduction to Databases系列视频的第二篇笔记,内容主要包括第五章和第六章查询Relational Model的两种表达形式:
关系代数(Relational Algebra)
SQL
视频链接:Introduction to Databases - Jennifer Widom - Stanford
一、Relational Algebra1. 基本的运算符在下述表述中,$E$代表表达式,可以为任意下述符号和关系(也就是表)的组合
$\Pi_{A_1, A_2, …, A_n} (E)$: project运算,$A_1, A_2, …, A_n$为列名,用于取出特定的几列
$\sigma_{condition} (E)$:select运算,$condition$表示应当满足的条件,用于筛选特定的几行
$E_1 \times E_2$:叉积运算,取$E_1$的所有元组和$E_2$的所有元组做组合,结果行数为两者行数的乘积,列数为两者列数之和
$E_1 \cup E_2$:并运算,为二元运算符,其中,$E_1$和$ ...
CS145 Intro to databases 学习笔记1——Relational Model、XML、JSON
零、前言1. 碎碎念前几天真是煎熬啊,也可能是没写博客输出内容,学的有些不安QwQ。。学计算机网络在哈工大和湖科大两个视频之间左右横跳,概念的东西有些太多了看的很不爽,耐心濒临崩溃。。又去做一下GAN的实战案例,自己是写不出来的,跑别人的代码也死慢死慢的。最后决定先放一放,来看数据库系统好了
2. 本文概述本文是学习standford CS145 Introduction to Databases系列视频的第一篇笔记,内容主要包括第二章第四章的三种数据模型:
Relational Model
XML
JSON
视频链接:Introduction to Databases - Jennifer Widom - Stanford
一、Relational Model1. Relational Model的介绍1.1 Relational Model的定义Schema是指对数据库结构的描述Instance是指在数据库运作时出现的真实数据
Schema——structural description of relations in databaseInstance——actual con ...
挑战杯网申培训讲座
前言听了个学校双创训练营的挑战杯网申培训讲座,把截下来的ppt整理一下水一篇博客咦嘻嘻嘻
侵删
一、赛道盘点1. 往届“挑战杯”获奖盘点:
共有来自3011所高校的142.4万名学生参赛,累计提交33万余个创新创业项目,其中金奖项目154个,银奖项目309个,铜奖项目1079个
各赛道获奖情况:1、科技创新和未来产业: 42项金奖 (职业院校8项);2、乡村振兴和农业农村现代化:31项(院校6项)3、社会治理和公共服务: 36项 (职业院校6项);无人机检测防控2、桥梁/山区弯道/基建3、医疗项目5(胃肠道检测/病理诊断/用药/癌症预防等)、乡村健康/女性健康3、留守儿童/孤独症2、防火减灾2、海洋河流检测2数据隐私1、中小学科普1、非遗14、生态环保和可持续发展: 25项 (院校4项)双碳4、防生阻燃、催化剂4、结构纤维、水下机器人、喷雾、新能源、固废、降解及再生循环5、文化创意和区城合作:20项 (业院校4项)
高校获奖情况共有113所高校荣获金奖,北京理工大学以7金1银,金奖总数第一、总分第一的优异成绩捧得“挑战杯”,问鼎中国大学生创新创业竞赛最高集体荣誉5、华中科技大学 ...
深度学习笔记——卷积神经网络、自编码器
前言发现虽然玩了一次卷积神经网络,但还没有写文章分析下它在干什么。
and今天瞅了眼自编码器和深度生成模型,生成宝可梦感觉真好玩啊(x
视频链接:李宏毅机器学习中文课程 - 网易云课堂 (163.com)
一、卷积神经网络1. 应用场景
在图片处理中,我们想要捕捉的特征远比整张图片的尺寸要小,无需对所有像素作线性组合
我们想要捕捉的特征可以在图片的不同位置出现,因此一些hidden layer的参数会相等导致冗余
降低图片的分辨率几乎不会影响判断结果,可以降低数据维度加快计算
我们将以上三点更加抽象地描述为:
1. 特定信息只存在于完整数据中的一部分2. 特定信息在完整数据中多次出现3. 降采样对结果不会有影响
2. 解决方案
在卷积层:利用卷积核抽取我们需要的特定信息,卷积核只作用于输入数据中的一定区域(解决了问题1),并以一定步长在输入数据上移动(解决了问题2)。
在池化层:用某个数值代表特定区域的数值,成倍地降低数据地空间大小(解决了问题3)
3. 更多示例当一个问题满足上述的三个条件时,就可以利用卷积神经网络来train一个合适的模型。
实际上,卷积和池化不一定要同时出 ...
机器学习笔记——概率生成模型
前言吴恩达的视频里没提到概率生成模型,在李宏毅的作业2看到了,感觉挺有必要理解的,可以很自然而然地引出逻辑回归的模型。
参考:李宏毅机器学习中文课程 - 网易云课堂:分类:概率生成模型
一、问题描述已知m组数据$x^{(1)}, x^{(2)}, …, x^{(m)}$,每组数据表示n个特征,可写为一个n维的向量即:(x^{(i)})^T = ( x^{(i)}_1, ..., x^{(i)}_n)且每组数据的真实值$y^{(i)}$只能为0或1
给定一个数据$x$,预测$x$对应的$y$值。
二、解决方案1. 贝叶斯公式求概率表达式由题可知,我们根据真实值将$m$组数据分为两类$C_0$和$C_1$,其中$C_0$代表真实值为$0$的数据的集合,一共有$m_0$组,$C_1$代表真实值为$1$的数据的集合,一共有$m_1$组
那么给定数据$x$,由贝叶斯公式,$x$出现在$C_0$的概率为
P(C_0 | x) = \frac{P(x | C_0) P(C_0)} { P(x | C_0) P(C_0) + P(x | C_1) P(C_1) }P(C_0 | x) = \frac{ ...
深入分解机器学习实战作业模板代码——二分类、卷积神经网络
前言刷完理论课去找实战打,找了李宏毅的课程实战,教的是Keras,代码能一行行分析明白,但是是真的一点都不会写。于是去b站找视频补了点实战知识。
本篇文章将分解作业2和作业3提供的模板代码,提炼出模型训练时的常用操作,包括csv文件的输入输出,numpy的数组操作,keras训练模型的步骤等。
实战来自李宏毅的机器学习课程:李宏毅机器学习中文课程 - 网易云课堂 (163.com)
Keras实战视频链接:深度学习框架【Keras项目实战】
作业Kaggle链接:
收入预测:ML2019SPRING-hw2 | Kaggle
图片情绪分类:ML2019SPRING-hw3 | Kaggle
一、问题描述1. 收入预测根据给定的个人资讯,预测此人的收入能否大于50K。
数据集X_train包含许多个人信息,Y_train对应他们年收入是否大于50K。训练一个二分类模型,对X_test作预测。
模板代码:
概率生成模型(Probabilistic Generative Model): ProbabilisticGenerativeModel (ntumlta2019.github.io ...
搭建hexo博客时,deploy出现ssh连接超时的问题
一、问题描述hexo cl和hexo g都没有问题,但是在hexo d步骤出现了:
1234ssh: connect to host github.com port 22: Connection timed out fatal: Could not read from remote repository. Please make sure you have the correct access rights and the repository exists. FATAL Something's wrong. Maybe you can find the solution here: https://hexo.io/docs/troubleshooting.html Error: Spawn failed
二、解决方案参考:关于本地git通过ssh链接github时 time out问题的解决方法_github timeout-CSDN博客)
在C:\Users\YourUserName\ .ssh目录下找到config文件,没有就新建一个(其中,YourUserNa ...
机器学习笔记——异常检测、推荐系统、大规模机器学习、图片OCR
前言完结撒花!!!但是感觉只是了解了部分算法的思想,具体的实现还得找东西练一练。
该篇笔记包括:
第十五章————异常检测
第十六章————推荐系统
第十七章————大规模机器学习
第十八章————图片OCR
视频链接:[中英字幕]吴恩达机器学习系列课程
一、异常检测(Anomaly Detection)1. 问题动机在正常和异常的数据集都很大的时候,我们可以使用监督学习的算法,对正常类别以及出现各种异常类别进行区分。
但是,当异常的数据集较小而且异常种类很多时,监督学习很难对异常有明确的感觉,我们更倾向于使用接下来要提到的异常检测算法。
2. 异常检测算法2.1 数据划分已知数据集有较大量的正常样本,以及少量异常样本,例如:10000正常样本,20异常样本。我们将其划分为:
训练集:6000正常样本
验证集:2000正常样本,10异常样本
测试集:2000正常样本,10异常样本
2.2 算法描述给定训练集$(x^{(1)}, x^{(2)}, …, x^{(m)})$,样本的每一特征都互相独立且满足正态分布,即$x_j \sim N(\mu_j, \sigma_j^2)$
得 ...
机器学习笔记——机器学习系统设计、支持向量机(SVM)、K-Means算法、主成分分析法(PCA)
前言这两天刷了四章视频,再来复盘一下:
第十一章————机器学习系统设计
第十二章————支持向量机
第十三章————K-Means算法
第十四章————主成分分析法
视频链接:[中英字幕]吴恩达机器学习系列课程
一、机器学习系统设计
快速构建一个较为简单的模型,然后对模型进行验证,再决定下一步应该怎么优化,而不是过早地去优化。
在引入新的想法时,可对有无引入该想法地不同模型作验证,由单一指标确定引入新想法是否有效
在对偏斜类(或者 不对称类)作误差评估时,应该考虑到查准率(Percision, or P)和召回率(Recall, or R),定义$F = 2\frac{PR}{P+R}$,通过比较$F$值选择模型保证两者处于较高的水平
在模型低偏差的情况下,增大数据集保证低方差,能有效提高模型效能。
二、支持向量机(Support Vector Machine, or SVM)1. 逻辑回归的局限性在分类问题中,当两个类别之间间隔较大时,我们能够得到许多不同的决策边界将其正确划分。但是不同的决策边界之间也有优劣性:当决策边界与样本点相隔很近时,新的样本稍微有点不同就可能导致模型 ...
一文讲清楚机器学习中的正则化、神经网络、机器学习诊断法
前言学习吴恩达机器学习视频的第二篇笔记,内容包括:
第七章————正则化
第八、九章————神经网络
第十章————机器学习诊断法
个人博客页:一文讲清楚机器学习中的正则化、神经网络、机器学习诊断法 | Andrew的个人博客 (andreww1219.github.io)
一、正则化1. 应用背景在前面对线性回归、逻辑回归的学习中,我们都是构造一个假设$h_\theta(x)$,然后得到他的损失函数$J(\theta)$,对其进行梯度下降操作使损失函数的值尽可能小。总而言之,就是对我们的训练集作出最好的拟合。
然而,当我们增加特征的维度,完美地去拟合我们的训练集时,会得到一条相当扭曲,不具有泛化性地曲线,这就是过拟合的问题。解决过拟合问题主要有以下两个手段:
减少特征的数量$n$
采用正则化(也就是我们今天要介绍的内容)
2. 什么是正则化?我们采集了许多特征,并且相信这些特征对假设的预测值是有用的,并不想去舍弃它,又担心过拟合的问题。所以我们尽可能减小每个特征或某个特征对整体预测值的影响,在损失函数中增加对高特征值的惩罚,这就是正则化的思想。
3. 线性回归中的正则化3.1 ...