Latice-Flat: 引入词汇让中文NER变得更强
相比于英文NER中文NER一直存在一个难点就是中文的字不是单独的词语。因此中文NER有两种方式:基于字的NER和基于词的NER,基于词的NER会因为分词引入错误的信息并且会出现OOV的情况,而基于词的NER则会错失了中文词语之间的信息。很多研究尝试将词语的信息加入基于字的NER…
相比于英文NER中文NER一直存在一个难点就是中文的字不是单独的词语。因此中文NER有两种方式:基于字的NER和基于词的NER,基于词的NER会因为分词引入错误的信息并且会出现OOV的情况,而基于词的NER则会错失了中文词语之间的信息。很多研究尝试将词语的信息加入基于字的NER…
报错类型 : The last packet successfully received from the server was 1,203,500 milliseconds ago.
在服务器端部署python服务时需要进行多种安装包依赖,使用virtualenv进行虚拟环境搭建,可以有效隔离其他应用的环境。
XGBoost 是一种集大成的机器学习算法,可用于回归,分类和排序等各种问题,在机器学习大赛及工业领域被广泛应用。成功案例包括:网页文本分类、顾客行为预测、情感挖掘、广告点击率预测、恶意软件分类、物品分类、风险评估、大规模在线课程退学率预测。 XGBoost是初学者最值得深度理…
这篇文章原先发布于2018年中旬,那会正是深度学习、神经网络无脑火热的时候。火热到什么程度?火热到显卡一度卖脱销(不是因为挖矿),研究生导师集体推荐学生转深度学习方向、毕业论文不带“深度学习”四个字都毕不了业、大街上随便拉个学生问都认识吴恩达。 就这个火的程度,我那会也毅然决然…
奇异值是矩阵中的一个非常重要的概念,一般是通过奇异值分解的方法来得到的,奇异值分解是线性代数和矩阵论中一种重要的矩阵分解法,在统计学和信号处理中非常的重要。 在了解奇异值之前,让我们先来看看特征值的概念。 在线性代数中,相似矩阵是指存在相似关系的矩阵。设A,B为n阶矩阵,如果有…
在推荐系统中,CTR预估是一个非常常见的任务,他最开始用于计算广告中用于判断广告效果的优化情况。在搜索广告中,一般通过广告的点击数量进行效果的评估和结算,因此点击率预估的准确性在效果优化中起到非常关键的作用。如果最终评估效果的指标是转化,那么还需要同时对点击之后的转化率进行估计…
1. CRF 原理 CRF 简单说 是指 概率图中相邻变量是否满足特征函数的一个模型,例如下图示例是一个商户识别的CRF应用。对输入商户输出地址,名称关键词,经营范围等信息,使用BIOS标注方法,标注如下: 2. CRF特征构造 3. CRF 在 NER 方面的应用 CRF在序…
闲鱼是国内最大的闲置二手交易社区,有着数以亿计的商品。其中,商品定价决定了一件商品是否能快速地卖出。 然而,闲鱼的大部分卖家都是个人卖家,他们通常缺乏相关的知识,因此需要商品定价指导来帮助他们更快地卖出。同时,也可以让买家看到更多更合理价格的商品,提升买卖效率。 闲鱼现阶段积累…
写在前面:序列挖掘比单纯地效用挖掘更具广泛性,因为加上时间维度才是我们日常生活经常碰到的问题,当然这也会使得问题更加复杂。通过学习USpan算法,可以初步了解序列挖掘是一个怎么样的过程,为后续研究做个基础。 高效用序列(high utility sequential patte…
Fast Data是滴普针对图像和数据打造的智能算法产品,分为图像识别和数据AI两大模块,图像识别部分主要基于深度学习和模式识别算法实现目标检测、分类、识别,机器视觉模块应用于工业缺陷检测、安防识别,其中OCR字符识别是图像识别模块的重要组成部分,接下来我们将从传统OCR的典型…
本篇文章可作为<利用变分自编码器实现深度换脸(DeepFake)>的知识铺垫。 自编码器是什么,自编码器是个神奇的东西,可以提取数据中的深层次的特征。 例如我们输入图像,自编码器可以将这个图像上“人脸”的特征进行提取(编码过程),这个特征就保存为自编码器的潜变量,例如…
本系列为新TensorRT的第一篇,为什么叫新,因为之前已经写了两篇关于TensorRT的文章,是关于TensorRT-5.0版本的。好久没写关于TensorRT的文章了,所幸就以新来开头吧~ 接下来将要讲解的TensorRT,将会是基于7.0版本。 看完本篇可以让你少踩巨多坑…
深度学习不不仅仅是理论创新,更重要的是应用于工程实际。 关于深度学习人工智能落地,已经有有很多的解决方案,不论是电脑端、手机端还是嵌入式端,将已经训练好的神经网络权重在各个平台跑起来,应用起来才是最实在的。 这里简单谈谈就在2018年我们一般深度学习落地的近况。 Opencv相…
首次开放"中文方言"语音数据集,更有百万奖金等你来挑战