天津一日游记 从“潜伏”到跃然眼前,只需要带着临时兴起的念头,乘坐一次八分钟一列的高铁,开启一次京津的徒步之旅。 从地下爬上来,津湾广场与天津站隔岸相对,海河便在中间舞动着翠绿的水袖,沿途的景色仿佛刺绣般印在了衣面上。无需做任何计划,你尽管踏着袖边行进,尽情地感受海河送来的清凉。垂柳在微风中摆弄着发丝,妩媚的姿态尽展露在倒影之中。时而探出水面的鱼儿激起圈圈涟漪,将垂柳圈禁在这方寸的土地之上。 每一座桥都有它自己 2024-06-15 随笔 #生活 #徒步 #天津
颐和园游记 原是安排了故宫的行程,临行的些许疏漏,只得变了行程,幸好颐和园也是值得一看的!两个小时的路程虽不显得亲切,但我是愿意花些时间和精力去探上一探的! 初入北宫门,走上几百米,顺着人流,经过了狭小的闸口,便可以沿着苏州街走上一圈,多少可以抚慰些未能成行苏州的失落感。狭窄的沿水小道,复古的商铺建筑,确是和印象中江南水乡的意象有些相符的。出了苏州街,上几步台阶,脑海中便只有“檐牙高啄,勾心斗角”这样的形容, 2024-06-08 随笔 #生活 #北京 #颐和园
追逐乌云与落日 风吹沉了大地,乌云卷起了天。 在北京,寻常时候难得有心情去追逐一番落日,观赏一场风吹云卷。虽然北京的景观总归算是不错的,但却难以让人生出一探究竟的心思。这里的人是被埋没在市井之中的,谁要是想探出脑袋来看上一看,那定然是要蹭破了头皮!而我总想做一个闲人,至少应该是可以忙里偷闲的人,许我有些闲情逸致,不至于落俗。但生活不唯享乐,雅致又不免勤劳,我的生活是懒惰的,而我所享受的,总也是俗套的。时而的无病呻 2024-06-01 随笔 #生活 #北京
指标异动检验与归因分析 1、背景描述 在某业务场景中,需要每天观测收入这个指标,并根据实际业务动作、各个维度的变动情况、数据变化趋势等信息来判断当日的数据是否属于异常。如果数据异常,那么相应的,需要找到造成异常的主要因素。 2、数据介绍与指标拆解 当前可用的收入指标数据仅可回溯两年半,约870条,业务人员依据人工规则为最近半年的数据打上了标签,即打标数据约140条,其中异常标签数据11个。 如果判定了当天的收入指标属于 2024-05-31 机器学习 > 技能 > 统计学 #时间序列 #异动归因 #gini系数 #解释度 #二分类 #指标拆解
数据倾斜及其一般解决方法 在使用分布式计算框架如Apache Hadoop和Apache Spark处理海量数据集进行高效计算时,经常会面临数据倾斜的问题,严重影响分布式计算的性能和效率。 什么是数据倾斜? 数据倾斜指的是在分布式数据处理中,数据在集群中的不均匀分配。导致部分计算节点处理的数据远多于其他节点,从而造成部分节点过载,延长整体的处理时间,降低计算效率。 例如:在分析用户对商品的点击行为时,少数热点商品的点击数据 2024-04-11 技能 #spark #数据倾斜 #分布式计算
Transformer解读 Transformer 原文 《Attention is All You Need》 Transformer 整体结构 1 模型输入表示 1.1 单词编码 对于给定的语料库,将其进行分词,统计词频,按照词频进行降序排序,给每一个词分配一个索引,也就是说词频越大的单词,其索引值越小,词频最大的单词索引为0。 然后将每一个单词映射为一个向量,这个向量就是单词的编码,向量可以使用one-hot编码(也可 2024-04-03 技能 #深度学习 #注意力机制 #Transformer
uplift建模之元学习器 1. 辛普森悖论 辛普森悖论描述的是,当我们尝试探究两种变量(比如新生录取率与性别)是否具有相关性的时候,会分别对之进行分组研究。然而,在分组比较中都占优势的一方,在总评中有时反而是失势的一方。 我们以新生录取率与性别的关系研究为例,美国一所大学在招生时进行了一项统计,结果如下 学院 女生申请人数 女生录取人数 女生录取率 男生申请人数 男生录取人数 男生录取率 合计申请 合计录取 合计录取 2024-03-06 机器学习 #uplift #元学习器 #因果推断 #辛普森悖论 #倾向性得分
使用Python的 globals(), locals() 和 exec() 动态创建变量 使用Python的 globals(), locals() 和 exec() 动态创建变量 问题描述 我们有一个值的列表,需要为每个值创建一个独立的变量。例如,我们有一个包含100个元素的列表,我们想要创建100个变量,每个变量的名称为v1, v2, …, v100,并且每个变量的值对应列表中的一个元素。 使用globals()函数 globals()函数返回一个全局命名空间的字典。我们可以使用这 2024-01-30 技能 #python
Github拒绝连接 问题描述 当以ssh方式clone/push一个项目时,出现拒绝连接的提示。 $ git clone git@github.com:name/project.git Cloning into 'project'... ssh: connect to host github.com port 22: Connection refused fatal: Could not rea 2024-01-29 技能 #Github #port 22
大模型入门 使用预训练大模型推理 1 安装必要的库 pip install torch torchvision transformers 2 导入必要的库,并且加载预训练模型和相应的分词器 from transformers import GPT2LMHeadModel, GPT2Tokenizer # 初始化模型和分词器 tokenizer = GPT2Tokenizer.from_pretrain 2024-01-26 机器学习 #python #大模型 #GPT2 #预训练 #pytorch #transformers